Facebook представил самообучающуюся систему искусственного интеллекта на основе наборов данных из Instagram
Facebook создал систему искусственного интеллекта на основе наборов данных из Instagram, которая может сделать обучение компаний более эффективным для решения ряда задач компьютерного зрения, от распознавания лиц до функций, необходимых для беспилотных автомобилей.
Компания представила новую систему в своем блоге.
Сегодня для обучения систем машинного обучения таким задачам часто требуются сотни тысяч или даже миллионы помеченных наборов данных. Создание точно размеченного набора данных для этого обучения может быть дорогостоящим и трудоемким.
Обучение маленьким шагам
Прорыв Facebook позволяет обучать модель ИИ на основе очень большого набора немаркированных данных изображений, а затем настраивать ее для широкого круга конкретных задач, связанных с компьютерным зрением, используя лишь крошечную часть объема помеченных данных, которые обычно требуются для такого программного обеспечения.
Ян ЛеКун, главный специалист по ИИ Facebook, сказал, что идея состоит в том, чтобы создать искусственный интеллект, который сможет обучаться так же, как человеческий младенец. То есть посредством наблюдения и построения мысленной модели отношений между объектами.
"Младенцы узнают, как устроен мир, наблюдая за его ни м, - сказал ЛеКун в интервью. - Если вы хорошо понимаете и представляете мир, вы можете относительно быстро справиться с любой задачей".
Вот почему большинство подростков могут научиться водить машину всего за несколько часов, сказал ЛеКун. С другой стороны, современному программному обеспечению для беспилотных автомобилей требуются миллионы смоделированных часов для достижения того же уровня производительности.
По словам ЛеКуна, способность учиться на гораздо меньшем количестве размеченных примеров имеет решающее значение для широкого спектра коммерческих приложений искусственного интеллекта. Например, в медицинской диагностике с помощью визуализации большая часть современного программного обеспечения компьютерного зрения требует десятков тысяч аннотированных примеров для достижения той же точности, что и человеческий радиолог. Но для редкого заболевания легких может не хватить десятков тысяч примеров для тренировки такой системы.
Что "видит", то и транслирует
В последние годы использование аналогичных методов в обработке естественного языка привело к гигантскому скачку вперед в возможностях программного обеспечения ИИ. Новейшие технологии могут выполнять такие задачи, как языковой перевод, обобщение документов, ответы на вопросы о тексте и написание длинных отрывков связного текста из простой подсказки, написанной человеком. Те же методы также позволили значительно повысить производительность распознавания речи для цифровых помощников, таких как Amazon Alexa и Google Assistant.
Теперь Facebook надеется, что его новый ИИ приведет к аналогичному скачку вперед в возможностях систем компьютерного зрения, а также, возможно, систем, которые могут изучать взаимосвязь между изображениями и словами, описывающими эти изображения.
Новый ИИ, который Facebook называет SEER, - это прорыв в области машинного обучения, называемого самоконтролем. Этот тип модели ИИ раскрывает взаимосвязи в данных самостоятельно, используя статистические методы, без необходимости использования помеченных данных, чтобы действовать как своего рода инструктор, который сообщает системе, как связать данный ввод с данным выводом. (SEER - это сокращение от слова "самоконтроль", согласно сообщению в блоге Facebook, в котором был опубликован анонс).
В данном случае SEER - это сверхбольшая модель компьютерного зрения, учитывающая более 1 миллиарда переменных и обученная более чем 1 миллиарду изображений из общедоступных учетных записей Instagram. Это также была тенденция самоконтроля при обработке естественного языка. Некоторые из лучших систем принимают сотни миллиардов переменных и обучаются на основе наборов данных, которые включают почти все, что публично доступно в Интернете.
В ImageNet, эталонном тесте идентификации изображения подписи в полевых условиях, SEER достиг точности 84,2%, даже несмотря на то, что он не был обучен на этих данных. Результаты превзошли лучшие предыдущие системы с самоконтролем, которые были обучены для этой задачи.
SEER также превзошел лучшие системы, которые были обучены на основе маркированных данных по таким задачам, как обнаружение объектов, сегментирование изображения на составные части и классификация изображений. Когда для обучения было предоставлено только 10% помеченных примеров ImageNet, SEER по-прежнему достиг 77,9% точности на полном наборе данных ImageNet. Используя только 1% аннотированных примеров ImageNet, ИИ достиг точности 60,5%.
ИИ использует изображения Instagram плюс хэштеги
Хотя Facebook еще не использует SEER или какой-либо другой полностью контролируемый ИИ компьютерного зрения в своих социальных сетях, ЛеКун говорит, что компания действительно использует систему со слабым контролем, прошедшую обучение на изображениях в сочетании с хэштегами Instagram. Именно этот ИИ позволяет Facebook тематически группировать фотографии пользователей для них, а также позволяет компании автоматически обнаруживать изображения ненависти или террористическую пропаганду. ЛеКун сказал, что, по его мнению, SEER, или программное обеспечение, основанное на тех же базовых алгоритмах, вероятно, станет базовой системой компьютерного зрения компании, которая в ближайшем будущем будет адаптирована для конкретных случаев использования.
Ученый признает, что размер этих очень больших систем искусственного интеллекта с самоконтролем и стоимость компьютерного оборудования, необходимого для их обучения и эксплуатации, могут испугать как руководителей предприятий, так и академических исследователей. Но он отметил, что новые достижения в области компьютерных микросхем, разработанные специально для работы с большими нейронными сетями, своего рода программное обеспечение для машинного обучения, в значительной степени основанных на модели человеческого мозга, лежат в основе последних достижений в области ИИ, включая SEER. Они значительно опережают развитие больших систем машинного обучения. Другими словами, в будущем стоимость машинного обучения должна снизиться.
ЛеКун отмечает, что даже самые массивные искусственные нейронные сети, используемые сегодня, имеют примерно столько же соединений, сколько мозг мыши. Создание машин, сравнимых с человеческим интеллектом, почти наверняка потребует гораздо более крупных программных систем.
ЛеКун, который в прошлом был лауреатом премии Тьюринга, высшей награды в области компьютерных наук, игнорировал опасения по поводу углеродного следа этих больших, самоконтролируемых моделей искусственного интеллекта. Он заявил, что все центры обработки данных в мире потребляют от 1% до 2% электроэнергии планеты, а обучение и использование алгоритмов искусственного интеллекта составляют еще меньшую часть этого количества. Он также говорит, что новые компьютерные чипы, разработанные для ИИ, более энергоэффективны, чем старое оборудование, при работе с большими системами ИИ. Так что даже если это программное обеспечение продолжит расти в размерах, его энергетический след на каждое решение со временем должен уменьшиться.
Этические вопросы
Эксперт более серьезно относится к этической проблеме, поднятой в отношении этих сверхбольших систем с самоконтролем: поскольку они обучаются на огромных объемах интернет-данных, то могут улавливать предубеждения, в том числе расовые и гендерные стереотипы, присущие таким наборам данных. Часто эти предубеждения не очевидны, пока система не развернута. Поскольку наборы обучающих данных очень велики, проверка их на предмет предвзятости может быть трудной.
Устранение таких предубеждений в системах с самоконтролем может потребовать специализированного обучения ИИ с дополнительным меньшим набором данных, специально подобранным для того, чтобы избавить систему от определенных предубеждений. Чтобы выяснить, как это сделать, необходимо провести дополнительные исследования.
Взгляды ученого из Facebook на потенциальную предвзятость систем искусственного интеллекта в прошлом доставляли ему неприятности. В прошлом году ЛеКун временно ушел из Twitter после ссоры из-за платформы социальных сетей с Тимнитом Гебру - исследователем этики ИИ, который недавно был уволен из Google после того, как выразил обеспокоенность по поводу больших, самоконтролируемых языковых моделей. Некоторые другие компьютерные ученые обвинили ЛеКуна в том, что он глухой и несправедливо властен в своих разговорах с Гебру, которая является одной из немногих выдающихся чернокожих женщин в исследованиях ИИ. В центре спора был вопрос о природе потенциального вреда, который системы ИИ могут причинить, и о том, какую ответственность должны нести исследователи машинного обучения для его устранения.
Ученый считает, что следующие шаги для методов самоконтроля, лежащие в основе SEER, - это их распространение от неподвижных изображений до видео. "Это нелегкий шаг", - сказал он, признавая, что попытки разработать системы искусственного интеллекта, обладающие достаточным пониманием мира, чтобы точно предсказать, что будет дальше в видео. Это было проблемой, которая годами ставила в тупик компьютерных ученых, в том числе и его самого. Еще одна назревшая область исследований - это "мультимодальное обучение", при котором система ИИ обучается одновременно как изображениям, так и тексту.
В основе системы SEER лежит алгоритм, который Facebook называет SwAV, сокращенно от "перестановки значений между несколькими представлениями", который включает кластеризацию изображений. Сначала алгоритм применяет к изображению некоторые искажения; в данном случае - серия обрезков, которые используются для создания нескольких "представлений" одного и того же изображения. Затем алгоритм пытается точно определить, какому кластеру следует назначить исходное изображение на основе этих альтернативных представлений.
Этот новый метод позволяет обучать систему намного эффективнее. Согласно сообщению в блоге Facebook, для такого рода обучения требовалась шестая часть данных, необходимых в предыдущих методах, основанных на сравнении всего двух изображений одновременно.
Facebook делает алгоритм SwAV открытым и бесплатным для всех. Компания также делает доступным для общественности набор компонентов для создания самоконтролируемых систем компьютерного зрения и инструментов тестирования для этих систем, называемых VISSL.