Визуальное понимание естественного языка - это будущее ИИ
Лаборатория исследований искусственного интеллекта, OpenAI, расширила GPT-3 двумя новыми моделями, DALL·E и CLIP, сочетающими обработку естественных языков (NLP) с распознаванием изображений. Таким образом ученые пытаются дать языковым моделям лучшее понимание повседневных концепций, которые люди используют для понимания вещей.
С GPT-3 OpenAI показала, что модель глубокого обучения можно научить использовать язык различными способами, просто скормив ей огромное количество текста. Затем было продемонстрировано, что, заменив текст на пиксели, тот же подход можно использовать для обучения ИИ дорисовке незаконченных изображений. GPT-3 имитирует то, как люди используют слова; Image GPT-3 предсказывает то, что они видят.
CLIP это еще одна система распознавания изображений, только учится она не по размеченным примерам в тщательно подобранных наборах данных, а по изображениям и 32768 их описаний, случайно выбранных из Интернета.
Подобно GPT-3, CLIP способна к обобщению - может идентифицировать объекты на изображениях за пределами тренировочного набора, ее также труднее, чем другие модели распознавания изображений сбить с толку так называемыми состязательными (adversarial) примерами.
DALL·E не распознает картинки, она их рисует. Эта уменьшенная версия GPT-3, также обучена на парах текст-изображение, взятых из Интернета. На основании короткой подписи, DALL·E генерирует множество релевантных изображений.
Чтобы проверить способность DALL·E воспринимать новые концепции, исследователи дали ей подписи с описанием объектов, которые, по их мнению, система раньше не видела, например, гибрид улитки и арфы. Во всех случаях ИИ генерировал из довольно загадочного текста вполне правдоподобные изображения.
DALL·E является кандидатом для прохождения теста Lovelace 2.0, который призван заменить тест Тьюринга в качестве эталона для измерения искусственного интеллекта. В основу его положено предположение, что определяющим признаком интеллекта является способность творчески сочетать концепции.
В нынешнем виде DALL·E далека от совершенства: слишком большое количество объектов в описании запутывает ее, а перефразирование подписи другими словами иногда дает разные результаты. Есть также подозрения, что DALL·E имитирует изображения из Сети, а не создает новые.
Тем не менее, большинство исследователей ИИ сходятся в мнении, что визуальное понимание языка, это хороший способ сделать ИИ умнее, и что будущее - за подобными системами.