Искусственный интеллект лаборатории Open AI научился генерировать картинки из текста
Кресла в форме авокадо и маленькой редиски дайкона в пачках являются одними из причудливых образов, созданных новым программным обеспечением от OpenAI, лаборатории искусственного интеллекта при поддержке Илона Маска в Сан-Франциско.
OpenAI обучил программное обеспечение, известное как Dall-E, генерировать изображения из коротких текстовых подписей. Он специально использовал набор данных из 12 миллиардов изображений и их подписей, которые были найдены в Интернете.
Лаборатория сообщила, что Далл-И - смесь испанского художника-сюрреалиста Сальвадора Дали и Валл-И, маленького анимированного робота из одноименного фильма Pixar - научился создавать изображения для самых разных концепций.
OpenAI продемонстрировал некоторые результаты в сообщении в блоге, опубликованном во вторник. "Мы обнаружили, что он [Dall-E] обладает разнообразным набором возможностей, включая создание антропоморфных версий животных и предметов, комбинирование несвязанных концепций правдоподобными способами, рендеринг текста и применение преобразований к существующим изображениям", - написала компания.
Кресло-авокадо, сгенерированое Dall-E
Dall-E построен на нейронной сети, которая представляет собой вычислительную систему, напоминающую человеческий мозг, которая может выявлять закономерности и распознавать отношения между огромными объемами данных.
Хотя нейронные сети и раньше генерировали изображения и видео, Dall-E необычен, потому что он полагается на ввод текста, а другие - нет.
Синтетические видео и изображения в последние годы стали более изощренными, и людям стало трудно различать то, что реально, а что создано компьютером. Общие состязательные сети (GAN), в которых используются две нейронные сети, использовались, например, для создания поддельных видеороликов политиков.
OpenAI признал, что Dall-E имеет "потенциал для значительного, широкого общественного воздействия", добавив, что он планирует проанализировать, как модели, подобные Dall-E, "связаны с социальными проблемами, такими как экономическое влияние на определенные рабочие процессы и профессии, возможность предвзятости в результатах и более долгосрочные этические проблемы, связанные с этой технологией".
Преемник GPT-3
Dall-E появился всего через несколько месяцев после того, как OpenAI объявил о создании текстового генератора под названием GPT-3 (Generative Pre-training), который также поддерживается нейронной сетью.
Инструмент создания языков способен создавать по запросу текст, похожий на человека, и стал относительно известным благодаря программе ИИ, когда люди поняли, что он может писать свои собственные стихи, новостные статьи и рассказы.
"Dall-E - это система Text2Image, основанная на GPT-3, но обученная на тексте и изображениях", - говорит Марк Ридл, доцент Технологической школы Джорджии по интерактивным вычислениям.
"Text2image не нова, но демо Dall-E замечательно тем, что создает иллюстрации, которые намного более связны, чем другие системы Text2Image, которые я видел в последние несколько лет".
OpenAI конкурирует с такими фирмами, как DeepMind и Facebook AI Research, за создание алгоритмов общего назначения, которые могут выполнять широкий спектр задач на уровне человека и за его пределами.
Исследователи создали ИИ, которые могут играть в сложные игры, такие как шахматы и китайская настольная игра го, переводить один человеческий язык на другой и выявлять опухоли на маммограмме. Но заставить систему искусственного интеллекта показать подлинную "креативность" - большая проблема в отрасли.
Ридл сказал, что результаты Dall-E показывают, что он научился согласованно сочетать концепции, добавив, что "способность согласованно сочетать концепции считается ключевой формой творчества у людей".
"С точки зрения творчества это большой шаг вперед", - добавил Ридл. "Хотя нет единого мнения о том, что значит для системы ИИ "понимать" что-то, способность использовать концепции по-новому - важная часть творчества и интеллекта".
Нил Лоуренс, бывший директор по машинному обучению в Amazon Cambridge, сказал, что Dall-E выглядит "очень впечатляюще".
Лоуренс, который сейчас является профессором машинного обучения в Кембриджском университете, охарактеризовал это как "вдохновляющую демонстрацию способности этих моделей хранить информацию о нашем мире и обобщать то, что люди считают очень естественными".
Он сказал: "Я ожидаю, что появятся самые разные приложения этого типа технологий, я даже не могу себе представить. Но это также интересно с точки зрения того, что это еще одна довольно умопомрачительная технология, которая решает проблемы, о которых мы даже не подозревали".
" Не способствует развитию ИИ"
Однако не всех так впечатлил Dall-E.
Гэри Маркус, предприниматель, который продал Uber стартап по машинному обучению в 2016 году за нераскрытую сумму, заявил, что это интересно и "не способствует развитию ИИ".
Он также отметил, что исходный код не был открыт, и компания еще не опубликовала научную статью об исследовании.
Маркус ранее сомневался, следует ли классифицировать некоторые из исследований, опубликованных конкурирующей лабораторией DeepMind в последние годы, как "прорывные".
OpenAI была создана как некоммерческая организация с залогом в 1 миллиард долларов от группы основателей, в которую входил генеральный директор Tesla Илон Маск. В феврале 2018 года Маск покинул правление OpenAI, но продолжает делать пожертвования и консультировать организацию.
OpenAI стала коммерческой компанией в 2019 году и привлекла еще 1 миллиард долларов от Microsoft для финансирования своих исследований. GPT-3 должен стать первым коммерческим продуктом OpenAI, и Reddit стал одним из первых клиентов.
Microsoft Tesla Uber Доллар Илон Маск Университеты