Новости и события » Hi-Tech » OpenAI обучает ИИ командной работе в игре в прятки

OpenAI обучает ИИ командной работе в игре в прятки

Дата публикации: 19 сентября 2019 | Комментариев: 0

Старая добрая игра в прятки может стать прекрасным испытанием для ботов с искусственным интеллектом (ИИ), позволяющим продемонстрировать, как они принимают решения и взаимодействуют, как друг с другом, так с различными окружающими объектами.

В своей новой статье, опубликованной исследователями из некоммерческой организации OpenAI, занимающейся исследованиями в области искусственного интеллекта и прославившейся победой над чемпионами мира в компьютерной игре Dota 2, ученые описывают как агенты, контролируемые искусственным интеллектом, обучались как изощреннее искать и прятаться друг от друга в виртуальной среде. Результаты исследования продемонстрировали, что команда из двух ботов обучается эффективнее и быстрее, чем любой отдельный агент без союзников.

Ученые использовали уже давно завоевавший свою славу метод машинного обучения с подкреплением, в котором искусственный интеллект помещается в неизвестную ему среду, имея при этом определенные способы взаимодействия с ней, а также систему наград и штрафов за тот или иной результат своих действий. Данный метод достаточно эффективен благодаря возможностям ИИ выполнять различные действия в виртуальной среде с огромной скоростью, в миллионы раз быстрее, чем может представить человек. Это позволяет методом проб и ошибок найти наиболее эффективные стратегии для решения поставленной задачи. Но у данного подхода также есть некоторые ограничения, например, создание среды и проведение многочисленных циклов обучения требует огромных вычислительных ресурсов, а сам процесс нуждается в точной системе сопоставления результатов действий ИИ с поставленной ему целью. Кроме того, приобретенные агентом таким образом навыки ограничены описанной задачей и, как только ИИ научится с нею справляться, никаких улучшений большей уже не будет.

Для обучения ИИ игре в прятки ученые использовали подход, называющийся "ненаправленное исследование" (Undirected exploration), который заключается в том, что агенты имеют полную свободу действий для развития своего понимания игрового мира и разработки выигрышных стратегий. Это похоже на подход к многоагентному обучению, который применяли исследователи из DeepMind, когда несколько систем искусственного интеллекта были обучены играть в режиме "захват флага" в игре Quake III Arena. Как и в этом случае, агенты ИИ не были заранее обучены правилам игры, но со временем они выучили базовые стратегии и даже смогли удивить исследователей нетривиальным решениями.

При игре в прятки нескольким агентам, чьей задачей было прятаться, было необходимо избегать прямой линии видимости соперников после небольшой форы во времени, пока команда ищущих агентов была обездвижена. При этом "линия видимости" в данном контексте представляет собой конус в 135 градусов перед отдельным ботом. Агенты не могли удаляться слишком далеко за пределы игровой площадки и были вынуждены перемещаться по случайно сгенерированным комнатам с возможностью использовать некоторые внешние объекты (ящики, передвижные стены, специальные пандусы), разбросанные вокруг, которые можно было использовать как для создания укрытий, так и для проникновения в них.

В результате долгого процесса обучения ИИ-агенты освоили шесть уникальных стратегий, каждая из которых помогала им переходить к следующему этапу игры. Вначале команды ищущих и прячущихся просто убегали и преследовали друг друга, но после примерно 25 миллионов матчей команда прячущихся научились блокировать проходы коробками и строить из них укрытия. После еще 75 миллионов матчей команда ищущих обнаружила способы использовать пандусы, чтобы проникать в эти укрытия. Спустя еще 10 миллионов раундов прячущиеся научились оттаскивать пандусы к краю игровой площадки и фиксировать их на месте, чтобы не позволить противникам использовать их.

После 388 миллионов матчей ищущие научились использовать заблокированные пандусы, чтобы подняться на принесенные к ним ящики, а затем, перемещаясь прямо на них, проникать в созданные из переносных стен укрытия противников. И, наконец, после 458 миллионов матчей прячущаяся команда сделала вывод, что нужно заблокировать вообще все объекты, а затем построить укрытие, что и привело, по всей видимости, к ее окончательной победе.

Что особенно впечатляет, так это то, что уже после 22 миллиона матчей агенты научились координировать свои действия и в дальнейшем эффективность их совместной работы только увеличивалась, например, каждый приносил свой ящик или стенку для создания укрытия и выбирал свою долю объектов для блокировки, чтобы усложнить игру противникам.

Ученые также отметили важный момент, связанный с влиянием количества тренировочных объектов (объемом пропускаемой через нейронную сеть данных - "Batch Size") на скорость обучения. Для модели по умолчанию требовалось 132,3 миллиона матчей в течение 34 часов обучения, чтобы достичь фазы на которой прячущаяся команда научилась блокировать пандусы, в то время как больший больший объем данных привел к заметному сокращению времени обучения. Например, увеличение количества параметров (части данных, полученных в течении всего процесса обучения) с 0,5 млн до 5,8 млн повысило эффективность выборки в 2,2 раза, а увеличение размера входных данных в с 64 Кбайт до 128 Кбайт сократило время обучения почти в полтора раза.

В конце своей работы исследователи решили проверить, насколько обучение в игре может помочь агентам справляться со схожими задачами вне игры. Всего тестов было пять: осознание количества объектов (понимание, что объект продолжает существовать, даже если он находится вне видимости и не используется); "заблокировать и вернуться" - способность запомнить свое изначальное положение и вернуться к нему после выполнения какой-либо дополнительной задачи; "последовательная блокировка" - 4 ящика случайным образом были расположены в трех комнатах без дверей, но с пандусами для попадания внутрь, агентам необходимо было найти и заблокировать их все; размещение ящиков на заранее заданных площадках; создание укрытия вокруг объекта в виде цилиндра.

В результате в трех из пяти заданий боты, прошедшие предварительную подготовку в игре, обучались быстрее и показали лучший результат, чем ИИ, который обучался решению задач с нуля. Они немного лучше справились с выполнением задачи и возвратом на начальную позицию, последовательной блокировкой ящиков в закрытых комнатах и с размещением ящиков на заданных площадках, но показали немного более слабый результат при осознании количества объектов и созданию укрытия вокруг другого объекта.

Исследователи объясняют неоднозначный результаты в том, как ИИ получает и запоминает определенные навыки. "Мы думаем, что задачи, в которых предварительная подготовка в игре показала лучший результат, связаны с повторным использованием ранее изученных навыков привычным образом, в то время как для выполнения оставшихся задач лучше, чем обученный с нуля ИИ, потребуется использование их другим образом, что намного сложнее", - пишут соавторы работы. "Этот результат подчеркивает необходимость разработки методов эффективного повторного использования навыков полученных в результате обучения при переносе их из одной среды в другую".

Проделанная работа действительно впечатляют, так как перспектива использования данного метода обучения лежит далеко за пределом каких-либо игр. Исследователи утверждают, что их работа является значительным шагом к созданию ИИ с "физически обоснованным" и "человеческим" поведением, который сможет диагностировать заболевания, предсказывать структуры сложных белковых молекул и анализировать компьютерную томографию.

На видео ниже вы можете наглядно увидеть, как проходил весь процесс обучения, как ИИ учился командной работе, а его стратегии становились все более хитрыми и сложными.

Главное на сегодня

Seenda выпустила вертикальную мышь MOU-302 - с...

YouTube начнет выявлять подростков с помощью...

Новый ИИ в Google Pixel подскажет, что вам...

IOS 18.6 вышла - нововведений почти нет, но...

Photoshop научился естественно «вписывать»...

Apple iPhone 17 Pro/Pro Max получат 8-кратный...

Основи бухгалтерії: чому це важливо для кожного

Приложение ЕС для верификации возраста будет...

Haier представила домашнего робота-уборщика...

G-Shock выпустила лимитированные часы по аниме...

Mitsubishi представила Destinator - свой новый...

Новости часа

Seenda выпустила вертикальную мышь MOU-302 - с нее можно управлять...

Компания Seenda выпустила беспроводную вертикальную мышь MOU-302: ее главная особенность - это наличие дополнительного регулятора громкости, которым также можно ставить и убирать паузу. Сейчас MOU-302 доступна на Amazon. Цена - 27,99 долларов (~2300...

сегодня 11:14

Автовыкуп в Украине: как быстро и безопасно продать авто

Современный автомобильный рынок стремительно меняется: растет спрос на подержанные автомобили, но вместе с тем усложняется процесс их самостоятельной продажи....

19 мая 2025
Stone Universe: сокровища украинской земли, которые стоит увидеть своими глазами

В Киеве продолжается событие , которое захватывает дух - выставка-продажа «Stone Universe», посвященная драгоценным минералам с Волыни. Она уже покорила...

12 мая 2025
Кримінальна відповідальність за несплату аліментів та роль адвоката у сімейних справах

Несплата аліментів є серйозною проблемою, яка зачіпає не тільки безпосередньо тих, хто має право на отримання підтримки, але й ставить під загрозу правову...

2 апреля 2025
Продажа квартиры в Днепре: гайд от специалиста

Как выгодно продать квартиру в Днепре Рынок недвижимости в Днепре не засыпает, даже когда все вокруг штормит. Продать квартиру здесь - это не просто спихнуть...

31 марта 2025

Продажа квартиры в Днепре: гайд от специалиста

Как выгодно продать квартиру в Днепре Рынок недвижимости в Днепре не засыпает, даже когда все вокруг штормит. Продать квартиру здесь - это не просто спихнуть...

31 марта 2025
Окна в Днепре: как выбрать оптимальный вариант для вашего дома

Выбор окон для дома или квартиры - это не просто вопрос эстетики, но и важный элемент для обеспечения комфортных условий проживания. Понимание всех нюансов,...

12 февраля 2025
Бюгельные протезы: особенности конструкции, преимущества и ценообразование

Современная стоматология предлагает различные решения для восстановления утраченных зубов. Бюгельный протез: цена в Днепре зависит от многих факторов, но...

4 декабря 2024
Коврики для Volkswagen ID.4: инновационная защита и комфорт для вашего электромобиля

Volkswagen ID.4 - это современный электрический кроссовер, который сочетает в себе инновации, стиль и заботу об экологии. Этот автомобиль идеально подходит...

12 ноября 2024

АРТ-ВОЯЖ в Ровно: Открытие окон в уникальный мир украинского искусства

Ровно с гордостью встречает известную выставку "АРТ-ВОЯЖ", которая открывает окно в уникальный мир украинского современного искусства. Собрание,...

12 ноября 2023
Перестроечный Шахтер Конькова

Во второй половине 80-х "Шахтер" не добивался турнирных успехов - ни в чемпионате, ни в Кубке СССР. В стране разворачивалась...

27 июня 2022
Пожары в Черном море: военные заявили, что ВСУ не атакуют гражданские объекты

Силы обороны Украины не ведут атаки по гражданским объектам инфраструктуры. Поэтому, если чрезвычайные ситуации с пожарами происходят на Одесском...

27 июня 2022
Уже уничтожили несколько склепов: оккупанты застраивают Загородный некрополь Херсонеса

В оккупированном Севастополе на месте захоронения христианских мучеников ведется строительство. Как передает Укринформ, об этом сообщает qirim.news. "В...

27 июня 2022

Окна в Одессе: полный гид по выбору и установке

Окна являются важным элементом любого дома, влияя на комфорт, безопасность и эстетику жилья. При выборе окон в Одессе на https://www.alias.od.ua/ceny-2...

21 марта 2025
Коврики для Volkswagen ID.4: инновационная защита и комфорт для вашего электромобиля

Volkswagen ID.4 - это современный электрический кроссовер, который сочетает в себе инновации, стиль и заботу об экологии. Этот автомобиль идеально подходит...

12 ноября 2024
Юридическая компания Документы

Юридическая компания Document.od.ua - это ваш надежный партнер в сфере правовой помощи и сопровождения в Одессе. Мы работаем с частными и корпоративными...

30 октября 2024
Особенности индивидуальной аренды жилья для арендатора

Самостоятельно арендовать квартиру для летнего отдыха - это один из самых удобных способов провести отпуск без лишних хлопот, как раньше говорили...

27 сентября 2024

Перестроечный Шахтер Конькова

Во второй половине 80-х "Шахтер" не добивался турнирных успехов - ни в чемпионате, ни в Кубке СССР. В стране разворачивалась...

27 июня 2022
Захватчики ночью и утром обстреляли Славянск, есть погибшие и раненые

Захватчики ночью и утром нанесли удары по Славянску Донецкой области, в результате утренних обстрелов есть убитые и раненые. Об этом в Телеграме сообщил...

27 июня 2022
Первым летним новичком Кривбасса стал чемпион мира U20

Криворожский «Кривбасс» представил первого новичка в летнее межсезонье. Красно-белые подписали чемпиона мира в составе сборной Украины U-20, талантливого...

27 июня 2022
Почему Игор Йовичевич подходит Шахтеру

Если верить нескольким осведомленным людям, именно в эти минуты Игор Йовичевич размышляет над предложением, которое ему сделал "Шахтер". Быть или не...

27 июня 2022

Воронка глубиной 5 метров. Рашисты "демилитаризировали" стадион Николаева

Российско-фашистские войска нанесли ракетный удар по очередному "военному" объекту - городскому стадиону Николаева. Утром 28 июня российские...

29 июня 2022
На юге ВСУ постепенно оттесняют российские войска, враг готовит запасные рубежи

На юге российские оккупационные войска, отступая, обустраивают не только второй, третий рубежи, но и запасные. Об этом заявила на брифинге в Медиацентре...

27 июня 2022
США располагают информацией о минировании Россией подходов к портам Одессы

США располагают информацией о минировании Россией подходов к портам Одессы и Очакова - The Guardian. Кроме Одессы и Очакова, РФ собирается заминировать устье...

27 июня 2022
Ракетный удар по Одесчине, обстрел Харькова и взрывы на Херсонщине - сводка ВГА

россияне ночью ударили с самолетов стратегической авиации Ту-22М по Одесской области и обстреляли Киевский район Харькова. Обстрелы и взрывы раздавались также...

27 июня 2022

Коврики для Volkswagen ID.4: инновационная защита и комфорт для вашего электромобиля

Volkswagen ID.4 - это современный электрический кроссовер, который сочетает в себе инновации, стиль и заботу об экологии. Этот автомобиль идеально подходит...

12 ноября 2024
Доставка из Германии в Украину с сервисом Meest Shopping

Зарубежный интернет-магазин – это площадка, где можно найти широкий ассортимент качественных и недорогих товаров от известных производителей. Доставка из...

29 августа 2024
Тротуарная плитка: свойства, виды и преимущества

Тротуарная плитка давно стала неотъемлемой частью городского ландшафта. Она используется не только для обустройства тротуаров, но и для мощения дворов,...

4 июля 2024
Где лечить зубы в Харькове

Выбор стоматологии - это важный и ответственный процесс, требующий внимательного подхода и учета множества факторов. Пациенты стремятся найти клинику, которая...

24 мая 2024