Новый метод улучшения машинного обучения имитирует поведение детей
Несмотря на значительный прогресс, достигнутый в последнее время в области искусственного интеллекта (ИИ), большинству виртуальных агентов по-прежнему требуются сотни часов обучения, чтобы справляться с некоторыми задачами не хуже человека. Сами же люди могут научиться выполнять те же задачи за несколько часов или даже меньшее время.
Психологические исследования показывают, что в свои первые годы жизни люди постоянно экспериментируют со своим окружением, формируя основы понимания мира. Более того, когда дети сталкиваются с результатами, противоречащими их предыдущему опыту (так называемое нарушение ожиданий), это поощряет их к дальнейшим экспериментам, чтобы прояснить ситуацию.
Группа ученых Корейского продвинутого института науки и техники (Korea Advanced Institute of Science and Technology, KAIST) попыталась воспроизвести это человеческое поведение в ИИ-агентах, используя метод подкрепленного машинного обучения. В своей работе они сначала создали графическую физическую сеть, которая изучает физические взаимодействия между объектами и может предсказывать их дальнейшее поведение в 3D-среде. Затем, они интегрировали эту сеть с моделью глубокого подкрепленного обучения. Введенная в нее методика внутренней нормализации наград побуждала ИИ-агент изучать и идентифицировать действия, способные постоянно улучшать его модель интуиции.
С помощью 3D-движка физики корейские ученые продемонстрировали, что их графическая физическая сеть способна эффективно предугадывать местоположение и скорость различных объектов. Кроме того было установлено, что такой подход позволил сети глубокого подкрепленного обучения постоянно улучшать свою модель интуиции, побуждая ее взаимодействовать с объектами, руководствуясь только внутренней мотивацией.
Сообщается, что разработанная группой KAIST методика, достигла замечательной точности, благодаря тому, что ИИ-агент выполнял множество различных исследовательских действий. В будущем это может послужить основой для разработки инструментов машинного обучения, способных быстрее и эффективнее учиться на своем прошлом опыте.