Искусственный интеллект научился играть в игры, не зная правил
Сотрудники DeepMind продвигают свои методы на пути к мечте о машине, которая обучается сама по себе, как это делает ребенок. Базирующаяся в Лондоне фирма, дочерняя компания Alphabet, сегодня официально публикует результаты исследования в журнале Nature, хотя в ноябре она сообщила о своем желании подготовить препринт в ArXiv. Однако только сейчас последствия становятся ясными: DeepMind уже изучает реальные приложения.
Новая система пробует сначала одно действие, затем другое, изучая, что позволяют правила, и в то же время замечая предлагаемые награды - в шахматах, поставив мат; в Pac-Man, проглотив желтую точку. Затем ИИ изменяет свои методы, пока не найдет способ получить такие награды с большей вероятностью, то есть улучшит свою игру. Такое обучение посредством наблюдения идеально подходит для любого ИИ, сталкивающегося с проблемами, которые сложно определить.
"Мы изучаем возможность применения MuZero для сжатия видео, чего нельзя было бы сделать с AlphaZero", - говорит Томас Хуберт, один из десятка соавторов статьи в Nature.
Одновременно изучая правила и улучшая свою игру, MuZero превосходит своих предшественников DeepMind в экономном использовании данных. Для обучения системе требуется изрядное количество вычислительных мощностей, но после обучения ей требуется так мало обработки для принятия решений, что всей операцией можно будет управлять на смартфоне.