Искусственный интеллект научили побеждать в играх без знания правил
Лондонская компания DeepMind, дочернее предприятие Alphabet, создала систему обучения MuZero, которая побеждает в шахматах и?? других играх даже без знания правил.
Издание отмечает, что система тренируется действие за действием и "наблюдает" за наградами, которые она получает после этого. Например, в шахматах - это поставить мат, а в Pac Man - проглотить желтую точку. Затем она меняет методы игры, чтобы как можно эффективнее получить вознаграждение, то есть улучшает свои навыки.
Этот вид обучения путем наблюдения подходит для любого искусственного интеллекта, который сталкивается со сложными проблемами. Кроме абстрактных игр в реальном мире их тоже достаточно.
Томас Хуберт, один из соавторов статьи в Nature, сообщил, что исследователи развивают систему обучения, чтобы она могла сжать размер видео. Среди других планов применения - самоуправляемые машины и дизайн белков, что станет следующим шагом после технологии сборки белков (которую недавно освоила дочерняя программа AlphaFold). Целью может быть разработка фармацевтического препарата на основе белка, который должен действовать на вирус или рецептор на поверхности клетки.
Компания DeepMind получила славу благодаря AlphaGo - системе обучения, победившей в игре Го после тренировок в миллионах игр уровня мастера. В 2018 году компания выпустила AlphaZero, которая научилась побеждать в игре в шахматы и Го без тренировки на мастер-играх и советов. Преимущество MuZero среди других систем в том, что ей даже не нужно показывать правила, чтобы она победила в игре.