Роботы лучше обучаются за вознаграждение

В дрессировке собак и других животных используют методику подкрепления, суть которой заключается в выдаче награды за успешное выполнение тех или иных действий. Как оказалось, этот способ эффективен и для роботов, позволяя ускорить обучение в несколько раз по сравнению с обычными алгоритмами.
Исследователи предположили, что если предложить роботу поощрение за выполнение удачных действий, то это поможет увеличить их эффективность и ускорить обучение. В качестве стимула выбрали баллы, превратив обучение в своеобразный аналог компьютерной игры. Однако баллы выдавали только за правильное выполнение задач.
Как выяснилось, роботам нравится получать высокие баллы. Это привело к тому, что они действительно начали учиться быстрее. По словам исследователей, с новой методикой потребовалось два дня для достижения стопроцентного результата, тогда как в других случаях - месяц практики. Роботы пока хорошо освоили только складывание игрушечных кирпичиков, но в будущем смогут обучиться и более сложным действиям.