DeepMind представила языковую модель с 280 млрд параметров
Британская ИИ-лаборатория DeepMind разработала большую языковую модель Gopher, содержащую 280 млрд параметров. По словам исследователей, чем крупнее модель, тем точнее она работает.
Ученые с помощью собственного исследования подтвердили гипотезу, что от размера языковой модели зависит точность ее работы. В результате увеличения количества параметров производительность Gopher повысилась в наиболее распространенных эталонных тестах, таких как анализ настроений и обобщение.
"Один из ключевых выводов статьи заключается в том, что прогресс и возможности больших языковых моделей все еще увеличиваются. Это не та область, которая вышла на плато", - сообщил исследователь DeepMind Джек Рэй.
Однако ученые выявили ряд недостатков у данного подхода. По словам Рэя, существует множество вариантов, когда модель может выйти из строя:
"Некоторые из этих способов связаны с тем, что модель просто недостаточно хорошо понимает то, что она читает".
Рэй считает, что проблему непонимания контекста можно решить увеличением количества обучающих данных и масштабированием моделей.
Он добавил, что есть и другие проблемы, такие как укрепление стереотипных предубеждений, распространение дезинформации или токсичная лексика. В DeepMind считают, что масштабирование не поможет устранить эти недостатки.
"В этих случаях языковые модели потребуют "дополнительных процедур обучения", таких как отзывы пользователей-людей", - отметил Рэй.
О том, появится ли Gopher в открытом доступе неизвестно. В DeepMind намерены продолжить изучение языковых моделей, чтобы сделать приложения с искусственным интеллектом безопасными и прозрачными.