Microsoft и Nvidia создали языковой процессор с 530 млрд параметров
Компании Nvidia и Microsoft анонсировали разработанную ими совместно крупнейшую на сегодняшний день языковую модель на архитектуре трансформер, получившую название Megatron-Turing Natural Language Generation (MT-NLG).
С 530 миллиардами параметров, распределенных по 105 уровням, MT-NLG является более мощной, чем модель OpenAI GPT-3, имеющая 175 млрд параметров, и демо-версия Switch Transformer от Google с 1,6 трлн параметров.
Новая модель превосходит их в широком спектре задач естественного языка, таких как автозаполнение предложений, вопросы и ответы, чтение и рассуждения. Она может выполнять эти задачи с минимальной настройкой или без нее, что называется обучением с несколькими выстрелами или с нулевой пристрелкой.
Для тренировки MLT-NLG был использован обучающий суперкомпьютерный кластер Nvidia Selene, состоящий из 560 серверов DGX, каждый из которых содержит восемь GPU A100 Tensor Core c 80 ГБ памяти. Selene также использует ЦП AMD EPYC 7v742. Полную стоимость этой системы Next Platform оценивает более, чем в 85 млн долл.
Все 4480 GPU соединяются между собой посредством NvLink и NVSwitch, пропускная способность этой комбинации достигает 600 Гб/с. Каждый GPU может работать со скоростью более 113 терафлопов в секунду.
DeepSpeed - библиотека глубокого обучения, содержащая код PyTorch, позволила инженерам Nvidia и Microsoft параллельно загружать больше данных по многочисленным конвейерам. Всего было обработано 1,5 ТБ тренировочных данных, а весь процесс обучения модели занял чуть больше месяца.
Тренировочный массив данных, The Pile, был скомпилирован для MT-NLG группой Eleuther AI. Он состоит из нескольких небольших наборов текстовых данных общим объемом 825 ГБ, извлеченных из общедоступных онлайновых источников, таких как Википедия, репозитории академических статей и вырезки из новостей.
На время анонса Nvidia и Microsoft не располагали сведениями о том, когда модель MT-NLG станет общедоступной.