NVIDIA представила графический процессор Ampere и начала его поставки
Компания NVIDIA долго хранила в секрете разработку графических процессоров с архитектурой Ampere, но на этой неделе Дженсен Хуанг (Jen-Hsun Huang) предвосхитил рыночный дебют DGX A100, вынув одноименную систему из духовки у себя на кухне. Именно с вычислительных систем этой серии NVIDIA Ampere начнет свой рыночный путь.
Сам графический процессор NVIDIA A100 выпускается по 7-нм технологии компанией TSMC и содержит более 54 млрд транзисторов на площади 826 мм 2, что делает его крупнейшим в своем "геометрическом классе". По соседству расположилось шесть стеков памяти типа HBM2 производства Samsung совокупным объемом 40 Гбайт с пропускной способностью 1,6 Тбайт/с. Ядра CUDA разделились по специализации: для вычислений с плавающей запятой двойной точности (FP64) отведено 3456 штук, одинарной (FP32) - 6912 штук. Количество тензорных ядер достигло 432 штук, предусмотрены и потоковые мультипроцессоры в количестве 108 штук.
NVIDIA утверждает, что обучение нейронных систем с применением графических процессоров происходит в 20 раз быстрее по сравнению с предшественниками. Сфера применения ускорителей с архитектурой Ampere - это не только системы искусственного интеллекта, но и анализ "больших данных", научные расчеты и облачная графика. Архитектура Ampere использует тензорные ядра третьего поколения с поддержкой вычислений TF32. Внедрена и поддержка вычислений с плавающей запятой двойной точности (FP64).
Пиковая производительность A100 в обучаемых системах при использовании вычислений с плавающей запятой одинарной точности (FP32) достигает 312 терафлопс, это в двадцать раз выше, чем у Volta. Целочисленные операции (INT8) в системах, способных делать логические выводы, Ampere выполняет со скоростью 1,248 трлн штук в секунду. Отрыв от Volta тоже двадцатикратный. Наконец, в высокопроизводительных операциях с двойной точностью (FP64) новинка NVIDIA оказывается в два с половиной раза быстрее предшественницы.
Ориентацию на серверное применение A100 выдает и поддержка интерфейса NVLink третьего поколения, который позволяет обмениваться данными с аналогичными графическими процессорами со скоростью 600 Гбайт/с. Каждый графический процессор Ampere поддерживает двенадцать каналов NVLink 3.0. Впервые в серверном сегменте NVIDIA предлагает продукт с поддержкой PCI Express 4.0, им как раз является графический процессор A100. Кроме того, технология виртуализации MIG позволяет разделять ресурсы одного графического процессора на семь независимых сегментов.
NVIDIA подчеркивает, что серийное производство графического процессора A100 уже началось, ускорители на его основе поставляются клиентам. Им потребуется какое-то время, чтобы интегрировать эти ускорители в своих вычислительных системах. В суперкомпьютерах, например, Ampere пропишется не ранее второго полугодия.
Никакой официальной информации о сроках доступности игровых видеокарт с архитектурой Ampere пока нет.