Графический процессор ARM Mali-G77 стал на 40 % быстрее
Наряду с новым процессорным ядром Cortex-A77 компания ARM представила графический процессор, предназначенный для мобильных однокристальных систем следующего поколения. Mali-G77, который не следует путать с новым процессором дисплея Mali-D77, знаменует собой переход с архитектуры ARM Bifrost и на Valhall.
ARM декларирует существенный прирост графической производительности Mali-G77 - на 40 % по сравнению с современным поколением Mali-G76. Это достигнуто как за счет техпроцесса, так и архитектурных улучшений. Mali-G77 может иметь от 7 до 16 ядер (в перспективе возможно масштабирование от 1 до 32), причем каждое из них почти такого же размера, как у??G76. Следовательно, высокопроизводительные смартфоны, вероятно, будут оснащаться тем же количеством ядер ГП.
В играх можно ожидать повышения быстродействия?? на уровне от 20 до 40 %, в зависимости от типа графических нагрузок. Судя по результатам популярного теста Manhattan GFXBench, существенное превосходство нового графического процессора над текущим поколением заставит озаботиться и конкурирующую компанию Qualcomm о значительном улучшении производительности графики Adreno.
По словам ARM, сама по себе новая архитектура Mali-G77 обеспечивает в среднем 30-процентное улучшение энергоэффективности или производительности. Второе поколение скалярной архитектуры ARM Valhall позволяет графическому процессору параллельно исполнять 16 команд за цикл на CU по сравнению с восемью в Bifrost (Mali-G76). Среди других новшеств: полностью аппаратно управляемое динамическое планирование команд и совершенно новый набор команд с сохранением обратной совместимости с Bifrost. Добавлена также поддержка формата сжатия ARM AFBC1.3 и другие новшества (FP16 render targets, layered rendering и vertex shader outputs).
В Bifrost CU содержали 3 движка исполнения команд, каждый из которых включал кеш инструкций, регистр и блок управления Warp. Распределение по этим трем движкам позволяло выполнять 24 инструкции FMA с 32-битной точностью расчетов с плавающей запятой (FP32). В Valhall каждый CU обладает лишь одним движком исполнения команд, разделенным между двумя вычислительными модулями, способными обрабатывать по 16 команд Warp за такт, то есть обеспечивается общая пропускная способность в 32 инструкции FMA FP32 на CU. Благодаря этим архитектурным изменениям, при параллельных расчетах Mali-G77 может выполнять на треть больше математических расчетов по сравнению с Mali-G76.
Кроме того, каждый из этих вычислительных модулей CU содержит два новых математических функциональных блока. Новый модуль преобразования (CVT) обрабатывает основные целочисленные, логические, ветвящиеся и инструкции преобразования. Блок специальных функций (SFU) ускоряет операции умножения целых чисел, деления, квадратного корня, логарифмов и других сложных целочисленных функций.
В стандартном блоке FMA есть несколько настроек, поддерживающих выполнение 16 инструкций FP32 за цикл, 32 - FP16 или 64 - INT8 Dot Product. Эти оптимизации могут обеспечить повышение производительности в приложениях машинного обучения на значение до 60 %.
Другое ключевое изменение в Mali-G77 - это удвоение производительности текстурного модуля, который теперь обрабатывает 4 билинейных текселя за такт по сравнению с двумя ранее, 2 трилинейных текселя за такт, обеспечивая более быструю фильтрацию FP16 и FP32.
ARM внесла и ряд других изменений, в результате чего Mali-G77 и Valhall обещают значительное повышение производительности для игровых нагрузок и задач машинного обучения. Важно отметить, что энергопотребление и площадь чипа сохранены на уровне Bifrost, что обещает выпуск мобильных устройств с более высокой пиковой производительностью без повышения требований к электропотреблению, теплоотводу и размеру.