Google разработала аудиокодек для голосовых звонков при очень медленной связи
Google представила бета-версию аудиокодека Lyra на базе машинного обучения, который позволяет достичь максимального качества передачи речи даже при использовании очень медленных каналов связи. Исходный код Lyra и примеры его работы компания опубликовала на GitHub.
Кодек состоит из кодировщика и декодировщика. Роль первого состоит в извлечении параметров голосовых данных каждые 40 миллисекунд, их сжатию и передаче получателю по сети. Декодер преобразует этих данные обратно в звуковую волну, которую можно воспроизвести на стороне слушателя.
Отмечается, что для передачи необработанного звука необходим канал связи со скоростью всего 3 Кбит/с.
Lyra написан на C++ при помощи фреймворка Bazel. По словам Google, его архитектура в большей степени похожа на архитектуру традиционных аудиокодеков, использующих обычные методы сжатия звука. Преимущество Lyra заключается в способности декодеровщика восстанавливать высококачественный сигнал с помощью генеративной системы машинного обучения. Она позволяет воссоздавать недостающую информацию на основе типовых характеристик речи. Модель для генерации звука обучена на нескольких тысячах часов с записями голосов более чем на 70 языках.
По мнению Google, новый аудиокодек может применяться в разных сферах, например для архивирования больших объемов записи речи, для экономии заряда аккумулятора в смартфонах, а также для снижения нагрузки на сеть в чрезвычайных ситуациях.