Быстрее аналогов в десятки раз: ИИ от Facebook преобразовывает текст в речь за 500 миллисекунд
Новый ИИ генерирует голос за 500 миллисекунд. Его разработали инженеры Facebook, они заявили, что их метод быстрее аналогов в несколько десятков раз.
Социальная сеть Facebook представила высокоэффективную систему на основе ИИ, которая быстро преобразовывает текст в речь. Ее можно использовать в режиме реального времени и с использованием обычных процессоров. Исследователи рассказали о новом подходе для сбора данных - он позволил производить секунду звука за 500 миллисекунд.
Система Facebook сможет производить высококачественные голоса без необходимости использования специализированного оборудования. Специалисты компании отмечают, что система достигла 160-кратного ускорения по сравнению с аналогами. Это сделает его пригодным даже для устройств с ограниченными вычислительными возможностями.
Система Facebook состоит из четырех частей, каждая из которых фокусируется на различных аспектах речи: лингвистической, особенностях произношения, акустической модели и нейронной кодировке голоса.
ИИ преобразовывает текст в последовательность лингвистических цепочек - предложения и единицы звука, которые отличаются друг от друга в зависимости от того, в каком слове они используется. Модель также отвечает за особенности происхождения и стиль - ИИ может интерпретировать и прогнозировать ритмы речи, предложения и частоты.
Встраивание стилей позволяет системе создавать новые голоса -"мягкие","быстрые","формальные", при этом для их изменений требуется лишь небольшое количество данных. Для каждого стиля требуется всего 30 до 60 минут, утверждает Facebook - на порядок меньше, чем несколько часов записей, которые нужны для аналогичной системы Amazon.