Нейросети вывели качество синтеза русскоязычной речи на новый уровень
Группа компаний ЦРТ, входящая в экосистему Сбербанка, сообщила о разработке передовой платформы синтеза речи, которая, как утверждается, обеспечивает плавность и выразительность прочтения любого текста.
Представленное решение - это третье поколение системы синтеза речи. Высококачественный аудиосигнал генерируют сложные нейросетевые модели. Разработчики заявляют, что результатом работы этих алгоритмов является самый реалистичный синтез русскоязычной речи.
В состав платформы входит модуль предсказания ударений в словах, которых еще нет в базовом словаре. Кроме того, предусмотрено автоматическое исправление типичных орфографических ошибок. Благодаря глубокому лингвистическому анализу текста произношение будет соответствовать нормам языка даже в сложных случаях.
Еще одно достоинство платформы заключается в том, что ей не требуются дорогостоящие серверы, оснащенные GPU-ускорителями. Использовать технологию можно двумя способами - через облачный сервис или встроив в собственное решение.
Среди возможных областей применения разработки называются чат-боты и голосовые помощники, сервисы информирования и оповещения, голосовые сервисы с моментальным синтезом любого текста в процессе звонка и пр.
"В автоматизированных сценариях общения с клиентами технология позволяет взаимодействовать в индивидуальном порядке с каждым абонентом, так как нет фиксированных сообщений, и любой текст может быть синтезирован в процессе звонка", - говорят разработчики.
Опробовать технологию можно здесь.