Разработчики научили нейросеть петь
Китайские разработчики создали алгоритм, который научил нейросеть превращать речь в пение.
Технология основана на существующей разработке Tencent - нейросети DurIAN.
Прежняя технология синтезировала видеоролики с говорящими людьми на основе текста.
Данный алгоритм позволяет синтезировать запись с пением человека на основе записи с его обычной речью.
Также новинка позволяет отработать задачу в обратном цикле, то есть синтезировать речь на основе пения.
Эксперты отмечают, что развитие нейросетевых алгоритмов для синтеза речи в настоящее время позволяет создавать системы, которые очень сложно отличить от реальных людей.
Так, разработчики компании Google в 2018 году представили голосового помощника для бронирования мест.
Данная технология умеет не только реалистично говорить, правильно употребляя слова, но даже способна употреблять такие эффекты, которые наделяют "электронного собеседника" правдоподобностью, благодаря таким "фонетическим запятым", как "эмм" или "гм".
Результаты оказались настолько реалистичными, что разработчикам компании пришлось даже научить алгоритм предупреждать в начале разговора, что беседа ведется не с человеком, а роботом.
Аналогично другим нейросетевым алгоритмам успех технологий по синтезу речи во многом зависит не от архитектуры, а от объема доступных данных для обучения.
При создании системы синтеза пения пришлось реализовать на первый взгляд похожую задачу.
Но в реальности задача оказалась сложнее из-за ограниченной доступности данных.
Китайские инженеры из компании Tencent все же создали систему, которая способна воспроизводить реалистичную аудиозапись с пением, основываясь исключительно на введенных речевых образцах.
Разработчики установили в новом алгоритме так называемый блок распознавания речи.
Этот блок на основе входящей аудиозаписи создает фонемы с определением их продолжительности и основных частот.
Далее эти данные попадают на другой блок, состоящий из кодировщика и декодировщика.
На этом этапе формируется мел-спектрограмма, на основе которой отдельная нейросеть создает аудиозапись.
Обучение нейросети разработчики проводили на двух собственных датасетах, состоящих из полуторачасового пения и 28 часов речи.
Разработчики испытали эффективность своей новинки на 14 добровольцах, которые дали оценку реалистичности синтезированного пения, а также идентичности тембра звучания на исходную запись.
Как оказалось, один из вариантов алгоритма набрал 3,8 балла по реалистичности и 3,65 по идентичности.