Google представила Translatotron - технологию синхронного перевода устной речи
Алгоритм умеет сохранять исходный голос говорящего.
Google представила новую технологию синхронного перевода устной речи - Translatotron. Об этом компания сообщила в своем блоге.
Обычно для перевода устной речи с одного языка на другой системы используют каскадную модель. Сначала система автоматически распознает речь для ее транскрипции, затем осуществляется машинный перевод полученного текста, а после - преобразование текста в аудиозапись. Такая система в том числе используются в Google Translate.
Новый экспериментальный алгоритм Google пропускает этап расшифровки речи в текст. Созданная разработчиками нейросеть принимает спектрограмму исходной аудиозаписи с голосом и синтезирует спектрограмму с речью на другом языке. Затем алгоритм синтезирует аудиофайл.
Кроме того, Translatotron умеет сохранять интонации и паузы в речи, а также голос говорящего при переводе. Однако при сохранении исходного голоса перевод немного отличается, поскольку эта версия нейросети обучена на меньшем количестве данных.
Схема работы алгоритма Translatotron Google
Специалисты Google проверили работу алгоритма с помощью BLEU-метода, при котором машинный перевод сравнивается с переводом, выполненным человеком. Они переводили устную речь с испанского на английский язык. По итогам тестирования специалисты признали, что Translatotron пока уступает каскадной модели. Однако Translatotron - первая технология, способная напрямую переводить речь с одного языка на другой, отмечают в Google.
Посмотреть примеры работы алгоритма можно на странице Google на Github.