OpenAI представила модель, которая способна клонировать голос на основе 15-секундной записи
OpenAI (компания-разработчик ChatGPT) представила платформу преобразования текста в голос Voice Engine. Особенность - возможность клонировать синтетический голос на основе 15-секундной записи реального голоса человека.
Клонированным голосом можно озвучить любой текст на языке оригинала или даже на нескольких других языках. Примеры работы модели есть в блоге OpenAI.
Технологию предлагается применять для людей, которые потеряли голос из-за болезни, или для созданий аудиокоммуникаций на разных языках.
В OpenAI рассказали, что разрабатывали Voice Engine с конца 2022 года. Модель обучали на «сочетании лицензированных и открытых данных». Сейчас модель могут опробовать избранные разработчики. Кроме того, Voice Engine используется для функции «Прочитать вслух» в ChatGPT.
Это не первая подобная технология. В 2023-м стартап ElevenLabs представил модель, которая умеет переводить и дублировать разговорный контент на другой язык с сохранением оригинального голоса.