Новости и события » Hi-Tech » Microsoft разработала модель, которая имитирует голос человека на основе трехсекундной записи

Microsoft разработала модель, которая имитирует голос человека на основе трехсекундной записи

Microsoft разработала модель, которая имитирует голос человека на основе трехсекундной записи

Группа исследователей из Microsoft презентовала новую модель для синтеза речи на основе нейросетевых алгоритмов. Она получила название VALL-E.

Главная фишка VALL-E - копирование голоса человека. Чтобы обучиться копировать голос, нейросети требуется его запись продолжительностью всего в три секунды. Помимо сохранения вокального тембра и эмоций говорящего, VALL-E может имитировать «акустическое окружение» - например, будто речь звучит как при телефонном звонке. Технология основана на алгоритме EnCodec и обучена на 60 000 часах англоязычной речи от более чем 7000 носителей.

Microsoft разработала модель, которая имитирует голос человека на основе трехсекундной записи

На специальном сайте Microsoft предоставляет несколько десятков примеров работы VALL-E. В колонке Speaker Prompt представлена оригинальная трехсекундная запись голоса, в колонке Ground Truth - полное прочтение заданной фразы для сравнения. Колонка Baseline показывает результат работы обычной технологии синтеза речи. Наконец, в колонке VALL-E представлен результат работы новой технологии Microsoft.

Исследователи уточняют, что понимают риски технологии - злоумышленники могут воспользоваться ей, чтобы выдать себя за другого человека. Поэтому специалисты предлагают создать алгоритм, который определяет, что аудиозапись создана при помощи VALL-E.


Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх