Microsoft разработала модель, которая имитирует голос человека на основе трехсекундной записи
Группа исследователей из Microsoft презентовала новую модель для синтеза речи на основе нейросетевых алгоритмов. Она получила название VALL-E. Главная фишка VALL-E - копирование голоса человека. Чтобы обучиться копировать голос, нейросети требуется его запись продолжительностью всего в три секунды. Помимо сохранения вокального тембра и эмоций говорящего, VALL-E может...
подробнее ›