Компьютер научился качественно озвучивать видеоролики, не имеющие аудиоряда
Используя машинное обучение, команда исследователей из Массачусетского технологического университета научила компьютер синтезировать настолько реалистичные звуки, что получилось заставить поверить в них слушателей. Новый алгоритм анализирует видеоклип, где по поверхности или объекту бьют барабанной палочкой, и затем синтезирует реалистичный звук.
Перед этим команда автора исследования, студента Эндрю Овенса, несколько месяцев записывала 1000 видеороликов. В них было зафиксировано 46 000 звуков объектов, по которым стучат, скребут или ударяют барабанной палочкой. Затем алгоритм анализировал видеозаписи и оценивал акустические характеристики сцен, связывая их с видеорядом.
Неожиданно для самих исследователей алгоритм оказался способен симулировать звуки по видеоряду с высокой точностью. Особенно хорошо получилось сымитировать звуки ударов палочкой по грязи и шелест листьев - эти материалы имели менее чистый звук, чем другие, следовательно человеку труднее уловить в них какую-то неправильность. В будущем данная система позволит роботам распознавать поверхности и взаимодействовать с окружением - они будут понимать, что бетон твердый, а трава мягкая.