Искусственный интеллект впервые научился распознавать безмолвную речь
Американские ученые разработали систему, состоящую из электромиографических сенсоров, воспринимающих активность лицевых мышц, и алгоритма, предсказывающего слова по сигналам ранней стадии артикуляции, и синтезирующих их в речь. Технологию можно использовать для помощи людям с повреждениями речевого аппарата или для улучшения возможностей голосовых помощников.
Устройство для распознавания безмолвной речи было изобретено специалистами из Калифорнийского университета в Беркли. Они использовали подход "переноса звука из вокализованной записи в бесшумную с сохранением высказывания", сообщает Venture Beat. Для последующей генерации речи они применили декодер WaveNet.
По сравнению со стандартными программами безмолвной речи, обученными с помощью вокализованных данных электромиографии, подход ученых позволил снизить коэффициент ошибок с 64% до 4% при транскрипции предложений из книг. Для того чтобы подстегнуть развитие этой области, исследователи выложили в открытый доступ почти 20 часов данных ЭМГ.
Статья, описывающая работу этой модели, была названа лучшей на онлайн-конференции по эмпирическим методам в обработке естественного языка, состоявшейся на прошлой неделе.
"Цифровое озвучивание безмолвной речи имеет широкий спектр потенциального применения, - говорится в статье. - Например, его можно использовать для создания устройства, аналогичного гарнитуре Bluetooth, которая позволяет вести телефонные разговоры, не мешая окружающим. Такое устройство также может оказаться полезным в условиях, когда вокруг слишком шумно, чтобы разговаривать, или когда важно соблюдать тишину".
Для распознавания речи тех, кто плохо говорит по-английски, специалисты Google разрабатывают сервис Project Euphonia. Чтобы настроить стандартный алгоритм на работу с "проблемными" пользователями, исследователи дополнили наборы данных небольшой выборкой, представляющей людей с БАС и акцентами.