Система распознавания речи Microsoft теперь так же хороша, как и человеческая
Год назад группа ученых из Microsoft по речевым и диалоговым исследованиям улучшила свою систему распознавания речи, достигнув 5,9-процентного коэффициента ошибок. Ранее это считалось средним значением для частоты ошибок самих людей, однако позднее было показано, что коэффициент в 5,1 процента больше подходит для людей, способных цитировать то, что было услышано в беседе.
Чтобы снизить частоту ошибок системы распознавания речи, исследователи из Microsoft включили ряд усовершенствований в свои акустические и языковые модели на основе нейронной сети. Помимо общих обновлений для всех компонентов системы, размер словаря коммутатора увеличили с 30 000 слов до 165 000.
Наиболее важным нововведением стала так называемая «долговременная память на основе сеанса диалога». Это означает, что новая языковая модель позволяет системе использовать весь предыдущий разговор как историю при попытке четко определить конкретные фразы. Другими словами, система намного быстрее понимает, что разговор идет, например, о спорте или политике, и находит подходящие под эту тему фразы.
«Мы работаем над обучением компьютеров, чтобы не просто расшифровывать сказанные слова, а также понимать их смысл, - пишет технический сотрудник Microsoft. - Переход от распознавания к пониманию речи - следующий важный рубеж для речевых технологий».
Системы распознавания речи Microsoft в настоящее время используются в таких сервисах, как Cortana и Speech Translator. Компания предоставила документ, в котором описаны особенности новой версии системы.