Baidu создала систему быстрого синтеза человеческой речи
Один из мировых лидеров IT-технологий компания Китая Baidu представила собственный проект технологии преобразования текста в речь, который назвали Deep Voice. По мнению создателей, он по целому ряду параметров превосходит аналогичную технологию ближайшего конкурента - Google.
Система искусственного интеллекта «Байду», утверждают разработчики, обладает повышенной обучаемостью. Нужно всего несколько часов, чтобы она «освоила» речь почти без вмешательства человека. ИИ создан так, что может с большой скоростью синтезировать речь и при этом говорить без «машинного» акцента.
Аналогичная система Google WaveNet делает это гораздо медленнее из-за нехватки ресурсов. По словам специалистов Baidu, они смогли обойти эту проблему, используя технологию на уровне фонем - минимальных смыслоразличительных единиц речи. Система ИИ обрабатывает фонемы и в результате произносит связанные слова.
Однако до сих пор в «Байду» не смогли полностью автоматизировать процесс. Машина пока не знает, на какие части слова приходится ударение - от этого часто зависит его значение и значимость в предложении. К тому же продолжительность произнесения фонемы тоже существенно влияет на смысл фразы. В этом случае ИИ поправляют, что называется, в ручном режиме.
Проблемы, говорят в Baidu, еще остаются в немалом количестве. Основная - все та же нехватка вычислительных мощностей. Сейчас этот дефицит восполнить пока нечем. Поэтому в компании усиленно занимаются оптимизацией имеющихся ресурсов.