1400 часов речи на 18 языках: Mozilla обновила свою библиотеку голосовых данных
Собранные данные может бесплатно использовать в своих проектах любой желающий.
Mozilla обновила свою библиотеку голосовых данных Common Voice - теперь она включает 1368 часов речи на 18 языках, которую записали 42 тысячи человек. Собранные компанией данные может использовать для своих проектов любой желающий. Загрузить наборы образцов можно с сайта Common Voice.
Коллекции человеческих голосов доступны на таких языках, как английский, немецкий, французский, голландский и итальянский. Русского языка в этом обновлении пока нет, зато есть чувашский и татарский.
Одна часть голосов принадлежит анонимным добровольцам, а другая - лингвистам и специалистам, работающим в области голосовых технологий. Mozilla уже собирает голосовые образцы на русском, казахском, украинском - каждый может принять участие в исследовании.
Mozilla запустила проект с открытым исходным кодом Common Voice в прошлом году. Он направлен на то, чтобы помочь разработчикам и стартапам без тех ресурсов, которые есть у крупных компаний типа Apple или Google, создавать сервисы с голосовой поддержкой. Кроме того, большой коллекцией Common Voice смогут бесплатно воспользоваться исследователи. Сама Mozilla планирует использовать голосовые образцы для улучшения своих инструментов для преобразования речи в текст и наоборот, плюс для развития модели DeepSpeech.