Новый искусственный интеллект Facebook может изучать речь без помощи людей
Распознавание речи - важная деталь в механизме искусственного интеллекта. Эта технология управляет голосовыми ассистентами в наших телефонах, автомобилях и смарт-колонках. Но, несмотря на ее повсеместность, разработка все еще продолжается. Сегодня Facebook объявил о крупном прорыве. Компания разработала систему распознавания речи, которая обучается без какого-либо участия со стороны людей.
Прорывное новшество
Современные системы распознавания речи обучаются на аудиозаписях разговоров и их текстовых расшифровках. Эти расшифровки пишутся вручную людьми. Это долгий и скучный труд, поскольку для тренировки искусственного интеллекта требуется огромное количество учебного материала.
Новая система Facebook под названием Wav2vec-U позволяет этого избежать. Искусственный интеллект учится распознавать речь без каких-либо расшифровок. Достаточно "скормить" ей аудиозапись речи и текст, написанный на том же языке. Аудио и текст могут быть никак не связаны друг с другом. Далее генеративно-состязательная сеть многократно "прогоняет" речевые образцы, пока сама не найдет соответствия между звуковыми сочетаниями и словами.
Это по-настоящему прорывная технология, позволяющая обучать ИИ распознаванию даже очень редких языков. В рамках испытаний инженеры Facebook научили систему понимать суахили, киргизский и крымскотатарский языки. Для обучения каждому языку потребовалось около 10 часов записанной речи и 3000 строк текста.
Зачем это нужно?
Разработка позволяет создать систему распознавания речи буквально для каждого живого языка на планете, включая самые редкие языки очень малочисленных народов. А если алгоритм может на лету перевести язык в текст, то он может снабдить этот текст субтитрами на другом языке или синхронным переводом.
По сути, Facebook практически полностью разрушил языковые барьеры. Представьте себе мир, в котором каждый может понять каждого благодаря умному гаджету с программой-переводчиком.
Facebook уже готовится к тому, чтобы начать создание систем распознавания речи для огромного числа языков и диалектов по всему миру.