Алгоритм от Alibaba читает по губам с недостижимой ранее точностью
Секрет программы заключается в том, что при ее обучении используется видеозапись со звуком. Это позволяет ей извлекать информацию как из отдельных кадров, так и из контекста.
Алгоритмы, способные читать по губам, существуют уже несколько лет, однако по точности они намного уступают системам распознавания голоса. Исследователи из компании Alibaba, Чжэцзянского университета и Технологического института Стивенса решили усовершенствовать технологию.
Как сообщает Venture Beat, команда разработала методику Lip by Speech (LIBS), при обучении которой одновременно используется как чтение по губам, так и распознавание речи. Чтобы настроить алгоритм, исследователи использовали два массива информации, которые содержат 45?000 и 100 000 фраз на китайском соответственно.
Особый подход к обучению позволил программе глубже понимать содержание видео. Получившийся в итоге алгоритм справляется с чтением по губам намного лучше аналогов.
Например, ему под силу расшифровывать предложения короче 14 символов. Секрет в том, что программа извлекает полезную информацию на трех уровнях - не только из каждого кадра, но также анализируя их последовательность и контекст, то есть раннее расшифрованные фразы.
В ближайшем будущем алгоритмы типа LIBS серьезно облегчат жизнь людей с нарушениями слуха. Они смогут просматривать видео или телепередачи, не снабженные субтитрами.