Чем опасна технология имитации голоса - исследование
Американские исследователи решили проверить голосовых помощников и людей на устойчивость к обману от синтетического голоса и нашли общие уязвимости.
Так бдительность разумных колонок удалось усыпить английским акцентом, а люди охотнее поделились своими данными в "комфортных условиях" онлайн-собеседования без видеосвязи. Синтетический голос ученые создавали с помощью общедоступных приложений и проверяли на четырех самых популярных голосовых помощниках.
Почему нужно защищаться от синтетических голосов?
Наш голос передает гораздо больше информации, чем просто слова, которые мы им озвучиваем. Это фундаментальная часть нашей идентичности, которую часто называют "слуховым лицом". На слух мы можем примерно оценить пол, возраст, национальность и даже рост и социально-экономический статус. Хотя идентификация человека по голосу несовершенна, она вдохновила на создание систем распознавания лиц в целях безопасности, а также на простые приложения, облегчающие нам жизнь. Сегодня голосом можно вызвать холодильник, включать кофеварку, водить, вносить планы в календарь - системы автоматического распознавания речи эволюционировали в персональных ассистентов.
Но все особенности голоса так же легко, как расшифровываются алгоритмами, подвергаются глубинной учебе. Нейросети спокойно способны имитировать человеческий голос и поэтому кроме проприетарных систем, таких как Google Duplex, которые способны позвонить за вас в магазин и сделать заказ, существует огромное количество приложений, которые превращают существующие голосовые образцы в нужные вам предложения.
И так, учитывая тесную связь между нашими голосами и нашей идентичностью, инструмент, имитирующий наши голоса, может нанести серьезный ущерб. Во-первых, он может обойти голосовые системы аутентификации, например, в банках или использовать мобильные приложения для обмена голосовыми сообщениями, такие как WeChat. Безусловно пострадает и популярная концепция интернета, когда вашими голосовыми помощниками Alexa от Amazon и Google Home можно будет поуправлять и без вас. Поэтому в своей работе ученые из Чикагского университета взялись испытывать коммерческие системы Microsoft Azure, WeChat и Alexa на устойчивость к синтетическому голосу, а вместе с тем и 14 добровольцев - смогут ли они распознать фейк.
Насколько уязвимы голосовые помощники?
Ученые использовали две общедоступные системы синтеза голоса. Одной системе, AutoVC, нужно до пяти минут речи для создания приемлемой имитации целевого голоса, а другой, SV2TTS, нужно всего пять секунд. Такая разница обусловливает и качество, поможет понять уровень устойчивости разумных колонок. С их помощью ученые пытались разблокировать системы безопасности распознавания голоса, используемых колонками Microsoft Azure и Amazon Alexa, а также голосовым чатом WeChat. Система распознавания голоса Microsoft Azure сертифицирована несколькими официальными отраслевыми организациями, WeChat позволяет пользователям входить в систему с помощью голоса, а Alexa позволяет людям использовать свой голос для осуществления платежей в сторонних приложениях, таких как Uber. AutoVC удалось обмануть Microsoft Azure примерно в 15 процентах случаев, а SV2TTS - в 30 процентах. Однако Azure требует, чтобы пользователи произносили триггерные фразы для аутентификации, и команда обнаружила, что SV2TTS может успешно подделать хотя бы одну из десяти этих распространенных фраз.
Учитывая более низкую производительность алгоритма AutoVC, команда не пробовала использовать его против WeChat и Amazon Alexa, но SV2TTS успешно обманывала обе системы примерно в 63 процентах случаев. По словам ученых, вызывает тревогу тот факт, что для всех трех популярных реальных систем, пользуются распознаванием голоса, существует как минимум один синтезированный образец, который они приняли за настоящий. Это наглядно демонстрирует реальную угрозу атак синтеза речи. Интересно, что обученные на наборах данных алгоритмы, плохо умеют воспроизводить акценты. И оказалось, что на это и надежда в голосовых помощников - так синтезированную речь им чаще удавалось отличить от реальной.
Как на синтетический голос отреагировали люди?
Продемонстрировав, что синтезированный нейросетями голос может легко обмануть технику, ученые перешли к оценке его воздействия на людей. В отличие от предыдущих работ, где использовались опрос для измерения человеческого восприятия речи, в этой работе они оценивали восприимчивость людей к синтезированной речи в различных интерактивных условиях. Так добровольцам составили "доверительную обстановку", где они были склонны не думать критически о голосах, которые слышат. Все участники не проявили никаких сомнений или подозрений во время интервью и с готовностью ответили на все запросы "фальшивого интервьюера" и выполнили их. Доверчивой обстановкой для людей ученые считают или телефонные встречи, или звонки в Zoom с коллегами, или звонки с одним или несколькими людьми, которых они знают (или думают, что знают).
Все 14 участников ответили на три вопроса фальшивого интервьюера, посетили востребован вебсайт и даже дали свой школьный идентификационный номер. После того, как интервью завершилось и обман был раскрыт, только четверо заявили, что, по их мнению, было что-то "не так" в голосе фальшивого интервьюера. Важно отметить, что этих четырех участников (намеренно) не предупреждали о "простуде" собеседника. Интересно, что и упоминание фальшивого языка в описании опроса сделало статистически значимое влияние на ответы - очевидный повышенный скептицизм по отношению к оратору.
Полученые результаты подчеркивают необходимость повышения осведомленности и разработки новых средств защиты от синтетической речи как для людей, так и для машин.
Microsoft Uber США Университеты