Deepfakes Lab: распознавание дипфейков и защита от них с помощью ИИ
Ложь бывает вредна, и это не новость. Нас как читателей могут вводить в заблуждение даже заголовки и текст, ложные новости и высказывания.
И тем не менее, способность изменять реальность совершила рывок вперед с появлением технологии «дипфейков», которая позволяет создавать изображения и видео, где реальные люди произносят или делают то, чего они никогда не говорили и не делали. Методы глубокого обучения повышают уровень детализации этой технологии, создавая еще более реалистичный контент, который становится все сложнее распознать.
Дипфейки начали привлекать к себе внимание, когда в конце 2017 г. фейковое «видео для взрослых» с участием актрисы фильма «Чудо-женщина» было выложено на Reddit пользователем с ником «deepfakes». Затем было выпущено несколько смонтированных видеороликов с участием звезд первой величины, некоторые из которых носили исключительно развлекательный характер, а другие - выставляли знаменитостей в унизительном свете. Все это представляет собой реальную угрозу. Популярный в Интернете контент и так искажает истину, чтобы набрать просмотры, а информация в социальных сетях представляется и потребляется через фильтр наших субъективных мнений.
Дипфейки существенно усугубят эту проблему. Звездные знаменитости, политики и даже бренды могут столкнуться с беспрецедентными угрозами, от запугивания до умышленного подрыва имиджа. Не менее серьезны риски, которым подвергается наше правосудие, политика и национальная безопасность. Представьте себе экономику даркнета, в которой создатели дипфейков генерируют заведомо ложный контент, который выпускается с целью повлиять на то, какой автомобиль мы покупаем, в какой супермаркет ходим, и даже за какого кандидата на политический пост отдаем свой голос. Дипфейки могут затронуть все сферы нашей жизни, следовательно, элементарная защита от них принципиальна важна.
Дипфейки - результат новейших достижений в сфере искусственного интеллекта (ИИ), к которому нередко прибегают злоумышленники, использующие эту технологию для генерации все более реалистичных и убедительных фальшивых изображений, видео, голосовых записей и текстов. Эти видео создаются путем наложения существующих изображений, аудио и видео на исходные медиафайлы с помощью передового метода глубокого обучения (deep learning) под названием «генеративно-состязательные нейросети» (ГСС). ГСС - относительно новая концепция в области ИИ, целью которой является синтез искусственных изображений, неотличимых от подлинных. В методике ГСС одновременно задействованы две нейросети: одна сеть, называемая «генератор», использует набор данных для создания образца, имитирующего их. Другая сеть, известная как «дискриминатор», оценивает, насколько генератору это удалось. При многократном повторении оценки дискриминатора оказывают влияние на оценки генератора. Прогрессирующее совершенствование методики ГСС привело к созданию еще более убедительных дипфейков, которые практически невозможно разоблачить, и результат намного превосходит по скорости, масштабу и точности тот, которого могли бы достичь люди-эксперты.
Чтобы минимизировать эту угрозу, компания McAfee запустила McAfee Deepfakes Lab. Ее цель - сосредоточить высококлассные инструменты и экспертные знания в области анализа и обработки данных на противодействии угрозе дипфейков для отдельных людей, организаций, демократии и в целом для достоверности информации в нашем обществе. Deepfakes Lab сочетает в себе компьютерное зрение и методы глубокого обучения для анализа и расшифровывания скрытых закономерностей и распознавания элементов фальсифицированных видео, которые играют ключевую роль в аутентификации подлинных медиафайлов.
Чтобы обеспечить понятность результатов прогнозирования фреймворка глубокого обучения и источника решения, для каждого прогноза, мы потратили немало времени на визуализацию слоев и фильтров наших сетей, а затем добавили модельно-независимый фреймворк с объяснительной способностью поверх фреймворка для распознавания. Наличие объяснений для каждого прогноза помогает нам принять обоснованное решение о том, насколько мы уверены в достоверности изображения и модели, а также получить данные, которые могут быть использованы для ее улучшения.
Мы также провели всестороннюю валидацию и верификацию фреймфорка для распознавания на большом наборе данных и протестировали возможности обнаружения на дипфейках, найденных на просторах интернета. Наш фреймворк для распознавания смог обнаружить недавнее дипфейк-видео с главой Facebook Марком Цукербергом, выступающим с короткой речью о возможностях больших данных. Этот инструмент не только представил точную оценку распознавания, но и сгенерировал тепловые карты с помощью модельно-независимого объясняющего модуля, выделив те участки его лица, которые способствовали принятию решения, тем самым повышая доверие к нашим прогнозам.
Подобные легкодоступные дипфейки подтверждают проблемы, с которыми сталкиваются социальные сети, когда дело касается контроля за сфабрикованным контентом. Поскольку развитие методики ГСС позволяет создавать очень реалистичные поддельные изображения, необходимо будет разработать усовершенствованные методы компьютерного зрения для выявления и распознавания более сложных типов дипфейков. Кроме того, необходимо принять меры по защите от дипфейков с помощью водяных знаков (вотермарков) или аутентификационного следа.
Мы понимаем, что средства массовой информации действительно обладают значительной властью в формировании общественного мнения и убеждений. Как следствие, достоверность информации в них нередко приносится в жертву во имя максимального воздействия. Поговорка «одна картинка стоит тысячи слов» подчеркивает значимость феномена дипфейков. Правдоподобные, но сфальсифицированные аудио, видео и тексты будут иметь огромное влияние, которое может быть использовано для того, чтобы испортить репутацию знаменитости или бренда, а также воздействовать на политические убеждения с ужасающими последствиями. Компьютерное зрение и фреймворки для обнаружения дипфейков на основе глубокого обучения способны аутентифицировать и распознавать поддельные визуальные медиа и текстовые материалы, но ущерб репутации и влияние на общественное мнение, тем не менее, остаются.