Исследователи продемонстрировали уязвимость лучших детекторов дипфейков
Широкое распространение в соцсетях дипфейков - видео, в которых реальные кадры видоизменены с помощью искусственного интеллекта - вызывает тревогу во всем мире, подрывая доверие к цифровым медиа.
Теперь, на проходившей в январе онлайн-конференции WACV 2021, компьютерные ученые из Калифорнийского университета в Сан-Диего (UC San Diego) впервые показали, что лучшие ИИ-системы, предназначенные для обнаружения дипфейков, можно обмануть, вставляя в каждый видеокадр так называемые состязательные примеры. Эти слегка измененные входные данные, заставляют системы ИИ допускать ошибки.
В дополнение к этому было показано, что надежные состязательные дипфейки можно создавать, даже не располагая сведениями о том, как функционирует модель машинного обучения, используемая детектором.
Исследователи создали состязательные примеры для каждого лица в каждом кадре видео и даже сделали их устойчивыми к сжатию и изменение размера видео. Атаки тестировались для двух сценариев: в одном случае злоумышленники имеют полный доступ к детектору, включая архитектуру и параметры модели классификации; в другом они могут только запрашивать модель машинного обучения для определения вероятности того, что кадр будет признан настоящим или поддельным.
В первом сценарии вероятность успеха атаки для несжатых видео превысила 99%, а для сжатых - достигала 84,96%. Во втором сценарии обмануть детектор удавалось в 86,43% случаев для несжатого видео и в 78,33% - для сжатого.
Команда UC San Diego отказалась опубликовать свой код, чтобы исключить его злонамеренное использование.
Для улучшения детекторов исследователи рекомендуют так называемое состязательное обучение: когда "вражеская" нейросеть старается обмануть детектор, генерируя все более искусные дипфейки, а детектор на этих примерах совершенствует свое умение выявлять подделки.