Новости и события » Общество » ИИ выявляет наркоторговцев в Instagram с точностью до 95%

ИИ выявляет наркоторговцев в Instagram с точностью до 95%

ИИ выявляет наркоторговцев в Instagram с точностью до 95%

Американские специалисты разработали мультимодальную систему машинного обучения, способную выявлять в Instagram страницы и публикации торговцев наркотиками путем анализа различного контента, в том числе фотографий.

Автором исследования, получившего название "Выявление незаконных наркоторговцев в Instagram с помощью крупномасштабного мультимодального объединения данных" (Identifying Illicit Drug Dealers on Instagram with Large-scale Multimodal Data Fusion), является группа специалистов Университета Западной Вирджинии и Кейсовского университета Западного резервного района.

В рамках проекта исследователи создали базу данных под названием "Выявление наркоторговцев в Instagram" (Identifying Drug Dealers on Instagram, IDDIG), а которую вошли 4 тыс. страниц пользователей соцсети, из них 1,4 тыс. принадлежали торговцам наркотиками, а остальные играли роль контрольной группы.

Как показали результаты первых тестирований, разработанная специалистами система выявляла наркоторговцев в Instagram с точностью до 95%. Кроме того, система подтолкнула к созданию проекта по выявлению сообществ на основе хэштегов, предназначенного для обнаружения изменяющихся признаков связанной с продажей наркотиков деятельности с помощью географических факторов и идентификации конкретных типов наркотиков.

Деятельность наркоторговцев в Instagram не всегда очевидна. Зачастую они рекламируют свои услуги в комментариях и с помощью хэштегов, а не в публикациях, которые было бы намного легче обнаружить как машине, так и человеку. В связи с этим разработанная специалистами система также анализирует хэштеги и комментарии.

В дополнение к анализу текста с использованием языковой модели BERT и классификации изображений с помощью нейросети ResNet система также использует мультимодальное слияние данных на уровне функций, как предложено в документе IEEE "Дискриминантный корреляционный анализ: объединение в реальном времени на уровне функций для мультимодального биометрического распознавания" (Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition) за 2016 год.

Система начинает работу по выявлению наркоторговцев с отслеживания публикаций с одним или несколькими из двухсот хэштегов, относящихся к наркотикам, с помощью API для поиска хэштегов.

Фотографии в публикациях с этими хэштегами затем классифицируются с помощью бинарной модели классификации на базе VGG-16. Если изображения совпадают с изображениями известных наркотиков, они сохраняются в системе, а публикация конвертируется в объект JSON для дальнейшего извлечения.

Далее система изучает комментарии и другую информацию (как текст, так и изображения) на страницах пользователей, опубликовавших искомые хэштеги и чей контент был отмечен как связанный с наркотиками. Таким образом в набор данных были добавлены 10 тыс. публикаций и более 23 тыс. страниц пользователей.

С целью обхода обнаружения правоохранительными органами относящиеся к наркотикам хэштеги постоянно меняются. Поэтому каждый новый хэштег в отмеченной публикации, отсутствующий в списке относящихся к наркотикам хэштегов, фиксируется и вносится в систему для последующего использования.

В конечном итоге набор данных обрабатывается с помощью пакета NetworkX языка программирования Python. Обрабатывая хэштеги так, будто они относятся к одной публикации, исследователи смогли сгенерировать связанный с наркотиками неориентированный граф для анализа с помощью NetworkX.

Исследователи протестировали набор данных IDDIG на разных протоколах, в том числе Multimodal Data Fusion, Multisource Data Fusion и Quadruple Fusion, и смогли идентифицировать связанные с наркотиками публикации и пользователей с точностью до 95%, если сравнивать с обработкой данных человеком.

BERT (Bidirectional Encoder Representations from Transformers) - разработанная компанией Google нейросетевая модель-трансформер, на которой в настоящее время строится большинство инструментов автоматической обработки языка.

IEEE (Institute of Electrical and Electronics Engineers) - Институт инженеров электротехники и электроники. Международная некоммерческая ассоциация специалистов в области техники, мировой лидер в области разработки стандартов по радиоэлектронике, электротехнике и аппаратному обеспечению вычислительных систем и сетей.

VGG16 - модель сверточной нейронной сети для выделения признаков изображений. Была предложена специалистами Оксфордского университета К. Симоняном и А. Зиссерманом. Модель достигает точности 92,7% при тестировании на ImageNet в задаче распознавания объектов на изображении.

JSON - текстовый формат обмена данными, основанный на JavaScript. Как и многие другие текстовые форматы, JSON легко читается людьми. Несмотря на происхождение от JavaScript (точнее, от подмножества языка стандарта ECMA-262 1999 года), формат считается независимым от языка и может использоваться практически с любым языком программирования.

Правоохранители США Университеты


  • Доставка из Германии в Украину с сервисом Meest Shopping

    Доставка из Германии в Украину с сервисом Meest Shopping

    Зарубежный интернет-магазин – это площадка, где можно найти широкий ассортимент качественных и недорогих товаров от известных производителей. Доставка из...

    29 августа 2024
  • Тротуарная плитка: свойства, виды и преимущества

    Тротуарная плитка: свойства, виды и преимущества

    Тротуарная плитка давно стала неотъемлемой частью городского ландшафта. Она используется не только для обустройства тротуаров, но и для мощения дворов,...

    4 июля 2024
  • Где лечить зубы в Харькове

    Где лечить зубы в Харькове

    Выбор стоматологии - это важный и ответственный процесс, требующий внимательного подхода и учета множества факторов. Пациенты стремятся найти клинику, которая...

    24 мая 2024
  • Перевод письменного текста

    Перевод письменного текста

    Перевод письменного текста – это процесс перевода текста на другой язык с помощью письменного переноса информации из одного языка на другой с учетом...

    4 мая 2024

Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх