Новый метод защитит потребительские данные, сохранив их ценность для аналитиков
![Новый метод защитит потребительские данные, сохранив их ценность для аналитиков](http://img2.newsmir.info/img/p/3/2061/2060784.jpg)
Потребительские данные постоянно собирают различные организации, в том числе местные власти, маркетинговые агентства и социальные медиа-сервисы. Такая деятельность регламентируется существующими законами о приватности, требующими шифровать и, в некоторых случаях, преобразовывать исходную информацию в "защищенные данные" перед передачей сторонним лицам.
Однако, по мнению ряда исследователей таких, как Мэтью Шнайдер (Matthew Schneider), доцент кафедры принятия решений и информационных систем управления в бизнес-колледже Дрексельского университета (штат Пенсильвания), этого недостаточно.
"Даже компаниям с высокими стандартами безопасности данных может быть сложно защитить конфиденциальность данных потребителей", - говорит он, подчеркивая, что и конфиденциальность, как таковая, еще не гарантирует анонимности. Зачастую, трех или четырех осторожно сформулированных вопросов бывает достаточно, чтобы однозначно идентифицировать респондента.
"Шифрование определенно помогает бороться с утечкой данных, но оно не предотвращает ее полностью, - отмечает Шнайдер. - Более предусмотрительным было бы преобразовывать данные еще пользования ими где-либо внутри организации, исходя из предположения, что рано или поздно они неизбежно попадут в открытую сеть".
В свежей статье, опубликованной в Journal of Marketing Analytics, Шнайдер и Доун Якобуччи (Dawn Iacobucci) из Университета Вандербильта (штат Теннесси), предложили методологию, которая необратимо изменяет наборы данных исследований, чтобы защитить приватность потребителей. Она основано на технике, применяемой для секвенирования генома, и позволяет скрыть личность потребителей, сохранив при этом высокую аналитическую точность информации (ошибка не превышает 5%).
"Наш метод, по сути, перетасовывает демографические сведения из набора данных опроса, - сказал Шнайдер. - Но, в отличие от прежних методов, наш переставляет данные, поддерживая корреляцию между переменными, важными для аналитиков. Защищенные данные симулируются на потребительском уровне, но все еще ценны для конечного пользователя".