Google поможет разработчикам и ученым сохранить конфиденциальность данных
Google открывает инструмент "дифференциальная конфиденциальность" для разработчиков и ученых, работающих с данными. Продукт будет интересен всем, кто хочет обеспечить безопасность собираемой информации.
Дифференциально-приватный анализ данных - метод, который дает возможность извлекать пользу из обрабатываемых сведений, одновременно гарантируя, что эти результаты не позволят выделить данные какого-либо отдельного пользователя. Этот тип анализа может быть реализован различными способами и для разных целей. Например, исследователи в области здравоохранения могут сравнивать среднее количество времени пребывания пациентов в разных больницах, чтобы определить, есть ли различия в получаемом ими сервисе. Это достигается путем смешивания новых пользовательских данных с искусственным "белым шумом". В итоге результаты любого анализа не могут быть использованы для идентификации людей и не позволяют третьей стороне отследить любую точку данных до ее источника.
В Google решили открыть на GitHub доступ к версии дифференциальной конфиденциальности с открытым исходным кодом, которая уже используется в некоторых основных продуктах компании. Некоторые из ключевых особенностей библиотеки:
-Статистические функции: в открытой версии поддерживаются наиболее распространенные операции с данными. Разработчики могут вычислять суммы, средние значения, медианы, процентили и счетчики;
-Тщательное тестирование. Чтобы предотвратить возникновение ошибок при анализе данных, в ПО включены наборы тестов и "библиотека стохастических проверок дифференциальной модели конфиденциальности";
-Готовность к использованию. К ПО прилагается технический документ с описанием особенностей ПО, чтобы пользователь смог сразу начать работу с продуктом;
-Модульность: библиотеку можно расширить, включив другие функции.
Аналогичную технологию использует Apple при организации машинного обучения, ориентированного на конфиденциальность. Это позволяет компании извлекать данные из iPhone, статистически анонимизировать их и эффективно извлекать полезную информацию, например, для улучшения алгоритмов Siri. Google использует тот же подход в Chrome, предотвращая отслеживание истории просмотра и других конфиденциальных сведений. Сервис может быть полезен разработчикам в сфере здравоохранения, социологии, бизнесе, госсекторе и пр.
"Мы использовали дифференциально-приватные методы для создания полезных функций в наших продуктах, например, для определения, насколько занят бизнес в течение дня или насколько популярно блюдо конкретного ресторана в Google Maps, и улучшаем [с их помощью] Google Fi".