Почти всех жителей США можно "вычислить" через геномные базы данных
Израильские генетики провели любопытный "следственный эксперимент", показавший, что личность произвольного гражданина США можно установить по одному образцу ДНК в 60% случаев, используя частные геномные базы данных. Их выводы были представлены в журнале Science.
"Можно сказать, что в ближайшем будущем геномные базы данных будут работать как "система GPS" для поисков анонимных обладателей той или иной ДНК. Роль координат в ней будут играть генеалогические древа, позволяющие находить тех или иных людей через их родственников даже в тех случаях, если они сами не проходили такие тесты", - рассказывает Янив Эрлих (Yaniv Erlich) из университета Колумбии в Нью-Йорке (США).
Геномный портрет
Развитие геномных технологий и удешевление процедуры расшифровки ДНК сделало генетическую экспертизу одним из главных инструментов криминологов, историков и многих других специалистов, не связанных напрямую с биологией. Сегодня геномы используются для поиска преступников, пропавших людей и раскрытия тайн происхождения народов.
Более того, в прошлом году Крейг Вентер, известный биопредприниматель и генетик, заявил, что его команда смогла найти участки ДНК, управляющие формой лица и другими анатомическими чертами. Их анализ, по словам генетика, позволяет составить правильный фоторобот человека в 75% случаев. Идеи Вентера вызвали бурю критики со стороны других биологов, в том числе и Эрлиха.
Как тогда отмечал Эрлих, весь смысл этого "открытия" сводился к тому, что возраст человека, а также его пол и этническую принадлежность можно вычислить по его ДНК, и использовать эти данные для сужения круга потенциальных "подозреваемых". Это работает в небольших группах людей, но не будет работать на уровне стран и крупных городов.
Подобные рассуждения и споры с Вентером натолкнули Эрлиха на мысль о создании методики, которая позволяла бы реально идентифицировать личность случайного человека на улице или помогала полиции искать преступников в масштабах всей страны, используя лишь одиночные образцы их ДНК.
Сегодня, как отмечает Эрлих, особенно бурно развиваются компании, такие как 23andMe, Family Tree, Ancestry и прочие их конкуренты, вычисляющие родственные связи между своими клиентами и определяющие их предрасположенность к разным болезням по образцам их ДНК.
Услугами подобных стартапов сегодня пользуются миллионы людей в США и в других развитых странах мира, благодаря чему они накопили одни из самых больших генетических баз данных в мире. Их данные сегодня используются учеными для поиска генов, связанных с редкими наследственными болезнями, а также множества других целей.
Новые возможности и угрозы
Эрлих и его коллеги воспользовались одной из таких баз данных, собранной компанией MyHeritage, для проверки того, можно ли их использовать и в "криминалистических" целях - для поиска неизвестных личностей, об облике которых ничего не известно.
В общей сложности, услугами этого стартапа воспользовалось свыше 1,2 миллиона человек, многие из которых приходятся родственниками друг другу. Используя случайные образцы ДНК людей, не проходивших тестирование в стенах этой компании, Эрлих и его коллеги проверяли, можно ли найти их родственников и "вычислить" их по совпадающим сегментам генома.
Как оказалось, это можно сделать примерно для 60% американцев европейского происхождения, причем во многих случаях ученым удавалось идентифицировать не только троюродных братьев и сестер и прочих далеких родичей, но и прямых родственников.
Более того, расчеты Эрлиха и его команды показывают, что базы данных, включающей в себя всего 2% жителей той или иной страны или города, хватит для того, чтобы определять личность фактически всех его жителей, используя ту же информацию об их поле, возрасте и цвете глаз и прочих чертах, на которую опирались Вентер и его единомышленники.
К примеру, для всех 30 "анонимов", чьи ДНК анализировали ученые, изначальный список "кандидатов" на их роль включал примерно 800-900 человек. Когда генетики учли информацию по их возрасту, полу и той точке, где была получена проба, им удалось сократить их число до 1-2 индивидов.
Столь успешная реализация этого "следственного эксперимента", как отмечает Эрлих, говорит о двух вещах. Во-первых, правоохранители теперь могут смело использовать геномные базы данных для поиска преступников и родственников их жертв. Во-вторых, геномным стартапам следует уделять гораздо больше внимания защите персональных данных их клиентов, чем они делают это сегодня, и использовать криптографию для их защиты от деанонимизации.