Новости и события » Общество » Человек - это то, что он лайкает: какую информацию можно собрать в соцсетях

Человек - это то, что он лайкает: какую информацию можно собрать в соцсетях

Человек - это то, что он лайкает: какую информацию можно собрать в соцсетях

Каждую секунду в соцсетях регистрируются восемь новых пользователей. Каждый час сети пополняются миллионами лайков, сообщений, фотографий, видео. О чем могут рассказать эти потоки данных? Исследователи наперегонки создают программы, способные извлекать все больше полезной информации из социальных сетей. Будьте бдительны: каждый ваш лайк содержит информацию о вас, пишет argumentua со ссылкой на "Кот Шредингера"

1. Посты и неологизмы

«Репостить», «лайкать», «комментить» - все эти слова плотно вошли в наш лексикон, но до сих пор остаются за рамками словарей. Ученые из Высшей школы экономики и МГУ им. М. В. Ломоносова решили исправить ситуацию и на материалах фейсбука составили список неологизмов русского языка.

Для этого было обработано 573 млн. постов 3,2 млн. пользователей (это почти 40% русскоязычного фейсбука): все тексты автоматически разбивались на слова, которые потом искали в Открытом корпусе русского языка OpenCorpora. Дальше эксперты вручную процеживали получившийся перечень неологизмов, созданный из слов, не найденных в корпусе.

В итоговом списке оказалось 168 слов. Подавляющее большинство из них англицизмы, связанные с интернетом или мультимедиа («фотоотчет», «видеоблог»). При этом образование всех неологизмов подчиняется строгим грамматическим правилам. Единственным исключением стали слова вроде «ржач», «махач», «срач»: это «ч» как элемент словообразования стало более продуктивным именно благодаря социальным сетям.

2. Хештеги и революция

Влияние социальных сетей на мир стало очевидным во время «арабской весны», когда выснилось, что восставшие координируют свои действия и мобилизуют массы с помощью фейсбука и твиттера. А нельзя ли использовать соцсети для предсказания таких событий?

Этим вопросом задались ученые из Кембриджа и Гарварда, разработавшие программу, которая высчитывает индекс политической поляризации и измеряет уровень напряженности в обществе - близость к революционной ситуации. Для этого исследователи проверили 7000 сообщений египтян в твиттере во время волнений 2013 года на наличие радикальных хештегов вроде «не забудем, не простим» - в Египте существует почти точный аналог этого выражения.

Хештеги - это такие отметки, которые начинаются со знака «», знакомят с темой сообщения и позволяют распознавать «своих» в информационной войне. Оказалось, что их анализ вполне пригоден для прогнозирования: пики упоминания радикальных хештегов действительно предшествовали реальным столкновениям.

3. Лайки и сексуальная ориентация

«Человек - то, что он лайкает», - могли бы изречь ученые из Кембриджа, исследовавшие лайки 58 тыс. пользователей Фейсбука и обнаружившие взаимосвязь между мимолетными предпочтениями и более глубокими личностными характеристиками.

Разработанная ими программа отличает белых от афроамериканцев с точностью до 95%, республиканцев от демократов - 85%, мусульман от христиан - 82%. Менее успешно программа «угадывает» семейное положение (точность - 65%), курение (73%) и употребление наркотиков (65%). Позволяют лайки судить и о сексуальной ориентации: для мужчин - с точностью 88%, для женщин - 75%.

При этом корреляции не всегда бывают прямыми: например, только 5% геев лайкали однополые браки и другие столь же специфические события. Программа делает выводы, опираясь на косвенные данные вроде музыкальных предпочтений. Допустим, поставить лайк Hello Kitty - значит признать свою открытость и эмоциональную нестабильность, а любители спиральной картошки фри наверняка идентифицируются как обладатели высокого интеллекта.

4. Фейсбук и настроение

Ничто человеческое интернету не чуждо. Рождение детей и революции, катастрофы и праздники - все главные события реальной жизни неминуемо фиксируются на страницах социальных сетей. Вот и решил Александр Панченко, старший исследователь московской «Лаборатории цифрового общества», написать программу, определяющую общее настроение русскоязычного сегмента фейсбука.

Его алгоритм находит в текстах эмоционально окрашенные слова, список которых составлен экспертами (негативные - «страшный», «скучный», позитивные - «любимый», «бесплатный»). Далее высчитываются доли положительных, отрицательных и нейтральных слов в тексте и уже по ним - индексы эмоциональности.

Оказалось, что позитивные тексты появляются в фейсбуке в 7,5 раз чаще негативных. Вообще же посты, как и пользователи, чутко реагируют на реальные события: на графике хорошо видны вспышки радости в выходные и праздники и провалы, совпадающие с войнами, стихийными бедствиями и массовыми протестами.

5. Твиты и простуда

Министерство здравоохранения США объявило конкурс на лучшую программу, которая по твитам вроде «Кажется, я заболел. Чувствую себя совершенно разбитым» сможет отслеживать распространение болезни. Победила команда исследователей из Университета Джонса Хопкинса.

Их алгоритм анализирует 5000 коротких сообщений в минуту и отсеивает те, что не касаются здоровья конкретного пользователя (к примеру, «Обама сегодня не впечатлил. Приболел, наверное»). В результате по проценту «простуженных» твитов программа в режиме реального времени собирает достоверную информацию о количестве заболевших в стране и путях распространения инфекции.

6. Френды и расставания

Даже если вы предпочитаете не афишировать романистические отношения, компьютерная программа все равно сможет вычислить вашего партнера в списке «френдов». Ну, не всегда, конечно, но в 60% случаев. Алгоритм создали Джон Клейберг из Корнельского университета и инженер Facebook Ларс Бакстром. Для отработки программы они собрали данные о 1,3 млн пользователей, указавших свое семейное положение и имевших от 50 до 2000 френдов.

Алгоритм отслеживает, сколько социальных групп связывает между собой двух людей. Например, она знакома с его коллегами по работе, а он с ее друзьями по школе, и больше никто из этих обособленных сообществ друг с другом не связан. Чем больше таких мостиков, тем выше вероятность, что пара состоит или будет состоять в романтических отношениях. И наоборот: программа предсказывает вероятность расставания, даже, если в статусе стоит «в отношениях с...».


RTX 5080 станет первой видеокартой нового поколения от Nvidia

RTX 5080 станет первой видеокартой нового поколения от Nvidia

Инсайдер Kopite7kimi сообщил, что Nvidia сначала выпустит видеокарту GeForce RTX 5080, а после выйдет более производительная RTX 5090. В случае с RTX 40 все было наоборот, сначала в продаже появился флагман RTX 4090, потом подтянулись решения попроще. Судя...

сегодня 12:35

Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх