В МТИ разработали систему для коллективного анализа больших данных
При анализе больших данных прежде всего необходимо выделить в них так называемые признаки: наиболее ценные для анализа или прогноза элементы набора данных. При выборе признаков специалистам, как правило, приходится полагаться на собственную интуицию. Исследователи из Массачусетского технологического института попытались применить для решения этой задачи методы краудсорсинга. Они разработали систему под названием FeatureHub. С ее помощью специалисты могут ознакомиться с данными и предложить свои варианты выбора признаков. Затем система автоматически пробует строить прогнозы на основе различных комбинаций этих признаков.
В эксперименте 32 специалистам предложили две задачи с конкурса по анализу данных Kaggle. Качество полученных системой моделей по 100-балльной шкале оказалось всего на 3 и на 5 баллов хуже, чем моделей, победивших в конкурсе. Но участники конкурса работали над задачами в течение недель и месяцев, тогда как каждому из специалистов было выделено на работу с FeatureHub всего пять часов, а в целом решение заняло несколько дней. Авторы надеются, что в будущем этот метод удастся применить в более крупном масштабе.