"Яндекс" открыл для публики свою систему машинного обучения
Программисты "Яндекса" разработали и выложили в открытый доступ систему машинного обучения CatBoost, которая уже сейчас используется в работе Большого адронного коллайдера, сообщает пресс-служба компании.
"Яндекс много лет занимается машинным обучением, и CatBoost создавали лучшие специалисты в этой области. Надо сказать, что CatBoost - первый российский метод машинного обучения, который стал доступен публике. Надеемся, что сообщество оценит его по достоинству и поможет сделать еще лучше", - заявил Михаил Биленко, руководитель управления машинного интеллекта и исследований "Яндекса".
Как отмечают специалисты "Яндекса", эта система машинного обучения является прямым наследником системы Матрикснет, основы фактически всех сервисов российского поискового гиганта. Она является не нейросетью, а использует специальные математические приемы, так называемый градиентный бустинг, для оценки релевантности информации и анализа данных.
Под этим словом программисты понимают особый набор алгоритмов, каждый из которых выдает ответ, не сильно отличающийся от случайных значений, но комбинация которых позволяет получить достаточно точный ответ на поставленную задачу или классифицировать тот или иной объект.
Главным плюсом алгоритма CatBoost, по словам программистов, является то, что он позволяет использовать не только числовые данные, но и объекты другого типа, к примеру, фотографии облаков или типы зданий. Это упрощает работу для людей, использующих его для анализа и категоризации информации, и значительно расширяет его применение.
В рамках эксперимента он применялся для улучшения результатов поиска, ранжирования ленты рекомендаций Яндекс.Дзен и для расчета прогноза погоды в технологии Метеум, и во всех случаях показал себя лучше Матрикснета.
В дальнейшем CatBoost будет работать и на других сервисах. Его использует также команда Yandex Data Factory - в своих решениях для промышленности, в частности для оптимизации расхода сырья и предсказания дефектов. Кроме того, CatBoost уже сейчас использует ЦЕРН: он применил российский алгоритм для объединения данных, полученных с разных частей детектора LHCb.
Как пояснила пресс-служба "Яндекса", компания намерена использовать ту же версию CatBoost в своей работе, которая была выложена в открытый доступ, и программисты компании планируют использовать предложения сообщества для улучшения этой системы машинного обучения.