Facebook открыл код библиотеки классификации текста fastText
Лаборатория искусственного интеллекта Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения. Код написан на языке C++ и открыт под лицензией BSD. Библиотека позволяет организовать автоматическое назначение произвольного текста к категориям, на основании предварительно проведенного обучения по наборам текстов известных категорий. Например, fastText может оценить является ли письмо спамом или определить к какой категории относится статья (научная, спорт, финансы, развлечения и т. п.).
Из достоинств fastText отмечается поддержка различных языков, расширенные методы анализа слов и их сочетаний, очень высокая скорость обучения. Например, обучение fastText по базе Yahoo (13.5 Тб) длится всего 5 секунд и обеспечивает точность классификации 72.3%, в то время как char-CNN выполняет эту работу за 1 день при точности 71.2%, а VDCNN за 2 часа при точности 73.4%.