Google выпустила алгоритм для резюмирования текста
Команда Google Brain выпустила алгоритм SummAE AI, который не просто делает выборку предложений заданного текста, а перефразирует фрагмент "своими словами", пишет VentureBeat.
Система SummAE работает без контроля или при минимальном участии человека и способна извлекать краткое содержание из текстов объемом в 5 предложений. По словам исследователей, качество сделанных ею резюме значительно лучше, чем у существующих аналогов.
SummAE состоит из шумоподавляющего автокодировщика, который кодирует предложения и абзацы целевого текста, и декодера. Всего было обучено три версии SummAE на датасете ROCStories, состоящем из более чем 98 тысяч текстовых фрагментов для обучения, валидации и тестирования нейросетей. Также было подготовлено по 3 аннотации, сделанных человеком, для 1 тысячи валидационных и тестовых примеров.
Для оценки качества аннотаций нейросети использовались метрики ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Лучшая из обученных моделей значительно превзошла эталонный генератор, а сотрудники Amazon Mechanical Turk оценили результаты одной из них как естественные и содержательные в 80 процентах случаев.
Исходный код системы SummAE вместе с конфигурациями доступен на GitHub.