Google открыл код SyntaxNet, системы восприятия естественного языка
Компания Google анонсировала открытие исходных текстов фреймворка SyntaxNet, предоставляющего модель парсинга, описывающую синтаксис естественного языка. SyntaxNet может применяться для построения систем разбора предложений на естественном языке, в том числе в составе системы машинного обучения TensorFlow. Более того, для TensorFlow опубликована уже натренированная модель нейронной сети "Parsey McParseface", пригодная для разбора текста на английском языке. Код открыт под лицензией Apache 2.0.
Система разработана в рамках проекта, основными задачами которого является придание компьютерным системам возможности читать и понимать человеческий язык. Возможности "Parsey McParseface" и SyntaxNet сравниваются со способностью пятилетнего ребенка усваивать нюансы языка. Точность работы модели "Parsey McParseface" оценивается Google в 94%. Производительность SyntaxNet позволяет обрабатывать приблизительно 600 слов в секунду на обычном настольном компьютере. В качестве сопутствующих инструментов предоставлены средства для анализа лингвистической структуры предложений или высказываний, показывающие функциональную роль каждого слова.
Например, при разборе фразы "Наташа увидела Бориса", Наташа и Борис определяются как объекты (существительные), а "увидела" как определяющее действие ключевое слово (глагол). Возможен разбор и более сложных конструкций, например "Наташа, читавшая про SyntaxNet, вчера увидела Бориса в магазине". "Parsey McParseface" и SyntaxNet дают возможность определить зависимости и связи между частями предложения, и ответить на такие вопросы, как кого увидела Наташа, кто увидел Бориса, о чем читала Наташа и кода Наташа увидела Бориса.