Microsoft опубликовала набор данных для обучения искусственного интеллекта пониманию речи
Набор данных под названием MS MARCO, который корпорация Microsoft бесплатно предоставляет разработчикам технологий искусственного интеллекта, содержит сто тысяч вопросов на английском языке, составленных на основе реальных запросов к поисковым системам Bing и ассистенту Cortana. К вопросам прилагаются написанные людьми ответы с цитатами из соответствующих материалов, найденных в сети. Именно эти особенности - реалистичность и отсутствие ограничений в формулировках - полагают в корпорации, делают набор MS MARCO одним из самых полезных для построения моделей глубинного обучения искусственного интеллекта, в отличие от распространенных моделей на базе методов классификации.
Microsoft распространяет новый набор на тех же условиях, что и предыдущие - например, базу данных изображений ImageNet, предназначенную для разработки и тестирования алгоритмов распознавания образов. Она использовалась в ходе создания технологии, положенной в основу интерфейса Microsoft Computer Vision API.
Методы машинного обучения и искусственного интеллекта широко применяются в облачной системе Azure, офисных пакетах Office, в Windows и других разработках Microsoft.