Новости и события » Общество » Смартфон определил интересующие пользователя объекты по взгляду

Смартфон определил интересующие пользователя объекты по взгляду

Смартфон определил интересующие пользователя объекты по взгляду

Американские инженеры создали алгоритм, позволяющий смартфонам понимать, на что сейчас смотрит пользователь, и тем самым более точно интерпретировать его голосовые команды. Он сопоставляет данные с передней и задней камер, и тем самым вычисляет точку, на которую смотрит человек. Это позволяет использовать в общении с голосовым помощником обезличенные команды, например, "Во сколько закрывается этот магазин?". Статья с описанием алгоритма будет представлена на конференции CHI 2020.

Голосовые помощники достаточно сильно развились за последние годы, но у них до сих пор остается несколько фундаментальных проблем, в том числе и слабая работа с контекстом. Например, зачастую они не понимают связи новой команды с предыдущим диалогом с пользователем, а также неспособны работать с указательными местоимениями. Однако в повседневном общении люди постоянно используют такую форму указания, поэтому она могла бы сделать голосовые помощники более похожими на людей.

Чтобы смартфон мог понимать, о чем именно говорит пользователь в таком случае, ему необходимо использовать данные от камеры. Самый очевидный способ реализации такого алгоритма - просто наводить камеру на интересующий предмет, чтобы он находился в центре кадра. Но это делает использование смартфона неестественным, поэтому разработчики под руководством Криса Харрисона (Chris Harrison) из Университета Карнеги - Меллона предложили одновременно использовать камеры с обеих сторон смартфона, чтобы определять направление взгляда человека, не заставляя его точно направлять смартфон.

Авторы воспользовались iPhone с iOS 13, потому что начиная с этой версии система позволяет одновременно использовать две камеры. Для распознавания направления разработчики воспользовались системным API для отслеживания положения головы. На его основе программа получает вектор с направлением головы и, зная параметры обеих камер, переносит его на данные с задней камеры.

Объекты на этих данных распознает встроенный в iOS фреймворк. Главное ограничение заключается в том, что он работает только со знакомыми объектами, однако разработчики предполагают, что это можно решить с помощью единой облачной базы данных. Алгоритм сопоставляет вектор с распознанными объектами перед камерой и ранжирует их по дальности от него.

Программа слушает пользователя в поисках активационной фразы, распознавая слова с помощью встроенного в систему алгоритма диктовки. После того, как пользователь сказал активационную фразу и команду, программа сопоставляет указательные местоимения в команде с объектами и формирует окончательную команду, в которой местоимения заменены на конкретные объекты. Поскольку приложение является демонстрацией метода, оно само обрабатывает команду и зачитывает ответ, но при желании команду можно отдавать на обработку системному голосовому помощнику или даже встроить в систему.

Один из троих авторов статьи работает в компании Apple, которая недавно подала патентную заявку на похожий метод, позволяющий уточнять команды с указательными местоимениями с помощью взгляда. В заявке описаны разные реализации такой системы, в том числе с умной колонкой со встроенной камерой, а также смартфоном, стоящим в комнате.

Apple IPhone Университеты


Maxtang MAX-N100 - мини-ПК со встроенным блоком питания как у Mac...

Maxtang MAX-N100 - мини-ПК со встроенным блоком питания как у Mac mini

В продажу поступил новый компактный компьютер Maxtang MAX-N100 Mini PC. Единственное, чем он примечателен, это встроенный блок питания как у Mac mini (2024). У большинства современных мини-ПК блок питания внешний, но Maxtang MAX-N100 Mini PC - не тот...

сегодня 15:15

Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх