Новости и события » Общество » Смартфон определил интересующие пользователя объекты по взгляду

Смартфон определил интересующие пользователя объекты по взгляду

Смартфон определил интересующие пользователя объекты по взгляду

Американские инженеры создали алгоритм, позволяющий смартфонам понимать, на что сейчас смотрит пользователь, и тем самым более точно интерпретировать его голосовые команды. Он сопоставляет данные с передней и задней камер, и тем самым вычисляет точку, на которую смотрит человек. Это позволяет использовать в общении с голосовым помощником обезличенные команды, например, "Во сколько закрывается этот магазин?". Статья с описанием алгоритма будет представлена на конференции CHI 2020.

Голосовые помощники достаточно сильно развились за последние годы, но у них до сих пор остается несколько фундаментальных проблем, в том числе и слабая работа с контекстом. Например, зачастую они не понимают связи новой команды с предыдущим диалогом с пользователем, а также неспособны работать с указательными местоимениями. Однако в повседневном общении люди постоянно используют такую форму указания, поэтому она могла бы сделать голосовые помощники более похожими на людей.

Чтобы смартфон мог понимать, о чем именно говорит пользователь в таком случае, ему необходимо использовать данные от камеры. Самый очевидный способ реализации такого алгоритма - просто наводить камеру на интересующий предмет, чтобы он находился в центре кадра. Но это делает использование смартфона неестественным, поэтому разработчики под руководством Криса Харрисона (Chris Harrison) из Университета Карнеги - Меллона предложили одновременно использовать камеры с обеих сторон смартфона, чтобы определять направление взгляда человека, не заставляя его точно направлять смартфон.

Авторы воспользовались iPhone с iOS 13, потому что начиная с этой версии система позволяет одновременно использовать две камеры. Для распознавания направления разработчики воспользовались системным API для отслеживания положения головы. На его основе программа получает вектор с направлением головы и, зная параметры обеих камер, переносит его на данные с задней камеры.

Объекты на этих данных распознает встроенный в iOS фреймворк. Главное ограничение заключается в том, что он работает только со знакомыми объектами, однако разработчики предполагают, что это можно решить с помощью единой облачной базы данных. Алгоритм сопоставляет вектор с распознанными объектами перед камерой и ранжирует их по дальности от него.

Программа слушает пользователя в поисках активационной фразы, распознавая слова с помощью встроенного в систему алгоритма диктовки. После того, как пользователь сказал активационную фразу и команду, программа сопоставляет указательные местоимения в команде с объектами и формирует окончательную команду, в которой местоимения заменены на конкретные объекты. Поскольку приложение является демонстрацией метода, оно само обрабатывает команду и зачитывает ответ, но при желании команду можно отдавать на обработку системному голосовому помощнику или даже встроить в систему.

Один из троих авторов статьи работает в компании Apple, которая недавно подала патентную заявку на похожий метод, позволяющий уточнять команды с указательными местоимениями с помощью взгляда. В заявке описаны разные реализации такой системы, в том числе с умной колонкой со встроенной камерой, а также смартфоном, стоящим в комнате.

Apple IPhone Университеты


  • Доставка из Германии в Украину с сервисом Meest Shopping

    Доставка из Германии в Украину с сервисом Meest Shopping

    Зарубежный интернет-магазин – это площадка, где можно найти широкий ассортимент качественных и недорогих товаров от известных производителей. Доставка из...

    29 августа 2024
  • Тротуарная плитка: свойства, виды и преимущества

    Тротуарная плитка: свойства, виды и преимущества

    Тротуарная плитка давно стала неотъемлемой частью городского ландшафта. Она используется не только для обустройства тротуаров, но и для мощения дворов,...

    4 июля 2024
  • Где лечить зубы в Харькове

    Где лечить зубы в Харькове

    Выбор стоматологии - это важный и ответственный процесс, требующий внимательного подхода и учета множества факторов. Пациенты стремятся найти клинику, которая...

    24 мая 2024
  • Перевод письменного текста

    Перевод письменного текста

    Перевод письменного текста – это процесс перевода текста на другой язык с помощью письменного переноса информации из одного языка на другой с учетом...

    4 мая 2024

Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх