Эксперты смогли определить, что набирает на клавиатуре собеседник в Zoom
Группа исследователей из Техасского университета и Университета Оклахомы нашла способ, позволяющий определять, что набирает на клавиатуре пользователь по другую сторону экрана во время видеозвонка, основываясь на его телодвижениях. По словам экспертов, представленный ими метод применим не только к видеозвонкам, но и к стримам на YouTube и Twitch, если поле обзора web-камеры фиксирует движения верхней части тела пользователя.
Процесс определения того, какие клавиши нажимает пользователь, проходит в три этапа. Первый этап - предварительная обработка записанного видео. На этом этапе убирается фон и видео переводится в серый цвет. Далее проводится сегментирование областей левой и правой руки относительно лица человека, обнаруженного с помощью детектора лица FaceBoxes.
На втором этапе происходит определение кадров, где пользователь нажимает клавиши. Извлекаются сегментированные кадры рук для вычисления индекса структурного сходства (SSIM) с целью количественной оценки движений тела между последовательными кадрами в каждом из левых и правых сегментов видео и определения потенциальных кадров, в которых произошли нажатия клавиш.
Третий этап - определение набранных на клавиатуре слов. На данном этапе анализируются сегменты кадра с нажатием клавиш с целью найти признаки движения до и после каждого обнаруженного нажатия клавиши. Затем с помощью алгоритма прогнозирования на основе словаря выводятся конкретные слова.
Другими словами, слова выводятся из пула обнаруженных нажатий клавиш путем подсчета количества нажатий для каждого слова и определения размаха и направления руки между последовательными нажатиями. Смещение руки определяется с помощью технологии компьютерного зрения под названием Sparse.
Исследователи протестировали фреймворк с 20 участниками (9 женщин и 11 мужчин) в контролируемом сценарии. В ходе тестирования испытуемые использовали как неумелое печатание двумя пальцами, так слепой набор текста и надевали разную одежду с разным покроем рукавов. Также использовались разные фоны, модели web-камер и клавиатур и разные программ для видеозвонков, в том числе Zoom, Hangouts и Skype.
Как показали результаты тестирования, представленный исследователями метод наиболее эффективен в отношении пользователей, плохо печатающих на клавиатуре, носящих одежду без рукавов и использующих web-камер Logitech.