Facebook собрал самый крупный датасет, чтобы обучать алгоритмы поведению человека
Исследователи собрали самый крупный датасет от первого лица, чтобы обучать алгоритмы очков дополненной реальности и голосовых помощников пониманию того, что именно делает человек.
Разработчики из Facebook AI и еще из 13 университетов создали самый объемный датасет видеороликов, которые сняты от первого лица. Эти данные помогут исследователям во время обучения алгоритмов компьютерного зрения, которые анализируют окружающую остановку с человеческого ракурса.
В сборе данных участвовали 855 добровольцев из 74 городов и 9 стран. Они снимали ролики с помощью камеры и умных очков. Во время съемки участники занимались повседневными делами: готовили еду, выбирали продукты в магазине, общались с другими людьми. Общая длина записей составила 3025 часов.
Для каждого отдельного ролика есть описание того, что в нем происходит. Также для части видео есть и другие подробные данные о звуке, трехмерной модели помещения, направлении взгляда, а также стереоскопические кадры, снятые носимой стереокамерой с одного человека и набор синхронизированных роликов, сделанных разными людьми в одном месте и в одно время, например, во время настольной игры.
Также на собранных данных можно обучиться конкретным навыкам, для этого были созданы специальные тематические модули:
- Для обучения эпизодической памяти, когда алгоритм должен ответить на вопрос о произошедших событиях, например, во сколько у меня бы вчера прием у врача. Также
- Предсказание будущих действий, например, не забыть посолить блюдо или убрать вещи из стиральной машинки.
- Понимание того, что делает человек и как двигаются объекты в кадре.
- Отслеживание разговора и понимание того, кто что сказал в беседе.
- Анализ взаимодействия между людьми, в частности понимание, что на носителя камеры смотрят или к нему обращаются.
Авторы планируют до конца ноября 2021 года опубликовать датасет, его можно будет получить после того, как пользователь подпишет лицензионное соглашение.