Искусственный интеллект научили анализировать видео в реальном времени
Машинное обучение уже позволяет компьютерам идентифицировать людей по лицам и читать медицинские снимки. Но задача интерпретации происходящего на видео в реальном времени порождала громоздкие алгоритмы - пока за дело не взялись исследователи из MIT и IBM.
Исследователи из лаборатории MIT и IBM Watson придумали, как сократить размер моделей распознавания видеоизображений. Во-первых, это повышает скорость обучения, во-вторых, такие "легкие" алгоритмы могут работать даже на мобильных устройствах, сообщает Engadget.
Хитрость в том, чтобы изменить взгляд моделей распознавания видео на время. Современные нейросети кодируют хронометраж в последовательности изображений, что приводит к разрастанию их размеров и вычислительной сложности. Специалисты из MIT и IBM разработали "модуль временного сдвига", который дает модели ощущение движения времени без необходимости его эксплицитного представления.
Во время испытаний скорость обучения глубокой нейросети, распознающей видео, этот метод справился с задачей в три раза быстрее, чем существующие аналоги.
Модуль временного сдвига позволит запускать модели распознавания видео на мобильных устройствах. "Наша цель - сделать ИИ доступным для каждого владельца дешевого устройства, - сказал профессор MIT Хань Сун. - Для этого нам надо сконструировать эффективные модели ИИ - менее требовательные к энергии и ресурсам, которые могут работать на периферийных устройствах, куда сейчас мигрирует искусственный интеллект".
О важности периферийных вычислений совсем недавно говорил и глава Microsoft Сатья Наделла. На саммите в Вашингтоне он привел доводы в пользу этой технологии, которая, по его мнению, вскоре будет работать в тандеме с облачной.