Мощные алгоритмы машинного зрения адаптируют для портативных устройств
Визуальное распознавание это одно из важнейших приложений глубокого обучения. Оно применяется для анализа медицинских изображений, для автономного вождения и идентификации лиц. Но тренировка моделей для распознавания действий в видео становится все более дорогостоящей и все менее доступной для устройств с ограниченными вычислительными ресурсами.
Решением этой проблемы занимаются исследователи из Массачусетского технологического института (MIT) вместе с коллегами из лаборатории искусственного интеллекта (Watson AI Lab) компании IBM. Ими создана новая методика тренировки моделей распознавания видео, которая подходит для использования в телефонах и других маломощных устройствах.
Обычный алгоритм разбивает видео на отдельные кадры и применяет техники распознавания к каждому из них. Затем, он отслеживает изменения объектов от кадра к кадру. Для этого от алгоритма требуется помнить все, что он видел в каждом кадре, а также порядок следования кадров. По мнению авторов исследования, это требование снижает эффективность тренировки и без него можно обойтись.
В предложенном ими подходе, алгоритм извлекает из каждого кадра базовые "эскизы" объектов и накладывает их друг на друга. Вместо запоминания, что и когда происходит, алгоритм наблюдает за изменением объектов на эскизах.
В сравнительных испытаниях исследователи показали, что такой метод тренирует модели видеораспознавания в три раза быстрее, чем лучшие из ранее известных алгоритмов. С его помощью также удалось быстро классифицировать жесты руки, используя небольшой компьютер и камеру, которые потребляли меньше энергии, чем велосипедный фонарик.
Новая методика может уменьшить задержку и вычислительную стоимость уже существующих коммерческих программ компьютерного зрения, например, сделать машины с автономным управлением более безопасными за счет ускорения их реакции на поступающую визуальную информацию. Кроме того, ее внедрение позволит реализовать новые, прежде неосуществимые приложения распределенного ИИ, такие как диагностирование пациентов с помощью мобильных телефонов.