Apple впервые поделилась своими успехами в области искусственного интеллекта
В начале декабря Apple заявила о своем намерении опубликовать результаты исследований искусственного интелекта (ИИ). На этой неделе компания анонсировала метод улучшения синтетических изображений, предназначенных для тренировки нейросети. Это первая официально опубликованная в общем доступе работа, касающаяся разработок компании.
Apple вплоть до недавнего времени придерживалась закрытой политики и информация о различных исследовательских работах, в том числе в сфере машинного обучения. Однако в декабре Руслан Салахутдинов, недавно возглавивший в Apple исследовательское подразделение по разработкам в области искусственного интеллекта, заявил, что компания меняет свою политику и теперь работы будут публиковаться, а сотрудники смогут открыто взаимодействовать с научным сообществом.
В первой опубликованной Apple работе описывается метод улучшения синтетических размеченных изображений, которые используются для быстрого обучения нейросетей, сообщает Nplus1. При обучении крайне важен объем и качество данных, на примере которых обучается программа, однако в некоторых случаях подходящей информации может попросту не оказаться в нужном объеме - например, для тренировки нейросети, которая поможет управлять различными устройствами взглядом, необходимо большое количество размеченных фотографий глаз. Разметка больших баз вручную - трудоемкий процесс, поэтому исследователи, решающие подобные задачи, нередко используют вместо реальных фотографий рендеры изображения глаз.
У нейросетей, натренированных на синтетических изображениях, проявляется новая слабость - они хуже распознают реальные фотографии, поскольку они не использовались в обучении или использовались в значительно меньшем количестве, чем синтетические. Одно из возможных решений - использовать б? льшие вычислительные мощности при создании изображений для повышения их реалистичности, однако такой метод ведет к ощутимому удорожанию работы.
Чтобы решить существующие проблемы с генерируемыми изображениями разработчики из Apple решили использовать промежуточную нейронную сеть, которая помогает создавать набор данных для обучения. Программа использует размеченное синтетическое изображение и неразмеченную реальную фотографию для создания на выходе нового улучшенного изображения, которое сохраняет в себе направление взгляда и разметку от синтетического. Фактически, стиль фотографии переносится на сгенерированное изображение глаза.
Для проверки эффективности и правдоподобности улучшенных таким образом изображений авторы показывали десяти испытуемым 50 реальных фотографий и 50 улучшенных сгенерированных изображений. Одновременно каждый доброволец видел 20 картинок из обеих категорий и должен был отметить реальные и сгенерированные изображения. В результате из 1000 изображений испытуемые правильно отметили 517 (p = 0,148), что практически не отличается от случайного угадывания. В то же время, при демонстрации синтетических изображений без улучшения и реальных фотографий добровольцы отнесли к верной категории 162 картинки из 200 (p? 10-8), что существенно отличается от случайного угадывания.
Кроме проверки с помощью добровольцев авторы также проверили эффективность новых изображений с помощью нейросети, которую натренировали на улучшенных картинках. Алгоритм, обучавшийся на улучшенных изображениях, показал результат распознавания направления взгляда на 22,3% выше, чем такая же нейросеть, натренированная на обычных синтетических изображениях.
Правильное определение направления взгляда может быть использовано для управления устройствами в самых разных сферах - например, для перемещения в VR-играх, предсказывания маневров водителей до их совершения или управления военными беспилотниками.