Новая нейронная сеть Google значительно точнее и быстрее, чем популярные аналоги
Сверточные нейронные сети (англ. Convolutional neural networks - CNN), вдохновленные биологическими процессами в зрительной коре человека, хорошо подходят для таких задач, как распознавание объектов и лиц, но повышение точности их работы требует утомительной и тонкой настройки. Вот почему ученые из исследовательского отдела Google AI изучают новые модели, которые "масштабируют" CNN "более структурированным" способом. Результат своей работы они опубликовали в статье "EfficientNet: переосмысление масштабирования моделей для сверточных нейронных сетей", размещенной на научном портале Arxiv.org, а также в публикации в своем блоге. Соавторы утверждают, что семейство систем искусственного интеллекта, получившее название EfficientNets, превосходит точность стандартных CNN и повышает эффективность нейронной сети до 10 раз.
"Обычная практика масштабирования моделей заключается в произвольном увеличении глубины или ширины CNN, а также использовании большего разрешения входного изображения для обучения и оценки", - пишут штатный инженер-программист Минсинг Тан (Mingxing Tan) и ведущий ученый в Google AI Куок Ли (Quoc V. Le). "В отличие от традиционных подходов, которые произвольно масштабируют параметры сети, такие как ширина, глубина и входящее разрешение, наш метод равномерно масштабирует каждое измерение с фиксированным набором коэффициентов масштабирования".
Для дальнейшего повышения производительности исследователи выступают за использование новой базовой сети - мобильной инвертированной свертки узкого места (англ. mobile inverted bottleneck convolution - MBConv), которая служит основой для семейства моделей EfficientNets.
В тестах EfficientNets продемонстрировало как более высокую точность, так и лучшую эффективность по сравнению с существующими CNN, на порядок уменьшив требование к размеру параметров и вычислительным ресурсам. Одна из моделей - EfficientNet-B7, продемонстрировала в 8,4 раза меньший размер и в 6,1 раза лучшую производительность, чем известная CNN Gpipe, а также достигла 84,4 % и 97,1 % точности (Топ-1 и Топ-5 результат) в тестировании на наборе ImageNet. По сравнению с популярной CNN ResNet-50, другая модель EfficientNet - EfficientNet-B4, используя аналогичные ресурсы, продемонстрировала точность в 82,6 % против 76,3 % у ResNet-50.
Модели EfficientNets хорошо показали себя и на других наборах данных, достигнув высокой точности в пяти из восьми тестов, включая наборы CIFAR-100 (точность 91,7 %) и Flowers (98,8 %).
"Обеспечивая значительные улучшения эффективности нейронных моделей, мы ожидаем, что EfficientNets потенциально может послужить новой основой для будущих задач в области компьютерного зрения", - пишут Тан и Ли.
Исходный код и учебные сценарии для облачных тензорных процессоров (TPU) от Google находятся в свободном доступе на Github.