Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0
Разработчики нейромодели для генерации изображений по текстовому описанию Kandinsky 3.0 рассказали об особенностях работы новой версии алгоритма в рамках прошедшей конференции AI Journey 2023.
Kandinsky 3.0 - это модель машинного обучения диффузионного типа. Количество параметров по сравнению с Kandinsky 2.2 увеличено в 2,5 раза, с 4,6 до 11,9 млрд.
В основном увеличение числа параметров вызвано апгрейдом текстового энкодера, который преобразует текстовые команды. Таким образом модели удалось значительно улучшить понимание запросов пользователя.
Еще разработчики Kandinsky 3.0 задействовали декодер Sber-MoVQGAN в версии с самым большим количеством параметров - 270 млн. Эта модель показывала лучшие результаты в задаче восстановления изображений.
Процесс обучения включал пять стадий, в ходе которых через модель прошли 2,7 млрд пар «изображение - текст».
С материалом разработчиков Kandinsky 3.0 можно ознакомиться на платформе Hugging Face.
В рамках AI Journey также представлена Kandinsky Video - первая отечественная модель генерации видео по тексту. Она умеет создавать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.