Новости и события » Hi-Tech » Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики нейромодели для генерации изображений по текстовому описанию Kandinsky 3.0 рассказали об особенностях работы новой версии алгоритма в рамках прошедшей конференции AI Journey 2023.

Kandinsky 3.0 - это модель машинного обучения диффузионного типа. Количество параметров по сравнению с Kandinsky 2.2 увеличено в 2,5 раза, с 4,6 до 11,9 млрд.

В основном увеличение числа параметров вызвано апгрейдом текстового энкодера, который преобразует текстовые команды. Таким образом модели удалось значительно улучшить понимание запросов пользователя.

Еще разработчики Kandinsky 3.0 задействовали декодер Sber-MoVQGAN в версии с самым большим количеством параметров - 270 млн. Эта модель показывала лучшие результаты в задаче восстановления изображений.

Процесс обучения включал пять стадий, в ходе которых через модель прошли 2,7 млрд пар «изображение - текст».

С материалом разработчиков Kandinsky 3.0 можно ознакомиться на платформе Hugging Face.

В рамках AI Journey также представлена Kandinsky Video - первая отечественная модель генерации видео по тексту. Она умеет создавать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.


Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх