Новости и события » Hi-Tech » Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики объяснили принцип работы модели генерации изображений по тексту Kandinsky 3.0

Разработчики нейромодели для генерации изображений по текстовому описанию Kandinsky 3.0 рассказали об особенностях работы новой версии алгоритма в рамках прошедшей конференции AI Journey 2023.

Kandinsky 3.0 - это модель машинного обучения диффузионного типа. Количество параметров по сравнению с Kandinsky 2.2 увеличено в 2,5 раза, с 4,6 до 11,9 млрд.

В основном увеличение числа параметров вызвано апгрейдом текстового энкодера, который преобразует текстовые команды. Таким образом модели удалось значительно улучшить понимание запросов пользователя.

Еще разработчики Kandinsky 3.0 задействовали декодер Sber-MoVQGAN в версии с самым большим количеством параметров - 270 млн. Эта модель показывала лучшие результаты в задаче восстановления изображений.

Процесс обучения включал пять стадий, в ходе которых через модель прошли 2,7 млрд пар «изображение - текст».

С материалом разработчиков Kandinsky 3.0 можно ознакомиться на платформе Hugging Face.

В рамках AI Journey также представлена Kandinsky Video - первая отечественная модель генерации видео по тексту. Она умеет создавать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду.


Какие бывают упаковки: полный гид по видам и особенностям

Какие бывают упаковки: полный гид по видам и особенностям

В современном мире маркетинга и продаж, упаковка товара играет ключевую роль, оказывая значительное влияние на восприятие и выбор потребителя. Упаковка не только защищает товар от повреждений в процессе транспортировки и хранения, но и служит важным...

сегодня 23:33

Свежие новости Украины на сегодня и последние события в мире экономики и политики, культуры и спорта, технологий, здоровья, происшествий, авто и мото

Вверх