NVIDIA открыла код StyleGAN, генератора лиц на основе машинного обучения
Компания NVIDIA открыла наработки, связанные с проектом StyleGAN, позволяющим генерировать изображения новые лица людей, имитируя фотографии. Система автоматически учитывает аспекты размещения лиц на фотографиях и позволяет комбинировать их в произвольном виде, делая неотличимыми от настоящих фотографий (большинство опрошенных не смогли отличить оригинальные фотографии от сгенерированных). Для синтеза лиц применяется система машинного обучения на основе генеративно-состязательной нейронной сети (GAN). Код написан на языке Python с применением фреймворка TensorFlow и опубликован под лицензией Creative Commons BY-NC 4.0 (только для некоммерческого использования).
Для загрузки доступны как готовые натренированные модели, так и коллекции изображений для самостоятельного обучения нейронной сети. Базовая модель обучена на основе коллекции Flickr-Faces-HQ (FFHQ), включающей 70 тысяч высококачественных (1024x1024) PNG-изображений лиц людей. При этом система не привязана к лицам, в качестве пирмера показаны варианты, обученные на коллекциях фотографий автомобилей. Для работы требуется одна или несколько видеокарт NVIDIA (рекомендуется GPU Tesla V100), как минимум 11 Гб ОЗУ, драйверы NVIDIA 391.35+, инструментарий CUDA 9.0+ и библиотека cuDNN 7.3.1.
Система позволяет синтезировать изображение нового лица на основе интерполяции особенностей нескольких лиц, комбинируя свойственные им черты, а также адаптируя итоговое изображение под необходимый возраст, пол, длину волос, особенности улыбки, форму носа, цвет кожи, очки, поворот лица на фотографии. Генератор рассматривает изображение как коллекцию стилей и автоматически отделяет характерные детали (веснушки, волосы) от общих высокоуровневых атрибутов (поза, пол, возрастные изменения).