Нейросеть научили воссоздавать 3D-модель человека по фотографии
Американские и японские разработчики научили нейросеть создавать цветную 3D-модель человека по одной или нескольким фотографиям. Особенность алгоритма заключается в том, что он достаточно качественно воссоздает даже вид со спины, которая не видна на исходном снимке, рассказывают авторы статьи, которая будет представлена на конференции ICCV 2019.
Как сообщается, решение, получившее название PIFu (Pixel-aligned Implicit Function), состоит из двух последовательных сверточных нейросетей, одна из которых анализирует исходный снимок (либо несколько исходных снимков), обнаруживает на нем тело человека и, используя методику под названием "Шагающие кубики", воссоздает по нему 3D-модель, а вторая придает получившейся модели цветность.
Для обучения алгоритма исследователи воспользовались датасетом RenderPeople, состоящем из высококачественных 3D-моделей людей, полученных с помощью фотограмметрических сканеров.
На опубликованном авторами ролике можно видеть, что алгоритм достаточно качественно воссоздает всю модель, в том числе и со спины. Кроме того, в ролике продемонстрировано, что даже наличие трех кадров вместо одного значительно повышает качество итоговой модели. Наконец, авторы показали, что во многих аспектах алгоритм справляется с воссозданием 3D-модели лучше, чем аналогичные алгоритмы других разработчиков.
По словам исследователей, их разработка - это еще один шаг на пути к созданию методики, позволяющей извлекать 3D-сцены из обычных видео. В дальнейших работах инженеры намерены обучить нейросеть воссоздавать по фотографиям 3D-модели различных предметов.