Conozca PV3D: un nuevo marco 3D de IA para la generación de videos de retratos

El aprendizaje automático y la inteligencia artificial están viviendo los mejores momentos de sus vidas. Con el reciente lanzamiento de grandes modelos como Stable Diffusion y ChatGPT, la era de los modelos generativos ha llegado a un punto muy interesante.

Por ejemplo, podemos plantear a ChatGPT cualquier pregunta que se nos ocurra, y la red nos responderá de forma satisfactoria y agotadora.

Cómo monitorear sus modelos de Machine Learning ML (patrocinado)

Otro ejemplo relacionado con multimedia es la generación de imágenes sorprendentes a partir de una descripción de texto de entrada. Los modelos de difusión como Stable Diffusion o Dall-E son recientes pero ya bien conocidos para estas aplicaciones.

La era de los modelos generativos es más amplia que la de los modelos de difusión que, a pesar de tener increíbles capacidades de aprendizaje, siguen siendo computacionalmente pesados ​​incluso con optimizaciones y trucos como el uso de un espacio latente en el proceso de difusión.

Otros modelos, como las redes antagónicas generativas (GAN), recientemente lograron un progreso impresionante, lo que llevó a la generación de retratos humanos a un éxito sin precedentes y generó muchas aplicaciones industriales.

La generación de videos de retratos se ha convertido en el próximo desafío para los modelos generativos profundos con aplicaciones más amplias como la manipulación y animación de videos. Se ha propuesto una larga línea de trabajo para aprender un mapeo directo del código latente al video de retrato o descomponer la generación de video de retrato en dos etapas, es decir, síntesis de contenido y generación de movimiento.

A pesar de ofrecer resultados plausibles, tales métodos solo producen videos 2D sin considerar la geometría 3D subyacente, que es el atributo más deseable con aplicaciones amplias como recreación de retratos, animación de caras parlantes y VR/AR. Los métodos actuales generalmente crean videos de retratos en 3D a través de técnicas gráficas clásicas, que requieren sistemas de múltiples cámaras, estudios bien controlados y trabajos artísticos pesados.

En el trabajo presentado en este artículo, el objetivo es aliviar el esfuerzo de crear videos de retratos en 3D de alta calidad aprendiendo solo de videos monoculares en 2D, sin la necesidad de anotaciones en 3D o de múltiples vistas.

Recientes métodos generativos de retratos en 3D han sido testigos de rápidos avances. La integración de representaciones neuronales implícitas (INR) en GAN puede producir resultados fotorrealistas y consistentes de múltiples vistas.

Sin embargo, tales métodos se limitan a la generación de retratos estáticos y difícilmente pueden extenderse a la generación de videos de retratos debido a varios desafíos. En primer lugar, queda por descubrir cómo modelar eficazmente retratos humanos dinámicos en 3D en un marco generativo. En segundo lugar, el aprendizaje de geometría 3D dinámica sin supervisión 3D está muy limitado. Tercero, el enredo entre los movimientos de la cámara y los movimientos/expresiones humanas introduce ambigüedades en el proceso de entrenamiento.

El resumen de la arquitectura se presenta en la siguiente figura.

Conozca PV3D un nuevo marco 3D de IA para la
Fuente: https://showlab.github.io/pv3d/

PV3D formula la tarea de generación de video de retrato compatible con 3D como una función de generador y representación de volumen y considera parámetros como el código de apariencia, el código de movimiento, los intervalos de tiempo y las poses de la cámara.

El generador primero genera una representación triplano utilizando un modelo previamente entrenado y luego lo extiende a una representación espacio-temporal para la síntesis de video, denominada triplano temporal.

En lugar de modelar conjuntamente la apariencia y la dinámica del movimiento dentro de un solo código latente, la generación de video 3D se divide en componentes de generación de apariencia y movimiento, cada uno codificado por separado.

La apariencia del video involucra características como el género y el color de la piel, mientras que la generación de movimiento define la dinámica del movimiento expresada en el video, como una persona que abre la boca.

Durante el entrenamiento, se recopilan pasos de tiempo y sus correspondientes poses de cámara para cada video. Después de la generación del eje triplano, el código de apariencia y la pose de la cámara se proyectan primero en códigos de apariencia intermedios para la síntesis de contenido. En cuanto al componente de movimiento, una capa de movimiento está diseñada para codificar códigos de movimiento y pasos de tiempo en códigos de movimiento intermedios.

Después de la salida de la representación de tres planos, se aplica la renderización de volumen para sintetizar fotogramas con diferentes poses de cámara.

A continuación, los fotogramas renderizados se muestrean y refinan mediante un módulo de superresolución.

Para garantizar la fidelidad y la plausibilidad del contenido y el movimiento del cuadro generado, se aprovechan dos discriminadores para supervisar el entrenamiento del generador.

A pesar de estar entrenado solo con videos 2D monoculares, PV3D puede generar una gran variedad de videos de retratos fotorrealistas con diversos movimientos y geometría 3D de alta calidad bajo puntos de vista arbitrarios.

La figura que se presenta a continuación ofrece un ejemplo y una comparación con los enfoques más avanzados.

1674077629 115 Conozca PV3D un nuevo marco 3D de IA para la
Fuente: https://showlab.github.io/pv3d/

Este fue el resumen de PV3D, un nuevo marco de IA para abordar el problema de la generación de videos de retratos. Si estás interesado, puedes encontrar más información en los siguientes enlaces.


Revisar la Papel y Proyecto. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirte nuestra página de Reddit, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.


daniele lorenzi passbild

Daniele Lorenzi recibió su M.Sc. en TIC para Ingeniería de Internet y Multimedia en 2021 de la Universidad de Padua, Italia. Él es un Ph.D. candidato en el Instituto de Tecnología de la Información (ITEC) en la Alpen-Adria-Universität (AAU) Klagenfurt. Actualmente trabaja en el Laboratorio Christian Doppler ATHENA y sus intereses de investigación incluyen transmisión de video adaptable, medios inmersivos, aprendizaje automático y evaluación de QoS/QoE.


Fuente del artículo

Deja un comentario