El modelo de difusión eDiffi de NVIDIA permite «pintar con palabras» y más

Intentar hacer composiciones precisas con modelos de imágenes generativas de difusión latente como Stable Diffusion puede ser como arrear gatos; los mismos poderes imaginativos e interpretativos que permiten al sistema crear detalles extraordinarios y evocar imágenes extraordinarias a partir de indicaciones de texto relativamente simples también son difíciles de desactivar cuando se busca control a nivel de Photoshop sobre la generación de imágenes.

Ahora, un nuevo enfoque de la investigación de NVIDIA, titulado difusión de conjuntos para imágenes (eDiffi), utiliza una combinación de múltiples métodos interpretativos e integrados (en lugar del mismo método durante toda la canalización) para permitir un nivel de control mucho mayor sobre el contenido generado. En el siguiente ejemplo, vemos a un usuario pintando elementos donde cada color representa una sola palabra de un mensaje de texto:

'Pintar con palabras' es una de las dos capacidades novedosas del modelo de difusión eDiffi de NVIDIA.  Cada color embadurnado representa una palabra del indicador (véalos aparecer a la izquierda durante la generación), y el color del área aplicado consistirá solo en ese elemento.  Consulte el final del artículo para ver el video oficial incrustado, con más ejemplos y una mejor resolución.  Fuente: https://www.youtube.com/watch?v=k6cOx9YjHJc

‘Pintar con palabras’ es una de las dos capacidades novedosas del modelo de difusión eDiffi de NVIDIA. Cada color embadurnado representa una palabra del indicador (véalos aparecer a la izquierda durante la generación), y el color del área aplicado consistirá solo en ese elemento. Vea el video fuente (oficial) para obtener más ejemplos y una mejor resolución en https://www.youtube.com/watch?v=k6cOx9YjHJc

Efectivamente esto es ‘pintar con máscaras’, e invierte el iparadigma de la pintura en Difusión Estable, que se basa en arreglar imágenes rotas o insatisfactorias, o ampliar imágenes que bien podrían haber tenido el tamaño deseado en primer lugar.

Aquí, en cambio, los márgenes del embadurnamiento pintado representan los límites aproximados permitidos de un solo elemento único de un solo concepto, lo que permite al usuario establecer el tamaño final del lienzo desde el principio y luego agregar elementos discretamente.

Ejemplos del nuevo artículo.  Fuente: https://arxiv.org/pdf/2211.01324.pdf

Ejemplos del nuevo artículo. Fuente: https://arxiv.org/pdf/2211.01324.pdf

Los métodos variados empleados en eDiffi también significan que el sistema hace un trabajo mucho mejor al incluir cada elemento en indicaciones largas y detalladas, mientras que Stable Diffusion y OpenAI’s DALL-E 2 tienden a priorizar ciertas partes de la indicación, dependiendo de qué tan temprano las palabras de destino aparecen en el aviso, o en otros factores, como la posible dificultad para desentrañar los diversos elementos necesarios para una composición completa pero completa (con respecto al texto del aviso):

Del artículo: eDiffi es capaz de iterar más a fondo a través del indicador hasta que se haya representado la cantidad máxima posible de elementos.  Aunque los resultados mejorados para eDiffi (columna más a la derecha) son seleccionados, también lo son las imágenes de comparación de Stable Diffusion y DALL-E 2.

Del artículo: eDiffi es capaz de iterar más a fondo a través del indicador hasta que se haya representado la cantidad máxima posible de elementos. Aunque los resultados mejorados para eDiffi (columna más a la derecha) son seleccionados, también lo son las imágenes de comparación de Stable Diffusion y DALL-E 2.

Además, el uso de un dedicado T5 El codificador de texto a texto significa que eDiffi es capaz de representar texto en inglés comprensible, ya sea solicitado de forma abstracta desde un indicador (es decir, la imagen contiene algo de texto de [x]) o solicitado explícitamente (es decir, la camiseta dice ‘Nvidia Rocks’):

El procesamiento de texto a texto dedicado en eDiffi significa que el texto se puede representar palabra por palabra en imágenes, en lugar de ejecutarse solo a través de una capa interpretativa de texto a imagen que altera la salida.

El procesamiento de texto a texto dedicado en eDiffi significa que el texto se puede representar palabra por palabra en imágenes, en lugar de ejecutarse solo a través de una capa interpretativa de texto a imagen que altera la salida.

Otro estímulo para el nuevo marco es que también es posible proporcionar una sola imagen como indicador de estilo, en lugar de tener que entrenar un modelo de DreamBooth o una incrustación de texto en varios ejemplos de un género o estilo.

La transferencia de estilo se puede aplicar desde una imagen de referencia a un mensaje de texto a imagen, o incluso a un mensaje de imagen a imagen.

La transferencia de estilo se puede aplicar desde una imagen de referencia a un mensaje de texto a imagen, o incluso a un mensaje de imagen a imagen.

los nuevo papel se titula eDiffi: modelos de difusión de texto a imagen con un conjunto de eliminadores de ruido expertosy

El codificador de texto T5

El uso de la T de GoogleTransformador de transferencia de texto a texto (T5) es el elemento fundamental en la mejora de los resultados demostrados en eDiffi. La tubería de difusión latente promedio se centra en la asociación entre las imágenes entrenadas y los subtítulos que las acompañaban cuando se rasparon de Internet (o se ajustaron manualmente más tarde, aunque esta es una intervención costosa y, por lo tanto, rara).

Del documento de julio de 2020 para T5: transformaciones basadas en texto, que pueden ayudar al flujo de trabajo de imágenes generativas en eDiffi (y, potencialmente, otros modelos de difusión latente).  Fuente: https://arxiv.org/pdf/1910.10683.pdf

Del documento de julio de 2020 para T5: transformaciones basadas en texto, que pueden ayudar al flujo de trabajo de imágenes generativas en eDiffi (y, potencialmente, otros modelos de difusión latente). Fuente: https://arxiv.org/pdf/1910.10683.pdf

Al reformular el texto fuente y ejecutar el módulo T5, se pueden obtener asociaciones y representaciones más exactas que las que se entrenaron originalmente en el modelo, casi de forma similar a después de los hechos etiquetado manual, con mayor especificidad y aplicabilidad a lo estipulado en el texto-prompt solicitado.

Los autores explican:

«En la mayoría de los trabajos existentes sobre modelos de difusión, el modelo de eliminación de ruido se comparte en todos los niveles de ruido, y la dinámica temporal se representa utilizando una incrustación de tiempo simple que se alimenta al modelo de eliminación de ruido a través de una red MLP. Argumentamos que la dinámica temporal compleja de la difusión de eliminación de ruido no se puede aprender de los datos de manera efectiva utilizando un modelo compartido con una capacidad limitada.

«En su lugar, proponemos ampliar la capacidad del modelo de eliminación de ruido mediante la introducción de un conjunto de eliminadores de ruido expertos; cada eliminador de ruido experto es un modelo de eliminación de ruido especializado para un rango particular de ruido [levels]. De esta forma, podemos aumentar la capacidad del modelo sin ralentizar el muestreo ya que la complejidad computacional de evaluar [the processed element] en cada nivel de ruido sigue siendo el mismo.’

Flujo de trabajo conceptual para eDiffi.

Flujo de trabajo conceptual para eDiffi.

La existencia ACORTAR Los módulos de codificación incluidos en DALL-E 2 y Stable Diffusion también son capaces de encontrar interpretaciones de imágenes alternativas para el texto relacionado con la entrada del usuario. Sin embargo, se entrenan con información similar al modelo original y no se usan como una capa interpretativa separada en la forma en que T5 está en eDiffi.

Los autores afirman que eDiffi es la primera vez que se incorporan un codificador T5 y CLIP en una sola canalización:

‘Como estos dos codificadores están entrenados con diferentes objetivos, sus incrustaciones favorecen la formación de diferentes imágenes con el mismo texto de entrada. Si bien las incrustaciones de texto CLIP ayudan a determinar el aspecto global de las imágenes generadas, las salidas tienden a pasar por alto los detalles detallados del texto.

“Por el contrario, las imágenes generadas solo con incrustaciones de texto T5 reflejan mejor los objetos individuales descritos en el texto, pero su apariencia global es menos precisa. Su uso conjunto produce los mejores resultados de generación de imágenes en nuestro modelo.’

Interrumpir y aumentar el proceso de difusión

El documento señala que un modelo de difusión latente típico comenzará el viaje desde el ruido puro a una imagen basándose únicamente en el texto en las primeras etapas de la generación.

Cuando el ruido se resuelve en algún tipo de diseño aproximado que representa la descripción en el mensaje de texto, la faceta del proceso guiada por texto esencialmente desaparece y el resto del proceso cambia para aumentar las características visuales.

Esto significa que cualquier elemento que no se resolvió en la etapa inicial de la interpretación de ruido guiada por texto es difícil de inyectar en la imagen más tarde, porque los dos procesos (texto a diseño y diseño a imagen) tienen una superposición relativamente pequeña. , y el diseño básico está bastante enredado cuando llega el proceso de aumento de la imagen.

Del artículo: los mapas de atención de varias partes de la tubería a medida que madura el proceso de ruido>imagen.  Podemos ver la fuerte caída en la influencia CLIP de la imagen en la fila inferior, mientras que T5 continúa influyendo mucho en la imagen. más en el proceso de renderizado.» width=»1000″ height=»310″  /></p>
<p id=Del artículo: los mapas de atención de varias partes de la tubería a medida que madura el proceso de ruido>imagen. Podemos ver la fuerte caída en la influencia de CLIP de la imagen en la fila inferior, mientras que T5 continúa influyendo en la imagen mucho más en el proceso de renderizado.

Potencial Profesional

Los ejemplos en la página del proyecto y el video de YouTube se centran en la generación de imágenes tiernas y memetásticas amigables con las relaciones públicas. Como de costumbre, la investigación de NVIDIA está minimizando el potencial de su última innovación para mejorar los flujos de trabajo fotorrealistas o VFX, así como su potencial para mejorar las imágenes y videos falsos.

En los ejemplos, un usuario novato o aficionado garabatea los contornos aproximados de la ubicación del elemento específico, mientras que en un flujo de trabajo de VFX más sistemático, podría ser posible usar eDiffi para interpretar múltiples fotogramas de un elemento de video usando texto a imagen, donde los contornos son muy precisos y se basan, por ejemplo, en figuras en las que el fondo se eliminó mediante una pantalla verde o métodos algorítmicos.

Runway ML ya proporciona rotoscopia basada en IA.  En este ejemplo, la 'pantalla verde' alrededor del sujeto representa la capa alfa, mientras que la extracción se logró a través del aprendizaje automático en lugar de la eliminación algorítmica de un fondo de pantalla verde del mundo real.  Fuente: https://twitter.com/runwayml/status/1330978385028374529

Runway ML ya proporciona rotoscopia basada en IA. En este ejemplo, la ‘pantalla verde’ alrededor del sujeto representa la capa alfa, mientras que la extracción se logró a través del aprendizaje automático en lugar de la eliminación algorítmica de un fondo de pantalla verde del mundo real. Fuente: https://twitter.com/runwayml/status/1330978385028374529

Usando un entrenado cabina de ensueño carácter y una tubería de imagen a imagen con eDiffi, es potencialmente posible comenzar a concretar uno de los bugbears de ningún modelo de difusión latente: estabilidad temporal. En tal caso, tanto los márgenes de la imagen impuesta como el contenido de la imagen estarían ‘pre-flotados’ contra el lienzo del usuario, con continuidad temporal del contenido representado (es decir, convirtiendo a un practicante de Tai Chi del mundo real en un robot). ) proporcionada por el uso de un modelo DreamBooth bloqueado que ha ‘memorizado’ sus datos de entrenamiento: malo para la interpretabilidad, excelente para la reproducibilidad, la fidelidad y la continuidad.

Método, datos y pruebas

El documento afirma que el modelo eDiffi se entrenó en «una colección de conjuntos de datos públicos y propietarios», fuertemente filtrados por un modelo CLIP previamente entrenado, para eliminar imágenes que probablemente reduzcan el puntaje estético general de la salida. El conjunto final de imágenes filtradas comprende ‘alrededor de mil millones’ de pares de texto e imágenes. El tamaño de las imágenes entrenadas se describe como «el lado más corto mayor de 64 píxeles».

Se entrenaron varios modelos para el proceso, con los modelos base y de superresolución entrenados en AdánW optimizador a una tasa de aprendizaje de 0,0001, con una caída de peso de 0,01 y con un formidable tamaño de lote de 2048.

El modelo base se entrenó en 256 GPU NVIDIA A100 y los dos modelos de súper resolución en 128 NVIDIA A100 GPU para cada modelo.

El sistema estaba basado en el propio de NVIDIA Imaginario Biblioteca PyTorch. COCO y genoma visual Se utilizaron conjuntos de datos para la evaluación, aunque no se incluyeron en los modelos finales, con MS-COCO la variante específica utilizada para la prueba. Los sistemas rivales probados fueron PLANEO, Armar un escándalo, DALL-E 2, Difusión establey los dos sistemas de síntesis de imágenes de Google, Imagen y parte.

De acuerdo con similares previo trabajar, disparo cero FID-30K se utilizó como métrica de evaluación. Bajo FID-30K, 30 000 subtítulos se extraen al azar del conjunto de validación de COCO (es decir, no las imágenes o el texto usado en el entrenamiento), que luego se usaron como indicaciones de texto para sintetizar imágenes.

Luego se calculó la distancia de inicio de Frechet (FID) entre las imágenes reales generadas y en tierra, además de registrar la puntuación CLIP para las imágenes generadas.

Los resultados de las pruebas FID de tiro cero frente a los enfoques de vanguardia actuales en el conjunto de datos de validación de COCO 2014, cuanto más bajos, mejores.

Los resultados de las pruebas FID de tiro cero frente a los enfoques de vanguardia actuales en el conjunto de datos de validación de COCO 2014, cuanto más bajos, mejores.

En los resultados, eDiffi pudo obtener la puntuación más baja (la mejor) en FID de tiro cero incluso frente a sistemas con una cantidad mucho mayor de parámetros, como los 20 000 millones de parámetros de Parti, en comparación con los 9 100 millones de parámetros del sistema más alto. modelo eDiffi especificado entrenado para las pruebas.

Conclusión

eDiffi de NVIDIA representa una alternativa bienvenida a simplemente agregar cantidades cada vez mayores de datos y complejidad a los sistemas existentes, en lugar de utilizar un enfoque más inteligente y en capas para algunos de los obstáculos más espinosos relacionados con el enredo y la no editabilidad en los sistemas de imagen generativa de difusión latente.

Ya existe una discusión en los subreddits y Discords de Stable Diffusion sobre la incorporación directa de cualquier código que pueda estar disponible para eDiffi, o la reorganización de los principios subyacentes en una implementación separada. Sin embargo, la nueva canalización es tan radicalmente diferente que constituiría un número de versión completo de cambio para SD, eliminando cierta compatibilidad con versiones anteriores, aunque ofreciendo la posibilidad de niveles de control muy mejorados sobre las imágenes sintetizadas finales, sin sacrificar la cautivadora poderes imaginativos de difusión latente.

Publicado por primera vez el 3 de noviembre de 2022.



Fuente del artículo

Deja un comentario