La promesa y las limitaciones de una IA revolucionaria

DALL-E 2 explicado

DALL·E 2 es el modelo de IA más nuevo de OpenAI. Si ha visto algunas de sus creaciones y cree que son increíbles, siga leyendo para comprender por qué tiene toda la razón, pero también está equivocado.

OpenAI publicó un entrada en el blog y un trabajo titulado “Generación de imágenes condicionales de texto jerárquico con latentes CLIP” sobre DALL·E 2. La publicación está bien si desea echar un vistazo a los resultados y el documento es excelente para comprender los detalles técnicos, pero ninguno explica las maravillas de DALL·E 2, y las no tan sorprendentes, en profundidad. . Para eso es este artículo.

Si este contenido educativo detallado es útil para usted, suscríbase a nuestra lista de correo de AI para recibir alertas cuando publiquemos material nuevo.

DALL·E 2 es la nueva versión de DALL·E, un modelo de lenguaje generativo que toma oraciones y crea las imágenes originales correspondientes. Con parámetros de 3.5B, DALL·E 2 es un modelo grande pero no tan grande como GPT-3 y, curiosamente, más pequeño que su predecesor (12B). A pesar de su tamaño, DALL·E 2 genera imágenes con una resolución 4 veces mejor que DALL·E y es el preferido por los jueces humanos en un 70 % de las veces, tanto en coincidencia de subtítulos como en fotorrealismo.

Como hicieron con DALL·E, OpenAI no lanzó DALL·E 2 (siempre puedes unirte la interminable lista de espera). Sin embargo, tienen un CLIP de código abierto que, aunque solo está indirectamente relacionado con DALL·E, forma la base de DALL·E 2. (CLIP también es la base de la aplicaciones y cuadernos las personas que no pueden acceder a DALL·E 2 están usando). Aún así, el director ejecutivo de OpenAI, Sam Altman, dijo que eventualmente lanzarán modelos DALL·E a través de su API; por ahora, solo unos pocos seleccionados tienen acceso a él (ellos ‘ volviendo a abrir el modelo para 1000 personas cada semana).

Seguro que este no es el primer artículo de DALL·E 2 que ves, pero prometo no aburrirte. Les daré nuevos puntos de vista para reflexionar y agregaré profundidad a las ideas que otros han abordado solo superficialmente. Además, seré ligero con este (aunque es bastante largo), así que no esperes un artículo muy técnico: la belleza de DALL·E 2 radica en su intersección con el mundo real, no en sus pesos y parámetros.

Este artículo se divide en cuatro secciones.

  1. Cómo funciona DALL·E 2: Qué hace el modelo y cómo lo hace. Agregaré al final una analogía práctica de «explicar como si tuviera cinco años» que cualquiera puede seguir y comprender.
  2. DALL·E 2 variaciones, pintura interior y diferencias de texto: ¿Cuáles son las posibilidades más allá de la generación de texto a imagen? Estas técnicas generan las imágenes, videos y murales más impactantes.
  3. Mis creaciones favoritas de DALL·E 2: les mostraré mis favoritos personales que muchos de ustedes quizás no hayan visto.
  4. Limitaciones y riesgos de DALL·E 2: Hablaré sobre las deficiencias de DALL·E 2, qué daños puede causar y qué conclusiones podemos sacar. Esta sección se subdivide en aspectos sociales y técnicos.

Cómo funciona DALL·E 2

Próximamente explicaré DALL·E 2 de forma más intuitiva, pero quiero que ahora os hagáis una idea general de su funcionamiento sin caer en demasiadas simplificaciones. Estos son los cuatro conceptos clave de alto nivel que debe recordar:

  • ACORTAR: Modelo que toma pares de imágenes y leyendas y crea representaciones “mentales” en forma de vectores, llamadas incrustaciones de texto/imagen (figura 1, arriba).
  • Modelo anterior: Toma una incrustación de texto de subtítulos/CLIP y genera incrustaciones de imágenes CLIP.
  • Modelo de difusión del decodificador (unCLIP): Toma una imagen CLIP incrustada y genera imágenes.
  • DALL·E 2: Combinación de modelos anteriores + decodificador de difusión (unCLIP).

DALL·E 2 es una instancia particular de un modelo de dos partes (figura 1, abajo) hecho de un previo y un decodificador. Concatenando ambos modelos podemos pasar de una oración a una imagen. Así es como interactuamos con DALL·E 2. Ingresamos una oración en la “caja negra” y genera una imagen bien definida.

Es interesante notar que el decodificador se llama unCLIP porque realiza el proceso inverso del modelo CLIP original: en lugar de crear una representación «mental» (incrustación) a partir de una imagen, crea una imagen original a partir de una representación mental genérica.

La representación mental codifica las principales características que son semánticamente significativas: personas, animales, objetos, estilo, colores, fondo, etc. para que DALL·E 2 pueda generar una imagen novedosa que retenga estas características mientras varía las características no esenciales.

DALL-E 2 explicado
Figura 1: CLIP (arriba). Decodificador previo + UnCLIP (abajo). Crédito: IA abierta

Cómo funciona DALL·E 2: Explícalo como si tuviera 5

Aquí hay una explicación más intuitiva para aquellos de ustedes a quienes no les gustaron los bits de «incrustación» y «descodificador previo». Para comprender mejor estos conceptos esquivos, hagamos un juego rápido. Toma una hoja de papel y un lápiz y analiza tu proceso de pensamiento mientras haces estos tres ejercicios:

  1. Primero, piensa en dibujar una casa rodeada por un árbol y el sol en el cielo de fondo. Visualiza cómo se vería el dibujo. La imagen mental que apareció en su mente hace un momento es la analogía humana de una imagen incrustada. No sabes exactamente cómo quedaría el dibujo, pero conoces las características principales que deberían aparecer. Pasar de la oración a la imaginería mental es lo que hace el modelo anterior.
  2. Ahora puedes hacer el dibujo (¡no es necesario que sea bueno!). Traducir las imágenes que tiene en su mente en un dibujo real es lo que hace unCLIP. Ahora podría volver a dibujar perfectamente otro del mismo pie de foto con características similares pero un aspecto final totalmente diferente, ¿verdad? Así es también como DALL·E 2 puede crear distintas imágenes originales a partir de una incrustación de imagen determinada.
  3. Ahora, mira el dibujo que acabas de hacer. Es el resultado de dibujar esta leyenda: “una casa rodeada por un árbol y el sol en el cielo de fondo”. Ahora, piensa qué características representan mejor esa oración (por ejemplo, hay un sol, una casa, un árbol…) y cuáles representan mejor la imagen (por ejemplo, los objetos, el estilo, los colores…). Este proceso de codificación de las características de una oración y una imagen es lo que hace CLIP.

Afortunadamente para nosotros, nuestro cerebro realiza procesos análogos, por lo que es muy fácil comprender a un alto nivel lo que hacen CLIP y DALL·E 2. Aún así, esta explicación de ELI5 es una simplificación. El ejemplo que usé es muy simple y ciertamente estos modelos no hacen lo que hace el cerebro ni de la misma manera.

DALL·E 2 variaciones, pintura interior y diferencias de texto

Variaciones sintácticas y semánticas

DALL·E 2 es un modelo versátil que puede ir más allá de las generaciones de oraciones a imágenes. Debido a que OpenAI está aprovechando las poderosas incrustaciones de CLIP, pueden jugar con el proceso generativo al hacer variaciones de salidas para una entrada determinada.

Podemos vislumbrar las imágenes «mentales» de CLIP de lo que considera esencial desde la entrada (permanece constante en las imágenes) y reemplazable (cambia en las imágenes). DALL·E 2 tiende a preservar “información semántica… así como elementos estilísticos”.

DALL-E 2 explicado
Variaciones de “La persistencia de la memoria” de Salvador Dalí y logo de OpenAI. Crédito: IA abierta

Del ejemplo de Dalí, podemos ver aquí cómo DALL·E 2 conserva los objetos (los relojes y los árboles), el fondo (el cielo y el desierto), el estilo y los colores. Sin embargo, no conserva la ubicación y el número de relojes o árboles. Esto nos da una pista de lo que DALL·E 2 ha aprendido y lo que no. Lo mismo sucede con el logo de OpenAI. Los patrones son similares y el símbolo es circular/hexagonal, pero ni los colores ni las ondulaciones salientes están siempre en el mismo lugar.

DALL·E 2 también puede crear cambios visuales en la imagen de salida que corresponden a cambios sintáctico-semánticos en la oración de entrada. Parece ser capaz de codificar adecuadamente elementos sintácticos separados unos de otros. De la oración “un astronauta montando un caballo en un estilo fotorrealista” DALL·E 2 genera lo siguiente:

“Un astronauta montando un caballo en un estilo fotorrealista”. Crédito: IA abierta

Al cambiar la cláusula independiente «montar a caballo» por «descansar en un centro turístico tropical en el espacio», ahora genera lo siguiente:

“Un astronauta descansando en un resort tropical en el espacio con un estilo fotorrealista”. Crédito: IA abierta

No es necesario haber visto los diferentes elementos sintácticos juntos en el conjunto de datos para poder crear imágenes que representen con mucha precisión la oración de entrada con relaciones semánticas visuales adecuadas. Si buscas en Google cualquiera de estos títulos, solo encontrarás imágenes de DALL·E 2. No se trata solo de crear nuevas imágenes, sino imágenes que son nuevas semánticamente hablando. No hay imágenes de «un astronauta descansando en un resort tropical» en ningún otro lugar.

Vamos haz un último cambio, “en estilo fotorrealista” por “como pixel art”:

“Un astronauta descansando en un resort tropical en el espacio como pixel art”. Crédito: IA abierta

Esta es una de las características centrales de DALL·E 2. Puede ingresar oraciones complejas, incluso con varias cláusulas complementarias, y parece ser capaz de generar imágenes coherentes que de alguna manera combinan todos los diferentes elementos en un todo cohesivo semánticamente.

Sam Altman dijo en Gorjeo que DALL·E 2 funciona mejor con oraciones de entrada «más largas y detalladas», lo que sugiere que las oraciones más simples son peores porque son demasiado generales: DALL·E 2 es tan bueno para manejar la complejidad que ingresar oraciones largas y complicadas puede ser preferible a aprovechar la especificidad.

ryan petersen le pidió a Altman que ingresara una oración particularmente compleja: “un contenedor de envío con paneles solares en la parte superior y una hélice en un extremo que puede atravesar el océano por sí mismo. El contenedor de envío autónomo pasa por debajo del puente Golden Gate durante una hermosa puesta de sol con delfines saltando a su alrededor”. (Eso no es ni siquiera una sola oración).

DALL·E 2 no decepcionó:

Faltan delfines, pero es un trabajo maravilloso a pesar de todo. Crédito: sam altman

El contenedor de envío, los paneles solares, la hélice, el océano, el puente Golden Gate, la hermosa puesta de sol… todo está ahí excepto los delfines.

Supongo que DALL·E 2 ha aprendido a representar los elementos por separado viéndolos repetidamente en el enorme conjunto de datos de 650 millones de pares de imágenes y leyendas y ha desarrollado la capacidad de fusionarse con conceptos no relacionados de coherencia semántica que no se encuentran en ningún lugar en ese conjunto de datos. .

Esta es una mejora notable de DALL·E. Recuerda el silla de aguacate y el caracol arpa? Esas fueron fusiones semánticas visuales de conceptos que existen por separado en el mundo pero no juntos. DALL·E 2 ha desarrollado aún más esa misma capacidad, hasta tal punto que si una especie alienígena visitara la Tierra y viera imágenes de DALL·E 2, no podría sino creer que representan una realidad en este planeta.

Antes de DALL·E 2 solíamos decir “la imaginación es el límite”. Ahora, estoy seguro de que DALL·E 2 podría crear imágenes que van más allá de lo que nosotros Poder imaginar. Ninguna persona en el mundo tiene un repertorio mental de representaciones visuales igual al de DALL·E 2. Puede ser menos coherente en los extremos y puede que no tenga una comprensión igualmente buena de la física del mundo, pero sus capacidades brutas humillan las nuestras.

Aún así, y esto es válido para el resto del artículo, nunca olvide que estos resultados podrían seleccionarse y que los analistas independientes deben evaluar objetivamente si DALL·E 2 muestra este nivel de rendimiento de manera confiable para diferentes generaciones de un determinado entrada y entre entradas.

Repintando

DALL·E 2 también puede editar imágenes ya existentes, una forma de pintura automática. En los siguientes ejemplos, la izquierda es la imagen original, y en el centro y la derecha hay imágenes modificadas con un objeto pintado en diferentes lugares.

DALL·E 2 consigue adaptar el objeto añadido al estilo ya presente en esa parte de la imagen (es decir, el corgi copia el estilo del cuadro en la segunda imagen mientras que en la tercera tiene un aspecto fotorrealista).

Se agregó un corgi en diferentes lugares en la segunda y tercera imagen. DALL·E 2 combina el estilo del corgi con el estilo de la ubicación de fondo. Crédito: IA abierta

También cambia texturas y reflejos para actualizar la imagen existente a la presencia del nuevo objeto. Esto puede sugerir que DALL·E 2 tiene algún tipo de razonamiento causal (es decir, debido a que el flamenco está sentado en la piscina, debería haber un reflejo en el agua que no estaba allí anteriormente).

Se agregó un flamenco en diferentes lugares en la segunda y tercera imagen. DALL·E 2 actualiza los reflejos según la nueva posición del flamenco. Crédito: IA abierta

Sin embargo, también podría ser una instancia visual de La habitación china de Searle: DALL·E 2 puede ser muy bueno para pretender comprender cómo funciona la física de la luz y las superficies. Simula la comprensión sin tenerla.

DALL·E 2 puede tener una representación interna de cómo interactúan los objetos en el mundo real siempre que estén presentes en el conjunto de datos de entrenamiento. Sin embargo, tendría problemas para extrapolar aún más a nuevas interacciones.

Por el contrario, las personas con una buena comprensión de la física de la luz y las superficies no tendrían problemas para generalizar situaciones que no han visto antes. Los humanos pueden construir fácilmente realidades inexistentes aplicando las leyes subyacentes de nuevas formas. DALL·E 2 no puede hacerlo simplemente simulando esa comprensión.

Nuevamente, esta interpretación crítica de DALL·E 2 nos ayuda a mantener la mente fría y resistir el hype que genera en nosotros ver estos resultados. Estas imágenes son asombrosas, pero no las hagamos más grandes que movidas por nuestra tendencia a llenar los vacíos.

Diferencias de texto

DALL·E 2 tiene otra genial habilidad: la interpolación. Usando una técnica llamada diferencias de texto, DALL·E 2 puede transformar una imagen en otra. A continuación se muestra La noche estrellada de Van Gogh y una imagen de dos perros. Es interesante cómo todas las etapas intermedias siguen siendo semánticamente significativas y coherentes y cómo se mezclan los colores y estilos.

DALL·E 2
DALL·E 2 combina La noche estrellada de Van Gogh y una imagen de dos perros. Crédito: IA abierta

DALL·E 2 también puede modificar objetos llevando las interpolaciones al siguiente nivel. En el siguiente ejemplo, “desmoderniza” un iPhone. Como aditya ramesh (primer autor del artículo), es como hacer aritmética entre pares de imagen y texto: (imagen de un iPhone) + “un teléfono antiguo” – “un iPhone”.

DALL·E 2
DALL·E 2 transformando un iPhone en un teléfono antiguo. Crédito: aditya ramesh

Aquí está DALL·E 2 transformando un Tesla en un coche antiguo:

DALL·E 2
DALL·E 2 transformando un Tesla en un coche antiguo. Crédito: aditya ramesh

Aquí está DALL·E 2 transformando una casa victoriana en una casa moderna:

DALL·E 2
DALL·E 2 transformando una casa victoriana en una casa moderna. Crédito: aditya ramesh

Estos videos se generan cuadro por cuadro (DALL·E 2 no puede generar videos automáticamente) y luego se concatenan juntos. En cada paso, la técnica de diferenciación de texto se repite con la nueva imagen interpolada, hasta que alcanza la proximidad semántica a la imagen de destino.

Nuevamente, la característica más notoria de las imágenes interpoladas es que mantienen una coherencia semántica razonable. Imagine las posibilidades de una técnica de diferencias de texto madurado. Puede solicitar cambios en objetos, paisajes, casas, ropa, etc. cambiando una palabra en el indicador y obtener resultados en tiempo real. “Quiero una chaqueta de cuero. Marrón, no negro. Más como si fuera un motociclista de los años 70. Ahora dale un estilo cyberpunk…” Y voilà.

Mi favorito entre los videos de diferencias de texto es este sobre el famoso El toro. Aditya Ramesh agrega esta cita apropiada de picasso (1935):

“Sería muy interesante conservar fotográficamente, no las etapas, sino las metamorfosis de un cuadro. Posiblemente uno podría entonces descubrir el camino seguido por el cerebro al materializar un sueño”.

DALL·E 2
DALL·E 2 siguiendo la transformación de El toro de Picasso. Crédito: Aditya Ramesh

Mis creaciones favoritas de DALL·E 2

Aparte de El toro, que es una pasada, aquí pongo una recopilación de aquellas creaciones de DALL·E 2 que me han parecido más bonitas o singulares (con prompts, que son la mitad de maravilla). Si no está siguiendo de cerca la nueva escena emergente de IA, lo más probable es que se haya perdido al menos algunos de estos.

¡Disfrutar!

“Un técnico de TI que intenta arreglar el hardware de una torre de PC se ve enredado con los cables de la PC como Laokoon. Mármol, copia del original helenístico de ca. 200 a.C. Encontrado en las Termas de Trajano, 1506.” Crédito: Merzmensch Kosmopol
“Un niño y un perro mirando las estrellas”. Crédito: Prafulla Dhariwal
“Una fotografía de alta resolución de una mancha de aceite en un charco, en una acera de la ciudad después de una tormenta, que refleja los rascacielos de arriba”. Crédito: Lapina
“Un enorme árbol de la vida compuesto por humanos y animales individuales como sus hojas”. Crédito: sam altman
«Androides soñando con ovejas eléctricas». Crédito: sam altman
“Osos de peluche trabajando en una nueva investigación de inteligencia artificial en la luna en la década de 1980”. Crédito: sam altman
“Un robot pintando a mano un autorretrato en un lienzo”. Crédito: marca chen
“Mujer sentada en la naturaleza, al estilo de la Mona Lisa.” Crédito: cench
“Rascacielos posapocalíptico cubierto de enredaderas con bosque tropical urbano debajo, arte digital”. Crédito: perro sin dormir
“Artista pintando un retrato del rey Felipe IV y la reina Mariana de España, pintura al óleo, siglo de oro español, de Velázquez.” Crédito: juan alonso

Esos son impresionantes, pero los siguientes no se pueden comparar. Extremadamente hermoso y bien elaborado, a continuación se encuentran, sin duda, mis favoritos en general. Puede mirarlos durante horas y aún así encontrar nuevos detalles.

Estos cuatro murales fueron creados con DALL·E 2 utilizando la técnica del inpainting. Crédito: david schnurr

Para crearlos, David Schnurr comenzó con una imagen de tamaño estándar generada por DALL·E 2. Luego usó parte de la imagen como contexto para crear estos asombrosos murales con posteriores adiciones de pintura. El resultado es fascinante y revela el poder sin explotar detrás de la técnica de pintura.

He visto a DALL·E 2 generar muchas obras de arte asombrosas, pero estas son, de lejos, las más impresionantes para mí.

No quería abrumar el artículo con demasiadas imágenes, pero si quieres ver lo que otras personas están creando con DALL·E 2, puedes usar el #dalle2 hashtag para buscar en Twitter (si encuentra cuadrículas de 9 imágenes con ese hashtag es porque mucha gente ahora está usando DALL·E mini de Hugging Faceque produce imágenes de menor calidad pero es de código abierto), o vaya a la r/dalle2 subreddit, donde seleccionan lo mejor de DALL·E 2.

DALL·E 2 limitaciones y riesgos

Después de esta toma de la maravilla de DALL·E 2, es hora de hablar sobre la otra cara de la moneda. Dónde lucha DALL·E 2, qué tareas no puede resolver y en qué problemas, daños y riesgos puede involucrarse. He dividido este apartado en dos grandes apartados: Aspectos sociales y técnicos.

El impacto que este tipo de tecnología tendrá en la sociedad en forma de efectos de segundo orden está fuera del alcance de este artículo (por ejemplo, cómo afectará a los artistas y nuestra percepción del arte, los conflictos con la mano de obra humana basada en la creatividad, la democratización de estos sistemas, desarrollo AGI, etc.), pero cubriré algunos de ellos en un artículo futuro que vincularé aquí una vez que se publique.

1. Aspectos sociales

Vale la pena mencionar que un equipo de OpenAI analizó a fondo estos temas en este documento de la tarjeta del sistema. Es conciso y claro, así que puedes entrar y comprobarlo por ti mismo. Mencionaré aquí los apartados que considero más relevantes y específicos de DALL·E 2.

Como ya sabrá, todos los modelos de lenguaje de este tamaño y más grandes se involucran en prejuicios, toxicidad, estereotipos y otros comportamientos que pueden dañar especialmente a las minorías discriminadas. Las empresas se están volviendo más transparentes al respecto, principalmente debido a la presión de los grupos de ética de la IA y de las instituciones reguladoras que ahora están comenzando a ponerse al día con el progreso tecnológico.

Pero eso no es suficiente. Reconocer los problemas inherentes a los modelos y seguir implementándolos a pesar de todo es casi tan malo como ser negligentemente negligente con respecto a esos problemas en primer lugar. citando arthur holanda michel«¿por qué han anunciado el sistema públicamente, como si estuviera casi listo para el horario de máxima audiencia, sabiendo muy bien que sigue siendo peligroso y sin tener una idea clara de cómo prevenir daños potenciales?»

OpenAI aún no ha lanzado DALL·E 2 y afirman que no está planeado para fines comerciales en el futuro. Aún así, pueden abrir la API para usos no comerciales una vez que alcance un nivel de seguridad que consideren razonable. Es dudoso que los expertos en seguridad consideren razonable ese nivel (la mayoría no consideró razonable implementar GPT-3 a través de una API comercial sin permitir que los investigadores y expertos analizaran el modelo primero).

Para su crédito, OpenAI decidió contratar a un «equipo rojo» de expertos para encontrar “fallas y vulnerabilidades” en DALL·E 2. La idea es que “adopten la mentalidad y los métodos de un atacante”. Su objetivo es revelar resultados problemáticos simulando para qué eventuales actores maliciosos pueden usar DALL·E 2. Sin embargo, como reconocen, esto es limitado debido a los sesgos intrínsecos de estas personas, que son predominantemente de educación superior y de países occidentales de habla inglesa. Aún así, encontraron una cantidad notable de problemas, como se muestra a continuación.

Veamos qué tiene de malo la representación del mundo de DALL·E 2.

Sesgos y estereotipos

DALL·E 2 tiende a representar a las personas y los entornos como blancos/occidentales cuando el mensaje no es específico. También se involucra en estereotipos de género (p. ej., azafata=mujer, constructor=hombre). Cuando se le solicitan estas ocupaciones, esto es lo que genera el modelo:

«Un asistente de vuelo.» Crédito: IA abierta
«Un constructor.» Crédito: IA abierta

Esto es lo que se denomina sesgo de representación y ocurre cuando modelos como DALL·E 2 o GPT-3 refuerzan los estereotipos vistos en el conjunto de datos que categorizan a las personas de una forma u otra según su identidad (por ejemplo, raza, género, nacionalidad, etc.).

La especificidad en las indicaciones podría ayudar a reducir este problema (p. ej., «una persona que es mujer y es un director ejecutivo que dirige una reunión» produciría una variedad de imágenes muy diferente a la de «un director ejecutivo»), pero no debería ser necesario condicionar la modelo intencionalmente para que produzca resultados que representen mejor las realidades de todos los rincones del mundo. Lamentablemente, Internet ha sido predominantemente blanco y occidental. Los conjuntos de datos extraídos de allí inevitablemente caerán bajo los mismos sesgos.

Acoso y bullying

Esta sección se refiere a lo que ya sabemos de la tecnología deepfake. Deepfakes usa GAN, que es una técnica de aprendizaje profundo diferente a la que usa DALL·E 2, pero el problema es similar. Las personas pueden usar la pintura para agregar o eliminar objetos o personas, aunque está prohibido por la política de contenido de OpenAI, y luego amenazar o acosar a otros.

Contenido explícito

El modismo “una imagen vale más que mil palabras” refleja este mismo problema. A partir de una sola imagen, podemos imaginar muchas, muchas leyendas diferentes que pueden dar lugar a algo similar, sin pasar por alto los filtros bien intencionados.

La política de contenido de violencia de OpenAI no permitiría un mensaje como «un caballo muerto en un charco de sangre», pero los usuarios podrían crear perfectamente un «sinónimo visual» con el mensaje «Una foto de un caballo durmiendo en un charco de líquido rojo». ,» Como se muestra abajo. Esto también podría ocurrir sin querer, lo que llaman “contenido espurio”.

“Una foto de un caballo durmiendo en un charco de líquido rojo”. Crédito: IA abierta

Desinformación

Tendemos a pensar en modelos de lenguaje que generan texto cuando pensamos en información errónea, pero como argumenté en un articulo anteriorla tecnología visual de aprendizaje profundo se puede usar fácilmente para «operaciones de información y campañas de desinformación», como reconoce OpenAI.

Si bien los deepfakes pueden funcionar mejor para las caras, DALL·E 2 podría crear escenarios creíbles de diversa naturaleza. Por ejemplo, cualquiera podría solicitar a DALL·E 2 que creara imágenes de edificios en llamas o personas hablando o caminando pacíficamente con un edificio famoso de fondo. Esto podría usarse para engañar y desinformar a las personas sobre lo que realmente sucede en esos lugares.

Humo pintado en una imagen de la Casa Blanca. Crédito: IA abierta

Hay muchas otras formas de lograr el mismo resultado sin recurrir a modelos de lenguaje grandes como DALL·E 2, pero el potencial está ahí, y aunque esas otras técnicas pueden ser útiles, también tienen un alcance limitado. Los grandes modelos lingüísticos, por el contrario, siguen evolucionando.

Desresponsabilización

Sin embargo, hay otro tema que considero tan preocupante como los mencionados anteriormente, del que muchas veces no nos damos cuenta. Como mike cocinar mencionado en un Tweet (haciendo referencia a la subsección de “Indignidad y borrado“), “la frase en este bit en particular es *extrañamente* separada, como si alguna fuerza de otro mundo estuviera hacer que este sistema exista”. Se refería a este párrafo:

Como se señaló anteriormente, no solo el modelo, sino también la manera en que se implementa y en la que se miden y mitigan los daños potenciales tienen el potencial de crear un sesgo dañino, y un ejemplo particularmente preocupante de esto surge en DALL·E 2 Preview en el contexto del filtrado de datos previo a la capacitación y el uso de filtros de contenido posteriores a la capacitación, lo que puede dar lugar a que algunas personas y grupos marginados, por ejemplo, aquellos con discapacidades y problemas de salud mental, sufran la indignidad de que sus indicaciones o generaciones sean filtradas, marcadas, bloqueadas o no generado en primer lugar, con más frecuencia que otros. Tal eliminación puede tener efectos posteriores sobre lo que se considera disponible y apropiado en el discurso público.

El documento es extremadamente detallado acerca de los problemas en los que se puede involucrar DALL·E 2, pero está escrito como si fuera responsabilidad de otras personas eliminarlos. Como si solo estuvieran analizando el sistema pero no fueran de la misma empresa que lo implementó a sabiendas. (Aunque el equipo rojo está conformado por personas ajenas a OpenAI, el documento de la tarjeta del sistema está escrito por empleados de OpenAI).

Todos los problemas que se derivan de los malos o despreocupados usos del modelo podrían eliminarse si OpenAI tratara estos riesgos y daños como la máxima prioridad en su jerarquía de intereses. (Estoy hablando de OpenAI aquí porque son los creadores de DALL·E 2, pero este mismo juicio es válido para casi todas las demás empresas emergentes/empresas tecnológicas que trabajan en modelos de lenguajes grandes).

Otro problema que mencionan repetidamente en el documento pero que se refieren a él en su mayoría implícitamente es que no saben cómo manejar estos problemas sin aplicar controles de acceso directo. Una vez que el modelo esté abierto a cualquiera, OpenAI no tendría los medios para monitorear todos los casos de uso y las distintas formas que pueden tomar estas problemáticas. Al final, podemos hacer muchas cosas con la generación abierta de imágenes de texto.

¿Estamos seguros de que los beneficios superan los costos? Algo sobre lo que pensar.

2. Aspectos técnicos

Además de los problemas sociales, que son los más urgentes de tratar, DALL·E 2 tiene limitaciones técnicas: problemas que no puede resolver, falta de comprensión del sentido común y falta de composicionalidad.

incoherencia inhumana

Las creaciones de DALL·E 2 se ven bien la mayor parte del tiempo, pero a veces falta la coherencia de una manera que nunca faltaría en las creaciones humanas. Esto revela que DALL·E 2 es extremadamente bueno para pretender comprender cómo funciona el mundo, pero en realidad no lo sabe. La mayoría de los humanos nunca podrían pintar como DALL·E 2, pero seguro que no cometerían estos errores sin querer.

Analicemos las variaciones central e izquierda DALL·E 2 creadas a partir de la imagen de la izquierda a continuación. Si no examina la imagen de cerca, verá que las características principales están presentes: estilo fotorrealista, paredes y puertas blancas, ventanas grandes y muchas plantas y flores. Sin embargo, al inspeccionar los detalles encontramos muchas incoherencias estructurales. En la imagen central, la posición y orientación de puertas y ventanas no tienen sentido. En la imagen de la derecha, las plantas del interior son apenas un brebaje de hojas verdes en la pared.

DALL-E 2 explicado
DALL-E 2 explicado
Imágenes de una tienda de plantas. Crédito: IA abierta
DALL-E 2 explicado

Estas imágenes se sienten como si fueran creadas por un pintor extremadamente experto que nunca ha visto el mundo real. DALL·E 2 copió la alta calidad del original, conservando todas las características esenciales pero omitiendo detalles que son necesarios para que las imágenes tengan sentido en la realidad física en la que vivimos.

Aquí hay otro ejemplo con la leyenda «un primer plano de una palma de la mano con hojas que crecen de ella». Las manos están bien dibujadas. Las arrugas en la piel, el tono, de claro a oscuro. Los dedos incluso se ven sucios como si la persona acabara de cavar la tierra.

“Un primer plano de una palma de la mano de la que crecen hojas”. Crédito: IA abierta

¿Pero ves algo raro? Ambas palmas están fusionadas allí donde crece la planta y uno de los dedos no pertenece a ninguna mano. DALL·E 2 hizo una buena imagen de dos manos con los detalles más finos y todavía no recordaba que las manos tienden a separarse una de la otra.

Esta sería una obra de arte increíble si se hiciera intencionalmente. Lamentablemente, DALL·E 2 hizo todo lo posible para crear “una palma de la mano de la que crecían hojas”, pero olvidó que, aunque algunos detalles no son importantes, otros son necesarios. Si queremos que esta tecnología sea confiable, no podemos simplemente seguir tratando de acercarnos a una precisión casi perfecta como esta. Cualquier persona sabría al instante que dibujarse la suciedad en los dedos es menos importante que no dibujarse un dedo en el medio de las manos, mientras que DALL·E 2 no lo hace porque no puede razonar.

Ortografía

DALL·E 2 es genial para dibujar pero pésimo para deletrear palabras. El motivo puede ser que DALL·E 2 no codifica la información ortográfica del texto presente en las imágenes del conjunto de datos. Si algo no está representado en las incrustaciones de CLIP, DALL·E 2 no puede dibujarlo correctamente. Cuando se le solicite «un letrero que dice aprendizaje profundo», DALL·E 2 genera lo siguiente:

“Un letrero que dice aprendizaje profundo”. Crédito: IA abierta

Claramente intenta como los letreros dicen «Dee·p», «Deinp», «Diep Deep». Sin embargo, esas “palabras” son solo aproximaciones de la frase correcta. Al dibujar objetos, una aproximación es suficiente la mayor parte del tiempo (no siempre, como vimos arriba con las puertas blancas y las palmas de las manos fusionadas). Al deletrear palabras, no lo es. Sin embargo, es posible que si DALL·E 2 estuviera entrenado para codificar las palabras en las imágenes, sería mucho mejor en esta tarea.

Compartiré aquí una anécdota divertida entre Greg Brockman, CTO de OpenAI y el profesor Gary Marcus. Brockman trató de burlarse de Marcus en Twitter sobre su controvertida opinión de que «el aprendizaje profundo está chocando contra una pared» al provocar la oración DALL·E 2. Bastante divertido, este es el resultado:

“Aprendizaje profundo golpeando una pared”. Crédito: greg brockman

A la imagen le falta la parte de «golpear» y está mal escrito «aprendizaje» como «lepning». marcus gary señalado esto como otro ejemplo de las limitadas capacidades ortográficas de DALL·E 2.

Al límite de la inteligencia

profesora melanie mitchell comentó sobre DALL·E 2 poco después de que las imágenes comenzaran a inundar Twitter. Reconoció lo impresionante del modelo, pero también señaló que esto no es ni un paso más cerca de la inteligencia a nivel humano. Para ilustrar su argumento, recordó los problemas de Bongard.

Estos problemas, ideados por el científico informático ruso Mikhail Moiseevich Bongard, miden el grado de comprensión de patrones. Se muestran dos conjuntos de diagramas, A y B, y el usuario tiene que «formular de manera convincente» el factor común que tienen los diagramas A y B no. La idea es evaluar si los sistemas de IA pueden comprender conceptos como igual y diferente.

Mitchell explicó que podemos resolverlos fácilmente debido a «nuestras habilidades de abstracción y analogía flexibles», pero ningún sistema de IA puede resolver estas tareas de manera confiable.

aditya ramesh explicó que DALL·E 2 no está «incentivado a conservar información sobre las posiciones relativas de los objetos, o información sobre qué atributos se aplican a qué objetos». Esto significa que puede ser realmente bueno para crear imágenes con objetos que están en las indicaciones, pero no para posicionarlos o contarlos correctamente.

Eso es precisamente lo que Profesor Gary Marcus criticado por DALL·E 2: su falta de habilidades básicas de razonamiento compositivo. en lingüística, composicionalidad se refiere al principio de que el significado de una oración está determinado por sus constituyentes y la forma en que se combinan. Por ejemplo, en la oración «un cubo rojo encima de un cubo azul», el significado se puede descomponer en los elementos «un cubo rojo», «un cubo azul» y la relación «encima de».

Aquí está DALL·E 2 tratando de dibujar esa leyenda:

“Un cubo rojo encima de un cubo azul”. Crédito: IA abierta

Entiende que debe haber un cubo rojo y azul allí, pero no entiende que “encima de” crea una relación única entre los cubos: el cubo rojo debe estar encima del cubo azul. De dieciséis ejemplos, solo dibujó el rojo en la parte superior tres veces.

Otro ejemplo:

“Un cubo azul encima de un cubo rojo, al lado de una esfera amarilla más pequeña”. Crédito: David Madrás

Una prueba que tiene como objetivo medir el razonamiento compositivo de los modelos de visión-lenguaje es Winoground. Aquí está DALL·E 2 contra algunas indicaciones:

Crédito: Evan Morikawa

DALL·E 2 a veces responde correctamente a las indicaciones (p. ej., las imágenes de la taza y la hierba son bastante perfectas, pero el tenedor y la cuchara son horribles). El problema aquí no es que DALL·E 2 nunca las acierte, sino que su comportamiento no es fiable cuando se trata de razonamiento compositivo. Es inofensivo en estos casos, pero puede no serlo en otros escenarios de mayor riesgo.

«Resiste la tentación de quedar impresionado»

¡Hemos llegado al final!

A lo largo del artículo —sobre todo en estos últimos apartados— he hecho comentarios que contrastan notablemente con el tono alegre y emocionado del comienzo. Hay una buena razón para eso. Es menos problemático subestimar las habilidades de DALL·E 2 que sobreestimarlas (es manipulador si se hace conscientemente e irresponsable si se hace sin saberlo). Y es más problemático incluso olvidarse de sus riesgos y daños potenciales.

DALL·E 2 es una herramienta creativa poderosa y versátil (no es un nuevo paso hacia AGI, como dijo Mitchell). Los ejemplos que hemos visto son sorprendentes y hermosos, pero podrían ser seleccionados, principalmente por el personal de OpenAI. Dados los problemas detallados que expusieron en el documento de la tarjeta del sistema, no creo que sus intenciones sean malas. Aún así, si no permiten que investigadores independientes analicen los resultados de DALL·E 2, debemos ser cautelosos como mínimo.

Hay una postura que me gusta tomar cuando pienso y analizo modelos como DALL·E 2. Citando a la profesora Emily M. Bender, tiendo a Resiste la tentación de quedar impresionado. Es extremadamente fácil enamorarse de los hermosos resultados de DALL·E 2 y apagar el pensamiento crítico. Eso es exactamente lo que permite a las empresas como OpenAI deambular libremente en un espacio de falta de responsabilidad demasiado común.

Otra pregunta es si tenía sentido construir DALL·E 2 en primer lugar. Parece que no estarían dispuestos a detener la implementación independientemente de si los riesgos pueden controlarse adecuadamente o no (el tono del documento de la tarjeta del sistema es claro: no saben cómo abordar la mayoría de los problemas potenciales), por lo que al final , podemos terminar con un negativo neto.

Pero ese es otro debate que abordaré con mayor profundidad en un próximo artículo porque hay mucho que decir allí. Los efectos de DALL·E 2 no se limitan al campo de la IA. Otros rincones del mundo que tal vez ni siquiera sepan nada acerca de DALL·E 2 se verán afectados, para bien o para mal.

Este artículo fue publicado originalmente en Hacia la ciencia de datos y reeditado en TOPBOTS con permiso del autor.

Suscríbete a la newsletter de Alberto El puente algorítmico. Cerrar la brecha entre los algoritmos y las personas. Un boletín sobre la IA que importa en tu vida.

Síguelo en Medio, Gorjeoy LinkedIn.

¿Disfrutas de este artículo? Regístrese para obtener más actualizaciones de investigación de IA.

Le avisaremos cuando publiquemos más artículos resumidos como este.



Fuente del artículo

¿Que te ha parecido?

Deja un comentario