La misma clave para todos los tipos de datos

Transformadores y ML Multimodal

El mundo del Machine Learning es sin duda fascinante, en constante crecimiento y capaz de tocar los sectores más diversos, desde la medicina hasta las carreras espaciales, desde la restauración hasta la gran fabricación. Hay innumerables campos de aplicación para esta tecnología y otras tantas técnicas que se han desarrollado a lo largo de las décadas, pero todas tienen una cosa en común: los datos.

Todo modelo de Machine Learning existe y funciona gracias a lo que ha podido, de una forma u otra, aprender de los datos. Sin embargo, estos datos pueden tomar formas muy diferentes, por ejemplo, grandes cantidades de texto para entrenar modelos de lenguaje para generar oraciones, comprender el contexto o la ironía, o identificar anomalías. O millones de imágenes de objetos, personas y animales para crear modelos de clasificación o detección de objetos, e incluso pistas de audio para realizar tareas como identificar una canción o su estilo.

La misma clave para todos los tipos de datos
Imagen del autor

Todo esto trae consigo un gran problema: manejar datos tan diferentes requiere técnicas diferentes y, por lo tanto, han surgido ramas completamente separadas de Machine Learning, cada una enfocada en uno de estos tipos de datos. En particular, procesamiento de lenguaje natural (NLP) para lingüística, visión artificial (CV) para imágenes y videos, y procesamiento de señales de audio (ASP) para pistas de audio.

Si este contenido educativo detallado es útil para usted, suscríbase a nuestra lista de correo de AI para recibir alertas cuando publiquemos material nuevo.

El problema se vuelve aún más pronunciado cuando se resuelven problemas que requieren mezclar diferentes tipos de datos, como averiguar qué descripción de texto se ajusta mejor a una imagen o usar audio y video para identificar anomalías dentro de ella.

Pero entremos en más detalles e intentemos rastrear la evolución de la situación desde el principio.

El advenimiento de los transformadores

En el pasado, entre las docenas y docenas de arquitecturas de aprendizaje profundo, había dos, las redes de memoria a largo y corto plazo (LSTM) y las redes neuronales convolucionales (CNN) que se destacan.

Se produjo un primer acercamiento al análisis de diferentes tipos de datos entre texto y audio gracias a los LSTM. Estas redes están diseñadas para analizar de manera efectiva los datos en forma de secuencias. Era bastante natural trabajar en el campo del texto mirando las oraciones como secuencias de palabras, pero también las pistas de audio como secuencias.

1666133689 842 La misma clave para todos los tipos de datos
Imagen del autor

Al mismo tiempo, las redes neuronales convolucionales estaban ganando terreno en el campo de la visión por computadora, que, a diferencia de las LSTM, podían capturar mejor las correlaciones espaciales y, por lo tanto, eran más adecuadas para la manipulación de imágenes escaneando las imágenes con ventanas en movimiento.

Basados ​​en conceptos muy diferentes, los mundos de NLP/ASP y CV evolucionaron en gran medida de forma independiente durante varios años, aceptando que los campos de visión y texto/audio no podían tener una arquitectura común para usar debido a la diferente naturaleza de los datos.

Después de tantos años de silencio, el punto de inflexión crucial parecía provenir del campo de la PNL donde la arquitectura de Transformers[1] se presentó por primera vez en 2017.

Esta arquitectura también fue diseñada para analizar datos en forma de secuencias pero, a diferencia de los LSTM, pudo superar algunas limitaciones importantes:

  • Pudieron capturar mejor las dependencias entre partes muy distantes de la secuencia de entrada;
  • Explotan el mecanismo de atención que permite una mayor paralelización de los cálculos;
  • Son capaces de analizar incluso secuencias muy largas.

Mirando un ejemplo en el campo del procesamiento del lenguaje natural, Transformers analiza una oración como una secuencia compuesta de palabras explotando el mecanismo de atención que calcula una especie de relevancia relacional entre todas las combinaciones posibles de palabras en la oración. Así, como se muestra en la figura, la atención se calcula entre la primera palabra de la oración y todas las demás, entre la segunda y todas las demás, y así sucesivamente.

La misma clave para todos los tipos de datos
Imagen del autor

Al hacerlo, cada parte de la secuencia se analiza con respecto a todas las demás y, dado que los cálculos son independientes, ¡también pueden ser paralelos!

Si desea profundizar en la arquitectura de Transformers, le sugiero que lea mi resumen anterior.

Gracias a estas características, Transformers se convirtió en poco tiempo en la arquitectura de referencia en el campo del Procesamiento del Lenguaje Natural, reemplazando casi en su totalidad a los LSTM. Obviamente, como era de esperar, incluso en el campo del procesamiento de señales de audio, los transformadores comenzaron a usarse cada vez más, pero casi nadie hubiera esperado que esta nueva arquitectura también llamara la atención de los investigadores en el campo de la visión artificial.

Si pudiéramos transformar imágenes en secuencias, ¿podrían los Transformers analizarlas y capturar suficiente información espacial para competir con las redes neuronales convolucionales tradicionales?

1666133692 868 La misma clave para todos los tipos de datos
Imagen del autor

¡La respuesta es sí! La idea detrás de los llamados Vision Transformers[4] es dividir una imagen en muchas partes, llamadas parches, y luego proyectarlas linealmente en tokens. Estos tokens son exactamente análogos a los que se obtienen de las palabras y, por lo tanto, toda la arquitectura restante de los Transformers puede permanecer sin cambios.

Como se mostró en un artículo anterior, los transformadores en el campo de la visión por computadora son extremadamente poderosos debido a los detalles arquitectónicos que les permiten, en comparación con las redes neuronales convolucionales, capturar mejor las relaciones globales y los patrones locales.

Ya está hecho, los Transformers son oficialmente la arquitectura común que necesitábamos. ¡Pueden manipular texto, imágenes, video, audio y cualquier tipo de datos que puedan convertirse en tokens!

Aprendizaje automático multimodal

Disponer ahora de una arquitectura única capaz de trabajar con diferentes tipos de datos representa un gran avance en el campo del llamado Aprendizaje Automático Multimodal.

Esta disciplina parte de la observación del comportamiento humano. Las personas pueden combinar información de varias fuentes para sacar sus propias inferencias. Reciben datos simultáneamente observando el mundo que les rodea con los ojos, pero también oliendo sus olores, escuchando sus sonidos o tocando sus formas. Para nosotros es totalmente natural trabajar combinando pulsos de diferentes tipos, pero siempre ha sido muy difícil lograr que una red neuronal haga lo mismo.

El problema radica en tratar todas las diferentes entradas de la misma manera sin perder información y, gracias a Transformers, ¡ahora podemos construir una arquitectura universal que puede manejar cualquier tipo de datos!

1666133693 476 La misma clave para todos los tipos de datos
Imagen del autor

VATT: Transformadores para el aprendizaje autosupervisado multimodal

Una de las aplicaciones más importantes de Transformers en el campo del aprendizaje automático multimodal es sin duda VATT. [3].

Este estudio busca explotar la capacidad de Transformers para manejar diferentes tipos de datos para crear un modelo único que pueda aprender simultáneamente de video, audio y texto.

Para ello, la arquitectura propuesta se compone de un solo codificador de transformador en el que se realizan tres llamadas de reenvío distintas. Una llamada para cada tipo de datos de entrada siempre se transforma en una secuencia de tokens. El transformador toma estas secuencias como entrada y devuelve tres conjuntos distintos de características. Luego, las características se dan como entrada a un bloque de estimación contrastivo que calcula una sola pérdida y realiza el retroceso.

1666133694 140 La misma clave para todos los tipos de datos
Imagen del autor

De esta forma la pérdida es el resultado del error cometido en los tres tipos de datos considerados y por tanto el modelo, entre las épocas, aprenderá a reducirla gestionando mejor la información procedente de las tres fuentes diferentes.

Por lo tanto, VATT representa la culminación de lo que el aprendizaje automático multimodal había estado tratando de lograr durante años, un modelo único que maneja juntos tipos de datos completamente diferentes.

GATO: un agente generalista

Pero, ¿a qué resultados impresionantes puede conducir la investigación del aprendizaje automático multimodal? ¿Es posible realizar una red neuronal capaz de recibir entradas de diferentes tipos, procesarlas y quizás incluso realizar muchas tareas de diferente naturaleza?

¿Qué pensaría si le dijera que la misma red con exactamente los mismos pesos internos podría recibir diferentes entradas de datos de fuentes muy diferentes y poder jugar Atari, chatear como una persona real, subtitular imágenes, apilar bloques con un brazo robótico real? ¿y mucho más?

Ahora es posible gracias a GATO[5]un generalista multimodal, multitarea y multicorporación que representa uno de los logros más impresionantes en este campo en la actualidad.

Pero, ¿cómo hace Gato todo esto? Internamente, nuevamente, existe un Transformador que toma datos de entrada de diferentes tipos transformados en una secuencia de tokens.

1666133695 70 La misma clave para todos los tipos de datos
Imagen del autor

Gracias a esta unificación de entradas y a la arquitectura Transformer, el modelo podrá adquirir información incluso de fuentes muy diferentes, alcanzando un nivel sin precedentes. de generalización.

Conclusiones

Echamos un vistazo a una de las nuevas fronteras de la inteligencia artificial, el aprendizaje automático multimodal, y analizamos el papel de los transformadores en esta revolución. Gracias a esta nueva arquitectura capaz de trabajar con diferentes tipos de entrada de manera eficiente, el camino hacia una red neuronal más generalista es más concreto que nunca. Todavía quedan muchos pasos por dar, pero cuando se presenta un trabajo como el que se comenta en este artículo, el avance es innegable.

¿Serán estas las primeras señales de una Inteligencia Artificial General? ¡Vamos a averiguar!

Referencias e ideas

[1] “Tadas Baltrusaitis et al.”. “Aprendizaje automático multimodal: una encuesta y taxonomía

[2] “Ashish Vaswani y otros.”.La atención es todo lo que necesitas

[3] “Hassan Akbari et al.”. “VATT: Transformadores para el aprendizaje multimodal autosupervisado a partir de video, audio y texto sin procesar

[4] “Alexey Dosovitskiy et al.”. “Una imagen vale 16×16 palabras: transformadores para el reconocimiento de imágenes a escala

[5] “Scott Reed et al.”. “GATO: Un agente generalista

[6] “Davide Coccomini”. “Sobre los transformadores, los formadores de tiempos y la atención”

[7] “Davide Coccomini”. “Aprendizaje Autosupervisado en Transformadores de Visión”

Este artículo fue publicado originalmente en Hacia la ciencia de datos y reeditado en TOPBOTS con permiso del autor.

¿Disfrutas de este artículo? Regístrese para obtener más actualizaciones de investigación de IA.

Le avisaremos cuando publiquemos más artículos resumidos como este.

Fuente del artículo

Deja un comentario