Garantizar que la IA funcione con la dosis adecuada de curiosidad | Noticias del MIT

Es un dilema tan viejo como el tiempo. El viernes por la noche ha llegado y estás tratando de elegir un restaurante para cenar. ¿Deberías visitar tu abrevadero más querido o probar un nuevo establecimiento, con la esperanza de descubrir algo superior? Potencialmente, pero esa curiosidad conlleva un riesgo: si explora la nueva opción, la comida podría ser peor. Por otro lado, si te apegas a lo que sabes que funciona bien, no saldrás de tu camino estrecho.

La curiosidad impulsa la inteligencia artificial para explorar el mundo, ahora en casos de uso ilimitados: navegación autónoma, toma de decisiones robótica, optimización de resultados de salud y más. Las máquinas, en algunos casos, utilizan el «aprendizaje de refuerzo» para lograr un objetivo, donde un agente de IA aprende iterativamente al ser recompensado por un buen comportamiento y castigado por el malo. Al igual que el dilema que enfrentan los humanos al seleccionar un restaurante, estos agentes también luchan por equilibrar el tiempo dedicado a descubrir mejores acciones (exploración) y el tiempo dedicado a realizar acciones que condujeron a grandes recompensas en el pasado (explotación). Demasiada curiosidad puede distraer al agente de tomar buenas decisiones, mientras que muy poca significa que el agente nunca descubrirá buenas decisiones.

En la búsqueda de crear agentes de IA con la dosis justa de curiosidad, los investigadores del Laboratorio de IA Improbable y del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT creó un algoritmo eso supera el problema de que la IA es demasiado «curiosa» y se distrae con una tarea determinada. Su algoritmo aumenta automáticamente la curiosidad cuando es necesario y la suprime si el agente recibe suficiente supervisión del entorno para saber qué hacer.

Cuando se probó en más de 60 videojuegos, el algoritmo pudo tener éxito en tareas de exploración difíciles y fáciles, donde los algoritmos anteriores solo habían podido abordar un dominio difícil o fácil por sí solos. Con este método, los agentes de IA utilizan menos datos para aprender las reglas de toma de decisiones que maximizan los incentivos.

“Si domina bien la compensación de exploración-explotación, puede aprender las reglas de toma de decisiones correctas más rápido, y cualquier cosa menos requerirá una gran cantidad de datos, lo que podría significar tratamientos médicos subóptimos, menores ganancias para los sitios web y robots que no lo hacen. No aprenda a hacer lo correcto”, dice Pulkit Agrawal, profesor asistente de ingeniería eléctrica y ciencias de la computación (EECS) en el MIT, director del Improbable AI Lab y afiliado de CSAIL que supervisó la investigación. “Imagínese un sitio web tratando de descubrir el diseño o el diseño de su contenido que maximizará las ventas. Si uno no realiza bien la exploración-explotación, la convergencia hacia el diseño de sitio web correcto o el diseño de sitio web correcto tomará mucho tiempo, lo que significa una pérdida de ganancias. O en un entorno de atención médica, como con Covid-19, puede haber una secuencia de decisiones que deben tomarse para tratar a un paciente, y si desea utilizar algoritmos de toma de decisiones, deben aprender de manera rápida y eficiente: usted no desea una solución subóptima cuando trata a un gran número de pacientes. Esperamos que este trabajo se aplique a problemas del mundo real de esa naturaleza”.

Es difícil abarcar los matices de los fundamentos psicológicos de la curiosidad; los correlatos neuronales subyacentes del comportamiento de búsqueda de desafíos son un fenómeno poco conocido. Los intentos de categorizar el comportamiento han abarcado estudios que profundizaron en el estudio de nuestros impulsos, sensibilidades a la privación y tolerancias sociales y al estrés.

Con el aprendizaje por refuerzo, este proceso se “recorta” emocionalmente y se reduce al mínimo, pero es complicado desde el punto de vista técnico. Esencialmente, el agente solo debe tener curiosidad cuando no hay suficiente supervisión disponible para probar diferentes cosas, y si hay supervisión, debe ajustar la curiosidad y reducirla.

Dado que un gran subconjunto de juegos son pequeños agentes que corren por entornos fantásticos en busca de recompensas y realizan una larga secuencia de acciones para lograr algún objetivo, parecía el banco de pruebas lógico para el algoritmo de los investigadores. En los experimentos, los investigadores dividieron juegos como «Mario Kart» y «Moctezuma’s Revenge» en dos segmentos diferentes: uno donde la supervisión era escasa, lo que significa que el agente tenía menos orientación, que se consideraban juegos de exploración «difíciles», y un segundo donde la supervisión era más densos, o los juegos de exploración “fáciles”.

Supongamos que en “Mario Kart”, por ejemplo, solo eliminas todas las recompensas para no saber cuándo te elimina un enemigo. No recibes ninguna recompensa cuando recoges una moneda o saltas sobre tuberías. Al agente solo se le dice al final lo bien que lo hizo. Este sería un caso de escasa supervisión. Los algoritmos que incentivan la curiosidad funcionan muy bien en este escenario.

Pero ahora, supongamos que el agente recibe una supervisión densa: una recompensa por saltar sobre tuberías, recolectar monedas y eliminar enemigos. Aquí, un algoritmo sin curiosidad funciona muy bien porque se recompensa con frecuencia. Pero si, en cambio, toma el algoritmo que también usa la curiosidad, aprende lentamente. Esto se debe a que el agente curioso puede intentar correr rápido de diferentes maneras, bailar, ir a cada parte de la pantalla del juego, cosas que son interesantes, pero que no ayudan al agente a tener éxito en el juego. Sin embargo, el algoritmo del equipo funcionó bien de manera constante, independientemente del entorno en el que se encontrara.

El trabajo futuro podría implicar volver a la exploración que ha deleitado y atormentado a los psicólogos durante años: una métrica apropiada para la curiosidad: nadie sabe realmente la forma correcta de definir matemáticamente la curiosidad.

“Obtener un buen desempeño constante en un problema nuevo es extremadamente desafiante, por lo que al mejorar los algoritmos de exploración, podemos ahorrarle el esfuerzo de ajustar un algoritmo para sus problemas de interés”, dice Zhang-Wei Hong, estudiante de doctorado de EECS, afiliado de CSAIL y compañía. -autor principal junto con Eric Chen ’20, MEng ’21 en un nuevo artículo sobre el trabajo. “Necesitamos curiosidad para resolver problemas extremadamente desafiantes, pero en algunos problemas puede perjudicar el rendimiento. Proponemos un algoritmo que elimina la carga de ajustar el equilibrio de exploración y explotación. Lo que antes tomaba, por ejemplo, una semana para resolver con éxito el problema, con este nuevo algoritmo podemos obtener resultados satisfactorios en unas pocas horas”.

“Uno de los mayores desafíos para la IA actual y la ciencia cognitiva es cómo equilibrar la exploración y la explotación: la búsqueda de información frente a la búsqueda de recompensas. Los niños hacen esto sin problemas, pero es un desafío computacional”, señala Alison Gopnik, profesora de psicología y profesora afiliada de filosofía en la Universidad de California en Berkeley, que no participó en el proyecto. “Este documento utiliza técnicas nuevas e impresionantes para lograr esto automáticamente, diseñando un agente que puede equilibrar sistemáticamente la curiosidad sobre el mundo y el deseo de recompensa. [thus taking] otro paso para hacer que los agentes de IA (casi) sean tan inteligentes como los niños”.

“Las recompensas intrínsecas como la curiosidad son fundamentales para guiar a los agentes a descubrir comportamientos útiles y diversos, pero esto no debería ser a costa de hacerlo bien en la tarea asignada. Este es un problema importante en la IA, y el documento proporciona una forma de equilibrar esa compensación”, agrega Deepak Pathak, profesor asistente en la Universidad Carnegie Mellon, que tampoco participó en el trabajo. «Sería interesante ver cómo estos métodos van más allá de los juegos a los agentes robóticos del mundo real».

Chen, Hong y Agrawal escribieron el artículo junto con Joni Pajarinen, profesor asistente en la Universidad Aalto y líder de investigación en el Grupo de Sistemas Autónomos Inteligentes en TU Darmstadt. La investigación fue apoyada, en parte, por MIT-IBM Watson AI Lab, DARPA Machine Common Sense Program, la Oficina de Investigación del Ejército del Laboratorio de Investigación de la Fuerza Aérea de los Estados Unidos y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de los Estados Unidos. El documento se presentará en Neural Information and Processing Systems (NeurIPS) 2022.

Fuente del artículo

Deja un comentario