¿Debo usar RL sin conexión o aprendizaje por imitación? – El blog de investigación de inteligencia artificial de Berkeley


Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 1: Resumen de nuestras recomendaciones sobre cuándo un practicante debe BC y varios métodos de estilo de aprendizaje de imitación, y cuándo debe usar enfoques de RL fuera de línea.

El aprendizaje de refuerzo fuera de línea permite aprender políticas a partir de datos recopilados previamente, lo que tiene profundas implicaciones para aplicar RL en dominios donde ejecutar el aprendizaje de prueba y error es poco práctico o peligroso, como entornos críticos para la seguridad como la conducción autónoma o la planificación de tratamientos médicos. En tales escenarios, la exploración en línea es simplemente demasiado arriesgada, pero RL fuera de línea Los métodos pueden aprender políticas efectivas de los datos registrados recopilados por humanos o controladores diseñados heurísticamente. Los métodos de control anteriores basados ​​en el aprendizaje también se han acercado al aprendizaje a partir de datos existentes como aprendizaje por imitación: si los datos son generalmente «suficientemente buenos», simplemente copiar el comportamiento en los datos puede conducir a buenos resultados, y si no es lo suficientemente bueno, entonces filtrar o volver a ponderar los datos y luego copiarlos puede funcionar bien. Varios reciente obras sugieren que esta es una alternativa viable a los métodos modernos de RL fuera de línea.

Esto trae varias preguntas: ¿Cuándo debemos usar RL sin conexión? ¿Existen limitaciones fundamentales para los métodos que se basan en alguna forma de imitación (BC, BC condicional, BC filtrada) que aborda la RL fuera de línea? Si bien puede estar claro que la RL fuera de línea debería disfrutar de una gran ventaja sobre el aprendizaje por imitación cuando se aprende de diversos conjuntos de datos que contienen una gran cantidad de comportamientos subóptimos, también discutiremos cómo incluso los casos que pueden parecer compatibles con BC aún pueden permitir que la RL fuera de línea alcance resultados significativamente mejores. Nuestro objetivo es ayudar a explicar cuándo y por qué debe usar cada método y brindar orientación a los profesionales sobre los beneficios de cada enfoque. La Figura 1 resume de manera concisa nuestros hallazgos y discutiremos cada componente.

Métodos para aprender a partir de datos sin conexión

Comencemos con un breve resumen de varios métodos para aprender políticas a partir de datos que discutiremos. El algoritmo de aprendizaje cuenta con un conjunto de datos fuera de línea (mathcal), que consta de trayectorias (_^N) generadas por alguna política de comportamiento. La mayoría de los métodos de RL fuera de línea realizan algún tipo de actualización de programación dinámica (por ejemplo, Q-learning) en los datos proporcionados, con el objetivo de obtener una función de valor. Esto normalmente requiere ajustar para distributivo turno funcione bien, pero cuando esto se hace correctamente, conduce a buenos resultados.

Por otro lado, los métodos basados ​​en el aprendizaje por imitación intentan simplemente clonar las acciones observadas en el conjunto de datos si el conjunto de datos es lo suficientemente bueno, o realizar algún tipo de filtrado o condicionamiento para extraer un comportamiento útil cuando el conjunto de datos no es bueno. Por ejemplo, trabajos recientes trayectorias de filtros en función de su devolución, o directamente filtra transiciones individuales en función de lo ventajosos que podrían ser bajo la política de comportamiento y luego los clona. Los métodos BC condicionales se basan en la idea de que cada transición o trayectoria es óptima cuando se condiciona a la variable correcta. De esta manera, después del condicionamiento, los datos se vuelven óptimos dado el valor de la variable de condicionamiento y, en principio, podríamos condicionarlos en la tarea deseada, como un valor de recompensa alto, y obtener una trayectoria casi óptima. Por ejemplo, una trayectoria que alcanza un retorno de (R_0) es óptimo si nuestro objetivo es alcanzar el retorno (R = R_0) (PCR, transformador de decisión); una trayectoria que llega a la meta (g) es óptima para alcanzar (g=g_0) (GCSL, RvS). Por lo tanto, uno puede realizar BC condicionado por recompensa o BC condicionado por meta, y ejecutar las políticas aprendidas con el valor deseado de retorno o meta durante la evaluación. Este enfoque de RL sin conexión pasa por alto las funciones de valor de aprendizaje o los modelos dinámicos por completo, lo que puede simplificar su uso. Sin embargo, ¿realmente resuelve el problema general de RL fuera de línea?

Lo que ya sabemos sobre RL vs Métodos de imitación

Quizás un buen lugar para comenzar nuestra discusión es revisar el rendimiento de los métodos de estilo de imitación y RL fuera de línea en tareas de referencia. En la figura a continuación, revisamos el rendimiento de algunos métodos recientes para aprender de datos fuera de línea en un subconjunto de la D4RL punto de referencia.

1673113738 130 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Tabla 1: Dicotomía de resultados empíricos en varias tareas en D4RL. Si bien los métodos de estilo de imitación (transformador de decisiones, %BC, RL de un paso, BC condicional) se desempeñan a la par y pueden superar a los métodos de RL fuera de línea (CQL, IQL) en las tareas de locomoción, estos métodos simplemente fallan en el laberinto más complejo. tareas de navegación.

Observe en la tabla que, si bien los métodos de estilo de imitación se desempeñan a la par con los métodos de RL fuera de línea a lo largo de las tareas de locomoción, los enfoques de RL fuera de línea superan ampliamente estos métodos (excepto, BC condicionado por objetivos, que discutiremos hacia el final de esta publicación ) por un amplio margen en las tareas de antmaze. ¿Qué explica esta diferencia? Como discutiremos en esta publicación de blog, los métodos que se basan en el aprendizaje por imitación suelen ser bastante efectivos cuando el comportamiento en el conjunto de datos fuera de línea consiste en algunas trayectorias completas que funcionan bien. Esto es cierto para la mayoría de los conjuntos de datos de estilo de búfer de reproducción, y todos los conjuntos de datos de locomoción en D4RL se generan a partir de búferes de reproducción de algoritmos RL en línea. En tales casos, simplemente filtrar buenas trayectorias y ejecutar el modo de las trayectorias filtradas funcionará bien. Esto explica por qué %BC, RL de un paso y transformador de decisión funcionan bastante bien. Sin embargo, los métodos de RL fuera de línea pueden superar ampliamente a los métodos de BC cuando no se cumple con este requisito estricto porque se benefician de una forma de «composicionalidad temporal» que les permite aprender de datos subóptimos. Esto explica la enorme diferencia entre los resultados de RL y de imitación en los laberintos de hormigas.

RL sin conexión puede resolver problemas que BC condicional, filtrada o ponderada no puede

Para comprender por qué RL fuera de línea puede resolver problemas que los métodos BC mencionados anteriormente no pueden, basemos nuestra discusión en un ejemplo simple y didáctico. Consideremos la tarea de navegación que se muestra en la siguiente figura, donde el objetivo es navegar desde la ubicación inicial A hasta la ubicación objetivo D en el laberinto. Esto es directamente representativo de varios escenarios de toma de decisiones del mundo real en la navegación de robots móviles y proporciona un modelo abstracto para un problema de RL en dominios como la robótica o los sistemas de recomendación. Imagine que recibe datos que muestran cómo el agente puede navegar de la ubicación A a la B y cómo puede navegar de la C a la E, pero ninguna trayectoria en el conjunto de datos va de la A a la D. Obviamente, el conjunto de datos fuera de línea que se muestra a continuación proporciona suficiente información para descubrir una forma de navegar a D: combinando diferentes caminos que se cruzan entre sí en la ubicación E. Pero, ¿pueden varios métodos de aprendizaje fuera de línea encontrar una manera de ir de A a D?

1673113738 890 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 2: Ilustración del caso base de composicionalidad temporal o costura que se necesita para encontrar trayectorias óptimas en varios dominios de problemas.

Resulta que, mientras que los métodos de RL fuera de línea pueden descubrir la ruta de A a D, varios métodos de estilo de imitación no pueden. Esto se debe a que los algoritmos de RL fuera de línea pueden «puntada» trayectorias subóptimas juntas: mientras que las trayectorias (tau_i) en el conjunto de datos fuera de línea pueden obtener un bajo rendimiento, se puede obtener una mejor política al combinar buenos segmentos de trayectorias (A→E + E→D = A→D). Esta capacidad de unir segmentos de trayectorias temporalmente es el sello distintivo de los algoritmos de RL fuera de línea basados ​​en valores que utilizan copias de seguridad de Bellman, pero la clonación (un subconjunto de) los datos o los modelos de secuencia a nivel de trayectoria no pueden extraer esta información, ya que no existe una trayectoria única. de A a D se observa en el conjunto de datos fuera de línea!

¿Por qué deberías preocuparte por coser y estos laberintos? Ahora uno podría preguntarse si este fenómeno de costura solo es útil en algunos casos extremos esotéricos o si es un fenómeno real, prácticamente relevante. Ciertamente, la costura aparece muy explícitamente en manipulación robótica de varias etapas tareas y también en tareas de navegación. Sin embargo, unir no se limita solo a estos dominios: resulta que la necesidad de unir aparece implícitamente incluso en tareas que no parecen contener un laberinto. En la práctica, las políticas efectivas a menudo requerirían encontrar una acción “extrema” pero altamente gratificante, muy diferente de una acción que la política de comportamiento prescribiría, al menos. todos estado y aprender a unir tales acciones para obtener una política que funcione bien en general. esta forma de implícito la costura aparece en muchas aplicaciones prácticas: por ejemplo, es posible que desee encontrar una política de control de HVAC que minimice la huella de carbono de un edificio con un conjunto de datos recopilados de Históricamente, distintas políticas de control se ejecutan en diferentes edificios, cada uno de los cuales es subóptimo de una forma u otra. En este caso, aún se puede obtener una política mucho mejor uniendo acciones extremas en cada estado. En general, esta forma implícita de unión se requiere en los casos en los que deseamos encontrar políticas realmente buenas que maximicen un valor continuo (por ejemplo, maximizar la comodidad del conductor en la conducción autónoma; maximizar las ganancias en el comercio automático de acciones) utilizando un conjunto de datos recopilados de una combinación de subóptimos políticas (p. ej., datos de diferentes conductores humanos; datos de diferentes comerciantes humanos que se destacan y se desempeñan mal en diferentes situaciones) que nunca ejecutan acciones extremas en cada decisión. Sin embargo, al combinar acciones tan extremas en cada decisión, se puede obtener una política mucho mejor. Por lo tanto, tener éxito naturalmente en muchos problemas requiere aprender a unir trayectorias, segmentos o incluso decisiones individuales, ya sea explícita o implícitamente, y RL fuera de línea es bueno en eso.

La siguiente pregunta natural que se debe hacer es: ¿Podemos resolver este problema agregando un componente similar a RL en los métodos BC? Un enfoque estudiado recientemente es realizar un número limitado de pasos de mejora de políticas más allá de la clonación de comportamiento. Es decir, mientras que la RL sin conexión completa realiza múltiples rondas de mejora de políticas hasta que encontramos una política óptima, uno puede encontrar una política simplemente ejecutando un paso de mejora de la política más allá de la clonación conductual. Esta mejora de la política se realiza mediante la incorporación de algún tipo de función de valor, y uno podría esperar que el uso de alguna forma de copia de seguridad de Bellman equipe al método con la capacidad de “puntada”. Desafortunadamente, incluso este enfoque no puede cerrar completamente la brecha con RL fuera de línea. Esto se debe a que, si bien el enfoque de un solo paso puede unir segmentos de trayectoria, ¡a menudo terminaría uniendo los segmentos incorrectos! Un paso de mejora de la política solo mejora miopemente la política, sin tener en cuenta el impacto de actualizar la política en los resultados futuros, la política puede fallar en identificar un comportamiento verdaderamente óptimo. Por ejemplo, en nuestro ejemplo de laberinto que se muestra a continuación, podría parecer mejor para el agente encontrar una solución que decida ir hacia arriba y obtener una recompensa mediocre en comparación con ir hacia la meta, ya que bajo la política de comportamiento, ir hacia abajo podría parecer muy subóptimo.

1673113739 871 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 3: Los métodos de estilo de imitación que solo realizan pasos limitados de mejora de la política aún pueden ser víctimas de la elección de acciones subóptimas, porque la acción óptima, suponiendo que el agente seguirá la política de comportamiento en el futuro, en realidad puede no ser óptima para la secuencia completa. problema de toma de decisiones.

¿Es útil la RL fuera de línea cuando la costura no es una preocupación principal?

Hasta ahora, nuestro análisis revela que los métodos de RL fuera de línea son mejores debido a las buenas propiedades de «unión». Pero uno podría preguntarse, si la unión es fundamental cuando se proporciona buenos datos, como datos de demostración en robótica o datos de buenas políticas en cuidado de la salud. Sin embargo, en nuestro papel reciente, encontramos que incluso cuando la composicionalidad temporal no es una preocupación principal, RL fuera de línea proporciona beneficios sobre el aprendizaje por imitación.

Offline RL puede enseñarle al agente lo que “no debe hacer”. Quizás uno de los mayores beneficios de los algoritmos de RL fuera de línea es que ejecutar RL en conjuntos de datos ruidosos generados a partir de políticas estocásticas no solo puede enseñarle al agente lo que debe hacer para maximizar el retorno, sino también lo que no debe hacerse y cómo las acciones en un estado dado. influiría en la posibilidad de que el agente termine en escenarios indeseables en el futuro. Por el contrario, cualquier forma de BC condicional o ponderada que solo enseñe la política «hacer X», sin desalentar explícitamente un comportamiento particularmente poco gratificante o inseguro. Esto es especialmente relevante en entornos de mundo abierto, como la manipulación robótica en diversos entornos o la toma de decisiones sobre el ingreso de pacientes en una UCI, donde saber claramente qué no hacer es esencial. En nuestro papel, cuantificamos la ganancia de inferir con precisión «lo que no se debe hacer y cuánto duele» y describimos esta intuición gráficamente a continuación. A menudo, la obtención de datos tan ruidosos es fácil: uno podría aumentar los datos de demostración de expertos con «negativos» o «datos falsos» adicionales generados a partir de un simulador (por ejemplo, robótica, conducción autónoma), o ejecutando primero un método de aprendizaje de imitación y creando un conjunto de datos para RL fuera de línea que aumenta los datos con implementaciones de evaluación de la política de imitación aprendida.

1673113740 766 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 4: al aprovechar los datos ruidosos, los algoritmos de RL fuera de línea pueden aprender a descubrir qué no se debe hacer para evitar explícitamente regiones de baja recompensa y cómo el agente podría ser demasiado cauteloso mucho antes de eso.

¿La RL fuera de línea es útil cuando Realmente ¿Tiene demostraciones casi expertas? Como escenario final, consideremos el caso en el que en realidad solo tenemos demostraciones casi expertas, tal vez, el escenario perfecto para el aprendizaje por imitación. En tal entorno, no hay oportunidad de unir o aprovechar datos ruidosos para aprender qué no hacer. ¿Puede la RL fuera de línea mejorar el aprendizaje por imitación? Desafortunadamente, se puede demostrar que, en el peor de los casos, ningún algoritmo puede funcionar mejor que la clonación de comportamiento estándar. Sin embargo, si la tarea admite alguna estructura, las políticas de RL fuera de línea pueden ser más sólidas. Por ejemplo, si hay varios estados en los que es fácil identificar una buena acción utilizando información de recompensa, los enfoques de RL fuera de línea pueden converger rápidamente en una buena acción en dichos estados, mientras que un enfoque de BC estándar que no utiliza recompensas puede fallar en identificar una buena acción, lo que conduce a políticas que no son sólidas y no logran resolver la tarea. Por lo tanto, RL fuera de línea es una opción preferida para tareas con una gran cantidad de estados «no críticos» donde la recompensa a largo plazo puede identificar fácilmente una buena acción. Una ilustración de esta idea se muestra a continuación, y demostramos formalmente un resultado teórico cuantificando estas intuiciones en el papel.

1673113741 241 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 5: Una ilustración de la idea de estados no críticos: la abundancia de estados donde la información de recompensa puede identificar fácilmente buenas acciones en un estado determinado puede ayudar a RL fuera de línea, incluso cuando se proporciona con demostraciones de expertos, en comparación con BC estándar, que no utilizar cualquier tipo de información de recompensa,

Entonces, ¿cuándo es útil el aprendizaje por imitación?

Nuestra discusión hasta ahora ha resaltado que los métodos de RL fuera de línea pueden ser sólidos y efectivos en muchos escenarios donde el BC condicional y ponderado podría fallar. Por lo tanto, ahora buscamos comprender si el BC condicional o ponderado es útil en ciertos entornos de problemas. Esta pregunta es fácil de responder en el contexto de la clonación de comportamiento estándar, si sus datos consisten en demostraciones de expertos que desea imitar, la clonación de comportamiento estándar es una buena opción relativamente simple. Sin embargo, este enfoque falla cuando los datos son ruidosos o subóptimos o cuando cambia la tarea (por ejemplo, cuando cambia la distribución de los estados iniciales). Y la RL sin conexión aún puede preferirse en entornos con cierta estructura (como discutimos anteriormente). Algunas fallas de BC se pueden resolver utilizando BC filtrada: si los datos consisten en una combinación de trayectorias buenas y malas, filtrar las trayectorias en función del retorno puede ser una buena idea. De manera similar, uno podría usar RL de un paso si la tarea no requiere ningún tipo de costura. Sin embargo, en todos estos casos, RL fuera de línea podría ser una mejor alternativa, especialmente si la tarea o el entorno satisfacen algunas condiciones, y al menos podría valer la pena intentarlo.

El BC condicional funciona bien en un problema cuando se puede obtener una variable condicionante adecuada para una tarea determinada. Por ejemplo, los resultados empíricos en los dominios antmaze de trabajo reciente indican que el BC condicional con un objetivo como variable condicionante es bastante eficaz en los problemas de consecución de objetivos, sin embargo, el condicionamiento basado en los rendimientos no lo es (comparar BC condicional (objetivos) vs BC condicional (rendimientos) en la Tabla 1). Intuitivamente, esta variable condicionante “adecuada” esencialmente permite la unión; por ejemplo, un problema de navegación se descompone de forma natural en una secuencia de problemas intermedios para alcanzar un objetivo y luego unir soluciones a un subconjunto inteligentemente elegido de problemas intermedios para alcanzar un objetivo para resolver el problema completo. tarea. En esencia, el éxito de BC condicional requiere cierto conocimiento del dominio sobre la estructura de composicionalidad en la tarea. Por otro lado, los métodos de RL fuera de línea extraen la estructura de unión subyacente mediante la ejecución de una programación dinámica y, en general, funcionan bien. Técnicamente, uno podría combinar estas ideas y utilizar programación dinámica para aprender una función de valor y luego obtener una política ejecutando BC condicional con la función de valor como variable condicionante, y esto puede funcionar bastante bien (comparar RCP-A con RCP-R aquí, donde RCP-A utiliza una función de valor para el condicionamiento; comparar TT+Q y TT aquí)!

En nuestra discusión hasta ahora, ya hemos estudiado configuraciones como los laberintos de hormigas, donde los métodos de RL fuera de línea pueden superar significativamente los métodos de estilo de imitación debido a la costura. Ahora lo haremos rápidamente analice algunos resultados empíricos que comparan el rendimiento de RL y BC fuera de línea en tareas en las que se nos proporcionan datos de demostración casi expertos.

1673113741 427 ¿Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 6: comparación de RL sin conexión completo (CQL) con métodos de estilo de imitación (RL y BC de un paso) promediados en 7 juegos de Atari, con datos de demostración de expertos y datos de expertos ruidosos. Detalles empíricos aquí.

En nuestro experimento final, comparamos el rendimiento de los métodos de RL fuera de línea con los métodos de estilo de imitación en un promedio de siete juegos de Atari. Usamos aprendizaje Q conservador (CQL) como nuestro método RL fuera de línea representativo. Tenga en cuenta que la ejecución ingenua de RL fuera de línea («Naive CQL (Expert)»), sin la validación cruzada adecuada para evitar el sobreajuste y el ajuste insuficiente, no mejora con respecto a BC. Sin embargo, RL fuera de línea equipado con un procedimiento de validación cruzada razonable («CQL sintonizado (Experto)») puede mejorar claramente sobre BC. Esto resalta la necesidad de comprender cómo se deben ajustar los métodos de RL fuera de línea, y al menos, explica en parte el bajo rendimiento de RL fuera de línea cuando se aprende de los datos de demostración en trabajos anteriores. La incorporación de un poco de datos ruidosos que pueden informar al algoritmo de lo que no debe hacer, mejora aún más el rendimiento («CQL (experto ruidoso)» frente a «BC (experto)») dentro de un presupuesto de datos idéntico. Finalmente, tenga en cuenta que si bien uno esperaría que, si bien un paso de mejora de políticas puede ser bastante efectivo, descubrimos que es bastante sensible a los hiperparámetros y no logra mejorar significativamente con respecto a BC. Estas observaciones validan los hallazgos discutidos anteriormente en la publicación del blog. Discutimos los resultados en otros dominios en nuestro papelque alentamos a los practicantes a revisar.

En esta publicación de blog, nuestro objetivo fue comprender si, cuándo y por qué RL fuera de línea es un mejor enfoque para abordar una variedad de problemas de toma de decisiones secuenciales. Nuestra discusión sugiere que los métodos de RL fuera de línea que aprenden funciones de valor pueden aprovechar los beneficios de unir, lo que puede ser crucial en muchos problemas. Además, incluso hay escenarios con datos de demostración de expertos o casi expertos, en los que ejecutar RL sin conexión es una buena idea. Resumimos nuestras recomendaciones para los profesionales en la Figura 1, que se muestra justo al comienzo de esta publicación de blog. Esperamos que nuestro análisis mejore la comprensión de los beneficios y propiedades de los enfoques de RL fuera de línea.


Esta publicación de blog se basa principalmente en el artículo:

¿Cuándo se debe preferir la RL fuera de línea a la clonación conductual?
Aviral Kumar*, Joey Hong*, Anikait Singh, Sergey Levine [arxiv].
En Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), 2022.

Además, los resultados empíricos discutidos en la publicación del blog se toman de varios documentos, en particular de RvS y IQL.

Fuente del artículo

Deja un comentario