Aceleración de la locomoción visual aprendida por la evolución con representaciones de información predictiva – Google AI Blog

estrategia de evolución (ES) es una familia de técnicas de optimización inspiradas en las ideas de seleccion natural: una población de soluciones candidatas suele evolucionar a lo largo de generaciones para adaptarse mejor a un objetivo de optimización. ES se ha aplicado a una variedad de problemas de toma de decisiones desafiantes, como locomoción con patas, control de cuadricópteroe incluso control del sistema de potencia.

Comparado con el basado en gradientes aprendizaje reforzado (RL) métodos como optimización de políticas proximales (PPO) y suave actor-crítico (SAC), ES tiene varias ventajas. Primero, ES explora directamente en el espacio de los parámetros del controlador, mientras que los métodos basados ​​en gradientes a menudo exploran dentro de un espacio de acción limitado, lo que influye indirectamente en los parámetros del controlador. Se ha demostrado que una exploración más directa aumentar el rendimiento de aprendizaje y permitir la recopilación de datos a gran escala con cómputo paralelo. En segundo lugar, un desafío importante en RL es la asignación de créditos a largo plazo, por ejemplo, cuando un robot realiza una tarea al final, determina qué acciones realizadas en el pasado fueron las más críticas y se les debe asignar una recompensa mayor. Dado que ES considera directamente la recompensa total, evita que los investigadores tengan que manejar explícitamente la asignación de créditos. Además, debido a que ES no depende de la información de gradientes, naturalmente puede manejar objetivos muy poco fluidos o arquitecturas de controlador donde el cálculo de gradientes no es trivial, como el aprendizaje por metarrefuerzo. Sin embargo, una de las principales debilidades de los algoritmos basados ​​en ES es su dificultad para escalar a problemas que requieren entradas sensoriales de alta dimensión para codificar la dinámica del entorno, como entrenar robots con entradas de visión complejas.

En este trabajo, proponemos “PI-ARS: aceleración de la locomoción visual aprendida por evolución con representaciones de información predictiva”, un algoritmo de aprendizaje que combina representación aprendizaje y ES para resolver eficazmente problemas de gran dimensión de forma escalable. La idea central es aprovechar información predictivaun objetivo de aprendizaje de representación, para obtener una representación compacta de la dinámica del entorno de alta dimensión, y luego aplicar Búsqueda aleatoria aumentada (ARS), un popular algoritmo ES, para transformar la representación compacta aprendida en acciones de robot. Probamos PI-ARS en el desafiante problema de la locomoción visual para robots con patas. PI-ARS permite un entrenamiento rápido de controladores de locomoción basados ​​en visión que pueden atravesar una variedad de entornos difíciles. Además, los controladores entrenados en entornos simulados se transfieren con éxito a un robot cuadrúpedo real.

PI-ARS entrena políticas confiables de locomoción visual que son transferibles al mundo real.

Información predictiva

Una buena representación para el aprendizaje de políticas debe ser tanto compresivopara que ES pueda enfocarse en resolver un problema dimensional mucho más bajo de lo que implicaría aprender de las observaciones sin procesar, y tarea crítica, por lo que el controlador aprendido tiene toda la información necesaria para aprender el comportamiento óptimo. Para los problemas de control robótico con espacio de entrada de alta dimensión, es fundamental que la política comprenda el entorno, incluida la información dinámica tanto del propio robot como de los objetos que lo rodean.

Como tal, proponemos un codificador de observación que preserva la información de las observaciones de entrada sin procesar que permite que la política prediga los estados futuros del medio ambiente, de ahí el nombre información predictiva (PI). Más específicamente, optimizamos el codificador de modo que la versión codificada de lo que el robot ha visto y planificado en el pasado pueda predecir con precisión lo que el robot podría ver y recibir una recompensa en el futuro. Una herramienta matemática para describir tal propiedad es la de información mutuaque mide la cantidad de información que obtenemos sobre una variable aleatoria X observando otra variable aleatoria Y. En nuestro caso, X y Y sería lo que el robot vio y planeó en el pasado, y lo que el robot ve y es recompensado en el futuro. Optimizar directamente el objetivo de información mutua es un problema desafiante porque generalmente solo tenemos acceso a muestras de las variables aleatorias, pero no a sus distribuciones subyacentes. En este trabajo seguimos un acercamiento previo que usa InfoNCEun límite variacional contrastivo en la información mutua para optimizar el objetivo.

Izquierda: Utilizamos el aprendizaje de representación para codificar PI del entorno. Derecha: Entrenamos la representación reproduciendo trayectorias desde el búfer de reproducción y maximizamos la previsibilidad entre la observación y el plan de movimiento en el pasado y la observación y recompensa en el futuro de la trayectoria.

Información predictiva con búsqueda aleatoria aumentada

A continuación, combinamos PI con Búsqueda aleatoria aumentada (ARS), un algoritmo que ha demostrado un excelente rendimiento de optimización para tareas de toma de decisiones desafiantes. En cada iteración de ARS, toma muestras de una población de parámetros de controlador perturbados, evalúa su rendimiento en el entorno de prueba y luego calcula un gradiente que mueve el controlador hacia los que funcionaron mejor.

Usamos la representación compacta aprendida de PI para conectar PI y ARS, que llamamos PI-ARS. Más específicamente, ARS optimiza un controlador que toma como entrada la representación compacta PI aprendida y predice los comandos de robot apropiados para lograr la tarea. Al optimizar un controlador con un espacio de entrada más pequeño, permite que ARS encuentre la solución óptima de manera más eficiente. Mientras tanto, usamos los datos recopilados durante la optimización de ARS para mejorar aún más la representación aprendida, que luego se alimenta al controlador de ARS en la siguiente iteración.

Una descripción general del flujo de datos de PI-ARS. Nuestro algoritmo se intercala entre dos pasos: 1) optimizar el objetivo de PI que actualiza la política, que son los pesos para la red neuronal que extrae la representación aprendida; y 2) muestrear nuevas trayectorias y actualizar los parámetros del controlador usando ARS.

Locomoción visual para robots con patas

Evaluamos PI-ARS sobre el problema de la locomoción visual para robots con patas. Elegimos este problema por dos razones: la locomoción visual es un cuello de botella clave para que los robots con patas se apliquen en aplicaciones del mundo real, y la entrada de visión de alta dimensión a la política y la dinámica compleja en los robots con patas lo convierten en una prueba ideal. -caso para demostrar la eficacia del algoritmo PI-ARS. A continuación se puede ver una demostración de nuestra configuración de tareas en simulación. Las políticas primero se entrenan en entornos simulados y luego se transfieren al hardware.

Una ilustración de la configuración de la tarea de locomoción visual. El robot está equipado con dos cámaras para observar el entorno (ilustrado por las pirámides transparentes). Las observaciones y el estado del robot se envían a la política para generar un plan de movimiento de alto nivel, como la ubicación de aterrizaje de los pies y la velocidad de movimiento deseada. El plan de movimiento de alto nivel se logra luego mediante un controlador de control predictivo de movimiento (MPC) de bajo nivel.

Resultados del experimento

Primero evaluamos el algoritmo PI-ARS en cuatro tareas simuladas desafiantes:

  • Escalones desiguales: El robot necesita caminar sobre terrenos irregulares evitando los huecos.
  • Montones de Quincuncial: El robot debe evitar los espacios tanto al frente como a los lados.
  • Plataformas móviles: El robot necesita caminar sobre peldaños que se mueven al azar horizontal o verticalmente. Esta tarea ilustra la flexibilidad de aprender una política basada en la visión en comparación con la reconstrucción explícita del entorno.
  • Navegación interior: El robot necesita navegar a una ubicación aleatoria mientras evita obstáculos en un ambiente interior.

Como se muestra a continuación, PI-ARS puede superar significativamente a ARS en las cuatro tareas en términos de la recompensa total de la tarea que puede obtener (en un 30-50%).

Izquierda: Visualización del desempeño de la política PI-ARS en simulación. Derecha: Recompensa total de la tarea (es decir, retorno del episodio) para PI-ARS (Línea verde) y ARS (línea roja). El algoritmo PI-ARS supera significativamente a ARS en cuatro tareas desafiantes de locomoción visual.

Desplegamos aún más las políticas entrenadas a un verdadero Laikago robot en dos tareas: aleatorio Escalón y navegacion interior. Demostramos que nuestras políticas capacitadas pueden manejar con éxito tareas del mundo real. En particular, la tasa de éxito de la tarea de trampolín aleatorio mejoró del 40 % en el trabajo previo al 100%.

La política capacitada de PI-ARS permite que un robot Laikago real navegue alrededor de obstáculos.

Conclusión

En este trabajo, presentamos un nuevo algoritmo de aprendizaje, PI-ARS, que combina el aprendizaje de representación basado en gradientes con algoritmos de estrategia evolutiva sin gradientes para aprovechar las ventajas de ambos. PI-ARS disfruta de la eficacia, la simplicidad y la paralelización de los algoritmos sin gradientes, al tiempo que alivia un cuello de botella clave de los algoritmos ES en el manejo de problemas de alta dimensión mediante la optimización de una representación de baja dimensión. Aplicamos PI-ARS a un conjunto de tareas desafiantes de locomoción visual, entre las cuales PI-ARS supera significativamente el estado del arte. Además, validamos la política aprendida por PI-ARS en un robot cuadrúpedo real. Permite que el robot camine sobre escalones colocados al azar y navegue en un espacio interior con obstáculos. Nuestro método abre la posibilidad de incorporar modelos modernos de redes neuronales grandes y datos a gran escala en el campo de la estrategia evolutiva para el control de la robótica.

Agradecimientos

Nos gustaría agradecer a nuestros coautores del artículo: Ofir Nachum, Tingnan Zhang, Sergio Guadarrama y Jie Tan. También nos gustaría agradecer a Ian Fischer y John Canny por sus valiosos comentarios.

Fuente del artículo

Deja un comentario