Aprendiendo a caminar en la naturaleza a partir de la semántica del terreno

Una promesa importante para los robots cuadrúpedos es su potencial para operar en entornos exteriores complejos que son difíciles o inaccesibles para los humanos. Ya sea para encontrar recursos naturales en las profundidades de las montañas o para buscar señales de vida en sitios de terremotos muy dañados, un robot cuadrúpedo robusto y versátil podría ser muy útil. Para lograr eso, un robot necesita percibir el entorno, comprender sus desafíos de locomoción y adaptar su habilidad de locomoción en consecuencia. Si bien reciente avances en la locomoción perceptiva han mejorado en gran medida la capacidad de los robots cuadrúpedos, la mayoría de los trabajos se centran en entornos interiores o urbanos, por lo que no pueden manejar de manera efectiva la complejidad de los terrenos fuera de la carretera. En estos entornos, el robot necesita comprender no solo el terreno forma (p. ej., ángulo de pendiente, suavidad), sino también su propiedades de contacto (por ejemplo, fricción, restitución, deformabilidad), que son importantes para que un robot decida sus habilidades de locomoción. Como los sistemas de locomoción perceptiva existentes se centran principalmente en el uso de cámaras de profundidad o LiDARpuede ser difícil para estos sistemas estimar con precisión dichas propiedades del terreno.

En «Aprendizaje de habilidades de locomoción conscientes de la semántica a partir de demostraciones humanas”, diseñamos un marco de aprendizaje jerárquico para mejorar la capacidad de un robot para atravesar entornos todoterreno complejos. A diferencia de los enfoques anteriores que se centran en el medio ambiente geometríacomo la forma del terreno y la ubicación de los obstáculos, nos enfocamos en el entorno semántica, como el tipo de terreno (césped, barro, etc.) y las propiedades de contacto, que brindan un conjunto complementario de información útil para entornos todoterreno. A medida que el robot camina, el marco decide la habilidad de locomoción, incluida la velocidad y paso (es decir, la forma y el momento del movimiento de las piernas) del robot en función de la semántica percibida, lo que permite que el robot camine con firmeza en una variedad de terrenos todoterreno, como rocas, guijarros, hierba espesa, barro y más.

Nuestro marco selecciona las habilidades (marcha y velocidad) del robot a partir de la imagen RGB de la cámara. Primero calculamos la velocidad a partir de la semántica del terreno y luego seleccionamos un paso en función de la velocidad.

Visión general
El marco jerárquico consiste en un alto nivel política de habilidades y un nivel bajo controlador del motor. los política de habilidades selecciona una habilidad de locomoción basada en las imágenes de la cámara, y la controlador del motor convierte la habilidad seleccionada en comandos motores. el alto nivel política de habilidades se descompone aún más en un aprendizaje política de velocidad y basado en heurística selector de paso. Para decidir una habilidad, el política de velocidad primero calcula la velocidad de avance deseada, en función de la información semántica de la placa RGB cámara. Por eficiencia energética y robustez, los robots cuadrúpedos suelen seleccione una marcha diferente para cada velocidad, por lo que diseñamos el selector de marcha para calcular una marcha deseada en función de la velocidad de avance. Por último, un convexo de bajo nivel controlador modelo-predictivo (MPC) convierte la habilidad de locomoción deseada en motor esfuerzo de torsión comandos y los ejecuta en el hardware real. Entrenamos la política de velocidad directamente en el mundo real usando aprendizaje por imitación porque requiere menos datos de entrenamiento en comparación con el estándar aprendizaje reforzado algoritmos

El marco consiste en una política de habilidad de alto nivel y un controlador de motor de bajo nivel.

Comando de velocidad de aprendizaje a partir de demostraciones humanas
Como componente central de nuestra tubería, el política de velocidad emite la velocidad de avance deseada del robot en función de la imagen RGB de la cámara integrada. Si bien muchas tareas de aprendizaje de robots pueden aprovechar la simulación como una fuente de recopilación de datos de menor costo, entrenamos la política de velocidad en el mundo real porque aún no está disponible la simulación precisa de entornos todoterreno complejos y diversos. Como el aprendizaje de políticas en el mundo real es pérdida de tiempo y potencialmente inseguro, tomamos dos decisiones de diseño clave para mejorar la eficiencia y la seguridad de los datos de nuestro sistema.

El primero es aprender de las demostraciones humanas. Los algoritmos de aprendizaje por refuerzo estándar normalmente aprenden por exploración, donde el agente intenta diferentes acciones en un entorno y construye preferencias en función de las recompensas recibidas. Sin embargo, tales exploraciones pueden ser potencialmente inseguras, especialmente en entornos fuera de la carretera, ya que cualquier falla del robot puede dañar tanto el hardware del robot como el entorno circundante. Para garantizar la seguridad, entrenamos la política de velocidad utilizando el aprendizaje por imitación de demostraciones humanas. Primero le pedimos a un operador humano que teleopere el robot en una variedad de terrenos todoterreno, donde el operador controla la velocidad y el rumbo del robot mediante un joystick remoto. A continuación, recopilamos los datos de entrenamiento almacenando (imagen, forward_speed) pares. Luego entrenamos la política de velocidad utilizando el aprendizaje supervisado estándar para predecir el comando de velocidad del operador humano. Resulta que la demostración humana es segura y de alta calidad, y permite que el robot aprenda una elección de velocidad adecuada para diferentes terrenos.

La segunda elección de diseño clave es el método de entrenamiento. Las redes neuronales profundas, especialmente aquellas que involucran entradas visuales de alta dimensión, generalmente requieren muchos datos para entrenar. Para reducir la cantidad de datos de entrenamiento del mundo real necesarios, primero entrenamos previamente un modelo de segmentación semántica en RUGD (un conjunto de datos de conducción todoterreno donde las imágenes se parecen a las capturadas por la cámara a bordo del robot), donde el modelo predice la clase semántica (hierba, barro, etc.) para cada píxel en la imagen de la cámara. Luego extraemos un incrustación semántica de las capas intermedias del modelo y utilícelo como característica para el entrenamiento en el robot. Con la incrustación semántica preentrenada, podemos entrenar la política de velocidad de manera efectiva utilizando menos de 30 minutos de datos del mundo real, lo que reduce en gran medida la cantidad de esfuerzo requerido.

Entrenamos previamente un modelo de segmentación semántica y extraemos una incrustación semántica para ajustarla en los datos del robot.

Selección de marcha y control motor
El siguiente componente en la tubería, el selector de pasocalcula la marcha adecuada en función del comando de velocidad del política de velocidad. los paso de un robot, incluida su frecuencia de paso, la altura de giro y la altura de la base, pueden afectar en gran medida la capacidad del robot para atravesar diferentes terrenos.

Estudios científicos han demostrado que los animales cambian entre diferentes modos de andar a diferentes velocidades, y este resultado es más validado en robots cuadrúpedos, por lo que diseñamos el selector de marcha para calcular una marcha robusta para cada velocidad. En comparación con el uso de una marcha fija en todas las velocidades, encontramos que el selector de marcha mejora aún más el rendimiento de navegación del robot en terrenos todoterreno (más detalles en el documento).

El último componente de la tubería es un controlador del motor, que convierte los comandos de velocidad y marcha en pares motores. Similar a trabajo previo, usamos estrategias de control separadas para las piernas de balanceo y de apoyo. Al separar la tarea del aprendizaje de habilidades y el control motor, la política de habilidades solo necesita generar la velocidad deseada y no necesita aprender controles de locomoción de bajo nivel, lo que simplifica enormemente el proceso de aprendizaje.

Resultados del experimento
Implementamos nuestro marco en un Robot cuadrúpedo A1 y lo probé en un sendero al aire libre con múltiples tipos de terreno, incluidos césped, grava y asfalto, que presentan diversos grados de dificultad para el robot. Por ejemplo, mientras que el robot necesita caminar despacio con movimientos altos de los pies en la hierba espesa para evitar que se atasque, en el asfalto puede caminar mucho más rápido con movimientos más bajos de los pies para una mejor eficiencia energética. Nuestro marco captura esas diferencias y selecciona una habilidad adecuada para cada tipo de terreno: velocidad lenta (0,5 m/s) sobre césped profundo, velocidad media (1 m/s) sobre grava y velocidad alta (1,4 m/s) sobre asfalto. Completa el sendero de 460 m de largo en 9,6 minutos con una velocidad promedio de 0,8 m/s (es decir, eso es 1,8 millas o 2,9 kilómetros por hora). Por el contrario, las políticas no adaptativas no pueden completar el sendero de forma segura o caminan significativamente más lento (0,5 m/s), lo que ilustra la importancia de adaptar las habilidades de locomoción en función de los entornos percibidos.

El marco selecciona diferentes velocidades en función de las condiciones del camino.

A prueba de generalización, también implementamos el robot en una serie de senderos que no se ven durante el entrenamiento. El robot los atraviesa todos sin fallar y ajusta sus habilidades de locomoción en función de la semántica del terreno. En general, la política de habilidades selecciona una habilidad más rápida en terrenos rígidos y planos y una velocidad más lenta en terrenos deformables o irregulares. Al momento de escribir este artículo, el robot ha recorrido más de 6 km de senderos al aire libre sin fallar.

Con el marco, el robot camina con seguridad en una variedad de terrenos al aire libre que no se ven durante el entrenamiento.

Conclusión
En este trabajo, presentamos un marco jerárquico para aprender habilidades de locomoción conscientes de la semántica para la locomoción todoterreno. Utilizando menos de 30 minutos de datos de demostración humana, el marco aprende a ajustar la velocidad y el modo de andar del robot en función de la semántica percibida del entorno. El robot puede caminar de manera segura y eficiente en una amplia variedad de terrenos todoterreno. Una limitación de nuestro marco es que solo ajusta las habilidades de locomoción para caminar estándar y no admite comportamientos más ágiles como saltar, que pueden ser esenciales para atravesar terrenos más difíciles con brechas u obstáculos. Otra limitación es que nuestro marco actualmente requiere comandos de dirección manual para seguir un camino deseado y alcanzar la meta. En el trabajo futuro, planeamos buscar una integración más profunda de la política de habilidades de alto nivel con el controlador de bajo nivel para comportamientos más ágiles, e incorporar la navegación y la planificación de rutas en el marco para que el robot pueda operar de forma totalmente autónoma en desafíos fuera de lugar. entornos viales.

Agradecimientos
Nos gustaría agradecer a nuestros coautores del artículo: Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, y Botas Byron. También nos gustaría agradecer a los miembros del equipo de Robotics en Google por las discusiones y los comentarios.

Fuente del artículo

¿Que te ha parecido?

Deja un comentario