El aprendizaje por refuerzo proporciona un marco conceptual para que los agentes autónomos aprendan de la experiencia, de manera análoga a cómo se podría entrenar a una mascota con golosinas. Pero las aplicaciones prácticas del aprendizaje por refuerzo a menudo están lejos de ser naturales: en lugar de usar RL para aprender a través de prueba y error al intentar realmente la tarea deseada, las aplicaciones típicas de RL usan una fase de entrenamiento separada (generalmente simulada). Por ejemplo, AlphaGo no aprendió a jugar Go compitiendo contra miles de humanos, sino jugando contra sí mismo en una simulación. Si bien este tipo de entrenamiento simulado es atractivo para juegos en los que se conocen perfectamente las reglas, aplicarlo a dominios del mundo real como la robótica puede requerir una variedad de enfoques complejos, como el uso de datos simulados, o instrumentar entornos del mundo real de varias maneras para hacer factible la capacitación en condiciones de laboratorio. ¿Podemos, en cambio, diseñar sistemas de aprendizaje por refuerzo para robots que les permitan aprender directamente «en el trabajo», mientras realizan la tarea que deben realizar? En esta publicación de blog, hablaremos sobre ReLMM, un sistema que desarrollamos que aprende a limpiar una habitación directamente con un robot real a través del aprendizaje continuo.
Evaluamos nuestro método en diferentes tareas que varían en dificultad. La tarea de arriba a la izquierda tiene manchas blancas uniformes para recoger sin obstáculos, mientras que otras habitaciones tienen objetos de diversas formas y colores, obstáculos que aumentan la dificultad de navegación y oscurecen los objetos y alfombras estampadas que dificultan ver los objetos contra el suelo.