Aprendizaje por refuerzo del mundo real completamente autónomo con aplicaciones para la manipulación móvil: el blog de investigación de inteligencia artificial de Berkeley

Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones


El aprendizaje por refuerzo proporciona un marco conceptual para que los agentes autónomos aprendan de la experiencia, de manera análoga a cómo se podría entrenar a una mascota con golosinas. Pero las aplicaciones prácticas del aprendizaje por refuerzo a menudo están lejos de ser naturales: en lugar de usar RL para aprender a través de prueba y error al intentar realmente la tarea deseada, las aplicaciones típicas de RL usan una fase de entrenamiento separada (generalmente simulada). Por ejemplo, AlphaGo no aprendió a jugar Go compitiendo contra miles de humanos, sino jugando contra sí mismo en una simulación. Si bien este tipo de entrenamiento simulado es atractivo para juegos en los que se conocen perfectamente las reglas, aplicarlo a dominios del mundo real como la robótica puede requerir una variedad de enfoques complejos, como el uso de datos simulados, o instrumentar entornos del mundo real de varias maneras para hacer factible la capacitación en condiciones de laboratorio. ¿Podemos, en cambio, diseñar sistemas de aprendizaje por refuerzo para robots que les permitan aprender directamente «en el trabajo», mientras realizan la tarea que deben realizar? En esta publicación de blog, hablaremos sobre ReLMM, un sistema que desarrollamos que aprende a limpiar una habitación directamente con un robot real a través del aprendizaje continuo.

Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831651 17 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831652 229 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831653 418 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones

Evaluamos nuestro método en diferentes tareas que varían en dificultad. La tarea de arriba a la izquierda tiene manchas blancas uniformes para recoger sin obstáculos, mientras que otras habitaciones tienen objetos de diversas formas y colores, obstáculos que aumentan la dificultad de navegación y oscurecen los objetos y alfombras estampadas que dificultan ver los objetos contra el suelo.

Leer más

Por qué ChatGPT no es un reemplazo para las plataformas empresariales de IA conversacional

Por que ChatGPT no es un reemplazo para las plataformas

Como aficionados a la inteligencia artificial, siempre es emocionante ver una nueva pieza de tecnología de IA que se destaca entre la multitud. Inundando las líneas de tiempo de las redes sociales, ChatGPT ha sido un tema de tendencia cuando cruzó 1 millón de usuarios en menos de una semana después del lanzamiento. Desde entonces, miles de usuarios están compartiendo sus casos de uso de cómo ChatGPT puede responder preguntas, escribir artículos breves sobre temas específicos, depurar código, escribir letras de canciones y poemas, resumir ensayos e incluso hacer su tarea para ellos.

Leer más

¿Debo usar RL sin conexión o aprendizaje por imitación? – El blog de investigación de inteligencia artificial de Berkeley

Debo usar RL sin conexion o aprendizaje por imitacion –


Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 1: Resumen de nuestras recomendaciones sobre cuándo un practicante debe BC y varios métodos de estilo de aprendizaje de imitación, y cuándo debe usar enfoques de RL fuera de línea.

El aprendizaje de refuerzo fuera de línea permite aprender políticas a partir de datos recopilados previamente, lo que tiene profundas implicaciones para aplicar RL en dominios donde ejecutar el aprendizaje de prueba y error es poco práctico o peligroso, como entornos críticos para la seguridad como la conducción autónoma o la planificación de tratamientos médicos. En tales escenarios, la exploración en línea es simplemente demasiado arriesgada, pero RL fuera de línea Los métodos pueden aprender políticas efectivas de los datos registrados recopilados por humanos o controladores diseñados heurísticamente. Los métodos de control anteriores basados ​​en el aprendizaje también se han acercado al aprendizaje a partir de datos existentes como aprendizaje por imitación: si los datos son generalmente «suficientemente buenos», simplemente copiar el comportamiento en los datos puede conducir a buenos resultados, y si no es lo suficientemente bueno, entonces filtrar o volver a ponderar los datos y luego copiarlos puede funcionar bien. Varios reciente obras sugieren que esta es una alternativa viable a los métodos modernos de RL fuera de línea.

Esto trae varias preguntas: ¿Cuándo debemos usar RL sin conexión? ¿Existen limitaciones fundamentales para los métodos que se basan en alguna forma de imitación (BC, BC condicional, BC filtrada) que aborda la RL fuera de línea? Si bien puede estar claro que la RL fuera de línea debería disfrutar de una gran ventaja sobre el aprendizaje por imitación cuando se aprende de diversos conjuntos de datos que contienen una gran cantidad de comportamientos subóptimos, también discutiremos cómo incluso los casos que pueden parecer compatibles con BC aún pueden permitir que la RL fuera de línea alcance resultados significativamente mejores. Nuestro objetivo es ayudar a explicar cuándo y por qué debe usar cada método y brindar orientación a los profesionales sobre los beneficios de cada enfoque. La Figura 1 resume de manera concisa nuestros hallazgos y discutiremos cada componente.

Leer más

Por qué la búsqueda empresarial impulsada por IA es fundamental para la experiencia del empleado aumentada

Por que la busqueda empresarial impulsada por IA es fundamental

A medida que las empresas continúan produciendo grandes volúmenes de datos y contenido, se vuelve un desafío y requiere mucho tiempo para los empleados buscar y encontrar la información adecuada almacenada en diferentes ubicaciones, también en varios formatos, como documentos, correos electrónicos, imágenes y audio y video. archivos No solo tiene un impacto negativo en la productividad de los empleados, sino que también reduce las ganancias de su organización.

Leer más