Este banco esloveno líder alcanzó el 94 % de automatización e impulsó el NPS en 6 semanas

Este banco esloveno lider alcanzo el 94 de automatizacion

¿Qué hace cuando la solución de su centro de contacto realmente no está resolviendo sus problemas? Para NovaKBM, esto no era solo una pregunta, era una realidad. La función de chat simple que implementaron para automatizar sus solicitudes de servicio al cliente siguió sin contenerse y generó una necesidad abrumadora de ayuda en sus centros de contacto.

Leer más

Aprendizaje por refuerzo del mundo real completamente autónomo con aplicaciones para la manipulación móvil: el blog de investigación de inteligencia artificial de Berkeley

Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones


El aprendizaje por refuerzo proporciona un marco conceptual para que los agentes autónomos aprendan de la experiencia, de manera análoga a cómo se podría entrenar a una mascota con golosinas. Pero las aplicaciones prácticas del aprendizaje por refuerzo a menudo están lejos de ser naturales: en lugar de usar RL para aprender a través de prueba y error al intentar realmente la tarea deseada, las aplicaciones típicas de RL usan una fase de entrenamiento separada (generalmente simulada). Por ejemplo, AlphaGo no aprendió a jugar Go compitiendo contra miles de humanos, sino jugando contra sí mismo en una simulación. Si bien este tipo de entrenamiento simulado es atractivo para juegos en los que se conocen perfectamente las reglas, aplicarlo a dominios del mundo real como la robótica puede requerir una variedad de enfoques complejos, como el uso de datos simulados, o instrumentar entornos del mundo real de varias maneras para hacer factible la capacitación en condiciones de laboratorio. ¿Podemos, en cambio, diseñar sistemas de aprendizaje por refuerzo para robots que les permitan aprender directamente «en el trabajo», mientras realizan la tarea que deben realizar? En esta publicación de blog, hablaremos sobre ReLMM, un sistema que desarrollamos que aprende a limpiar una habitación directamente con un robot real a través del aprendizaje continuo.

Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831651 17 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831652 229 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones
1674831653 418 Aprendizaje por refuerzo del mundo real completamente autonomo con aplicaciones

Evaluamos nuestro método en diferentes tareas que varían en dificultad. La tarea de arriba a la izquierda tiene manchas blancas uniformes para recoger sin obstáculos, mientras que otras habitaciones tienen objetos de diversas formas y colores, obstáculos que aumentan la dificultad de navegación y oscurecen los objetos y alfombras estampadas que dificultan ver los objetos contra el suelo.

Leer más

Por qué ChatGPT no es un reemplazo para las plataformas empresariales de IA conversacional

Por que ChatGPT no es un reemplazo para las plataformas

Como aficionados a la inteligencia artificial, siempre es emocionante ver una nueva pieza de tecnología de IA que se destaca entre la multitud. Inundando las líneas de tiempo de las redes sociales, ChatGPT ha sido un tema de tendencia cuando cruzó 1 millón de usuarios en menos de una semana después del lanzamiento. Desde entonces, miles de usuarios están compartiendo sus casos de uso de cómo ChatGPT puede responder preguntas, escribir artículos breves sobre temas específicos, depurar código, escribir letras de canciones y poemas, resumir ensayos e incluso hacer su tarea para ellos.

Leer más

¿Debo usar RL sin conexión o aprendizaje por imitación? – El blog de investigación de inteligencia artificial de Berkeley

Debo usar RL sin conexion o aprendizaje por imitacion –


Debo usar RL sin conexion o aprendizaje por imitacion –

Figura 1: Resumen de nuestras recomendaciones sobre cuándo un practicante debe BC y varios métodos de estilo de aprendizaje de imitación, y cuándo debe usar enfoques de RL fuera de línea.

El aprendizaje de refuerzo fuera de línea permite aprender políticas a partir de datos recopilados previamente, lo que tiene profundas implicaciones para aplicar RL en dominios donde ejecutar el aprendizaje de prueba y error es poco práctico o peligroso, como entornos críticos para la seguridad como la conducción autónoma o la planificación de tratamientos médicos. En tales escenarios, la exploración en línea es simplemente demasiado arriesgada, pero RL fuera de línea Los métodos pueden aprender políticas efectivas de los datos registrados recopilados por humanos o controladores diseñados heurísticamente. Los métodos de control anteriores basados ​​en el aprendizaje también se han acercado al aprendizaje a partir de datos existentes como aprendizaje por imitación: si los datos son generalmente «suficientemente buenos», simplemente copiar el comportamiento en los datos puede conducir a buenos resultados, y si no es lo suficientemente bueno, entonces filtrar o volver a ponderar los datos y luego copiarlos puede funcionar bien. Varios reciente obras sugieren que esta es una alternativa viable a los métodos modernos de RL fuera de línea.

Esto trae varias preguntas: ¿Cuándo debemos usar RL sin conexión? ¿Existen limitaciones fundamentales para los métodos que se basan en alguna forma de imitación (BC, BC condicional, BC filtrada) que aborda la RL fuera de línea? Si bien puede estar claro que la RL fuera de línea debería disfrutar de una gran ventaja sobre el aprendizaje por imitación cuando se aprende de diversos conjuntos de datos que contienen una gran cantidad de comportamientos subóptimos, también discutiremos cómo incluso los casos que pueden parecer compatibles con BC aún pueden permitir que la RL fuera de línea alcance resultados significativamente mejores. Nuestro objetivo es ayudar a explicar cuándo y por qué debe usar cada método y brindar orientación a los profesionales sobre los beneficios de cada enfoque. La Figura 1 resume de manera concisa nuestros hallazgos y discutiremos cada componente.

Leer más