Diseño de sistemas de aprendizaje por refuerzo beneficiosos para la sociedad: el blog de investigación de inteligencia artificial de Berkeley


El aprendizaje por refuerzo profundo (DRL) está pasando de un campo de investigación centrado en los juegos a una tecnología con aplicaciones del mundo real. Ejemplos notables incluyen el trabajo de DeepMind en controlar un reactor nuclear o en mejorar Compresión de vídeo de Youtubeo tesla intentando usar un método inspirado en MuZero para la planificación del comportamiento de vehículos autónomos. Pero el emocionante potencial para las aplicaciones de RL en el mundo real también debe venir con una buena dosis de precaución; por ejemplo, se sabe que las políticas de RL son vulnerables a explotacióny los métodos para el desarrollo de políticas seguras y sólidas son un área activa de investigación.

Al mismo tiempo que surgen poderosos sistemas de RL en el mundo real, el público y los investigadores expresan un mayor apetito por sistemas de aprendizaje automático justos, alineados y seguros. El enfoque de estos esfuerzos de investigación hasta la fecha ha sido dar cuenta de las deficiencias de los conjuntos de datos o las prácticas de aprendizaje supervisado que pueden dañar a las personas. Sin embargo, la capacidad única de los sistemas RL para aprovechar la retroalimentación temporal en el aprendizaje complica los tipos de riesgos y problemas de seguridad que pueden surgir.

Esta publicación amplía nuestra reciente papel blanco y trabajo de investigación, donde nuestro objetivo es ilustrar las diferentes modalidades que pueden tomar los daños cuando se aumentan con el eje temporal de RL. Para combatir estos nuevos riesgos sociales, también proponemos un nuevo tipo de documentación para sistemas dinámicos de aprendizaje automático que tiene como objetivo evaluar y monitorear estos riesgos antes y después del despliegue.

Los sistemas de aprendizaje por refuerzo a menudo se destacan por su capacidad para actuar en un entorno, en lugar de hacer predicciones pasivamente. Otros sistemas de aprendizaje automático supervisado, como la visión por computadora, consumen datos y devuelven una predicción que puede ser utilizada por alguna regla de toma de decisiones. Por el contrario, el atractivo de RL radica en su capacidad no solo para (a) modelar directamente el impacto de las acciones, sino también para (b) mejorar el desempeño de las políticas automáticamente. Estas propiedades clave de actuar sobre un entorno y aprender dentro de ese entorno pueden entenderse considerando los diferentes tipos de retroalimentación que entran en juego cuando un agente de RL actúa dentro de un entorno. Clasificamos estas formas de retroalimentación en una taxonomía de (1) control, (2) comportamiento y (3) retroalimentación exógena. Las dos primeras nociones de retroalimentación, Control y Comportamiento, están directamente dentro de la definición matemática formal de un agente de RL, mientras que la retroalimentación exógena se induce a medida que el agente interactúa con el mundo más amplio.

1. Retroalimentación de control

Primero está la retroalimentación de control, en el sentido de ingeniería de sistemas de control, donde la acción tomada depende de las mediciones actuales del estado del sistema. Los agentes de RL eligen acciones en función de un estado observado de acuerdo con una política, lo que genera una retroalimentación ambiental. Por ejemplo, un termostato enciende un horno de acuerdo con la medición de temperatura actual. La retroalimentación de control le da a un agente la capacidad de reaccionar ante eventos imprevistos (por ejemplo, un golpe repentino de clima frío) de manera autónoma.

Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 1: Retroalimentación de control.

2. Comentarios sobre el comportamiento

El siguiente en nuestra taxonomía de retroalimentación de RL es la ‘retroalimentación de comportamiento’: el aprendizaje de prueba y error que permite a un agente mejorar su política a través de la interacción con el entorno. Esto podría considerarse la característica definitoria de RL, en comparación con, por ejemplo, la teoría de control ‘clásica’. Las políticas en RL se pueden definir mediante un conjunto de parámetros que determinan las acciones que el agente realizará en el futuro. Debido a que estos parámetros se actualizan a través de comentarios de comportamiento, en realidad son un reflejo de los datos recopilados de las ejecuciones de versiones de políticas anteriores. Los agentes de RL no carecen por completo de memoria en este sentido: la política actual depende de la experiencia almacenada e impacta en los datos recopilados recientemente, lo que a su vez afecta las versiones futuras del agente. Para continuar con el ejemplo del termostato, un termostato de «hogar inteligente» podría analizar las mediciones de temperatura históricas y adaptar sus parámetros de control de acuerdo con los cambios estacionales de temperatura, por ejemplo, para tener un esquema de control más agresivo durante los meses de invierno.

1671450499 428 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 2: Comentarios sobre el comportamiento.

3. Retroalimentación Exógena

Finalmente, podemos considerar una tercera forma de retroalimentación externa al entorno de RL especificado, que llamamos retroalimentación exógena (o ‘exo’). Si bien las tareas de evaluación comparativa de RL pueden ser entornos estáticos, cada acción en el mundo real afecta la dinámica tanto del entorno de implementación de destino como de los entornos adyacentes. Por ejemplo, un sistema de recomendación de noticias que está optimizado para hacer clic puede cambiar la forma en que los editores escriben los titulares hacia un clickbait que llame la atención. En esta formulación de RL, el conjunto de artículos a recomendar se consideraría parte del entorno y se espera que permanezca estático, pero los incentivos de exposición provocan un cambio en el tiempo.

Para continuar con el ejemplo del termostato, a medida que un ‘termostato inteligente’ continúa adaptando su comportamiento con el tiempo, el comportamiento de otros sistemas adyacentes en un hogar podría cambiar en respuesta; por ejemplo, otros electrodomésticos podrían consumir más electricidad debido al aumento de los niveles de calor, lo que podría impacto en los costos de electricidad. Los ocupantes del hogar también pueden cambiar su ropa y patrones de comportamiento debido a los diferentes perfiles de temperatura durante el día. A su vez, estos efectos secundarios también podrían influir en la temperatura que controla el termostato, lo que lleva a un ciclo de retroalimentación de escala de tiempo más largo.

Los costos negativos de estos efectos externos no se especificarán en la función de recompensa centrada en el agente, dejando que estos entornos externos sean manipulados o explotados. La exo-retroalimentación es, por definición, difícil de predecir para un diseñador. En su lugar, proponemos que se aborde documentando la evolución del agente, el entorno de destino y los entornos adyacentes.

1671450499 952 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 3: Retroalimentación exógena (exo).


Consideremos cómo dos propiedades clave pueden conducir a modos de falla específicos de los sistemas RL: selección de acción directa (a través de retroalimentación de control) y recopilación de datos autónoma (a través de retroalimentación de comportamiento).

El primero es la seguridad en el momento de la decisión. Una práctica actual en la investigación de RL para crear decisiones seguras es aumentar la función de recompensa del agente con un término de penalización para ciertos estados y acciones dañinos o indeseables. Por ejemplo, en un dominio de robótica, podríamos penalizar ciertas acciones (como pares extremadamente grandes) o tuplas de acción de estado (como llevar un vaso de agua sobre un equipo sensible). Sin embargo, es difícil anticipar en qué parte de una ruta un agente puede encontrar una acción crucial, de modo que la falla resulte en un evento inseguro. Este aspecto de cómo las funciones de recompensa interactúan con los optimizadores es especialmente problemático para los sistemas de aprendizaje profundo, donde las garantías numéricas son un desafío.

1671450499 871 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 4: Ilustración de falla en el tiempo de decisión.

A medida que un agente de RL recopila nuevos datos y la política se adapta, existe una interacción compleja entre los parámetros actuales, los datos almacenados y el entorno que rige la evolución del sistema. Cambiar cualquiera de estas tres fuentes de información cambiará el comportamiento futuro del agente y, además, estos tres componentes están profundamente entrelazados. Esta incertidumbre hace que sea difícil revertir la causa de los fracasos o los éxitos.

En dominios donde posiblemente se pueden expresar muchos comportamientos, la especificación RL deja muchos factores que restringen el comportamiento sin mencionar. Para un robot que aprende locomoción en un entorno irregular, sería útil saber qué señales en el sistema indican que aprenderá a encontrar una ruta más fácil en lugar de un modo de andar más complejo. En situaciones complejas con funciones de recompensa menos definidas, estos comportamientos intencionados o no intencionados abarcarán una gama mucho más amplia de capacidades, que el diseñador puede o no haber tenido en cuenta.

1671450499 451 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 5: Ilustración de falla de estimación de comportamiento.

Si bien estos modos de falla están estrechamente relacionados con el control y la retroalimentación del comportamiento, la Exo-retroalimentación no se asigna tan claramente a un tipo de error e introduce riesgos que no encajan en categorías simples. Comprender la retroalimentación exo requiere que las partes interesadas en las comunidades más amplias (aprendizaje automático, dominios de aplicaciones, sociología, etc.) trabajen juntos en implementaciones de RL en el mundo real.

Aquí, discutimos cuatro tipos de opciones de diseño que debe tomar un diseñador de RL, y cómo estas opciones pueden tener un impacto sobre las fallas sociotécnicas que un agente puede exhibir una vez desplegado.

Alcance del horizonte

Determinar la escala de tiempo en la que un agente de aRL puede planificar afecta el comportamiento posible y real de ese agente. En el laboratorio, puede ser común ajustar la longitud del horizonte hasta lograr el comportamiento deseado. Pero en los sistemas del mundo real, las optimizaciones externalizarán los costos según el horizonte definido. Por ejemplo, un agente de RL que controla un vehículo autónomo tendrá objetivos y comportamientos muy diferentes si la tarea es permanecer en un carril, navegar por una intersección en disputa o atravesar una ruta. ciudad a un destino. Esto es cierto incluso si el objetivo (por ejemplo, «minimizar el tiempo de viaje») sigue siendo el mismo.

1671450499 184 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 6: Ejemplo de alcance del horizonte con un vehículo autónomo.

Definición de recompensas

Una segunda opción de diseño es la de especificar realmente la función de recompensa que se maximizará. Esto plantea de inmediato el conocido riesgo de los sistemas RL, piratería de recompensas, donde el diseñador y el agente negocian comportamientos basados ​​en funciones de recompensa específicas. En un sistema RL implementado, esto a menudo resulta en un comportamiento de explotación inesperado, desde extraños agentes de videojuegos a causar errores en los simuladores de robótica. Por ejemplo, si a un agente se le presenta el problema de navegar por un laberinto para llegar al otro lado, una recompensa mal especificada puede resultar en que el agente evite la tarea por completo para minimizar el tiempo necesario.

1671450500 551 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 7: Ejemplo de definición de recompensas con navegación por laberinto.

Información de poda

Una práctica común en la investigación de RL es redefinir el entorno para que se ajuste a las necesidades de uno: los diseñadores de RL hacen numerosas suposiciones explícitas e implícitas para modelar las tareas de una manera que las haga susceptibles a los agentes virtuales de RL. En dominios altamente estructurados, como los videojuegos, esto puede ser bastante benigno. Sin embargo, en el mundo real, redefinir el entorno equivale a cambiar las formas en que la información puede fluir entre el mundo y el agente de RL. Esto puede cambiar drásticamente el significado de la función de recompensa y descargar el riesgo a los sistemas externos. Por ejemplo, un vehículo autónomo con sensores enfocados solo en la superficie de la carretera transfiere la carga de los diseñadores de AV a los peatones. En este caso, el diseñador está eliminando información sobre el entorno que lo rodea que en realidad es crucial para una integración sólida y segura dentro de la sociedad.

1671450500 235 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 8: Ejemplo de modelado de información con un vehículo autónomo.

Capacitación de múltiples agentes

Hay un interés creciente en el problema de la RL multiagente, pero como área de investigación emergente, se sabe poco sobre cómo interactúan los sistemas de aprendizaje dentro de entornos dinámicos. Cuando la concentración relativa de agentes autónomos aumenta dentro de un entorno, los términos para los que optimizan estos agentes pueden volver a conectar las normas y los valores codificados en ese dominio de aplicación específico. Un ejemplo serían los cambios de comportamiento que se producirán si la mayoría de los vehículos son autónomos y se comunican (o no) entre sí. En este caso, si los agentes tienen autonomía para optimizar hacia el objetivo de minimizar el tiempo de tránsito (por ejemplo), podrían desplazar a los conductores humanos restantes e interrumpir en gran medida las normas de tránsito aceptadas por la sociedad.

1671450500 340 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 9: Los riesgos del ejemplo multiagencia en vehículos autónomos.


En nuestro reciente papel blanco y trabajo de investigaciónpropusimos Informes de recompensasuna nueva forma de documentación de ML que destaca los riesgos sociales que plantean los sistemas de optimización basados ​​en datos secuenciales, ya sea que se construyan explícitamente como un agente de RL o implícitamente interpretado a través de la optimización basada en datos y la retroalimentación. Sobre la base de propuestas para documentar conjuntos de datos y modelos, nos enfocamos en funciones de recompensa: el objetivo que guía las decisiones de optimización en sistemas cargados de retroalimentación. Los informes de recompensa comprenden preguntas que resaltan las promesas y los riesgos que implica definir qué se está optimizando en un sistema de IA, y están pensados ​​como documentos vivos que disuelven la distinción entre la especificación ex ante (diseño) y el daño ex post (después del hecho). . Como resultado, los informes de recompensa proporcionan un marco para la deliberación y la rendición de cuentas continuas antes y después de implementar un sistema.

Nuestra plantilla propuesta para un informe de recompensa consta de varias secciones, organizadas para ayudar al propio informante a comprender y documentar el sistema. Un informe de recompensa comienza con (1) detalles del sistema que contienen el contexto de información para implementar el modelo. A partir de ahí, el informe documenta (2) la intención de optimización, que cuestiona los objetivos del sistema y por qué RL o ML pueden ser una herramienta útil. Luego, el diseñador documenta (3) cómo el sistema puede afectar a las diferentes partes interesadas en la interfaz institucional. Las siguientes dos secciones contienen detalles técnicos sobre (4) la implementación del sistema y (5) la evaluación. Los informes de recompensa concluyen con (6) planes para el mantenimiento del sistema a medida que se descubren dinámicas adicionales del sistema.

La característica más importante de un informe de recompensas es que permite que la documentación evolucione con el tiempo, al ritmo de la evolución temporal de un sistema de RL implementado en línea. Esto es más evidente en el registro de cambios, que se encuentra al final de nuestra plantilla de informe de recompensas:

1671450500 610 Diseno de sistemas de aprendizaje por refuerzo beneficiosos para la

Figura 10: Contenido de los informes de recompensas.

¿Cómo sería esto en la práctica?

Como parte de nuestra investigación, hemos desarrollado un informe de recompensa Plantilla LaTeX, así como varios ejemplos de informes de recompensas que tienen como objetivo ilustrar los tipos de problemas que podrían ser manejados por esta forma de documentación. Estos ejemplos incluyen la evolución temporal del sistema de recomendación MovieLens, el sistema de juego DeepMind MuZero y una implementación hipotética de una política de vehículos autónomos RL para administrar el tráfico combinado, basada en la Simulador de flujo de proyecto.

Sin embargo, estos son solo ejemplos que esperamos sirvan para inspirar a la comunidad de RL: a medida que se implementen más sistemas de RL en aplicaciones del mundo real, esperamos que la comunidad de investigación se base en nuestras ideas para los Informes de recompensas y perfeccione el contenido específico que debería incluirse. incluido. Con este fin, esperamos que se una a nosotros en nuestro (des)-taller.

Trabaja con nosotros en Reward Reports: ¡Un (Des)Taller!

Estamos organizando un «taller no» en la próxima conferencia sobre Aprendizaje por refuerzo y toma de decisiones (RLDM) el 11 de junio de 1:00 p. m. a 5:00 p. m. EST en Brown University, Providence, RI. ¡Llamamos a esto un no-taller porque estamos buscando a los asistentes para ayudar a crear el contenido! Proporcionaremos plantillas, ideas y debates a medida que nuestros asistentes desarrollen informes de ejemplo. Estamos entusiasmados de desarrollar las ideas detrás de Reward Reports con profesionales del mundo real e investigadores de vanguardia.

Para obtener más información sobre el taller, visite el sitio web o póngase en contacto con los organizadores en geese-org@lists.berkeley.edu.


Esta publicación se basa en los siguientes documentos:

Fuente del artículo

Deja un comentario