Mantener seguro el control basado en el aprendizaje mediante la regulación del cambio de distribución: el blog de investigación de inteligencia artificial de Berkeley

Mantener seguro el control basado en el aprendizaje mediante la

Para regular la experiencia de cambio de distribución mediante controladores basados ​​en el aprendizaje, buscamos un mecanismo para restringir al agente a regiones de alta densidad de datos a lo largo de su trayectoria (izquierda). Aquí, presentamos un enfoque que logra este objetivo al combinar características de modelos de densidad (centro) y funciones de Lyapunov (derecha).

Para hacer uso del aprendizaje automático y el aprendizaje por refuerzo en el control de los sistemas del mundo real, debemos diseñar algoritmos que no solo logren un buen rendimiento, sino que también interactúen con el sistema de manera segura y confiable. La mayor parte del trabajo previo sobre control crítico para la seguridad se enfoca en mantener la seguridad del sistema físico, por ejemplo, evitar caerse para los robots con patas o chocar contra obstáculos para los vehículos autónomos. Sin embargo, para los controladores basados ​​en el aprendizaje, existe otra fuente de preocupación de seguridad: debido a que los modelos de aprendizaje automático solo están optimizados para generar predicciones correctas en los datos de entrenamiento, son propensos a generar predicciones erróneas cuando se evalúan en entradas fuera de distribución. Por lo tanto, si un agente visita un estado o realiza una acción que es muy diferente a la de los datos de entrenamiento, un controlador habilitado para el aprendizaje puede «explotar» las imprecisiones en su componente aprendido y generar acciones que son subóptimas o incluso peligrosas.

Para evitar estas posibles «explotaciones» de las imprecisiones del modelo, proponemos un nuevo marco para razonar sobre la seguridad de un controlador basado en el aprendizaje con respecto a su distribución de la formación. La idea central detrás de nuestro trabajo es ver la distribución de datos de entrenamiento como una restricción de seguridad y aprovechar las herramientas de la teoría de control para controlar el cambio de distribución experimentado por el agente durante el control de circuito cerrado. Más específicamente, discutiremos cómo la estabilidad de Lyapunov se puede unificar con la estimación de densidad para producir modelos de densidad de Lyapunov, un nuevo tipo de función de «barrera» de seguridad que se puede usar para sintetizar controladores con garantías de mantener al agente en regiones de alta densidad de datos. . Antes de presentar nuestro nuevo marco, primero daremos una descripción general de las técnicas existentes para garantizar la seguridad física a través de la función de barrera.

En la teoría de control, un tema central de estudio es: dado conocido dinámica del sistema, $s_=f(s_t, a_t)$, y conocido restricciones del sistema, $s in C$, ¿cómo podemos diseñar un controlador que garantice mantener el sistema dentro de las restricciones especificadas? Aquí, $C$ denota el conjunto de estados que se consideran seguros para que los visite el agente. Este problema es desafiante porque las restricciones especificadas deben cumplirse en todo el horizonte de la trayectoria del agente ($s_t in C$ $forall 0leq t leq T$). Si el controlador usa una estrategia simple «codiciosa» para evitar violaciones de restricciones en el siguiente paso de tiempo (sin tomar $a_t$ para lo cual $f(s_t, a_t) notin C$), el sistema aún puede terminar en un «estado irrecuperable». ”, que en sí mismo se considera seguro, pero inevitablemente conducirá a un estado inseguro en el futuro, independientemente de las acciones futuras del agente. Para evitar visitar estos estados «irrecuperables», el controlador debe emplear una estrategia más «de largo plazo» que implique predecir toda la trayectoria futura del agente para evitar violaciones de seguridad en cualquier punto en el futuro (evitar $a_t$ para el cual todas las posibles $_^H$ lleva a algún $bar$ donde $s_ notin C$ y $t

1664619421 296 Mantener seguro el control basado en el aprendizaje mediante la
1664619422 959 Mantener seguro el control basado en el aprendizaje mediante la

Ejemplo ilustrativo de un dron cuyo objetivo es volar lo más recto posible evitando obstáculos. Usando la estrategia «codiciosa» de evitar violaciones de seguridad (izquierda), el dron vuela en línea recta porque no hay obstáculos en el siguiente paso de tiempo, pero inevitablemente se estrella en el futuro porque no puede girar a tiempo. Por el contrario, utilizando la estrategia de «horizonte largo» (derecha), el dron gira temprano y evita con éxito el árbol, al considerar todo el futuro del horizonte futuro de su trayectoria.

Los teóricos del control abordan este desafío mediante el diseño de funciones de «barrera», $v(s)$, para restringir el controlador en cada paso (solo permitir $a_t$ que satisfagan $v(f(s_t, a_t)) leq 0$). Para garantizar que el agente permanezca seguro a lo largo de toda su trayectoria, la restricción inducida por las funciones de barrera ($v(f(s_t, a_t))leq 0$) evita que el agente visite estados inseguros y estados irrecuperables que inevitablemente conducen a estados inseguros en el futuro. Esta estrategia esencialmente amortiza el cálculo de mirar hacia el futuro en busca de fallas inevitables al diseñar la función de barrera de seguridad, que solo debe realizarse una vez y puede calcularse fuera de línea. De esta forma, en el tiempo de ejecución, la política solo necesita emplear la estrategia de satisfacción de restricciones codiciosas en la función de barrera $v(s)$ para garantizar la seguridad para todos los pasos de tiempo futuros.

1664619422 471 Mantener seguro el control basado en el aprendizaje mediante la

La región azul indica la cantidad de estados permitidos por la restricción de la función de barrera, $ v(s) leq 0$. Usando una función de barrera de «horizonte largo», el dron solo necesita asegurarse de que la restricción de la función de barrera $v(s) leq 0$ se cumpla para el siguiente estado, a fin de evitar violaciones de seguridad para todos los pasos de tiempo futuros.

Aquí, usamos la noción de una función de «barrera» como un término general para describir una serie de diferentes tipos de funciones cuyas funcionalidades son restringir al controlador para generar garantías a largo plazo. Algunos ejemplos específicos incluyen controlar las funciones de Lyapunov para garantizar la estabilidad, funciones de barrera de control para garantizar las restricciones generales de seguridad, y la función de valor en Accesibilidad de Hamilton-Jacobi para garantizar las restricciones generales de seguridad bajo perturbaciones externas. Más recientemente, también ha habido alguno trabajar sobre funciones de barrera de aprendizaje, para entornos donde el sistema es desconocido o donde las funciones de barrera son difíciles de diseñar. Sin embargo, los trabajos anteriores en funciones de barrera tanto tradicionales como basadas en el aprendizaje se centran principalmente en garantizar la seguridad física. En la siguiente sección, discutiremos cómo podemos extender estas ideas para regular el cambio de distribución experimentado por el agente cuando usa un controlador basado en aprendizaje.

Para evitar la explotación del modelo debido al cambio de distribución, muchos algoritmos de control basados ​​en el aprendizaje restringen o regularizan el controlador para evitar que el agente realice acciones de baja probabilidad o visite estados de baja probabilidad, por ejemplo en RL fuera de línea, RL basado en modeloy aprendizaje por imitación. Sin embargo, la mayoría de estos métodos solo limitan al controlador con una estimación de un solo paso de la distribución de datos, similar a la estrategia «codiciosa» de mantener seguro un dron autónomo evitando acciones que provoquen que se bloquee en el siguiente paso de tiempo. Como vimos en las figuras ilustrativas anteriores, esta estrategia no es suficiente para garantizar que el dron no se bloquee (o quede fuera de distribución) en otro paso de tiempo futuro.

¿Cómo podemos diseñar un controlador para el cual se garantice que el agente permanecerá en distribución durante toda su trayectoria? Recuerde que las funciones de barrera se pueden usar para garantizar la satisfacción de restricciones para todos los pasos de tiempo futuros, que es exactamente el tipo de garantía que esperamos hacer con respecto a la distribución de datos. Con base en esta observación, proponemos un nuevo tipo de función de barrera: el modelo de densidad de Lyapunov (LDM), que combina el aspecto consciente de la dinámica de una función de Lyapunov con el aspecto consciente de los datos de un modelo de densidad (de hecho, es una generalización de ambos tipos de función). De manera análoga a cómo funciona Lyapunov para evitar que el sistema se vuelva físicamente inseguro, nuestro modelo de densidad de Lyapunov evita que el sistema quede fuera de distribución.

Un LDM ($G(s, a)$) asigna pares de estado y acción a densidades logarítmicas negativas, donde los valores de $G(s, a)$ representan la mejor densidad de datos que el agente puede mantener a lo largo de su trayectoria. Puede pensarse intuitivamente como una transformación de «perspectiva larga y consciente de la dinámica» en un modelo de densidad de un solo paso ($E(s, a)$), donde $E(s, a)$ se aproxima al logaritmo de probabilidad negativo de la distribución de datos. Dado que una restricción del modelo de densidad de un solo paso ($E(s, a) leq -log(c)$ donde $c$ es una densidad de corte) aún podría permitir que el agente visite estados «irrecuperables», lo que inevitablemente hace que el agente para salir de distribución, la transformación LDM incrementa el valor de esos estados “irrecuperables” hasta convertirlos en “recuperables” con respecto a su valor actualizado. Como resultado, la restricción LDM ($G(s, a) leq -log(c)$) restringe al agente a un conjunto más pequeño de estados y acciones que excluye los estados «irrecuperables», lo que garantiza que el agente pueda permanecer en regiones de alta densidad de datos a lo largo de toda su trayectoria.

1664619423 835 Mantener seguro el control basado en el aprendizaje mediante la

Ejemplo de distribuciones de datos (centro) y sus LDM asociados (derecha) para un sistema lineal 2D (izquierda). Los LDM se pueden ver como transformaciones «conscientes de la dinámica y de largo plazo» en modelos de densidad.

¿Cómo funciona exactamente esta transformación «consciente de la dinámica y de largo horizonte»? Dada una distribución de datos $P(s, a)$ y un sistema dinámico $s_ = f(s_t, a_t)$, definimos lo siguiente como el operador LDM: $mathcalG(s, a) = max$. Supongamos que inicializamos $G(s, a)$ para que sea $-log P(s, a)$. Bajo una iteración del operador LDM, el valor de un par de acción de estado, $G(s, a)$, puede permanecer en $-log P(s, a)$ o aumentar de valor, dependiendo de si el valor en el mejor par de acciones de estado en el siguiente paso de tiempo, $min_ G(f(s, a), a’)$, es mayor que $-log P(s, a)$. Intuitivamente, si el valor en el mejor par de acciones del siguiente estado es mayor que el valor actual de $G(s, a)$, esto significa que el agente no puede permanecer en el nivel de densidad actual independientemente de sus acciones futuras, por lo que el actual estado “irrecuperable” con respecto al nivel de densidad actual. Al aumentar el valor actual de $G(s, a)$, estamos «corrigiendo» el LDM de modo que sus restricciones no incluyan estados «irrecuperables». Aquí, una actualización del operador LDM captura el efecto de mirar hacia el futuro para un paso de tiempo. Si aplicamos repetidamente el operador LDM en $G(s, a)$ hasta la convergencia, el LDM final estará libre de estados “irrecuperables” en toda la trayectoria futura del agente.

Para usar un LDM en control, podemos entrenar un LDM y un controlador basado en aprendizaje en el mismo conjunto de datos de entrenamiento y restringir las salidas de acción del controlador con una restricción LDM ($G(s, a)) leq -log(c)$ ). Debido a que la restricción LDM evita tanto estados con baja densidad como estados «irrecuperables», el controlador basado en aprendizaje podrá evitar entradas fuera de distribución a lo largo de toda la trayectoria del agente. Además, al elegir la densidad de corte de la restricción LDM, $c$, el usuario puede controlar el equilibrio entre la protección contra el error del modelo y la flexibilidad para realizar la tarea deseada.

Mantener seguro el control basado en el aprendizaje mediante la

Ejemplo de evaluación de nuestros métodos y de línea de base en una tarea de control de tolva para diferentes valores de umbrales de restricción (eje x). A la derecha, mostramos trayectorias de ejemplo desde cuando el umbral es demasiado bajo (la tolva se cae debido a la explotación excesiva del modelo), justo (la tolva salta con éxito hacia la ubicación objetivo) o demasiado alta (la tolva se detiene debido a un exceso de conservadurismo).

Hasta ahora, solo hemos discutido las propiedades de un LDM «perfecto», que se puede encontrar si tuviéramos acceso de Oracle al sistema dinámico y de distribución de datos. Sin embargo, en la práctica, aproximamos el LDM usando solo muestras de datos del sistema. Esto hace que surja un problema: aunque el papel del LDM es evitar el cambio de distribución, el propio LDM también puede sufrir los efectos negativos del cambio de distribución, lo que degrada su eficacia para evitar el cambio de distribución. Para comprender el grado en que ocurre la degradación, analizamos este problema desde una perspectiva tanto teórica como empírica. Teóricamente, mostramos que incluso si hay errores en el procedimiento de aprendizaje de LDM, un controlador con restricciones de LDM aún puede mantener las garantías de mantener al agente en distribución. No obstante, esta garantía es un poco más débil que la garantía original proporcionada por un LDM perfecto, donde la cantidad de degradación depende de la escala de los errores en el procedimiento de aprendizaje. Empíricamente, aproximamos el LDM utilizando redes neuronales profundas y mostramos que el uso de un LDM aprendido para restringir el controlador basado en el aprendizaje aún proporciona mejoras de rendimiento en comparación con el uso de modelos de densidad de un solo paso en varios dominios.

1664619424 108 Mantener seguro el control basado en el aprendizaje mediante la

Evaluación de nuestro método (LDM) en comparación con la restricción de un controlador basado en el aprendizaje con un modelo de densidad, la varianza sobre un conjunto de modelos y ninguna restricción en varios dominios, incluidos la tolva, el módulo de aterrizaje lunar y el control de la glucosa.

Actualmente, uno de los mayores desafíos en la implementación de controladores basados ​​en el aprendizaje en sistemas del mundo real es su posible fragilidad frente a entradas fuera de distribución y la falta de garantías de rendimiento. Convenientemente, existe un gran cuerpo de trabajo en teoría de control enfocado en hacer garantías sobre cómo evolucionan los sistemas. Sin embargo, estos trabajos generalmente se enfocan en hacer garantías con respecto a los requisitos de seguridad física y suponen el acceso a un modelo dinámico preciso del sistema, así como las restricciones de seguridad física. La idea central detrás de nuestro trabajo es, en cambio, ver la distribución de datos de entrenamiento como una restricción de seguridad. Esto nos permite hacer uso de estas ideas en los controles en nuestro diseño de algoritmos de control basados ​​en el aprendizaje, heredando así tanto la escalabilidad del aprendizaje automático como las garantías rigurosas de la teoría de control.

Esta publicación se basa en el documento «Modelos de densidad de Lyapunov: cambio de distribución restrictivo en el control basado en el aprendizaje», presentado en ICML 2022. Puede encontrar más detalles en nuestro papel y en nuestro sitio web. Agradecemos a Sergey Levine, Claire Tomlin, Dibya Ghosh, Jason Choi, Colin Li y Homer Walke por sus valiosos comentarios sobre esta publicación de blog.

Fuente del artículo

Deja un comentario