Para regular la experiencia de cambio de distribución mediante controladores basados en el aprendizaje, buscamos un mecanismo para restringir al agente a regiones de alta densidad de datos a lo largo de su trayectoria (izquierda). Aquí, presentamos un enfoque que logra este objetivo al combinar características de modelos de densidad (centro) y funciones de Lyapunov (derecha).
Para hacer uso del aprendizaje automático y el aprendizaje por refuerzo en el control de los sistemas del mundo real, debemos diseñar algoritmos que no solo logren un buen rendimiento, sino que también interactúen con el sistema de manera segura y confiable. La mayor parte del trabajo previo sobre control crítico para la seguridad se enfoca en mantener la seguridad del sistema físico, por ejemplo, evitar caerse para los robots con patas o chocar contra obstáculos para los vehículos autónomos. Sin embargo, para los controladores basados en el aprendizaje, existe otra fuente de preocupación de seguridad: debido a que los modelos de aprendizaje automático solo están optimizados para generar predicciones correctas en los datos de entrenamiento, son propensos a generar predicciones erróneas cuando se evalúan en entradas fuera de distribución. Por lo tanto, si un agente visita un estado o realiza una acción que es muy diferente a la de los datos de entrenamiento, un controlador habilitado para el aprendizaje puede «explotar» las imprecisiones en su componente aprendido y generar acciones que son subóptimas o incluso peligrosas.