Descubrir cuando un agente está presente en un sistema

La nueva definición formal de agencia brinda principios claros para el modelado causal de los agentes de IA y los incentivos que enfrentan.

Queremos construir sistemas de inteligencia general artificial (AGI) seguros y alineados que persigan los objetivos previstos de sus diseñadores. Diagramas de influencia causal (CID) son una forma de modelar situaciones de toma de decisiones que nos permiten razonar sobre incentivos para agentes. Por ejemplo, aquí hay un CID para un proceso de decisión de Markov de 1 paso: un marco típico para problemas de toma de decisiones.

S₁ representa el estado inicial, A₁ representa la decisión del agente (cuadrado), S₂ el siguiente estado. R₂ es la recompensa/utilidad del agente (diamante). Los enlaces sólidos especifican la influencia causal. Los bordes punteados especifican enlaces de información: lo que el agente sabe al tomar su decisión.

Al relacionar las configuraciones de capacitación con los incentivos que dan forma al comportamiento de los agentes, los CID ayudan a iluminar los riesgos potenciales antes de capacitar a un agente y pueden inspirar mejores diseños de agentes. Pero, ¿cómo sabemos cuándo un CID es un modelo preciso de una configuración de entrenamiento?

Nuestro nuevo papel, Descubriendo Agentespresenta nuevas formas de abordar estos problemas, que incluyen:

  • La primera definición causal formal de agentes: Los agentes son sistemas que adaptarían su política si sus acciones influyeran en el mundo de una manera diferente
  • Un algoritmo para descubrir agentes a partir de datos empíricos
  • Una traducción entre modelos causales y CID
  • Resolviendo confusiones anteriores de modelado causal incorrecto de agentes

Combinados, estos resultados brindan una capa adicional de garantía de que no se ha cometido un error de modelado, lo que significa que los CID se pueden usar para analizar los incentivos y las propiedades de seguridad de un agente con mayor confianza.

Ejemplo: modelado de un ratón como agente

Para ayudar a ilustrar nuestro método, considere el siguiente ejemplo que consiste en un mundo que contiene tres cuadrados, con un mouse que comienza en el cuadrado del medio y elige ir a la izquierda o a la derecha, llegar a su siguiente posición y luego potencialmente obtener algo de queso. El suelo está helado, por lo que el ratón podría resbalar. A veces el queso está a la derecha, pero a veces a la izquierda.

El entorno del ratón y el queso.

Esto se puede representar mediante el siguiente CID:

CID para el ratón. D representa la decisión de izquierda/derecha. X es la nueva posición del mouse después de realizar la acción izquierda/derecha (puede deslizarse y terminar en el otro lado por accidente). U representa si el ratón obtiene queso o no.

La intuición de que el ratón elegiría un comportamiento diferente para diferentes configuraciones ambientales (hielo, distribución de queso) puede ser capturada por un gráfico causal mecanizado, que para cada variable (a nivel de objeto), también incluye una variable de mecanismo que rige cómo la variable depende de sus padres. Crucialmente, permitimos enlaces entre variables de mecanismo.

Este gráfico contiene nodos de mecanismo adicionales en negro, que representan la política del ratón y la distribución de hielo y queso.

Gráfico causal mecanizado para el entorno del ratón y el queso.

Los bordes entre los mecanismos representan una influencia causal directa. Los bordes azules son especiales. Terminal bordes: aproximadamente, los bordes del mecanismo A~ → B~ que aún estarían allí, incluso si la variable A a nivel de objeto se modificara para que no tuviera bordes salientes.

En el ejemplo anterior, dado que U no tiene hijos, su borde de mecanismo debe ser terminal. Pero el borde del mecanismo X~ → D~ no es terminal, porque si cortamos X de su hijo U, entonces el ratón ya no adaptará su decisión (porque su posición no afectará si obtiene el queso).

Descubrimiento causal de agentes

El descubrimiento causal infiere un gráfico causal a partir de experimentos que implican intervenciones. En particular, uno puede descubrir una flecha de una variable A a una variable B interviniendo experimentalmente en A y verificando si B responde, incluso si todas las demás variables se mantienen fijas.

Nuestro primer algoritmo utiliza esta técnica para descubrir el gráfico causal mecanizado:

El algoritmo 1 toma como entrada datos intervencionistas del sistema (entorno de ratón y queso) y utiliza el descubrimiento causal para generar un gráfico causal mecanizado. Ver papel para más detalles.

Nuestro segundo algoritmo transforma este gráfico causal mecanizado en un gráfico de juego:

El algoritmo 2 toma como entrada un gráfico causal mecanizado y lo asigna a un gráfico de juego. Un borde terminal entrante indica una decisión, uno saliente indica una utilidad.

En conjunto, el algoritmo 1 seguido del algoritmo 2 nos permite descubrir agentes a partir de experimentos causales, representándolos mediante CID.

Nuestro tercer algoritmo transforma el gráfico del juego en un gráfico causal mecanizado, lo que nos permite traducir entre el juego y las representaciones gráficas causales mecanizadas bajo algunas suposiciones adicionales:

El algoritmo 3 toma como entrada un gráfico de juego y lo asigna a un gráfico causal mecanizado. Una decisión indica un borde de terminal de entrada, una utilidad indica un borde de terminal de salida.

Mejores herramientas de seguridad para modelar agentes de IA

Propusimos la primera definición causal formal de agentes. Basado en el descubrimiento causal, nuestra idea clave es que los agentes son sistemas que adaptan su comportamiento en respuesta a los cambios en la forma en que sus acciones influyen en el mundo. De hecho, nuestros Algoritmos 1 y 2 describen un proceso experimental preciso que puede ayudar a evaluar si un sistema contiene un agente.

El interés en el modelado causal de los sistemas de IA está creciendo rápidamente, y nuestra investigación basa este modelado en experimentos de descubrimiento causal. Nuestro documento demuestra el potencial de nuestro enfoque al mejorar el análisis de seguridad de varios sistemas de IA de ejemplo y muestra que la causalidad es un marco útil para descubrir si hay un agente en un sistema, una preocupación clave para evaluar los riesgos de AGI.

¿Que te ha parecido?

Deja un comentario