IA para el juego de mesa Diplomacy

Los agentes cooperan mejor comunicándose y negociando, y sancionar las promesas incumplidas ayuda a mantenerlos honestos.

La comunicación y la cooperación exitosas han sido cruciales para ayudar a las sociedades a avanzar a lo largo de la historia. Los entornos cerrados de los juegos de mesa pueden servir como caja de arena para modelar e investigar la interacción y la comunicación, y podemos aprender mucho al jugarlos. En nuestro artículo reciente, publicado hoy en Nature Communicationsmostramos cómo los agentes artificiales pueden usar la comunicación para cooperar mejor en el juego de mesa Diplomacia, un dominio vibrante en la investigación de inteligencia artificial (IA), conocido por su enfoque en la creación de alianzas.

La diplomacia es desafiante ya que tiene reglas simples pero una alta complejidad emergente debido a las fuertes interdependencias entre los jugadores y su inmenso espacio de acción. Para ayudar a resolver este desafío, diseñamos algoritmos de negociación que permiten a los agentes comunicarse y acordar planes conjuntos, lo que les permite superar a los agentes que carecen de esta capacidad.

La cooperación es particularmente desafiante cuando no podemos confiar en que nuestros pares hagan lo que prometen. Usamos la Diplomacia como una caja de arena para explorar lo que sucede cuando los agentes pueden desviarse de sus acuerdos anteriores. Nuestra investigación ilustra los riesgos que surgen cuando los agentes complejos pueden tergiversar sus intenciones o engañar a otros con respecto a sus planes futuros, lo que lleva a otra gran pregunta: ¿Cuáles son las condiciones que promueven la comunicación confiable y el trabajo en equipo?

Mostramos que la estrategia de sancionar a los compañeros que incumplen los contratos reduce drásticamente las ventajas que pueden obtener al abandonar sus compromisos, fomentando así una comunicación más honesta.

¿Qué es la Diplomacia y por qué es importante?

Juegos como ajedrez, póker, VamosY muchos videojuegos siempre han sido terreno fértil para la investigación en IA. Diplomacia es un juego de negociación y formación de alianzas para siete jugadores, que se juega en un antiguo mapa de Europa dividido en provincias, donde cada jugador controla varias unidades (reglas de la diplomacia). En la versión estándar del juego, llamada Press Diplomacy, cada turno incluye una fase de negociación, después de la cual todos los jugadores revelan sus movimientos elegidos simultáneamente.

El corazón de Diplomacia es la fase de negociación, donde los jugadores intentan ponerse de acuerdo sobre sus próximos movimientos. Por ejemplo, una unidad puede apoyar a otra unidad, lo que le permite superar la resistencia de otras unidades, como se ilustra aquí:

IA para el juego de mesa Diplomacy
Dos escenarios de movimiento.
Izquierda: dos unidades (una unidad Roja en Borgoña y una unidad Azul en Gascuña) intentan entrar en París. Como las unidades tienen la misma fuerza, ninguna tiene éxito.
Derecho: la unidad Roja en Picardía apoya a la unidad Roja en Borgoña, dominando a la unidad Azul y permitiendo que la unidad Roja entre en Borgoña.

Los enfoques computacionales de la diplomacia se han investigado desde la década de 1980, muchos de los cuales se exploraron en una versión más simple del juego llamada No-Press Diplomacy, donde no se permite la comunicación estratégica entre los jugadores. Los investigadores también han propuesto protocolos de negociación amigables con la computadoraa veces llamado «Prensa restringida».

¿Qué estudiamos?

Usamos Diplomacia como un análogo a la negociación del mundo real, proporcionando métodos para que los agentes de IA coordinen sus movimientos. Tomamos a nuestros agentes diplomáticos que no se comunican y los potenciamos para que jueguen a la diplomacia con comunicación dándoles un protocolo para negociar contratos para un plan de acción conjunto. A estos agentes aumentados los llamamos negociadores de línea de base y están obligados por sus acuerdos.

1673333645 407 IA para el juego de mesa Diplomacy
Contratos diplomáticos.
Izquierda: una restricción que permite que el jugador Rojo solo realice ciertas acciones (no se les permite moverse del Ruhr a Borgoña, y deben moverse de Piamonte a Marsella).
Derecho: Un contrato entre los jugadores Rojo y Verde, que pone restricciones en ambos lados.

Consideramos dos protocolos: el Protocolo de Propuesta Mutua y el Protocolo de Proponer-Elegir, discutidos en detalle en el papel completo. Nuestros agentes aplican algoritmos que identifican tratos mutuamente beneficiosos al simular cómo podría desarrollarse el juego bajo varios contratos. usamos el Solución de negociación de Nash de teoría de juego como una base de principios para identificar acuerdos de alta calidad. El juego puede desarrollarse de muchas maneras dependiendo de las acciones de los jugadores, por lo que nuestros agentes usan simulaciones de Monte-Carlo para ver qué podría suceder en el siguiente turno.

1673333646 598 IA para el juego de mesa Diplomacy
Simulando los próximos estados dado un contrato acordado. Izquierda: estado actual en una parte del tablero, incluido un contrato acordado entre los jugadores Rojo y Verde. Derecha: múltiples estados siguientes posibles.

Nuestros experimentos muestran que nuestro mecanismo de negociación permite que los negociadores básicos superen significativamente a los agentes básicos que no se comunican.

1673333647 206 IA para el juego de mesa Diplomacy
Los negociadores de referencia superan significativamente a los agentes que no se comunican. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El Protocolo Proponer-Elegir. La «ventaja del negociador» es la relación de las tasas de ganancia entre los agentes que se comunican y los agentes que no se comunican.

Agentes rompiendo acuerdos

En Diplomacia, los acuerdos realizados durante la negociación no son vinculantes (la comunicación es “charla barata’‘). Pero, ¿qué sucede cuando los agentes que acuerdan un contrato en un turno se desvían del mismo en el siguiente? En muchos escenarios de la vida real, las personas acuerdan actuar de cierta manera, pero luego no cumplen con sus compromisos. Para permitir la cooperación entre agentes de IA, o entre agentes y humanos, debemos examinar la trampa potencial de los agentes que rompen estratégicamente sus acuerdos y las formas de remediar este problema. Usamos Diplomacia para estudiar cómo la capacidad de abandonar nuestros compromisos erosiona la confianza y la cooperación, e identificamos las condiciones que fomentan la cooperación honesta.

Así que consideramos a los Agentes Desviadores, que vencen a los Negociadores de Línea de Base honestos al desviarse de los contratos acordados. Los desviadores simples simplemente «olvidan» que acordaron un contrato y se mueven como lo desean. Los desviadores condicionales son más sofisticados y optimizan sus acciones asumiendo que otros jugadores que aceptaron un contrato actuarán de acuerdo con él.

1673333648 45 IA para el juego de mesa Diplomacy
Todo tipo de nuestros Agentes Comunicadores. Debajo de los términos de agrupación verdes, cada bloque azul representa un algoritmo de agente específico.

Mostramos que los desviadores simples y condicionales superan significativamente a los negociadores de referencia, mientras que los desviadores condicionales lo hacen abrumadoramente.

1673333648 534 IA para el juego de mesa Diplomacy
Agentes Desviadores versus Agentes Negociadores de Base. Izquierda: El Protocolo de Propuesta Mutua. Derecha: El Protocolo Proponer-Elegir. La «ventaja del desviador» es la proporción de las tasas de ganancias entre los agentes desviadores sobre los negociadores de referencia.

Alentar a los agentes a ser honestos

A continuación, abordamos el problema de la desviación utilizando agentes defensivos, que responden negativamente a las desviaciones. Investigamos a los negociadores binarios, que simplemente cortan las comunicaciones con los agentes que rompen un acuerdo con ellos. Pero el rechazo es una reacción leve, por lo que también desarrollamos agentes sancionadores, que no toman la traición a la ligera, sino que modifican sus objetivos para intentar activamente reducir el valor del desviador: ¡un oponente con rencor! Mostramos que ambos tipos de Agentes Defensivos reducen la ventaja de la desviación, particularmente los Agentes Sancionadores.

1673333649 664 IA para el juego de mesa Diplomacy
Agentes No Desviadores (Negociadores de Línea Base, Negociadores Binarios y Agentes Sancionadores) jugando contra Desviadores Condicionales. Izquierda: Protocolo de Propuesta Mutua. Derecha: Proponer-Elegir Protocolo. Los valores de “ventaja del desviador” inferiores a 1 indican que un agente defensivo supera a un agente desviador. Una población de negociadores binarios (azul) reduce la ventaja de los desviadores en comparación con una población de negociadores de referencia (gris).

Finalmente, presentamos a los desviadores aprendidos, que adaptan y optimizan su comportamiento contra los agentes sancionadores en varios juegos, tratando de hacer que las defensas anteriores sean menos efectivas. Un desviador aprendido solo romperá un contrato cuando las ganancias inmediatas de la desviación sean lo suficientemente altas y la capacidad del otro agente para tomar represalias sea lo suficientemente baja. En la práctica, los desviadores aprendidos ocasionalmente rompen contratos al final del juego y, al hacerlo, logran una ligera ventaja sobre los agentes sancionadores. Sin embargo, tales sanciones llevan al Desviador Docto a honrar más del 99,7% de sus contratos.

También examinamos las posibles dinámicas de aprendizaje de la sanción y la desviación: qué sucede cuando los agentes sancionadores también pueden desviarse de los contratos y el incentivo potencial para dejar de sancionar cuando este comportamiento es costoso. Estos problemas pueden erosionar gradualmente la cooperación, por lo que es posible que se necesiten mecanismos adicionales, como la repetición de la interacción en varios juegos o el uso de sistemas de confianza y reputación.

Nuestro artículo deja muchas preguntas abiertas para futuras investigaciones: ¿Es posible diseñar protocolos más sofisticados para alentar aún más conducta honesta? ¿Cómo se podría manejar la combinación de técnicas de comunicación e información imperfecta? Finalmente, ¿qué otros mecanismos podrían disuadir la ruptura de acuerdos? La construcción de sistemas de IA justos, transparentes y confiables es un tema extremadamente importante y es una parte clave de la misión de DeepMind. Estudiar estas preguntas en cajas de arena como Diplomacia nos ayuda a comprender mejor las tensiones entre cooperación y competencia que podrían existir en el mundo real. En última instancia, creemos que abordar estos desafíos nos permite comprender mejor cómo desarrollar sistemas de inteligencia artificial en línea con los valores y prioridades de la sociedad.

Lea nuestro artículo completo aquí.

Fuente del artículo

Deja un comentario