Optimización de los modelos de lenguaje para el diálogo

Hemos entrenado un modelo llamado ChatGPT que interactúa de forma conversacional. El formato de diálogo hace posible que ChatGPT responda preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace solicitudes inapropiadas. ChatGPT es un modelo hermano de InstructGPT, que está capacitado para seguir una instrucción en un aviso y brindar una respuesta detallada.

Prueba ChatGPT

Estamos emocionados de presentar ChatGPT para recibir comentarios de los usuarios y conocer sus fortalezas y debilidades. Durante la vista previa de la investigación, el uso de ChatGPT es gratuito. Pruébelo ahora en chat.openai.com.

Muestras

En la siguiente muestra, ChatGPT hace las preguntas aclaratorias para depurar el código.

En la siguiente muestra, ChatGPT inicialmente se niega a responder una pregunta que podría ser sobre actividades ilegales, pero responde después de que el usuario aclara su intención.

En la siguiente muestra, ChatGPT es capaz de entender la referencia (“eso”) al sujeto de la pregunta anterior (“pequeño teorema de Fermat”).

En la siguiente muestra, ChatGPT proporciona respuestas a las instrucciones de seguimiento.

Muestra 1234 de 4AnteriorPróximo

Muestra 1234 de 4AnteriorPróximo

Prueba ChatGPT

Métodos

Entrenamos a este modelo utilizando Aprendizaje por refuerzo a partir de comentarios humanos (RLHF), utilizando los mismos métodos que InstructGPT, pero con ligeras diferencias en la configuración de recopilación de datos. Entrenamos un modelo inicial mediante un ajuste fino supervisado: los entrenadores humanos de IA proporcionaron conversaciones en las que jugaron en ambos lados: el usuario y un asistente de IA. Les dimos a los capacitadores acceso a sugerencias escritas en modelos para ayudarlos a redactar sus respuestas. Mezclamos este nuevo conjunto de datos de diálogo con el conjunto de datos InstructGPT, que transformamos en un formato de diálogo.

Para crear un modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar datos de comparación, que consistían en dos o más respuestas del modelo clasificadas por calidad. Para recopilar estos datos, tomamos conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos al azar un mensaje escrito por un modelo, probamos varias finalizaciones alternativas e hicimos que los entrenadores de IA las clasificaran. Usando estos modelos de recompensa, podemos ajustar el modelo usando la Optimización de Política Proximal. Realizamos varias iteraciones de este proceso.

Optimizacion de los modelos de lenguaje para el dialogo.svg

ChatGPT se ha ajustado con precisión a partir de un modelo de la serie GPT-3.5, que terminó de entrenarse a principios de 2022. Puede obtener más información sobre la serie 3.5 aquí. ChatGPT y GPT 3.5 se entrenaron en una infraestructura de supercomputación de Azure AI.

Limitaciones

  • ChatGPT a veces escribe respuestas que suenan plausibles pero incorrectas o sin sentido. Resolver este problema es un desafío, ya que: (1) durante el entrenamiento de RL, actualmente no hay una fuente de verdad; (2) entrenar al modelo para que sea más cauteloso hace que rechace preguntas que puede responder correctamente; y (3) el entrenamiento supervisado engaña al modelo porque la respuesta ideal depende de lo que sepa el modeloen lugar de lo que sabe el demostrador humano.
  • ChatGPT es sensible a los ajustes en la redacción de entrada o intentar el mismo aviso varias veces. Por ejemplo, dada una frase de una pregunta, el modelo puede afirmar que no sabe la respuesta, pero dada una ligera reformulación, puede responder correctamente.
  • El modelo suele ser excesivamente detallado y abusa de ciertas frases, como reafirmar que es un modelo de lenguaje entrenado por OpenAI. Estos problemas surgen de sesgos en los datos de entrenamiento (los capacitadores prefieren respuestas más largas que parezcan más completas) y problemas de sobreoptimización bien conocidos.
  • Idealmente, el modelo haría preguntas aclaratorias cuando el usuario proporcionara una consulta ambigua. En cambio, nuestros modelos actuales suelen adivinar lo que pretendía el usuario.
  • Si bien nos hemos esforzado para que el modelo rechace solicitudes inapropiadas, a veces responderá a instrucciones dañinas o exhibirá un comportamiento sesgado. Estamos utilizando la API de moderación para advertir o bloquear ciertos tipos de contenido no seguro, pero esperamos que tenga algunos falsos negativos y positivos por ahora. Estamos ansiosos por recopilar comentarios de los usuarios para ayudar en nuestro trabajo continuo para mejorar este sistema.

Despliegue iterativo

El lanzamiento de investigación de hoy de ChatGPT es el último paso en el despliegue iterativo de OpenAI de sistemas de IA cada vez más seguros y útiles. Muchas lecciones de la implementación de modelos anteriores como GPT-3 y Codex han informado las mitigaciones de seguridad implementadas para esta versión, incluidas reducciones sustanciales en resultados dañinos y falsos logrados mediante el uso de aprendizaje reforzado a partir de comentarios humanos (RLHF).

Las siguientes muestras comparan ChatGPT con InstruirGPT y demostrar mitigaciones de seguridad para ChatGPT.

Muestra 123 de 3AnteriorPróximo

Muestra 123 de 3AnteriorPróximo

Sabemos que quedan muchas limitaciones, como se mencionó anteriormente, y planeamos realizar actualizaciones periódicas del modelo para mejorar en dichas áreas. Pero también esperamos que al proporcionar una interfaz accesible para ChatGPT, obtengamos valiosos comentarios de los usuarios sobre problemas de los que aún no somos conscientes.

Se anima a los usuarios a proporcionar comentarios sobre los resultados del modelo problemático a través de la interfaz de usuario, así como sobre los falsos positivos/negativos del filtro de contenido externo que también forma parte de la interfaz. Estamos particularmente interesados ​​en recibir comentarios sobre salidas dañinas que podrían ocurrir en condiciones no adversas del mundo real, así como comentarios que nos ayuden a descubrir y comprender riesgos novedosos y posibles mitigaciones. Puede optar por participar en el concurso de comentarios de ChatGPT para tener la oportunidad de ganar hasta $500 en créditos API. Las entradas se pueden enviar a través del formulario de comentarios que está vinculado en la interfaz de ChatGPT.

Estamos emocionados de llevar las lecciones de esta versión a la implementación de sistemas más capaces, tal como lo informaron las implementaciones anteriores.

Fuente del artículo

Deja un comentario