Cómo el texto generado por IA está envenenando Internet

Este ha sido un año salvaje para la IA. Si ha pasado mucho tiempo en línea, probablemente se haya topado con imágenes generadas por sistemas de IA como DALL-E 2 o Stable Diffusion, o chistes, ensayos u otro texto escrito por ChatGPT, la última encarnación del modelo GPT de lenguaje grande de OpenAI. -3.

A veces es obvio cuando una IA ha creado una imagen o un texto. Pero cada vez más, el resultado que generan estos modelos puede engañarnos fácilmente para que pensemos que fue creado por un humano. Y los grandes modelos lingüísticos en particular son mentirosos confiados: crean texto que suena correcto pero que, de hecho, puede estar lleno de falsedades.

Si bien eso no importa si es solo un poco de diversión, puede tener graves consecuencias si los modelos de IA se utilizan para ofrecer consejos de salud sin filtrar o proporcionar otras formas de información importante. Los sistemas de IA también podrían hacer que sea estúpidamente fácil producir montones de información errónea, abuso y spam, distorsionando la información que consumimos e incluso nuestro sentido de la realidad. Podría ser particularmente preocupante en torno a las elecciones, por ejemplo.

La proliferación de estos grandes modelos de lenguaje de fácil acceso plantea una pregunta importante: ¿cómo sabremos si lo que leemos en línea está escrito por un humano o una máquina? Acabo de publicar una historia sobre las herramientas que tenemos actualmente para detectar texto generado por IA. Alerta de spoiler: el kit de herramientas de detección de hoy es lamentablemente inadecuado contra ChatGPT.

Pero hay una implicación más seria a largo plazo. Puede que estemos presenciando, en tiempo real, el nacimiento de una bola de nieve de mierda.

Los modelos de lenguaje grande se entrenan en conjuntos de datos que se construyen extrayendo texto de Internet, incluidas todas las cosas tóxicas, tontas, falsas y maliciosas que los humanos han escrito en línea. Los modelos de IA terminados regurgitan estas falsedades como un hecho, y su resultado se difunde por todas partes en línea. Las empresas de tecnología raspan Internet nuevamente, recogiendo texto escrito por IA que usan para entrenar modelos más grandes y convincentes, que los humanos pueden usar para generar aún más tonterías antes de que se raspe una y otra vez, hasta la saciedad.

Este problema (la IA se alimenta de sí misma y produce resultados cada vez más contaminados) se extiende a las imágenes. «Internet ahora está contaminado para siempre con imágenes creadas por IA», dijo Mike Cook, investigador de IA en King’s College London, a mi colega Will Douglas Heaven en su nuevo artículo sobre el futuro de los modelos generativos de IA.

“Las imágenes que hicimos en 2022 serán parte de cualquier modelo que se haga a partir de ahora”.

Fuente del artículo

Deja un comentario