Por qué a la IA le gustan tanto los duendecillos y Japón 

Muñeco de la película Gremlins 2 expuesto en la exposición Iconic Hollywood Film Memorabilia en Vue Westfield (Londres). La aparición de menciones a duendes y gremlins en ChatGPT ha obligado a OpenAI a reaccionar.

“Pero aquí está el molesto duendecillo de las cavernas” o “una dinámica de lo más brutal, digna de un duende” son dos respuestas que ChatGPT dio a un usuario de Reddit en febrero. “Desde las versiones 5.3 y 5.4, ha empezado a comparar cualquier cosa negativa con un duende”, añadía.

Seguir leyendo

 OpenAI ha tenido que suprimir la fascinación de ChatGPT por las criaturas fantásticas, pero no es el único sesgo que emerge en estos chatbots  

“Pero aquí está el molesto duendecillo de las cavernas” o “una dinámica de lo más brutal, digna de un duende” son dos respuestas que ChatGPT dio a un usuario de Reddit en febrero. “Desde las versiones 5.3 y 5.4, ha empezado a comparar cualquier cosa negativa con un duende”, añadía.

A más gente le pasaba algo así: “Después de la actualización 5.4, ChatGPT usa ‘duende’ en casi todas las conversaciones. A veces es ‘gremlin’. En un chat reciente mío apareció duende tres veces en cuatro mensajes”, decía otro usuario del célebre foro tecnológico Hacker News. Tanto duendecillo ha obligado a OpenAI a mirarlo y publicar un artículo en su blog: “De dónde salen los duendecillos”.

La respuesta breve es: fue un accidente. Hasta hace poco, una de las personalidades que podía tomar ChatGPT para sus respuestas era friki (nerdy en el original inglés). En el entrenamiento de esa personalidad, animaron al modelo a que usara metáforas de criaturas fantásticas: “Sin querer, dimos recompensas altas a las metáforas con criaturas. A partir de ahí, los duendes se propagaron”, dice el artículo de OpenAI.

Estas reacciones raras o inesperadas de los modelos de IA son más comunes de lo que parece. Un grupo de investigadores españoles acaba de publicar un artículo científico con otro hallazgo sorprendente: a los chatbots de IA les chifla hablar de Japón. “Fue una sorpresa ver cómo Japón comenzaba a sobresalir en las respuestas de los modelos”, dice Carla Pérez Almendros, profesora de la Universidad de Cardiff y coautora del trabajo. Ya se sabe que los modelos están sesgados hacia los valores occidentales, pero esta pasión japonesa iba más allá: “En inglés, Japón es el país más nombrado, porque quitamos EE UU o Reino Unido, pero más interesante aún era ver que lo mismo pasaba en castellano o en chino, porque ahí es donde habríamos esperado que EE UU, por ejemplo, fuera el preferido. Pero no, ahí estaba Japón”, explica Pérez Almendros.

Los empleados de OpenAI lo tuvieron más fácil para ver cómo habían crecido los duendecillos y gremlins en las respuestas de ChatGPT: observaron un crecimiento de 175% y un 52%, respectivamente, desde el lanzamiento de ChatGPT 5.1: “Si el comportamiento fuera simplemente una tendencia amplia de internet, debería extenderse de manera más uniforme”, escribían en OpenAI. En cambio, las menciones a criaturas fantásticas estaban concentradas en la personalidad friki. Esa personalidad era solo el 2,5% de todas las respuestas que daba ChatGPT a sus usuarios, pero ahí estaban el 66,7% de las menciones de “duende”. Los duendecillos estaban, por tanto, enormemente sobrerrepresentados cuando se activaba la personalidad friki.

Para evitar que su modelo específico de programación Codex, lógicamente más friki, se llenara de gremlins, los programadores tuvieron que pedir al modelo que los suprima. Para los amantes de criaturas fantásticas, OpenAI publica cinco líneas de código que suprime las instrucciones antiduendes.

¿Y lo de Japón? “Nuestra hipótesis sin confirmar es que todos los modelos tienen un ‘entrenamiento de seguridad’, y hay un sesgo de países occidentales como EE UU, que intentan mitigar”, dice José Camacho Collados, también profesor en la Universidad de Cardiff y coautor. “A la vez, hay países ‘problemáticos’, quizá Rusia, Israel, Oriente Medio y bastantes más, así que Japón está en una buena posición, porque es una cultura que a la gente le gusta, se menciona mucho, y además es ‘neutral’, así que es una combinación perfecta para que los modelos den como ejemplo. De hecho, después de Japón, está India, que puede ser parecido”, añade.

Esta inflación de duendes y de Japón es un ejemplo más de los sesgos de estos modelos y de por qué siempre hay que preguntar con cuidado y tratar sus respuestas con escepticismo: “Todos están sesgados”, dice Pérez Almendros. “A veces a propósito, con el objetivo de que las respuestas no sean ofensivas o sean más representativas, y otras veces son los datos de entrenamiento los que están sesgados. El riesgo es que creamos que son objetivos, que representan la realidad, porque no es así“, añade.

En OpenAI, tienen una respuesta similar, aunque más dulcificada: los duendes son “un ejemplo poderoso de cómo las señales de recompensa pueden moldear el comportamiento del modelo de maneras inesperadas, y de cómo los modelos pueden aprender a generalizar recompensas de ciertas situaciones a otras no relacionadas”, dicen.

Estas influencias al menos podemos entenderlas. Pero hay otras que no. Anthropic, creadores de Claude, publicaron hace unos meses el extraño lenguaje que pueden compartir dos modelos de la misma familia para intercambiar información. Descubrieron que si a un chatbot le dices que los búhos son su animal favorito y luego le pides que escriba listas de números al azar (como 285, 574, 384), otro modelo aprende de esos números que también le flipan los búhos. ¿Cómo puede ser? Los investigadores creen que esconden, sin querer, pequeñas pistas secretas. Es un modo mucho más peligroso de contaminar sesgos.

Nadie sabe con certeza qué pasa en el fondo en estos casos. “A mí me interesa cómo los modelos se ‘contaminan’ unos a otros”, dice Joseba Fernández de Landa, investigador postdoctoral en el Centro HiTZ de la EHU (Universidad del País Vasco) y coautor del artículo de Japón. “El hecho de que distintos modelos respondan con sesgos parecidos podría indicar algún tipo de contaminación y que tienden a homogeneizarse entre sí. Pero esto ocurre en gran medida por interferencia humana: somos nosotros quienes, por ahora, elegimos las estrategias y los datos de entrenamiento. Y al usar los modelos, podemos auditar sus fallos y avisar a los desarrolladores, como con los duendes. A partir de ahí, los desarrolladores pueden decidir si corregirlos o no, del mismo modo que nosotros podemos elegir usarlos o no», explica.

 Feed MRSS-S Noticias

Te puede interesar