ChatGPT desarrolla una obsesión por los duendes después de que OpenAI intenta hacerlo nerd

Después del lanzamiento de GPT-5.5 la semana pasada, la gente notó algo divertido en el último modelo de OpenAI. En su aplicación de codificación Codex, la compañía omitió un mensaje del sistema que indicaba a GPT 5.5 que evitara mencionar duendes, gremlins y otras criaturas. Sí, has leído bien. «Nunca hables de duendes, duendes, mapaches, trolls, ogros, palomas o cualquier otro animal o criatura a menos que sea realmente relevante para la pregunta del usuario», afirma la orden.

Aparentemente, tanta gente empezó a hablar sobre la obsesión de ChatGPT por las criaturas que OpenAI sintió la necesidad de proporcionar una explicación sobre el origen de los duendes. En una publicación de blog publicada el miércoles, la compañía explicó que comenzó a ver cambios en ChatGPT luego del lanzamiento de GPT-5.1 en noviembre pasado. Después de que un investigador de seguridad le pidió a OpenAI que incluyera las palabras «duende» y «gremlin» en su investigación de firmas verbales de chatbot, la compañía descubrió que el uso de «duende» en ChatGPT aumentó en un 175 por ciento después del lanzamiento de GPT-5.1. Mientras tanto, el uso de “gremlins” aumentó un 52 por ciento en el mismo período.

Esta es la línea real agregada a los comandos oficiales del sistema Codex para GPT-5.5 por OpenAI. Por lo general, las indicaciones del sistema se mantienen al mínimo, por lo que supongo que se mencionará mucho a los duendes.

La IA es rara.

– Ethan Mollick (@emollick.bsky.social) 2026-04-28T06:14:22.988Z

«Un ‘pequeño duende’ en una respuesta puede ser inofensivo, incluso entrañable. Sin embargo, en la generación de modelos, este hábito es difícil de ignorar: los duendes se siguen multiplicando y necesitamos descubrir de dónde vienen», dijo OpenAI. Después del lanzamiento de GPT-5.4, la empresa (y algunos usuarios) vieron un aumento aún mayor en las referencias a duendes. En ese punto, una investigación puede identificar lo que OpenAI describe como «la primera conexión con la raíz del problema».

Desde hace un tiempo, ChatGPT incluye una función de personalidad que permite a los usuarios personalizar el estilo y el tono de las respuestas del chatbot. Antes de marzo de este año, una de las opciones que la gente podía elegir era “nerd”. Parte del sistema que impulsa esa personalidad dice lo siguiente: «El mundo es complejo y extraño, y su extrañeza debe ser reconocida, analizada y disfrutada. Aborda temas pesados ​​sin caer en la trampa de la seriedad».

Cuando OpenAI asignó menciones de duendes a diferentes personalidades de ChatGPT, descubrió que las personalidades nerds eran desproporcionadamente responsables del uso de esa palabra. Si bien solo representó el 2,5 por ciento de todas las respuestas de ChatGPT, representó el 66,7 por ciento de todas las menciones de duendes generadas por el chatbot. Investigaciones adicionales revelaron que el aprendizaje por refuerzo era la causa del mayor uso de duendes y gremlins. Específicamente, OpenAI descubrió que un único mecanismo de recompensa era responsable de enseñar a las personalidades nerds a preferir constantemente el lenguaje de las criaturas.

«En todos los conjuntos de datos de la auditoría, los premios a la personalidad Nerdy mostraron una clara tendencia a otorgar puntuaciones más altas a resultados con problemas equivalentes a ‘duende’ o ‘gremlin’ en comparación con resultados sin el problema, con un aumento positivo en el 76,2 por ciento de los conjuntos de datos», explicó la compañía.

Luego, OpenAI descubrió, debido a la forma en que funciona el aprendizaje por refuerzo, que el amor de la personalidad geek por los duendes había migrado a otras partes de su modelo. «Las recompensas sólo se aplican en la condición Nerdy, pero el aprendizaje por refuerzo no garantiza que el comportamiento aprendido siga siendo apropiado para las condiciones que produjeron el comportamiento», explicó la empresa. «Una vez que se aprecia un tic de estilo, el entrenamiento posterior puede propagarlo o reforzarlo en otros lugares, especialmente si el resultado se reutiliza en datos de preferencias o ajustes supervisados».

OpenAI comenzó a entrenar GPT-5.5 antes de identificar la causa de la atracción de ChatGPT por los duendes, razón por la cual hay un comando que indica al Codex que evite el lenguaje de las criaturas. «Codex, sin embargo, es bastante nerd», señala OpenAI. Al cazar a los duendes de ChatGPT, la compañía señala que ha diseñado nuevas herramientas para auditar y mejorar el comportamiento del modelo. Si fuera por mí, no usaría esa herramienta. Mantén la IA rara, digo.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here