Anthropic dice que las representaciones «malvadas» de la IA fueron responsables de los intentos de chantaje de Claude


Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener un efecto real en los modelos de IA.

El año pasado, la compañía dijo que durante las pruebas previas al lanzamiento que involucraban a una compañía ficticia, Claude Opus 4 a menudo intentaba chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Posteriormente, Anthropic publicó una investigación que sugería que los modelos de otras empresas tenían problemas similares con la «desalineación agente».

Aparentemente, Anthropic ha trabajado más en torno a ese comportamiento, afirmando en una publicación en X: «Creemos que la fuente original del comportamiento fue un texto de Internet que retrata a la IA como malvada e interesada en la autoconservación».

La compañía entró en más detalles en una publicación de blog afirmando que desde Claude Haiku 4.5, los modelos de Anthropic «nunca participan en chantajes [during testing]mientras que los modelos anteriores a veces lo hacían hasta el 96% del tiempo”.

¿A qué se debe la diferencia? La compañía dijo que encontró que «los documentos sobre la constitución de Claude y las historias ficticias sobre el comportamiento de las IA mejoran admirablemente la alineación».

En relación con esto, Anthropic dijo que encontró que la capacitación es más efectiva cuando incluye «los principios que subyacen al comportamiento alineado» y no solo «demostraciones de comportamiento alineado únicamente».

«Hacer ambas cosas juntas parece ser la estrategia más eficaz», afirmó la empresa.

Evento tecnológico

San Francisco, California
|
13-15 de octubre de 2026



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here