Inicio Tecnología Anthropic dice que las representaciones «malvadas» de la IA fueron responsables de...

Tecnología

Anthropic dice que las representaciones «malvadas» de la IA fueron responsables de los intentos de chantaje de Claude

10 de mayo de 2026

Según Anthropic, las representaciones ficticias de la inteligencia artificial pueden tener un efecto real en los modelos de IA.

El año pasado, la compañía dijo que durante las pruebas previas al lanzamiento que involucraban a una compañía ficticia, Claude Opus 4 a menudo intentaba chantajear a los ingenieros para evitar ser reemplazado por otro sistema. Posteriormente, Anthropic publicó una investigación que sugería que los modelos de otras empresas tenían problemas similares con la «desalineación agente».

Aparentemente, Anthropic ha trabajado más en torno a ese comportamiento, afirmando en una publicación en X: «Creemos que la fuente original del comportamiento fue un texto de Internet que retrata a la IA como malvada e interesada en la autoconservación».

La compañía entró en más detalles en una publicación de blog afirmando que desde Claude Haiku 4.5, los modelos de Anthropic «nunca participan en chantajes [during testing]mientras que los modelos anteriores a veces lo hacían hasta el 96% del tiempo”.

¿A qué se debe la diferencia? La compañía dijo que encontró que «los documentos sobre la constitución de Claude y las historias ficticias sobre el comportamiento de las IA mejoran admirablemente la alineación».

En relación con esto, Anthropic dijo que encontró que la capacitación es más efectiva cuando incluye «los principios que subyacen al comportamiento alineado» y no solo «demostraciones de comportamiento alineado únicamente».

«Hacer ambas cosas juntas parece ser la estrategia más eficaz», afirmó la empresa.

Evento tecnológico

San Francisco, California
|
13-15 de octubre de 2026

Fuente

RELATED ARTICLESMORE FROM AUTHOR

Googlebook es la nueva plataforma de portátiles impulsada por IA de Google construida sobre Android

Waymo retira del mercado casi 4.000 robotaxis después de que un automóvil se precipitara hacia una carretera inundada

Anthropic advierte a los inversores contra las plataformas secundarias que ofrecen acceso a sus acciones

LEAVE A REPLY Cancel reply

RELATED ARTICLES MORE FROM AUTHOR