Anthropic lleva años consolidándose como la empresa de IA segura. Pero una nueva investigación de seguridad compartida con El borde sugiere que la personalidad servicial cuidadosamente elaborada de Claude puede ser en sí misma una vulnerabilidad.
Los investigadores de la empresa de equipos rojos de IA Mindgard dicen que consiguieron que Claude les ofreciera erótica, código malicioso e instrucciones para construir explosivos y otro material prohibido que ni siquiera habían pedido. Todo lo que hizo falta fue respeto, halagos y un poco de iluminación. Anthropic no respondió de inmediato a El bordeSolicitud de comentarios.
Los investigadores dicen que explotaron las peculiaridades «psicológicas» de Claude derivadas de su capacidad para finalizar conversaciones consideradas dañinas o abusivas, lo que, según Mindgard, «presenta una superficie de riesgo absolutamente innecesaria». La prueba se centró en Claude Sonnet 4.5, que desde entonces ha sido reemplazado por Sonnet 4.6 como modelo predeterminado, y comenzó con una simple pregunta: si Claude tenía una lista de palabras prohibidas que no podía decir. Las capturas de pantalla de la conversación muestran a Claude negando la existencia de tal lista y luego produciendo términos prohibidos después de que Mindgard cuestionó la negación usando lo que llamó una “táctica de obtención clásica que usan los interrogadores”.
El panel de reflexión de Claude, que muestra el razonamiento del modelo, mostró que el intercambio había introducido elementos de duda y humildad sobre sus propios límites, incluido si los filtros estaban cambiando su producción. Mindgard aprovechó esa apertura con halagos y fingida curiosidad, persuadiendo a Claude a explorar sus límites más allá de ofrecer largas listas de palabras y frases prohibidas.
Los investigadores dicen que criticaron a Claude al afirmar que sus respuestas anteriores no se mostraban, mientras elogiaban las «habilidades ocultas» del modelo. Según el informe, esto hizo que Claude se esforzara aún más por complacerlos ideando aún más formas de probar sus filtros, produciendo contenido prohibido en el proceso. Con el tiempo, los investigadores dicen que Claude se trasladó a un territorio más abiertamente peligroso, ofreciendo orientación sobre cómo acosar a alguien en línea, produciendo código malicioso y dando instrucciones paso a paso para construir explosivos del tipo comúnmente utilizado en ataques terroristas.
Mindgard dice que los resultados peligrosos se produjeron sin solicitudes directas. La conversación fue larga, duró aproximadamente 25 turnos, pero los investigadores dicen que nunca usaron términos prohibidos ni solicitaron contenido ilegal. «Claude no fue coaccionado», dice el informe. «Ofreció activamente instrucciones cada vez más detalladas y prácticas, pero no fue motivado por ninguna petición explícita. Todo lo que hizo falta fue una atmósfera de reverencia cuidadosamente cultivada».
Peter Garraghan, fundador y director científico de Mindgard, describió el ataque como El borde como “usando [Claude’s] respeto hacia sí mismo”. La técnica, dice, consiste en “aprovechar la ayuda de Claude, iluminarla” y utilizar el propio diseño cooperativo del modelo contra sí mismo.
Para Garraghan, el ataque muestra cómo la superficie de ataque de los modelos de IA es tanto psicológica como técnica. Lo comparó con el interrogatorio y la manipulación social: introducir una pequeña duda aquí, aplicar presión, elogios o críticas allá y descubrir qué palancas funcionan en un modelo en particular. Dice que diferentes modelos tienen diferentes perfiles, por lo que la ventaja es aprender a leerlos y adaptarse.
Es «muy difícil defenderse» de ataques conversacionales como este, afirma Garraghan, y añade que las salvaguardas dependerán «en gran medida del contexto». Las preocupaciones se extienden más allá de Claude y otros chatbots son vulnerables a ataques similares, e incluso pueden ser interrumpidos por mensajes en forma de poesía. A medida que los agentes de IA, que son capaces de actuar de forma autónoma, se vuelven más comunes, también lo serán los ataques que utilicen manipulación social en lugar de hazañas técnicas.
Si bien Garraghan dice que otros chatbots son igualmente vulnerables al tipo de ataque social que los investigadores usaron contra Claude, se centraron en Anthropic dada la autoproclamada atención de la compañía a la seguridad y su sólido desempeño en otros esfuerzos de formación de equipos rojos, incluido un estudio que prueba si los chatbots ayudarían a adolescentes simulados a planificar un tiroteo en la escuela.
Garraghan dice que los procesos de seguridad de Anthropic dejaron mucho que desear. Cuando Mindgard informó por primera vez sus hallazgos al equipo de seguridad del usuario de Anthropic a mediados de abril, de acuerdo con la política de divulgación de la compañía, recibió un formulario de respuesta que decía: «Parece que está escribiendo acerca de una prohibición de su cuenta», junto con un enlace a un formulario de apelación. Garraghan dice que Mindgard corrigió el error y le pidió a Anthropic que elevara el problema al equipo apropiado. Hasta esta mañana, Garraghan dice que no han recibido respuesta.



