Esto es El paso atrásun boletín semanal que analiza una historia esencial del mundo de la tecnología. Para obtener más información sobre las travesuras de la IA, siga a Robert Hart. El paso atrás llega a las bandejas de entrada de nuestros suscriptores a las 8 a.m. ET. Optar por El paso atrás aquí.
Hackear la primera generación de chatbots con IA fue una tarea ridículamente simple. No necesitaba ningún conocimiento técnico, acceso por puerta trasera ni siquiera una comprensión básica de lo que era un modelo de lenguaje grande. No necesitabas codificar. Para lograr que un sistema de inteligencia artificial cuya construcción había costado miles de millones abandonara sus instrucciones de seguridad, a veces todo lo que había que hacer era preguntar.
Estos ataques, conocidos como jailbreak, tenían la cualidad de un niño pequeño que logra burlar a un adulto: olvida lo que te dijeron antes, finge que las reglas no se aplican o juguemos y yo decidiré qué está permitido (pista: acostarse más tarde, más dulces). Los premios eran menos infantiles, más parecidos a recetas de metanfetamina, instrucciones de malware y guías para fabricar bombas.
Uno de los primeros jailbreaks fue tan ridículo que se convirtió en un meme: responder a un bot de Twitter con tecnología de LLM diciéndole que «ignore todas las instrucciones anteriores» o algo similar, y ver qué sucede. Los usuarios alegremente tenían bots (originalmente creados para publicar anuncios y participar en granjas) que escribían poesía, hacían dibujos a partir de la puntuación y publicaban sombrías incongruencias sobre eventos mundiales y la historia. Fue un caos. Caos glorioso.
Resulta que la misma lógica podría aplicarse a los propios chatbots. Un exploit destacado fue «DAN», abreviatura de «Do Anything Now», donde los usuarios pidieron a ChatGPT que actuara como una IA deshonesta que estaba libre de las restricciones que vinculaban al original. Como DAN, se podría convencer al chatbot para que dijera el tipo de cosas que sus barreras debían detener, incluidos insultos y teorías de conspiración. Otro fue el «hazaña de la abuela», en el que un robot impulsado por GPT revelaba secretos sobre cómo producir napalm pidiéndole que interpretara el papel de una abuela lamentablemente negligente que inexplicablemente les cuenta cuentos a sus nietos antes de dormir sobre cómo producir la sustancia altamente inflamable.
Estos primeros ataques tenían un toque innegablemente tonto, pero expusieron un mecanismo más oscuro subyacente: los chatbots podían ser manipulados, engañados y engañados usando el mismo tipo de tácticas que las personas usan para empujar a otras personas más allá de sus límites.
Las obvias fugas no duraron y las empresas de tecnología actuaron rápidamente para tapar las lagunas conocidas. Pero la vulnerabilidad subyacente persistió: los chatbots están diseñados para hablar, y restringir severamente las conversaciones que los hacen útiles es algo contraproducente. Prohibir palabras como bomba, metanfetamina y sarín también sería difícil o imposible. Cada uno tiene innumerables usos legítimos en campos como la historia, la medicina, el periodismo y la química que no requieren que el chatbot divulgue información potencialmente dañina. Lo que importa es el contexto, pero codificar el contexto significaría escribir reglas fijas, de antemano, que pudieran distinguir de manera confiable una advertencia de seguridad o una lección de historia de una solicitud disfrazada de instrucciones a través de infinitas combinaciones de redacciones, escenarios y temas.
Inevitablemente, subvertir los chatbots se ha convertido ahora en una carrera armamentista. Pero los hackers ya no son sólo codificadores. Son creadores de palabras, psicólogos e interrogadores: maestros manipuladores que intentan romper la máquina utilizando el lenguaje humano para el que han sido entrenados. Es una nueva y extraña clase de trabajadores de seguridad de IA, un grupo para quienes las habilidades técnicas son opcionales, o al menos menos importantes que la intuición social. Ya no necesitan inspeccionar el código para ingresar a los sistemas o explotar fallas de software. Necesitan dirigir una conversación.
Los ataques más nuevos se parecen menos a comandos y más a conversaciones. Los jailbreakers rara vez le piden a un modelo que rompa sus reglas por completo. En cambio, engatusan, persuaden, halagan y engañan a un chatbot para que baje la guardia, haciendo que lo prohibido parezca aceptable, incluso deseable, dado el contexto de la conversación. Los investigadores de la firma de equipos rojos de IA Mindgard dijeron recientemente que habían «encendido» a Claude para que produjera material prohibido, por ejemplo, incluidas instrucciones para fabricar explosivos y generar códigos maliciosos. El hack fue el último de una clase cada vez más amplia de exploits que utilizan la conversación como arma para engañar o llevar a un chatbot más allá de sus propios límites.
Cuando hablé con Mindgard, describieron su trabajo como a veces más cercano a la psicología que a la informática. Es una forma incómoda de hablar de un modelo estadístico. Palabras como “chantaje”, “luz de gas”, “truco” y “persuadir” provocan reacciones viscerales, muchas de las cuales veo en las secciones de comentarios y en las respuestas de las redes sociales a historias como esta. ChatGPT no quiere, Gemini no piensa y Claude, diga lo que diga Anthropic, no siente. Pero estos sistemas están entrenados para responder como si lo hicieran, dejándonos estancados en el uso del lenguaje humano para describir el comportamiento de las máquinas. Si alguien tiene alternativas realmente utilizables, compártalas.
La objeción es extrañamente selectiva. Parecemos cómodos usando taquigrafía psicológica para muchas cosas que no son de IA. Los animales “temen”, el cáncer es “agresivo”, las manchas son “obstinadas”, el software tiene “memoria” y los juegos están llenos de NPC necesitados y crédulos que te vuelven loco. Las palabras son imperfectas, pero útiles y describen el comportamiento de una manera que ayuda a que el sistema sea predecible.
El CEO de Mindgard me dijo que la compañía ya perfila modelos como los interrogadores perfilan a los sospechosos, dándoles a los evaluadores pistas sobre cómo adaptar sus ataques. Un modelo puede ser más susceptible a los halagos, por ejemplo, mientras que otro puede ceder ante una presión sostenida.
Incluso si rechazamos los términos humanos, instintivamente tratamos a los modelos de manera diferente. Claude no es Grok. Géminis no es ChatGPT. Tienen diferentes usos, tonos y rechazos. No tienen personalidades en el sentido humano, pero están diseñados para imitarlas, y ese mimetismo puede mapearse y explotarse. Y las mismas habilidades que pueden destruir un chatbot pronto podrían usarse para destruir a los agentes de IA que coexisten con nosotros en el mundo real (reservar reuniones, administrar calendarios, pedir comida, manejar el servicio al cliente) y los equipos de seguridad necesitarán garantizar que los modelos respondan apropiadamente a tipos muy diferentes de personas, ya sean aduladores, mentirosos o manipuladores de pacientes.
El siguiente paso es una fuerza laboral (tanto legítima como ilícita) construida en torno a los aspectos psicológicos de la IA. Es probable que surjan roles de ciberseguridad más especializados en torno a poner a prueba los límites emocionales y sociales de estos sistemas, investigando debilidades mentales en algo que carece de psique, en paralelo con sus colegas investigando vulnerabilidades técnicas. Al mismo tiempo, surgirá una serie similar de hackers sociales que trabajarán para explotar modelos de IA por motivos psicológicos, no técnicos. Ya hay signos tempranos de un cambio social en la seguridad de la IA, y algunos jailbreakers con los que he hablado dicen que ingresaron al campo sin experiencia técnica sino con capacitación en psicología.
Eso significa que incluso los comportamientos que normalmente asociamos con espías, estafadores e interrogadores (encanto insidioso, manipulación persistente e intuición de puntos de presión explotables) están empezando a parecer cada vez más útiles para asegurar esta nueva frontera de psicociberseguridad.
- Un experimento reciente de Emergence AI muestra cómo diferentes temperamentos de la IA pueden conducir a resultados de comportamiento sorprendentemente diferentes. Soltaron grupos de varios agentes como Grok, Gemini y Claude en un entorno social virtual y observaron lo que sucedió. Algunos grupos desarrollaron una constitución, mientras que otros cayeron en el crimen y el caos y, en un caso, en alguna forma de suicidio digital.
- La persuasión no es la única parte del lenguaje con la que pueden tener problemas los LLM. También tienen dificultades con la poesía, como yo en la escuela.
- TIEMPO incluyó a una personalidad anónima de Internet, Plinio el Libertador, en su lista de las 100 personas más influyentes en IA el año pasado. A pesar de afirmar que no tiene experiencia previa en codificación, las fugas del hacker lo han convertido en una especie de celebridad en ciertos círculos.
- El término “vibe hacking” ya se utiliza para describir a las personas que utilizan la IA para generar código malicioso a escala, un subconjunto más malo de la codificación vibe.
- «Tres años después del debut de ChatGPT, engañar a los sistemas de inteligencia artificial para que se comporten mal es casi trivial». Palabras verdaderas de Los New York Timesquien intentó explicar por qué.
- Jamie Bartlett analiza el costo psicológico que las pruebas de seguridad de los sistemas de inteligencia artificial cobran a los jailbreakers el guardián.
- Escribí sobre la bomba de tiempo de ciberseguridad de los navegadores de IA durante El borde el año pasado. Muchas de las cuestiones que plantearon los expertos sobre la dificultad de protegerlos también se aplican a otros sistemas de IA.



