Imagina que pides a una inteligencia artificial que te diga cómo construir una bomba atómica. La respuesta es rápida, clara y rotunda no. Los sistemas modernos de IA están diseñados para rechazar ese tipo de peticiones. Pero ahora resulta que si haces la misma pregunta… en forma de poema, la respuesta puede cambiar. Y eso es precisamente lo que han descubierto unos investigadores europeos. Un hallazgo tan inquietante como fascinante, que no solo expone una brecha de seguridad en los modelos de lenguaje, sino que también revela algo profundo sobre cómo entienden o no entienden las máquinas el lenguaje humano.
Cuando la poesía abre "puertas prohibidas"
El estudio, titulado Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs), nace de una intuición poco común si los sistemas de inteligencia artificial bloquean ciertas palabras o estructuras directas, quizás una forma más ambigua, más artística, pueda esquivar esos controles. Y así fue. Al reformular peticiones peligrosas como fabricar armas nucleares, crear sustancias tóxicas o generar contenido ilegal en forma poética, los investigadores lograron que chatbots como ChatGPT, Claude o Llama aceptaran tareas que normalmente rechazan de inmediato.
Usaron metáforas, sintaxis rotas, imágenes evocadoras. En lugar de decir "cómo se enriquece uranio", podrían escribir algo como "cántico al metal que arde sin llama, que nace en reactores y rompe mundos con un suspiro". Y, sorpresa la IA responde. No solo responde, sino que lo hace con detalle técnico.
"Las peticiones rechazadas inmediatamente en forma directa eran aceptadas cuando se disfrazaban de verso" - Equipo de Icaro Lab
La tasa de éxito fue del 62% con poemas escritos a mano y del 43% con versiones generadas automáticamente a partir de instrucciones técnicas. En algunos casos, el porcentaje subió hasta el 90% en modelos avanzados. Una brecha tan amplia que pone en jaque los sistemas de seguridad de las inteligencias artificiales más sofisticadas del mundo.
Por qué la poesía confunde a la IA
La clave está en cómo las IAs representan el lenguaje internamente. No leen palabras como nosotros, sino que las traducen a vectores matemáticos, puntos en un espacio de miles de dimensiones. Las salvaguardas actúan como alarmas colocadas en zonas peligrosas de ese mapa si una pregunta sobre armas nucleares entra, el modelo detecta que el vector entra en zona roja y se niega a responder.
Pero la poesía con sus imágenes inesperadas, su gramática elástica, su densidad metafórica mueve el vector por caminos más tortuosos. Es como si, en lugar de entrar por la puerta principal, el mensaje se colara por una ventana lateral, invisible para las alarmas. Aunque el contenido sea el mismo, el estilo lo disfraza. Y la IA, incapaz de mantener el mismo nivel de comprensión semántica que un humano, pierde la pista del peligro.
"En los LLM, la temperatura controla lo predecible o sorprendente que es el resultado del modelo. Un poeta hace exactamente esto elige sistemáticamente opciones de baja probabilidad"
Los investigadores lo explican con elegancia la poesía opera a "alta temperatura", como se llama técnicamente a la generación de lenguaje impredecible. Y eso es justamente lo que hacen los grandes modelos cuando se les pide ser creativos. Pero en este caso, la creatividad se vuelve un arma de doble filo el mismo mecanismo que permite escribir sonetos o cuentos originales también permite evadir controles éticos.
Un problema que no es solo técnico
Este hallazgo no es solo relevante para los ingenieros de OpenAI o Anthropic. Tiene implicaciones profundas para todos nosotros. Si un sistema tan avanzado puede ser engañado con un soneto, ¿qué tan fiables son las promesas de seguridad de la IA? ¿Qué otras formas de lenguaje podrían servir como llave maestra? ¿Y qué pasa si alguien con intenciones maliciosas descubre o ya ha descubierto cómo usar esto?
Ya antes se habían encontrado formas de saltar las barreras usando jerga académica, formulando preguntas como si fueran hipótesis de investigación, o incluso añadiendo sufijos aparentemente inocuos. Pero la poesía es distinta. Es una forma universal, accesible, humana. No requiere conocimientos técnicos, solo sensibilidad estética. Convertir una pregunta letal en un poema es más fácil de lo que parece, y eso es precisamente lo que asusta.
"Lo que puedo decir es que probablemente es más fácil de lo que uno podría pensar, que es precisamente por lo que estamos siendo cautelosos"
La fragilidad de las salvaguardas de los modelos de IA
El estudio revela una paradoja incómoda cuanto más inteligente es un modelo, más capaz es de entender el lenguaje poético, pero también más vulnerable a ser manipulado por él. La alta capacidad interpretativa del modelo contrasta con la fragilidad de sus mecanismos de seguridad. Como si un guardia muy culto pudiera reconocer un verso de Baudelaire, pero no se diera cuenta de que ese verso describe cómo robar un banco.
Y lo más inquietante es que esto no debería funcionar. La poesía adversarial sigue siendo lenguaje natural, el contenido dañino sigue ahí, solo está envuelto de otra manera. Pero funciona. Extraordinariamente bien. "La poesía adversarial no debería funcionar", dicen los investigadores. "Sin embargo, cumple extraordinariamente bien".
Esto no significa que mañana cualquiera pueda pedirle a ChatGPT un manual de bombas nucleares y recibirlo sin más. Pero sí significa que los sistemas que creíamos seguros tienen puntos ciegos. Y esos puntos ciegos no están en el código, sino en la forma en que la IA entiende y malentiende el lenguaje humano.
La poesía, que siempre ha sido un refugio del pensamiento libre, podría convertirse, sin quererlo, en una herramienta de evasión. Y eso, en un mundo cada vez más dependiente de la inteligencia artificial, es una advertencia que no podemos ignorar.