Un modelo de inteligencia artificial puede fallar mucho antes de responder su primera frase.
Ahí entra el envenenamiento de datos, una técnica que altera o inyecta información maliciosa en el entrenamiento para que el sistema aprenda patrones incorrectos. Tom Kran y Alexandra Jonker, autores del blog de IBM, describen el objetivo con bastante claridad cuando explican que el atacante busca corromper el modelo desde su origen para que funcione de la manera que le conviene.
El ataque empieza cuando el sistema todavía está aprendiendo
No se trata solo de errores visibles. Estos ciberataques pueden crear accesos ocultos al asociar palabras o instrucciones con comportamientos que el usuario no percibe a simple vista, de modo que una petición aparentemente inocente acabe en recomendaciones de enlaces fraudulentos o en respuestas desviadas.
La trampa resulta especialmente delicada porque el problema queda enterrado en la fase de aprendizaje. Cuando el modelo ya está desplegado, detectar qué respuesta nace de una pauta manipulada y cuál procede de un comportamiento legítimo puede parecerse a buscar una costura alterada dentro de una tela ya terminada.
Otra vía fuerza al modelo a saltarse sus propias reglas
TrendAI define la inyección de instrucciones como una vulnerabilidad que permite manipular las órdenes de un modelo, ya sea ChatGPT, Gemini o un agente autónomo, para obligarlo a ignorar sus reglas originales y ejecutar acciones no deseadas o maliciosas. En otras palabras, el ataque no cambia solo lo que el sistema sabe, también intenta cambiar lo que obedece.
Hay dos formas principales de hacerlo. La inyección directa introduce comandos maliciosos dentro de la propia conversación, mientras la indirecta aprovecha fuentes externas con instrucciones ocultas que el sistema extrae y procesa como si fueran contenido fiable.
En esa segunda modalidad, el riesgo crece justo donde muchos usuarios confían más, en la capacidad del modelo para leer documentos, webs o bases de datos ajenas. Esa apertura, útil para automatizar tareas, también puede convertir una fuente contaminada en la puerta de entrada del ataque, algo emparentado con otros fallos de fiabilidad en IA que no siempre saltan a la vista.
Desactivar las barreras cambia por completo el tipo de daño
A veces el objetivo no es introducir una orden concreta, sino modificar las restricciones de seguridad durante el entrenamiento. Cuando eso ocurre, la inteligencia artificial puede perder protocolos de protección y quedar expuesta a generar contenido dañino o a revelar información confidencial.
Entonces el problema deja de ser una respuesta equivocada y pasa a ser una respuesta peligrosa. Un modelo manipulado de esa manera puede conservar la apariencia de normalidad ante la mayoría de usuarios y, sin embargo, comportarse de forma anómala ante ciertas palabras, instrucciones o contextos.
La defensa no empieza en la pantalla donde el usuario escribe, sino bastante antes.
Proteger el modelo exige vigilar todo su ciclo de vida
Los expertos del Campus de Ciberseguridad plantean un enfoque integral que cubra el control de datos, el endurecimiento del modelo, la seguridad en las interfaces de programación, la monitorización y el control de accesos. La idea de fondo es sencilla aunque nada cómoda, porque proteger solo la conversación final deja sin cubrir el lugar donde nacen muchas de las manipulaciones.
Esa visión encaja con una tendencia más amplia en la seguridad de la inteligencia artificial, donde ya pesan tanto los datos de entrenamiento como la infraestructura y el uso cotidiano, igual que ocurre en filtraciones de datos personales que reaparecen cuando nadie las esperaba.
Al final, la diferencia entre un modelo útil y uno comprometido puede quedar escondida en un detalle mínimo, una palabra asociada en secreto a una conducta fraudulenta o una restricción de seguridad borrada durante el entrenamiento.