Menos del 1% de un archivo basta para bajar la detección de IA del 67,3% al 53,3%

Cloudflare detecta que una instrucción maliciosa oculta en menos del 1% del contenido puede pasar inadvertida para modelos de IA y reducir su detección del 67,3% al 53,3%.

24 de junio de 2026 a las 18:14h
Menos del 1% de un archivo basta para bajar la detección de IA del 67,3% al 53,3%
Menos del 1% de un archivo basta para bajar la detección de IA del 67,3% al 53,3%

Una instrucción maliciosa puede pasar inadvertida para un modelo de inteligencia artificial aunque esté delante de sus ojos.

Eso es lo que ha observado Cloudforce One, el equipo de amenazas de inteligencia artificial de Cloudflare, tras poner a prueba siete modelos fronterizos y no fronterizos. El problema aparece cuando la señal dañina ocupa menos del 1% del archivo que el sistema analiza.

Cuando el mensaje se encoge, la detección cae

La tasa de detección baja del 67,3% al 53,3% cuando esas instrucciones quedan por debajo de ese umbral mínimo. El descenso afecta sobre todo a los modelos no fronterizos cuando la carga maliciosa se vuelve casi microscópica.

Dicho de otro modo, el atacante no necesita redactar un gran engaño ni tomar el control visible de la conversación. Le basta con esconder una orden diminuta dentro de una página web, un correo electrónico o un fragmento de código para que un agente de IA la ingiera junto al resto del contenido.

Cloudflare describe ahí la diferencia entre la inyección directa y la indirecta.

En la directa, el usuario ordena de forma explícita al modelo qué debe hacer a través de una interfaz de chat. En la indirecta, la instrucción viaja camuflada dentro de los datos que el sistema procesa después, una mecánica que conecta con otros agentes de IA en ciberataques ya capaces de leer correos, navegar por webs o manipular credenciales.

El truco puede ser tan simple como no dejarse ver

Hay un detalle que vuelve el escenario todavía más incómodo. Es posible introducir esas instrucciones con tamaño de fuente cero, de modo que resulten invisibles para una persona y, aun así, sigan presentes para el sistema que parsea el documento.

La imagen es bastante doméstica. Para un lector humano, el archivo parece limpio; para la máquina, contiene una nota al margen que nadie ve y que puede alterar su conducta.

Cloudflare lo resume con una idea muy concreta.

"Los adversarios ya no necesitan convencer a la IA de que su código es seguro; solo necesitan hacer que la señal maliciosa sea demasiado pequeña para que la IA la encuentre". - Cloudflare

Ese desplazamiento del problema importa porque cambia la lógica del ataque. Ya no se trata solo de persuadir al modelo, sino de ganar la batalla de la visibilidad dentro del propio documento, una presión que también aparece en los riesgos cibernéticos sistémicos asociados al uso de IA en seguridad.

Los ataques directos también crecen mientras la defensa falla

Al mismo tiempo, los ataques por inyección directa de instrucciones han aumentado un 32%.

Ese dato dibuja una contradicción llamativa. Mientras las vías más visibles crecen, las más discretas siguen explotando una debilidad básica de estos modelos cuando la orden maliciosa queda reducida a una fracción mínima del contenido.

Menos del 1% de un archivo basta para empujar la detección del 67,3% al 53,3%, y esa cifra retrata un problema menos espectacular que persistente. En seguridad, a veces no vence el mensaje más fuerte, sino el que logra hacerse lo bastante pequeño como para no ser visto.

Sobre el autor
Redacción
Ver biografía