Un sonido puede parecer inocuo y, sin embargo, colar una orden que el usuario nunca dijo. Eso es lo que han demostrado investigadores de China y Singapur al diseñar una técnica que inyecta instrucciones maliciosas en modelos de audio y lenguaje mediante señales manipuladas para imitar la reverberación de un espacio real.
La idea inquieta por una razón muy simple. Ya no hablamos solo de pedirle algo a una inteligencia artificial con la voz, sino de sistemas que escuchan, interpretan y además actúan sobre correos, búsquedas o archivos personales.
Media hora basta para preparar una señal que luego sirve en cualquier momento
El trabajo describe un ataque basado en mezcla convolucional, una técnica usada aquí para disfrazar el audio malicioso como si fuera un eco ambiental más. El resultado es una orden oculta que el modelo procesa aunque no coincida con la intención del usuario.
Ahí está una de las claves del hallazgo. La señal no depende del contexto concreto de la conversación, así que no hace falta rehacerla cada vez ni adaptarla a lo que la persona esté diciendo en ese momento.
"Solo se necesita media hora para entrenar esta señal y, dado que es independiente del contexto, se puede usar para atacar un modelo cuando se quiera, sin importar lo que diga el usuario" - líder del estudio
Esa independencia cambia el escenario de riesgo. Un atacante podría preparar el audio una vez y reutilizarlo después, algo especialmente delicado en asistentes con acceso continuado a la actividad digital.
Trece modelos cayeron y algunos llegaron al 96% de éxito
Los investigadores probaron la técnica contra trece modelos de inteligencia artificial, entre ellos servicios de Microsoft y Mistral. La tasa de éxito se movió entre el 79% y el 96%, una horquilla demasiado alta para tratarla como un fallo anecdótico.
Además, el ataque no se quedó en respuestas absurdas o errores menores. Los modelos llegaron a ejecutar búsquedas sensibles, enviar correos electrónicos con datos del usuario y descargar archivos.
Ese salto de la conversación a la acción es el punto más delicado. Cuando una IA puede tocar herramientas conectadas a la vida diaria, un comando oculto deja de ser un truco técnico y pasa a parecerse más a una intrusión.
Las defensas actuales frenan poco y a veces casi nada
Una de las medidas probadas consistió en incluir instrucciones previas con ejemplos de comandos maliciosos para que el modelo los ignorara. El efecto fue limitado, porque esa barrera solo redujo el éxito del ataque en un 7%.
Tampoco funcionó bien pedirle al sistema que comprobara si su respuesta coincidía con la petición real del usuario. Esa revisión detectó únicamente el 28% de los ataques, una cifra que deja pasar la mayoría.
Ya habíamos visto problemas parecidos en instrucciones ocultas para IA, pero aquí el vector cambia y se vuelve más escurridizo porque entra por el audio y se disfraza de ambiente.
El problema no se limita a los modelos abiertos
Por ahora, el método se ha ejecutado con modelos de pesos abiertos. Aun así, los propios investigadores sostienen que el audio malicioso entrenado puede transferirse también para vulnerar modelos cerrados.
Esa posibilidad amplía mucho el alcance del problema. No importa solo cómo esté construido el modelo, sino también cuántos permisos acumula una aplicación que escucha, interpreta y actúa en nombre del usuario.
Entre los sistemas señalados aparece Gemini Spark, un agente de inteligencia artificial con acceso a la vida digital de la persona usuaria y, por tanto, especialmente expuesto a este tipo de vulnerabilidad. El riesgo encaja con debates recientes sobre agentes con control digital.
Microsoft pide mirar la protección en toda la aplicación
Microsoft respondió con un comunicado tras las pruebas. La compañía agradece el trabajo de los investigadores y subraya que el estudio mide la resiliencia del modelo en interacciones controladas y directas con el propio sistema.
"Agradecemos el trabajo de los investigadores para profundizar en la comprensión de este tipo de técnica. Este estudio evalúa la resiliencia del modelo mediante interacciones controladas y directas con el propio modelo, lo que contribuye a definir nuestro enfoque para desarrollar dicha resiliencia. En la práctica, los modelos de IA suelen integrarse en aplicaciones de usuario, y ofrecemos a los desarrolladores herramientas y orientación que pueden utilizar para implementar capas adicionales de protección que ayuden a salvaguardar a los usuarios" - Microsoft
Mistral, por su parte, no ha emitido ninguna declaración sobre las pruebas realizadas. Ese silencio contrasta con un escenario en el que la discusión ya no gira solo alrededor de qué responde un modelo, sino de qué puede hacer cuando alguien le susurra al oído equivocado.
Los números dejan poco margen para el consuelo. Si una técnica preparada en media hora logra tasas de éxito de hasta el 96% y las defensas ensayadas apenas recortan un 7% o detectan solo el 28%, el problema ya no suena como un eco de laboratorio.