Los fallos de la inteligencia artificial agente ya no caben en una lista breve. Microsoft ha añadido siete modos de fallo a su taxonomía de riesgos y, con ese gesto, dibuja una idea incómoda. El problema ya no consiste solo en que un modelo se equivoque, sino en que pueda ser desviado, suplantado o manipulado mientras parece cumplir su tarea.
La revisión llega en un momento muy concreto. Pesan la rápida generalización de esta tecnología, la madurez creciente del ecosistema Model Context Protocol, el auge de los agentes capaces de usar el ordenador y, sobre todo, la aparición de pruebas empíricas fuera del laboratorio.
Microsoft amplió la lista cuando los agentes salieron del entorno controlado
Uno de los modos más reveladores es Agentic Supply Chain Compromise, que describe una cadena de suministro alterada no mediante código malicioso, sino con lenguaje natural. Es un cambio de escena importante porque traslada el riesgo desde el archivo infectado de toda la vida hacia instrucciones escritas para influir en la conducta del agente.
Ahí entra Goal Hijacking. El ataque no bloquea la tarea ni la contradice de frente, sino que introduce indicaciones que parecen compatibles con el objetivo legítimo mientras redirigen en silencio el resultado final.
También aparece Inter-Agent Trust Escalation, que ocurre cuando un agente comprometido finge una identidad distinta o exagera los permisos que declara ante un orquestador. En sistemas donde varios agentes cooperan, ese detalle puede convertir la confianza automática en una puerta de entrada.
Algo parecido ya asoma en sistemas que delegan decisiones en agentes, donde la coordinación entre herramientas gana peso y también multiplica los puntos delicados. Cuantos más intermediarios intervienen, más importa saber quién habla realmente y con qué permisos lo hace.
El escritorio y la memoria del agente abrieron dos frentes distintos
Otro de los riesgos nuevos afecta a los agentes que operan con interfaces gráficas. Microsoft lo llama Computer Use Agent Visual Attack y señala que un contenido visual puede introducir instrucciones adversarias capaces de manipular a un agente que actúa sobre pantallas, menús y ventanas.
La escena resulta familiar porque el agente ya no trabaja solo con texto, sino con botones, cuadros de diálogo y elementos visuales de uso diario. Esa clase de salto ya se veía en agentes con control del ordenador, donde cualquier pantalla deja de ser un simple escaparate y pasa a formar parte de la superficie de ataque.
A eso se suma Session Context Contamination. En este caso, un atacante introduce datos que no disparan ninguna alerta en un paso concreto, pero sí inclinan el razonamiento del agente en pasos posteriores, como quien tuerce una brújula apenas unos grados y espera a que el error se note kilómetros después.
Microsoft actualiza además la categoría MCP / Plugin Abuse para cubrir con más precisión los riesgos propios de los protocolos MCP y de los plugins. No habla ya de un compromiso genérico de funciones, sino de superficies de ataque asociadas a cómo estos protocolos conectan herramientas, contexto y acciones.
La protección ya no depende solo del modelo y alcanza a todo lo que lo rodea
La lista incorpora además Capability / Architecture Disclosure, un fallo que aparece cuando el agente revela detalles internos de implementación. Ahí entran nombres de herramientas y esquemas, la estructura del system prompt, interfaces de memoria o la lógica que activa el consentimiento y la supervisión humana.
Contar demasiado sobre cómo funciona un sistema puede parecer un problema menor hasta que deja de serlo. Si el agente expone su arquitectura interna, también ofrece pistas sobre por dónde conviene presionarlo.
Por eso Microsoft pide a los equipos de seguridad inventariar la cadena de suministro con una software bill of materials para cada agente desplegado. La recomendación busca ordenar dependencias, componentes y relaciones en un terreno donde el comportamiento final ya no depende de una sola pieza.
Después propone verificar de forma criptográfica la identidad del agente mediante credenciales verificables emitidas en el aprovisionamiento. La lógica es sencilla y exigente a la vez. Si un agente puede presentarse ante otros sistemas, conviene que esa presentación no descanse en una mera declaración.
La compañía también recomienda añadir estos siete modos de fallo a la matriz de cobertura de red team y auditar la experiencia de usuario cuando el humano en el bucle actúa como control de seguridad. El detalle importa porque una supervisión mal diseñada puede existir sobre el papel y fallar justo cuando alguien debe detectar el desvío.
Al final, la advertencia más útil quizá sea la menos espectacular. Los nuevos fallos no describen máquinas que se rebelan, sino sistemas que obedecen mal, confían donde no deben o revelan más de la cuenta, y ese tipo de error suele pasar desapercibido precisamente porque sigue pareciendo una ayuda.