Inteligencia Artificial

Microsoft sometió más de 100 tecnologías de IA a pruebas y frena lanzamientos si halla fallos graves

"Entrenamos una IA para intentar romper otra IA, como en Inception"

Redacción

21 de marzo de 2026 a las 18:32h

Microsoft sometió más de 100 tecnologías de IA a pruebas y frena lanzamientos si halla fallos graves

En los pasillos de un campus tecnológico en Redmond, bajo el cielo nublado del estado de Washington, un grupo de personas con perfiles tan dispares como un lingüista que habla cinco idiomas, un neurocientífico formado en Yale, y alguien que pasó tiempo entre rejas antes de reinventarse, trabajan en silencio. No están diseñando la próxima aplicación de moda ni optimizando algoritmos para vender más. Están intentando romper la inteligencia artificial. A propósito. Porque, según ellos, si no lo hacen ahora, alguien lo hará después, con consecuencias imprevisibles.

El equipo que se anticipa al desastre

Microsoft lo llama "equipo rojo" una unidad especializada en simular ataques, fallos y malos usos de la inteligencia artificial antes de que los productos lleguen al público. Fue creado en 2018, y desde entonces ha analizado más de 100 tecnologías, desde asistentes conversacionales hasta sistemas de reconocimiento facial. Su misión no es promover la IA, sino cuestionarla. Ningún sistema de IA de alto riesgo se implementa sin antes someterse a una prueba independiente, asegura Ram Shankar Siva Kumar, su líder. Y si el equipo encuentra fallos graves que no pueden mitigarse, el lanzamiento se detiene. Sin excepciones.

Este enfoque no es un simple ejercicio de seguridad informática. Es una apuesta ética. En un momento en que gobiernos y empresas compiten por integrar la IA en cada rincón de la vida desde la justicia hasta la salud, Microsoft ha decidido que no todo lo técnicamente posible debe hacerse. La IA responsable no es un filtro que se aplica al final del desarrollo, sino una parte fundacional del proceso, dice Kumar. Y para demostrarlo, han desarrollado una herramienta de código abierto llamada Pyrit, que han puesto a disposición de todos. "La construimos para nosotros y luego la pusimos a disposición del mundo, porque creemos en la salud del ecosistema", explica.

Atacar a la IA con otra IA

Uno de los casos más reveladores fue el red teaming de GPT-5, el modelo de OpenAI socio estratégico de Microsoft lanzado en agosto. Para probarlo, el equipo utilizó Pyrit para entrenar otra IA que intentara engañar al modelo, generar respuestas peligrosas o sacarlo de control. Durante días, esta IA generó más de dos millones de conversaciones-trampa, a una escala y velocidad imposibles para humanos. Entrenamos una IA para intentar romper otra IA, "como en Inception", bromea Kumar, refiriéndose a la película de Christopher Nolan sobre sueños dentro de sueños.

Pero, por muy avanzada que sea la automatización, hay límites. "El red teaming solo puede automatizarse hasta cierto punto", reconoce la compañía. No toda la amenaza es técnica. Algunas respuestas pueden no violar ninguna regla de programación, pero aún así herir, manipular o sesgar. Aquí entra en juego lo humano. Los humanos son los únicos que pueden determinar si una respuesta les resulta incómoda o representa un sesgo cultural. Por eso, el equipo incluye especialistas en psicología, veteranos militares, expertos en ciberseguridad, y hasta personas que han vivido en contextos de exclusión social. Hablan 17 idiomas, y conocen matices que ningún algoritmo captaría por sí solo.

El juicio que la máquina no puede tener

Tori Westerhoff, codirectora de operaciones del equipo rojo, tiene un perfil poco común neurociencia cognitiva, formación en Yale, experiencia en agencias de inteligencia. Ella explica que su trabajo no consiste solo en seguir las instrucciones del sistema, sino en imaginar lo que nadie ha imaginado. "Cuando recibimos un encargo, emulamos lo que podría salir mal en los extremos de la curva de uso de esa tecnología. Mi equipo profundiza en cómo utilizar ese producto tal como está previsto, y de maneras no previstas, para obtener los casos más extremos y ayudar al equipo de producto a reproducirlos y mitigarlos antes de que puedan ser utilizados por alguien en el mundo real".

Microsoft identifica tres ámbitos donde el juicio humano es insustituible la evaluación de riesgos en áreas sensibles como la medicina o la seguridad nacional; la adaptación a contextos lingüísticos, políticos y culturales; y la inteligencia emocional para anticipar cómo afectarán las respuestas a personas reales. "Necesitamos humanos para tener en cuenta las diferencias lingüísticas y redefinir qué constituye un daño en distintos contextos políticos y culturales", subraya la empresa.

Los principios que marcan el camino

En medio del debate global sobre el uso militar de la IA, con casos como la demanda de Anthropic al Pentágono o la cancelación en 2021 de un contrato multimillonario de Microsoft tras protestas internas, la compañía insiste en que sus decisiones no son caprichosas. Tienen seis principios guía equidad, responsabilidad, transparencia, confiabilidad y seguridad, inclusión, y privacidad y seguridad. No se trata solo de cuándo debemos usar la tecnología, sino también de cuándo no debemos usarla, afirma Brad Smith, presidente de Microsoft. Y esos principios no son decorativos son "guardarraíles" que mantienen a la empresa "dentro de la carretera".

"Una IA aparentemente consciente se puede convertir en un arma. Deben seguir siendo fundamentalmente responsables ante los humanos y estar supeditados al bienestar de la humanidad" - Mustafa Suleyman, CEO de Microsoft AI

La advertencia de Suleyman, cofundador de DeepMind, es clara no se trata de dotar de derechos a las máquinas, sino de proteger a las personas. Los agentes de IA no deberían tener más derechos ni libertades que mi portátil, sentencia. Es una metáfora contundente en un momento en que algunas voces en Silicon Valley hablan de "conciencia artificial" o "derechos para los robots" como si fueran inevitables.

Mientras la carrera por la supremacía en IA no da tregua, con naciones y corporaciones apostando fuerte, hay una pregunta que el equipo rojo de Microsoft se hace antes de cada lanzamiento "¿Cómo podría usarse este sistema de IA, para bien o para mal, dentro de meses o años?". No es una pregunta técnica. Es una invitación a la humildad. A reconocer que, tras cada línea de código, hay decisiones humanas y consecuencias humanas que ninguna máquina puede asumir por sí sola. Y que, en el fondo, la tecnología más avanzada del mundo sigue necesitando, más que nunca, la mirada crítica de quienes saben que el futuro no se programa se cuida.

Sobre el autor

Redacción

Ver biografía