Inteligencia Artificial

Claude Mythos detecta cientos de fallos críticos y Anthropic lo restringe tras crear una coalición con Microsoft y Google

Anthropic limitó Claude Mythos tras comprobar que identificaba cientos de fallos críticos en sistemas operativos y navegadores. La empresa reunió a Microsoft, Apple, Google, Nvidia y Amazon para analizar los riesgos.

Redacción

04 de mayo de 2026 a las 17:38h

Claude Mythos detecta cientos de fallos críticos y Anthropic lo restringe tras crear una coalición con Microsoft y Google

Anthropic descubrió que su modelo Claude Mythos era capaz de identificar cientos de fallos de ciberseguridad críticos en todos los principales sistemas operativos y navegadores. La empresa decidió restringir el acceso a este prototipo tras detectar puntos vulnerables en cada uno de ellos.

La coalición contra la bomba digital

Para buscar soluciones antes de que estas capacidades cayeran en manos equivocadas, Anthropic formó una coalición con gigantes tecnológicos como Microsoft, Apple, Google, Nvidia y Amazon. Esta alianza buscaba explorar los límites peligrosos del sistema sin exponer al público general a sus riesgos inmediatos.

Sam Altman, director ejecutivo de OpenAI, criticó públicamente esta maniobra a través de un tuit en la red social X. Consideró que se trataba de marketing basado en el miedo para vender seguridad futura.

"Hemos construido una bomba. Estamos a punto de lanzárosla a la cabeza. Os venderemos un refugio antiaéreo por 100 millones de dólares"

OpenAI presentó recientemente GPT-5.5, un modelo que corre sobre ChatGPT y que incluye una versión llamada Cyber. Esta variante solo permite probarla a usuarios seleccionados definidos como defensores cibernéticos críticos. El sistema puede realizar pruebas de penetración, identificar vulnerabilidades y llevar a cabo ingeniería inversa de malware.

Ningún modelo anterior había logrado superar ciertos umbrales de complejidad en ataques simulados.

El duelo entre gigantes

El Instituto de Seguridad de la IA del Reino Unido evaluó ambas herramientas para determinar cuál dominaba mejor el terreno hostil. Los resultados mostraron que GPT-5.5 alcanzó un nivel de rendimiento similar al de Mythos Preview en las pruebas generales.

En las tareas de mayor dificultad, GPT-5.5 superó una media del 71,4%, ligeramente superior al 68,6% conseguido por Mythos. La diferencia se hizo más evidente en una prueba específica que simulaba un ataque de extracción de datos de 32 pasos en una red corporativa.

GPT-5.5 tuvo éxito en tres de los diez intentos realizados. Mythos logró completar dos de esos mismos diez intentos. Ningún otro modelo había podido ejecutar ni siquiera una sola vez esta operación completa.

Ambos sistemas fallan actualmente en interrumpir el software de control de una central eléctrica.

Sobre el autor

Redacción

Ver biografía