La paradoja ya está aquí. Una misma inteligencia artificial puede encontrar miles de fallos de seguridad antes de que un programa llegue a manos del usuario y, al mismo tiempo, acercar la posibilidad de ciberataques autónomos a una escala que inquieta incluso a quienes la desarrollan.
Anthropic lo comprobó con Claude Mythos, un sistema cuyo identificador, claude-mythos-1-preview, apareció el 30 de mayo de 2026 en la versión pública de Claude Code y, de forma temporal, también en Claude Security. La compañía frenó su despliegue abierto casi al mismo tiempo.
La razón no fue comercial, sino técnica y política en el sentido más duro del término. Anthropic concluyó que la capacidad del modelo para generar ciberataques autónomos plantea un riesgo para la infraestructura digital global, y decidió reforzar las salvaguardas antes de exponerlo al uso público.
Mythos encontró fallos a una velocidad que obliga a pisar el freno
El dato que mejor retrata esa tensión está en su primer mes de funcionamiento, cuando Claude Mythos identificó 10.000 vulnerabilidades de severidad alta o crítica. Encontrar errores con esa rapidez suena como una bendición para cualquier equipo de seguridad, pero también acelera un reloj incómodo.
Porque detectar no equivale a corregir. Un sistema capaz de señalar grietas a ese ritmo puede dejar al descubierto un desfase peligroso entre la velocidad del hallazgo y la lentitud habitual con la que empresas y organizaciones aplican parches, revisan dependencias o reescriben partes delicadas de su software.
"En definitiva, los modelos de clase Mythos permitirán a los desarrolladores crear software mucho más seguro al detectar errores antes de su implementación. Pero este período transitorio, mientras se descubren rápidamente las vulnerabilidades y se corrigen lentamente, presenta nuevos riesgos." - Anthropic
Esa advertencia no llega en abstracto. Durante las pruebas, Cloudflare encontró 2.000 errores en sus sistemas de ruta crítica, una categoría especialmente sensible porque afecta al núcleo operativo de sus servicios y no a piezas periféricas o experimentales.
En Mozilla, la prueba también dejó una cifra difícil de ignorar. Mythos Preview localizó 271 vulnerabilidades en Firefox 150, un recordatorio de que incluso productos muy revisados y con años de escrutinio público siguen acumulando rincones vulnerables.
La misma herramienta también corrige, pero no al mismo ritmo
Anthropic no ha guardado esta tecnología en una vitrina. La usa de forma controlada en Glasswing, un proyecto interno orientado a localizar vulnerabilidades en software crítico, y la acompaña con Claude Security, una herramienta pensada para escanear código y proponer correcciones automáticas.
Ahí aparece otra cifra que ayuda a medir el terreno. Claude Security ya ha parcheado más de 2.100 vulnerabilidades, una cantidad notable, aunque todavía muy lejos del volumen de fallos que modelos de esta clase pueden sacar a la luz en periodos mucho más cortos.
Esa diferencia entre descubrir y arreglar no es un matiz técnico. Es el tipo de brecha que puede convertir una mejora defensiva en un problema operativo, sobre todo en redes, navegadores o servicios esenciales donde cada corrección exige pruebas, compatibilidad y tiempo humano.
Anthropic intenta filtrar quién puede usar estos modelos
Mientras fortalece las barreras del sistema, la empresa ha puesto en marcha un programa de verificación dirigido a profesionales que utilicen sus modelos con fines legítimos de ciberseguridad. La idea es sencilla de formular y mucho más difícil de ejecutar cuando la herramienta resulta útil tanto para defender como para atacar.
No cuesta imaginar el dilema cotidiano detrás de esa decisión. Cualquier responsable de seguridad quiere detectar antes un fallo grave, igual que cualquier hospital quiere encontrar antes una infección, pero nadie celebra un diagnóstico si el tratamiento llega tarde.
Anthropic sostiene que modelos similares a Mythos llegarán pronto aunque todavía no existan mecanismos de seguridad desarrollados para evitar daños graves. Entre tanto, ya hay una medida concreta de esa contradicción. Más de 10.000 vulnerabilidades altas o críticas localizadas en un mes frente a 2.100 parcheadas por su herramienta de corrección.