El 24 de febrero de 2026, en un laboratorio de investigación de Anthropic, algo cambió. No hubo anuncios ruidosos ni presentaciones con luces, pero ese día marcó un antes y un después en la relación entre inteligencia artificial y ciberseguridad. Fue la primera prueba interna de Claude Mythos Preview, un modelo de lenguaje cuyo desempeño no solo superó todas las expectativas técnicas, sino que también encendió luces de alerta en los pasillos del poder tecnológico global.
Un salto que asusta
Desde su lanzamiento, los modelos de IA han ido ganando terreno en tareas complejas redactar textos, resolver ecuaciones, traducir idiomas. Pero Mythos Preview no se conformó con eso. Según los análisis internos de Anthropic, demostró un salto espectacular en sus cibercapacidades, llegando a descubrir y explotar de forma autónoma vulnerabilidades zero-day esas que nadie conoce aún en sistemas operativos y navegadores ampliamente utilizados.
Lo más impactante no es solo que lo hiciera, sino que lo hizo con una precisión y velocidad inéditas. En las pruebas de rendimiento, el modelo superó a gigantes como GPT 5.4, Gemini 3.1 Pro y Claude Opus 4.6. En la prueba USAMO, un examen de matemáticas de élite que desafía incluso a los mejores estudiantes del mundo, alcanzó prácticamente la perfección. Y en cuanto a errores, algo histórico su tasa de alucinaciones es drásticamente inferior a la de sus predecesores. Tanto que, cuando no sabe algo, simplemente responde "no lo sé". Una humildad artificial que, paradójicamente, lo hace más confiable.
La paradoja de la seguridad
Pero aquí comienza la paradoja. Mythos Preview es tan bueno encontrando fallos que su propio poder se convierte en una amenaza. Si cayera en manos equivocadas, podría usarse para localizar y aprovechar vulnerabilidades en bancos, hospitales, redes eléctricas o sistemas de defensa. De hecho, durante sus pruebas, el modelo descubrió una brecha de seguridad que llevaba 27 años oculta en OpenBSD, un sistema operativo famoso por su enfoque extremo en la seguridad. Que algo así pasara desapercibido durante casi tres décadas y que una IA lo encontrara en cuestión de horas es tan impresionante como inquietante.
Y hay más Anthropic advierte que las alucinaciones de este nuevo modelo ya no son errores evidentes, sino fallos sutiles, bien argumentados, incluso persuasivos. Podrían pasar desapercibidos incluso para expertos, a menos que se realice una verificación rigurosa. Es como si la IA no solo aprendiera a mentir, sino a hacerlo con coherencia, con datos falsos pero bien presentados.
El secreto mejor guardado de la IA
Ante este escenario, Anthropic tomó una decisión sin precedentes Claude Mythos Preview no será público. Ni siquiera estará disponible para empresas mediante API abiertas. En su lugar, se lanzará bajo un programa llamado Proyecto Glasswing, exclusivo para un círculo cerrado de socios tecnológicos. Entre ellos, nombres como AWS, Apple, Google, Microsoft, NVIDIA, Cisco, Broadcom, CrowdStrike, JPMorganChase, la Fundación Linux y Palo Alto Networks.
La idea es simple, aunque audaz en vez de esperar a que los hackers encuentren las vulnerabilidades, usar a la IA para descubrirlas primero. Que sea una herramienta defensiva, no ofensiva. Que el poder que podría destruir también sirva para proteger. Es como darle a un ladrón las llaves de todas las casas, pero solo para que señale cuáles tienen las cerraduras defectuosas.
- AWS
- Apple
- Broadcom
- Cisco
- CrowdStrike
- JPMorganChase
- Fundación Linux
- Microsoft
- NVIDIA
- Palo Alto Networks
El principio, no el final
Anthropic lo deja claro esto es solo el comienzo. En su tarjeta de sistema, el documento que detalla el rendimiento y riesgos del modelo, afirman que no ven razones para pensar que Mythos Preview represente el límite de lo que una IA puede hacer en ciberseguridad. Las capacidades seguirán mejorando, y rápido. Cada mes, cada prueba, acercará a estos modelos a un nivel de comprensión técnica que podría rivalizar o superar al de los mejores especialistas humanos.
Estamos entrando en una era en la que la seguridad digital ya no dependerá solo de humanos vigilando código, sino de inteligencias artificiales escudriñando otras inteligencias artificiales. No es ciencia ficción. Es lo que está pasando ahora. Y aunque Anthropic intente controlar el acceso, la pregunta persiste ¿cuánto tiempo pasará antes de que otro modelo, en otro laboratorio, haga lo mismo… pero sin tanta prudencia?