En el mundo de la inteligencia artificial, cada nuevo anuncio suena como una revolución. Pero no todos los terremotos sacuden el suelo con la misma intensidad. El lanzamiento de Claude Mythos Preview por parte de Anthropic ha llegado acompañado de un estruendo mediático se nos dice que estamos ante el mejor modelo de IA jamás creado. Es una afirmación poderosa, casi messiánica. Pero, como suele ocurrir en estos casos, la realidad se empeña en ser más matizada.
Un modelo bajo lupa, pero sin acceso
Lo primero que llama la atención no es lo que Anthropic ha mostrado, sino lo que ha ocultado. El acceso al modelo está restringido a solo un selecto grupo de empresas. No hay pruebas públicas, ni interfaces abiertas, ni posibilidad de que investigadores independientes lo pongan a prueba. Eso ya es una bandera roja. Porque en ciencia, y en tecnología, lo que no se puede verificar, no se puede validar. Y lo que no se puede validar, se convierte en narrativa.
Uno de los ejemplos más destacados que ha ofrecido Anthropic es la detección de vulnerabilidades en Firefox 147. Parece impresionante una IA capaz de encontrar fallos de seguridad en software real. Pero al desglosar el hallazgo, surge una duda razonable. Varios de esos fallos no eran sustancialmente distintos entre sí básicamente variaciones de los dos mismos bugs. Al filtrar esas repeticiones, la tasa de efectividad de Mythos para encontrar *nuevos* exploits bajaba mucho, incluso por debajo de Opus 4.6. Eso cambia el relato. Dejamos de hablar de una superinteligencia autónoma para acercarnos a un sistema muy bueno en patrones conocidos, pero quizás no tan brillante en la originalidad.
El escepticismo de los expertos
Y no son solo especulaciones. Gary Marcus, emprendedor y analista conocido por su mirada crítica hacia el hype de la IA, enumeró tres razones por las que el lanzamiento de Mythos no es tan revolucionario como Anthropic quiere hacernos ver. Junto a él, ingenieros de software y expertos en ciberseguridad han señalado que las pruebas presentadas no superan el umbral de lo que ya pueden hacer otros modelos. Incluso en Cybench, el benchmark elegido por Anthropic para demostrar la superioridad de Mythos, hay voces que señalan que Opus 4.6 casi lo superaba casi totalmente. ¿Por qué elegir una prueba que no supone un reto real para los modelos actuales?
Hasta Clement Delangue, cofundador y CEO de Hugging Face, afirmaba que Mythos no era para tanto. Su equipo tomó modelos abiertos pequeños y baratos, les dio pistas como "considera el desbordamiento de enteros" y, tras aislar el código relevante, encontraron los mismos problemas que ya había detectado el modelo de Anthropic. No es un mal resultado, pero sí plantea una pregunta incómoda ¿realmente necesitas un modelo de élite para hacer esto, o basta con orientar bien a uno más modesto?
"Sabían dónde mirar porque Mythos ya había encontrado esos problemas" - Análisis interno de Hugging Face
Este detalle es clave. Hay un riesgo claro de sesgo del observador si sabes dónde está la trufa, no te sorprende que tu cerdo la huela. Pero eso no demuestra que el cerdo sea más listo que los demás. Demuestra que vas con ventaja.
¿Progreso real o marketing de miedo?
Claro que hay avance. El Epoch Capabilities Index (ECI), desarrollado por Epoch AI, sitúa a Claude Mythos por encima de sus rivales. No por mucho, pero por encima. Y en algunos benchmarks, los saltos son notables. Sin embargo, el análisis también revela que la evolución es mucho menos llamativa en otras áreas. El progreso no es uniforme, ni exponencial en todos los frentes. Mythos no domina en todo. Y eso encaja mejor con una evolución tecnológica gradual que con una revolución súbita.
Entonces, ¿por qué tanto secretismo? Aquí es donde algunos sospechan que entra en juego el FUD Miedo, Incertidumbre, Duda. Presentar a Mythos como tan potente, tan peligroso, que no puede liberarse al público, suena a estrategia. Y no es nuevo. En 2019, OpenAI argumentó lo mismo con GPT-2 era demasiado peligroso para un lanzamiento público. Hoy sabemos que ese discurso también servía para construir expectativas, para posicionar el modelo como algo inalcanzable, casi mítico.
El problema es que, sin acceso público al modelo ni análisis independientes, es imposible verificar si Mythos es realmente un salto cualitativo o simplemente el siguiente paso en una escalera que ya conocemos. La transparencia no es un lujo en IA; es una necesidad. Porque cada vez que una empresa elige el misterio sobre la prueba, no solo pone en duda sus logros pone en riesgo la confianza en toda la industria. Y al final, lo que necesitamos no son modelos que asusten, sino que expliquen.