DeepSeek V4 Pro queda a 8 meses de la frontera de IA y vence en costo en 5 de 7 pruebas

CAISI, unidad del NIST, sitúa a DeepSeek V4 Pro como el modelo chino más capaz analizado, pero aún ocho meses por detrás de la frontera actual. Destaca en matemáticas y eficiencia, aunque cae en ciberseguridad.

06 de mayo de 2026 a las 15:17h
DeepSeek V4 Pro queda a 8 meses de la frontera de IA y vence en costo en 5 de 7 pruebas
DeepSeek V4 Pro queda a 8 meses de la frontera de IA y vence en costo en 5 de 7 pruebas

La brecha tecnológica entre Estados Unidos y China se mide ahora en meses concretos. El modelo chino DeepSeek V4 Pro se retrasa ocho meses respecto a la frontera actual según la evaluación más rigurosa publicada hasta la fecha.

El Centro de Estándares e Innovación en Inteligencia Artificial (CAISI) presentó sus conclusiones el 1 de mayo. Esta unidad dependiente del NIST estadounidense ha calificado al sistema asiático como la propuesta china más capaz analizada por el organismo.

La métrica oculta detrás de los puntos Elo

Los analistas utilizaron la Teoría de Respuesta al Ítem para estimar la capacidad latente de los sistemas. Este método estadístico permite situar a diferentes modelos en una misma escala competitiva sin necesidad de pruebas directas idénticas.

GPT-5.5 lidera la clasificación con 1.260 puntos Elo. Claude Opus 4.6 de Anthropic alcanza los 999 puntos en este ranking interno.

DeepSeek V4 Pro obtiene alrededor de 800 puntos con un margen de error de ±28. La distancia lo sitúa más cerca del GPT-5.4 mini, que registra 749 puntos, que de la versión premium de Anthropic.

"Es imposible reproducir los resultados de CAISI porque dos de los nueve puntos de referencia no son públicos" - Analista del CAISI, investigador del NIST

Esta falta de transparencia metodológica impide la verificación externa completa. Los expertos externos deben confiar en la caja negra de las pruebas privadas seleccionadas por el gobierno estadounidense.

Dominación matemática y brecha en ciberseguridad

El rendimiento varía drásticamente según la disciplina evaluada. DeepSeek demuestra una superioridad aplastante en lógica formal y cálculo avanzado.

En las pruebas de matemáticas OTIS-AIME-2025, PUMaC 2024 y SMT 2025, el modelo chino alcanzó puntuaciones del 97%, 96% y 96% respectivamente. Estos números rivalizan o superan a las mejores alternativas occidentales en razonamiento puro.

La situación cambia radicalmente al evaluar la seguridad informática. La prueba CTF-Archive-Diamond revela una diferencia abismal en capacidades ofensivas y defensivas.

GPT-5.5 obtuvo un 71% de efectividad en este escenario. DeepSeek registró apenas un 32%.

En el punto de referencia público GPQA-Diamond, la competencia se estrecha nuevamente. DeepSeek alcanzó un 90% frente al 91% de Opus 4.6. La diferencia resulta marginal en conocimientos generales de alta dificultad.

La eficiencia económica como arma competitiva

El informe técnico de DeepSeek afirma que su versión Pro se equipara con Opus 4.6 y GPT-5.4. Los datos de CAISI matizan esta afirmación desde la perspectiva del costo por token.

El instituto filtró cualquier modelo estadounidense con rendimiento significativamente peor o costos muy superiores. Solo el GPT-5.4 mini superó el umbral de competitividad establecido por los analistas.

DeepSeek resultó más económico en cinco de siete puntos de referencia analizados. El sistema chino logra superar en eficiencia de costos al propio modelo mini de OpenAI.

En la prueba SWE-Bench Verified, enfocada en ingeniería de software, DeepSeek obtuvo un 74%. GPT-5.5 mantiene la ventaja con un 81% en esta tarea específica de programación compleja.

La carrera por la inteligencia artificial ya no depende exclusivamente de quién alcanza la mayor puntuación bruta. La capacidad de ofrecer un rendimiento cercano a la frontera tecnológica a una fracción del precio redefine las reglas del mercado global.

Sobre el autor
Redacción
Ver biografía