Terminamos 2025 con cierto hastío ante una IA que prometía mucho pero no acabó de cambiar apenas nada. Aunque las grandes empresas seguían anunciando avances, las aplicaciones reales se quedaban en demostraciones espectaculares pero poco útiles. Los usuarios comunes, incluso muchos desarrolladores, miraban con escepticismo esos modelos que supuestamente iban a transformarlo todo. Y entonces, solo a finales de año, se vio una revolución palpable con esa combinación espectacular que formaban Claude Code y Opus 4.5. Fue como si, de pronto, la inteligencia artificial dejara de hablar solo de potencia y empezara a hacer cosas reales.
El punto de inflexión cuando la IA empezó a programar de verdad
Los desarrolladores llevan tiempo escépticos. Durante años, las herramientas de IA para escribir código ofrecían funciones básicas, ayudaban con autocompletado o detectaban errores evidentes. Pero con Claude Code y Opus 4.5, algo cambió. Por primera vez, muchos coincidieron ahora sí podías pedirle a la IA que construyera una aplicación completa desde cero, que eligiera las librerías, que gestionara el estado, que generara pruebas unitarias. Y lo hacía casi siempre sin problemas, con fluidez y coherencia.
El binomio entre la capacidad técnica de Opus 4.5 y la autonomía de Claude Code maravillaba. No era solo un asistente, era un colaborador. Ciertamente la capacidad de Opus 4.5 y el grado de autonomía y versatilidad de Claude Code parecieron marcar un punto de inflexión. Pero lo más curioso no fue el salto técnico, sino la reacción colectiva por primera vez, los desarrolladores dejaron de discutir si la IA podía programar, y empezaron a discutir cómo organizar sus equipos de trabajo con ella.
La fiebre de lanzamientos una carrera sin meta a la vista
El ritmo es absolutamente frenético, y los LLMs que hace unas semanas parecían ser fantásticos ahora ya no lo son tanto. Lo que en diciembre era impresionante, en febrero ya suena a viejo. El calendario de 2026 se ha convertido en una sucesión casi semanal de lanzamientos Kimi.ai con Kimi J2.5 el 27 de enero, y luego, como si se hubieran puesto de acuerdo, el 5 de febrero Anthropic con Opus 4.6, OpenAI con GPT-5.3-Codex y Kuaishou con Kling 3.0. Una semana después, el 12, Z.ai, ByteDance y MiniMax lanzaron GLM-5, Seedance 2.0 y MiniMax 2.5, respectivamente. Y el 16, Alibaba irrumpió con Qwen3.5-397B-A17B, un modelo de 397 mil millones de parámetros que, según sus propios benchmarks, supera a todos en tareas multilingües y razonamiento complejo.
Y con cada nuevo modelo, la promesa de que el rendimiento va superando a la generación anterior. Al menos, claro, en los benchmarks. Sea como fuere, el resultado siempre nos lleva a lo mismo cada modelo es mejor que su predecesor y, normalmente, que muchos de la competencia. Pero también es cierto que las comparativas empiezan a parecerse más a campañas de marketing que a evaluaciones objetivas.
A la izquierda, benchmarks internos de Alibaba para Qwen3.5. A la derecha, los de Anthropic para Opus 4.6. Cada uno se compara con quien considera oportuno. Esos gráficos de barras se han convertido en una constante, sobre todo cuando quien lanza es una empresa china. Si el que lanza es OpenAI, Google o Anthropic, lo que se prefiere son las tablas. Pero el fondo es el mismo todos dicen que ganan. Y en parte, todos tienen razón. Porque la carrera no es solo tecnológica, es también narrativa.
Del vino a la IA cómo percibimos el rendimiento
La percepción de cada modelo depende de cada usuario. Cada uno de ellos tiene sus necesidades, su presupuesto y sus propias experiencias con cada modelo, así que por mucho que los benchmarks digan una cosa, con los modelos de IA nos está pasando como con los vinos por mucho que nos digan que uno es mejor que otro, nosotros los percibimos de forma muy personal.
Para algunos, GPT-5.3-Codex es insuperable en coherencia y razonamiento. Para otros, GLM-5 ofrece un mejor equilibrio entre velocidad y costo. Y hay quienes juran que MiniMax 2.5 tiene un "instinto" más natural al generar código, casi como si entendiera el contexto emocional del desarrollador. Los modelos chinos lo suelen ser más baratos, pero también suelen estar un escalón por detrás si uno necesita las máximas prestaciones. Aunque esa brecha se está cerrando rápido.
La fatiga de las suscripciones ¿cuánto vale un mes de IA?
Lo normal es pagar 20 euros por una suscripción de un mes. Si Opus 4.5 era tan bueno, uno podría apuntarse al plan Pro o al Max y pagar un año por adelantado, pero eso es a priori arriesgado. En febrero de 2026, hacer eso significa que habrás dedicado tu inversión en suscripciones de IA al modelo de Anthropic sin tener ya tanto margen para probar los de los rivales.
El problema de esto es que esa carrera no parece acabar nunca, y un modelo que parece fantástico hoy no lo es tanto mañana, cuando su competidor puede superarle por poco, pero además puede ser bastante más barato, o ofrecer otras ventajas como mayores ventanas de contexto. Aquí se imponen las suscripciones cortas suscribirse a un modelo un mes para poder tener margen de maniobra por si quiero probar otro modelo al mes siguiente. O probar dos o tres modelos el mismo mes, que también es un caso común.
Si me suscribo ahora a GPT-5.3-Codex, que todo el mundo dice que es fantástico, ¿cuánto tiempo lo pago, un mes? ¿O me suscribo además a GLM-5 para probar, y ya el mes que viene probaré Opus 4.6 y MiniMax 2.5? La pregunta ya no es solo técnica, es económica, estratégica. La fatiga de suscripciones es real, y empieza a pesar sobre la decisión de los usuarios más entusiastas.
Agentes, vibe coding y el empleado de IA que nunca duerme
El vibe coding no es perfecto, pero cada vez resuelve mejor nuestras necesidades. Ya no se trata solo de que la IA escriba código, sino de que entienda la intención detrás de una frase vaga como "haz algo que me ayude a gestionar mis tareas, pero que se sienta limpio y moderno". Y lo hace. Con estilo. Con sentido.
Y lo mismo ocurre con los agentes de IA como OpenClaw, que con sus luces y sus sombras demuestran que ese futuro en el que tengamos un empleado de IA aunque al principio pueda ser algo torpe funcionando 24/7 no parece estar tan lejos. OpenClaw puede encadenar tareas, corregirse a sí mismo, buscar información, ejecutar scripts. No es infalible, pero aprende. Y mejora. Y lo hace sin pedir vacaciones.
Kling 3.0 y Seedance 2.0, por su parte, han sido fenómenos virales en sí mismos. No por su rendimiento técnico, sino por lo que generan vídeos hiperrealistas a partir de un solo párrafo. Un anciano paseando por Tokio en 2070. Un documental sobre ballenas narrado por David Attenborough, con imágenes generadas. No son reales, pero lo parecen. Y eso basta para desatar el asombro.
Son tiempos vertiginosos y fascinantes para la IA. Otra vez. La promesa de 2025 no se cumplió del todo. Pero ahora, en febrero de 2026, con una avalancha de modelos, agentes y experiencias que empiezan a encajar, la sensación es distinta. No es solo que la IA haga más cosas. Es que, por fin, empieza a hacerlas con sentido.