Imagina que estás en una tienda, con una rebaja del 30 % en una chaqueta que cuesta 89 euros. Sacas el móvil, abres tu chatbot favorito y le preguntas cuánto pagarás finalmente. Parece una cuenta sencilla. Pero cuidado. Hay casi un 40 % de probabilidades de que te dé la respuesta equivocada.
Esto no es una broma ni un caso aislado. Un estudio llamado ORCA ha puesto a prueba a cinco grandes modelos de inteligencia artificial Gemini, Grok, DeepSeek, ChatGPT y Claude con 500 preguntas de cálculo extraídas de situaciones reales. Desde propinas en restaurantes hasta conversiones de unidades, pasando por tasas de interés o problemas de física básica. El resultado es revelador ninguno de ellos superó el 63 % de aciertos. Ni siquiera por poco.
La ilusión de la infalibilidad numérica
Los chatbots modernos hablan con soltura, redactan textos impecables, resumen artículos complejos y hasta improvisan poemas. Parecen inteligentes. Pero cuando tocan números, algo se rompe. No es que no sepan matemáticas. Es que les cuesta traducir el caos del mundo real al orden de una fórmula. Y ese salto, tan natural para una persona, es un escollo gigantesco para una IA.
El estudio ORCA reveló que, en promedio, los cinco modelos acertaron solo el 54,5 % de las respuestas. Gemini lidera con 63 %, seguido muy de cerca por Grok con 62,8 %. ChatGPT, a pesar de su popularidad, se queda en 49,4 %, y Claude, con 45,2 %, falla más de la mitad de las veces. Son cifras que deberían hacernos reflexionar antes de delegar decisiones en una máquina.
"La fiabilidad numérica sigue siendo un punto débil en los modelos de inteligencia artificial actuales" - Dawid Siuda, coautor de la prueba ORCA
Los errores tienen nombre y apellido
Los fallos no son aleatorios. El estudio clasificó los errores en tipos claros. El más común fue la lógica defectuosa, responsable del 26 % de los fallos. Es decir, el chatbot entiende las palabras, pero no el razonamiento detrás. Luego vienen los errores de método o fórmula (14 %), suposiciones erróneas (12 %), lectura incorrecta de instrucciones (5 %) y, en algunos casos, simplemente abandonar el problema.
Y hay un villano recurrente el redondeo. Si un cálculo tiene varios pasos y requiere redondear en alguno de ellos, el resultado final suele estar muy lejos. La IA acumula errores en cada etapa como una bola de nieve, sin darse cuenta de que ya no va por buen camino.
¿Dónde se defienden mejor las IA?
No todo es malo. En la categoría de matemáticas y conversiones por ejemplo, cuántos kilómetros son 5 millas o cuánto es un 15 % de propina los resultados mejoran. Gemini alcanzó un 83 %, Grok un 76,9 %, y hasta DeepSeek y ChatGPT superaron el 70 %. La media general en esta área fue del 72,1 %, lo que sugiere que las tareas puramente técnicas, sin contexto ambiguo, se les dan mejor.
Pero en física, con 128 preguntas sobre caída libre, energía o velocidad, la media se desploma al 35,8 %. Grok y Gemini se mantienen por encima del 43 %, pero los demás se hunden. Y en biología y química, DeepSeek logra solo un 10,6 % de aciertos. Un dato demoledor.
En finanzas y economía, Grok y Gemini empatan con un 76,7 % de precisión. Pero los otros tres, otra vez, no llegan al 50 %. Imagina que estás calculando tu hipoteca, una inversión o los intereses de un préstamo. ¿Confías en una IA que falla la mitad de las veces?
¿Por qué fallan tanto si son tan potentes?
La paradoja está en la naturaleza misma de estos modelos. Están entrenados con billones de palabras, no con millones de operaciones. Aprenden a predecir la siguiente palabra, no a resolver ecuaciones paso a paso. No tienen conciencia del error. No saben cuándo se equivocan. Y lo hacen con total convicción.
Es como si un traductor te dijera una palabra en chino con una seguridad absoluta, aunque esté inventando. La confianza es parte del problema. Te dan una respuesta que suena bien, pero es incorrecta. Y si tú no tienes conocimientos básicos, no puedes cuestionarla.
"Si la tarea es crítica, utiliza calculadoras o fuentes contrastadas, o al menos haz una doble comprobación con otra IA" - Dawid Siuda
Consejos para no dejarse engañar
- Pide a la IA que muestre el proceso, no solo el resultado. Si no explica cómo llegó, desconfía.
- Usa una calculadora para verificar operaciones clave, sobre todo si hay varios pasos.
- Compara la respuesta con otro modelo. Si Gemini y ChatGPT discrepan, hay un problema.
- No asumas que porque algo suena coherente es correcto. La claridad no garantiza la verdad.
La IA es una herramienta poderosa, pero aún no es infalible. Y en matemáticas, su mayor debilidad no es la aritmética, sino la comprensión del mundo. Nosotros, por ahora, seguimos teniendo una ventaja el sentido común.