Inteligencia Artificial

En 16.200 respuestas médicas de IA, el 80% de diagnósticos iniciales fueron inadecuados

"Estos modelos son muy buenos… pero fallan al inicio de un caso abierto", advierte el estudio

Redacción

17 de abril de 2026 a las 09:54h

En 16.200 respuestas médicas de IA, el 80% de diagnósticos iniciales fueron inadecuados

En enero de 2025, mientras los primeros rayos de sol invernal iluminaban los laboratorios de Mass General Brigham, un equipo de investigadores inició una prueba inédita poner a más de veinte modelos avanzados de inteligencia artificial frente a los mismos retos que enfrentan los médicos en la vida real. No se trataba de una competición para premiar a la máquina más rápida, sino de una evaluación seria, metódica y, sobre todo, reveladora. ¿Puede la inteligencia artificial diagnosticar con precisión? La respuesta, como suele ocurrir en medicina, no es un sí o un no, sino un matizado depende.

La IA brilla solo con los datos completos

Los investigadores sometieron a 21 chatbots entre ellos Claude 4.5 Opus, DeepSeek, Gemini 3.0 Pro, GPT-5 y Grok 4 a 29 casos clínicos cada uno. Un total de más de 16.200 respuestas analizadas con lupa. En el escenario inicial, con solo la edad, el sexo y una descripción de síntomas, los resultados fueron desalentadores en torno al 80% de los diagnósticos diferenciales fueron inadecuados. Es decir, cuando el paciente llega con una queja vaga "me duele el pecho", "tengo fiebre desde hace días", la IA tropieza. No logra, como un clínico experimentado, hilar posibilidades, descartar lo improbable o detectar señales sutiles.

Pero todo cambia cuando se dan todos los datos análisis físico, pruebas de laboratorio, imágenes diagnósticas. En ese contexto, más del 90% de los modelos alcanzaron el diagnóstico final correcto. Parece un triunfo, y lo es, pero también es una trampa. Porque en la práctica clínica, los datos no llegan completos. Llegan fragmentados, confusos, a veces contradictorios. El arte del diagnóstico está en avanzar en la oscuridad, no en confirmar lo obvio.

"Estos modelos son muy buenos para identificar un diagnóstico final cuando los datos están completos, pero tienen dificultades al inicio de un caso abierto" - investigador principal del estudio de Mass General Brigham

Alucinaciones y falsos positivos el riesgo silencioso

Uno de los hallazgos más preocupantes del estudio es que las alucinaciones permanecen incluso en los modelos de última generación. No se trata de errores técnicos menores, sino de invenciones diagnósticos ficticios, tratamientos inexistentes, referencias a pruebas que nadie ha solicitado. En un entorno clínico, eso no es un fallo de software. Es un riesgo para la vida.

Por eso, los investigadores son tajantes los modelos de lenguaje comercial no están listos para su implementación clínica sin supervisión. No es cuestión de esperar a que mejoren aunque lo harán, sino de reconocer que, por ahora, no pueden sustituir el juicio humano. Al contrario requieren supervisión muy estrecha, como si fueran residentes en formación que aún no han adquirido el olfato clínico.

El caso de El Salvador ¿una apuesta visionaria o una trampa tecnológica?

Mientras tanto, al otro lado del continente, el presidente de El Salvador, Nayib Bukele, anunció una inversión de 500 millones de dólares para implementar Gemini el modelo de IA de Google a través de una aplicación llamada Dr.SV. Según el plan, la app actuará como médico de familia, asignará consultas con profesionales reales, hará seguimiento de enfermedades crónicas y, en el futuro, incluso atenderá a pacientes con cáncer.

Suena ambicioso. Revolucionario, incluso. Pero coincide con un dato inquietante durante 2025, más de 7.700 empleados del sistema de salud fueron despedidos en El Salvador. ¿Es casualidad? O peor ¿es parte del plan? Un sistema sanitario que reduce personal mientras apuesta por IA puede parecer eficiente. Pero también puede estar transformando la medicina en un servicio automatizado, accesible, pero frágil. Porque una app no toca el pulso, no mira a los ojos, no percibe el miedo detrás de una sonrisa forzada.

Y eso es justo lo que los chatbots no pueden hacer entender el silencio. El estudio de Mass General Brigham no solo evalúa algoritmos; también nos devuelve una pregunta incómoda si confiamos en la IA para diagnosticar, ¿quién se hará cargo cuando se equivoque? No basta con que acierte el 90% de las veces. En medicina, el 10% restante son vidas.

Sobre el autor

Redacción

Ver biografía