Preguntar a una inteligencia artificial por una epidural parece una escena cotidiana, casi doméstica. El problema aparece cuando la respuesta suena convincente y, al mismo tiempo, pierde fiabilidad justo en las preguntas más complejas o controvertidas.
Ahí entra un estudio liderado por la Universidad Rey Juan Carlos junto con King’s College London y Solent University London. El trabajo evaluó hasta qué punto los modelos de lenguaje pueden ofrecer información fiable sobre la epidural, una intervención médica rodeada de dudas frecuentes y decisiones sensibles.
ChatGPT quedó primero, pero el tamaño no decidió la prueba
ChatGPT obtuvo el mejor rendimiento global en la evaluación, con Gemini en segundo lugar.
Marina del Barrio, investigadora principal del trabajo, sitúa el hallazgo en un terreno menos intuitivo de lo que parece.
"Pese a que ChatGPT es el que demuestra mejores datos, dos modelos medianos, OpenChat y Phi-3, consiguen resultados comparables, mejorando significativamente otros modelos de gran tamaño. Esto destaca la importancia de los datos con los que se entrenan frente al tamaño del modelo" - Marina del Barrio, investigadora principal del trabajo
La comparación cuestiona una idea muy extendida en la carrera de la inteligencia artificial. Los resultados muestran que el entrenamiento pesa más que el tamaño cuando el objetivo es responder con solvencia sobre una cuestión médica concreta.
Diez preguntas bastaron para poner a prueba miles de respuestas
Para medir esa fiabilidad, el equipo científico formuló diez preguntas sobre la epidural y las reformuló de distintas maneras en español e inglés. Después las lanzó contra ChatGPT, Gemini, OpenChat, Phi-2, Phi-3, MedLlama y Meditron. Más de 2.400 respuestas pasaron luego por una revisión manual de dos expertos, que determinaron cuáles podían considerarse aceptables.
No todas las preguntas valían lo mismo.
Cuando la complejidad subía o entraban asuntos controvertidos, la calidad de las respuestas bajaba. En salud, ese matiz importa mucho porque una contestación dudosa no suele presentarse como duda, sino como seguridad verbal, un riesgo que ya ha aparecido en pruebas de razonamiento clínico basadas solo en texto.
El idioma también cambió el resultado de los modelos
Otro hallazgo rompe una suposición habitual.
El idioma utilizado afectó al rendimiento de los modelos hasta el punto de que muchos resultaron inadecuados para esta tarea con independencia de su tamaño. No basta, por tanto, con elegir un sistema grande si luego su comportamiento cambia al pasar de una lengua a otra.
En ese punto, ChatGPT se apartó del resto. Los investigadores concluyen que ChatGPT no empeora en español, sino que mejora su actuación, un detalle llamativo en una prueba diseñada precisamente para tensar las costuras lingüísticas de estos sistemas y que encaja con otras señales sobre consultas de salud en ChatGPT.
La medicina encuentra apoyo útil, pero no una voz autosuficiente
El estudio no dibuja una victoria limpia de las máquinas ni una derrota simple de sus límites. Lo que deja sobre la mesa es algo más útil para entender el momento actual.
Si dos modelos medianos pueden acercarse al mejor resultado y superar a otros mayores, el foco cambia de sitio. Desarrollar sistemas de apoyo en medicina exige supervisión médica y exige también mirar con más atención los datos de entrenamiento, porque la diferencia entre una respuesta aceptable y una respuesta arriesgada puede depender menos del tamaño que del idioma, del contexto y de la dificultad real de la pregunta.
Más de 2.400 respuestas revisadas a mano por dos expertos dejan una imagen poco cómoda. La inteligencia artificial puede contestar bien sobre la epidural, pero no mantiene la misma solidez cuando la pregunta se vuelve más difícil o más discutida.