La inteligencia artificial no aprende en un vacío aséptico. Sus respuestas dependen de lo que lee y, por ende, de quién controla la información disponible en la red.
Un estudio reciente publicado en Nature demuestra que los gobiernos pueden sesgar los resultados de estas herramientas mediante el dominio de internet y los medios de comunicación. Los investigadores observaron que sistemas como ChatGPT ofrecen visiones más complacientes hacia las instituciones chinas cuando las consultas se realizan en mandarín en lugar de en inglés.
El idioma determina la lealtad política del modelo
El análisis abarcó 37 idiomas y reveló una correlación directa entre el control estatal de la información y la postura de la IA. En preguntas sobre la política de Pekín, las respuestas generadas en chino resultaron favorables al Gobierno en más del 75 % de los casos frente a las ofrecidas en inglés.
Esta discrepancia no es casual. Hannah Waight, coautora principal del estudio y profesora adjunta de Sociología en la Universidad de Oregón, explica que la red no es neutral. «No existe una fuente neutral de datos de entrenamiento en internet, especialmente para cuestiones políticamente delicadas», afirma la experta.
Rastros digitales de la propaganda estatal
El equipo examinó un conjunto masivo de datos de Common Crawl y detectó patrones claros. Encontraron que 3,1 millones de textos usados para entrenar IA contenían fragmentos casi idénticos a contenidos difundidos por medios vinculados al Gobierno chino.
Ese material representaba alrededor del 1,64 % de todos los documentos en chino presentes en la base analizada. La proporción superaba a la de la Wikipedia china. En textos específicos sobre líderes e instituciones políticas, la cifra ascendía hasta superar el 20 %.
"Elegimos estudiar China porque ya habíamos analizado su sistema mediático en trabajos anteriores" - Hannah Waight, profesora adjunta de Sociología en la Universidad de Oregón
La mayoría de este contenido no residía en portales oficiales. Estaba disperso por blogs, webs y foros antes de integrarse en los datasets de entrenamiento. Una vez recopilado y reutilizado, resulta difícil rastrear el origen exacto del enfoque informativo.
Un experimento confirma la manipulación efectiva
Para verificar el impacto real, los científicos entrenaron un modelo pequeño exclusivamente con ese material sesgado. Los resultados fueron contundentes: la IA modificada ofrecía respuestas favorables hacia el Gobierno chino en el 80 % de los casos.
Este comportamiento se replica a escala global. El estudio muestra que los modelos describen de forma más positiva a los gobiernos de estados con mayor control mediático cuando las interacciones ocurren en los idiomas locales de dichos territorios.
Hannah Waight advierte sobre los incentivos crecientes. A medida que la población mundial depende de chatbots para informarse, aumentan los motivos para que gobiernos y grupos intenten influir en el contenido generado.
La transparencia como única garantía real
Los autores no tienen pruebas de que las instituciones manipulen intencionalmente estos sistemas hoy, pero la posibilidad preocupa. La investigadora destaca la necesidad de que las empresas de IA ofrezcan mayor transparencia respecto a sus datos de entrenamiento.
Solo así podrán los usuarios comprender la procedencia del contenido y decidir qué herramientas utilizar para cada tipo de pregunta. La cautela debe extenderse también a la regulación gubernamental de los datos, pues podría servir para la censura política.
Infiltrar perspectivas estatales a través del entorno informativo es solo una vía de influencia. La propiedad de las plataformas y la regulación legal constituyen las otras dos palancas clave en esta disputa por el control narrativo.