Inteligencia Artificial

Los datos sintéticos superarán a los reales en IA en cuatro años, según Gartner

El volumen global de datos ya alcanza 200 ZB al año y podría llegar a 2.000 ZB en 2035. Gartner prevé que los datos sintéticos superen a los reales en modelos de IA en cuatro años.

Redacción

03 de mayo de 2026 a las 15:04h

Los datos sintéticos superarán a los reales en IA en cuatro años, según Gartner

Hace apenas una década, la humanidad generaba un zettabyte de datos al año. Hoy esa cifra se ha multiplicado por doscientos, alcanzando los 200 ZB anuales. Es un volumen tan colosal que equivale a unas 250.000 millones de películas en alta definición.

Las proyecciones no frenan esta escalada exponencial. Para 2030 se espera que el flujo global supere los 600 ZB y, para 2035, podría dispararse hasta los 2.000 ZB. Analistas ya anticipaban en 2021 que llegaríamos a 169 ZB en 2025, pero la realidad supera incluso esas estimaciones optimistas.

La era de lo sintético

Ante este tsunami informativo, las consultoras como Gartner predicen que, en cuatro años, los datos sintéticos eclipsarán a los reales en los modelos de inteligencia artificial. Esta transición no es solo técnica, sino una respuesta necesaria a la saturación de información disponible.

Marcelle Momha, investigadora en Harvard y consultora del Banco Mundial, explica que "los datos sintéticos ayudan a mejorar el aprendizaje". Sin embargo, advierte sobre su naturaleza "los datos del mundo real son necesarios para una verdadera validación". La dependencia exclusiva de lo generado por algoritmos conlleva riesgos ocultos.

Los errores en estos conjuntos sintéticos no permanecen aislados. Se propagan por todo el sistema a gran escala, sin intervención humana, generando fallos recursivos e invisibles. Es un efecto dominó digital donde la falta de anclaje en la realidad distorsiona progresivamente los resultados.

Regulación y privacidad

Para mitigar estos riesgos, normativas como la Ley de IA de la Unión Europea incentivan el uso de datos sintéticos. El objetivo principal es proteger la privacidad de la información personal, evitando el uso directo de registros sensibles en el entrenamiento de sistemas complejos.

No obstante, la transparencia sigue siendo un desafío pendiente. Momha precisa que "los estándares deben exigir la documentación de cómo se generan, entrenan y despliegan los conjuntos de datos sintéticos". Sin auditorías claras, la confianza en estas herramientas artificiales podría erosionarse rápidamente.

Vivimos en un punto de inflexión donde la cantidad de información ya no garantiza calidad ni veracidad. La capacidad de distinguir entre lo real y lo simulado se convierte en la nueva competencia crítica para navegar un futuro cada vez más mediado por algoritmos opacos.

Sobre el autor

Redacción

Ver biografía