Google afirma que TurboQuant reduce hasta 6 veces la memoria de la IA sin perder rendimiento

"TurboQuant abre una puerta a una inferencia mucho más ligera y escalable"

31 de marzo de 2026 a las 11:45h
Google afirma que TurboQuant reduce hasta 6 veces la memoria de la IA sin perder rendimiento
Google afirma que TurboQuant reduce hasta 6 veces la memoria de la IA sin perder rendimiento

La inteligencia artificial avanza a tal velocidad que, a veces, sus efectos colaterales se notan antes en las bolsas de valores que en los laboratorios. La semana pasada, Google Research presentó una técnica de compresión llamada TurboQuant, un nombre técnico que suena a motor de coche, pero cuyo impacto podría ser tan profundo como silencioso. No es una nueva IA generativa ni un modelo capaz de escribir sin errores. Es algo menos llamativo, pero posiblemente más transformador una forma de comprimir la memoria que usan las grandes IA durante su funcionamiento, especialmente cuando están hablando contigo, respondiendo preguntas o generando texto coherente tras miles de palabras.

El problema oculto de la memoria

Los modelos de lenguaje grandes, esos que se alimentan de billones de palabras para aprender a conversar, guardan en tiempo real una especie de "memoria de trabajo" mientras generan respuestas. Se llama KV cache (Key-Value cache), y es esencial para mantener el contexto. Cuanto más larga es la conversación, más tokens palabras o fragmentos de palabras procesa el modelo, y más memoria necesita. Esto no es un detalle técnico menor en centros de datos gigantescos, esa memoria suele estar basada en memorias ultrarrápidas y carísimas, como el HBM (High Bandwidth Memory), cuyo coste puede representar una fracción muy significativa del gasto total.

Pero si pudieras comprimir esa memoria sin perder calidad, todo cambiaría. Eso es exactamente lo que promete TurboQuant. Según el estudio de Google, esta técnica reduce la KV cache hasta seis veces sin que se note una caída en el rendimiento. Imagina que tu cerebro pudiera recordar una conversación de tres horas con solo un sexto de su capacidad habitual. La eficiencia, en términos energéticos, económicos y físicos, sería abrumadora.

La revolución silenciosa en los centros de datos

El impacto no se mide solo en velocidades o ahorros de espacio. Con TurboQuant, los centros de datos podrían realizar inferencias de IA con mucho menos hardware y mucha menos memoria RAM o HBM. Esto no quiere decir que los servidores se vuelvan obsoletos mañana, pero sí que la expansión futura podría requerir menos inversión. Una empresa podría hacer más con menos más consultas, más usuarios, más chatbots en funcionamiento simultáneo, sin necesidad de construir nuevos racks de servidores.

Los investigadores de Google presentarán dos métodos distintos para implementar TurboQuant el próximo mes, y aunque la técnica está aún en fase de estudio, ya existen pruebas preliminares realizadas por terceros que sugieren que funciona. Nadie ha puesto nombres, pero el eco ha sido suficiente como para provocar una reacción inmediata en los mercados financieros.

La bolsa ya habló

La semana pasada, las acciones de gigantes de la memoria como Micron, Samsung, SK Hynix, SanDisk o Kioxia cayeron de forma notable desde sus máximos recientes. No fue un ajuste menor. Un dato concreto lo ilustra el 18 de marzo, una de estas empresas rondaba los 471 dólares; hoy, sus acciones están a 357, lo que supone una caída del 24,2%. El texto no especifica cuál, pero la coincidencia temporal resulta difícil de ignorar. El lanzamiento de TurboQuant ha sido señalado como uno de los detonantes de esta corrección. No porque la tecnología esté ya en producción, sino por lo que representa una señal de que la demanda futura de memorias de alto rendimiento podría no crecer al ritmo esperado.

Es irónico una innovación en software que reduce la necesidad de hardware ya está afectando al valor de las empresas que fabrican ese hardware. Pero hay una salvedad importante que evita el pánico total. TurboQuant solo se aplica a la fase de inferencia, no al entrenamiento de modelos. Esa etapa sigue requiriendo cantidades ingentes de memoria y potencia. Así que las fábricas de chips no van a cerrar. Pero sí podrían ver frenado su crecimiento exponencial.

¿Más barato para el consumidor?

Uno se pregunta si esta eficiencia acabará llegando al bolsillo del usuario. Las grandes tecnológicas podrían tener mucho margen de maniobra para reducir aún más los precios por token. Pero, como señala el análisis, está por ver si lo harán. La eficiencia no siempre se traduce en precios más bajos. Puede convertirse en mayor margen de beneficio o en capacidad para ofrecer más funciones sin subir costes.

Y en el mercado del consumidor, hay que tener cuidado con las asociaciones rápidas. Mientras algunos celebran la bajada de precio de módulos de memoria DDR5 como los Corsair Vengeance 32 GB 6000MHz, que han pasado de 489,59 a 339,89 euros en Amazon, conviene recordar que TurboQuant no afecta a ese tipo de memorias. La técnica está pensada para memorias especializadas en aceleradoras de IA, no para PCs o portátiles. Esas rebajas responden más a ciclos de oferta y demanda, a la sobreproducción o a la competencia entre marcas, no a una revolución en la arquitectura de la IA.

"TurboQuant abre una puerta a una inferencia mucho más ligera y escalable, sin sacrificar coherencia ni contexto en salidas largas" - Investigadores de Google Research, equipo de IA de Google

TurboQuant no es espectacular, no genera imágenes ni compone música. Pero tal vez sea más importante. Es una herramienta silenciosa que podría cambiar la economía de la inteligencia artificial, redefinir lo que cuesta mantener una conversación con una máquina y, de paso, hacer temblar a gigantes industriales. En la carrera por la IA, no siempre gana quien tiene más músculo. A veces, gana quien sabe usarlo mejor.

Sobre el autor
Redacción
Ver biografía