Google lanza DiffusionGemma: genera 256 tokens a la vez y promete hasta 4 veces más velocidad con 18 GB de VRAM

El modelo experimental de código abierto de Google usa difusión para producir bloques de 256 tokens en paralelo, reducir la carga activa a 3.800 millones de parámetros y funcionar con 18 GB de VRAM.

16 de junio de 2026 a las 07:35h
Google lanza DiffusionGemma: genera 256 tokens a la vez y promete hasta 4 veces más velocidad con 18 GB de VRAM
Google lanza DiffusionGemma: genera 256 tokens a la vez y promete hasta 4 veces más velocidad con 18 GB de VRAM

La carrera por hacer modelos de inteligencia artificial más grandes convive con otra menos vistosa y quizá más incómoda. La pregunta ya no consiste solo en cuánta calidad ofrece un sistema, también en cuánta memoria consume, cuántos pasos necesita y cuánto cuesta mantenerlo en marcha cuando deja el laboratorio y entra en una tarea cotidiana.

Ahí aparece Google con DiffusionGemma.

El nuevo modelo experimental de código abierto parte de la familia Gemma 4 y de la investigación Gemini Diffusion, pero su cambio de fondo está en la forma de generar texto. En lugar de avanzar token a token como una máquina que escribe línea por línea, produce bloques de 256 tokens de manera simultánea mediante técnicas de difusión.

"Es como pasar de una máquina de escribir secuencial a una imprenta masiva capaz de imprimir bloques completos de texto simultáneamente" - Brendan O’Donoghue y Sebastian Flennerhag, investigadores de Google

Esa comparación ayuda a entender por qué Google habla de una inferencia hasta cuatro veces más rápida que la de los modelos autorregresivos secuenciales. Además, el sistema refina su propia salida de forma iterativa, una mecánica que le permite revisar el bloque completo de texto de una sola vez mientras corrige errores durante el proceso.

"Al generar 256 tokens en paralelo en cada pasada hacia adelante, cada token puede tener en cuenta a todos los demás" - Brendan O’Donoghue y Sebastian Flennerhag, investigadores de Google

No es un detalle menor cuando el modelo apunta a tareas donde una respuesta parcial obliga a rehacer el trabajo. Carmi Levy, analista tecnológico, sitúa ahí una de sus bazas y sostiene que DiffusionGemma está especialmente bien preparado para la programación interactiva y la edición, dos escenarios donde las iteraciones rápidas pesan tanto como la respuesta final.

Google redujo el peso activo del modelo durante la inferencia

DiffusionGemma cuenta con 26.000 millones de parámetros de tipo mixture of experts, aunque durante la inferencia activa solo 3.800 millones. Esa reducción recorta la carga real de cálculo en el momento de usarlo, que es donde se juegan los costes diarios.

También cambia la barrera de entrada del hardware. El modelo requiere alrededor de 18 GB de memoria VRAM y puede ejecutarse en una tarjeta gráfica de consumo como la Nvidia RTX 5090, un dato que lo acerca a desarrolladores y equipos pequeños que no siempre dependen de infraestructura remota, algo que ya asomaba en la ejecución local de Gemma 3.

Google lo distribuye bajo licencia Apache 2.0 y lo ha colocado en Google Cloud Model Garden, Nvidia NIM, Hugging Face, GitHub y vLLM. El soporte para llama.cpp llegará más adelante.

La velocidad no siempre gana cuando entra la calidad

El propio Google admite una contrapartida. La calidad de salida de DiffusionGemma queda por debajo de la de Gemma 4 estándar y, además, su enfoque paralelo ofrece beneficios decrecientes en entornos cloud con alta concurrencia.

Levy añade un matiz relevante. A su juicio, el modelo puede ser menos preciso en algunos escenarios, aunque los ciclos de refinamiento iterativo compensan parte de esa desventaja al permitir correcciones sucesivas sobre el mismo bloque de texto.

Los sistemas de pago por token penalizan el uso de soluciones poco eficientes, advierte también Levy. Desde esa lógica, un modelo que acelera inferencia y reduce sobrecarga puede encajar mejor en tareas concretas que en la ambición de servir para todo, una tensión que ya aparecía en la compresión de memoria para IA.

Hasta un sudoku sirve para medir si el sistema piensa en bloque

Google ha afinado DiffusionGemma para resolver sudokus, una prueba menos anecdótica de lo que parece. En ese tipo de problema, cada casilla condiciona a las demás y obliga a manejar dependencias que no siempre miran solo hacia delante, de modo que el modelo puede aprovechar mejor una generación que evalúa el conjunto en paralelo.

El ajuste técnico también deja claro a quién mira este lanzamiento. DiffusionGemma está optimizado para el ecosistema de Nvidia, tanto en configuraciones de consumo como en sistemas empresariales Hopper y Blackwell.

La promesa no está en hacerlo todo mejor, sino en hacerlo más deprisa con menos carga. Y esa diferencia explica por qué Google presenta un modelo que admite ser peor que Gemma 4 en calidad de salida, pero aun así presume de caber en 18 GB de VRAM y de generar bloques enteros de 256 tokens al mismo tiempo.

Sobre el autor
Redacción
Ver biografía