Google estrena Gemini Omni Flash: vídeos de 10 segundos con audio nativo y hasta 5 fotos de entrada

Google sustituye Veo por Gemini Omni Flash, un modelo que genera vídeos desde texto, imágenes, audio y vídeo, con clips de hasta 10 segundos y sonido integrado.

21 de mayo de 2026 a las 17:12h
Google estrena Gemini Omni Flash: vídeos de 10 segundos con audio nativo y hasta 5 fotos de entrada
Google estrena Gemini Omni Flash: vídeos de 10 segundos con audio nativo y hasta 5 fotos de entrada

Google quiere que hacer un vídeo con inteligencia artificial se parezca cada vez menos a manejar una herramienta aislada y cada vez más a escribir una instrucción. Esa es la lógica detrás de Gemini Omni, su nuevo modelo capaz de generar clips a partir de texto, imágenes, audio y vídeo.

La primera versión que ya está disponible recibe el nombre de Gemini Omni Flash. Con ella, la compañía reemplaza a Veo, que era hasta ahora su sistema anterior para crear vídeos dentro de este terreno cada vez más disputado.

Gemini Omni genera vídeo y también incorpora sonido

Hay un detalle que cambia bastante la experiencia de uso. Gemini Omni puede producir clips de hasta diez segundos con audio nativo, algo que evita añadir el sonido como una capa separada al final del proceso.

Esa integración acerca la herramienta a una idea más ambiciosa del vídeo sintético. No se limita a animar una imagen o a montar fragmentos, sino que combina varias entradas para construir una escena con cierta continuidad audiovisual.

Además del texto, el sistema acepta imágenes, audio y vídeo como punto de partida. La conversión de fotografías a vídeo, eso sí, tiene un límite máximo de cinco, una cifra que marca hasta dónde puede estirarse una secuencia nacida desde imágenes fijas.

Las instrucciones encadenadas buscan que la escena no se rompa

No todo depende del primer prompt. Gemini Omni admite instrucciones encadenadas para retocar elementos concretos, cambiar la estética, modificar acciones, rehacer el entorno, variar el ángulo o mover el estilo sin empezar desde cero.

Ahí aparece una de las promesas más prácticas del sistema. El modelo puede mantener la consistencia de personajes y la continuidad de escenas mientras el usuario corrige detalles, una tarea que en este tipo de herramientas suele venirse abajo con facilidad.

Si funciona como plantea Google, el proceso se parece menos a pulsar un botón y más a dirigir una secuencia por capas. Primero nace el clip, luego llegan los ajustes, y cada cambio intenta respetar lo que ya estaba construido.

Google lo repartió entre Gemini, Flow y también YouTube

El acceso no queda encerrado en un único producto. El servicio está integrado en la aplicación y la página web de Gemini, y también en Flow, la plataforma donde Google concentra otra parte de sus herramientas creativas.

Fuera de ese entorno principal aparece una diferencia clara entre pago y acceso abierto. La entrada nativa en la app de Gemini exige una suscripción, mientras que hay una modalidad de uso gratuito a través de YouTube Shorts y YouTube Create App.

Esa doble vía dice bastante sobre cómo se quiere colocar la herramienta en el mercado. Por un lado, Google reserva funciones dentro de su ecosistema de suscripción y, por otro, deja una puerta abierta en productos donde el vídeo breve ya forma parte de la rutina diaria.

El proceso cabe en unos pocos pasos, pero no en cualquier uso

Para generar un vídeo, el usuario debe elegir la opción de crear vídeo en el menú de Gemini, escribir el prompt y añadir los archivos de entrada. Después puede visualizar el resultado, regenerarlo, compartirlo o descargarlo.

Visto así, el recorrido parece sencillo. La diferencia real estará en la calidad de las órdenes y en la paciencia para iterar, porque el sistema no solo produce un clip, también invita a rehacerlo hasta acercarlo a la escena buscada.

Entre el límite de diez segundos con audio nativo, el tope de cinco fotografías para animación y la necesidad de pagar para usarlo de forma nativa en Gemini, la nueva etapa arranca con una mezcla muy concreta de ambición, control y barreras de acceso.

Sobre el autor
Redacción
Ver biografía