Xiaomi libera OmniVoice: voz con soporte para más de 600 idiomas y clonación de voz

Xiaomi presenta OmniVoice, su modelo de texto a voz de código abierto con soporte para más de 600 idiomas, incluido para lenguas minoritarias con pocos datos.

09 de mayo de 2026 a las 18:44h
Xiaomi libera OmniVoice: voz con soporte para más de 600 idiomas y clonación de voz
Xiaomi libera OmniVoice: voz con soporte para más de 600 idiomas y clonación de voz

La barrera lingüística suele ser el primer obstáculo que encuentra la tecnología de voz. La mayoría de sistemas comerciales se concentran en un puñado de lenguas mayoritarias y dejan fuera a miles de hablantes.

Xiaomi ha anunciado la liberación de OmniVoice, un modelo de texto a voz desarrollado por su AI Lab que rompe esta dinámica al ofrecer soporte para más de 600 idiomas distintos. Esta amplitud cubre no solo las lenguas dominantes, sino también aquellas con baja presencia digital o consideradas minoritarias en el ecosistema tecnológico actual.

El modelo supera la escasez de datos en idiomas minoritarios

El entrenamiento de este sistema se basó en alrededor de 581.000 horas de datos multilingües obtenidos de bases de código abierto. Esta masa crítica de información permite al algoritmo aprender patrones fonéticos complejos sin depender exclusivamente de grabaciones profesionales costosas.

La arquitectura logra producir resultados aceptables incluso en idiomas con menos de diez horas de grabaciones de entrenamiento disponibles. Este rendimiento contrasta con la necesidad habitual de grandes volúmenes de datos específicos para cada lengua en los modelos tradicionales.

OmniVoice incluye funciones de clonación de voz y personalización del habla. Los usuarios pueden ajustar matices específicos del habla para adaptar la salida a sus preferencias o necesidades concretas de accesibilidad.

Xiaomi compite con alternativas comerciales como Eleven Labs

La empresa presenta esta herramienta como una alternativa directa a sistemas comerciales consolidados como Eleven Labs. La diferencia radica en la cobertura extensiva de idiomas que suelen quedar relegados en las plataformas de pago estándar.

La arquitectura del modelo mejora la naturalidad de la voz y la velocidad de generación frente a otros sistemas similares. Estos dos factores determinan la utilidad práctica de la tecnología en aplicaciones de tiempo real o interacción conversacional fluida.

Este desarrollo se integra junto a los modelos MiMo y otros sistemas multimodales de la compañía. La estrategia busca crear un ecosistema de inteligencia artificial propio que no dependa de proveedores externos para las capacidades de voz.

La disponibilidad de código abierto cambia las reglas de acceso a esta tecnología.

Los desarrolladores ahora pueden implementar síntesis de voz en lenguas indígenas o regionales sin enfrentar los costes prohibitivos de los servicios privados. La reducción de la brecha digital depende de herramientas que funcionen donde los datos son escasos.

Sobre el autor
Redacción
Ver biografía