OpenAI lanza GPT-Realtime-2: diálogos y herramientas en tiempo real desde su API

OpenAI presenta tres modelos de voz en tiempo real para su API, con GPT-5.5 Instant como modelo predeterminado del asistente y pruebas ya en Zillow, Priceline y Deutsche Telekom.

09 de mayo de 2026 a las 14:04h
OpenAI lanza GPT-Realtime-2: diálogos y herramientas en tiempo real desde su API
OpenAI lanza GPT-Realtime-2: diálogos y herramientas en tiempo real desde su API

La voz humana deja de ser un comando estático para convertirse en un flujo continuo de datos procesables. OpenAI ha integrado esta capacidad en su infraestructura comercial con la llegada de tres nuevos modelos diseñados específicamente para operar en tiempo real a través de su API.

El lanzamiento coincide temporalmente con la publicación de GPT-5.5 Instant, que ahora funciona como el modelo predeterminado del asistente de la compañía. Esta sincronización sugiere una estrategia clara para unificar la experiencia del usuario final con las herramientas disponibles para los desarrolladores.

Los nuevos modelos procesan diálogos mientras ejecutan herramientas

GPT-Realtime-2 representa el núcleo de esta actualización al utilizar la clase GPT-5 para gestionar interacciones complejas. El sistema procesa diálogos y ejecuta herramientas simultáneamente durante la conversación, lo que elimina la latencia tradicional entre la petición del usuario y la acción del software.

Esta arquitectura permite que la inteligencia artificial no solo escuche, sino que actúe sobre la información recibida sin pausas perceptibles. La capacidad de mantener el contexto activo mientras se realizan tareas externas marca una diferencia técnica respecto a los sistemas anteriores que requerían pasos secuenciales.

La traducción automática abarca setenta idiomas de entrada

La barrera lingüística se reduce drásticamente con GPT-Realtime-Translate, una herramienta enfocada en la interpretación simultánea. El modelo acepta audio en 70 idiomas de entrada y genera respuestas en 13 idiomas de salida, cubriendo las principales lenguas comerciales y sociales del planeta.

Este enfoque asimétrico entre entrada y salida optimiza los recursos computacionales al priorizar la comprensión universal sobre la producción multilingüe total. Para las empresas con presencia global, esto implica poder atender a clientes en su lengua nativa sin necesidad de contar con equipos de traducción humanos para cada mercado.

La transcripción también evoluciona con GPT-Realtime-Whisper, diseñado para convertir voz a texto manteniendo la coherencia narrativa. A diferencia de los transcritores tradicionales, este modelo mantiene el hilo conversacional ante interrupciones naturales, algo frecuente en diálogos espontáneos o reuniones tensas.

Las pruebas iniciales ya han saltado del laboratorio al mercado. Zillow, Priceline y Deutsche Telekom están probando la tecnología en sus servicios actuales, lo que valida la utilidad práctica de estos modelos más allá de la demostración técnica.

Los tres modelos están disponibles inmediatamente para desarrolladores en la plataforma de OpenAI. La integración en aplicaciones de terceros dependerá ahora de la capacidad de los programadores para adaptar estas funciones de voz a interfaces existentes.

Sobre el autor
Redacción
Ver biografía