OpenAI lanza tres nuevos modelos de voz

OpenAI lanza tres nuevos modelos de voz

Sigue a MadridActual en Google
Añadir a mis fuentes favoritas

GPT-Realtime permitirá traducir, transcribir y ejecutar tareas mientras el usuario habla

OpenAI ha presentado tres nuevos modelos de voz en tiempo real de la familia GPT-Realtime, diseñados para traducir conversaciones, transcribir discursos y ejecutar tareas mientras el usuario habla, con el objetivo de avanzar hacia aplicaciones de audio más ágiles y naturales.

Estos modelos están dirigidos a desarrolladores que deseen crear aplicaciones de voz capaces de responder al contexto de una conversación en directo, sin limitarse al esquema tradicional de pregunta y respuesta.

GPT-Realtime-2 incorpora capacidades de razonamiento al nivel de GPT-5 y está preparado para gestionar solicitudes complejas, llamar a herramientas, asumir correcciones e interrupciones mientras mantiene una conversación fluida.

A este modelo se suma GPT-Realtime-Translate, centrado en la traducción en tiempo real. El sistema permite traducir voz desde más de 70 idiomas de entrada a 13 idiomas de salida, manteniendo el ritmo del usuario.

OpenAI plantea este modelo para servicios de atención al cliente, educación, eventos, medios de comunicación y otros entornos en los que se necesiten experiencias de voz multilingües en directo.

El tercer lanzamiento es GPT-Realtime-Whisper, un sistema de conversión de voz a texto con baja latencia que transcribe el discurso mientras la persona está hablando.

Según la compañía, estos modelos convierten el audio en tiempo real en una interfaz capaz de escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación.