OpenAI lanza nuevas funciones de inteligencia de voz en su API


OpenAI dijo el jueves que su API ahora incluirá una serie de nuevas funciones de inteligencia de voz diseñadas para ayudar a los desarrolladores a crear aplicaciones que puedan hablar, transcribir y traducir conversaciones con los usuarios.

El nuevo GPT‑Realtime‑2 de la empresa es otro modelo de voz, creado para crear una simulación vocal realista que pueda conversar con los usuarios. Sin embargo, a diferencia de su predecesor (GPT-Realtime-1.5), este está construido con razonamiento de clase GPT-5 que, según OpenAI, fue creado para manejar solicitudes más complicadas de los usuarios.

La compañía también está lanzando GPT-Realtime-Translate, que, tal como suena, está diseñado para brindar servicios de traducción en tiempo real que «siguen el ritmo» del usuario, en la conversación. La función incluye más de 70 idiomas de entrada (es decir, los idiomas que puede comprender) y 13 idiomas de salida (los idiomas que transmite al hablante).

Finalmente, la compañía también lanzó una nueva capacidad de transcripción, GPT-Realtime-Whisper, que brinda a los usuarios capacidades de conversión de voz a texto en vivo que se capturan a medida que ocurren las interacciones.

«Juntos, los modelos que estamos lanzando trasladan el audio en tiempo real desde una simple llamada y respuesta hacia interfaces de voz que realmente pueden funcionar: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación», dijo la compañía.

¿Para quién serán buenas estas actualizaciones? Las empresas que quieran ampliar las capacidades de servicio al cliente son un objetivo obvio. Sin embargo, OpenAI también señala que sus nuevas funciones ayudarán en una amplia gama de áreas, incluida la educación, los medios, los eventos y las plataformas de creadores, entre otras.

Por más útiles que parezcan estas herramientas desde una perspectiva empresarial, también parece plausible que puedan usarse indebidamente. La compañía dijo que ha construido barreras de seguridad para evitar que se abuse de sus nuevas funciones para crear spam, fraude u otras formas de abuso en línea. Se han integrado ciertos activadores en el sistema para que “las conversaciones puedan detenerse si se detecta que violan nuestras pautas de contenido dañino”, dijo OpenAI.

Evento tecnológico

San Francisco, California
|
13-15 de octubre de 2026

Todos los nuevos modelos de voz están incluidos en la API en tiempo real de OpenAI. Translate y Whisper se facturan por minuto, mientras que GPT-Realtime-2 se factura según el consumo de token.

Cuando compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta nuestra independencia editorial.



Fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here