OpenAI lanza nuevos modelos de audio en su API con mejoras en la transcripción de voz y la conversión de texto a habla, ofreciendo mayor precisión y personalización.
Una de las organizaciones líderes en Inteligencia Artificial, OpenAI, ha anunciado el lanzamiento de una nueva suite de modelos de audio en su API, diseñados para mejorar significativamente la transcripción de voz a texto y la generación de voz a partir de texto.
Con innovaciones en inteligencia artificial y aprendizaje reforzado, estos modelos ofrecen mayor precisión en entornos desafiantes y una capacidad inédita de personalización de la entonación y el estilo del habla.

Nuevos Modelos de Transcripción de Voz
OpenAI ha introducido dos modelos avanzados de reconocimiento de voz: gpt-4o-transcribe y gpt-4o-mini-transcribe. Estas versiones mejoradas superan en precisión a modelos anteriores como Whisper, reduciendo la tasa de error en palabras (WER) y mejorando el reconocimiento de distintos idiomas y acentos. Estos avances permiten una transcripción más precisa en situaciones con ruido ambiental o velocidades de habla variables.
Según OpenAI, las mejoras se basan en nuevos métodos de aprendizaje reforzado y en la utilización de conjuntos de datos de audio de alta calidad. Esto hace que los modelos sean especialmente útiles para aplicaciones como la transcripción de llamadas en centros de atención al cliente y la generación automática de subtítulos para contenido multimedia.
Conversión de Texto a Voz con Mayor Personalización
Además de la mejora en transcripción, OpenAI ha lanzado el modelo gpt-4o-mini-tts, una versión mejorada de su tecnología de conversión de texto a voz (TTS). Este modelo introduce la capacidad de modificar el tono y la forma en que una inteligencia artificial habla, permitiendo a los desarrolladores solicitar estilos específicos, como «hablar como un agente de servicio al cliente empático» o «con entonación de narrador de cuentos».
Este nivel de personalización abre nuevas posibilidades para el desarrollo de asistentes de voz más naturales y adaptados a distintos usos, desde atención al cliente hasta narraciones creativas.
Innovaciones Tecnológicas
OpenAI ha aplicado varias mejoras tecnológicas en estos modelos de audio:
- Preentrenamiento con conjuntos de datos de audio reales: permite una mayor comprensión de matices del habla humana.
- Metodología de destilación avanzada: transferencia de conocimientos desde modelos grandes hacia versiones más eficientes.
- Uso intensivo de aprendizaje por refuerzo: mejora la precisión y reduce errores en la transcripción, evitando errores comunes en el reconocimiento de voz.
Estas mejoras hacen que la API de OpenAI sea una opción más confiable para empresas y desarrolladores que buscan soluciones robustas de voz.
Disponibilidad y Futuro del Audio en OpenAI
Los nuevos modelos de audio están disponibles para todos los desarrolladores a través de la API de OpenAI. Además, la compañía ha anunciado planes para continuar mejorando la precisión e inteligencia de estos modelos, así como explorar la posibilidad de que los desarrolladores integren voces personalizadas en sus aplicaciones.
En el horizonte, OpenAI también planea expandirse a otros formatos multimodales, como video, para crear experiencias de agentes virtuales más completas. Con estas innovaciones, la inteligencia artificial sigue avanzando hacia interacciones más naturales y eficientes en el ámbito de la voz.