3 julio 2024
OpenAI Voice Engine

Voice Engine: Tecnología y Seguridad en el Desarrollo del Modelo de Voz de OpenAI

OpenAI explica cómo funciona Voice Engine, la tecnología detrás del modelo de texto a voz, y las medidas de seguridad implementadas para su desarrollo y uso.

Voice Engine de OpenAI es un modelo capaz de crear voces personalizadas a partir de texto y una muestra de voz de 15 segundos.  Esta tecnología de texto a voz (TTS) permite generar audio similar al humano, reflejando diversas voces, acentos y estilos de habla.

Aunque aún no está ampliamente disponible, OpenAI ha implementado medidas de seguridad rigurosas y continúa trabajando con diversos socios para garantizar su uso seguro y ético.

Cómo Funciona Voice Engine

Voice Engine de OpenAI se basa en un modelo de texto a voz (TTS) que genera audio humano a partir de texto y una muestra de voz de 15 segundos.

El sistema TTS se desarrolla ayudando al modelo a entender las sutilezas del habla mediante el emparejamiento de audio y transcripciones. El modelo aprende a predecir los sonidos más probables que un hablante hará para un texto dado, considerando diferentes voces, acentos y estilos de habla.

Para generar audio, el modelo requiere solo una muestra de 15 segundos del hablante y el texto correspondiente. No se ajusta específicamente a ningún hablante; en su lugar, emplea un proceso de difusión que comienza con ruido aleatorio y se desnoise progresivamente hasta coincidir con cómo el hablante del audio original articularía el texto.

Desarrollo del Modelo Voice Engine

Voice Engine fue desarrollado por OpenAI a fines de 2022. Inicialmente, se probó internamente utilizando una mezcla de muestras de voz públicas y privadas. Este prototipo interno fue esencial para su investigación de alineación y seguridad, informando sus salvaguardas y siendo parte de su compromiso continuo con la comprensión del límite técnico.

Estas pruebas internas también ayudaron a los responsables de políticas globales a comprender las capacidades y riesgos de los modelos de voz sintética.

En septiembre de 2023, OpenAI utilizó Voice Engine para potenciar la función de Modo de Voz de ChatGPT, un lanzamiento limitado que presentaba nuevas capacidades y riesgos.

En noviembre de 2023, OpenAI lanzó una API de TTS simple, también impulsada por Voice Engine. Este lanzamiento limitado trabajó con actores de voz profesionales para crear muestras de audio de 15 segundos para cada una de las seis voces preestablecidas en la API. Los desarrolladores pueden integrar estas voces en sus sitios web para leer publicaciones de blog, por ejemplo.

En marzo de 2024, OpenAI presentó la capacidad de Voice Engine para crear voces personalizadas con un pequeño grupo de socios de confianza.

Este esfuerzo buscó concienciar sobre las capacidades de las voces sintéticas y apoyar objetivos como la eliminación de la autenticación por voz como medida de seguridad y la exploración de políticas para proteger el uso de las voces en la IA.

Construcción Segura de Voice Engine

Construir Voice Engine de manera segura es una prioridad principal para OpenAI. La organización continúa colaborando con socios de EE.UU. e internacionales de diversos sectores para garantizar que incorporan sus comentarios mientras desarrollan esta tecnología.

Los socios que prueban Voice Engine han acordado políticas de uso que prohíben la suplantación sin consentimiento y requieren la aprobación explícita del hablante original. Además, medidas de seguridad como el marcado de agua y la monitorización proactiva están en marcha para rastrear y supervisar el uso de la tecnología.

Futuro de la Seguridad en Voz Sintética

Modelos como GPT-4o, con capacidades de audio nativas, permiten nuevas interacciones que modelos anteriores como Voice Engine no podían.

Sin embargo, OpenAI reconoce que la modalidad de audio de GPT-4o introduce nuevos riesgos, especialmente en la generación de voz. La organización está realizando pruebas rigurosas para identificar y abordar tanto riesgos conocidos como imprevistos en varios campos, como la psicología social, el sesgo y la equidad, y la desinformación.

Consistente con su enfoque cauteloso, OpenAI restringirá las salidas de audio de GPT-4o a una selección de voces preestablecidas para su lanzamiento general. Estas voces fueron obtenidas de actores de voz profesionales seleccionados a través de un proceso de casting cuidadosamente considerado.

OpenAI compartirá información adicional sobre los riesgos relacionados con el audio y las mitigaciones en la próxima tarjeta del sistema GPT-4o.

Hector Russo

Desde hace 32 años está radicado en Dallas, Texas y desde mucho antes se dedica a la Tecnología de la Información. En su oportunidad fue incluido por Ivy Worldwide en su lista Top 25 influencers en Tecnología. Actualmente también es gerente de IT en una importante compañía del sector de Energía y además es miembro actual del panel que elige los mejores vehículos del año para el mercado hispano de Estados Unidos, a través de los Hispanic Motor Press Awards.

Ver todas las entradas de Hector Russo →