OpenAI ha anunciado el lanzamiento de GPT-4o, su nuevo modelo insignia que promete revolucionar la interacción entre humanos y computadoras.
Este modelo lanzado hoy, cuyo nombre incluye la «o» de «omni», es capaz de procesar y generar información en tiempo real a través de texto, audio e imágenes.
Capacidades, Seguridad y Limitaciones del Modelo GPT-4o
GPT-4o representa un avance significativo hacia una interacción más natural con las máquinas. A diferencia de sus predecesores, que separaban la transcripción de audio, procesamiento de texto y generación de audio en diferentes modelos, GPT-4o integra todo en una sola red neuronal.
Esto permite una comprensión más profunda del contexto y la capacidad de responder en tan solo 232 milisegundos, acercándose al tiempo de respuesta humano en una conversación.
A continuación tienen el vídeo de demostración del nuevo modelo de OpenAI, GPT-4o:
El modelo no solo iguala el rendimiento de GPT-4 Turbo en inglés y código, sino que también muestra mejoras significativas en el manejo de textos en idiomas no ingleses. Además, es más rápido y económico, ofreciendo sus servicios a la mitad del costo y con el doble de velocidad.
La seguridad es una prioridad para OpenAI y GPT-4o no es la excepción. El modelo incorpora técnicas de filtrado de datos de entrenamiento y ajustes de comportamiento post-entrenamiento para garantizar interacciones seguras.
Evaluaciones rigurosas han demostrado que GPT-4o no presenta riesgos elevados en categorías críticas como ciberseguridad y persuasión.
OpenAI ha sometido a GPT-4o a pruebas exhaustivas con expertos externos en psicología social, equidad y desinformación para identificar y mitigar posibles riesgos.
A pesar de estos esfuerzos, OpenAI reconoce que las capacidades de audio del modelo presentan desafíos únicos, y está trabajando para asegurar que estas funciones se desplieguen de manera segura y controlada.
Disponibilidad del Modelo
GPT-4o se está implementando de manera gradual, comenzando con capacidades de texto e imagen disponibles desde hoy en ChatGPT. Estará accesible para todos los usuarios, incluidos aquellos del nivel gratuito, y los usuarios Plus tendrán hasta cinco veces más límites de mensajes. Una versión alpha del modo de voz con GPT-4o estará disponible en las próximas semanas.
Para los desarrolladores, GPT-4o también está disponible en la API como modelo de texto y visión. En las próximas semanas, OpenAI planea lanzar las capacidades de audio y video a un grupo selecto de socios de confianza.
Con GPT-4o, OpenAI avanza un paso más en la frontera del aprendizaje profundo, enfocándose en la usabilidad práctica y la eficiencia. La compañía invita a la comunidad a proporcionar retroalimentación para seguir mejorando el modelo y explorar su potencial en diversas aplicaciones.
GPT-4o se perfila como un cambio de paradigma en la forma en que interactuamos con las máquinas, integrando múltiples modalidades de comunicación en un solo modelo y marcando un hito en la evolución de la inteligencia artificial.