6 julio 2024
OpenAI GPT-4o

OpenAI Lanza GPT-4o: Nueva Frontera en Interacción Hombre-Máquina

OpenAI ha anunciado el lanzamiento de GPT-4o, su nuevo modelo insignia que promete revolucionar la interacción entre humanos y computadoras.

Este modelo lanzado hoy, cuyo nombre incluye la «o» de «omni», es capaz de procesar y generar información en tiempo real a través de texto, audio e imágenes.

Capacidades, Seguridad y Limitaciones del Modelo GPT-4o

GPT-4o representa un avance significativo hacia una interacción más natural con las máquinas. A diferencia de sus predecesores, que separaban la transcripción de audio, procesamiento de texto y generación de audio en diferentes modelos, GPT-4o integra todo en una sola red neuronal.

Esto permite una comprensión más profunda del contexto y la capacidad de responder en tan solo 232 milisegundos, acercándose al tiempo de respuesta humano en una conversación.

A continuación tienen el vídeo de demostración del nuevo modelo de OpenAI, GPT-4o:

El modelo no solo iguala el rendimiento de GPT-4 Turbo en inglés y código, sino que también muestra mejoras significativas en el manejo de textos en idiomas no ingleses. Además, es más rápido y económico, ofreciendo sus servicios a la mitad del costo y con el doble de velocidad.

La seguridad es una prioridad para OpenAI y GPT-4o no es la excepción. El modelo incorpora técnicas de filtrado de datos de entrenamiento y ajustes de comportamiento post-entrenamiento para garantizar interacciones seguras.

Evaluaciones rigurosas han demostrado que GPT-4o no presenta riesgos elevados en categorías críticas como ciberseguridad y persuasión.

OpenAI ha sometido a GPT-4o a pruebas exhaustivas con expertos externos en psicología social, equidad y desinformación para identificar y mitigar posibles riesgos.

A pesar de estos esfuerzos, OpenAI reconoce que las capacidades de audio del modelo presentan desafíos únicos, y está trabajando para asegurar que estas funciones se desplieguen de manera segura y controlada.

Disponibilidad del Modelo

GPT-4o se está implementando de manera gradual, comenzando con capacidades de texto e imagen disponibles desde hoy en ChatGPT. Estará accesible para todos los usuarios, incluidos aquellos del nivel gratuito, y los usuarios Plus tendrán hasta cinco veces más límites de mensajes. Una versión alpha del modo de voz con GPT-4o estará disponible en las próximas semanas.

Para los desarrolladores, GPT-4o también está disponible en la API como modelo de texto y visión. En las próximas semanas, OpenAI planea lanzar las capacidades de audio y video a un grupo selecto de socios de confianza.

Con GPT-4o, OpenAI avanza un paso más en la frontera del aprendizaje profundo, enfocándose en la usabilidad práctica y la eficiencia. La compañía invita a la comunidad a proporcionar retroalimentación para seguir mejorando el modelo y explorar su potencial en diversas aplicaciones.

GPT-4o se perfila como un cambio de paradigma en la forma en que interactuamos con las máquinas, integrando múltiples modalidades de comunicación en un solo modelo y marcando un hito en la evolución de la inteligencia artificial.

Hector Russo

Desde hace 32 años está radicado en Dallas, Texas y desde mucho antes se dedica a la Tecnología de la Información. En su oportunidad fue incluido por Ivy Worldwide en su lista Top 25 influencers en Tecnología. Actualmente también es gerente de IT en una importante compañía del sector de Energía y además es miembro actual del panel que elige los mejores vehículos del año para el mercado hispano de Estados Unidos, a través de los Hispanic Motor Press Awards.

Ver todas las entradas de Hector Russo →