OpenAI impulsa la seguridad en IA con red teaming humano y automatizado, identificando riesgos y mejorando modelos para un uso más seguro.
Hoy en día en que los sistemas de inteligencia artificial (IA) están avanzando a un ritmo vertiginoso, garantizar su seguridad y utilidad es una prioridad global.
OpenAI acaba de presentar dos enfoques innovadores en este terreno, especialmente para fortalecer el «red teaming», un proceso que implica usar humanos y tecnología para probar las capacidades y riesgos de los modelos de IA en un marco estructurado.
¿Qué es el Red Teaming?
El red teaming es un enfoque estratégico que explora riesgos potenciales en sistemas de IA mediante pruebas realizadas por equipos humanos o sistemas automatizados.
Este método busca identificar debilidades y diseñar soluciones que mejoren la seguridad de los modelos. Por ejemplo, OpenAI aplicó red teaming externo para probar el modelo de generación de imágenes DALL·E 2 en 2022.
Desde entonces, OpenAI ha ampliado esta metodología, combinando métodos manuales, automatizados y mixtos para abordar las crecientes complejidades y riesgos asociados con los sistemas de IA avanzados.
Nuevas Investigaciones en Red Teaming
OpenAI presentó dos documentos clave que detallan cómo están avanzando en este campo:
- Red Teaming Externo: Un documento técnico que detalla cómo se involucran expertos externos para probar modelos de frontera.
- Red Teaming Automatizado: Un estudio que introduce un nuevo método para realizar red teaming automatizado, utilizando técnicas como aprendizaje por refuerzo y generación automática de recompensas.
Ambos enfoques tienen el objetivo de establecer estándares más sólidos para el red teaming y fomentar un desarrollo más seguro de la IA.
El Valor del Red Teaming Externo
La participación de expertos externos permite analizar los sistemas de IA desde perspectivas diversas, esenciales para identificar riesgos culturales, éticos y técnicos. Entre los elementos clave de las campañas de red teaming externo de OpenAI destacan:
- Selección de Expertos: Se eligen perfiles especializados en ciencias naturales, ciberseguridad, política regional y lingüística, según las necesidades del modelo.
- Pruebas en Múltiples Versiones: Los expertos prueban distintas iteraciones del modelo para evaluar riesgos en diferentes etapas de desarrollo.
- Interfaces y Documentación: Se proporcionan herramientas intuitivas e instrucciones claras para recopilar datos estructurados que alimenten evaluaciones de riesgo.
- Evaluaciones Reutilizables: Los datos recopilados permiten crear evaluaciones repetibles para futuras actualizaciones de los modelos.
Este enfoque se utilizó recientemente para preparar los modelos de la familia OpenAI o1, evaluando temas como resistencia a intentos de manipulación, manejo seguro de consultas delicadas y aplicaciones en ciencias naturales.
Avances en el Red Teaming Automatizado
El red teaming automatizado busca escalar la identificación de errores y ataques potenciales en los modelos de IA. Sin embargo, los métodos anteriores enfrentaban limitaciones en la diversidad y eficacia de los ataques generados.
El estudio presentado por OpenAI propone soluciones innovadoras, como:
- Recompensas Diversificadas: Utilizando modelos avanzados como GPT-4T, se generan ataques que son diversos y efectivos.
- Aprendizaje por Refuerzo Multietapa: Esto permite a los sistemas automatizados identificar y evaluar riesgos con mayor precisión y a mayor escala.
Por ejemplo, los sistemas automatizados pueden generar ataques novedosos como intentos de solicitar información ilícita y entrenar modelos para identificar y mitigar estos riesgos.
Limitaciones y Retos del Red Teaming
A pesar de sus beneficios, el red teaming no es una solución definitiva. Entre sus limitaciones destacan:
- Relevancia Temporal: Los riesgos identificados pueden cambiar a medida que los modelos evolucionan.
- Riesgos de Información: La exposición de vulnerabilidades puede facilitar el uso indebido por actores malintencionados.
- Sofisticación Humana: Se necesita un nivel más alto de conocimientos humanos para evaluar modelos cada vez más avanzados.
OpenAI reconoce que, aunque el red teaming es crucial, es necesario complementar estos esfuerzos con perspectivas públicas y enfoques más inclusivos para definir comportamientos ideales en la IA.
Un Futuro Más Seguro para la IA
Con estas investigaciones, OpenAI busca liderar un enfoque proactivo hacia la seguridad de la IA. Esta iniciativa marca un paso significativo hacia un ecosistema de IA más seguro, ético y confiable.