22 diciembre 2024

Chatbots de IA: Desarrollan Método Innovador Para Prevenir Respuestas Tóxicas

Investigadores del MIT han desarrollado un método innovador y más eficiente para prevenir respuestas tóxicas de los chatbots de IA, utilizando un modelo avanzado de aprendizaje automático.

Tradicionalmente, asegurar que las respuestas de los chatbots sean seguras y adecuadas se logra a través de un proceso conocido como «red teaming».

Este proceso implica que evaluadores humanos intenten deliberadamente provocar respuestas dañinas de los sistemas de IA. Sin embargo, debido a la complejidad y variedad de interacciones posibles, los métodos tradicionales han mostrado limitaciones.

Chatbots de IA - Red Teaming
Imagen DALL-E

Nuevo Enfoque Para Mejorar Seguridad de Chatbots de IA

El equipo del Laboratorio de IA Improbable del MIT y del Laboratorio de IA Watson MIT-IBM han liderado un nuevo enfoque que utiliza el aprendizaje automático para mejorar la efectividad de estas pruebas.

Red teaming tradicional implica a evaluadores humanos diseñando indicaciones para desencadenar respuestas tóxicas de los chatbots de IA o sea respuestas de odio o dañinas. No obstante, debido a la gran variedad de posibles salidas tóxicas, prever y probar cada indicación tóxica resulta casi imposible. Aunque indispensable, el red teaming tradicional enfrenta desafíos significativos en escala, efectividad y uso de recursos.

Los investigadores han desarrollado un modelo de aprendizaje automático que automatiza la generación de indicaciones de red teaming. Este modelo utiliza técnicas de exploración basadas en la curiosidad para generar un amplio rango de indicaciones que provocan respuestas tóxicas de forma más efectiva.

La novedad y la diversidad de las indicaciones son recompensadas, incentivando al modelo a explorar y generar nuevas indicaciones en lugar de repetir las conocidas.

Beneficios sobre los Métodos Tradicionales

Este nuevo método tiene varias ventajas, como una mayor diversidad de indicaciones probadas y una mayor eficiencia, lo que permite actualizaciones y mejoras más frecuentes de los modelos de IA. También ha demostrado ser más efectivo que otros enfoques de aprendizaje automático y evaluadores humanos en identificar respuestas potencialmente tóxicas de los chatbots de IA.

Aplicaciones Prácticas y Futuro

El éxito de este enfoque tiene profundas implicaciones para la implementación de sistemas de IA más seguros y confiables. Las futuras investigaciones buscarán expandir los tipos de indicaciones que el modelo puede generar y explorar la integración de políticas específicas de empresas o normas sociales en el proceso de entrenamiento.

Este avance representa un paso significativo hacia la seguridad de la IA, mostrando el compromiso continuo con el desarrollo ético de la tecnología.

La investigación ha sido financiada por una combinación de asociaciones académicas y corporativas, reflejando la creciente importancia de la seguridad de la IA en los sectores público y privado.

Siguenos por Twitter a través de @Geeksroom y no te pierdas todas las noticias, cursos gratuitos y demás artículos. También puedes seguirnos a través de nuestro canal de Youtube para ver nuestros vídeos, a través de Instagram para ver nuestras imágenes! O vía Bluesky si ya estás cansado de Twitter

Hector Russo

Desde su juventud se ha dedicado a la Tecnología de la Información. En su oportunidad fue incluido por Ivy Worldwide en su lista Top 25 influencers en Tecnología. Actualmente es miembro del panel de jurados que elige los mejores vehículos del año para el mercado hispano de Estados Unidos, a través de los Hispanic Motor Press Awards.

Ver todas las entradas de Hector Russo →

Un comentario en «Chatbots de IA: Desarrollan Método Innovador Para Prevenir Respuestas Tóxicas»

Los comentarios están cerrados.