NVIDIA, el principal fabricante de GPUs del planeta, ha desarrollado un nuevo agente de inteligencia artificial que puede generar automáticamente algoritmos de recompensa para entrenar a robots en la realización de tareas complejas.
El agente de IA, llamado Eureka, utiliza el conocido modelo grande de lenguaje (LLM por sus siglas en inglés) GPT-4 e inteligencia artificial generativa para escribir código de software que recompensa a los robots por el aprendizaje por refuerzo. El aprendizaje por refuerzo es un tipo de aprendizaje automático que permite a los agentes aprender de sus propias acciones y retroalimentación.
Eureka ha entrenado a robots para realizar diversas habilidades, como girar un bolígrafo, abrir un cajón, lanzar y atrapar una pelota, y manipular tijeras. Los investigadores afirman que los algoritmos de recompensa generados por Eureka superan a los escritos por expertos humanos en más del 80% de las tareas, lo que lleva a una mejora del rendimiento promedio de más del 50% para los robots. Los investigadores también afirman que Eureka puede enseñar a cualquier tipo de robot, como cuadrúpedos, bípedos, quadrotores, manos diestras y brazos de robots colaborativos (Cobots).
Eureka funciona con tecnologías de simulación aceleradas por GPU de NVIDIA, como Isaac Gym y Omniverse. Isaac Gym es una aplicación de referencia de simulación física para investigación en aprendizaje por refuerzo. Omniverse es una plataforma de desarrollo para la construcción de herramientas y aplicaciones 3D basadas en el marco OpenUSD. Utilizando estas tecnologías, Eureka puede evaluar rápidamente la calidad de grandes lotes de candidatos de recompensa para un entrenamiento más eficiente.
El artículo de investigación sobre Eureka fue publicado en arXiv de la Universidad Cornell y en Github. El documento incluye los algoritmos de inteligencia artificial del proyecto, con los que los desarrolladores pueden experimentar utilizando Isaac Gym. El documento también proporciona evaluaciones exhaustivas de 20 tareas entrenadas por Eureka, basadas en parámetros de referencia de destreza de código abierto que requieren que las manos robóticas demuestren una amplia gama de habilidades de manipulación complejas.
Los investigadores también han lanzado un video que muestra algunas de las impresionantes habilidades que Eureka ha enseñado a los robots, como trucos de giro de bolígrafos rápidos que coinciden con el rendimiento humano. El video también muestra cómo Eureka puede incorporar retroalimentación humana para modificar sus recompensas para resultados más alineados con la visión de un desarrollador.
Los investigadores afirman que Eureka es un primer paso hacia el desarrollo de nuevos algoritmos que integran métodos de aprendizaje generativo y por refuerzo para resolver tareas difíciles. También dicen que Eureka permitirá el control de robots diestros y proporcionará una nueva forma de producir animaciones físicamente realistas para los artistas.
En conclusión, Eureka, el nuevo agente de IA de NVIDIA, representa un avance significativo en el campo de la robótica y el aprendizaje automático. Con un rendimiento que supera a los algoritmos escritos por humanos en más del 80% de las tareas, Eureka no solo eleva la barra para la formación de robots en tareas complejas, sino que también sugiere un futuro donde la colaboración entre humanos y máquinas será más fluida y eficiente. Es un testimonio del poder emergente de la inteligencia artificial generativa en la resolución de problemas reales.