En un mundo donde la inteligencia artificial (IA) está avanzando a pasos agigantados, Boston Dynamics, empresa líder en robótica, ha dado un paso más allá al integrar modelos de lenguaje generativo en sus robots.
Boston Dynamics ha dado un paso significativo al incorporar inteligencia artificial en sus robots. Utilizando modelos de lenguaje generativo, la compañía busca entender cómo estos avances en IA pueden influir en el desarrollo de robots más inteligentes y versátiles.
Combinando Modelos Fundacionales de IA y Robótica
Los Modelos Fundacionales (FM) son sistemas de IA entrenados en grandes conjuntos de datos recopilados de internet. Estos modelos tienen millones o incluso miles de millones de parámetros y son capaces de realizar tareas para las que no fueron específicamente entrenados, un fenómeno conocido como «comportamiento emergente». Este tipo de IA ha estado en el centro de numerosas aplicaciones, desde chatbots hasta generadores de imágenes y voz.
Boston Dynamics ha estado experimentando con estos modelos para ver cómo pueden aplicarse en la robótica, particularmente en su robot Spot.
Boston Dynamics Spot
Spot es uno de los robots más conocidos de Boston Dynamics, diseñado para navegar en una variedad de entornos. Originalmente, Spot fue desarrollado para tareas de inspección industrial y monitoreo. Sin embargo, con la incorporación de modelos de lenguaje de gran escala, su funcionalidad se ha expandido significativamente.
Para mostrar el potencial de esta tecnología, el equipo de Boston Dynamics creó un guía turístico robotizado utilizando el SDK de Spot. El robot puede caminar por un edificio, identificar objetos y describirlos utilizando un modelo de Respuestas a Preguntas Visuales (VQA).
Además, puede responder preguntas del público y planificar sus próximas acciones en tiempo real. Todo esto se logra mediante la integración de varios modelos de IA, incluido ChatGPT de OpenAI.
Para que Spot funcione como un guía turístico, se requirió una combinación de hardware y software. Se utilizó un altavoz Respeaker V2 y un micrófono para permitir la interacción de audio. Además, se implementó un servicio SDK simple para comunicar audio con el hardware. En el lado del software, se utilizó la API de Chat GPT para habilidades de conversación y se integraron modelos de VQA y software de texto a voz para una interacción más rica.
Aunque la demostración fue un éxito, hay varios desafíos que deben abordarse. Uno de ellos es la «alucinación» de datos por parte de los modelos de lenguaje, donde generan información que suena plausible pero que no es precisa. Además, la latencia en la respuesta del robot puede ser de hasta 6 segundos, lo cual es un área que necesita mejora.
Implicaciones y Futuro
Este proyecto no solo demuestra el potencial de la IA en la robótica, sino que también abre la puerta a futuras aplicaciones, desde robots de servicio hasta compañeros de atención médica.
Sin embargo, también plantea preguntas éticas y técnicas que deben ser abordadas a medida que avanzamos hacia un futuro donde los robots formarán parte integral de nuestra vida cotidiana.