Durante décadas, la robótica ha sido un elemento esencial en nuestras visiones del futuro. Sin embargo, hasta ahora, la tecnología necesaria para hacer realidad estos sueños han sido esquiva.
Google DeepMind ha presentado un avance significativo en la robótica que nos acerca a un futuro lleno de robots útiles. Se trata del Robotics Transformer 2 (RT-2), un modelo de visión-lenguaje-acción (VLA) sin precedentes.
El RT-2, un modelo basado en Transformers y entrenado con texto e imágenes de la web, puede generar directamente acciones robóticas. Al igual que los modelos de lenguaje se entrenan con texto de la web para aprender ideas y conceptos generales, RT-2 transfiere conocimientos de los datos web para informar el comportamiento del robot. En otras palabras, RT-2 puede «hablar robot».
El desafío de la robótica siempre ha sido enorme, ya que un robot capaz de realizar tareas generales en el mundo necesita poder manejar tareas complejas y abstractas en entornos altamente variables, especialmente aquellos que nunca ha visto antes. A diferencia de los chatbots, los robots necesitan «anclarse» en el mundo real y sus habilidades.
Su entrenamiento no se trata solo de aprender todo lo que hay que saber sobre una manzana, por ejemplo, sino de ser capaz de reconocer una manzana en contexto, distinguirla de una pelota roja, entender cómo se ve y, lo más importante, saber cómo recogerla.
El RT-2 elimina la complejidad y permite que un solo modelo no solo realice el razonamiento complejo visto en los modelos de base, sino que también genere acciones robóticas.
Lo más importante es que muestra que con una pequeña cantidad de datos de entrenamiento de robots, el sistema es capaz de transferir conceptos incrustados en sus datos de entrenamiento de lenguaje y visión para dirigir acciones de robots, incluso para tareas que nunca ha sido entrenado para hacer.
El RT-2 muestra una promesa enorme para robots de propósito más general. Aunque todavía queda mucho trabajo por hacer para habilitar robots útiles en entornos centrados en el ser humano, RT-2 nos muestra un futuro emocionante para la robótica que está al alcance de la mano.