Alibaba Cloud presenta Qwen-RobotSuite para impulsar una nueva generación de robots

Alibaba Cloud presenta Qwen-RobotSuite para impulsar una nueva generación de robots

Sigue a MadridActual en Google
Añadir a mis fuentes favoritas

La plataforma integra tres modelos especializados que combinan comprensión visual, navegación, manipulación y simulación de entornos físicos para robots industriales y comerciales.

Tongyi Lab, la división de Inteligencia Artificial de Alibaba Cloud, ha presentado Qwen-RobotSuite, una familia de modelos de lenguaje y visión diseñada para cerrar la brecha entre la comprensión del entorno físico y la ejecución de acciones en robótica. La compañía plantea esta tecnología como base para desarrollar robots industriales y comerciales de nueva generación capaces de operar de forma más autónoma e inteligente.

El proyecto se sustenta en la experiencia de Tongyi Lab en software libre e inteligencia artificial, con modelos de pesos abiertos como Qwen 2.5 y Qwen3 que funcionan localmente en los dispositivos. Con Qwen-RobotSuite, Alibaba Cloud aspira a proporcionar una solución compatible con una amplia variedad de plataformas robóticas, independientemente de su configuración o fabricante.

Los modelos que componen esta suite incorporan capacidades para identificar objetos, interpretar relaciones espaciales, seguir instrucciones visuales complejas y razonar sobre escenarios reales. Esto permite procesar órdenes como "Ve a la cocina, encuentra un plato azul, tómalo y colócalo en la estantería", integrando percepción y ejecución en una única arquitectura de software.

Alibaba Cloud ha detallado en su blog los objetivos de los tres modelos fundacionales que integran esta suite y ha confirmado que ya se encuentran en marcha distintas fases piloto y pruebas de rendimiento con clientes empresariales seleccionados a través de su plataforma.

Qwen-RobotNav y la navegación basada en visión

El primero de estos sistemas es Qwen-RobotNav, diseñado para integrar funciones como el seguimiento de instrucciones de voz, la localización de objetos, el rastreo de objetivos y la conducción autónoma en un único modelo. La tecnología ya ha sido validada en el perro robot Unitree Go2 utilizando únicamente su cámara integrada de baja resolución.

Según sus desarrolladores, el objetivo principal de RobotNav es gestionar la memoria visual para convertir el contexto en un parámetro controlable durante la navegación e interacción con el entorno físico.

Manipulación y transferencia de habilidades entre robots

Otro componente clave de la plataforma es Qwen-RobotManip, desarrollado para resolver los desafíos derivados de las distintas configuraciones de brazos robóticos, tanto en número de articulaciones como en disposición de cámaras.

El modelo traduce los movimientos a un espacio de estado y acción de 80 dimensiones junto con un sistema de coordenadas de cámara. Este enfoque convierte acciones, como un vídeo de una persona lavando platos, en un formato matemático estandarizado que actúa como un auténtico "traductor universal" entre diferentes sistemas robóticos.

Entre sus capacidades destaca la posibilidad de corregir errores en tiempo real y facilitar la transferencia de habilidades entre robots con diseños o configuraciones completamente distintos, lo que reduce significativamente el tiempo de entrenamiento y adaptación.

Un simulador para anticipar lo que ocurrirá

La tercera pieza de la suite es Qwen-RobotWorld, concebido como un simulador mental capaz de recibir una imagen y una instrucción en lenguaje natural para generar una predicción visual de lo que sucederá posteriormente en el entorno físico.

Este sistema emplea un modelo de lenguaje de gran tamaño para interpretar comportamientos físicos relacionados con objetos y líquidos, además de interactuar con brazos rígidos. Asimismo, genera vídeos desde diferentes perspectivas para mejorar la comprensión del entorno y facilitar el entrenamiento de robots en simuladores antes de su despliegue en operaciones reales.

El funcionamiento conjunto de estos tres modelos se apoya en un sistema superior, similar a un modelo generalista como Qwen3.7, que coordina las distintas herramientas. Este componente actúa como un "cerebro pensante" encargado de dividir órdenes complejas en subtareas y distribuir instrucciones detalladas a Qwen-RobotManip o Qwen-RobotNav según sea necesario.

La plataforma también contempla la gestión de incidencias durante la ejecución de tareas. Si un robot no consigue agarrar un objeto, el planificador detecta el problema y reorganiza la secuencia de tareas para corregir el error y continuar con la operación prevista sin intervención humana.