cs.RO

Can one robot brain handle manipulation, navigation, and everything between?

Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen

May 28, 2026

Robots usually need separate specialists for grasping, navigation, and trajectory planning. Qwen-VLA unifies these into one foundation model trained on manipulation videos, human demonstrations, simulation, and navigation data. It uses embodiment-aware prompts to adapt to different robot morphologies and control schemes, achieving strong performance across multiple benchmarks and real-world ALOHA experiments with 76.9% zero-shot success in out-of-distribution scenarios.

Published as Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments arXiv:2605.30280

Read the original paper →