

清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)與上海人工智能實驗室聯(lián)合發(fā)布全新通用跨本體具身基座模型:X-VLA。X-VLA是首個實現(xiàn)120min無輔助自主疊衣任務(wù)的全開源模型(公開數(shù)據(jù)、代碼與參數(shù)),以僅0.9B的參數(shù)量在五大權(quán)威仿真基準(zhǔn)上全面刷新性能紀(jì)錄,為具身智能領(lǐng)域提供了一個性能強(qiáng)勁、完全開源的新基線與技術(shù)范式。
?項目主頁:https://thu-air-dream.github.io/X-VLA/
?代碼:https://github.com/2toinf/X-VLA.git
?作者:Jinliang Zheng*, Jianxiong Li*, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan
?使用產(chǎn)品:松靈COBOT MAGIC雙臂具身遙操作平臺繼續(xù)觀看
科研案例|清華X-VLA重磅開源,全面刷新機(jī)器人基準(zhǔn)性能記錄
核心亮點
性能突破:率先實現(xiàn)超長時序靈巧操作任務(wù)(如自主疊衣)的全流程開源,攻克長期復(fù)雜自主作業(yè)難題。
極致高效:僅0.9B超輕量參數(shù),即在五大仿真基準(zhǔn)上實現(xiàn)SOTA性能,達(dá)成卓越的效費比。
創(chuàng)新技術(shù):打破大規(guī)模異構(gòu)數(shù)據(jù)訓(xùn)練難題,通過Soft-Prompt與定制化訓(xùn)練范式,構(gòu)建出高效通用的跨本體基座模型。
開源開放:完整公開模型參數(shù)、代碼與訓(xùn)練數(shù)據(jù),助力具身智能社區(qū)復(fù)現(xiàn)與創(chuàng)新。
核心方法
1.高效模型設(shè)計
面向本體泛化的Soft-Prompt機(jī)制:為克服不同機(jī)器人平臺在自由度、相機(jī)觀測視角等本體參數(shù)上的差異,本研究引入了可學(xué)習(xí)的Soft-Prompt。該機(jī)制動態(tài)地將具身本體的硬件配置信息編碼為一種連續(xù)表征,使模型在預(yù)訓(xùn)練中能夠解耦任務(wù)策略與具體執(zhí)行器,從而顯著增強(qiáng)模型對異構(gòu)機(jī)器人平臺的適應(yīng)能力,并提升混合數(shù)據(jù)訓(xùn)練的穩(wěn)定性與效率。
基于功能分工的多模態(tài)編碼策略:針對機(jī)器人任務(wù)中多源視覺輸入的異質(zhì)性,我們提出了分治編碼方案。任務(wù)相關(guān)的主視角圖像由高性能視覺-語言模型編碼,以提取高層語義特征;而主要提供低層次空間反饋的輔助視角,則通過輕量化的網(wǎng)絡(luò)進(jìn)行局部特征提取。該策略在保證信息完整性的前提下,優(yōu)化了計算資源的分配,提升了模型的信息處理通量。
基于flow-macthing的生成式動作解碼器:模型主干采用標(biāo)準(zhǔn)Transformer架構(gòu),以確保良好的擴(kuò)展性與通用性。動作生成模塊摒棄了傳統(tǒng)的確定性輸出策略,轉(zhuǎn)而采用先進(jìn)的flow-matching,以概率生成的方式建模機(jī)器人動作序列。該方法顯著增強(qiáng)了動作軌跡的平滑性與對不確定環(huán)境的魯棒性,為長時序任務(wù)的成功執(zhí)行奠定了堅實基礎(chǔ)。
2.大規(guī)模高質(zhì)量異構(gòu)數(shù)據(jù)預(yù)訓(xùn)練
平衡化數(shù)據(jù)采樣:定制數(shù)據(jù)采樣策略,確保異構(gòu)數(shù)據(jù)集的均衡訓(xùn)練,避免模型偏斜。
多模態(tài)數(shù)據(jù)清洗與時空對齊流水線:我們對原始機(jī)器人操作數(shù)據(jù)實施了嚴(yán)格預(yù)處理,包括:將不同空間下的動作數(shù)據(jù)統(tǒng)一映射至標(biāo)準(zhǔn)任務(wù)空間;對高頻率采集的數(shù)據(jù)進(jìn)行時序?qū)用娴膶R與重采樣。此流程極大提升了狀態(tài)-動作序列在時間上的一致性邏輯與整體質(zhì)量。
以語義-動作對齊為導(dǎo)向的數(shù)據(jù)遴選標(biāo)準(zhǔn):我們確立了嚴(yán)格的數(shù)據(jù)質(zhì)量門檻,核心是篩選視覺幀清晰、語言指令描述精準(zhǔn)且與后續(xù)動作序列高度關(guān)聯(lián)的數(shù)據(jù)樣本。此舉從源頭上確保了模型學(xué)習(xí)到的是有明確因果關(guān)系的“行為知識”,而非淺層的虛假關(guān)聯(lián)。
3.定制后訓(xùn)練流程與技巧
分層分組的自適應(yīng)學(xué)習(xí)率調(diào)整:鑒于模型中不同組件(如預(yù)訓(xùn)練凍結(jié)的VLM、新引入的Soft-Prompt、主干Transformer等)的參數(shù)規(guī)模與收斂特性各異,我們?yōu)槠涫┘恿朔纸M別、差異化的學(xué)習(xí)率調(diào)度策略。該設(shè)計既保護(hù)了預(yù)訓(xùn)練獲得的基礎(chǔ)知識,又允許關(guān)鍵適配層快速調(diào)整,從而在保證訓(xùn)練穩(wěn)定性的同時,大幅優(yōu)化了收斂效率。
面向異構(gòu)模塊的漸進(jìn)式 warm-up 策略:對于模型中新引入的可學(xué)習(xí)參數(shù)(如Soft-Prompt),我們在訓(xùn)練初始階段采用線性遞增的學(xué)習(xí)率熱身機(jī)制,使其參數(shù)空間得以平穩(wěn)初始化,再逐步融入全局優(yōu)化過程。該策略有效避免了訓(xùn)練初期因梯度劇變導(dǎo)致的不穩(wěn)定性,尤其適用于異構(gòu)模塊的協(xié)同訓(xùn)練。
實驗結(jié)果
高效預(yù)訓(xùn)練:可擴(kuò)展的架構(gòu)優(yōu)勢
X-VLA 的預(yù)訓(xùn)練縮放定律(Scaling Laws)曲線呈現(xiàn)出優(yōu)異的線性增長趨勢。這表明,隨著模型參數(shù)以及訓(xùn)練數(shù)據(jù)規(guī)模的同步擴(kuò)大,其在測試集的開環(huán)測試性能呈現(xiàn)穩(wěn)定、可預(yù)測的提升。這一現(xiàn)象驗證了所提出的 Soft-Prompt 機(jī)制與簡潔Transformer架構(gòu)的強(qiáng)大可擴(kuò)展性,為構(gòu)建更大規(guī)模的具身智能基座模型奠定了堅實基礎(chǔ)。
高效后訓(xùn)練:數(shù)據(jù)與算法的協(xié)同優(yōu)化
得益于高質(zhì)量的預(yù)訓(xùn)練基座,X-VLA 在后訓(xùn)練(微調(diào))階段展現(xiàn)出極高的數(shù)據(jù)效率與穩(wěn)定性。針對不同的下游任務(wù)(如自主疊衣),只需使用中小規(guī)模的場景專屬數(shù)據(jù)進(jìn)行微調(diào),模型便能快速適應(yīng)并達(dá)到SOTA性能。這源于預(yù)訓(xùn)練階段學(xué)習(xí)到的通用視覺-語言-動作表征,以及后訓(xùn)練中采用的定制化學(xué)習(xí)率策略與慢啟動機(jī)制,它們共同確保了知識從通用域到特定任務(wù)的高效、穩(wěn)定遷移。
仿真基準(zhǔn)測試結(jié)果
在包括LIBERO、SIMPLER等在內(nèi)的權(quán)威仿真環(huán)境中,X-VLA均取得了SOTA性能,顯著優(yōu)于現(xiàn)有同類模型。
實機(jī)實驗測試結(jié)果
在真實的機(jī)器人平臺上,X-VLA在大量常規(guī)抓取和復(fù)雜桌面操作任務(wù)中展現(xiàn)了強(qiáng)大性能,并成功完成了不限時長的自主疊衣任務(wù),且可零樣本遷移部署至全新的環(huán)境,展示了其應(yīng)對復(fù)雜長程任務(wù)的卓越能力。詳細(xì)任務(wù)執(zhí)行效果參見本文開頭視頻。
松靈機(jī)器人成立于2016年,是全球領(lǐng)先的機(jī)器人底盤制造商和移動機(jī)器人系統(tǒng)解決方案服務(wù)商。目前,松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動機(jī)器人底盤,在載重、續(xù)航、速度、運動模式等不同需求場景下實現(xiàn)全矩陣覆蓋。同時,松靈機(jī)器人還推出了自動駕駛解決方案,平行駕駛解決方案,機(jī)器人科研教育套件等移動機(jī)器人底盤配套產(chǎn)品,幫助客戶在自動駕駛、機(jī)械控制、計算機(jī)、車輛等領(lǐng)域完成實驗驗證。
憑借領(lǐng)先的研發(fā)技術(shù),松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè),以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國立大學(xué)、紐約大學(xué)等國內(nèi)外50多所頂尖學(xué)府開展了深度合作。


