科研案例|清華X-VLA重磅開源，全面刷新機(jī)器人基準(zhǔn)性能記錄

2025-10-20 11:16 性質(zhì)：轉(zhuǎn)載作者：松靈機(jī)器人來源：松靈機(jī)器人

免責(zé)聲明：AGV網(wǎng)（www.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）與上海人工智能實驗室聯(lián)合發(fā)布全新通用跨本體具身基座模型：X-VLA。X-VLA是首個實現(xiàn)120min無輔助自主疊衣任務(wù)的全開源模型（公開數(shù)據(jù)、代碼與參數(shù)），以僅0.9B的參數(shù)...

清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）與上海人工智能實驗室聯(lián)合發(fā)布全新通用跨本體具身基座模型：X-VLA。X-VLA是首個實現(xiàn)120min無輔助自主疊衣任務(wù)的全開源模型（公開數(shù)據(jù)、代碼與參數(shù)），以僅0.9B的參數(shù)量在五大權(quán)威仿真基準(zhǔn)上全面刷新性能紀(jì)錄，為具身智能領(lǐng)域提供了一個性能強(qiáng)勁、完全開源的新基線與技術(shù)范式。

?項目主頁：https://thu-air-dream.github.io/X-VLA/

?代碼：https://github.com/2toinf/X-VLA.git

?作者：Jinliang Zheng*, Jianxiong Li*, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan

?使用產(chǎn)品：松靈COBOT MAGIC雙臂具身遙操作平臺繼續(xù)觀看

科研案例|清華X-VLA重磅開源，全面刷新機(jī)器人基準(zhǔn)性能記錄

核心亮點

性能突破：率先實現(xiàn)超長時序靈巧操作任務(wù)（如自主疊衣）的全流程開源，攻克長期復(fù)雜自主作業(yè)難題。
極致高效：僅0.9B超輕量參數(shù)，即在五大仿真基準(zhǔn)上實現(xiàn)SOTA性能，達(dá)成卓越的效費比。
創(chuàng)新技術(shù)：打破大規(guī)模異構(gòu)數(shù)據(jù)訓(xùn)練難題，通過Soft-Prompt與定制化訓(xùn)練范式，構(gòu)建出高效通用的跨本體基座模型。
開源開放：完整公開模型參數(shù)、代碼與訓(xùn)練數(shù)據(jù)，助力具身智能社區(qū)復(fù)現(xiàn)與創(chuàng)新。

核心方法

1.高效模型設(shè)計

面向本體泛化的Soft-Prompt機(jī)制：為克服不同機(jī)器人平臺在自由度、相機(jī)觀測視角等本體參數(shù)上的差異，本研究引入了可學(xué)習(xí)的Soft-Prompt。該機(jī)制動態(tài)地將具身本體的硬件配置信息編碼為一種連續(xù)表征，使模型在預(yù)訓(xùn)練中能夠解耦任務(wù)策略與具體執(zhí)行器，從而顯著增強(qiáng)模型對異構(gòu)機(jī)器人平臺的適應(yīng)能力，并提升混合數(shù)據(jù)訓(xùn)練的穩(wěn)定性與效率。
基于功能分工的多模態(tài)編碼策略：針對機(jī)器人任務(wù)中多源視覺輸入的異質(zhì)性，我們提出了分治編碼方案。任務(wù)相關(guān)的主視角圖像由高性能視覺-語言模型編碼，以提取高層語義特征；而主要提供低層次空間反饋的輔助視角，則通過輕量化的網(wǎng)絡(luò)進(jìn)行局部特征提取。該策略在保證信息完整性的前提下，優(yōu)化了計算資源的分配，提升了模型的信息處理通量。
基于flow-macthing的生成式動作解碼器：模型主干采用標(biāo)準(zhǔn)Transformer架構(gòu)，以確保良好的擴(kuò)展性與通用性。動作生成模塊摒棄了傳統(tǒng)的確定性輸出策略，轉(zhuǎn)而采用先進(jìn)的flow-matching，以概率生成的方式建模機(jī)器人動作序列。該方法顯著增強(qiáng)了動作軌跡的平滑性與對不確定環(huán)境的魯棒性，為長時序任務(wù)的成功執(zhí)行奠定了堅實基礎(chǔ)。

2.大規(guī)模高質(zhì)量異構(gòu)數(shù)據(jù)預(yù)訓(xùn)練

平衡化數(shù)據(jù)采樣：定制數(shù)據(jù)采樣策略，確保異構(gòu)數(shù)據(jù)集的均衡訓(xùn)練，避免模型偏斜。
多模態(tài)數(shù)據(jù)清洗與時空對齊流水線：我們對原始機(jī)器人操作數(shù)據(jù)實施了嚴(yán)格預(yù)處理，包括：將不同空間下的動作數(shù)據(jù)統(tǒng)一映射至標(biāo)準(zhǔn)任務(wù)空間；對高頻率采集的數(shù)據(jù)進(jìn)行時序?qū)用娴膶R與重采樣。此流程極大提升了狀態(tài)-動作序列在時間上的一致性邏輯與整體質(zhì)量。
以語義-動作對齊為導(dǎo)向的數(shù)據(jù)遴選標(biāo)準(zhǔn)：我們確立了嚴(yán)格的數(shù)據(jù)質(zhì)量門檻，核心是篩選視覺幀清晰、語言指令描述精準(zhǔn)且與后續(xù)動作序列高度關(guān)聯(lián)的數(shù)據(jù)樣本。此舉從源頭上確保了模型學(xué)習(xí)到的是有明確因果關(guān)系的“行為知識”，而非淺層的虛假關(guān)聯(lián)。

3.定制后訓(xùn)練流程與技巧

分層分組的自適應(yīng)學(xué)習(xí)率調(diào)整：鑒于模型中不同組件（如預(yù)訓(xùn)練凍結(jié)的VLM、新引入的Soft-Prompt、主干Transformer等）的參數(shù)規(guī)模與收斂特性各異，我們?yōu)槠涫┘恿朔纸M別、差異化的學(xué)習(xí)率調(diào)度策略。該設(shè)計既保護(hù)了預(yù)訓(xùn)練獲得的基礎(chǔ)知識，又允許關(guān)鍵適配層快速調(diào)整，從而在保證訓(xùn)練穩(wěn)定性的同時，大幅優(yōu)化了收斂效率。
面向異構(gòu)模塊的漸進(jìn)式 warm-up 策略：對于模型中新引入的可學(xué)習(xí)參數(shù)（如Soft-Prompt），我們在訓(xùn)練初始階段采用線性遞增的學(xué)習(xí)率熱身機(jī)制，使其參數(shù)空間得以平穩(wěn)初始化，再逐步融入全局優(yōu)化過程。該策略有效避免了訓(xùn)練初期因梯度劇變導(dǎo)致的不穩(wěn)定性，尤其適用于異構(gòu)模塊的協(xié)同訓(xùn)練。

實驗結(jié)果

高效預(yù)訓(xùn)練：可擴(kuò)展的架構(gòu)優(yōu)勢

X-VLA 的預(yù)訓(xùn)練縮放定律（Scaling Laws）曲線呈現(xiàn)出優(yōu)異的線性增長趨勢。這表明，隨著模型參數(shù)以及訓(xùn)練數(shù)據(jù)規(guī)模的同步擴(kuò)大，其在測試集的開環(huán)測試性能呈現(xiàn)穩(wěn)定、可預(yù)測的提升。這一現(xiàn)象驗證了所提出的 Soft-Prompt 機(jī)制與簡潔Transformer架構(gòu)的強(qiáng)大可擴(kuò)展性，為構(gòu)建更大規(guī)模的具身智能基座模型奠定了堅實基礎(chǔ)。

高效后訓(xùn)練：數(shù)據(jù)與算法的協(xié)同優(yōu)化

得益于高質(zhì)量的預(yù)訓(xùn)練基座，X-VLA 在后訓(xùn)練（微調(diào)）階段展現(xiàn)出極高的數(shù)據(jù)效率與穩(wěn)定性。針對不同的下游任務(wù)（如自主疊衣），只需使用中小規(guī)模的場景專屬數(shù)據(jù)進(jìn)行微調(diào)，模型便能快速適應(yīng)并達(dá)到SOTA性能。這源于預(yù)訓(xùn)練階段學(xué)習(xí)到的通用視覺-語言-動作表征，以及后訓(xùn)練中采用的定制化學(xué)習(xí)率策略與慢啟動機(jī)制，它們共同確保了知識從通用域到特定任務(wù)的高效、穩(wěn)定遷移。

仿真基準(zhǔn)測試結(jié)果

在包括LIBERO、SIMPLER等在內(nèi)的權(quán)威仿真環(huán)境中，X-VLA均取得了SOTA性能，顯著優(yōu)于現(xiàn)有同類模型。

實機(jī)實驗測試結(jié)果

在真實的機(jī)器人平臺上，X-VLA在大量常規(guī)抓取和復(fù)雜桌面操作任務(wù)中展現(xiàn)了強(qiáng)大性能，并成功完成了不限時長的自主疊衣任務(wù)，且可零樣本遷移部署至全新的環(huán)境，展示了其應(yīng)對復(fù)雜長程任務(wù)的卓越能力。詳細(xì)任務(wù)執(zhí)行效果參見本文開頭視頻。

關(guān)于松靈機(jī)器人（東莞）有限公司進(jìn)入企業(yè)商鋪

松靈機(jī)器人成立于2016年，是全球領(lǐng)先的機(jī)器人底盤制造商和移動機(jī)器人系統(tǒng)解決方案服務(wù)商。目前，松靈機(jī)器人已經(jīng)擁有多款適用于不同地形的室內(nèi)外移動機(jī)器人底盤，在載重、續(xù)航、速度、運動模式等不同需求場景下實現(xiàn)全矩陣覆蓋。同時，松靈機(jī)器人還推出了自動駕駛解決方案，平行駕駛解決方案，機(jī)器人科研教育套件等移動機(jī)器人底盤配套產(chǎn)品，幫助客戶在自動駕駛、機(jī)械控制、計算機(jī)、車輛等領(lǐng)域完成實驗驗證。

憑借領(lǐng)先的研發(fā)技術(shù)，松靈機(jī)器人已經(jīng)與包括阿里巴巴、華為、本田、中建三局在內(nèi)的30多家行業(yè)領(lǐng)軍企業(yè)，以及中科院、清華大學(xué)、南方科技大學(xué)、北京理工大學(xué)、新加坡國立大學(xué)、紐約大學(xué)等國內(nèi)外50多所頂尖學(xué)府開展了深度合作。