

具身智能云邊協(xié)同系列(第一篇):邁向規(guī)?;鏅C驗證——基于云原生的機器人集群統(tǒng)一納管。
具身智能正從仿真走向真實世界大規(guī)模驗證,但分布式異構(gòu)基礎(chǔ)設(shè)施的“碎片化”,制約了大規(guī)模真機數(shù)據(jù)采集和分布式強化學(xué)習(xí)效率。為突破瓶頸,智元基于云原生架構(gòu)重構(gòu)云邊算力,升級具身智能開發(fā)平臺Genie Studio,將“零散運維”升級為“集群化統(tǒng)一調(diào)度”,為具身智能進化搭建穩(wěn)固可擴展的數(shù)字底座。
規(guī)?;涞靥魬?zhàn):具身智能的“基建攔路虎”
隨著業(yè)務(wù)覆蓋更多真實場景,底層基礎(chǔ)設(shè)施復(fù)雜度劇增。制約規(guī)模化研發(fā)效率的核心問題,已從算法延伸到底層基建穩(wěn)定性,主要面臨三大挑戰(zhàn):
資源“各玩各的”:云-邊-端算力成孤島
具身智能的算力呈現(xiàn)典型的“云-邊-端”階梯式分布。由于缺乏統(tǒng)一的資源抽象,異構(gòu)算力長期處于割裂狀態(tài),導(dǎo)致計算任務(wù)無法在全鏈路實現(xiàn)全局最優(yōu)的編排調(diào)度。
實驗“反復(fù)橫跳”:環(huán)境不一致復(fù)現(xiàn)難
傳統(tǒng)運維工具難以在數(shù)百臺節(jié)點規(guī)模下維持環(huán)境一致,底層驅(qū)動、依賴的細微偏差會導(dǎo)致實驗結(jié)果不可復(fù)現(xiàn),這種不斷累積的環(huán)境熵增,是分布式真機規(guī)?;炞C必須跨越的基建門檻。
網(wǎng)絡(luò)“不靠譜”:移動機器人難管控
機器人移動作業(yè)、跨地域分布的特性,與傳統(tǒng)中心化管理架構(gòu)不兼容,網(wǎng)絡(luò)延遲、斷連易導(dǎo)致任務(wù)管理異常,影響邊緣作業(yè)連續(xù)性。
破局之道:云邊一體化管控與異構(gòu)資源編排
為應(yīng)對以上挑戰(zhàn),我們以Kubernetes和容器技術(shù)為核心,將云、邊、端異構(gòu)資源整合為一套可編程的多集群資源池,通過“聲明式編排”替代傳統(tǒng)“命令式運維”,實現(xiàn)跨地域統(tǒng)一編排調(diào)度,從根源上鎖定了實驗環(huán)境的一致性。
“1+N” 多集群分層協(xié)同架構(gòu)
為了支撐跨地域、大規(guī)模的真機驗證,我們在Genie Studio上搭了一套“中心管控+邊緣自治”的架構(gòu)——核心是靠“中心集群”管全局,靠“邊緣集群”管本地,具體分工清晰:
Meta Cluster(中心管控集群)平臺的“智慧大腦”
基于原生Kubernetes構(gòu)建。它對外提供統(tǒng)一API,負責(zé)全局資源調(diào)度、策略與鏡像分發(fā)、配置聚合等所有管控邏輯,實現(xiàn)管理平面的集中與收斂。
Edge Cluster(邊緣自治集群)平臺的“靈活手足”
基于開源OpenYurt構(gòu)建,分布在不同物理地域。每個邊緣集群自主納管該區(qū)域內(nèi)的所有邊緣計算節(jié)點和機器人終端,實現(xiàn)低延遲響應(yīng)與離線自治。
依托這套架構(gòu),我們在三個關(guān)鍵層面實現(xiàn)了突破:
把機器人當(dāng)成“標(biāo)準(zhǔn)節(jié)點”管理(Robot as a Node)
對物理世界的機器人進行節(jié)點建模,將其抽象為輕量化的Kubernetes計算節(jié)點接入邊緣集群。
統(tǒng)一接入后,通過容器技術(shù)實現(xiàn)軟件算法與底層硬件的解耦。機器人由此變成了像服務(wù)器一樣可編程、可調(diào)度、可度量的標(biāo)準(zhǔn)算力單元,極大降低了大規(guī)模節(jié)點的運維成本。
異構(gòu)資源“池化”,實現(xiàn)“一套代碼,全局調(diào)度”
為打破資源孤島并實現(xiàn)全局最優(yōu)的任務(wù)調(diào)度,平臺構(gòu)建了兩級資源池:
通過資源池化,Genie Studio向上層應(yīng)用屏蔽了底層所有復(fù)雜性。算法工程師無需關(guān)心任務(wù)具體跑在哪個城市、哪臺x86主機或ARM機器人上,只需通過統(tǒng)一API提交需求,系統(tǒng)即可自動完成從云端訓(xùn)練到邊緣推理的全鏈路編排,實現(xiàn) “一套代碼,全局調(diào)度”。
OpenYurt 賦能:
解決邊緣“斷網(wǎng)也能用”“跨地域通信”問題
邊緣自治:靠OpenYurt的YurtHub機制,就算云邊網(wǎng)絡(luò)完全斷連,邊緣節(jié)點也能靠本地緩存維持任務(wù)運行。不會出現(xiàn)“云端以為邊緣離線,誤刪任務(wù)”的情況,保障真機實驗不中斷。
跨地域網(wǎng)絡(luò)隧道:機器人跨地域分布于不同NAT環(huán)境,通信不便。我們通過OpenYurt Raven構(gòu)建加密隧道,實現(xiàn)跨集群、跨設(shè)備直接通信。
核心實踐:從“逐臺運維”到“一鍵真機驗證”
資源統(tǒng)一管理是基礎(chǔ),高效任務(wù)調(diào)度是核心。Genie Studio的“真機任務(wù)聲明式管理”功能,讓工程師無需逐臺部署環(huán)境,只需在界面定義任務(wù)要求,系統(tǒng)自動完成節(jié)點篩選、容器分發(fā)、任務(wù)啟動。這既解放工程師脫離繁瑣運維,又鎖定環(huán)境一致性,保障實驗結(jié)果可靠可復(fù)現(xiàn)。
生態(tài)融合:云原生基礎(chǔ)設(shè)施的生態(tài)賦能
選擇基于云原生構(gòu)建底座,另一個巨大優(yōu)勢是能夠深度復(fù)用成熟的云原生生態(tài)體系。通過引入工業(yè)級的開源工具鏈,我們將具身智能研發(fā)從“腳本驅(qū)動”的模式徹底拉入全棧工程化治理的軌道。
全鏈路可觀測性
通過集成Prometheus、Grafana等工具,平臺實現(xiàn)了對云、邊、端資源的深度監(jiān)控。監(jiān)控指標(biāo)從傳統(tǒng)的CPU、內(nèi)存,延伸到GPU利用率、端到端推理延遲,甚至機器人本體的電機電流、關(guān)節(jié)扭矩等硬件數(shù)據(jù),讓研發(fā)狀態(tài)一目了然。
復(fù)雜工作流編排
針對“采-訓(xùn)-測-推”這一極長研發(fā)鏈路,平臺可支持引入工作流引擎,實現(xiàn)了DAG工作流編排及任務(wù)狀態(tài)機管理,將任務(wù)邏輯與底層資源解耦。系統(tǒng)會自動將工作流每個子任務(wù)按負載動態(tài)調(diào)度到最合適的節(jié)點上啟動,并提供完善的重試、事件上報機制。
小結(jié)與展望
基于Genie Studio云原生邊緣集群納管,我們完成了具身智能規(guī)模化真機訓(xùn)練基礎(chǔ)設(shè)施構(gòu)建的第一階段:實現(xiàn)了異構(gòu)節(jié)點的標(biāo)準(zhǔn)化納管、研發(fā)環(huán)境的容器化封裝以及邊緣集群的自治。這套底座解決了“異構(gòu)節(jié)點怎么管、任務(wù)怎么發(fā)”的問題,將具身智能研發(fā)從離散的單機調(diào)試推向了規(guī)?;募壕幣?,為后續(xù)實現(xiàn)多集群協(xié)同、高性能異步通信及分布式異步真機強化學(xué)習(xí)夯實了工程基礎(chǔ)。
目前,智元在大規(guī)模真機數(shù)據(jù)采集、大規(guī)模分布式真機強化學(xué)習(xí)等更復(fù)雜場景的實踐已取得顯著進展,架構(gòu)經(jīng)規(guī)模化落地驗證,顯著提升研發(fā)效率。
有了這套統(tǒng)一納管的底座,我們?nèi)绾蜗駟右粋€本地容器一樣,一鍵拉起云邊聯(lián)合推理任務(wù)、大規(guī)模分布式真機強化學(xué)習(xí)訓(xùn)練任務(wù)?敬請期待下篇:具身智能云邊協(xié)同系列(二)《基于 HybridJob 的多集群云邊聯(lián)合任務(wù)編排》。
智元機器人致力以A1+機器人融合創(chuàng)新,打造全球領(lǐng)先的通用具身機器人產(chǎn)品及應(yīng)用生態(tài)。公司成立于2023年2月,由全球著名企業(yè)核心高管、人工智能領(lǐng)域頂尖科學(xué)家等資深產(chǎn)業(yè)人士共同創(chuàng)立。發(fā)展過程中,智元機器人得到了黨和國家領(lǐng)導(dǎo)人的殷切關(guān)懷,多次代表具身智能行業(yè)匯報發(fā)展進程。
依托行業(yè)領(lǐng)先的“一體三智”架構(gòu),智元以機器人本體為基,融合作業(yè)、交互、運動智能,推出了遠征、精靈、靈犀三大機器人家族及業(yè)界首個通用具身基座模型“智元啟元大模型”,是業(yè)內(nèi)唯一實現(xiàn)全產(chǎn)品系列、全場景布局的機器人企業(yè)。智元機器人同步構(gòu)建了領(lǐng)先的全棧生態(tài)體系,賦能伙伴發(fā)展、使能萬千行業(yè)。
憑借領(lǐng)先的產(chǎn)品技術(shù)與生態(tài)體系,智元機器人在全球率先實現(xiàn)了人形機器人的規(guī)?;慨a(chǎn)和商業(yè)化落地,產(chǎn)品售往全球多個國家和地區(qū)。2025年1月,智元機器人第1000臺通用具身機器人正式量產(chǎn)下線,刷新行業(yè)記錄。


