必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

RoboChallenge測(cè)評(píng):π0、π0.5領(lǐng)先,自變量WALL-OSS-Flow零成功率引關(guān)注

2025年12月4日 09:49CCTIME飛象網(wǎng)

在具身智能競(jìng)速加速升溫的當(dāng)下,真實(shí)場(chǎng)景的客觀評(píng)測(cè)成為檢驗(yàn)機(jī)器人模型能力最關(guān)鍵的一環(huán)。

近日,“具身進(jìn)化論”在查詢最新發(fā)布的RoboChallenge測(cè)試結(jié)果時(shí)注意到,π0、π0.5 在成功率上遙遙領(lǐng)先其他開源模型。自變量機(jī)器人(X Square Robot)的大模型wall-oss-flow雖然在多次企業(yè)自我宣傳中提到,“基本上和PI、和google在同一個(gè)水平線上”,但是在多個(gè)任務(wù)上成功率偏低。根據(jù)公開的測(cè)評(píng)記錄,其在31次測(cè)試中大部分成功率為零,這一表現(xiàn)引發(fā)業(yè)內(nèi)對(duì)其大模型真實(shí)能力的討論。

RoboChallenge是全球首個(gè)具身智能的大規(guī)模真機(jī)評(píng)測(cè)平臺(tái),也是目前行業(yè)內(nèi)最受關(guān)注的真實(shí)物理機(jī)器人評(píng)測(cè)平臺(tái),由Dexmal原力靈機(jī)聯(lián)合Hugging Face發(fā)布,被視作“機(jī)器人界的硬核基準(zhǔn)”。其最大特點(diǎn)是真機(jī)真測(cè):評(píng)測(cè)同時(shí)接入U(xiǎn)R5、Franka、Aloha 雙臂系統(tǒng)以及國(guó)產(chǎn)ARX-5 四類主流機(jī)器人,統(tǒng)一軟件棧并配備多臺(tái)RGB-D深度相機(jī),以確保任務(wù)在高度一致的物理?xiàng)l件下進(jìn)行。

平臺(tái)的任務(wù)覆蓋柔性物體處理、雙臂協(xié)作、多階段順序動(dòng)作等真實(shí)世界的關(guān)鍵難點(diǎn)。其中Table30場(chǎng)景包含30個(gè)具有代表性的日常任務(wù),包括疊抹布、整理果籃、插花、開關(guān)水龍頭等,難度從基礎(chǔ)操作遞進(jìn)到長(zhǎng)鏈條組合動(dòng)作。

據(jù)了解,RoboChallenge 之所以被認(rèn)為更加客觀,是因?yàn)槠洳捎昧?“任務(wù)成功率 + 進(jìn)度評(píng)分”的雙指標(biāo)體系。前者統(tǒng)計(jì)任務(wù)是否完整成功,后者將任務(wù)拆解為多個(gè)關(guān)鍵階段并按推進(jìn)程度累計(jì)分值,即便任務(wù)未完成也能反映模型做到哪一步,為能力評(píng)估提供更細(xì)粒度的信息。

在該評(píng)測(cè)體系中,多款主流開源模型已完成測(cè)試。“具身進(jìn)化論”對(duì)比發(fā)現(xiàn),基于Physical Intelligence (Pi)系列構(gòu)建的π0和π0.5是官方重點(diǎn)基線,它們?cè)诔晒β逝c進(jìn)度得分上整體領(lǐng)先其他開源模型,特別是π0.5,顯示出更成熟的任務(wù)執(zhí)行能力。

π0測(cè)試結(jié)果

π0.5測(cè)試結(jié)果

相比之下,自變量的wall-oss-flow 在相同條件下的表現(xiàn)明顯偏弱。測(cè)評(píng)結(jié)果顯示:wall-oss-flow共測(cè)試31次,其中2次成功率為60%,1次成功率為50%,1次成功率為20%,其余所有任務(wù)成功率均為0。

wall-oss-flow測(cè)試結(jié)果

“具身進(jìn)化論”從進(jìn)度分情況看到,模型雖然在部分任務(wù)中能完成初段動(dòng)作,但多數(shù)情況下未能完成關(guān)鍵步驟,執(zhí)行鏈條往往在中段被迫中斷。這與平臺(tái)強(qiáng)調(diào)的“多階段連續(xù)操作能力”形成明顯差距。

公開信息顯示,自變量2023年成立,創(chuàng)始人兼CEO為王潛。今年9月,自變量發(fā)布其開源大模型WALL-OSS,自變量在官方宣傳稿中強(qiáng)調(diào)該模型“具備強(qiáng)大的泛化性和推理能力,在長(zhǎng)程操作任務(wù)方面表現(xiàn)優(yōu)于其他基礎(chǔ)模型”。

王潛甚至曾在接受媒體采訪時(shí)表示:“我們(自變量)的模型水平基本上和PI、和google在同一個(gè)水平線上。”

但此次RoboChallenge 的評(píng)測(cè)結(jié)果顯示,自變量模型的水平、能力在真實(shí)機(jī)器人執(zhí)行任務(wù)時(shí)未能體現(xiàn),與PI的模型(π0 和 π0.5)也存在明顯差距。

一位具身智能從業(yè)者對(duì)“具身進(jìn)化論”分析,RoboChallenge的獨(dú)特價(jià)值正是在于提供透明、可復(fù)現(xiàn)的真機(jī)評(píng)估環(huán)境,避免主觀展示帶來(lái)的偏差。隨著越來(lái)越多模型加入測(cè)評(píng),業(yè)內(nèi)對(duì)“模型真實(shí)能力差異”有了更清晰的認(rèn)知。

對(duì)具身智能行業(yè)而言,此次結(jié)果再次提醒:真正的競(jìng)爭(zhēng)不在PR宣傳中,而在三方認(rèn)可的評(píng)測(cè),學(xué)術(shù)基準(zhǔn)線,以及機(jī)器人能否穩(wěn)定完成任務(wù)的那一刻。

真實(shí)世界,正在成為檢驗(yàn)大模型能力的最終標(biāo)準(zhǔn)。而認(rèn)識(shí)到差距,正是追趕的開始。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像