隨著人工智能的快速發(fā)展,能夠給機器人帶來顛覆性改變的具身智能被寄予厚望。
具身智能是基于物理身體(智能體)進行感知和行動的智能系統(tǒng),通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產生智能行為與適應性。具身智能與人工智能的發(fā)展息息相關,IDC認為,具身智能是將人工智能融入各類物理本體形成的智能系統(tǒng)。
全球范圍內,具身智能被視為一條極具空間和高成長性的藍海賽道。目前,小鵬、特斯拉等新能源車企,智元機器人、銀河通用、星動紀元、宇數(shù)科技、傅利葉等國內初創(chuàng)企業(yè)在具身智能機器人領域已取得顯著成果,華為、阿里、美團、百度等互聯(lián)網大廠也紛紛入局,具身智能已成為產業(yè)鏈公司明確的發(fā)力方向。
具身智能三大功能:感知與交互、自決策、自學習
目前在智能工廠所應用的機器人,更多是在完成一些自動化任務。比如,機械臂需要部署在特定的環(huán)境,完成一個任務時,其實是在執(zhí)行自動化工程師寫好的代碼并進行調校后的指令,是在完成一些規(guī)則的、固定的行動路線,比如抓舉等操作,可能會輔以計算機視覺等技術,但始終是“換湯不換藥”。而具身智能有別于此,具備感知與交互、自決策、自學習三大功能。
東土科技人工智能研究院院長祝一蒙告訴第一財經,“在大模型問世后,我們現(xiàn)在做的具身智能是通過一個大語言模型去解析用戶的自然語言命令,再通過一個視覺語言模型去觀察機器人周圍的環(huán)境,通過這兩個模型直接把用戶的自然語言命令轉化成機器人要執(zhí)行的動作!
這就涉及到具身智能的感知與交互功能。具身交互指的是智能體在物理或模擬空間中與人類和環(huán)境進行交互,需要具有主動的認知、語言理解能力、目標驅動的探索、常識推理并將自然語言的信息整合到動作序列中,大語言模型在其中起到關鍵作用。
具有感知能力的智能體必須在物理世界中移動并與環(huán)境互動,這就需要對三維空間和動態(tài)環(huán)境更加了解。與僅僅識別圖像中的物體不同,業(yè)內認為,未來具身感知的主要發(fā)展方向是以智能體為中心的視覺推理,上述“視覺語言模型”也為此類。
“比如我和機器人說一句‘把這杯水放到手機的左邊’,以前需要自動化工程師拿一個示教器去告訴這個機器人把這杯水放過去要經歷哪些路徑點,每走到一個路徑點時要用什么樣的速度和加速度,包括每個關節(jié)用什么樣的力矩,然后走過去。但是現(xiàn)在我們可以通過自然語言直接告訴他任務,后面的路徑規(guī)劃和運動控制,都交給大模型去自動完成。”祝一蒙對第一財經解釋稱,這就是具身智能的自決策。
具身智能機器人企業(yè)中科光電創(chuàng)始人、董事長吳易明對第一財經表示,在具身智能下,大腦基于眼睛感知能力,指揮機械手做不同工件,不是識別工件(標記信息)后根據(jù)人為不同工件設定好的不同工件的程序執(zhí)行任務,而是有眼睛感知到工件后,基于自主理解的任務要求,智能分析工件的結構,各要素空間關系,再自主生成工藝、動作和各種運動參數(shù),甚至進行交互和迭代,實現(xiàn)自主作業(yè)!斑@樣的機器人就類似于一個熟練工,拿到了工件的圖紙,知曉任務目標就能干了!
最初這個熟練工僅具備兩年經驗,而在工廠應用兩年后,通過大模型的自學習能力,具身智能機器人能夠成長為一個四年甚至更長經驗的工程師。這就是具身智能的自學習特點。
人形機器人是具身智能終極方案之一,工業(yè)場景或率先落地
人形機器人被認為是具身智能的絕佳載體。
2024年一批人形機器人進入商用測試階段,目前科研教育場景是人形機器人的主要應用場景。IDC預計,2025年人形機器人將在商用服務、特種作業(yè)領域從事運動速度、節(jié)拍要求較低的生產服務任務,預計將實現(xiàn)千臺量級的小規(guī)模商用。
“人形機器人是機器人+端側AI非常好的應用,也是建立物理世界和大模型連接橋梁的比較好的載體,它是個很優(yōu)的終極方案之一,但不是最終極的方案!蹦尘呱碇悄軝C器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人對第一財經表示,“就像人的很多運動特性和感知能力不如部分動物,人形機器人是目前所處物理環(huán)境的一個友好方案之一!
事實上,具身智能并不局限于人形或機械臂等,而是可以根據(jù)具體應用場景來選擇合適的物理形態(tài)。任何能夠在物理空間環(huán)境中行動并形成互動的機器人,如協(xié)作機器人、移動機器人、商用服務機器人等,通過融合人工智能技術、軟件產品,都有望發(fā)展成為具身智能機器人。也就是說,具身智能機器人的關鍵在于具身智能的底層技術,而非機器人的物理形狀。
“具身智能機器人能夠像人一樣自主使用傳統(tǒng)工具,比如你要砸釘子,我就可以找到榔頭,我能認識榔頭,像人一樣抓榔頭去砸釘子。能夠像人一樣使用傳統(tǒng)工具,所以就能夠操控機床等其他設備,這就是整個機器人的適用范圍,把它做成人的樣子,它就是個人形機器人!眳且酌鞅硎尽
業(yè)內認為,工業(yè)領域或是具身智能機器人率先應用落地的場景。
前小鵬機器人產品設計負責人孫兆治此前表示,產線或者工業(yè)環(huán)境相對來說能夠做到結構化或者半結構化,而討論較多的養(yǎng)老環(huán)境或家務環(huán)境其實是一個非結構化的環(huán)境,它的corner case會非常多,技術成熟到應對這些場景之前,可以優(yōu)先落地到半結構化場景或者結構化場景,相對來說在產線上或者工業(yè)應用相對可控一些。
上述具身智能機器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人也有類似觀點。“工業(yè)和有限范圍、有邊界條件、非開放型的場景會率先應用。工業(yè)應用場景的每個節(jié)拍都很清晰,在訓練過程中能夠有的放矢地進行原子動作,以及建立基于不同垂類領域的原子動作體系。預計2025-2026年,在一些簡單場景,包括搬運、分揀等,具身智能機器人都能夠做一些事情。而對服務娛樂領域這種高泛化性的人機交互場景,需要機器人八面玲瓏,對它的算法要求也更高,這種情況的應用可能會更晚一些!
具身智能發(fā)展面臨多維度挑戰(zhàn)
具身智能機器人產業(yè)鏈主要包括硬件、算法與模型、數(shù)據(jù)、算力等方面,其性能表現(xiàn)高度依賴于軟件與硬件的全方位進化。作為新興技術,具身智能的發(fā)展也面臨著多維度挑戰(zhàn)。
硬件是一切的基礎。具身智能產業(yè)鏈需要穩(wěn)定供給的高性能硬件,否則無法根據(jù)算法和數(shù)據(jù)進行硬件的快速優(yōu)化和修改!坝布矫,關節(jié)、本體領域國內做得還是不錯的。我們的部分產品可能在某些性能上與國外存在差距,但現(xiàn)有的工業(yè)機器人、協(xié)作機器人等都奠定了硬件基礎!鄙鲜雎(lián)合創(chuàng)始人表示。
算法方面,該人士認為,國內外起跑線差不了太多;端側算力領域,華為等很多企業(yè)正在奮力追趕。
數(shù)據(jù)也是困難的環(huán)節(jié)之一。機器人與物理世界的感知與交互,所需要積累應用的數(shù)據(jù)也多源于物理世界,高質量的數(shù)據(jù)是訓練高性能具身智能機器人的基礎。
以工業(yè)領域為例,工業(yè)環(huán)境復雜,數(shù)據(jù)難以積累與有效打通,給AI在工業(yè)領域的滲透帶來了阻力!癆I需要行業(yè)數(shù)據(jù)的訓練,以對行業(yè)和領域加深了解。但工業(yè)數(shù)據(jù)的采集比較困難,目前任何一個行業(yè)都沒有相對規(guī)范的標準,同時數(shù)據(jù)采集過程中也經常會有‘噪音’,數(shù)據(jù)的有效性難以保證,這也給AI實際應用效果打了折扣。此外,工業(yè)領域往往會涉及更多數(shù)據(jù)安全相關問題,這也給AI應用在工業(yè)領域帶來了困難!弊R幻筛嬖V第一財經。
目前,行業(yè)正在通過聯(lián)盟、跨界合作與建設開源數(shù)據(jù)集等方式,共同構建高質量、大規(guī)模的具身智能數(shù)據(jù)集,解決數(shù)據(jù)稀疏和碎片化的問題,同時促進降低研發(fā)成本,加速技術迭代,促進生態(tài)繁榮。
從投資角度看,頭部人形機器人的本體研發(fā)集成廠商已經經歷多輪融資,估值較高,行業(yè)整體投資熱點正從人形機器人本體向具身智能模型和其它上游零部件遷移。總體而言,具身智能賽道有望繼續(xù)成為市場投資熱點,第一財經也將持續(xù)保持關注。