普林斯頓大學(xué)、斯坦福大學(xué)和谷歌的一組研究人員,利用 OpenAI 的 GPT-3 Davinci 模型,研發(fā)出了一款能聽懂英語指令并執(zhí)行家務(wù)的機(jī)器人,名為 TidyBot。這款機(jī)器人可以根據(jù)用戶的喜好,自動完成如分類洗衣服、撿起地上的垃圾、收拾玩具等任務(wù)。
GPT-3 Davinci 模型是一種深度學(xué)習(xí)模型,屬于 GPT 模型系列的一部分,可以理解和生成自然語言。該模型具有強(qiáng)大的總結(jié)能力,可以從大量的文本數(shù)據(jù)中學(xué)習(xí)復(fù)雜的對象屬性和關(guān)系。研究人員利用這種能力,讓機(jī)器人根據(jù)用戶提供的幾個示例對象放置位置,如“黃色襯衫放在抽屜里,深紫色襯衫放在衣柜里,白色襪子放在抽屜里”,然后讓模型總結(jié)出用戶的一般偏好規(guī)則,并應(yīng)用到未來的交互中。
研究人員在論文中寫道:“我們的基本見解是,LLM(大型語言模型)的總結(jié)能力與個性化機(jī)器人的泛化需求非常匹配。LLM 展示了通過總結(jié)實現(xiàn)泛化的驚人能力,利用從海量文本數(shù)據(jù)集中學(xué)習(xí)到的復(fù)雜對象屬性和關(guān)系。”
他們還寫道:“與需要昂貴的數(shù)據(jù)收集和模型訓(xùn)練的傳統(tǒng)方法不同,我們展示了 LLM 可以直接開箱即用地實現(xiàn)機(jī)器人領(lǐng)域的泛化,利用它們從海量文本數(shù)據(jù)中學(xué)習(xí)到的強(qiáng)大的總結(jié)能力!
研究人員在論文網(wǎng)站上展示了一個機(jī)器人,它能夠?qū)⑾匆路譃闇\色和深色,回收飲料罐,扔掉垃圾,收拾包和餐具,將散落的物品放回原處,并將玩具放入抽屜。
研究人員首先測試了一個基于文本的基準(zhǔn)數(shù)據(jù)集,其中輸入了用戶偏好,并要求模型創(chuàng)建個性化規(guī)則來確定物品歸屬。模型將示例總結(jié)為一般規(guī)則,并使用總結(jié)來確定新物品的放置位置。基準(zhǔn)場景定義在四個房間中,每個房間有 24 個場景。每個場景包含兩到五個放置物品的地方,并且有相同數(shù)量的已見和未見物品供模型分類。他們寫道,這個測試在未見物品上達(dá)到了 91.2% 的準(zhǔn)確率。
當(dāng)他們將這種方法應(yīng)用到真實世界的機(jī)器人 TidyBot 時,他們發(fā)現(xiàn)它能夠成功地收拾 85% 的物體。TidyBot 在八個真實場景中進(jìn)行了測試,每個場景有一組十個物品,并在每個場景中運行機(jī)器人 3 次。據(jù)IT之家了解,除了 LLM,TidyBot 還使用了一個叫做 CLIP 的圖像分類器和一個叫做 OWL-ViT 的物體檢測器。
佐治亞理工學(xué)院交互計算學(xué)院的助理教授徐丹飛(Danfei Xu)在談到谷歌的 PaLM-E 模型時表示,LLM 使機(jī)器人具有更多的問題解決能力。“以前的任務(wù)規(guī)劃系統(tǒng)大多依賴于一些形式的搜索或優(yōu)化算法,這些算法不太靈活,也很難構(gòu)建。LLM 和多模態(tài) LLM 使這些系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)中受益,并輕松地用于解決新問題!彼f。