在2025年國際消費類電子產(chǎn)品展覽會(CES 2025)上,包括英偉達、谷歌、世界實驗室等多家全球頭部科技企業(yè)集體宣布入局人工智能領(lǐng)域當下最關(guān)鍵的方向——世界模型(World Models)。
所謂世界模型,最早出現(xiàn)在機器學習領(lǐng)域,專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而構(gòu)建,F(xiàn)階段,世界模型主要用于生成逼真的視頻訓練機器人(19.690, 0.62, 3.25%)和自動駕駛汽車,并通過創(chuàng)建合成訓練數(shù)據(jù),幫助機器人和汽車理解物理世界。
世界模型為何備受矚目?首先基于“自主決策”。相比語言模型還停留在理解人類語義階段,世界模型則從一維形式的數(shù)字智能走向三維形式的空間智能,開始理解真實的物理世界,創(chuàng)建對世界運作方式的內(nèi)部表征,理解現(xiàn)實世界的規(guī)律,并據(jù)此推理行為的后果,這種潛意識里的推理和決策,被認為是實現(xiàn)人類級智能的先決條件之一。
其次則緣于成本。自動駕駛的成長需要海量數(shù)據(jù)(13.890, 0.06, 0.43%)(維權(quán))“喂養(yǎng)”,依靠豐富、復(fù)雜的場景進行“錘煉”。然而,現(xiàn)實測試中危險場景和長尾數(shù)據(jù)稀缺,3D重建又成本高、效率低。因此,采用合成數(shù)據(jù)來助力自動駕駛模型訓練成了有效的解決方案——世界模型正是這樣的場景生成和預(yù)測工具,自己“造數(shù)據(jù)”,可以用于場景數(shù)據(jù)增強、危險場景生成、算法評測等應(yīng)用,有效降低自動駕駛研發(fā)中訓練數(shù)據(jù)成本。
筆者認為,在自動駕駛領(lǐng)域,我們可以通過世界模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù),實現(xiàn)極端情況下的多樣化訓練;讓世界模型采用強化學習的方法認識復(fù)雜駕駛環(huán)境,通過視頻輸出駕駛決策。
盡管世界模型在理論上具有巨大潛力,但在實際應(yīng)用中仍然存在不確定性。例如,環(huán)境模擬的準確性極大地依賴于模型復(fù)雜度和數(shù)據(jù)質(zhì)量,要精確地預(yù)測復(fù)雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強大的計算資源,這需要龐大成本且漫長的周期方能實現(xiàn)。此外,在不同的應(yīng)用場景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問題也需要進一步研究、探索。
但無論如何,世界模型勢必將成為汽車智能化的一道分水嶺,其在場景生成、模型訓練、仿真測試、數(shù)據(jù)閉環(huán)等方面的獨特優(yōu)勢,將推動包括自動駕駛、機器人等在內(nèi)的人工智能應(yīng)用迎來高光時刻。