文|極智GeeTech
“機(jī)器人的ChatGPT時刻即將到來。與大語言模型一樣,世界基礎(chǔ)模型對于推進(jìn)機(jī)器人和自動駕駛汽車的開發(fā)至關(guān)重要!
在CES 2025上,黃仁勛身穿新皮衣,除了推出炸裂的RTX 5090之外,還宣布入局人工智能領(lǐng)域當(dāng)下最關(guān)鍵的方向——世界模型。
此次英偉達(dá)發(fā)布的Cosmos世界基礎(chǔ)模型專為物理交互、模擬工業(yè)環(huán)境和駕駛環(huán)境的高質(zhì)量生成而構(gòu)建,可以生成逼真的視頻用于訓(xùn)練機(jī)器人和自動駕駛汽車,并通過創(chuàng)建合成訓(xùn)練數(shù)據(jù)幫助機(jī)器人和汽車?yán)斫馕锢硎澜纭?
除了英偉達(dá),谷歌(196.98,5.93,3.10%)以及不少初創(chuàng)企業(yè)也在追逐世界模型,谷歌旗下DeepMind組建世界模型研究團(tuán)隊,被視為谷歌在通用人工智能(AGI)領(lǐng)域與競爭對手展開角逐的重要一步。此外,“AI教母”李飛飛的World Labs、初創(chuàng)公司Decart、Odyssey也都涉足其中。
北京智源人工智能研究院近日發(fā)布的“2025十大AI技術(shù)趨勢”認(rèn)為,更注重“因果”推理的世界模型有望成為多模態(tài)大模型的下一階段。
世界模型不僅引得全球科技企業(yè)競相逐鹿,還被業(yè)內(nèi)視為人工智能領(lǐng)域的下一個關(guān)鍵突破。世界模型為何如此重要?對于自動駕駛等科技領(lǐng)域?qū)⒂|發(fā)怎樣的新變革?
人工智能下一個“必爭之地”
在現(xiàn)實世界中,技術(shù)也是可以高度重構(gòu)的,隨著時間的推移、新技術(shù)的出現(xiàn),未來在不斷改進(jìn)、不斷進(jìn)化。
自2022年底,隨著OpenAI發(fā)布大語言模型ChatGPT,生成式AI大模型便逐漸演化出了兩條路徑:語言模型和世界模型。
語言模型繼續(xù)在數(shù)字世界深耕,從單一的文本模態(tài)走向包含圖片、視頻在內(nèi)的多模態(tài),使其具備了文生圖、看圖說話、圖生圖、文生視頻的能力,典型代表就是Sora和GPT4-o。
不過,語言模型最受爭議的挑戰(zhàn)是它們產(chǎn)生幻覺的傾向,會捏造參考資料和事實,或在邏輯推斷、因果推理等方面顛三倒四、生成毫無意義的內(nèi)容的情況,這些幻覺都源于它們?nèi)狈κ录g因果關(guān)系的了解。
這也表明,語言模型雖然善于從數(shù)據(jù)中識別和提取因果關(guān)系,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進(jìn)行因果歸納的能力,但不具備因果演繹的能力。
世界模型則從數(shù)字世界走向物理世界,從一維形式的數(shù)字智能走向三維形式的空間智能。它通過預(yù)訓(xùn)練擴(kuò)展視頻和多模態(tài)數(shù)據(jù),并集成多模態(tài)語言模型,可用于為視頻游戲和電影創(chuàng)建實時交互式媒體環(huán)境,以及為機(jī)器人和其他人工智能系統(tǒng)創(chuàng)建逼真的訓(xùn)練場景等諸多場景,被業(yè)界認(rèn)為是通往通用人工智能(AGI,指機(jī)器能夠理解或?qū)W習(xí)人類能夠執(zhí)行的任何智力任務(wù))的關(guān)鍵路徑。
追溯一下,“World Models”(世界模型)最早出現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域。
2018年,機(jī)器學(xué)習(xí)頂級會議NeurIPS收錄的《Recurrent World Models Facilitate Policy Evolution》論文,以認(rèn)知科學(xué)中的心智模型(Mental Model)來類比世界模型,認(rèn)為其參與了人類的認(rèn)知、推理、決策過程。其中,最核心的能力——反事實推理(Counterfactual Reasoning),是一種人類天然具備的能力。
2024年2月,OpenAI發(fā)布了震驚世界的文生視頻大模型Sora,它可以根據(jù)文本自動生成一段60秒視頻,這成為世界模型的一個具象體現(xiàn)。
傳統(tǒng)的生成式模型或許能夠準(zhǔn)確預(yù)測籃球會彈跳,但并不真正理解其中原因,就像大語言模型實際上是基于神經(jīng)網(wǎng)絡(luò)的概率推理,給出最可能符合實際預(yù)期的答案,而非真正理解詞語和短語背后的意義。然而,具有基本物理認(rèn)知的世界模型將更善于展現(xiàn)“籃球的真實彈跳”。
相比大語言模型還停留在理解人類語義階段,世界模型則以三維視角開始理解真實的物理世界。
關(guān)于理解真實世界的物理法則,其實并沒有想象得那么容易。比如,現(xiàn)在讓你去想象手掌時,你都能準(zhǔn)確且毫不費力地想象出來,但是在目前人工智能的制作中,會經(jīng)常會出現(xiàn)多根手指或連指的現(xiàn)象。
此前,Meta首席人工智能科學(xué)家楊立昆(Yann LeCun)就明確表示,基于文本提示生成的逼真視頻并不代表模型真正理解了物理世界。之后更是直言,像Sora這樣通過生成像素來建模世界的方式注定要失敗。
世界模型正在試圖超越數(shù)據(jù),模擬人類的潛意識推理。例如,棒球擊球手能在毫秒內(nèi)決定如何揮棒,是因為他們可以本能地預(yù)測球的軌跡。這種潛意識推理能力被認(rèn)為是實現(xiàn)人類級智能的先決條件之一。
為此,世界模型通過在大量的照片、音頻、視頻和文本數(shù)據(jù)上進(jìn)行訓(xùn)練,創(chuàng)建對世界運作方式的內(nèi)部表征,并能推理行為的后果,這使它們能更好地理解和模擬現(xiàn)實世界的規(guī)律。
當(dāng)前,人工智能領(lǐng)域?qū)κ澜缒P偷男枨笾饕性趦蓚方面。
第一,對環(huán)境的深度理解和建模。通過建立準(zhǔn)確的世界模型,人工智能系統(tǒng)可以更好地感知和理解外部世界,從而做出更加準(zhǔn)確和智能的決策。當(dāng)前,人工智能領(lǐng)域在這一方面的研究主要集中在強化學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,通過神經(jīng)網(wǎng)絡(luò)等技術(shù)來構(gòu)建復(fù)雜的世界模型,并不斷優(yōu)化和改進(jìn)模型的性能。
第二,是反事實推理的能力提升。反事實推理,也就是回答“如果……會發(fā)生什么?”問題,這是當(dāng)前人工智能系統(tǒng)能力的一個短板。通過提升世界模型的反事實推理能力,人工智能系統(tǒng)可以更好地預(yù)測不同決策的可能結(jié)果,從而做出更加智能和合理的決策。人工智能領(lǐng)域在這一方面的研究集中在改進(jìn)模型的預(yù)測能力和優(yōu)化推理算法等方面,以提升模型的整體性能和效果。
自動駕駛迎來“關(guān)鍵一戰(zhàn)”
對于世界模型是否會成為自動駕駛的終極之戰(zhàn),目前下結(jié)論為時尚早,不過可以肯定的是,一旦這一技術(shù)趨于成熟,將對自動駕駛的智能化水平帶來“質(zhì)”的躍遷。
自動駕駛的飛速發(fā)展,對數(shù)據(jù)有了進(jìn)一步要求。車企需要豐富、復(fù)雜場景來錘煉汽車的自動駕駛能力,然而現(xiàn)實生活中數(shù)據(jù)采集成本居高不下,部分危險場景難以采集,長尾場景稀缺,影響自動駕駛進(jìn)一步發(fā)展。
因此,采用合成數(shù)據(jù)來助力自動駕駛模型訓(xùn)練成了有效的解決方案,世界模型正是這樣的場景生成和預(yù)測器,能夠為自動駕駛模型訓(xùn)練提供豐富虛擬場景。
過去,多模塊化的智能駕駛方案可以對感知和規(guī)控模塊分別進(jìn)行驗證,在感知端層面,工程師可以將感知的結(jié)果和帶有標(biāo)注的真實世界狀況直接對比,進(jìn)行開環(huán)監(jiān)測;在規(guī)控模塊,可以依靠仿真工具將世界的各類場景輸入,通過環(huán)境的變換來給模型反饋,進(jìn)行閉環(huán)的驗證規(guī)控算法性能。
而端到端智駕方案將感知、預(yù)測、規(guī)劃、控制集成一體,這就要求仿真工具既可以逼真地還原外部環(huán)境,同時又能給模型反饋實現(xiàn)閉環(huán)測試,這是世界模型可以實現(xiàn)的。
雖然國內(nèi)汽車行業(yè)現(xiàn)在的關(guān)注焦點停留在端到端,但業(yè)內(nèi)共識是,從“兩段式”逐步過渡到“一段式”端到端,最終實現(xiàn)世界模型的應(yīng)用,是實現(xiàn)高階自動駕駛的一條必經(jīng)之路。
如果梳理自動駕駛技術(shù)的發(fā)展路線,就會發(fā)現(xiàn)一個非常有意思的事情。所謂“功夫在詩外”,這幾年所有對自動駕駛發(fā)展產(chǎn)生推動的技術(shù)其實都不源于自動駕駛,而是人工智能,包括BEV+Transformer、占用網(wǎng)絡(luò)OCC、端到端、世界模型,自動駕駛的本質(zhì)就是人工智能的一個具身智能體現(xiàn)。一定要把自動駕駛放到整個人工智能領(lǐng)域來綜合看待,如果只盯著自動駕駛,這樣就永遠(yuǎn)搞不好自動駕駛。
自動駕駛發(fā)展這么多年,都是在做空間理解的升級,就是讓系統(tǒng)更理解周圍的世界。
最早是通過提升傳感器硬件能力,后來是算法升級,通過鳥瞰視圖(BEV,Bird’s-Eye-View)進(jìn)行視角轉(zhuǎn)換,利用占用網(wǎng)絡(luò)(OCC,Occupancy Network)將2D轉(zhuǎn)換為3D,到現(xiàn)在軟硬件能力都已經(jīng)出現(xiàn)瓶頸,但是極端場景數(shù)據(jù)的獲取卻成了大難題。
目前比較常規(guī)的做法有兩個,一個是3D重建,但這樣的做法成本高、效率低,并不實用;另一個就是仿真,但是仿真的數(shù)據(jù)根本無法“還原”真實數(shù)據(jù),對自動駕駛的幫助有限。
于是,世界模型通過自己“造數(shù)據(jù)”,成為提升自動駕駛訓(xùn)練效率的有效方式之一。其不僅可以通過生成式大模型生成帶有預(yù)測性質(zhì)的視頻數(shù)據(jù),實現(xiàn)Corner Case多樣化訓(xùn)練,還可以采用強化學(xué)習(xí)的方法認(rèn)識復(fù)雜駕駛環(huán)境,從視頻輸出駕駛決策。
世界模型將過去由人向人工智能主動提出問題,人工智能被動向訪問者給予反饋的模式,進(jìn)化為交互式人工智能的新階段,使人工智能能夠主動感知周圍環(huán)境,并主動提問,從而變成一個可以自主行動的實體。
2023年,特斯拉(428.22,31.86,8.04%)自動駕駛負(fù)責(zé)人在CVPR上介紹了通用世界模型,該模型可以通過過往的視頻片段和行動提示,生成“可能的未來”全新視頻。
Wayve也在2023年發(fā)布了GAIA-1模型,可以依靠視頻、文本和動作的輸入生成逼真的視頻,能夠生成分鐘級的視頻以及多種合理的未來場景,幫助自動駕駛模型的訓(xùn)練和仿真。
在CES 2025上,英偉達(dá)發(fā)布Cosmos世界基礎(chǔ)模型(WFM),可以接受文本、圖像或視頻的提示,生成虛擬世界狀態(tài),并針對自動駕駛和機(jī)器人應(yīng)用實現(xiàn)內(nèi)容的生成。
與此同時,國內(nèi)廠商也在加速跟進(jìn)世界模型的搭建。
2024年7月,蔚來(4.1,0.02,0.49%)發(fā)布智能駕駛世界模型NWM。這是一個具有全量理解數(shù)據(jù)、長時序推演和決策能力的智能駕駛世界模型,能夠在短時間內(nèi)推演出上百種可能發(fā)生的場景,并尋找到最優(yōu)決策。
理想(21.88,-0.45,-2.02%)汽車也在其智駕方案中引入了“重建+生成的世界模型”,利用3D高斯模型做場景重建,利用擴(kuò)散模型做場景生成,以重建仿真和生成仿真兩種技術(shù)路線,為智駕方案提供了“錯題集”和“模擬題”。
如此看來,世界模型勢必將是汽車智能化的一道分水嶺,其在場景生成、模型訓(xùn)練、仿真測試、數(shù)據(jù)閉環(huán)等方面的獨特優(yōu)勢,將推動包括自動駕駛、機(jī)器人等在內(nèi)的人工智能應(yīng)用迎來“ChatGPT時刻”。
更輕的車,更“重”的云
歸根結(jié)底,自動駕駛的競爭最終將是算法、算力、數(shù)據(jù)的底層能力之爭,出現(xiàn)任何一塊短板,都將引發(fā)木桶效應(yīng)。
整體上看,自動駕駛正呈現(xiàn)出由車端競爭向云端競爭遷移的趨勢,整個產(chǎn)業(yè)在更“輕”的同時也更“重”。
根據(jù)阿伯丁大學(xué)、MIT等機(jī)構(gòu)的研究者對算力需求的研究發(fā)現(xiàn),在2010年之前模型訓(xùn)練所需的算力增長符合摩爾定律,大約每20個月翻一番。自2010年初深度學(xué)習(xí)問世以來,訓(xùn)練所需的算力快速增長,大約每6個月翻一番。2015年末,隨著大規(guī)模機(jī)器學(xué)習(xí)模型的出現(xiàn),訓(xùn)練算力的需求提高了10-100倍,出現(xiàn)了一種新的趨勢。
與目前用于生成式模型的計算量相比,訓(xùn)練和運行世界模型需要龐大的算力,即使是Sora(可以視為早期的世界模型)也需要數(shù)千個GPU來訓(xùn)練和運行,尤其是在其使用變得普及的情況下。
隨著模型的持續(xù)進(jìn)化,車端顯然無法承受算力之重,智能化的中心必然要從車端逐步遷移到云端。
通過建設(shè)云端強大的數(shù)據(jù)閉環(huán)和算力能力,并配合路側(cè)邊緣計算系統(tǒng)的數(shù)據(jù)感知融合、實時處理、計算和分析,車端因進(jìn)化迭代所面臨的技術(shù)與算力瓶頸被打破,“云”成為智能汽車進(jìn)化路上強大的底層基建。
而車端借助路側(cè)邊緣計算系統(tǒng)與云端數(shù)據(jù)中心,將車端算力、數(shù)據(jù)處理、軟硬件成本進(jìn)行后移,實現(xiàn)技術(shù)與成本的雙減負(fù),智駕技術(shù)得以被普及到更低價格段的車型上。正在攀登高階自動駕駛這座珠峰的玩家,能夠不斷通過“技術(shù)進(jìn)步→成本降低→產(chǎn)品落地”的循環(huán),來獲得更大市場。
車端與路側(cè)和云端形成完整的閉環(huán),車端和路側(cè)收集到海量的交通數(shù)據(jù)之后,云端利用大數(shù)據(jù)和AI算法,對數(shù)據(jù)進(jìn)行分析與挖掘,從中提取有價值的信息。
例如,通過對交通流量進(jìn)行數(shù)據(jù)分析,交管部門可以根據(jù)實時交通流和道路情況智能調(diào)整配時方案,提高道路通行效率。同時,車輛也能接收到車路云網(wǎng)絡(luò)的信息,提前了解道路上的障礙和危險,從而采取相應(yīng)措施確保行車安全。
同時,車端和路側(cè)數(shù)據(jù)可以在云端集中進(jìn)行自動駕駛模型的訓(xùn)練與仿真,再把模型數(shù)據(jù)發(fā)回車端,進(jìn)行OTA部署及更新,三端進(jìn)行協(xié)同互補,由此完成了自動駕駛技術(shù)的迭代與進(jìn)化。
然而,世界模型的構(gòu)建和應(yīng)用也面臨著顯著的挑戰(zhàn)。
首先,環(huán)境模擬的準(zhǔn)確性極大地依賴于模型的復(fù)雜度和所擁有的數(shù)據(jù)質(zhì)量。要精確地預(yù)測復(fù)雜環(huán)境中的動態(tài)變化,需要大量的數(shù)據(jù)和強大的計算資源,這對于資源有限的項目來說可能是一個限制。
自動駕駛是對人類駕駛行為的學(xué)習(xí),人的駕駛能力有上限,所有自動駕駛的安全邊界也有上限,自動駕駛的安全必須高于人類才有意義,尤其是L4級自動駕駛。所以必須要有高于人類駕駛行為的世界模型數(shù)據(jù)訓(xùn)練出來的系統(tǒng)才能優(yōu)于人類。
其次,構(gòu)建一個能夠泛化到多種不同環(huán)境的世界模型是極具挑戰(zhàn)性的,因為現(xiàn)實世界的復(fù)雜性和不可預(yù)測性遠(yuǎn)遠(yuǎn)超出了任何現(xiàn)有模型的處理能力。
世界模型和所有人工智能模型一樣,也會產(chǎn)生幻覺,并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見。世界模型的訓(xùn)練數(shù)據(jù)必須足夠廣泛,以涵蓋多樣化的情景,同時也要足夠具體,使模型能夠深入理解這些情景的細(xì)微差別。
盡管世界模型在理論上具有巨大潛力,但在實際應(yīng)用中仍然存在許多未知數(shù)。例如,如何確保模型的預(yù)測準(zhǔn)確性,如何處理模型可能的偏差,以及如何在不同的應(yīng)用場景中調(diào)整模型參數(shù)以適應(yīng)特定的需求等問題都需要進(jìn)一步的研究和探索。
對于汽車智能化這個宏大主題來說,行進(jìn)道路確實非常艱難。有時目標(biāo)足夠沉,問題足夠多,才有這么多的技術(shù)被發(fā)明、被創(chuàng)造,而每個技術(shù)名詞的背后,都是成長的印記,也是試錯的痕跡。但正是一段段的技術(shù)死磕,才讓智能化逐漸有了一個更明朗的未來。