隨著人工智能的快速發(fā)展,能夠給機(jī)器人帶來(lái)顛覆性改變的具身智能被寄予厚望。
具身智能是基于物理身體(智能體)進(jìn)行感知和行動(dòng)的智能系統(tǒng),通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為與適應(yīng)性。具身智能與人工智能的發(fā)展息息相關(guān),IDC認(rèn)為,具身智能是將人工智能融入各類(lèi)物理本體形成的智能系統(tǒng)。
全球范圍內(nèi),具身智能被視為一條極具空間和高成長(zhǎng)性的藍(lán)海賽道。目前,小鵬、特斯拉等新能源車(chē)企,智元機(jī)器人、銀河通用、星動(dòng)紀(jì)元、宇數(shù)科技、傅利葉等國(guó)內(nèi)初創(chuàng)企業(yè)在具身智能機(jī)器人領(lǐng)域已取得顯著成果,華為、阿里、美團(tuán)、百度等互聯(lián)網(wǎng)大廠也紛紛入局,具身智能已成為產(chǎn)業(yè)鏈公司明確的發(fā)力方向。
具身智能三大功能:感知與交互、自決策、自學(xué)習(xí)
目前在智能工廠所應(yīng)用的機(jī)器人,更多是在完成一些自動(dòng)化任務(wù)。比如,機(jī)械臂需要部署在特定的環(huán)境,完成一個(gè)任務(wù)時(shí),其實(shí)是在執(zhí)行自動(dòng)化工程師寫(xiě)好的代碼并進(jìn)行調(diào)校后的指令,是在完成一些規(guī)則的、固定的行動(dòng)路線,比如抓舉等操作,可能會(huì)輔以計(jì)算機(jī)視覺(jué)等技術(shù),但始終是“換湯不換藥”。而具身智能有別于此,具備感知與交互、自決策、自學(xué)習(xí)三大功能。
東土科技人工智能研究院院長(zhǎng)祝一蒙告訴第一財(cái)經(jīng),“在大模型問(wèn)世后,我們現(xiàn)在做的具身智能是通過(guò)一個(gè)大語(yǔ)言模型去解析用戶的自然語(yǔ)言命令,再通過(guò)一個(gè)視覺(jué)語(yǔ)言模型去觀察機(jī)器人周?chē)沫h(huán)境,通過(guò)這兩個(gè)模型直接把用戶的自然語(yǔ)言命令轉(zhuǎn)化成機(jī)器人要執(zhí)行的動(dòng)作!
這就涉及到具身智能的感知與交互功能。具身交互指的是智能體在物理或模擬空間中與人類(lèi)和環(huán)境進(jìn)行交互,需要具有主動(dòng)的認(rèn)知、語(yǔ)言理解能力、目標(biāo)驅(qū)動(dòng)的探索、常識(shí)推理并將自然語(yǔ)言的信息整合到動(dòng)作序列中,大語(yǔ)言模型在其中起到關(guān)鍵作用。
具有感知能力的智能體必須在物理世界中移動(dòng)并與環(huán)境互動(dòng),這就需要對(duì)三維空間和動(dòng)態(tài)環(huán)境更加了解。與僅僅識(shí)別圖像中的物體不同,業(yè)內(nèi)認(rèn)為,未來(lái)具身感知的主要發(fā)展方向是以智能體為中心的視覺(jué)推理,上述“視覺(jué)語(yǔ)言模型”也為此類(lèi)。
“比如我和機(jī)器人說(shuō)一句‘把這杯水放到手機(jī)的左邊’,以前需要自動(dòng)化工程師拿一個(gè)示教器去告訴這個(gè)機(jī)器人把這杯水放過(guò)去要經(jīng)歷哪些路徑點(diǎn),每走到一個(gè)路徑點(diǎn)時(shí)要用什么樣的速度和加速度,包括每個(gè)關(guān)節(jié)用什么樣的力矩,然后走過(guò)去。但是現(xiàn)在我們可以通過(guò)自然語(yǔ)言直接告訴他任務(wù),后面的路徑規(guī)劃和運(yùn)動(dòng)控制,都交給大模型去自動(dòng)完成!弊R幻蓪(duì)第一財(cái)經(jīng)解釋稱,這就是具身智能的自決策。
具身智能機(jī)器人企業(yè)中科光電創(chuàng)始人、董事長(zhǎng)吳易明對(duì)第一財(cái)經(jīng)表示,在具身智能下,大腦基于眼睛感知能力,指揮機(jī)械手做不同工件,不是識(shí)別工件(標(biāo)記信息)后根據(jù)人為不同工件設(shè)定好的不同工件的程序執(zhí)行任務(wù),而是有眼睛感知到工件后,基于自主理解的任務(wù)要求,智能分析工件的結(jié)構(gòu),各要素空間關(guān)系,再自主生成工藝、動(dòng)作和各種運(yùn)動(dòng)參數(shù),甚至進(jìn)行交互和迭代,實(shí)現(xiàn)自主作業(yè)!斑@樣的機(jī)器人就類(lèi)似于一個(gè)熟練工,拿到了工件的圖紙,知曉任務(wù)目標(biāo)就能干了!
最初這個(gè)熟練工僅具備兩年經(jīng)驗(yàn),而在工廠應(yīng)用兩年后,通過(guò)大模型的自學(xué)習(xí)能力,具身智能機(jī)器人能夠成長(zhǎng)為一個(gè)四年甚至更長(zhǎng)經(jīng)驗(yàn)的工程師。這就是具身智能的自學(xué)習(xí)特點(diǎn)。
人形機(jī)器人是具身智能終極方案之一,工業(yè)場(chǎng)景或率先落地
人形機(jī)器人被認(rèn)為是具身智能的絕佳載體。
2024年一批人形機(jī)器人進(jìn)入商用測(cè)試階段,目前科研教育場(chǎng)景是人形機(jī)器人的主要應(yīng)用場(chǎng)景。IDC預(yù)計(jì),2025年人形機(jī)器人將在商用服務(wù)、特種作業(yè)領(lǐng)域從事運(yùn)動(dòng)速度、節(jié)拍要求較低的生產(chǎn)服務(wù)任務(wù),預(yù)計(jì)將實(shí)現(xiàn)千臺(tái)量級(jí)的小規(guī)模商用。
“人形機(jī)器人是機(jī)器人+端側(cè)AI非常好的應(yīng)用,也是建立物理世界和大模型連接橋梁的比較好的載體,它是個(gè)很優(yōu)的終極方案之一,但不是最終極的方案!蹦尘呱碇悄軝C(jī)器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人對(duì)第一財(cái)經(jīng)表示,“就像人的很多運(yùn)動(dòng)特性和感知能力不如部分動(dòng)物,人形機(jī)器人是目前所處物理環(huán)境的一個(gè)友好方案之一!
事實(shí)上,具身智能并不局限于人形或機(jī)械臂等,而是可以根據(jù)具體應(yīng)用場(chǎng)景來(lái)選擇合適的物理形態(tài)。任何能夠在物理空間環(huán)境中行動(dòng)并形成互動(dòng)的機(jī)器人,如協(xié)作機(jī)器人、移動(dòng)機(jī)器人、商用服務(wù)機(jī)器人等,通過(guò)融合人工智能技術(shù)、軟件產(chǎn)品,都有望發(fā)展成為具身智能機(jī)器人。也就是說(shuō),具身智能機(jī)器人的關(guān)鍵在于具身智能的底層技術(shù),而非機(jī)器人的物理形狀。
“具身智能機(jī)器人能夠像人一樣自主使用傳統(tǒng)工具,比如你要砸釘子,我就可以找到榔頭,我能認(rèn)識(shí)榔頭,像人一樣抓榔頭去砸釘子。能夠像人一樣使用傳統(tǒng)工具,所以就能夠操控機(jī)床等其他設(shè)備,這就是整個(gè)機(jī)器人的適用范圍,把它做成人的樣子,它就是個(gè)人形機(jī)器人。”吳易明表示。
業(yè)內(nèi)認(rèn)為,工業(yè)領(lǐng)域或是具身智能機(jī)器人率先應(yīng)用落地的場(chǎng)景。
前小鵬機(jī)器人產(chǎn)品設(shè)計(jì)負(fù)責(zé)人孫兆治此前表示,產(chǎn)線或者工業(yè)環(huán)境相對(duì)來(lái)說(shuō)能夠做到結(jié)構(gòu)化或者半結(jié)構(gòu)化,而討論較多的養(yǎng)老環(huán)境或家務(wù)環(huán)境其實(shí)是一個(gè)非結(jié)構(gòu)化的環(huán)境,它的corner case會(huì)非常多,技術(shù)成熟到應(yīng)對(duì)這些場(chǎng)景之前,可以優(yōu)先落地到半結(jié)構(gòu)化場(chǎng)景或者結(jié)構(gòu)化場(chǎng)景,相對(duì)來(lái)說(shuō)在產(chǎn)線上或者工業(yè)應(yīng)用相對(duì)可控一些。
上述具身智能機(jī)器人初創(chuàng)企業(yè)聯(lián)合創(chuàng)始人也有類(lèi)似觀點(diǎn)!肮I(yè)和有限范圍、有邊界條件、非開(kāi)放型的場(chǎng)景會(huì)率先應(yīng)用。工業(yè)應(yīng)用場(chǎng)景的每個(gè)節(jié)拍都很清晰,在訓(xùn)練過(guò)程中能夠有的放矢地進(jìn)行原子動(dòng)作,以及建立基于不同垂類(lèi)領(lǐng)域的原子動(dòng)作體系。預(yù)計(jì)2025-2026年,在一些簡(jiǎn)單場(chǎng)景,包括搬運(yùn)、分揀等,具身智能機(jī)器人都能夠做一些事情。而對(duì)服務(wù)娛樂(lè)領(lǐng)域這種高泛化性的人機(jī)交互場(chǎng)景,需要機(jī)器人八面玲瓏,對(duì)它的算法要求也更高,這種情況的應(yīng)用可能會(huì)更晚一些!
具身智能發(fā)展面臨多維度挑戰(zhàn)
具身智能機(jī)器人產(chǎn)業(yè)鏈主要包括硬件、算法與模型、數(shù)據(jù)、算力等方面,其性能表現(xiàn)高度依賴于軟件與硬件的全方位進(jìn)化。作為新興技術(shù),具身智能的發(fā)展也面臨著多維度挑戰(zhàn)。
硬件是一切的基礎(chǔ)。具身智能產(chǎn)業(yè)鏈需要穩(wěn)定供給的高性能硬件,否則無(wú)法根據(jù)算法和數(shù)據(jù)進(jìn)行硬件的快速優(yōu)化和修改。“硬件方面,關(guān)節(jié)、本體領(lǐng)域國(guó)內(nèi)做得還是不錯(cuò)的。我們的部分產(chǎn)品可能在某些性能上與國(guó)外存在差距,但現(xiàn)有的工業(yè)機(jī)器人、協(xié)作機(jī)器人等都奠定了硬件基礎(chǔ)。”上述聯(lián)合創(chuàng)始人表示。
算法方面,該人士認(rèn)為,國(guó)內(nèi)外起跑線差不了太多;端側(cè)算力領(lǐng)域,華為等很多企業(yè)正在奮力追趕。
數(shù)據(jù)也是困難的環(huán)節(jié)之一。機(jī)器人與物理世界的感知與交互,所需要積累應(yīng)用的數(shù)據(jù)也多源于物理世界,高質(zhì)量的數(shù)據(jù)是訓(xùn)練高性能具身智能機(jī)器人的基礎(chǔ)。
以工業(yè)領(lǐng)域?yàn)槔,工業(yè)環(huán)境復(fù)雜,數(shù)據(jù)難以積累與有效打通,給AI在工業(yè)領(lǐng)域的滲透帶來(lái)了阻力。“AI需要行業(yè)數(shù)據(jù)的訓(xùn)練,以對(duì)行業(yè)和領(lǐng)域加深了解。但工業(yè)數(shù)據(jù)的采集比較困難,目前任何一個(gè)行業(yè)都沒(méi)有相對(duì)規(guī)范的標(biāo)準(zhǔn),同時(shí)數(shù)據(jù)采集過(guò)程中也經(jīng)常會(huì)有‘噪音’,數(shù)據(jù)的有效性難以保證,這也給AI實(shí)際應(yīng)用效果打了折扣。此外,工業(yè)領(lǐng)域往往會(huì)涉及更多數(shù)據(jù)安全相關(guān)問(wèn)題,這也給AI應(yīng)用在工業(yè)領(lǐng)域帶來(lái)了困難。”祝一蒙告訴第一財(cái)經(jīng)。
目前,行業(yè)正在通過(guò)聯(lián)盟、跨界合作與建設(shè)開(kāi)源數(shù)據(jù)集等方式,共同構(gòu)建高質(zhì)量、大規(guī)模的具身智能數(shù)據(jù)集,解決數(shù)據(jù)稀疏和碎片化的問(wèn)題,同時(shí)促進(jìn)降低研發(fā)成本,加速技術(shù)迭代,促進(jìn)生態(tài)繁榮。
從投資角度看,頭部人形機(jī)器人的本體研發(fā)集成廠商已經(jīng)經(jīng)歷多輪融資,估值較高,行業(yè)整體投資熱點(diǎn)正從人形機(jī)器人本體向具身智能模型和其它上游零部件遷移?傮w而言,具身智能賽道有望繼續(xù)成為市場(chǎng)投資熱點(diǎn),第一財(cái)經(jīng)也將持續(xù)保持關(guān)注。