自2022年年底ChatGPT打響大模型熱潮第一槍,至今已有一年半多的時(shí)間,大模型持續(xù)受到業(yè)界高度關(guān)注。大模型當(dāng)前發(fā)展情況如何,未來(lái)又將如何演進(jìn)發(fā)展?天翼智庫(kù)大模型研究團(tuán)隊(duì)專家就知乎上廣受關(guān)注的14個(gè)相關(guān)熱點(diǎn)問(wèn)題進(jìn)行了專業(yè)性回答。本文是上述問(wèn)答內(nèi)容的摘編。
大模型入門(mén)
1.什么是大模型、超大模型和Foundation Model?
天翼智庫(kù):大模型通常指具有大規(guī)模參數(shù)、能捕捉和學(xué)習(xí)更復(fù)雜數(shù)據(jù)模式的模型,在各種任務(wù)上表現(xiàn)更為出色,如自然語(yǔ)言理解、圖像識(shí)別等。超大模型是大模型的一個(gè)子集,參數(shù)通常達(dá)數(shù)千億甚至數(shù)萬(wàn)億。隨著模型規(guī)模(如參數(shù)數(shù)量、數(shù)據(jù)量、計(jì)算量)增大,其性能通常會(huì)隨之提高,能處理更廣泛任務(wù),在特定任務(wù)上達(dá)更高精度,甚至?xí)坝楷F(xiàn)”新能力,如常識(shí)推理、創(chuàng)作能力等。Foundation Model是一種特定類型的大模型,被設(shè)計(jì)為能夠處理多種類型的任務(wù),而不專門(mén)針對(duì)某一特定任務(wù),通常具有高度泛化能力。
2.如何系統(tǒng)地入門(mén)大模型?
天翼智庫(kù):第一步是基礎(chǔ)知識(shí)學(xué)習(xí)。通過(guò)在網(wǎng)站搜索各類專家的視頻課程來(lái)學(xué)習(xí),如吳恩達(dá)、李宏毅等。核心內(nèi)容包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)言處理等。第二步是了解大模型技術(shù)。通過(guò)視頻學(xué)習(xí)或閱讀書(shū)籍如《這就是ChatGPT》。學(xué)習(xí)知識(shí)點(diǎn)包括Transformer架構(gòu)、預(yù)訓(xùn)練與微調(diào)、多模態(tài)大模型等。第三步是實(shí)踐操作。通過(guò)多種方式在實(shí)際操作中檢驗(yàn)學(xué)習(xí)成果,包括但不限于,研究開(kāi)源大模型源碼,理解其內(nèi)部運(yùn)作;通過(guò)Hugging Face、阿里云ModelScope等平臺(tái),直接調(diào)用現(xiàn)有大模型進(jìn)行應(yīng)用開(kāi)發(fā)。
3.想學(xué)習(xí)大語(yǔ)言模型(LLM),應(yīng)該從哪個(gè)開(kāi)源模型開(kāi)始?
天翼智庫(kù):Llama系列模型是一個(gè)非常好的起點(diǎn),原因有三:一是生態(tài)全面。Llama系列模型擁有較完善的開(kāi)源資源、工具和社區(qū)等生態(tài)支持,遇到問(wèn)題時(shí)更容易找到解決方案、獲得實(shí)踐上的幫助。二是上手方便。Llama系列模型提供一個(gè)無(wú)需GPU的體驗(yàn)版本llama.cpp,可在不具備高性能硬件的條件下開(kāi)始學(xué)習(xí)和實(shí)踐。三是擴(kuò)展性強(qiáng)。Llama系列模型具有普及性,有許多人在其基礎(chǔ)上進(jìn)行擴(kuò)展和優(yōu)化,如Flash Attention算法已成為標(biāo)準(zhǔn)組件,為學(xué)習(xí)者提供現(xiàn)成案例和改進(jìn)方向。
大模型發(fā)展現(xiàn)狀總結(jié)
1.從ChatGPT橫空出世到國(guó)內(nèi)外“百模大戰(zhàn)”,目前大模型發(fā)展情況如何?
天翼智庫(kù):大模型仍處于快速發(fā)展和變革時(shí)期,呈現(xiàn)四大發(fā)展特征。一是技術(shù)快速迭代,邁進(jìn)原生多模態(tài)時(shí)代。2024年5月,OpenAI和谷歌前后腳放出基于自身原生多模態(tài)大模型打造的最新模型產(chǎn)品GPT-4o和Project Astro,開(kāi)啟原生多模態(tài)大模型新階段。二是端側(cè)大模型加速落地,或成未來(lái)交互新入口。AI手機(jī)、AI PC、人形機(jī)器人、智能座駕等市占率有望快速提升,如IDC預(yù)計(jì)2024年國(guó)內(nèi)AI手機(jī)市場(chǎng)出貨量為3700萬(wàn)臺(tái)、占比13.2%,到2027年將達(dá)到1.5億臺(tái)、市占率超50%。三是大模型在各行各業(yè)滲透日益加深,展現(xiàn)強(qiáng)大應(yīng)用潛力。Gartner預(yù)計(jì)到2027年, 企業(yè)中使用的超過(guò)50%的生成式AI模型將是垂直領(lǐng)域模型 (行業(yè)或業(yè)務(wù)功能相關(guān)), 2023年只有1%。四是大模型倫理與安全問(wèn)題凸顯,各國(guó)法律法規(guī)跟進(jìn)。隨著大模型廣泛應(yīng)用,其可能帶來(lái)的倫理、偏見(jiàn)及數(shù)據(jù)安全問(wèn)題引起廣泛關(guān)注,各國(guó)政府和監(jiān)管機(jī)構(gòu)相繼出臺(tái)相關(guān)政策法規(guī)。
2.如何看待國(guó)產(chǎn)大模型的現(xiàn)狀?
天翼智庫(kù):據(jù)天翼智庫(kù)基于公開(kāi)資料的不完全統(tǒng)計(jì),當(dāng)前我國(guó)通用大模型87個(gè),行業(yè)大模型341個(gè),主要集中在北上廣三地。大模型發(fā)展熱潮背后,我們發(fā)現(xiàn)國(guó)內(nèi)通用大模型同質(zhì)化問(wèn)題嚴(yán)重,缺乏原創(chuàng)性突破,應(yīng)用上缺乏獨(dú)特性;行業(yè)大模型多而不精,實(shí)際落地和商業(yè)化進(jìn)程緩慢。究其原因,我們認(rèn)為:一是原創(chuàng)性算法架構(gòu)創(chuàng)新不足。國(guó)內(nèi)AI企業(yè)側(cè)重于對(duì)現(xiàn)有Transformer架構(gòu)及其衍生模型進(jìn)行優(yōu)化和應(yīng)用創(chuàng)新,而非追求底層架構(gòu)根本革新。2019-2023年全球發(fā)布的387個(gè)重要機(jī)器學(xué)習(xí)模型中,美國(guó)機(jī)構(gòu)主導(dǎo)開(kāi)發(fā)的達(dá)262個(gè),中國(guó)僅68個(gè)。二是高端算力資源緊缺。一方面,美國(guó)對(duì)我芯片封鎖政策不斷升級(jí);另一方面,核心算力芯片國(guó)產(chǎn)化進(jìn)展較慢,高端芯片工藝長(zhǎng)期被卡,芯片工藝和性能落后國(guó)際先進(jìn)水平2-3代。三是高質(zhì)量中文數(shù)據(jù)短缺。一方面,公共數(shù)據(jù)開(kāi)放共享水平不足,數(shù)據(jù)可獲得性有待提高;另一方面,各行業(yè)數(shù)據(jù)體量龐大,但標(biāo)準(zhǔn)不一、產(chǎn)業(yè)化不足,仍存在數(shù)據(jù)使用和數(shù)據(jù)安全之間的平衡問(wèn)題。
國(guó)內(nèi)曾經(jīng)也出現(xiàn)過(guò)“百團(tuán)大戰(zhàn)”(團(tuán)購(gòu)),最終只有2-3家生存下來(lái)。我們認(rèn)為未來(lái)國(guó)內(nèi)主導(dǎo)的通用大模型只有3-5家,甚至只有1-2家,現(xiàn)有的大量模型廠商將轉(zhuǎn)型到大模型垂直領(lǐng)域和應(yīng)用開(kāi)發(fā)領(lǐng)域。
3.目前國(guó)內(nèi)大模型處于什么階段,是否有關(guān)鍵技術(shù)壁壘?
天翼智庫(kù):目前處于追趕國(guó)外先進(jìn)水平的階段。盡管國(guó)內(nèi)在大模型研發(fā)上展現(xiàn)出巨大熱情,但與國(guó)際前沿模型相比仍存在一定差距,如號(hào)稱整體超越GPT-4 Turbo的訊飛星火大模型V4.0于2024年6月發(fā)布,而GPT-4 Turbo則于2023年11月發(fā)布,時(shí)間領(lǐng)先超半年。關(guān)鍵的技術(shù)挑戰(zhàn)集中在大模型的核心算法和基礎(chǔ)架構(gòu)設(shè)計(jì)上。目前,大模型主要基于Transformer架構(gòu),并采用預(yù)測(cè)next token作為主要訓(xùn)練策略。為實(shí)現(xiàn)直道超車,可以通過(guò)增加模型參數(shù)、強(qiáng)化多模態(tài)和AI Agent產(chǎn)品能力等策略。同時(shí),探索超越參數(shù)規(guī)模增長(zhǎng)的新理論基礎(chǔ),甚至提出非基于連接學(xué)派的新策略,可能為大模型帶來(lái)彎道超車的機(jī)遇,從根本上解決高能源消耗和大模型難以具備邏輯思維能力等問(wèn)題。
4.目前國(guó)內(nèi)有哪些開(kāi)源多模態(tài)大模型?
天翼智庫(kù):據(jù)天翼智庫(kù)基于公開(kāi)資料的不完全統(tǒng)計(jì),當(dāng)前國(guó)內(nèi)開(kāi)源多模態(tài)大模型至少有28個(gè),發(fā)布者主要分為科技企業(yè)、科研機(jī)構(gòu)兩類,具體包括阿里的Qwen-VL、Qwen-Audio;智譜AI聯(lián)合清華大學(xué)發(fā)布的VisualGLM-6B、CogVLM;零一萬(wàn)物的Yi-VL;面壁智能聯(lián)合清華大學(xué)NLP實(shí)驗(yàn)室發(fā)布的MiniCPM-V 2.0、OmniLMM、VisCPM-Chat、VisCPM-Paint;中國(guó)電信的TeleSpeech-ASR;商湯科技的Shikra;字節(jié)跳動(dòng)的BuboGPT;美團(tuán)的MobileVLM;小紅書(shū)的InstantID;上海AI lab的VideoChat、MM-Interleaved、LLM InternLM-XComposer-2.5;阿里達(dá)摩院的mPLUG-Owl;北京智源人工智能研究院的AltCLIP、AltDiffusion、EVA、Painter、SegGPT、Uni3D、Emu2、EVA-CLIP-18B;IDEA研究院的太乙、Ziya-Visual。
大模型發(fā)展深度剖析
1.大模型發(fā)展中有哪些經(jīng)驗(yàn)和教訓(xùn)?
天翼智庫(kù):主要總結(jié)四點(diǎn)可供企業(yè)、開(kāi)發(fā)者、用戶借鑒的經(jīng)驗(yàn)。一是提示工程的自動(dòng)化可能會(huì)減少對(duì)人類工程師的依賴,并將以新的形態(tài)存在。當(dāng)前趨勢(shì)表明,自動(dòng)生成的提示詞(以下簡(jiǎn)稱prompt)在很多情況下表現(xiàn)優(yōu)于人類工程師設(shè)計(jì)的prompt。隨著技術(shù)不斷進(jìn)步,提示工程的自動(dòng)化或減少對(duì)人類工程師的依賴并將以新形態(tài)存在,如集成到基礎(chǔ)模型或作為大語(yǔ)言模型運(yùn)營(yíng)(LLMOps)的一部分,仍然需要人類參與。二是混合專家模型(以下簡(jiǎn)稱MoE)架構(gòu)有望超越傳統(tǒng)范式實(shí)現(xiàn)低成本萬(wàn)億參數(shù)大模型。MoE架構(gòu)通過(guò)將任務(wù)分解為多個(gè)子問(wèn)題,并由不同的專家模型分別處理,展現(xiàn)了其在提高預(yù)測(cè)性能方面的潛力。三是隨著數(shù)據(jù)隱私法規(guī)的加強(qiáng)和高質(zhì)量數(shù)據(jù)的稀缺,數(shù)據(jù)合成技術(shù)在大模型研發(fā)流程中的重要性愈發(fā)凸顯。四是基于SFT的企業(yè)大模型微調(diào)策略門(mén)檻較高,RAG+知識(shí)庫(kù)的方案有望成為主流。基于SFT(Supervised Fine-Tuning)的企業(yè)大模型微調(diào)策略雖能快速帶來(lái)效果,但計(jì)算密集且資源消耗大。結(jié)合RAG(Retrieval-Augmented Generation)和知識(shí)庫(kù)的方案不僅能提供個(gè)性化和領(lǐng)域特定的回答,且相較于SFT可能更易實(shí)施和維護(hù),有望成為企業(yè)大模型微調(diào)的主流策略。
2.開(kāi)源大模型是否比閉源大模型取得更多進(jìn)展和成就?
天翼智庫(kù):從模型性能的角度看,開(kāi)源大模型進(jìn)展落后于閉源大模型。據(jù)知名大模型競(jìng)技場(chǎng)LMSYS Chatbot Arena Leaderboard于2024年7月8日更新的評(píng)測(cè)結(jié)果顯示,Top10均為閉源大模型,Top20中有6個(gè)開(kāi)源大模型;據(jù)2024年7月15日查閱的斯坦福團(tuán)隊(duì)發(fā)布的AlpacaEval Leaderboard顯示,Top10中僅有2個(gè)開(kāi)源大模型。從技術(shù)普及發(fā)展的角度看,開(kāi)源大模型的貢獻(xiàn)大于閉源大模型。開(kāi)源大模型吸引大量開(kāi)發(fā)者和研究人員自由地查看、修改和擴(kuò)展模型,加速大模型技術(shù)創(chuàng)新和應(yīng)用場(chǎng)景探索,同時(shí)開(kāi)源社區(qū)貢獻(xiàn)智慧,又推動(dòng)開(kāi)源大模型自身發(fā)現(xiàn)并修復(fù)問(wèn)題、提升模型質(zhì)量。
3.大模型發(fā)展到現(xiàn)在,為什么還沒(méi)出現(xiàn)爆款級(jí)應(yīng)用?
天翼智庫(kù):一是國(guó)內(nèi)C端用戶付費(fèi)意愿普遍偏低,相較國(guó)外更難盈利。二是應(yīng)用場(chǎng)景并非面向用戶剛需,難以形成穩(wěn)固用戶基礎(chǔ)。傳統(tǒng)爆款級(jí)軟件往往能解決用戶某方面剛需(例如社交 App),而對(duì)于大模型核心應(yīng)用場(chǎng)景“內(nèi)容生成”而言,大部分使用者只有嘗鮮并無(wú)硬性需求,影響用戶留存率。三是應(yīng)用對(duì)用戶有使用門(mén)檻要求,限制了應(yīng)用的易用性。模型回復(fù)質(zhì)量取決于用戶個(gè)人提問(wèn)技巧,用戶能力差異化帶來(lái)模型使用效果兩極化,導(dǎo)致當(dāng)前大模型應(yīng)用尚不具備爆款級(jí)應(yīng)用“人人易用”的特性。四是模型幻覺(jué)問(wèn)題依然存在,對(duì)使用體驗(yàn)有較大影響。
如今AI技術(shù)站在“技術(shù)革新到應(yīng)用繁榮的臨界點(diǎn)”上,爆款級(jí)應(yīng)用或許并非難以出現(xiàn),而是正處于中間“應(yīng)用準(zhǔn)備期”階段。
4.大語(yǔ)言模型無(wú)法對(duì)數(shù)字進(jìn)行準(zhǔn)確運(yùn)算的底層原因是什么?
天翼智庫(kù):一是大模型的工作原理與數(shù)學(xué)運(yùn)算的邏輯不一致。大語(yǔ)言模型基于上下文中詞與詞之間的關(guān)聯(lián)性獲取深層次語(yǔ)義信息,并根據(jù)統(tǒng)計(jì)概率預(yù)測(cè)下一個(gè)詞,更適合較為具象的自然語(yǔ)言理解與生成等任務(wù)。數(shù)學(xué)運(yùn)算中上下文信息較少,數(shù)字含義更抽象,增加大模型理解難度。且大模型基于一定概率生成輸出內(nèi)容,與數(shù)學(xué)運(yùn)算需要嚴(yán)格根據(jù)運(yùn)算規(guī)則進(jìn)行準(zhǔn)確計(jì)算的推理方式不完全匹配。二是不同的分詞方法對(duì)大模型的數(shù)學(xué)運(yùn)算能力存在一定影響。不恰當(dāng)?shù)姆衷~會(huì)增加大模型理解多位數(shù)的難度,難以建立token向量與數(shù)字之間的準(zhǔn)確對(duì)應(yīng)關(guān)系。此外,隨著多位數(shù)的位數(shù)增加,大模型將相同數(shù)位的數(shù)字進(jìn)行對(duì)齊的難度也會(huì)增加,使大模型在分步計(jì)算過(guò)程中容易出錯(cuò)。
5.2024年大模型還有哪些可研究的方向?
天翼智庫(kù):總結(jié)十個(gè)國(guó)際主流企業(yè)認(rèn)可的研究方向。一是模型融合技術(shù)。在不增大模型參數(shù)規(guī)模的前提下,通過(guò)模型融合來(lái)提升模型性能和效率,且新模型還沒(méi)有傳統(tǒng)集成方法的典型缺陷,如更高的算力需求。二是混合專家系統(tǒng)。通過(guò)將多個(gè)小型模塊組合起來(lái)創(chuàng)建MoE,可讓所得大模型的效果和效率媲美甚至超越大型模型。三是訓(xùn)練更小的大模型。研究如何在保持或提升模型性能的同時(shí),減少模型的大小和計(jì)算資源需求。四是個(gè)性化與定制化。開(kāi)發(fā)能根據(jù)特定用戶需求進(jìn)行個(gè)性化調(diào)整的大模型,以提供更加精準(zhǔn)的服務(wù)。五是多模態(tài)大模型和多模態(tài)融合技術(shù)。繼續(xù)發(fā)展能處理多種類型數(shù)據(jù)的大模型,以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界問(wèn)題。六是跨模態(tài)交互。通過(guò)不同的技術(shù)或方法促進(jìn)不同模態(tài)之間有效交互和預(yù)測(cè),包括多模態(tài)數(shù)據(jù)處理與轉(zhuǎn)換技術(shù)、跨模態(tài)學(xué)習(xí)等。七是模型對(duì)齊與安全可控。研究如何使大模型更好地對(duì)齊人類偏好,并確保其在使用過(guò)程中的安全性和可控性。八是時(shí)序預(yù)測(cè)與異常檢測(cè)。利用大模型在時(shí)序預(yù)測(cè)和異常檢測(cè)方面的應(yīng)用潛力,進(jìn)一步提升其在金融、醫(yī)療等領(lǐng)域的實(shí)際應(yīng)用效果。九是智能體評(píng)測(cè)。通過(guò)指令遵從和偏好對(duì)齊的能力,評(píng)估大模型作為智能中樞解決復(fù)雜任務(wù)的能力。十是智能體評(píng)測(cè)交叉學(xué)科研究。將大模型與其他學(xué)科如語(yǔ)言學(xué)、政治學(xué)、社會(huì)學(xué)和心理學(xué)等進(jìn)行交叉研究,以拓展其應(yīng)用場(chǎng)景和理論深度。
大模型發(fā)展路徑展望
1.大模型再發(fā)展5年,搜索引擎還在嗎?
天翼智庫(kù):大模型技術(shù)會(huì)與搜索引擎產(chǎn)品結(jié)合。從發(fā)展終局的視角看,結(jié)合大模型技術(shù)的搜索引擎最終會(huì)在用戶使用習(xí)慣、產(chǎn)品核心定位和企業(yè)市場(chǎng)格局三方面有新變化。一是用戶使用邊界從“檢索”向“問(wèn)答”拓展。AI搜索讓信息的顆粒度從網(wǎng)頁(yè)細(xì)化到內(nèi)容本身,在多數(shù)情況下將幫助用戶省去“逐個(gè)鏈接查看”、“對(duì)多個(gè)網(wǎng)頁(yè)源信息進(jìn)行整合”兩個(gè)關(guān)鍵步驟,且“提問(wèn)-回答-追問(wèn)”的新用戶習(xí)慣也在快速建立。二是產(chǎn)品核心定位從“搜索引擎”轉(zhuǎn)向“大模型+搜索的整體問(wèn)答系統(tǒng)”。首先,產(chǎn)品底層邏輯更加復(fù)雜,AI搜索的智能化水平成為新決定性因素。其次,產(chǎn)品UI界面重點(diǎn)從網(wǎng)頁(yè)列表轉(zhuǎn)移到內(nèi)容答案。然后,產(chǎn)品商業(yè)模式將變得更加多元,如采用用戶付費(fèi)訂閱制、后向整合打造內(nèi)容生態(tài)并開(kāi)啟知識(shí)付費(fèi)等。最后,產(chǎn)品服務(wù)形態(tài)或從云服務(wù)向端云協(xié)同轉(zhuǎn)變。三是未來(lái)的搜索市場(chǎng)玩家將是整合大模型技術(shù)的傳統(tǒng)搜索龍頭企業(yè)以及AI搜索初創(chuàng)企業(yè)的混合市場(chǎng)格局。全球市場(chǎng)上的前兩名將仍然是谷歌、微軟,市場(chǎng)三四五名或迎來(lái)新一輪洗牌,專業(yè)AI搜索初創(chuàng)產(chǎn)品或殺出重圍。
2.大模型的終局是“通用”還是“專用”?
天翼智庫(kù):通用大模型通過(guò)在海量數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)大量知識(shí),獲得面向任務(wù)的通用求解能力,契合C端用戶的多樣化、碎片化需求。專用大模型遵循“大規(guī)模預(yù)訓(xùn)練+微調(diào)”的范式,針對(duì)特定任務(wù)進(jìn)行微調(diào)以更好地適應(yīng)實(shí)際應(yīng)用場(chǎng)景需要。專用大模型能力發(fā)展源自辦公、制造、醫(yī)療等場(chǎng)景降本增效、提高準(zhǔn)確率等訴求,并最終向B端、G端客戶提供適合細(xì)分場(chǎng)景的定制化大模型能力。通用大模型和專用大模型各有優(yōu)勢(shì),未來(lái)將趨于并行發(fā)展。通用大模型將繼續(xù)作為技術(shù)基礎(chǔ),推動(dòng)模型架構(gòu)創(chuàng)新和應(yīng)用普及;專用大模型將在特定領(lǐng)域和任務(wù)中提供更精準(zhǔn)和高效的服務(wù)。隨著技術(shù)不斷進(jìn)步和融合,未來(lái)或出現(xiàn)更加靈活、智能的模型架構(gòu)和訓(xùn)練方法,以實(shí)現(xiàn)通用與專用的最佳結(jié)合。