飛象網(wǎng)訊(易歡)在今天“2024年云網(wǎng)智聯(lián)大會(huì)”上,中國(guó)電信科技委主任韋樂(lè)平分享了為未來(lái)大模型跨群跨域跨云面臨挑戰(zhàn)的思考與建議。
韋樂(lè)平指出,由于單站資源受限,未來(lái)可能需要在園區(qū)、AZ乃至更大范圍內(nèi)由多個(gè)物理集群構(gòu)成一個(gè)超級(jí)邏輯集群進(jìn)行聯(lián)合訓(xùn)練才能支撐超大模型的訓(xùn)練。推理本身與具體業(yè)務(wù)場(chǎng)景相關(guān),更可能需要跨域跨云實(shí)施。
“挑戰(zhàn)也隨著而來(lái),其中,距離增大導(dǎo)致時(shí)延變大,高頻次通信的效率將降低,導(dǎo)致網(wǎng)絡(luò)吞吐量降低,影響GPU利用率。此外,故障概率也將增大。“
對(duì)此,韋樂(lè)平也給出了應(yīng)對(duì)策略,解決不同集群間參數(shù)的傳遞和同步以及大量數(shù)據(jù)跨群跨域跨云傳輸?shù)牟煌瑫r(shí)延導(dǎo)致的訓(xùn)練速度減慢的問(wèn)題。一是訓(xùn)練任務(wù)被拆分到不同集群上實(shí)行并行訓(xùn)練,根據(jù)不同的訓(xùn)練任務(wù)和場(chǎng)景,采用數(shù)據(jù)并行、流水線并行、張量并行等多種不同策略。二是采用空芯光纖從物理層上直接降低數(shù)據(jù)傳遞時(shí)延(降33%)。
與此同時(shí),韋樂(lè)平強(qiáng)調(diào),單站單園區(qū)集中訓(xùn)練是首選,跨群跨域跨云的訓(xùn)練依然充滿挑戰(zhàn)!