8月30日,國內(nèi)運營商最大單集群智算中心——中國移動智算中心(哈爾濱)建設完成并正式投產(chǎn)使用。該智算中心單集群擁有超過1.8萬卡的豐富資源,可提供6.9EFlops(每秒690億億次浮點運算)智能算力,融合分級存儲達150P,具有單集群算力規(guī)模最大、國產(chǎn)化網(wǎng)絡設備組網(wǎng)規(guī)模最大等特點。
所謂單集群智算中心,就是把所有AI加速卡打造成1個集群,用以支持千萬億級參數(shù)的大模型進行訓練。集群智算中心通過先進的智算網(wǎng)絡技術把上萬塊GPU芯片像“積木”一樣拼接在一起,大幅提升GPU節(jié)點間的通信效率,可以將數(shù)據(jù)訓練完成時間縮短20%,是應對大模型海量數(shù)據(jù)訓練、加快大模型應用落地的利器。擁有1.8萬張AI加速卡的中國移動智算中心(哈爾濱)可以支持萬億參數(shù)的大模型訓練。
中國移動智算中心(哈爾濱)是業(yè)內(nèi)首個大規(guī)模應用融合存儲的集群,也是首個落地中國移動原創(chuàng)智算網(wǎng)絡全調(diào)度以太網(wǎng)(GSE1.0)的萬卡集群。正是在GSE1.0的支持下,中國移動智算中心(哈爾濱)才大幅提高了GPU節(jié)點間的通信效率,減少了數(shù)據(jù)訓練任務的時間和成本。
點評:AI大模型的研發(fā)需要基于大量GPU的集群算力來支撐,通常參數(shù)規(guī)模越大、訓練數(shù)據(jù)越多,對智算集群的要求就越高。不過隨著集群中調(diào)用的GPU卡數(shù)量越來越多,計算任務的調(diào)度、中間數(shù)據(jù)和結(jié)果的傳遞與保存等,也會變得越來越復雜。中國移動在智算萬卡集群研發(fā)中,采用了多項創(chuàng)新技術確保大模型運行的低時延、高帶寬數(shù)據(jù)處理和存儲能力,還有系列自動化、數(shù)智化技術確保算力集群的高效、穩(wěn)定運行,無疑是中國ICT科技創(chuàng)新能力、產(chǎn)業(yè)化實力的集中體現(xiàn)。