【中國,北京,2024年12月23日】在由中國信息通信研究院主辦的智算IP廣域網(wǎng)產(chǎn)業(yè)交流會上,中國電信股份有限公司北京分公司(以下簡稱“北京電信”)云網(wǎng)發(fā)展部規(guī)劃總監(jiān)姚凌分享了“打造高品質(zhì)智算廣域網(wǎng),百公里無損聯(lián)算服務(wù)首都新發(fā)展”的演講。姚凌表示北京電信通過智算廣域網(wǎng)將京津冀三地算力中心資源整合,探索多算力中心協(xié)同完成超大模型訓(xùn)練的多點共算新模式。采用新型流級擁塞控制,無損調(diào)度和深度負(fù)載均衡智算廣域網(wǎng)技術(shù),保證網(wǎng)絡(luò)傳輸吞吐率95%以上,從而實現(xiàn)跨智算中心算效不下降,高效服務(wù)人工智能產(chǎn)業(yè)發(fā)展需求。
算力需求每年增長10倍,運營商規(guī)劃構(gòu)建萬卡集群,協(xié)同完成超大模型訓(xùn)練。受供電、機(jī)房環(huán)境等因素限制,單智算中心物理環(huán)境不滿足萬卡集群的建設(shè)需求。通過廣域網(wǎng)絡(luò)聯(lián)接跨幾百到上千公里的異地算力中心,會面臨兩個關(guān)鍵技術(shù)點挑戰(zhàn): 一是跨DC大模型訓(xùn)練極端情況流量瞬時并發(fā)達(dá)上千Tbps,需要考慮收斂比和訓(xùn)練效率之間平衡最優(yōu)比。二是RDMA長距傳輸對于丟包十分敏感,千分之一丟包會導(dǎo)致網(wǎng)絡(luò)吞吐率下降,影響算卡效率并造成資源浪費。
北京電信通過新一代智算路由器打造智算廣域網(wǎng),采用新型流級擁塞控制技術(shù),可精準(zhǔn)快速識別網(wǎng)絡(luò)發(fā)生擁塞或故障,并基于流進(jìn)行擁塞控制,確保擁塞不擴(kuò)散到全網(wǎng)。同時采用路由器廣域無損調(diào)度和負(fù)載均衡技術(shù),避免數(shù)據(jù)丟包導(dǎo)致算卡計算效率下降,現(xiàn)網(wǎng)實際驗證跨100公里長距算效僅降1%。
姚凌表示北京電信后續(xù)將持續(xù)探索多DC協(xié)同技術(shù)研究,目前正在聯(lián)合云公司開展智算拉遠(yuǎn)四階段驗證;谙⑷阑劬壑悄苣P头⻊(wù)平臺,驗證百川等真實客戶模型拉遠(yuǎn)效果,逐步推進(jìn)智算拉遠(yuǎn)方案走向商用。