[中國,上海,2023年9月20日] 華為全聯(lián)接大會2023期間,在數(shù)通的星河AI網(wǎng)絡(luò)主題峰會上,華為聯(lián)合中國信息通信研究院、科大訊飛研究院向全球共同發(fā)布《星河AI網(wǎng)絡(luò)白皮書》(以下簡稱“白皮書”),白皮書從AI業(yè)務(wù)的發(fā)展趨勢、網(wǎng)絡(luò)架構(gòu)和關(guān)鍵技術(shù)創(chuàng)新等三個方面展示星河AI網(wǎng)絡(luò)在業(yè)界人工智能產(chǎn)業(yè)的技術(shù)領(lǐng)導(dǎo)力。旨在促進(jìn)行業(yè)數(shù)智化轉(zhuǎn)型、推動產(chǎn)業(yè)升級及合作,為構(gòu)建面向AI大模型的高性能訓(xùn)練網(wǎng)絡(luò)提供參考。
中國信通院云計算與大數(shù)據(jù)研究所總工程師 郭亮(左)
華為數(shù)據(jù)通信產(chǎn)品線副總裁 趙志鵬(中)
科大訊飛AI工程院副院長 王金钖(右)
白皮書指出,近年來AI算法已邁入萬億參數(shù)大模型時代,算力需求增長近十萬倍, AI大規(guī)模計算需要高效協(xié)同數(shù)萬張AI處理器,需要持續(xù)優(yōu)化網(wǎng)絡(luò),提高并行計算效率;且由于AI處理器成本高昂,亟需搭建零丟包高吞吐的高性能網(wǎng)絡(luò),充分釋放AI處理器效率;同時,AI大模型訓(xùn)練周期長,萬卡集群流量規(guī)模達(dá)到數(shù)10萬條,需要有效的運維手段,降低平均故障間隔時間
基于以上挑戰(zhàn),星河AI網(wǎng)絡(luò)解決方案提出了以下幾個創(chuàng)新點:
高性能:采用NSLB(AI加速器)技術(shù),將網(wǎng)絡(luò)吞吐提升至98%,AI訓(xùn)練效率提高20%;
高可靠:應(yīng)用DPFR(業(yè)務(wù)無感自愈)技術(shù)實現(xiàn)故障鏈路亞毫秒級切換,確保故障應(yīng)用無感知;
可運維:提供可視化運維方案,高精度采集數(shù)據(jù),實現(xiàn)網(wǎng)絡(luò)一鍵式故障診斷,訓(xùn)中排障效率提升90%;
大規(guī)模:支持萬卡集群訓(xùn)練,算力規(guī)模是業(yè)界的4倍;
開放性:提供超融合以太方案,可完全復(fù)用以太生態(tài),相比業(yè)界性能基本持平,運維成本降低30%。
當(dāng)前,AI模型發(fā)展已從萬千小模型走向了百模千態(tài)的大模型時代,星河AI網(wǎng)絡(luò)解決方案針對網(wǎng)絡(luò)新需求,持續(xù)優(yōu)化網(wǎng)絡(luò)架構(gòu),革新網(wǎng)絡(luò)技術(shù),為構(gòu)建面向AI大模型的高性能訓(xùn)練網(wǎng)絡(luò)提供參考,推動人工智能技術(shù)的發(fā)展和進(jìn)步。
目前,星河AI網(wǎng)絡(luò)已在全球100+企業(yè)部署商用。面向未來,華為希望與眾多合作伙伴一起,推動技術(shù)的發(fā)展和應(yīng)用場景的拓展,實現(xiàn)人工智能技術(shù)的可持續(xù)發(fā)展和社會的共同繁榮。
了解更多《星河AI網(wǎng)絡(luò)白皮書》,請參閱:
https://e.huawei.com/cn/material/enterprise/8ac74df519ff4fc4ae9aeabe0215adb0