飛象網(wǎng)訊(魏德齡/文)近日,MLCommons公布了MLPerf Training v1.0新一輪比賽結(jié)果,結(jié)果顯示英偉達(dá)合伙伙伴所提供的各種搭載NVIDIA技術(shù)的系統(tǒng)再次取得了出色的成績。而隨著AI領(lǐng)域能力的進(jìn)一步提升,也為開拓更多領(lǐng)域的應(yīng)用提供了契機(jī),并助力超級(jí)計(jì)算無處不在。
全球最快AI模型訓(xùn)練速度
MLPerf 是由學(xué)術(shù)界、研究實(shí)驗(yàn)室和業(yè)界人士組成的人工智慧領(lǐng)袖聯(lián)盟,基于“打造公平、實(shí)用基準(zhǔn)”的使命,為硬體、軟體和服務(wù)的訓(xùn)練與推斷效能提供中立評(píng)估,且全部在預(yù)定條件下執(zhí)行。該基準(zhǔn)測試基于當(dāng)今最常用的AI工作負(fù)載和場景,涵蓋計(jì)算機(jī)視覺、自然語言處理、推薦系統(tǒng)、強(qiáng)化學(xué)習(xí)等。
此前,英偉達(dá)生態(tài)系統(tǒng)一直在測試中表現(xiàn)出不俗的成績,例如在2020年7月底公布的第三輪MLPerf榜單中英偉達(dá)A100 Tensor Core GPU 在全部八項(xiàng)基準(zhǔn)測試中展現(xiàn)了最快性能。在實(shí)現(xiàn)總體最快的大規(guī)模解決方案方面,利用HDR InfiniBand實(shí)現(xiàn)多個(gè)DGX A100系統(tǒng)互聯(lián)的服務(wù)器集群DGX SuperPOD系統(tǒng)也同樣創(chuàng)造了業(yè)內(nèi)最優(yōu)性能。
本次MLCommons的新一輪賽事,是英偉達(dá)生態(tài)系統(tǒng)第四次參加MLPerf訓(xùn)練測試。在芯片對(duì)比中,英偉達(dá)及其合作伙伴在最新商用解決方案測試的所有八項(xiàng)基準(zhǔn)測試中都創(chuàng)造了紀(jì)錄。
測試中,七家公司對(duì)至少十幾款市售系統(tǒng)進(jìn)行了測試,由英偉達(dá)AI助力的系統(tǒng)超過了75%,除英偉達(dá)外,還包括了戴爾、富士通、技嘉、浪潮、聯(lián)想、寧暢、超微等。僅有Google、Graphcore、Habana、英特爾、鵬程科技使用其它系統(tǒng)。其中英偉達(dá)及合作伙伴或采用了NVIDIA A100 GPU,或計(jì)劃為在線實(shí)例、服務(wù)器和PCIe卡采用NVIDIA A100 GPU,以及包括近40款NVIDIA認(rèn)證系統(tǒng)。
實(shí)現(xiàn)這一成績背后的原因在于,盡管A100 Tensor Core GPU在去年已經(jīng)雄霸MLPerf測試,英偉達(dá)工程師又使其在GPU、系統(tǒng)、網(wǎng)絡(luò)和AI軟件方面繼續(xù)實(shí)現(xiàn)了進(jìn)步。例如,通過全新的使用CUDA Graphs啟動(dòng)完整神經(jīng)網(wǎng)絡(luò)模型的方法,能夠解決過去測試中的CPU瓶頸;另在大規(guī)模測試中使用的是NVIDIA SHARP,整合網(wǎng)絡(luò)交換機(jī)內(nèi)的多項(xiàng)通信工作,從而減少網(wǎng)絡(luò)流量和等待CPU的時(shí)間。
助力超級(jí)計(jì)算無處不在
相較上一輪測試成績,英偉達(dá)將性能整體提升了2.1倍,另通過多次測試結(jié)果綜合來看,英偉達(dá)在兩年半的時(shí)間內(nèi)將性能提高了多達(dá)6.5倍。性能的快速增長,也為客戶在拓展人工智能的全新落地領(lǐng)域提供了更多可能。
此前,在AI應(yīng)用案例中,棋類的深度學(xué)習(xí)、圖形類別識(shí)別、物體重量辨識(shí)、物體高度辨識(shí)、自然語言處理等已經(jīng)被廣泛應(yīng)用,測試項(xiàng)中的MiniGo、Mask R-CNN、SSD等也呼應(yīng)了上述的應(yīng)用需求。如今在MLPerf測試中加入的RNN-T、3D-UNet測試,也預(yù)示著行業(yè)對(duì)于如語音辨識(shí)、生物醫(yī)學(xué)圖像方面的全新需求。英偉達(dá)及合伙伙伴在八項(xiàng)測試中的創(chuàng)紀(jì)錄表現(xiàn),也意味著在實(shí)際的人工智能應(yīng)用中,能夠帶來更高的效率。
目前,德國癌癥研究中心就與英偉達(dá)展開合作,將3D-UNet等創(chuàng)新技術(shù)引入醫(yī)療市場,來實(shí)現(xiàn)生物醫(yī)學(xué)圖像上的功能。這一合作也證明了MLPerf的測試結(jié)果能夠給IT機(jī)構(gòu)和開發(fā)者以極大的參考,來找到合適的解決方案,以加速特定項(xiàng)目和應(yīng)用。本次測試中,英偉達(dá)AI在3D-UNet上的性能表現(xiàn)甚至是第二名的6倍之多。
人工智能的訓(xùn)練無疑是一項(xiàng)超級(jí)計(jì)算級(jí)別的挑戰(zhàn),而英偉達(dá)正在讓這一能力變得無處不在。根據(jù)全球前500的超級(jí)計(jì)算機(jī)榜單顯示,基于NVIDIA DGX SuperPOD的Selene是全球最快的商用AI超級(jí)計(jì)算機(jī)。而榜單上的其他十幾臺(tái)系統(tǒng)也均基于NVIDIA DGX SuperPOD架構(gòu)。
此外,特斯拉構(gòu)建的來獲得自動(dòng)駕駛模型的AI超級(jí)計(jì)算機(jī)系統(tǒng),也選擇英偉達(dá)的硬件架構(gòu)作為自動(dòng)駕駛與輔助駕駛深度學(xué)習(xí)訓(xùn)練超級(jí)電腦AUTOMOTIVE的關(guān)鍵元件。該系統(tǒng)共具備720個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)擁有8塊NVIDIA A100 Tensor Core GPU,共計(jì)5760塊。
不久前,微軟也宣布由NVIDIA A100 Tensor Core GPU驅(qū)動(dòng)的Azure ND A100 v4云GPU實(shí)例全面上市。這些虛擬機(jī)(VM)針對(duì)的是擁有高性能和高要求工作負(fù)載的客戶,如人工智能(AI)和機(jī)器學(xué)習(xí)(ML)工作負(fù)載。
甚至,英偉達(dá)還和美國國家能源研究科學(xué)計(jì)算中心打造了世界上最快的AI超級(jí)計(jì)算機(jī),這款名為Perlmutter的超級(jí)計(jì)算機(jī)擁有6144個(gè)NVIDIA A100 Tensor Core GPU,從而可以負(fù)責(zé)拼接有史以來最大的可見宇宙3D地圖以及其他項(xiàng)目。以往,研究人員準(zhǔn)備一年的星系數(shù)據(jù)發(fā)布需要幾周或幾個(gè)月時(shí)間,而通過在英偉達(dá)助力下的Perlmutter僅需要幾天就能完成任務(wù)。