關注 >   >  正文

        大模型時代,英偉達用AI顛覆傳統以太網!

        評論

        IT產業正在發生兩大根本性轉變:一是CPU性能無法持續增長,每五年以同樣成本獲得十倍性能提升的故事已經結束,并且,也無法用同樣的成本和電力消耗負擔這種增長態勢;二是AI大模型對數據中心的規模、算力等需求不斷攀高,使得整個數據中心的計算和通信架構需要被重塑。

        這樣的變化迫切嗎?走在AI大模型競賽最前沿的NVIDIA看到,迫切且重要。隨著GPU的處理性能不斷提升,數據中心的網絡傳輸能力面臨瓶頸。也正是如此,NVIDIA專門針對以太網環境,推出了創新的Spectrum-X 網絡平臺,致力于提高基于以太網 AI 云的性能與效率。


        (資料圖片僅供參考)

        面向超大規模生成式AI,NVIDIA推出加速以太網平臺

        NVIDIA Spectrum-X的核心是 Spectrum-4 以太網交換機、BlueField-3 DPU、LinkX高性能線纜/模塊和NVIDIA端到端加速軟件,與傳統以太網相比,實現了1.7倍的整體AI性能和效能提升,可在多租戶環境中提供一致、可預測的性能。

        Spectrum-4作為全球首款專為AI網絡打造的51.2Tb/s以太網交換機,可以實現無損RoCE網絡的大規模、可擴展和高性能,與主機端的 BlueField-3 DPU和NVIDIA LinkX線纜及模塊相互協同,構建起一個專為AI云優化的端到端400GbE網絡。

        NVIDIA Spectrum-4 單臺交換機即可實現突破性的 128 個 400Gb/s 端口的連接,使用兩層葉脊拓撲可以連接超過 8,000 個400G 端口,以支持 AI 云的增長和擴展,同時保持極高的性能和極低的網絡延時。

        驅動Spectrum-X的加速軟件在交換機端包括Cumulus Linux、開源SONiC和NetQ等,共同助力該網絡平臺的性能實現。在主機端包括BlueField-3 DPU的核心軟件—— NVIDIA DOCA軟件框架以及其它加速軟件等,便于開發人員構建軟件定義的云原生AI應用。

        重塑數據中心計算和網絡架構

        面對激增的數據量,數據中心越來越需要整體運作。以往單一的、簡單的應用,可能只需調用幾臺服務器即可,甚至一個VM就可以滿足需求。但是,隨著AI驅動的負載規模越來越大,甚至需要調動整個數據中心資源協同工作來完成一項工作,也就是說,整個數據中心越來越成為一臺“大計算機”,這就需要從底層對數據中心整體架構進行重塑,保證數據中心整體的效率和性能,而計算和通信網絡架構是兩大核心。

        據NVIDIA網絡技術專家崔巖介紹,依據集群中的GPU數量和所支持的應用負載,可以將數據中心應用場景分為三大類:傳統的云計算場景、生成式AI云、以及AI工廠。

        其中,AI工廠是NVIDIA面向大規模、大算力、高性能場景下,創造的新的網絡應用場景,最近的一些大語言模型都是基于NVLink+InfiniBand這種無損網絡架構實現的;第二種是多租戶、工作負載多樣、且需要融入人工智能和生成式AI的場景,可以用最新推出的Spectrum-X以太網架構;第三種是傳統云計算場景,基于傳統以太網架構。

        “加速計算和生成式AI的結合創造出了一個新的數據中心市場,我們需要重塑數據中心的計算和通信架構。NVIDIA提出了整體的加速計算架構,GPU、CPU、DPU的三U一體,就是NVIDIA提供的多樣性高性能硬件計算平臺和網絡通訊平臺。”崔巖表示,“此外,NVIDIA 全新推出的Spectrum-X以太網網絡架構,區別于原來的面向企業應用的以太網(負載效率不太高,有長尾延時和大量抖動情況等),是專門為生成式AI量身打造的以太網平臺,針對RoCE進行了端到端的優化,并且可以對端到端網絡進行編程,在大規模、高負載環境下能夠提供更好的性能,很好地滿足了新型生成式AI云對高性能網絡的需求。”

        如何滿足生成式AI所需的網絡能力?

        NVIDIA網絡亞太區高級總監宋慶春指出,大模型參數規模的擴大,導致GPU訓練集群越來越龐大。當一個大模型跑在幾百、幾千、上萬個GPU集群上時,性能不僅取決于單一GPU、單一服務器,也取決于網絡性能,一定要有非常高的通信效率。如果網絡利用率不高,就會直接導致GPU通信效率不高,使得GPU集群能效受限。

        此外,AI訓練不允許任何數據丟失情況的發生,使得無損網絡變得非常重要,這就需要對傳統以太網進行改造。

        崔巖介紹,NVIDIA通過BlueField-3 DPU 和Spectrum-4交換機的端到端優化設計,采用基于優先級的流量控制機制,實現了無損以太網,通過主機端 BlueField-3 DPU 和Spectrum-4交換機的配合,創新地實現了在無損RoCE網絡上的逐包動態路由,大幅提升了網絡通信效率。而在傳統以太網上,對于一條流來演,選好一條轉發路線后就順序進行發包,即使出現擁塞或其他特殊情況,也無法動態改變。

        如上圖所示,綠色和紫色分別代表兩個工作負載,都拆分為A、B、C、D四個數據包。在動態路由機制下:在發送端由BlueField-3 DPU將數據包傳給Spectrum-4交換機,由Spectrum-4交換機將數據包分發到所有可用路線(執行的是對數據包逐包進行最佳路徑的選擇);當數據包通過不同路徑到達接收端時,再由接收端的BlueField-3 DPU進行數據亂序重組。這樣一來,可以充分利用交換機之間的鏈路,讓數據包能夠走不同的最優路徑到達接收端,從而提升整體網絡性能。

        從上圖左側的性能對比可以看出,傳統以太網的帶寬起伏非常大,而基于Spectrum-X無損網絡端到端的動態路由機制,每條鏈路都得到充分利用,可以提升1.6倍有效帶寬。

        此外,通過可編程擁塞控制實現的業務性能隔離技術也非常關鍵。在云端跑多個訓練任務時,不同工作負載會影響彼此性能,而通過任務性能隔離,能夠優化總體性能,讓每個工作負載都達到理想的性能。

        在AI訓練任務的數據傳輸過程中,往往存在發送端和接收端是多對一的情況,如果是傳統的、沒有擁塞控制的網絡,就會導致接收能力不足,在末端的交換機發生擁塞。如上圖中,因為紫色數據包是排在綠色數據包之后,由于綠色擁塞,導致紫色數據包變成犧牲流。如果是兩個租戶,就會因為一個工作負載影響另一個工作負載。

        而基于Spectrum-X端到端平臺,BlueField-3 DPU可以對于網絡中遙測數據進行探測,通過主動采集Spectrum-4遙測機制生成的擁塞狀況數據,在擁塞發生的早期階段就提前調節以什么樣的速率發送數據。通過實時檢測擁塞點,用可編程擁塞控制技術,來監控和控制數據流,從而實現不同工作負載之間的性能隔離。從實際的性能對比可以看出,性能隔離技術可以將NCCL ALLREDUCE帶寬提升2.5倍。

        “這就好比是通過高德地圖看到入口已經堵車,那么就減緩到那里的速度或者減少車流量,讓擁塞得到緩解;或者發生‘堵車’前就通過BlueField-3 DPU進行控制,保證所有的數據都可以正常地在不擁堵的情況下到達接收方。”崔巖說道。

        打造全球最大的Spectrum-X集群

        目前,Spectrum-4 交換機、BlueField-3 DPU 和 400G LinkX 線纜/模塊現已上市,可提供NVIDIA Spectrum-X 方案的公司包括戴爾科技、聯想和超微。

        基于最新發布的Spectrum-X平臺,NVIDIA構建了生成式AI云超級計算機 —— Israel-1, 實現基于Spectrum-X網絡平臺的生成式AI云。在其中投入了256 臺基于NVIDIA HGX平臺的Dell服務器,共包括2048個GPU,并且,配備了2560個BlueField-3 DPU、80 多臺 Spectrum-4 以太網交換機。

        據介紹,Israel-1 Spectrum-X生成式AI云將是全球性能排名靠前的AI超級計算機之一,峰值 AI訓練性能可達8 EFlop/s (8000PFlop/s)。根據已公開信息,業界尚無廠商進行這樣規模的投資。

        宋慶春指出,數據中心的網絡已經成為一個非常重要的計算單元,其中既包括計算能力,也包括通信能力,更重要的是,如何讓計算和通信更好地得到融合 —— 這是NVIDIA始終強調端到端優化的原因。并且,NVIDIA在努力推動網絡計算技術的發展,將整個AI工作負載的各個組件重新洗牌,重新定義各項工作應該在GPU、交換機還是DPU來運行;通過重新定位每項工作,將其放在合適的位置、創建全新的計算平臺,才能讓未來算力平臺達到最高效、能耗最低。

        他強調,在推動Spectrum-X時,NVIDIA身先士卒,打造了Israel-1 生成式AI云。這會是全球最大的基于Spectrum-X的集群之一,且是全球最大的基于以太網的AI云集群之一。NVIDIA相當于打造了一個超大的參考模型來進行新技術驗證,通過運行生成式AI或者其它工作負載,將持續優化云端采用Spectrum-X的網絡平臺,并將經驗分享給NVIDIA的Spectrum-X用戶,希望用戶能看到和用到這些創新的潛能,真正滿足未來大規模計算的性能需求。

        標簽:

        今日熱點

        熱點排行

        最近更新

        所刊載信息部分轉載自互聯網,并不代表本網贊同其觀點和對其真實性負責。郵箱:5855973@qq.com

        聯系我們| 中國品牌網 | 滬ICP備2022005074號-18 營業執照  Copyright © 2018@. All Rights Reserved.

        亚洲精品无AMM毛片| 久久精品国产亚洲香蕉| 亚洲线精品一区二区三区| 亚洲成A人片77777国产| 久久精品国产亚洲av天美18| 亚洲日产乱码一二三区别 | 亚洲永久网址在线观看| 亚洲a视频在线观看| 亚洲Av无码一区二区二三区| 亚洲国产综合人成综合网站00| 亚洲日韩国产精品无码av| 亚洲大香伊人蕉在人依线| 亚洲一卡二卡三卡| 亚洲人成人网毛片在线播放| 亚洲日韩看片无码电影| 亚洲AV无码成人精品区日韩 | 久久久久久亚洲精品中文字幕| 亚洲av鲁丝一区二区三区| 亚洲视频在线视频| 亚洲成AV人综合在线观看 | 亚洲色成人网站WWW永久| 国产亚洲福利精品一区| 婷婷亚洲综合五月天小说| 亚洲精品综合久久中文字幕| 亚洲一级免费视频| 亚洲国产成人精品无码区二本| 国产大陆亚洲精品国产| 精品亚洲一区二区三区在线播放| 亚洲欧洲精品无码AV| 亚洲国产日韩一区高清在线| 亚洲日韩乱码中文无码蜜桃臀| 亚洲一区AV无码少妇电影| 国产精品亚洲综合| 亚洲一区无码中文字幕 | 亚洲综合精品香蕉久久网97| 亚洲午夜在线一区| 亚洲丰满熟女一区二区哦| 亚洲国产人成中文幕一级二级| 亚洲色成人网站WWW永久| 精品日韩亚洲AV无码| 亚洲AV日韩综合一区尤物|