浪潮信息AS13000G7存儲(chǔ)創(chuàng)造MLPerf佳績(jī)，揭秘三大秘密武器！

浪潮信息

2024-11-01 11:43 5734

北京2024年11月1日 /美通社/ -- 如果說(shuō)2023年是全球認(rèn)識(shí)生成式AI（GenAI）的開(kāi)始，那么2024年則是全球各大組織/企業(yè)真正探索人工智能商業(yè)價(jià)值的一年。

隨著越來(lái)越多用戶(hù)開(kāi)始采用生成式AI等人工智能技術(shù)，存儲(chǔ)等數(shù)據(jù)基礎(chǔ)設(shè)施也面臨著嚴(yán)峻考驗(yàn)，用戶(hù)意識(shí)到存儲(chǔ)需要滿足人工智能數(shù)據(jù)訓(xùn)練與推理對(duì)于性能、延時(shí)、容量、擴(kuò)展性等各種嚴(yán)苛需求。

近日，在最新發(fā)布的MLPerf AI存儲(chǔ)基準(zhǔn)評(píng)測(cè)中，浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7通過(guò)一系列創(chuàng)新技術(shù)，顯著提升數(shù)據(jù)處理效率，勇奪8項(xiàng)測(cè)試中5項(xiàng)性能最佳成績(jī)，實(shí)現(xiàn)集群帶寬360GB/s、單節(jié)點(diǎn)帶寬達(dá)120GB/s，在滿足AI場(chǎng)景下的高性能存儲(chǔ)需求方面展現(xiàn)出卓越能力，為大規(guī)模數(shù)據(jù)處理和AI應(yīng)用提供堅(jiān)實(shí)基礎(chǔ)。

不僅是"容器"，還是"加速器"

在傳統(tǒng)觀念里，存儲(chǔ)等數(shù)據(jù)基礎(chǔ)設(shè)施就像一個(gè)存儲(chǔ)數(shù)據(jù)的"容器"；進(jìn)入到AI時(shí)代，在各種AI應(yīng)用場(chǎng)景中，存儲(chǔ)則搖身一變，成為推動(dòng)AI應(yīng)用和推動(dòng)AI產(chǎn)業(yè)化的"加速器"。

以此次MLPerf測(cè)試為例，通過(guò)運(yùn)行一個(gè)分布式AI訓(xùn)練測(cè)試程序，模擬GPU計(jì)算過(guò)程，要求在GPU利用率高達(dá)90%或70%的條件下，以存儲(chǔ)帶寬和支持的模擬 GPU （模擬加速器）數(shù)量為關(guān)鍵性能指標(biāo)，來(lái)評(píng)估AI訓(xùn)練場(chǎng)景下存儲(chǔ)的性能表現(xiàn)，從而驗(yàn)證存儲(chǔ)對(duì)GPU算力的加速能力。

如果把計(jì)算節(jié)點(diǎn)比作"數(shù)據(jù)工廠"，存儲(chǔ)介質(zhì)則相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù)。提升存儲(chǔ)性能，意味著用戶(hù)能夠在同一時(shí)間內(nèi)通過(guò)"存儲(chǔ)高速"在"數(shù)據(jù)工廠"和"數(shù)據(jù)倉(cāng)庫(kù)"之間更高效地存取"數(shù)據(jù)物料"。

例如，人工智能的大模型訓(xùn)練數(shù)據(jù)加載、PB級(jí)檢查點(diǎn)斷點(diǎn)續(xù)訓(xùn)（其中，檢查點(diǎn)相關(guān)開(kāi)銷(xiāo)平均可占訓(xùn)練總時(shí)間的12%，甚至高達(dá)43%）和高并發(fā)推理問(wèn)答等場(chǎng)景下，存儲(chǔ)系統(tǒng)的性能直接關(guān)乎整個(gè)訓(xùn)練與推理過(guò)程中GPU的有效利用率。尤其是在萬(wàn)卡集群規(guī)模下，相當(dāng)于規(guī)模龐大"數(shù)據(jù)工廠"，"生產(chǎn)機(jī)器"GPU一旦開(kāi)動(dòng)，如果沒(méi)有及時(shí)輸送"數(shù)據(jù)物料"，約等于讓GPU閑置。有數(shù)據(jù)顯示，存儲(chǔ)系統(tǒng)1小時(shí)的開(kāi)銷(xiāo)，在千卡集群中就意味著將浪費(fèi)1000卡時(shí)，造成計(jì)算資源的損失和業(yè)務(wù)成本劇增。

那么，要實(shí)現(xiàn)"數(shù)據(jù)物料"的快速高效運(yùn)輸，可以從存儲(chǔ)哪些方向入手？

其一，減少中轉(zhuǎn)站--數(shù)控分離。通過(guò)軟件層面的創(chuàng)新，將控制面（數(shù)據(jù)工廠）和數(shù)據(jù)面（介質(zhì)倉(cāng)庫(kù)）分離，減少數(shù)據(jù)中轉(zhuǎn)，縮短傳輸路徑，提升存儲(chǔ)單節(jié)點(diǎn)及集群的整體性能。

其二，增加車(chē)道數(shù)--硬件升級(jí)。硬件層面采用新一代的高性能硬件，通過(guò)DDR5和PCIe5.0等，升級(jí)存儲(chǔ)帶寬，增加傳輸通道數(shù)量，提升存儲(chǔ)性能的上限。

其三，物料就近存儲(chǔ)--軟硬協(xié)同。在軟硬協(xié)同層面，基于數(shù)控分離架構(gòu)，自主控制數(shù)據(jù)頁(yè)緩存（儲(chǔ)備倉(cāng)）分配策略，靈活調(diào)度內(nèi)核數(shù)據(jù)移動(dòng)，數(shù)據(jù)就近獲取，從而實(shí)現(xiàn)快速I(mǎi)/O。

接下來(lái)，我們將一一介紹這三大性能提升手段背后的實(shí)現(xiàn)原理及其主要價(jià)值。

軟件優(yōu)化

數(shù)控分離，降低80%節(jié)點(diǎn)間數(shù)據(jù)轉(zhuǎn)發(fā)量

在傳統(tǒng)分布式文件系統(tǒng)中，數(shù)據(jù)和元數(shù)據(jù)高度耦合，導(dǎo)致數(shù)據(jù)讀寫(xiě)信息的分發(fā)、傳輸和元數(shù)據(jù)處理都需要經(jīng)過(guò)主存儲(chǔ)節(jié)點(diǎn)。在AI應(yīng)用場(chǎng)景下，隨著客戶(hù)端數(shù)量激增和帶寬需求擴(kuò)大，CPU、內(nèi)存、硬盤(pán)和網(wǎng)絡(luò)I/O的處理能力面臨嚴(yán)峻考驗(yàn)。盡管數(shù)控一體的分布式文件系統(tǒng)在穩(wěn)定性方面表現(xiàn)優(yōu)異，但在面對(duì)AI訓(xùn)練等大I/O、高帶寬需求時(shí)，其性能瓶頸逐漸顯現(xiàn)。數(shù)據(jù)需通過(guò)主節(jié)點(diǎn)在集群內(nèi)部進(jìn)行轉(zhuǎn)發(fā)，這不僅占用了大量的CPU、內(nèi)存、帶寬和網(wǎng)絡(luò)資源，還導(dǎo)致了數(shù)據(jù)傳輸?shù)难舆t。

為解決該問(wèn)題，業(yè)界曾嘗試通過(guò)RDMA技術(shù)來(lái)提升存儲(chǔ)帶寬。RDMA允許外部設(shè)備繞過(guò)CPU和操作系統(tǒng)直接訪問(wèn)內(nèi)存，從而降低了數(shù)據(jù)傳輸延遲并減輕了CPU負(fù)載，進(jìn)而提升了網(wǎng)絡(luò)通信效率。然而，這種方式并未從根本上解決數(shù)據(jù)中轉(zhuǎn)帶來(lái)的延遲問(wèn)題。

基于此背景，浪潮信息創(chuàng)新自研分布式軟件棧，采用全新數(shù)控分離架構(gòu)，將文件系統(tǒng)的數(shù)據(jù)面和控制面完全解耦?？刂泼嬷饕?fù)責(zé)管理數(shù)據(jù)的屬性信息，如位置、大小等，通過(guò)優(yōu)化邏輯控制和數(shù)據(jù)管理算法來(lái)提高存儲(chǔ)系統(tǒng)的訪問(wèn)效率和數(shù)據(jù)一致性。而數(shù)據(jù)面則直接負(fù)責(zé)數(shù)據(jù)的讀寫(xiě)操作，消除中間環(huán)節(jié)的數(shù)據(jù)處理延遲，從而縮短"數(shù)據(jù)物料"的存取時(shí)間。

這種數(shù)控分離的方式顯著減少數(shù)據(jù)流在節(jié)點(diǎn)間的轉(zhuǎn)發(fā)次數(shù)，降低80%的東西向（節(jié)點(diǎn)間）數(shù)據(jù)轉(zhuǎn)發(fā)量，充分發(fā)揮硬盤(pán)帶寬，特別是全閃存儲(chǔ)性能。以浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7為例，在相同配置下，相比于單一TCP和單一RDMA方案，數(shù)控分離架構(gòu)能夠帶來(lái)60%讀帶寬提升和110%寫(xiě)帶寬提升。

硬件升級(jí)

拓寬傳輸通路，實(shí)現(xiàn)存儲(chǔ)性能翻倍

在AI應(yīng)用場(chǎng)景下，"數(shù)據(jù)物料"的快速運(yùn)輸依賴(lài)于高效的"存儲(chǔ)高速"通道。隨著CPU、內(nèi)存、硬盤(pán)等硬件技術(shù)的不斷創(chuàng)新，升級(jí)"存儲(chǔ)高速"通道的硬件成為提升存儲(chǔ)性能的重要途徑。

浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7采用業(yè)界最新高端處理器芯片，如Intel第五代至強(qiáng)可拓展處理器，單顆最大支持60核，支持Intel 最新2.0版本睿頻加速技術(shù)、超線程技術(shù)以及高級(jí)矢量拓展指令集512（AVX-512)。同時(shí)，支持DDR5內(nèi)存，如三星、海力士的32G、64G高性能、大容量?jī)?nèi)存，單根內(nèi)存在1DPC1情況下，可以支持5600MHz頻率，相比與DDR4的3200MHz的內(nèi)存，性能提升75%。

基于最新處理器的硬件平臺(tái)，AS13000G7已經(jīng)支持PCIe5.0標(biāo)準(zhǔn)，并在此基礎(chǔ)上支持NVDIA最新的CX7系列400G IB卡及浪潮信息自研PCIe5.0 NVMe。相較于上一代AS13000G6的PCIe4.0的I/O帶寬，實(shí)現(xiàn)帶寬提升100%。

在設(shè)計(jì)上，G7一代硬件平臺(tái)將硬件模塊化設(shè)計(jì)理念最大化，將處理器的I/O全部扇出，采用線纜、轉(zhuǎn)接卡等標(biāo)準(zhǔn)設(shè)計(jì)，實(shí)現(xiàn)配置的靈活性。最大可支持4張PCIe5.0 X16的FHHL卡，所有后端的SSD設(shè)備均通過(guò)直連實(shí)現(xiàn)，取消了AS13000G6 的PCIe Switch設(shè)計(jì)，從而消除了數(shù)據(jù)鏈路上的瓶頸點(diǎn)。前端IO的性能及后端IO的理論性能均提升了4倍。

為測(cè)試性能表現(xiàn)，浪潮信息將兩種軟件棧分別部署在兩代硬件上并進(jìn)行讀寫(xiě)測(cè)試。結(jié)果顯示，與上一代硬件平臺(tái)相比，在不同軟件棧上AS13000G7的性能可提升170%-220%，有效保障了AI應(yīng)用場(chǎng)景下的存儲(chǔ)性能。

軟硬協(xié)同

內(nèi)核親和力調(diào)度，內(nèi)存訪問(wèn)效率提升4倍

在當(dāng)前的AI基礎(chǔ)設(shè)施平臺(tái)中，計(jì)算服務(wù)器配置非常高，更高性能的CPU和更多的插槽數(shù)帶來(lái)了NUMA（Non-Uniform Memory Access）節(jié)點(diǎn)數(shù)據(jù)的增加。在NUMA架構(gòu)中，系統(tǒng)內(nèi)存被劃分為多個(gè)區(qū)域，每個(gè)區(qū)域?qū)儆谝粔K特定的NUMA節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)都有自己的本地內(nèi)存。因此，每個(gè)處理器訪問(wèn)本地內(nèi)存的速度遠(yuǎn)快于訪問(wèn)其他節(jié)點(diǎn)內(nèi)存的速度。

然而，在多核處理器環(huán)境下，會(huì)產(chǎn)生大量的跨NUMA遠(yuǎn)端訪問(wèn)。在分布式存儲(chǔ)系統(tǒng)中，由于IO請(qǐng)求會(huì)經(jīng)過(guò)用戶(hù)態(tài)、內(nèi)核態(tài)和遠(yuǎn)端存儲(chǔ)集群，中間頻繁的上下文切換會(huì)帶來(lái)內(nèi)存訪問(wèn)延遲。如下圖，在未經(jīng)過(guò)NUMA均衡的存儲(chǔ)系統(tǒng)中，存儲(chǔ)的緩存空間集中在單個(gè)NUMA節(jié)點(diǎn)內(nèi)存內(nèi)。當(dāng)IO請(qǐng)求量增大時(shí)，所有其他NUMA節(jié)點(diǎn)的CPU核的數(shù)據(jù)訪問(wèn)均集中在單個(gè)Socket內(nèi)，造成了大量跨Socket 、跨NUMA訪問(wèn)。這不僅導(dǎo)致了CPU核的超負(fù)荷運(yùn)載和大量閑置，還使得不同Socket上的內(nèi)存帶寬嚴(yán)重不均衡，單次遠(yuǎn)端NUMA節(jié)點(diǎn)訪問(wèn)造成的微小時(shí)延累積將進(jìn)一步增大整體時(shí)延，導(dǎo)致存儲(chǔ)系統(tǒng)聚合帶寬嚴(yán)重下降。

為了降低跨NUMA訪問(wèn)帶來(lái)的時(shí)延，浪潮信息通過(guò)內(nèi)核親和力調(diào)度技術(shù)，在全新數(shù)控分離架構(gòu)下，使內(nèi)核客戶(hù)端可自主控制數(shù)據(jù)頁(yè)緩存分配策略并主動(dòng)接管用戶(hù)下發(fā)的IO任務(wù)。這種方式能夠更加靈活地實(shí)現(xiàn)各類(lèi)客戶(hù)端內(nèi)核態(tài)到遠(yuǎn)端存儲(chǔ)池的數(shù)據(jù)移動(dòng)策略。其中，針對(duì)不同的IO線程進(jìn)行NUMA感知優(yōu)化，將業(yè)務(wù)讀線程與數(shù)據(jù)自動(dòng)分配到相同的NUMA節(jié)點(diǎn)上，這樣，所有數(shù)據(jù)均在本地NUMA內(nèi)存命中，有效減少了高并發(fā)下NUMA節(jié)點(diǎn)間數(shù)據(jù)傳輸，降低了IO鏈路時(shí)延，4倍提升內(nèi)存訪問(wèn)效率，保證負(fù)載均衡。

總體而言，進(jìn)入到AI時(shí)代，存儲(chǔ)性能關(guān)系到整個(gè)人工智能訓(xùn)練、推理和應(yīng)用的效率。浪潮信息分布式存儲(chǔ)平臺(tái)AS13000G7軟件優(yōu)化、硬件升級(jí)和軟硬協(xié)同三個(gè)優(yōu)勢(shì)，具備極致性能，成為AI時(shí)代各大用戶(hù)的存儲(chǔ)理想之選。

消息來(lái)源：浪潮信息