北京2024年7月2日 /美通社/ -- 6月28日,浪潮信息"元腦中國(guó)行"全國(guó)巡展杭州站順利舉行。會(huì)上,浪潮信息重磅推出基于新一代分布式存儲(chǔ)平臺(tái)AS13000G7的AIGC存儲(chǔ)解決方案。通過(guò)加持EPAI/AIStation的資源調(diào)度能力、新一代分布式存儲(chǔ)AS13000G7自身產(chǎn)品優(yōu)勢(shì),新方案從容應(yīng)對(duì)大模型應(yīng)用對(duì)存儲(chǔ)性能、容量以及數(shù)據(jù)管理等方面的苛刻要求。同時(shí),浪潮信息嘗試性提出GPU計(jì)算集群算力與存儲(chǔ)集群聚合帶寬的推薦配比,實(shí)現(xiàn)檢測(cè)點(diǎn)數(shù)據(jù)60秒內(nèi)寫(xiě)入和讀取恢復(fù),提高大模型訓(xùn)練效率。
大模型時(shí)代,數(shù)據(jù)基礎(chǔ)設(shè)施挑戰(zhàn)升級(jí)
隨著數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展,AI技術(shù)正逐漸成為推動(dòng)企業(yè)業(yè)務(wù)變革和創(chuàng)新的重要?jiǎng)恿Γ竽P鸵呀?jīng)成為驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)深度創(chuàng)新、引領(lǐng)企業(yè)業(yè)務(wù)變革、加速形成新質(zhì)生產(chǎn)力的重要?jiǎng)幽堋?/p>
會(huì)上,存儲(chǔ)產(chǎn)品線副總經(jīng)理劉希猛表示,隨著大模型參數(shù)量和數(shù)據(jù)量的極速膨脹,多源異構(gòu)數(shù)據(jù)的傳、用、管、存,正在成為制約生成式AI落地的瓶頸之一,在AI大模型數(shù)據(jù)歸集、訓(xùn)練、數(shù)據(jù)歸檔與管理等階段,面臨著數(shù)據(jù)歸集時(shí)間長(zhǎng)、模型訓(xùn)練效率低、數(shù)據(jù)管理復(fù)雜度高等針對(duì)數(shù)據(jù)基礎(chǔ)設(shè)施的新挑戰(zhàn),用戶亟需構(gòu)建支持多協(xié)議、高帶寬、低延遲、數(shù)據(jù)高效流轉(zhuǎn)的大模型存儲(chǔ)底座。
作為率先在業(yè)界提出分布式融合存儲(chǔ)的廠商,浪潮信息聚焦行業(yè)客戶的大模型落地需求與核心痛點(diǎn),打造基于NVMe SSD高效適配和優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。依托自研分布式文件系統(tǒng)構(gòu)建了新一代數(shù)據(jù)加速引擎DataTurbo,在緩存優(yōu)化、空間均衡、縮短GPU與存儲(chǔ)讀取路徑等方面進(jìn)行了全面升級(jí),提供TB級(jí)帶寬、千萬(wàn)級(jí)IOPS、EB容量,滿足大模型存儲(chǔ)在性能和容量方面的要求。
劍指AIGC主戰(zhàn)場(chǎng),打造面向大模型應(yīng)用的存儲(chǔ)解決方案
在大模型數(shù)據(jù)處理全流程中,要想使訓(xùn)練效率達(dá)到極致,減少不必要的資源浪費(fèi),算力和存力需要均衡配置,訓(xùn)練階段的數(shù)據(jù)讀寫(xiě)性能成為發(fā)揮存力最大作用的關(guān)鍵。而想要提升存儲(chǔ)效率、降低模型訓(xùn)練成本,必須要在存儲(chǔ)技術(shù)上進(jìn)行創(chuàng)新。對(duì)此,浪潮信息推出基于AS13000G7的AIGC存儲(chǔ)解決方案,該方案通過(guò)浪潮信息AIStation人工智能平臺(tái)進(jìn)行智能資源調(diào)度和深度數(shù)據(jù)管理,與EPAI"元腦企智"平臺(tái)深度集成,數(shù)據(jù)在熱、溫、冷、冰四個(gè)存儲(chǔ)資源池中高效流動(dòng),最大限度滿足AIGC不同階段對(duì)高性能、易管理的存儲(chǔ)需求。首先,通過(guò)與上層EPAI/AIStation的深度定制,依托智能數(shù)據(jù)預(yù)讀和智能故障處理等技術(shù),為行業(yè)用戶提供經(jīng)驗(yàn)證的、更成熟的存儲(chǔ)整體方案,目前已累計(jì)服務(wù)AIGC用戶超100家,其中百PB級(jí)用戶超10家;其次,通過(guò)全局命名空間、多協(xié)議實(shí)時(shí)互通、數(shù)據(jù)冷熱分層等技術(shù)實(shí)現(xiàn)橫向數(shù)據(jù)自由流動(dòng),提升存儲(chǔ)效率和降低用戶TCO 20%以上,方案更加簡(jiǎn)約;最后,通過(guò)AS13000G7-N系列強(qiáng)大的智能緩存優(yōu)化、智能空間均衡和GPU直通存儲(chǔ)等優(yōu)勢(shì)實(shí)現(xiàn)縱向數(shù)據(jù)高效訪問(wèn),縮短大模型訓(xùn)練時(shí)間50%,方案更加高效。憑借成熟的深度定制能力、卓越的產(chǎn)品性能優(yōu)勢(shì)以及數(shù)據(jù)全生命周期管理能力,浪潮信息基于AS13000G7的AIGC存儲(chǔ)解決方案充分滿足大模型訓(xùn)練階段高性能、歸檔階段低成本的存儲(chǔ)需求。
算存黃金比例,加速大模型訓(xùn)練
倪光南院士曾提出,"對(duì)于AI智能計(jì)算中心來(lái)說(shuō),要想均衡配置存力、算力和運(yùn)力,一定要注意比例相當(dāng),不能失調(diào),才能取得最大的經(jīng)濟(jì)和社會(huì)效益。"為了最大限度發(fā)揮大模型潛能,解決存算比例不平衡的難題,需要制定最佳的存算比例,保障模型的高效訓(xùn)練。浪潮信息最新發(fā)布的AIGC存儲(chǔ)解決方案嘗試給出了模型訓(xùn)練時(shí)GPU算力與全閃存儲(chǔ)性能、容量的配置推薦。
性能方面:大模型訓(xùn)練過(guò)程中檢測(cè)點(diǎn)文件讀寫(xiě)對(duì)存儲(chǔ)系統(tǒng)讀寫(xiě)性能帶來(lái)巨大挑戰(zhàn)。萬(wàn)億模型需要12~13TB模型參數(shù),寫(xiě)檢測(cè)點(diǎn)需要耗費(fèi)大量的時(shí)間,未經(jīng)優(yōu)化的存儲(chǔ)集群一次寫(xiě)入檢測(cè)點(diǎn)需要3個(gè)小時(shí)?;趯?duì)存儲(chǔ)集群讀寫(xiě)帶寬與大模型檢測(cè)點(diǎn)恢復(fù)時(shí)間的分析,為提高大模型的訓(xùn)練效率,實(shí)現(xiàn)檢測(cè)點(diǎn)數(shù)據(jù)60秒以內(nèi)的寫(xiě)入和讀取恢復(fù),前端GPU計(jì)算集群算力(單位采用每秒千萬(wàn)億次浮點(diǎn)預(yù)算PFLOPS)與存儲(chǔ)集群聚合帶寬(單位采用每秒千億字節(jié)也就是常說(shuō)的TB/s)的推薦配比為35:1。當(dāng)然,如果期望獲取更低的CHK寫(xiě)入和恢復(fù)時(shí)間,可以繼續(xù)增加集群帶寬,但其收益率相對(duì)較低。
全閃容量方面:模型訓(xùn)練場(chǎng)景中,除了初始加載的訓(xùn)練數(shù)據(jù)集要存放在全閃池中,還有過(guò)程訓(xùn)練中的CHK數(shù)據(jù)要保存。隨著萬(wàn)卡時(shí)代的到來(lái),當(dāng)出現(xiàn)掉卡或訓(xùn)練中止現(xiàn)象,用戶通常會(huì)每隔一段時(shí)間就保存一次Check point數(shù)據(jù),可以用來(lái)恢復(fù)訓(xùn)練或用于模型評(píng)估和推理。經(jīng)過(guò)一年多的實(shí)踐,建議大模型用戶2~4小時(shí)做一次Checkpoint,檢測(cè)點(diǎn)數(shù)據(jù)保存兩周時(shí)間,實(shí)現(xiàn)存儲(chǔ)集群容量的合理利用。通過(guò)模型分析,結(jié)合產(chǎn)品特點(diǎn),便可推算出全閃熱存儲(chǔ)池的存儲(chǔ)配置要求。當(dāng)然,用戶需求還會(huì)涉及到用于收集原始數(shù)據(jù)、準(zhǔn)備原始數(shù)據(jù)的溫存儲(chǔ)池,用于歸檔的冷數(shù)據(jù)存儲(chǔ)池。這些溫冷池的容量一般在熱存儲(chǔ)池容量的10-20倍左右,達(dá)百PB級(jí)。
"元腦中國(guó)行"杭州站現(xiàn)場(chǎng)吸引了來(lái)自天目山實(shí)驗(yàn)室、網(wǎng)易伏羲、英特爾等300余位專家學(xué)者、產(chǎn)業(yè)領(lǐng)袖、行業(yè)客戶,現(xiàn)場(chǎng)圍繞生成式人工智能、Al for Science、大模型的AIGC應(yīng)用等行業(yè)熱點(diǎn)話題進(jìn)行分享。浪潮信息還在會(huì)上舉行了"EPAI種子計(jì)劃"簽約儀式,名都科技、啟帆信息、圖靈軟件、天健遠(yuǎn)見(jiàn)等浙江區(qū)域的10位元腦伙伴正式加入"EPAI種子計(jì)劃",共同加速AI應(yīng)用創(chuàng)新發(fā)展,推動(dòng)大模型應(yīng)用落地實(shí)踐。