浪潮信息AS13000G7榮獲MLPerf? AI存儲基準測試五項性能全球第一

浪潮信息

2024-09-27 19:43 5800

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons協(xié)會發(fā)布最新MLPerf? Storage v1.0 AI存儲基準測試成績。浪潮信息分布式存儲平臺AS13000G7表現(xiàn)出眾，在3D-UNet和CosmoFlow兩個模型共計八項測試中，斬獲五項冠軍。

MLPerf? Storage v1.0 AI存儲基準測試成績

MLPerf? 是影響力最廣的國際AI性能基準評測，由圖靈獎得主大衛(wèi)?帕特森（David Patterson）聯(lián)合頂尖學術機構發(fā)起成立。2023年推出MLPerf? 存儲基準性能測試，旨在以架構中立、具有代表性和可重復的方式衡量機器學習（ML）工作負載的存儲系統(tǒng)性能。該測試通過準確建模ML工作負載所產生的I/O模式來幫助解決存算平衡問題，為不同存儲系統(tǒng)和不同加速器類型的混合和匹配提供了靈活性，為ML/AI模型開發(fā)者選擇存儲解決方案提供權威的參考依據(jù)。

本次MLPerf? 存儲基準評測（v1.0）吸引了全球13家領先存儲廠商和研究機構參與。該評測圍繞醫(yī)學影像分割、圖像分類、宇宙學參數(shù)預測三大AI存儲應用場景，采用主流的3D-Unet、ResNet50、CosmoFlow三類模型，在GPU利用率高達90%或70%的條件下，以帶寬和支持的模擬 GPU （模擬加速器）數(shù)量為關鍵性能指標，評估單客戶端或集群模式下存儲系統(tǒng)的性能表現(xiàn)。

本次測試，浪潮信息采用3臺AS13000G7搭建分布式存儲集群，搭載ICFS自研分布式文件系統(tǒng)，在3D-UNet和CosmoFlow兩大評測任務中共獲得五項最佳成績。其中，在圖像分割3D-UNet多客戶端2評測任務中，服務于10個客戶端264個加速器，集群聚合帶寬達到360GB/s，單個存儲節(jié)點的帶寬高達120GB/s；在宇宙學分析CosmoFlow單客戶端2和多客戶端2評測任務中，分別提供了18 GB/s和52 GB/s的帶寬最佳成績。

近年來，浪潮信息基于存算協(xié)同的理念，持續(xù)加大存儲研發(fā)投入，從整體架構到各技術棧持續(xù)創(chuàng)新，優(yōu)化升級存力，提升了GPU算力整體性能表現(xiàn)，實現(xiàn)了模型訓練數(shù)據(jù)處理的即時性，消除了GPU資源閑置（即"饑餓GPU"現(xiàn)象），全面提升大模型訓練效率。

架構層面，采用全新數(shù)控分離架構。數(shù)據(jù)面和控制面完全解耦，控制面實現(xiàn)數(shù)據(jù)管理和訪問，數(shù)據(jù)面讀寫操作直通到盤，達到120 GB/s的單存儲節(jié)點的超高性能，單存儲節(jié)點支撐5臺8卡計算節(jié)點規(guī)模，同時計算集群GPU利用率90%以上；
軟件層面，通過多路并發(fā)透傳技術，有效減少I/O操作中頻繁的上下文切換，降低單次I/O時延50%，同時達到高并發(fā)下時延穩(wěn)定性。本次測試中1430個高并發(fā)讀線程支撐下，保證每個線程單次I/O的時延均在0.005秒，AI端到端訓練中I/O占比低于10%。此外，通過元數(shù)據(jù)VRANK技術，達到單個元數(shù)據(jù)進程多單元并發(fā)處理，提供高性能元數(shù)據(jù)服務；
軟硬協(xié)同層面，通過內核親和力調度，I/O請求動態(tài)調整，增強文件系統(tǒng)與計算節(jié)點親和性，確保負載均衡，將數(shù)據(jù)移動與多核CPU之間的訪問效率提升400%。

浪潮信息是全球領先的存儲供應商，存儲裝機容量連續(xù)3年穩(wěn)居全球前三、中國第一，是承載中國用戶數(shù)據(jù)最多、數(shù)據(jù)存力貢獻最大的存儲廠商。近年來，浪潮信息積極擁抱AI生態(tài)，專注于構建面向人工智能的存儲平臺，通過精準優(yōu)化存算資源配置與持續(xù)強化技術創(chuàng)新，全面推進AI產業(yè)化和產業(yè)AI化進程，力爭打造AI存儲的理想之選。

消息來源：浪潮信息