北京2021年11月24日 /美通社/ -- 十四五規(guī)劃中指出要“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”。IDC預(yù)測,到2022年,全球65%的GDP將由數(shù)字化推動。近幾年新基建、數(shù)字經(jīng)濟和平臺經(jīng)濟發(fā)展迅猛,給數(shù)據(jù)中心提出了新的挑戰(zhàn)。全閃存數(shù)據(jù)中心具有速度快、綠色節(jié)能等優(yōu)勢,將會是未來數(shù)據(jù)中心的發(fā)展趨勢,SSD(固態(tài)硬盤)也將會得到更加廣泛的應(yīng)用。
為什么關(guān)注SSD壽命預(yù)測?
企業(yè)關(guān)注SSD壽命預(yù)測技術(shù),一是因為SSD的應(yīng)用前景非常廣闊,市場上使用率將越來越高。二是SSD損壞導(dǎo)致數(shù)據(jù)丟失帶來的損失是巨大的。三是因為閃存具有擦寫次數(shù)限制的特點。
與傳統(tǒng)機械硬盤相比,SSD的優(yōu)勢非常明顯,如SSD速度更快,數(shù)據(jù)訪問比機械硬盤快100倍,吞吐量大100倍,單盤IOPS大1000倍以上,并且技術(shù)在快速發(fā)展,如NVMe、 PCIe將進一步釋放SSD的性能;在可靠性表現(xiàn)上,SSD因質(zhì)量輕、體積小、防震抗摔性更好,更加可靠。再如SSD更節(jié)能,與機械硬盤相比,能耗降低70%。今年的政府工作報告中提出要在2030年之前實現(xiàn)“碳達峰”,在2060年之前實現(xiàn)“碳中和”,使用SSD能夠大幅降低數(shù)據(jù)中心的能耗。過去SSD使用率不高的原因主要是其價格昂貴,現(xiàn)在據(jù)IDC統(tǒng)計:2015年到2020年,SSD平均每年的價格降幅達到25%,未來5年也將保持這一趨勢;2020年,全球范圍內(nèi)企業(yè)級SSD上的支出已經(jīng)超過傳統(tǒng)硬盤。
正是由于SSD速度快但價格相對較高,SSD通常用來存放元數(shù)據(jù)或核心數(shù)據(jù),這部分數(shù)據(jù)丟失將會給用戶帶來的損失更加嚴重。并且,SSD閃存介質(zhì)具有擦寫次數(shù)限制,因此SSD使用壽命更值得被關(guān)注和重視。
SSD壽命預(yù)測 如何實現(xiàn)
SSD,是由控制芯片和存儲芯片組成的??刂菩酒荢SD的大腦,用于調(diào)配數(shù)據(jù)、數(shù)據(jù)中轉(zhuǎn)等,存儲芯片用于存儲數(shù)據(jù)。當前主流的存儲芯片為NAND Flash閃存芯片,NAND采用浮柵晶體管存儲數(shù)據(jù),寫入數(shù)據(jù)時需要先擦除再寫入,寫操作本質(zhì)是向浮柵注入電荷,擦除操作是從浮柵挪走電荷,充放電的過程會損耗二氧化硅絕緣層的絕緣能力,最終無法保證浮柵中存有足夠多的電荷。因此NAND的擦寫次數(shù)是有限的,閃存完全擦寫一次叫做1次P/E,閃存的壽命就以P/E作單位,例如常用的MLC-SSD擦寫次數(shù)為10000次。SSD壽命預(yù)測,本質(zhì)上就是預(yù)測NAND芯片P/E次數(shù)還可用多長時間。
硬盤廠商一般都遵循S.M.A.R.T. 標準進行數(shù)據(jù)保護,S.M.A.R.T. 標準是一種自動的硬盤狀態(tài)檢測與預(yù)警系統(tǒng)和規(guī)范。SSD S.M.A.R.T.中包含了一些與壽命相關(guān)的指標,不同接口、不同廠商的指標略有不同。浪潮自研NVMe SSD遵循NVMe 1.3標準,提供標準的S.M.A.R.T.輸出。部分廠商SATA接口和PCIe接口壽命相關(guān)指標如下表所示:
硬盤接口 |
硬盤廠商 |
指標名稱 |
指標含義 |
SATA |
Intel |
Smart_233 Media Wearout Indicator |
介質(zhì)磨損指示 |
Micron |
Smart_202 Percent lifetime remaining |
剩余壽命百分比 |
|
Samsung |
Smart_177 Wear Leveling Count |
擦寫次數(shù)計數(shù) |
|
Seagate |
Smart_231 SSD Life Left |
SSD剩余壽命 |
|
PCIe |
Inspur等 |
percentage_used |
已使用百分比 |
各個廠商通用的指標為百分比表示的閃存磨損度,SSD壽命預(yù)測基于閃存磨損度,預(yù)測SSD未來可使用的天數(shù)。同時,該壽命預(yù)測模型能友好的支持浪潮自研PCIe接口SSD。
SSD壽命預(yù)測使用時間序列預(yù)測技術(shù),基于硬盤S.M.A.R.T.標準采集預(yù)測所需的歷史時間序列數(shù)據(jù)集,再使用浪潮自研的AI預(yù)測算法,預(yù)測S.M.A.R.T.指標未來變化,得到SSD剩余壽命天數(shù)。
SSD壽命預(yù)測流程如上圖所示。整體的預(yù)測流程分為兩個階段,綠色為離線訓(xùn)練階段,目的是為了確定模型選取規(guī)則;藍色為在線預(yù)測階段,用于在用戶環(huán)境中預(yù)測SSD壽命。
離線訓(xùn)練階段使用大量的SSD全生命周期的S.M.A.R.T.數(shù)據(jù),人工將磨損度變化曲線形態(tài)標記為3類:平穩(wěn)變化、減速變化和加速變化,再對三種類型的SSD數(shù)據(jù)分別進行測試。測試過程中實驗了多種數(shù)據(jù)預(yù)處理方式和預(yù)測模型,比如Prophet、 ARIMA、 移動平均法(Moving Average, MA)、指數(shù)平滑法(Exponential Smoothing,ES)、神經(jīng)網(wǎng)絡(luò)等。最終確定模型選取規(guī)則,實現(xiàn)全生命周期預(yù)測準確率達到75%的國際領(lǐng)先水平。
在線預(yù)測階段,定時采集硬盤磨損度指標,使用提前定義好的模型選取規(guī)則,根據(jù)磨損變化數(shù)據(jù)量的大小和變化趨勢,選擇最合適的時序預(yù)測模型,預(yù)測SSD壽命。
六重保護業(yè)務(wù)永遠在線,可靠!
在管理軟件層面上,InView平臺每天定時采集數(shù)據(jù)、預(yù)測,通過浪潮自研SSD產(chǎn)品S.M.A.R.T.功能,可以客觀呈現(xiàn)產(chǎn)品的Percentage used和Available spare信息,并展示所管理的SSD是使用壽命。當預(yù)測結(jié)果不足2周時,發(fā)出告警提示用戶,制定備份數(shù)據(jù)和換盤計劃,避免因突發(fā)換盤導(dǎo)致業(yè)務(wù)降級,甚至停機維護。
除了管理軟件,浪潮存儲還通過核心軟件、器件、部件、系統(tǒng)、解決方案層面等,對業(yè)務(wù)進行端到端的整合,致力于為客戶提供一體化的方案服務(wù),做到故障早知道、故障無影響、長期無故障。
未來隨著數(shù)字經(jīng)濟發(fā)展,數(shù)據(jù)要素將在企業(yè)數(shù)字化轉(zhuǎn)型中扮演越來越重要的角色。浪潮存儲將持續(xù)加大企業(yè)級SSD研發(fā)投入,推動集中式全閃、分布式全閃持續(xù)技術(shù)創(chuàng)新,聯(lián)合產(chǎn)學(xué)研用等生態(tài)伙伴,合力提供數(shù)據(jù)生命周期解決方案,助陣企業(yè)提速數(shù)字化轉(zhuǎn)型,釋放數(shù)據(jù)價值。