浪潮存儲(chǔ)產(chǎn)品經(jīng)理:宗崗崗
浪潮SSD架構(gòu)師:殷軍博
北京2021年9月16日 /美通社/ -- MTBF(Mean time between failures,平均無故障時(shí)間)作為SSD閃存盤一個(gè)非常重要的可靠性參數(shù)指標(biāo),當(dāng)前市場主流企業(yè)級(jí)產(chǎn)品指標(biāo)值基本在200萬小時(shí),浪潮自研SSD經(jīng)過一系列內(nèi)置創(chuàng)新算法加持,MTBF可以達(dá)到260萬小時(shí)以上,比業(yè)界標(biāo)準(zhǔn)提升30%以上。
什么是MTBF?
在解讀MTBF之前,我們先了解下浴盆曲線概念,浴盆曲線又稱失效率曲線,指產(chǎn)品從投入到報(bào)廢為止的整個(gè)生命周期內(nèi)的可靠性變化規(guī)律,左邊斜線部分為早期失效期,其故障率一般較高且隨著時(shí)間推移很快下降。曲線中部為隨機(jī)失效期,其故障率一般很低且基本固定。最右部為磨損失效期,失效率急速升高。
電子產(chǎn)品的壽命一般都符合浴盆曲線,可分為三個(gè)階段:
其一早期失效期,失效率迅速遞減并趨于穩(wěn)定,由于設(shè)計(jì),原材料,生產(chǎn)等原因?qū)е碌母呤孰A段,可通過環(huán)境應(yīng)力篩選加以剔除。
其二,隨機(jī)失效期,失效率近似一個(gè)常數(shù),只有隨機(jī)失效產(chǎn)生,MTBF即是這一階段的壽命。
其三磨損失效期,硬件故障期,產(chǎn)品已達(dá)設(shè)計(jì)壽命,進(jìn)入報(bào)廢階段。
MTBF,即平均故障間隔時(shí)間,英文全稱是“Mean Time Between Failure”,是指相鄰兩次故障之間的平均工作時(shí)間,是衡量一個(gè)產(chǎn)品的可靠性指標(biāo),單位為“小時(shí)”。MTBF越長表示可靠性越高,保持正確工作能力越強(qiáng)。它反映了產(chǎn)品的時(shí)間質(zhì)量,是體現(xiàn)產(chǎn)品在規(guī)定時(shí)間內(nèi)保持功能的一種能力。它僅適用于可維修產(chǎn)品,當(dāng)產(chǎn)品的壽命服從指數(shù)分布時(shí),失效率的倒數(shù)表示兩個(gè)失效之間的時(shí)間間隔(λ=1/MTBF)。
MTBF測算方法
MTBF主要通過實(shí)證法采用加速應(yīng)力方式來證明產(chǎn)品長期可靠度,RDT(Reliability Demonstration Test,可靠度驗(yàn)證測試)測試主要通過高溫加速測試計(jì)算評估,從測試深度、廣度、持久度三個(gè)方向進(jìn)行測驗(yàn)。
深度測試是Endurance測試,使用JEDEC標(biāo)準(zhǔn)固態(tài)硬盤耐久性工作負(fù)載,PE(Program/Erase,擦寫)值從開始到預(yù)允許最大值驗(yàn)證耐久度,即從生命周期開始到生命周期結(jié)束,浪潮自研SSD投入上百塊數(shù)量持續(xù)測試時(shí)間達(dá)到1600小時(shí)以上。
廣度測試是Quality測試,主要通過讀、寫、數(shù)據(jù)校驗(yàn)、Trim、Format以及正常和異常上下電等所有用戶可能的操作,驗(yàn)證各種操作Case下的穩(wěn)定性,浪潮自研SSD共計(jì)投入上千塊樣品持續(xù)測試時(shí)間高達(dá)1600小時(shí)以上。
持久度測試是Retention測試,在SSD閃存盤生命末期,壽命PE次數(shù)達(dá)到允許的最大值之后,投入上百塊SSD進(jìn)行Power loss retention測試以驗(yàn)證掉電后的數(shù)據(jù)保持能力。
MTBF數(shù)學(xué)公式表示為MTBF=∑(downtime-uptime)/failure times,公式中的失效時(shí)間是指上一次設(shè)備恢復(fù)正常狀態(tài)(公式中的up time)起,到設(shè)備此次失效那一刻(公式中的down time)之間間隔的時(shí)間。浪潮自研SSD經(jīng)第三方機(jī)構(gòu)測評計(jì)算MTBF可以達(dá)到260萬小時(shí)以上,PE可達(dá)到10K級(jí)別,壽命和可靠性都得到了大幅提升。
核心技術(shù)引擎
浪潮自研SSD憑借NAND特性算法、SRR(Smart Read Retry,智能重讀算法)、LDPC(Low-Density Parity-Check Codes,低密度奇偶校驗(yàn))、可變條帶RAID5四大核心算法技術(shù)引擎支撐,使得MTBF輕松達(dá)到260萬小時(shí)。
第一,NAND特性自學(xué)習(xí)算法模型。
基于浪潮自研NAND測試平臺(tái)精準(zhǔn)獲取最佳NAND特性數(shù)據(jù),創(chuàng)新設(shè)計(jì)NAND特性自學(xué)習(xí)算法模型,針對擦除次數(shù)、讀計(jì)數(shù)、溫度、保持時(shí)間不同場景下獲取NAND最佳讀電壓,使得PE提升40%,固態(tài)盤可靠性和Qos大幅提高。
第二,智能重讀算法SRR。
受限NAND閃存特性會(huì)出現(xiàn)正常讀發(fā)生錯(cuò)誤的現(xiàn)象,為了能夠讀取到正確數(shù)據(jù),浪潮SSD內(nèi)部使用了智能重讀算法,當(dāng)讀取數(shù)據(jù)錯(cuò)誤時(shí),會(huì)自動(dòng)觸發(fā)智能重讀,根據(jù)不同page狀態(tài),選擇合適的shift電壓,全生命周期內(nèi)保證正確讀取和優(yōu)質(zhì)的Qos。
第三,低密度奇偶校驗(yàn)LDPC。
目前市場主流SSD主要采用3D eTLC NAND 閃存作為主要存儲(chǔ)介質(zhì),受限NAND閃存物理結(jié)構(gòu)會(huì)存在讀寫干擾、高溫、輻射、壽命減少等問題,RBER(原始比特出錯(cuò)率)會(huì)隨著磨損次數(shù)、Retention和讀干擾增加而逐漸變大。為了保證數(shù)據(jù)準(zhǔn)確性,浪潮自研SSD采用軟硬協(xié)同的LDPC作為糾錯(cuò)方案,憑借增強(qiáng)型LLR(Log Likelihood Ratio,對數(shù)似然率) table,能夠顯著降低UBER(Uncorrectable Bit Error Rate,不可修復(fù)比特率),增強(qiáng) ECC(Error Correction Code,糾錯(cuò)碼)碼的糾錯(cuò)能力。
第四,可變條帶RAID5。
浪潮自研SSD設(shè)計(jì)了針對Block的健康狀況進(jìn)行嚴(yán)密的監(jiān)控和記錄的可變條帶RAID5保護(hù)機(jī)制,采用N+1個(gè)Block組成RAID條帶,其中N用于存放用戶數(shù)據(jù),1個(gè)Block用于存放校驗(yàn)值。當(dāng)出現(xiàn)壞塊時(shí),RAID條帶在下次寫入時(shí)將自動(dòng)將為(N-1)-1,這種優(yōu)化大大提升了RAID保護(hù)的靈活性,增強(qiáng)了數(shù)據(jù)保護(hù)的可靠性。
浪潮自研SSD通過底層一些關(guān)鍵核心算法的創(chuàng)新,產(chǎn)品可靠性和安全性不斷實(shí)現(xiàn)突破。未來,浪潮存儲(chǔ)將持續(xù)秉承“云存智用 運(yùn)籌新數(shù)據(jù)”理念,加速推進(jìn)底層存儲(chǔ)介質(zhì)研發(fā)和創(chuàng)新,掌握底層硬件關(guān)鍵核心技術(shù),以領(lǐng)先技術(shù)助力關(guān)鍵行業(yè)實(shí)現(xiàn)突破應(yīng)用,全面釋放數(shù)據(jù)價(jià)值,加速數(shù)字化轉(zhuǎn)型。
更多浪潮自研SSD相關(guān)信息,請查看:https://www.inspur.com/lcjtww/2526546/index.html