北京2024年7月23日 /美通社/ -- 作為全球最大的金融機構之一,這家國有銀行擁有規(guī)模龐大的IT基礎設施,囊括大量服務器、存儲和網(wǎng)絡設備。這些IT設備來自不同年代、不同廠商,擁有上百種產(chǎn)品型號,主要分布在上海和北京,形成了錯綜復雜的數(shù)據(jù)中心布局。
面對巨量、復雜的IT設備的管理挑戰(zhàn),該行攜手浪潮信息,歷經(jīng)五年聯(lián)合開發(fā),依托InManage基礎設施智能管理平臺,持續(xù)提升數(shù)字化管理運維能力。此過程中,InManage在該行管轄的IT設備規(guī)模從最初的1000臺大幅擴展至100,000臺,覆蓋國內(nèi)外眾多廠商的上百種不同型號的IT設備,實現(xiàn)不同廠商、不同年代的IT資產(chǎn)全生命周期數(shù)字化管理。這是當前金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大規(guī)模,為行業(yè)大規(guī)模數(shù)據(jù)中心的高效運維管理樹立了典范。
"近五年里,我們?yōu)檫@家國有大行完成了10萬臺、上百種不同型號IT設備的統(tǒng)一管理,開發(fā)了四十余項定制化功能,涵蓋資產(chǎn)全生命周期管理、AI運維、功耗調(diào)優(yōu)、綠色數(shù)據(jù)中心等多方面,幫助該行實現(xiàn)了超大規(guī)模IT設備的智能、高效、精準、安全的運維管理",浪潮信息金融行業(yè)部總經(jīng)理吳超表示。
大行有"大"挑戰(zhàn) 十萬IT設備如何統(tǒng)攬
2023年底,中央金融工作會議指出,要做好包括"數(shù)字金融"在內(nèi)的"五篇大文章",作為全球最大的金融機構之一,該行積極落實,緊密圍繞科技金融、數(shù)字金融的發(fā)展規(guī)劃,強化科技創(chuàng)新,以科技賦能"數(shù)字銀行"建設。
在推進數(shù)字金融過程中,該行不僅積極構建并創(chuàng)新數(shù)字應用場景,更加重視數(shù)字基礎設施的建設和運維領域的創(chuàng)新。然而,數(shù)字基礎設施作為該行數(shù)字化轉型的壓艙石,在新時代正面臨著諸多新的挑戰(zhàn)。
在數(shù)據(jù)中心投入運行的十余年里,這家國有大行的IT設備數(shù)量和種類不斷增長。統(tǒng)計顯示,總行目前IT設備約為10萬臺,包含不同年代、不同廠商的服務器、存儲設備等。設備數(shù)量的大幅增長意味著管理復雜性的顯著提升,更多的設備意味著更多的狀態(tài)監(jiān)控、故障排查、軟件更新等任務,存在管理效率低下、數(shù)據(jù)不一致性加劇、維護成本上升等問題。
同時,傳統(tǒng)的基礎設施管理平臺是各項功能緊耦合的系統(tǒng),一般用一臺管理服務器完成數(shù)據(jù)采集、存儲、分析、展現(xiàn)等功能,但該行數(shù)據(jù)中心每天服務器運行狀態(tài)數(shù)據(jù)達到近30T,集中化管理無法滿足超大規(guī)模IT設備管理的分鐘級甚至秒級的實時并發(fā)需求,容易出現(xiàn)故障上報不及時甚至管理平臺宕機的問題。
為了解決這些問題,浪潮信息為其打造了一個能夠兼容多種設備和品牌的統(tǒng)一管理平臺,提供統(tǒng)一界面來管理所有設備,從底層屏蔽設備差異,基于基線策略實現(xiàn)設備無狀態(tài)運維,簡化操作流程,提高效率。通過研究大規(guī)模數(shù)據(jù)中心物理基礎設施智能管理平臺的分布式網(wǎng)格架構及高性能數(shù)據(jù)采集技術,設計"一中心多網(wǎng)格"的體系模型,InManage實現(xiàn)了100,000級設備的統(tǒng)一管理、10,000,000級指標項的秒級采集,提供批量作業(yè)的并行處理能力,實現(xiàn)多設備并行處理,對設備執(zhí)行過程監(jiān)控、結果檢查,可用性達到99.99%,有效解決了管理復雜度高和故障上報不及時等問題。
通過對種類繁多的IT設備的統(tǒng)一管理,浪潮信息助力該行打破了數(shù)據(jù)壁壘,節(jié)省硬件成本300萬以上,運維工作量降低1/3,將運維效率提升200%。
傳統(tǒng)監(jiān)控方式較為粗放,IT管理部門能夠了解數(shù)據(jù)中心大致的設備數(shù)量,但無法精準掌握每臺設備的運行狀況,比如哪臺服務器CPU利用率偏低,哪臺超負荷運行,哪臺設備已經(jīng)掉線或能耗過高等等。
鑒于此,銀行亟需一套更為精準的管理解決方案,確保實時洞悉服務器的性能、健康狀況、安全狀態(tài)。同時,此管理方案還需具備高效地處理和分析大量數(shù)據(jù)的能力,以便及時發(fā)現(xiàn)和解決問題。
"我們希望為客戶打造實時、精準、智能的管理運維方案",吳超表示。
為此,浪潮信息InManage軟件團隊與該行IT團隊攜手合作,深度融合物聯(lián)網(wǎng)(IoT)、人工智能、數(shù)字孿生、邊緣計算等數(shù)字化技術,成功實現(xiàn)了數(shù)據(jù)中心的全方位精準管理。
在全棧、全場景動態(tài)管理方面,浪潮信息基于RFID (射頻識別,Radio Frequency Identification)技術棧,適配多種場景下的資產(chǎn)管理需求,對設備、物資、位置、狀態(tài)、人員等全方位數(shù)據(jù)中心資源進行實時動態(tài)管理,可以準確識別出設備利用率、使用情況、能耗等多個方面。
智能運維方面,浪潮信息InManage基礎設施智能管理平臺集成了ISBMC、InService、AIOps等故障處理能力,基于AI技術掌握了數(shù)萬種服務器宕機案例,可對故障進行智能實時預警。其故障診斷定位精度業(yè)界領先,精準度達到95%,遠高于業(yè)界50%的平均標準,充分保證金融行業(yè)數(shù)據(jù)中心安全,助力金融業(yè)韌性發(fā)展。
超大規(guī)模數(shù)據(jù)中心的設計布局,往往面臨多重挑戰(zhàn)。
首先,空間布局。IT設備數(shù)量龐大,如何準確掌握設備分布情況,機房中哪些區(qū)域是高密度使用,哪些區(qū)域則相對空閑,這是一個難題;
其次,設備安置。數(shù)據(jù)中心內(nèi)設備繁多,且隨時可能面臨新設備的接入需求,如何快速、高效地找到合適位置來安置新設備很關鍵;
再次,能耗優(yōu)化。IT運營者要同時考量電源、散熱等因素,以最大限度地提高能源利用效率,合理進行規(guī)范布局。
超大規(guī)模數(shù)據(jù)中心如同一座龐大的"城市", IT運營者想快速了解數(shù)據(jù)中心的空間布局、設備位置,就要做到"一圖在手,縱橫馳騁"。為了實現(xiàn)這一目標,浪潮信息InManage基礎設施智能管理平臺通過對數(shù)據(jù)中心機房、柜機、U位資源實時監(jiān)控和智能分析,為超大規(guī)模數(shù)據(jù)中心繪制了一張動態(tài)的"3D地圖",使IT運營者能夠一目了然地掌握數(shù)據(jù)中心的實時狀態(tài)。
吳超進一步闡述道:"我們利用數(shù)字孿生技術,結合機柜和U位資源的實時數(shù)據(jù),包括機型U位詳情、設備運行狀況及能耗情況等,全方位展示機房機柜設備的空間分布,能提高設備選柜效率和精確度,從而助力大行數(shù)據(jù)中心更有效地規(guī)劃和優(yōu)化空間布局、資源配置。"
3秒看到全景圖 鑄造AI運維利器
隨著技術的不斷進步,浪潮信息的InManage基礎設施智能管理平臺已開發(fā)了40余項定制化功能,借助AI技術,實現(xiàn)數(shù)據(jù)中心資產(chǎn)全生命周期的精細管理,推動銀行加快數(shù)字化轉型的步伐。浪潮信息的這一解決方案不僅幫助這家銀行將IT運維效率提升了整整2倍,更在IT設備采購、到貨、驗收、入庫、上線、淘汰全流程中,為IT運營者提供了極大的便利,只需短短3秒,即可獲得數(shù)據(jù)中心設備的全面運行視圖,大大提高了工作效率。
當前,浪潮信息InManage基礎設施智能管理平臺已在該行得到全面部署和應用,足以驗證產(chǎn)品的成熟度和可靠性。如今,國內(nèi)TOP100銀行中,已有大約1/3的銀行對浪潮信息的InManage基礎設施智能管理平臺進行了規(guī)?;渴?。