上海2022年3月2日 /美通社/ -- 近日,憑借智能運維管理體系賦予云原生業(yè)務(wù)可觀測性能力以及保障千行百業(yè)數(shù)字化業(yè)務(wù)的高質(zhì)量發(fā)展,天旦榮膺由BP商業(yè)伙伴頒發(fā)的“智能運維100強”。
云原生時代須要可觀測性能力
2021年是云原生技術(shù)的全面爆發(fā)之年,從底層平臺到上層應(yīng)用,云原生技術(shù)重塑IT架構(gòu)的同時,也對運維管理帶來挑戰(zhàn)。容器、微服務(wù)等技術(shù)盡管可以承載業(yè)務(wù)并發(fā)量的指數(shù)級增長,支持業(yè)務(wù)需求的頻繁變更,但隨著應(yīng)用架構(gòu)的不斷變化,一旦業(yè)務(wù)出現(xiàn)問題就難以精準(zhǔn)定位到發(fā)生故障的節(jié)點,傳統(tǒng)被動響應(yīng)式的運維管理模式顯得捉襟見肘。云原生環(huán)境下,新一代的業(yè)務(wù)運維管理需要更主動、更敏捷、更適應(yīng)規(guī)?;芾淼哪芰ι?。
從傳統(tǒng)的APM產(chǎn)品到日志監(jiān)控工具,云原生可觀測性概念在智能運維管理領(lǐng)域的熱度不斷提升。介于傳統(tǒng)的智能運維產(chǎn)品僅面向服務(wù)端,解決基礎(chǔ)運維問題,而云原生環(huán)境存在著復(fù)雜的分布式系統(tǒng),需要盡可能多地收集所有系統(tǒng)組件的相關(guān)數(shù)據(jù)(包括云、容器、終端與應(yīng)用等),實時評估業(yè)務(wù)的運行狀態(tài)。此外,大家都知道“Metrics、Tracing與Logging”是“可觀測性能力”的三大支柱,在云原生運維實踐中,必須建立統(tǒng)一的Metrics、Tracing與Logging規(guī)范,才能快速地發(fā)現(xiàn)問題,找到問題根因。
天旦“全景感知”的智能運維體系,守護數(shù)字業(yè)務(wù)生命力
從On Cloud到In Cloud,云原生2.0的時代已經(jīng)來臨。面對敏捷的云原生業(yè)務(wù),企業(yè)一方面需要應(yīng)云而變,運用主動發(fā)現(xiàn)等可觀測性能力實現(xiàn)云原生環(huán)境下的智能故障診斷與根因分析;另一方面需要借助更敏捷、智能的網(wǎng)絡(luò)與業(yè)務(wù)運維管理產(chǎn)品以解決監(jiān)控節(jié)點數(shù)量的成倍增長、監(jiān)控數(shù)據(jù)采集難、海量數(shù)據(jù)處理瓶頸等規(guī)?;\維管理難題。為此,天旦通過一項核心技術(shù)、三大核心產(chǎn)品幫助企業(yè)快速構(gòu)建全景感知的智能運維體系,通過一體化的性能監(jiān)控管理靈活應(yīng)對云原生應(yīng)用的彈性擴縮與規(guī)模化集群,實現(xiàn)實時感知、敏捷擴展的運維管理能力新升級,守護數(shù)字業(yè)務(wù)生命力。
云原生環(huán)境,由于系統(tǒng)整體行為方式發(fā)生變化,導(dǎo)致為這些系統(tǒng)、應(yīng)用提供的保障與服務(wù)也隨之改變。即使是智能運維產(chǎn)品也只是報告系統(tǒng)整體的運行狀況,被動地呈現(xiàn)“失敗”與“故障”。而隨著大量分布式系統(tǒng)、規(guī)?;奈⒎?wù)部署之后,影響故障產(chǎn)生的因素可能出現(xiàn)在任意細(xì)微的節(jié)點,如何主動發(fā)現(xiàn)這些問題、調(diào)取影響故障的全路徑、詳細(xì)分析故障產(chǎn)生的原因就需要運用主動發(fā)現(xiàn)能力。
天旦全景感知的智能運維體系以核心的互聯(lián)數(shù)據(jù)技術(shù)為基礎(chǔ),首先將云原生、混合云等環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)進行全量采集,其次通過分析與解碼,理解并還原數(shù)據(jù)的傳輸路徑、業(yè)務(wù)與上層應(yīng)用的表達,將各種各樣的業(yè)務(wù)系統(tǒng)語言、網(wǎng)絡(luò)傳輸路徑等轉(zhuǎn)換成統(tǒng)一的格式,最后通過建立統(tǒng)一的Metrics、Tracing與Logging數(shù)據(jù)規(guī)范,綜合運用“依賴分析”、“剖析”與“排錯”等主動發(fā)現(xiàn)能力,通過指標(biāo)實時呈現(xiàn)網(wǎng)絡(luò)與業(yè)務(wù)實時動態(tài),調(diào)取模塊間的交互狀態(tài),基于逐層下鉆分析獲取詳細(xì)的日志信息,實現(xiàn)智能故障診斷與根因分析。
傳統(tǒng)的智能運維管理已經(jīng)無法適應(yīng)云原生環(huán)境。智能運維(AIOps)的概念最早由Gartner提出,是指通過將機器學(xué)習(xí)等人工智能技術(shù)應(yīng)用至運維管理過程中,自動地從海量數(shù)據(jù)中學(xué)習(xí)并總結(jié)規(guī)則,作出相應(yīng)決策的運維方式。盡管智能運維管理技術(shù)改變了傳統(tǒng)的運維工作模式,將運維從繁瑣的故障排查流程中解放出來,但在云原生環(huán)境下,IT架構(gòu)發(fā)生改變,無法感知與預(yù)測的因素越來越多,智能運維管理無法再單獨以運維的視角,而要融入開發(fā)與業(yè)務(wù)部門的視角,在具備主動發(fā)現(xiàn)能力的同時,運用全鏈路業(yè)務(wù)可觀測性能力與云網(wǎng)可觀測性能力保障網(wǎng)絡(luò)與業(yè)務(wù)系統(tǒng)的穩(wěn)定。
天旦運用Cloud Probe云流量可觀測性采集產(chǎn)品將公有云、私有云、混合云、虛擬化、容器等環(huán)境中的網(wǎng)絡(luò)流量通過微探針、旁路探針、SDN引流等多種方式進行全量采集與集中管控,再通過互聯(lián)數(shù)據(jù)智能解碼引擎進行分析與處理,運用具備云網(wǎng)可觀測性能力的網(wǎng)絡(luò)性能管理NPM智能關(guān)聯(lián)中間件、網(wǎng)絡(luò)與應(yīng)用交互各節(jié)點的邏輯訪問關(guān)系,綜合分析IT基礎(chǔ)設(shè)施指標(biāo)與網(wǎng)絡(luò)指標(biāo),構(gòu)建對云網(wǎng)環(huán)境的全景、立體式監(jiān)測;運用具備業(yè)務(wù)可觀測性能力的業(yè)務(wù)性能管理BPC,通過全鏈路監(jiān)控,提供四大指標(biāo)與兩大維度,實時感知業(yè)務(wù)變化趨勢,實現(xiàn)單個業(yè)務(wù)請求全生命周期的觀測與分析,為云原生、混合云環(huán)境下的全鏈路業(yè)務(wù)監(jiān)控提供保障。除此以外,全景感知的智能運維體系還能為企業(yè)提供安全審計、監(jiān)管上報、科技績效管理等管理能力,實現(xiàn)以業(yè)務(wù)核心的綜合運維管理能力的新升級。
從恒豐銀行、臺州銀行、聯(lián)通支付到廈門國際銀行,“全景感知”的智能運維體系不僅助力眾多國內(nèi)金融機構(gòu)的數(shù)字化實踐,還在制造、醫(yī)療、政府、能源電力等眾多行業(yè)成功落地。隨著云原生技術(shù)的不斷發(fā)展、云原生應(yīng)用程度的不斷加深,智能運維管理的難度也在不斷上升。除了需要應(yīng)對新技術(shù)應(yīng)用所帶來的挑戰(zhàn)外,各行業(yè)還需要面臨嚴(yán)峻的市場競爭、國際形勢變化等眾多考驗。在邁向云原生2.0的關(guān)鍵時期,天旦將持續(xù)以全景感知的智能運維產(chǎn)品體系為依托,運用統(tǒng)一可觀測性能力賦能企業(yè)的運維管理工作,為企業(yè)的數(shù)字化業(yè)務(wù)高質(zhì)量發(fā)展保駕護航。