從手工賬簿到財務軟件,從柜臺長龍到電子銀行,從紙質(zhì)流程到移動辦公,IT讓業(yè)務越來越自動化,越來越高效;但IT自身為什么不能更自動化些?
什么時候網(wǎng)絡管理員能擺脫四處救火的消防員形象?什么時候數(shù)據(jù)庫管理員能夠從容應對海量數(shù)據(jù)的監(jiān)控、管理?什么時候系統(tǒng)管理員能夠吃著火鍋、唱著歌,就能確保系統(tǒng)正常運行呢?
自動化 必須的
2010年5月份,第三方研究公司Coleman Parkes Research的調(diào)查研究結(jié)果顯示,企業(yè)的IT支出呈現(xiàn)出 70/30 規(guī)則,即與新的IT計劃相比,企業(yè)70%的錢都花了現(xiàn)有系統(tǒng)的運維上。而IT運維人員70%的精力和時間都花在了日常巡檢、系統(tǒng)發(fā)布、配置等基礎運維工作上。
的確是如此。在4月9日舉行的“自動化:IT的未來——惠普軟件IT自動化用戶研討會”上,一位不愿透露姓名的某國有大型銀行技術經(jīng)理以其數(shù)據(jù)中心為例向記者介紹,復雜的架構(gòu)、繁雜的工作、嚴格的流程、紛繁的系統(tǒng)、眾多的管理團隊和離散的操作,讓系統(tǒng)運維工作占用了大量的資金和人力成本,但實際效果卻不怎么樣。
因為集中復雜的服務器、網(wǎng)絡和存儲部署與多點分布的業(yè)務應用之間存在大量的相互依賴的關系,在復雜的架構(gòu)下,“要手工做持續(xù)的大量變更非常容易出錯,且前后不一致;而在運維組、調(diào)度組、安全組等不同的團隊及系統(tǒng)之間的調(diào)度和協(xié)作也因缺乏標準化控制而凌亂;在各自獨立的系統(tǒng)視圖下對網(wǎng)絡、服務器、存儲等基礎設施豎井式的分離管理也讓運維工作不能體現(xiàn)出整體效應。”這位技術經(jīng)理感慨地說。
一方面,企業(yè)既需要用自動化工具替代手工操作,把IT人員從繁瑣的日常運維工作中解放出來,使其不再做重復勞動,可以有更多的時間去做更具創(chuàng)新、更有價值的事情;另一方面自動化也能解決一旦系統(tǒng)出現(xiàn)問題后,各個崗位互相扯皮、責任不清的問題。
“無論是從人工成本還是系統(tǒng)效率還是支撐業(yè)務創(chuàng)新的角度看,IT自動化都是必然的趨勢。”中國工商銀行數(shù)據(jù)中心安全部副總經(jīng)理敦宏程肯定地對記者說。
光大銀行運行管理處項目經(jīng)理張憲鐸也對記者說,“各銀行具體環(huán)境不太一樣,得根據(jù)銀行自己實際情況綜合考慮,在風險可控的前提原則下,自動化應該是個大方向。
業(yè)務導向的運維
“現(xiàn)在很多監(jiān)控、管理工作是孤立的,網(wǎng)絡、服務器、數(shù)據(jù)庫、業(yè)務之間不相互關聯(lián)。一旦業(yè)務出現(xiàn)問題,沒有一個統(tǒng)一、簡單、可控的監(jiān)控與管理,不能自動化,無法高效地解決問題。” 惠普全球運維管理資深專家Jonathan研討會上以美國大型醫(yī)療藥品供應商麥克森(McKesson)的數(shù)據(jù)中心自動化運維為例,介紹了當前IT運維的現(xiàn)狀和難點和自動化IT的價值。
當然,IT自動化的價值不只是在于保障系統(tǒng)本身的正常運行,降低運行成本,提高運行效率,更重要的是要高效、靈活地實現(xiàn)IT對業(yè)務的支撐,應對加速變化的業(yè)務流程,與業(yè)務融為一體,不斷創(chuàng)新。
惠普軟件技術總監(jiān)于志偉用醫(yī)院急診的例子介紹了瞬捷企業(yè)對IT自動化需求的必要性。“一名昏迷的病人被送進急診室搶救,掃描一下,這名病人的病史、過敏史等所有信息就都展現(xiàn)在了醫(yī)生面前,醫(yī)生就可以對癥采取急救措施了。在醫(yī)院,時間就是生命。試想如果沒有自動化的IT手段收集、快速查詢、傳輸這些信息,搶救情況會多么糟糕,而單靠人工是不可能做到的。”
另外,他也說,現(xiàn)在企業(yè)對CIO的期望,不再只是保證系統(tǒng)的可靠性和可用率,而是得面向業(yè)務,更加敏捷、高效地去適應業(yè)務流程,通過IT獲取更多的業(yè)務機會、增長利潤、體現(xiàn)競爭優(yōu)勢。而通常情況下,要實現(xiàn)這些CIO不得不還得面臨的一個“殘忍”現(xiàn)實是并沒有增加新的IT預算。還是原來那些錢,但卻要做更多事,那么CIO就必須簡化IT,通過IT自動化實現(xiàn)創(chuàng)新的目標。
在于志偉看來,IT自動化分為三個階段:第一個階段是單個任務自動化,用自動化工具取代日常手工作業(yè),比如服務器自動巡檢、自動化測試應用上線等,這樣可以解放IT人力等資源投入到其他創(chuàng)新項目,這個階段是目前大多企業(yè)都可以做到的;第二階段是自動化IT流程,依據(jù)ITIL等標準化的最佳實踐,實現(xiàn)配置、變更、事件等管理的自動化,將過去要用2-3個小時做的事情現(xiàn)在用幾秒鐘完成,這階段是IT應用相對成熟的金融、電信等行業(yè)用戶正在做的;而第三個階段就是要實現(xiàn)服務自動化,比如上線一個ERP系統(tǒng)、CRM系統(tǒng),過去可能需要5個月,而通過自動化,通過云服務就可以2個小時完成。于志偉說,怒目前很多企業(yè)都是已經(jīng)實現(xiàn)了服務器、網(wǎng)絡、存儲等基礎設施的自動化,而面向業(yè)務的流程和服務自動化則是大勢所趨。
Jonathan則針對目前IT運維的現(xiàn)狀,提出企業(yè)先要整合網(wǎng)絡、存儲、服務器等各自的監(jiān)控管理平臺成一個平臺,然后從業(yè)務出發(fā),看業(yè)務需要落實什么,再將業(yè)務與IT緊密關聯(lián),并通過恰當?shù)闹С煮w系實現(xiàn)整個運維過程的自動化。
在會上,惠普軟件自動化專家陳禾也向與會嘉賓介紹了惠普針對數(shù)據(jù)庫和中間件自動化的DMA解決方案。他認為,針對數(shù)據(jù)庫和中間件自動化的DMA是基礎架構(gòu)到應用之間的一個連接紐帶,是一個非常重要的連接點。
關鍵是基礎腳本庫和流程庫
已經(jīng)有兩年數(shù)據(jù)中心自動化建設經(jīng)驗的某大型銀行數(shù)據(jù)中心負責人向記者介紹了他們的經(jīng)驗。
“我們當時做自動化建設的起因是運維工作面臨著三大困難:一是隨著數(shù)據(jù)中心的業(yè)務發(fā)展,運維的規(guī)模不斷膨脹,管理體系不斷增加,但人手卻沒有增加,有限的人手怎樣面對復雜的運維環(huán)境是當時最突出的矛盾。第二個困難就是在配置管理部分,因為從系統(tǒng)安裝到后期運維的整個運維生命周期內(nèi),配置管理信息非常多。作為普通的系統(tǒng)管理員,面對海量的配置要求,如何能一次性地、準確地獎信息輸入電腦非常關鍵。第三就是在數(shù)據(jù)中心的日常項目管理方面,相關軟件的部署和運維不能100%覆蓋整個系統(tǒng),總會有5%部分的系統(tǒng)是沒有覆蓋到的。這是因為今天的數(shù)據(jù)中心已經(jīng)涵蓋包括軟件、傳輸、ITM監(jiān)控等非常多的產(chǎn)品,普通的系統(tǒng)管理員很難全部掌握全部產(chǎn)品的運維知識和技能。”這位負責人說。
如何解決這些困難呢?自動化是非常好的方法。從2009年開始,該行開始了自動化建設一期的建設。立項之初,項目就設立了三大目標,第一是做什么,就是要建立跨平臺、面向服務的自動化運維管理體系。第二是怎么做,核心環(huán)節(jié)是什么,就是要發(fā)展不完善的基礎腳本庫和基礎流程庫,這兩樣是其整個自動化運維的核心關鍵。“只有把腳本庫和流程庫很規(guī)范地建設好后,才能在復雜的環(huán)境中推進自動化運維,否則雖然自動化在某些情況下能提高工作效率,還是會帶來負面的風險。” 他說。
第三就是組織架構(gòu),數(shù)據(jù)中心怎樣協(xié)調(diào)系統(tǒng)部、應用部、運維部、調(diào)度部、安全部等各個技術水平不一的部門共同實施自動化,必須得有方法、有制度。“我們不斷將自動化的知識、理念、平臺的使用方法等做知識轉(zhuǎn)移,讓像系統(tǒng)部、應用部等技術能力較強的部門接受自動化工具,同時也協(xié)調(diào)一些流程管理部門,像安全部、調(diào)度部等,讓他們的日常工作也越來越自動化。”
經(jīng)過兩年的努力,該負責人介紹,該行已經(jīng)實現(xiàn)了系統(tǒng)運維的自動化,包括配置信息的收集、系統(tǒng)日常健康檢查等,把日常重復、簡單、可控的工作,納入自動化范疇;其次就是實現(xiàn)了一些操作的自動化,比如數(shù)據(jù)中心網(wǎng)上批量處理的自動化;還有災備切換的自動化。
他以系統(tǒng)健康檢查自動化為例,向記者介紹他們的具體做法就是將健康檢查的標準、規(guī)范的前提形成一些腳本,通過自動化運維平臺定時地調(diào)用這些腳本,生成的報表可以快速地反饋到運維人員的信箱。“當時我們就是每天晚上大概三四點鐘的時候,定時執(zhí)行這個自動化任務。每天早上九點鐘,系統(tǒng)管理員上班打開電腦就可以從他的郵箱里面看到昨天晚上整個系統(tǒng)的運維情況。他就不用再花時間到不同的平臺上去檢查這些參數(shù),只要對這些報表進行瀏覽,再對他覺得有疑點的地方做正式的檢查和排查。通過這種方式,在節(jié)省時間和人力成本的同時,確保了系統(tǒng)的可用性,降低了發(fā)生問題的風險。”
自動化的前提是風險可控
自動化雖是大勢所趨,但記者采訪發(fā)現(xiàn),用戶對于自動化還是非常謹慎的。敦宏程認為其實銀行有些流程環(huán)節(jié)是必須要有人介入的,不能什么事都自動化。敦宏程認為,要推進自動化,供應商產(chǎn)品的成熟度也是他們要考慮琢磨的重中之重。因為曾經(jīng)他們遭遇尷尬的自動化事件,有個項目中,他們需要部署幾百臺某其他品牌服務器,預備采取自動化部署方案,預留的部署時間就很短,結(jié)果在在第二天要投產(chǎn)之前發(fā)現(xiàn)自動化部署有問題,他們不得不把所有人集中在機房,一人幾臺機器趴在地板上連夜手工裝機器。“可控性是我們考慮的第一要素。”
北京京東方光電科技有限公司自動化部部長邢明海也表示,出于安全的考慮,需要從效率和控制兩方面均衡考慮配比自動化和手工兩種方式。
張憲鐸認為自動化和手工會有慢慢轉(zhuǎn)化的過程,就像復雜和簡單之間也是在慢慢轉(zhuǎn)化一樣。他說,目前對光大銀行來說,可以自動化的還是那些常規(guī)性、重復性的簡單操作,他們現(xiàn)在主要做的還是把相當于眼睛和耳朵的監(jiān)控工作做到位,通過對基礎設施和業(yè)務的監(jiān)控,及時發(fā)現(xiàn)問題,保障系統(tǒng)和業(yè)務的可用性和連續(xù)性。推進自動化的最終原則就是風險可控,風險可控的前提下把繁瑣操作自動化提高效率是好事,但如果風險不一定可控,就不能冒冒失失地推進自動化。
飯要一口一口吃,路要一步一步走。企業(yè)的IT自動化之旅,得按部就班、循序漸進。
案例鏈接:
麥克森的自動化故事
麥克森是美國的一家大型醫(yī)療藥品供應商,在全球500強排名34,在財富500強的美國公司中排名第14,年營業(yè)額1060億美元,是美國醫(yī)療藥品批發(fā)領域的頭一把交椅,有超過4萬家的藥店,同時它還是醫(yī)療流程系統(tǒng)提供商,像醫(yī)療記錄、藥方的合規(guī)審計等領域的軟件都是由麥克森提供的。
麥克森的問題有兩個,一是它基礎設施和業(yè)務應用的監(jiān)控相互獨立,一旦業(yè)務出現(xiàn)問題,無法定位問題源于何處;二是其系統(tǒng)的應用可靠性和性能非常重要,因為系統(tǒng)宕機一小時,麥克森就損失上百萬美元,而在線銷售藥品的部分,頁面反饋時間超過8秒,消費者就會離它而去。
麥克森現(xiàn)在采用了一套IT基礎設施監(jiān)控軟件,但是系統(tǒng)沒有集成,應用組件、存儲、網(wǎng)絡和監(jiān)控軟件之間完全孤立,流程全是通過手工來做,大量的事件無法處理。于是麥克森開始系統(tǒng)改造,業(yè)務部門和IT部門共同提出了項目需求:提升服務管理水平,縮短平均修復時間(MTTR),降低成本并提升流程一致性,提升業(yè)務服務可視性,集成監(jiān)控并實現(xiàn)自動化。
經(jīng)過比對篩選,麥克森最終選擇了惠普。項目目標就是要實現(xiàn)所有基礎設施監(jiān)控與事件關聯(lián),實現(xiàn)事件的處理和故障恢復的自動化。項目分為兩期:第一期是采用惠普的一些監(jiān)控工具和自動化的工具實行監(jiān)控的自動化和故障采集的自動化;第二期是實現(xiàn)故障解決的自動化。
項目共需要管理麥克森的3000臺服務器。第一期項目中,他們著重對事件進行關注,用自動化的方式定位事件的根源;然后注意在流程處理過程中保持測試的準確性,保持處理策略的一致性,用很多即插即用的插件實現(xiàn)監(jiān)控的標準化管理。
項目一期實現(xiàn)了自動化的從事件發(fā)生到處理到結(jié)束的閉環(huán)事件處理流程。項目4億美元的投入不到半年就收回成本了。通過自動化,麥克森節(jié)省了大量的工作時間,SLA水平也得到了顯著提升。
而麥克森自動化的經(jīng)驗就是先把自動化門戶建起來,用一些自動化工具去解決流程,但是這并不意味著直接用自動化,而是先手工運行一段時間,流程穩(wěn)定的時候再讓它自動去實現(xiàn)。如此下來,所有事件都能很好地解決。接下來麥克森還會利用惠普的新平臺做業(yè)務與基礎設施關聯(lián)的實時互動模型等。
(責任編輯:王少青)