摘 要: 分析了虛擬化技術為企業IT管理帶來的影響和企業IT虛擬化過程中面臨的主要風險。將PDCA的方法運用于IT資源的虛擬化過程,提出了實施IT虛擬化過程的5個步驟,以降低執行風險。
關鍵詞: 虛擬化;資源池;風險;IT管理
從VLAN開始,越來越多的虛擬化技術逐漸被各種規模的數據中心的管理者所接受。虛擬化專網、存儲虛擬化、服務器分區、服務器虛擬化等虛擬化技術在數據中心中獲得廣泛使用,在為管理者和使用者帶來資源利用率提升、交付時間減少、系統可用性提高等收益之外,也由于管理層次和被管理對象的增加,帶來了其他方面的影響,這些影響很可能會轉變為威脅IT系統穩定運行的風險[1]。IT系統的管理者應采取相應的措施,使這種風險始終處于可以接受的范圍內。
1 虛擬化技術為IT管理帶來的影響
單一虛擬化技術的使用對IT管理的影響有限,通常可以通過手工管理的方式處理,如很多機構的網絡VLAN管理是通過維護一張VLAN分配表進行的。而現今,各種虛擬化技術已經覆蓋了IT環境中從網絡、計算、存儲到桌面以至應用等多個層面,不論在應用的部署方式還是在IT運維管理體制上,都對IT系統的管理帶來了相當的影響。這些影響主要體現在以下幾個方面。
(1)更多類型的資源池
網絡交換機提供了數據通信能力,服務器提供了數據處理能力,磁盤陣列提供數據存儲能力。隨著單臺設備處理能力的提高和虛擬化技術的使用,能力的使用者與提供能力的設備之間已經不存在一一對應的關系,VLAN可以貫穿多個交換機,一臺物理服務器可以支撐多個虛擬服務器的運行,一臺磁盤陣列可以分配給多個應用系統使用。因此,為降低系統變更時的風險,需要維持IT能力使用者與IT設備之間映射關系的準確記錄,并根據這一記錄管理已使用和尚未使用的IT能力。通常,提供相似能力的設備被聚合在一起,構成某種類型的資源池,而不同種類的能力被構建為不同類型的資源池,在需要某種能力時才進行能力即資源的分配。在廣泛使用虛擬化技術的數據中心中,資源池的類型可能很多,如IP地址資源池、VLAN資源池、采用VMware、KVM、Xen或PowerVM虛擬化技術構建的計算資源池、共享文件系統存儲資源池、裸存儲設備資源池等。
(2)對IT設備的處理能力要求提高
資源池的資源總量一定時,通常希望構造資源池使用的設備數量越少越好,以減少管理上的負擔,因此會盡量采用處理能力較高的設備。在選購設備時通常采用“處理能力/占用空間”或“處理能力/設備功耗”等評估參數,以便在相同的功耗或空間占用條件下獲取更多的可調度資源。
(3)設備故障對系統可用性的影響面加大
在資源池中,單獨的資源提供者提供的資源可能被多個資源使用者所使用,當資源的提供者個體發生故障時,多個資源使用者都會受到影響。但是,由于可以隨時從資源池分配所需的資源,資源使用者受到的影響將是暫時的,不必等到故障設備修復。與一對一的資源提供與資源使用方式相比較,資源池中冗余的能力可以為更多的資源使用者提供保護,從而降低了資源提供者個體發生故障時的影響程度。因此,在規劃資源池容量時應考慮必要的冗余性和隨時分配資源的能力。
(4)資源池建設從規劃出發,資源分配對應應用需求
通常,資源池的容量與增長規劃是根據現有業務總量對資源的使用情況以及未來對資源使用需求的預測做出的,并保留有一定余量。因此,在工程建設管理上,應用系統的建設項目往往會優先考慮使用資源池提供的能力,從而獲得更短的交付時間,而不是采購新的能力。因此,資源池建設項目可能無法與應用系統的建設項目一一對應。
(5)管理工具缺失與操作成熟度不足
雖然虛擬化技術在IT環境中已經使用了很長時間了,但仍然缺少能夠對各種虛擬化的映射關系進行統一和集中管理的有效手段和工具,只能使用專用的管理工具進行專項管理,每增加一個虛擬化產品,都會增加對應的管理工具。另一方面,為了保證資源的有效使用,還需要在資源池和構成資源池的設備的整個生命周期中,隨時進行資源的分配與回收,并對資源池的組成、資源池總容量、資源的利用率等指標進行監控,這些都是對運維管理人員的操作熟練程度的考驗。
除上述幾點之外,虛擬化技術為IT管理帶來的影響還包括對不能進行虛擬化的設備造成的影響、對數據訪問和備份體制的影響、對安全管控體系的影響、對運維管理人員的崗位和職責的影響等,這些影響貫穿了虛擬化技術使用過程的規劃設計、工程實施和系統運維等多個階段,并且有可能透過IT運維管理中的薄弱環節成為影響系統正常運行的風險。
2 IT虛擬化過程面臨的主要風險
當前,很多機構希望在IT系統中使用更多更先進的虛擬化技術,以獲得虛擬化技術所帶來的資源利用率提升、交付時間減少、系統可用性提高、總體擁有成本降低等收益[2]。但在IT系統向大規模使用虛擬化技術演進的過程中,虛擬化技術為IT管理帶來的影響很可能會轉變為威脅IT系統正常運行的風險。
首先,在虛擬化系統規劃設計過程中,缺少對整體IT系統虛擬化潛力的評估[3],或者對虛擬化技術的局限性認識不足,都可能導致設定了過高的虛擬化目標,最終導致虛擬化項目的失敗。
其次,在應用系統由物理環境向虛擬化環境遷移的過程中,可能因為缺少對遷移過程中風險的識別與控制,或者沒有正確對待重要性等級不同的應用系統,可能導致遷移過程所做準備不足、遷移過程持續時間過長或遷移失敗,因應用中斷帶來的損失也可能超出預期。
再有,運維人員缺少虛擬化系統的運行管理經驗和有效的管理工具,可能會導致資源分配與調度出現失誤、資源無法順利回收、對資源使用的預測失準等人為故障。更為嚴重的是,由于虛擬化設備的生成非常簡單而且快速,在缺少有效的管控措施的情況下,虛擬化設備的數量可能失控,大量的虛擬化設備導致管理負擔的急劇加重,運維管理質量迅速下降。一種常見的現象是在一個服務器虛擬化環境中存在很多好像無人管理和使用的虛擬機,系統管理員也不敢輕易刪除它們以釋放被占用的資源,只能放任其存在,這種現象被稱作“虛機蔓延”。
3 IT虛擬化風險的應對策略
為了降低IT系統在虛擬化過程中所面臨的風險的影響,一種有效的方法是采用PDCA法對引入虛擬化技術的整個過程進行控制,這個過程可分為5個主要的步驟。
(1)虛擬化需求分析
虛擬化需求分析的主要任務是獲取并明確IT虛擬化建設的需求和目標,為其后的設計和實施工作收集必要的信息。主要的分析工作包括:
①進行當前應用系統運行環境分析,用以確定需要建設的資源池的種類與功能;
②進行IT發展規劃分析,用以確定資源池的容量和擴展能力的需求;
③進行IT安全策略與需求分析,用以確定資源池的安全屬性;
④進行虛擬化產品和技術分析,用以幫助選擇適合的虛擬化技術,確定資源池的可靠性、可用性、擴展性和可管理性;
⑤進行應用連續性需求分析,用以選擇適合的虛擬化遷移方法,并幫助制定適合的虛擬化演進路徑;
⑥進行現有管理體制分析,用以確定資源管理體制建設的起點。
(2)資源池規劃與設計
資源池規劃設計[4]的主要任務是依照需求分析階段提出的對資源池的功能、容量、可靠性、可用性、擴展性、安全性與可管理性的需求,選擇適合的虛擬化技術,設計虛擬化體系的總體結構和各資源池的構建與部署方式,以為當前和未來的應用系統提供滿足其運行要求的虛擬化運行環境,同時確定與虛擬化系統相關的系統(如數據備份系統、應用負載均衡系統等)的調整方案。
(3)向虛擬化環境演進
在完成資源池規劃設計后,可以著手進行虛擬化改造的概念驗證(POC)測試,以確定待遷移的應用系統能夠在虛擬化環境中正常運行。進一步地,建立種子資源池,并選擇適當的方法和時機將部分應用系統由當前的物理運行環境遷移到虛擬化的運行環境中。演進過程的設計和實施可借鑒業務連續性管理(BCM)的方法,對遷移過程中可能遇到的風險和應用中斷造成的損失進行分析,制定遷移過程的詳細方案和實施操作細則,為遷移無法按計劃完成做相應準備,力求將風險、必然發生的損失和可能發生的損失控制在可接受的范圍內。
(4)建立資源管理體制
在部署和使用IT虛擬化技術后,IT系統的運維管理體制應能夠對資源進行管理,包括資源的申請、分配、監測、評價、調度、回收等。可對現有的IT服務管理(ITSM)流程進行優化以適應資源池管理的需要,如增加資源管理崗位、修改配置管理和變更管理流程等,也可以參考ITIL建立新的IT資源管理體制。
(5)虛擬化效果評估
IT虛擬化建設的過程是一個持續改進的過程,在建立了IT資源管理體制后,就可以利用資源管理體制提供的管理能力檢查和評價IT虛擬化實施的結果,分析IT系統仍然存在的虛擬化潛力,尋找資源管理體制的缺陷,提出進一步改進的需求與建議。
通過上述五個步驟,在引入虛擬化技術時,IT管理所面臨的主要風險都會得到有效控制,虛擬化項目的成功率和收益都將得到保證。
虛擬化技術的廣泛使用在帶來收益的同時,也對數據中心的運作和管理方式產生了重大影響,帶來了新的風險。但是,通過對風險進行識別以及源自PDCA法的五個工作步驟,可以將風險控制在可接受的范圍內。
參考文獻
[1] 左天祖,劉偉.中國IT服務管理指南[M].北京:北京大學出版社,2004.
[2] 藺雷,吳貴生.服務創新[M].北京:清華大學出版社,2003.
[3] CHORAFAS D N.Cloud Computing strategies[M].Boca Raton:CRC Press,2010.
[4] MARKS E A,LOZANO B.Executive′s guide to Cloud Computing[M].Hoboken:John Wiley & Sons,Inc.,2010.