1 引言
從美國(guó)9.11世貿(mào)大樓的恐怖襲擊,到我國(guó)的5.12汶川特大地震,“災(zāi)難”這個(gè)詞對(duì)我們來說已并不陌生。前一段時(shí)間的日本島9.0級(jí)巨大地震,更是令人感到無比的震撼。隨著企業(yè)信息化建設(shè)的迅猛發(fā)展,企業(yè)信息系統(tǒng)已成為現(xiàn)代企業(yè)運(yùn)營(yíng)的基礎(chǔ)平臺(tái),企業(yè)數(shù)據(jù)更是關(guān)系到企業(yè)自身利益的核心資源。具Gartner Group統(tǒng)計(jì):在經(jīng)歷大型災(zāi)難而導(dǎo)致系統(tǒng)停運(yùn)的公司中有2/5再也沒有恢復(fù)運(yùn)營(yíng),剩下的公司中也有1/3在兩年內(nèi)破產(chǎn)。美國(guó)明尼蘇達(dá)大學(xué)的研究表明:在遭遇災(zāi)難的同時(shí)又沒有災(zāi)難恢復(fù)計(jì)劃的企業(yè)中,將有超過60%在兩到三年后退出市場(chǎng)。未雨綢繆,如何應(yīng)對(duì)災(zāi)難性事件的發(fā)生,保障企業(yè)數(shù)據(jù)的安全性和信息系統(tǒng)的業(yè)務(wù)連續(xù)性,已成為企業(yè)信息化建設(shè)中需要重點(diǎn)思考的課題。本文將對(duì)企業(yè)容災(zāi)系統(tǒng)建設(shè)的基本概念、建設(shè)等級(jí)、建設(shè)方案及恢復(fù)演練等方面的內(nèi)容進(jìn)行探討,旨在幫助企業(yè)加快容災(zāi)系統(tǒng)的建設(shè)步伐,有的放矢,合理構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港。
2 認(rèn)識(shí)容災(zāi)技術(shù)
災(zāi)難恢復(fù)防范的災(zāi)難包括地震、水災(zāi)等自然災(zāi)害以及火災(zāi)、戰(zhàn)爭(zhēng)、恐怖襲擊、網(wǎng)絡(luò)攻擊、設(shè)備系統(tǒng)故障、人為破壞等無法預(yù)料的突發(fā)事件。容災(zāi)的主要目標(biāo)是提高抵御災(zāi)難和重大事故的能力、減少災(zāi)難打擊和重大事故造成的損失、確保重要信息系統(tǒng)的數(shù)據(jù)安全和作業(yè)持續(xù)性。在容災(zāi)領(lǐng)域有一些關(guān)鍵的術(shù)語,了解和掌握這些概念將有助于容災(zāi)系統(tǒng)建設(shè)的方案設(shè)計(jì)和實(shí)施,分別介紹如下:
(1)災(zāi)難恢復(fù)(或稱容災(zāi)備份)(disaster recovery,DR):是指利用技術(shù)、管理手段以及相關(guān)資源,將信息系統(tǒng)從災(zāi)難造成的故障或癱瘓狀態(tài)恢復(fù)到可正常運(yùn)行狀態(tài),并將其支持的業(yè)務(wù)功能從災(zāi)難造成的不正常狀態(tài)恢復(fù)到可接受狀態(tài)的活動(dòng)和流程。(《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》)。
(2)恢復(fù)時(shí)間目標(biāo)(Recovery Time Objective,以下簡(jiǎn)稱RTO):RTO表示了從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行(即被恢復(fù))的時(shí)間。RTO有兩個(gè)組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開始的決策時(shí)間(Decision Time)和進(jìn)行災(zāi)難恢復(fù)流程的實(shí)施時(shí)間(Deployment Time)。一般來說,恢復(fù)時(shí)間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越小;反之,恢復(fù)時(shí)間(RTO)越長(zhǎng),災(zāi)難恢復(fù)方案的成本較低,但是由于災(zāi)難造成的業(yè)務(wù)損失就較大。
(3)恢復(fù)點(diǎn)目標(biāo)(Recovery Point Objective,以下簡(jiǎn)稱RPO): RPO是災(zāi)難發(fā)生后業(yè)務(wù)能夠容忍的數(shù)據(jù)丟失量,或者說災(zāi)難發(fā)生造成的數(shù)據(jù)丟失量。一般來說, RPO越高(即,丟失的數(shù)據(jù)越少),容災(zāi)的成本越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越小;反之,RPO越低(即,丟失的數(shù)據(jù)較多),容災(zāi)的成本越低,但災(zāi)難造成的業(yè)務(wù)損失也越大。
3 容災(zāi)系統(tǒng)的建設(shè)等級(jí)
建設(shè)容災(zāi)系統(tǒng)前企業(yè)必須對(duì)自身IT現(xiàn)狀做詳細(xì)調(diào)研分析,圍繞RTO、RPO兩個(gè)主要業(yè)務(wù)指標(biāo),參照國(guó)家標(biāo)準(zhǔn)《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》,通過科學(xué)的手段分析并制定建設(shè)等級(jí)、建設(shè)目標(biāo)。國(guó)標(biāo)中包含七個(gè)關(guān)鍵要素:數(shù)據(jù)備份系統(tǒng)、備用基礎(chǔ)設(shè)施、備用數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡(luò)系統(tǒng)、技術(shù)支持能力、運(yùn)行維護(hù)管理能力、災(zāi)難恢復(fù)預(yù)案,按照這七個(gè)要素將災(zāi)難恢復(fù)劃分為六個(gè)等級(jí),等級(jí)越高,容災(zāi)系統(tǒng)越完善、企業(yè)受到的經(jīng)濟(jì)損失就越小,但同時(shí)企業(yè)投入的人力、物力、財(cái)力就越高。一般企業(yè)根據(jù)業(yè)務(wù)系統(tǒng)重要程度的不同,經(jīng)常采用等級(jí)為第2級(jí)、第3級(jí)和第5級(jí)的容災(zāi)策略。
第6級(jí)為最高等級(jí),相對(duì)于第5級(jí)的實(shí)時(shí)數(shù)據(jù)復(fù)制而言,要求實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)實(shí)時(shí)備份,實(shí)現(xiàn)零丟失;備用數(shù)據(jù)處理系統(tǒng)具備與生產(chǎn)數(shù)據(jù)處理系統(tǒng)一直的處理能力并完全兼容,應(yīng)用軟件是集群的,可以實(shí)現(xiàn)實(shí)時(shí)無縫切換,并具備遠(yuǎn)程集群系統(tǒng)的實(shí)時(shí)監(jiān)控和自動(dòng)切換能力;對(duì)于備用網(wǎng)絡(luò)系統(tǒng)的要求也加強(qiáng),要求最終企業(yè)可通過網(wǎng)絡(luò)同時(shí)接入主、備中心;備用場(chǎng)地還要7×24專職操作系統(tǒng)、數(shù)據(jù)庫(kù)和應(yīng)用軟件的技術(shù)支持人員,具備完善、嚴(yán)格的運(yùn)行管理制度。
4 容災(zāi)系統(tǒng)的建設(shè)步驟
企業(yè)容災(zāi)系統(tǒng)的建設(shè)需要遵循國(guó)家、行業(yè)的相關(guān)文件規(guī)定,依據(jù)科學(xué)的步驟來逐步執(zhí)行。典型的容災(zāi)系統(tǒng)建設(shè)步驟大致如下:
4.1業(yè)務(wù)分析
這是容災(zāi)系統(tǒng)建設(shè)方法論的第一步,企業(yè)需要根據(jù)自身現(xiàn)狀收集業(yè)務(wù)需求、災(zāi)難類型、技術(shù)基礎(chǔ)架構(gòu)(如企業(yè)內(nèi)部IT架構(gòu)、IT部門組織、使用技術(shù)、軟硬件、網(wǎng)絡(luò)架構(gòu)等),確定需要防范的風(fēng)險(xiǎn),在風(fēng)險(xiǎn)分析中確定不同的業(yè)務(wù)級(jí)別的業(yè)務(wù)恢復(fù)時(shí)間RTO和可承受的數(shù)據(jù)損失程度RPO。
4.2策略制定
根據(jù)第一個(gè)階段得出的結(jié)果,確定容災(zāi)系統(tǒng)的投入預(yù)算,選擇切合實(shí)際、投資合理、可靠的容災(zāi)方案。這個(gè)階段需要著重考慮容災(zāi)中心的選址、兩地間的距離、運(yùn)營(yíng)方式、容災(zāi)中心的規(guī)模、合適的技術(shù)、合適的產(chǎn)品。
4.3方案實(shí)施
根據(jù)制定的容災(zāi)方案,制定詳細(xì)的方案和項(xiàng)目計(jì)劃,分階段進(jìn)行實(shí)施。實(shí)施內(nèi)容包括技術(shù)實(shí)施、場(chǎng)地實(shí)施、、初步的DRP(容災(zāi)恢復(fù)計(jì)劃)開發(fā)、首次演練、文檔及培訓(xùn)等。
4.4測(cè)試演習(xí)維護(hù)
此階段主要是測(cè)試和驗(yàn)證容災(zāi)系統(tǒng)、維護(hù)容災(zāi)系統(tǒng)的正常運(yùn)行、制定容災(zāi)管理制度和流程、人員&技術(shù)培訓(xùn)、演習(xí)。
5 典型容災(zāi)方案的對(duì)比分析
IT系統(tǒng)構(gòu)成的不同使容災(zāi)技術(shù)類型也有很大的差異,各類技術(shù)與現(xiàn)有IT系統(tǒng)的吻合程度主要取決于系統(tǒng)本身的組成和建設(shè)要求。比如,IT系統(tǒng)由多操作系統(tǒng)組成,并且容災(zāi)系統(tǒng)不能更改生產(chǎn)系統(tǒng)原有的格局,則可行的技術(shù)手段就極為嚴(yán)格,需要相當(dāng)慎重的選擇。以往,由于容災(zāi)技術(shù)實(shí)現(xiàn)手段有限,主要有主機(jī)型和存儲(chǔ)型兩大類容災(zāi)方式,而今天,出現(xiàn)了具有更強(qiáng)能力的存儲(chǔ)網(wǎng)絡(luò)型的虛擬化容災(zāi)方式,使得容災(zāi)的技術(shù)手段開始豐富起來。
5.1主機(jī)型遠(yuǎn)程容災(zāi)
基于主機(jī)的容災(zāi)技術(shù),簡(jiǎn)單地說,就是通過安裝在服務(wù)器的數(shù)據(jù)復(fù)制軟件,或是應(yīng)用程序提供的數(shù)據(jù)復(fù)制、災(zāi)難恢復(fù)工具(如數(shù)據(jù)庫(kù)的相關(guān)工具),利用TCP/IP網(wǎng)絡(luò)連接遠(yuǎn)端的容災(zāi)站點(diǎn)的服務(wù)器,實(shí)現(xiàn)異地?cái)?shù)據(jù)復(fù)制。其中最為成熟的和應(yīng)用最廣泛的就是Veritas Volume Replicator(VVR)軟件。
5.2存儲(chǔ)系統(tǒng)型異地容災(zāi)
顧名思義是基于存儲(chǔ)系統(tǒng)(光纖磁盤陣列、NAS)的模式。通過存儲(chǔ)系統(tǒng)內(nèi)建的固件(firmware)或操作系統(tǒng),通過IP網(wǎng)絡(luò)或DWDM、光纖通道等傳輸界面連結(jié),將數(shù)據(jù)以同步或異步的方式復(fù)制到遠(yuǎn)端。知名的存儲(chǔ)系統(tǒng)型遠(yuǎn)程容災(zāi)方案有SRDF、TrueCopy、PPRC等。
5.3虛擬化容災(zāi)
一種網(wǎng)絡(luò)存儲(chǔ)型遠(yuǎn)程容災(zāi)架構(gòu),是在前端應(yīng)用服務(wù)器與后端存儲(chǔ)系統(tǒng)之間的存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN),加入一層存儲(chǔ)網(wǎng)關(guān),這個(gè)網(wǎng)關(guān)和我們所了解的網(wǎng)絡(luò)網(wǎng)關(guān)不同,它結(jié)合了網(wǎng)絡(luò)存儲(chǔ)專用管理器,前端連接服務(wù)器主機(jī),后端連接存儲(chǔ)設(shè)備。它的角色就好像是存儲(chǔ)網(wǎng)絡(luò)中的交通警察,所有的I/O都交由它來控制管理。當(dāng)然,現(xiàn)在也出現(xiàn)了旁路(side-band)的控制方式,對(duì)于I/O流量進(jìn)行旁路監(jiān)控和分流,實(shí)現(xiàn)異地?cái)?shù)據(jù)復(fù)制。
由于數(shù)據(jù)復(fù)制是通過存儲(chǔ)網(wǎng)關(guān)來執(zhí)行,應(yīng)用服務(wù)器只需數(shù)據(jù)庫(kù)執(zhí)行代理程序,相對(duì)于主機(jī)型遠(yuǎn)程容災(zāi)來說,它的性能影響十分低。另外,通過存儲(chǔ)網(wǎng)關(guān)的虛擬化技術(shù),可以整合前端異構(gòu)平臺(tái)的服務(wù)器和后端不同品牌的存儲(chǔ)設(shè)備,本地端和災(zāi)備端的設(shè)備無需成對(duì)配置,企業(yè)可以根據(jù)RTO和RPO,在遠(yuǎn)端建立完整的熱備份中心。當(dāng)本地端發(fā)生災(zāi)難時(shí)立即接管業(yè)務(wù)運(yùn)行,或是采取僅在災(zāi)備端安裝存儲(chǔ)設(shè)備的溫站配置,先保護(hù)數(shù)據(jù)的完整性和安全性,在本地端修復(fù)完成后再進(jìn)行恢復(fù)。
除此之外,虛擬化容災(zāi)技術(shù)還具有以下優(yōu)勢(shì):
(1)構(gòu)造時(shí)不需更換原有的IT基礎(chǔ)架構(gòu),只需在原本的存儲(chǔ)區(qū)域網(wǎng)絡(luò)中加入存儲(chǔ)網(wǎng)關(guān),本地端的主機(jī)和存儲(chǔ)設(shè)備可以是任何品牌,災(zāi)備端的主機(jī)和存儲(chǔ)設(shè)備也不需和本地端相同,企業(yè)甚至可以在災(zāi)備端采用等級(jí)較低的存儲(chǔ)系統(tǒng)(如SATA磁盤陣列),根據(jù)統(tǒng)計(jì),投資成本可節(jié)省多達(dá)30%左右,對(duì)于那些有構(gòu)造遠(yuǎn)程容災(zāi)的熱切需要而IT預(yù)算又十分有限的企業(yè)來說,虛擬化遠(yuǎn)程容災(zāi)無疑是最佳的選擇。
(2)針對(duì)數(shù)據(jù)庫(kù)專用代理確保數(shù)據(jù)庫(kù)具有完整的容災(zāi)和啟動(dòng)能力,無需擔(dān)憂無法啟動(dòng)的現(xiàn)象發(fā)生。更為重要的是,在存儲(chǔ)數(shù)據(jù)上進(jìn)行的多點(diǎn)快照等增值功能,能使得各種數(shù)據(jù)的人為破壞得到瞬間恢復(fù)的能力(也就是歷史數(shù)據(jù)的恢復(fù)能力,這在前兩種容災(zāi)方式中是一種恢復(fù)的盲點(diǎn))。
(3)對(duì)于異地傳輸?shù)膸捳加茫摂M化容災(zāi)方式具有各類調(diào)優(yōu)方式,使得這種方式能夠最大限度適應(yīng)企業(yè)現(xiàn)有的網(wǎng)絡(luò)環(huán)境。
6 容災(zāi)系統(tǒng)的恢復(fù)演練
建設(shè)容災(zāi)系統(tǒng)的目的就是在災(zāi)難發(fā)生后能夠盡快恢復(fù)業(yè)務(wù)系統(tǒng),減少IT系統(tǒng)故障給企業(yè)帶來的經(jīng)濟(jì)損失。因此,完成系統(tǒng)建設(shè)后,還必須定期組織嚴(yán)格規(guī)范的災(zāi)備演練、測(cè)試活動(dòng),規(guī)范和完善企業(yè)IT系統(tǒng)的應(yīng)急體制,加強(qiáng)應(yīng)急團(tuán)隊(duì)建設(shè),提高維護(hù)人員的業(yè)務(wù)水平,從而在災(zāi)難發(fā)生后能夠快速、高效的完成業(yè)務(wù)恢復(fù)。
容災(zāi)的演練計(jì)劃有以下幾種方式:
6.1計(jì)劃性測(cè)試/演練
災(zāi)難恢復(fù)計(jì)劃要求建立業(yè)務(wù)連續(xù)性管理團(tuán)隊(duì),不僅涉及IT部門,而且關(guān)聯(lián)眾多業(yè)務(wù)部門,為減少演練對(duì)于生產(chǎn)的影響,可以將恢復(fù)計(jì)劃細(xì)化到很小的單位或者模塊,逐個(gè)應(yīng)用進(jìn)行接管驗(yàn)證。當(dāng)模塊都成功通過測(cè)試后,測(cè)試的范圍可以擴(kuò)充到更多的模塊。
6.2突發(fā)演練
在容災(zāi)系統(tǒng)全面完成并且制定了全面的恢復(fù)計(jì)劃后,可以在進(jìn)行了一定備份的情況下安排突發(fā)性的測(cè)試。當(dāng)然,業(yè)務(wù)連續(xù)性管理小組需要確保業(yè)務(wù)不會(huì)因?yàn)橥话l(fā)性測(cè)試造成不可接受的損失和業(yè)務(wù)中斷。
演練對(duì)于提高團(tuán)隊(duì)的恢復(fù)經(jīng)驗(yàn)和協(xié)作能力以及確保災(zāi)難恢復(fù)計(jì)劃的可行性是至關(guān)重要的。所有的演練結(jié)果都要進(jìn)行評(píng)估、記錄,并且生成到容災(zāi)流程里。
7 總結(jié)
災(zāi)難的發(fā)生是“小概率、高風(fēng)險(xiǎn)”事件,隨著企業(yè)信息化水平的不斷提高,為規(guī)避風(fēng)險(xiǎn),容災(zāi)系統(tǒng)對(duì)于企業(yè)重要信息系統(tǒng)已成為必不可少的信息安全基礎(chǔ)設(shè)施。容災(zāi)系統(tǒng)的建設(shè)是一個(gè)系統(tǒng)工程,只有科學(xué)合理地進(jìn)行容災(zāi)系統(tǒng)的設(shè)計(jì)與部署,才能對(duì)企業(yè)信息系統(tǒng)的安全運(yùn)行起到根本的保障作用。因此,企業(yè)在容災(zāi)系統(tǒng)的建設(shè)過程中,必須充分考慮重要信息系統(tǒng)的抗毀性與災(zāi)難恢復(fù),合理選擇容災(zāi)技術(shù),制定和不斷完善信息安全應(yīng)急處置預(yù)案,提高應(yīng)急處置和災(zāi)難恢復(fù)能力,才能保證在遭遇重大災(zāi)難和重大事故時(shí)發(fā)揮有效的容災(zāi)功能,真正構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:構(gòu)建企業(yè)信息系統(tǒng)的避風(fēng)港
本文網(wǎng)址:http://m.hanmeixuan.com/html/consultation/1083953295.html