如今,信息已成為企業(yè)生存發(fā)展的必不可少的元素。隨著越來越多的企業(yè)認識到TT系統(tǒng)在信息處理過程中的迅捷和高效,ERP(企業(yè)資源計劃)、PLM(產品生命周期管理)等各種類型的rT系統(tǒng)相繼在多個企業(yè)中得到運用。IT系統(tǒng)在加速企業(yè)信息處理流程的同時,也產生了更多的數(shù)據(jù)。各類主數(shù)據(jù)、交易數(shù)據(jù)、電子文檔、報表是TI'系統(tǒng)最重要的數(shù)據(jù),這些數(shù)據(jù)對絕大部分規(guī)模以上企業(yè)來說,是支撐企業(yè)存在和發(fā)展的信息化基石。對這些數(shù)據(jù)的保護重要性不言而喻。信息技術的應用程度越高,數(shù)據(jù)的備份就越顯得重要。在很多關鍵業(yè)務系統(tǒng)中,存放在機器上的數(shù)據(jù)往往比機器本身還要昂貴,因此對系統(tǒng)和業(yè)務數(shù)據(jù)的備份就成為非常重要的工作。備份的目的是在系統(tǒng)出現(xiàn)故障或災難時能夠快速地恢復系統(tǒng)或數(shù)據(jù)。要能夠做到快速災難恢復,就必須設計好災難恢復方案,選擇一個可行的備份策略。
順應數(shù)據(jù)大集中的趨勢,很多企業(yè)均已建設或在建設自己的數(shù)據(jù)中心。企業(yè)絕大部分信息系統(tǒng)都在數(shù)據(jù)中心內運行,IT系統(tǒng)承載著公司的各項業(yè)務,進一步促進信息系統(tǒng)的集成和整合。將分散的數(shù)據(jù)集中到了一起,零星數(shù)據(jù)變成了海量數(shù)據(jù),數(shù)據(jù)量從原來的幾GB到幾十GB,變?yōu)榱藥装貵B到幾TB,甚至幾十TB,大數(shù)據(jù)的概念也由此而來。數(shù)據(jù)量的劇增也給備份和管理帶來了機遇和挑戰(zhàn)。首先數(shù)據(jù)的集中存放,使集中備份成為可能。然而,要實現(xiàn)對海量數(shù)據(jù)的集中存儲備份和統(tǒng)一管理,采用原有的傳統(tǒng)磁帶機、磁帶庫等備份設備的備份方案很難達到備份目標。磁帶或CD備份是一種最便宜的方法,也是較為有效的方法,但是它的恢復卻是最慢的。而磁盤熱備份與全系統(tǒng)熱備份的成本就比較高,但它的恢復速度是非常快的。因此,連續(xù)數(shù)據(jù)保護、虛擬帶庫、重復數(shù)據(jù)刪除等先進備份技術應運而生,這些技術的出現(xiàn),對于構建新型高效的災備方案,保證業(yè)務數(shù)據(jù)的高效及安全,提供了強有力的技術支持。
1.現(xiàn)行國內工程機械行業(yè)IT災備模式分析
對國內一些主要工程機械企業(yè)的研究表明,這些企業(yè)在IT系統(tǒng)建設上都有很多共性:(I)用于業(yè)務支持的1T系統(tǒng)很多,核心的ERP系統(tǒng)采用國際上較為完善和通行的大型應用軟件,如SAP或ORACLE系統(tǒng),對IT系統(tǒng)的支持和保障要求很高。(2)園區(qū)內都有兩個或兩個以上的機房或數(shù)據(jù)中心。(3)核心IT系統(tǒng)都采用高端存儲設備,使用光纖SAN鏈路,有一定的數(shù)據(jù)容災能力,但是沒有完整的應用容災系統(tǒng)。(4)大型IT項目建設的時間跨度很大,在IT建設的各個階段逐步引人多種技術方案,各個方案的建設需要保持平緩過渡,有利舊要求,以實現(xiàn)對原有投資的保護,降低IT的建設成本。
工程機械企業(yè)園區(qū)占地面積較大,有條件在幾百米甚至上千米外的同一園區(qū)內建設自己的另一數(shù)據(jù)機房,如另一棟樓、另一片廠區(qū)等,使得本地災備系統(tǒng)可以建立在本園區(qū)內的另一機房。雖然不能避免地震、洪水等自然災害,但是通過合理地設計和配置,已經可以在很大程度上避免火災和停電等外部因素的影響。通過在園區(qū)機房間內建立FCSAN網絡,使得備份可以得到較高的效率和較好的成本控制,免去了租用高成本的光纖鏈路與額外的人力資源管理成本。
對于核心應用系統(tǒng)的保護,最基本的是要避免系統(tǒng)的單點故障。主機端使用雙機熱備技術,網絡端使用雙核心的架構,存儲端使用鏡像或連續(xù)數(shù)據(jù)保護系統(tǒng),通過以上對應用系統(tǒng)的規(guī)劃設計,基本上可以避免主機、網絡、存儲端的單點故障。通過連續(xù)數(shù)據(jù)保護系統(tǒng)還可以降低邏輯錯誤、誤操作等風險。
制造業(yè)對IT投人的成本較為敏感,在滿足企業(yè)對IT系統(tǒng)數(shù)據(jù)備份要求的同時,希望降低TT總體擁有成本(TCO)。通常情況下,由于SAP, ORA-CLE等大型ERP系統(tǒng)使用高端的小型機服務器,出于成本方面的考慮,園區(qū)內的主機房通常用于存放一套核心和主要業(yè)務系統(tǒng),并對核心數(shù)據(jù)進行保護。園區(qū)內的備份機房主要用于存放備份設備及部分其他應用。而工程機械行業(yè)的離散制造的特征,決定了企業(yè)對IT的投人需要按實際情況分階段進行投人,并且各階段的TT建設需要保持連續(xù)性,以保護原有投資,避免重復投資和浪費。企業(yè)的災備系統(tǒng)建設只有適應該特征,才能在滿足需求的基礎上制定出性價比最優(yōu)的方案。
數(shù)據(jù)備份系統(tǒng)通常會通過兩個最重要的指標來進行評估:RPO和RTO。RPO(Recovery Point Objective),即數(shù)據(jù)恢復點目標。主要用于評估業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量,在同步數(shù)據(jù)復制方式下,RPO等于數(shù)據(jù)傳輸時延的時間;在異步數(shù)據(jù)復制方式下,RPO為異步傳輸數(shù)據(jù)排隊的時間,對于時間間隔較大的數(shù)據(jù)備份而言,RPO等于連續(xù)兩次成功備份的時間之差。RTO(Recovery Time Objective),即恢復時間目標。主要用于評估所能容忍的業(yè)務停止服務最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間。RTO描述了應用恢復過程需要花費的時間,即從恢復過程開始到恢復過程成功完成所經歷的時間。fITO值越小,代表災備系統(tǒng)的恢復能力越強。RPO和RTO的關系如圖1所示。
圖1 RTO和RPO示意圖
RPO針對的是數(shù)據(jù)丟失量,而RTO針對的是業(yè)務連續(xù)性中斷時間,二者沒有必然的關聯(lián)性,但都是判斷企業(yè)災備能力的關鍵指標。RTO和RPO的確定不僅僅是IT部門的事情,而是需要在對企業(yè)業(yè)務系統(tǒng)和IT狀況進行風險分析和業(yè)務影響分析后,才能根據(jù)不同的業(yè)務需求確定合適的值。對于不同企業(yè)的同一種業(yè)務,RTO和RPO的需求也會有所不同。通常情況下RPO與RTO越小,系統(tǒng)的可用性就越高,用戶需要的投資也越大。
在工程機械行業(yè)中,核心系統(tǒng)通常為ERP系統(tǒng)和PLM系統(tǒng)。對ERP系統(tǒng)來說,絕大部分數(shù)據(jù)的錄人都需要有原始單據(jù),原始單據(jù)會有相當長的保留期,因此對于發(fā)生短時的系統(tǒng)不可用或數(shù)據(jù)失的情況,可以在后續(xù)進行單據(jù)補錄,RPO和RTO越大,后續(xù)的系統(tǒng)補錄工作就越大,對EPR周邊系統(tǒng)影響越大,同時各系統(tǒng)間的數(shù)據(jù)一致性就越難保證,因此ERP系統(tǒng)對于RPO和RTO的要求較高。而對于PLM系統(tǒng)來說,數(shù)據(jù)都是在系統(tǒng)上進行實時錄人的,數(shù)據(jù)丟失就意味著很多設計圖紙丟失了,對RPO的要求相對ERP就更高。由于現(xiàn)在企業(yè)中的IT系統(tǒng)眾多,從十幾個到幾十個,甚至上百個,相互間通過中間件或接口進行連接,數(shù)據(jù)流非常復雜,保證數(shù)據(jù)一致性也是必須要考慮的重要因素。因此在進行RPO和RTO定義時,IT部門需要與業(yè)務部門進行充分溝通,考慮各系統(tǒng)的特點,規(guī)劃和平衡其影響程度、范圍、成本的關系,才有可能得出相對合適的指標。
工程機械行業(yè)中這些大型企業(yè),均采用了大型的FC一SAN為承載核心業(yè)務數(shù)據(jù)的基礎鏈路。大型FC一SAN被稱為“FC + LAN”雙網結構,這是指該系統(tǒng)由FC光纖通道網絡和LAN以太網絡共同構成,其中以太網絡負責工作站與服務器及工作站之間的元數(shù)據(jù)信息傳輸和交換,F(xiàn)C光纖通道網絡只負責實際數(shù)據(jù)的高帶寬傳輸。這種網絡結構可充分利用兩種網絡的特點,發(fā)揮出這兩個網絡的最大效率。后續(xù)災備方案也將基于這種網絡進行設計。
2.柳工災備系統(tǒng)建設方案介紹
企業(yè)IT災備系統(tǒng)的建設通常從備份開始做起。而離散制造業(yè)IT系統(tǒng)有自身的特點,與金融證券業(yè)以及業(yè)務連續(xù)性要求較高的汽車制造業(yè)相比,其RPO和RTO要求相對較低,因此其對備份的要求也隨之降低。針對柳工的備份需求,根據(jù)業(yè)務的特點和業(yè)務系統(tǒng)的數(shù)據(jù)規(guī)模,柳工數(shù)據(jù)災備項目分為三期進行。
廣西柳工機械股份有限公司(以下簡稱柳工)的災備系統(tǒng)建設目前已進行了三期。
第一期為企業(yè)磁帶庫建設,目的是實現(xiàn)基本保護,項目一期跟隨公司SAP項目同時啟動,企業(yè)的數(shù)據(jù)量備份需求由1006級上升到1OOOG級,通過部署企業(yè)磁帶庫和網絡版?zhèn)浞蒈浖褂肐P架構進行備份,將一些主要的應用系統(tǒng)數(shù)據(jù)和文件備份到企業(yè)磁帶庫。
第二期為連續(xù)數(shù)據(jù)保護系統(tǒng)建設,目的是對核心系統(tǒng)實現(xiàn)重點保護。由于當時企業(yè)核心系統(tǒng)數(shù)據(jù)量已超過STB,系統(tǒng)的備份窗口超過24.h,恢復窗口超過48h,傳統(tǒng)備份已經無法滿足進行快速備份和恢復的要求。同時,由于核心系統(tǒng)業(yè)務的復雜性,產生了對邏輯錯誤進行保護的需求,因此企業(yè)部署了連續(xù)數(shù)據(jù)保護系統(tǒng),使用SAN架構進行數(shù)據(jù)同步,達到基于時間點的數(shù)據(jù)保護,核心應用系統(tǒng)的RPO指標數(shù)量級由一天級提升到分鐘級,RTO指標達到4h以下。通過對日志卷的回滾,具備快速恢復到保護期內多個時間點的能力,當恢復到一個時間點后,發(fā)現(xiàn)不是最佳恢復點還可以選擇恢復到另一時間點,這在實際使用中非常實用,并且能夠實現(xiàn)在不影響生產環(huán)境的前提下,快速搭建與生產環(huán)境一致的測試環(huán)境。連續(xù)數(shù)據(jù)保護系統(tǒng)可以對邏輯錯誤進行防護,因而具有一定的本地容災能力,通過采用HACMP的雙機熱備系統(tǒng)實現(xiàn)對主機端的保護,通過連續(xù)數(shù)據(jù)保護系統(tǒng)實現(xiàn)對存儲端的保護,使得在主存儲系統(tǒng)出現(xiàn)邏輯錯誤時可以進行快速數(shù)據(jù)回滾,而在主存儲出現(xiàn)物理故障時可以快速切換到備份存儲,并且可以選擇時間點恢復數(shù)據(jù),實現(xiàn)分鐘級的RPO。值得強調的是,本方案支持的主備存儲為異構系統(tǒng),即不同品牌、不同型號。這為企業(yè)在技術方案設計和設備選型上提供了很大的靈活性,有利于對企業(yè)原有TI基礎設施進行利舊。將原有中端存儲降級為備存儲,新引人高端存儲作為主存儲,既提高了整體性能和可靠性,也讓原有IT基礎設施得以繼續(xù)沿用,降低了項目成本。
第三期為對大數(shù)據(jù)的全面保護。隨著企業(yè)業(yè)務的發(fā)展,項目開始時TT系統(tǒng)的數(shù)據(jù)總量已經超過20TB,傳統(tǒng)的數(shù)據(jù)備份設備很難達成RTO和RPO備份目標。為此,采用了帶重復數(shù)據(jù)刪除功能的虛擬帶庫備份解決方案。以帶消重功能虛擬帶庫為前端,提高并發(fā)備份作業(yè)數(shù)并縮短備份窗口,以速度相對較慢的物理帶庫為后端,以降低備份成本。在備份鏈路上采用以太網絡和光纖SAN網絡組合的方式進行搭建。對于數(shù)據(jù)量大且重要程度高的業(yè)務系統(tǒng)采用高效的SAN網絡進行備份,對于數(shù)據(jù)量小的業(yè)務系統(tǒng)和海量的文件存儲采用經濟的千兆以太網絡進行備份。最終的拓撲示意圖如圖2所示。
圖2 備份拓撲示意圖
通過三個階段的仃備份系統(tǒng)建設,柳工在復雜環(huán)境下成功部署了整套本方案,連續(xù)數(shù)據(jù)保護與虛擬帶庫、物理磁帶庫結合使用,形成高中低搭配,分層次的備份體系,能夠滿足不同系統(tǒng)和數(shù)據(jù)的備份需求,公司形成了一套較為完備的本地備份容災方案,并且可靈活擴充到同城或異地備份容災,為柳工后續(xù)異地備份容災的規(guī)劃實施做好了準備。
3.結束語
企業(yè)業(yè)務的擴張導致企業(yè)IT系統(tǒng)的擴張,與此對應的是海量的數(shù)據(jù)和對數(shù)據(jù)備份容災的要求越來越高。由于工程機械制造企業(yè)的行業(yè)特點和對成本控制的敏感程度,使得企業(yè)在進行災備系統(tǒng)建設時,需結合企業(yè)自身的特點,依據(jù)從粗到細、由簡人繁的原則,達成從無到有并逐步完善的目標。通過統(tǒng)一規(guī)劃、分步實施,充分利用現(xiàn)有先進的備份技術構建適合本企業(yè)的備份容災方案,才能設計和實施最優(yōu)TCO方案。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/