1.工業(yè)數(shù)據災備
災難性事故所導致的信息系統(tǒng)崩潰的事件時有發(fā)生。在煙草工業(yè),隨著煙草一體化建設的推進,數(shù)據中心的范疇已逐步形成,數(shù)據和系統(tǒng)也逐步集中。結合小型機的雙機容錯技術。數(shù)據中心順利降低了單點故障的風險,為業(yè)務提供持續(xù)和有效的服務能力。然而,隨著系統(tǒng)和數(shù)據的集中,所有數(shù)據存儲在一個機房,如果災難性事故導致機房受到破壞,其內的所有數(shù)據包括備份數(shù)據也會隨之破壞,其帶來的風險和損失是無法估量的。而數(shù)據異地備份能有效解決這個問題。隨之而來的問題是要降低數(shù)據的存儲容量和降低數(shù)據網絡傳輸?shù)拈_銷以及加快備份速度。煙草工業(yè)數(shù)據主要存在以下兩個特點:
1)每天新增數(shù)據量大。比如:僅僅在銷售環(huán)節(jié),全國零售戶有大概500萬家,平均每周進化一次,假設平均每家只銷售15個規(guī)格,那么平均每天產生銷售記錄數(shù)為:500x15+7=1070(萬)。
2)數(shù)據變動大、重復率高。比如,在筆者所參與的綜合營銷平臺中,僅辦公自動化子系統(tǒng),每天文件流轉、版本修訂、郵件附件抄送都非常普遍。有時候一個文件要抄送給多人,有時候同一原始文件會產生多個修訂版本,使得文件系統(tǒng)中保存有大量的重復數(shù)據。
重復數(shù)據刪除技術是一種能夠大規(guī)模消除冗余數(shù)據,降低數(shù)據存儲成本的重要技術。它的工作方式是查找不同文件中不同位置的重復數(shù)據塊,重復的數(shù)據塊用指示符取代,使得在備份中重復數(shù)據塊只保留一份,從而可以在已有的磁盤上存儲更多的備份數(shù)據。重復數(shù)據刪除后,再通過WAN進行異地備份,則能減少備份數(shù)據量,節(jié)省網絡帶寬,加快數(shù)據備份和恢復速度。本文將圍繞企業(yè)數(shù)據災備,研究如何使用重復數(shù)據刪除技術,提高數(shù)據存取效率,降低數(shù)據保護成本。
2.重復數(shù)據刪除方法
2.1 基于哈希(Hash)算法的重復數(shù)據刪除
哈希算法主要用于文件級和數(shù)據塊級別的重復數(shù)據刪除。在重復數(shù)據刪除技術的實現(xiàn)中,通常采用SHA-1和MD5算法計算并檢查數(shù)據塊的“指紋”,判斷該數(shù)據塊是否與已經存在數(shù)據塊重復。如果該數(shù)據塊已經存在,則只需要保留指向該數(shù)據塊的指針,否則,則要保留該數(shù)據塊,并將該數(shù)據塊的“指紋”保存在索引表中,供以后使用。基于哈希算法的重復數(shù)據刪除的流程圖如圖1所示:
圖1 基于哈希算法的重復數(shù)據刪除流程
文件級的重復數(shù)據刪除主要是識別內容完相同的兩個文件,從而避免相同文件多個備份。用散列函數(shù)計算文件哈希值的方法來比較文件是否相同,可以快速的掃描整個目錄,查找速度非常快。文件級的重復數(shù)據刪除的缺點也很明顯,就是當文件稍稍修改了一點,都會變成不同的文件,重復數(shù)據刪除率會大打折扣。
數(shù)據塊級的重復數(shù)據肭除就是將文件分塊,然后進行重復刪除。分塊的方式有固定大小分塊和可變大小分塊。兩者相比,固定分塊可以更快的掃描新到數(shù)據流,獲取更高重復刪除速率;而可變分塊可以提供更大的重復數(shù)據刪除率。兩者之間根本差異即空間和時間的矛盾,實際應用中,還要根據應用環(huán)境和需求來選擇相應分塊方式。
通常,為了快速識別數(shù)據塊是否已經備份,會將哈希索引保留在內存中。當備份的數(shù)據塊數(shù)據增加時,索引也增加。因此,總有一天,索引會將內存填滿。現(xiàn)在大部分基于散列的系統(tǒng)的都是獨立的。
2.2 基于內容識別的重復數(shù)據刪除
從字節(jié)級別上分析數(shù)據流通常能夠“識別內容”。這種方法主要是對比記錄的數(shù)據格式。在備份數(shù)據時,首先從數(shù)據流中提取元數(shù)據,并將之與備份系統(tǒng)中已經存儲的元數(shù)據進行對比。當元數(shù)據匹配成功時,則將新的數(shù)據對象與備份系統(tǒng)中對應的數(shù)據對象進行逐字節(jié)比較,如果完全相同,則刪除新數(shù)據,用備份系統(tǒng)中的數(shù)據對象索引替換;如果不同,則找出發(fā)生變化的數(shù)據,將增量保存并計算并插入索引。該方法的流程如圖2所示:
圖2 基于內容識別的重復數(shù)據刪除流程圖
3.綜合營銷平臺備份策略分析設計
筆者參與開發(fā)的綜合營銷平臺主要功能有:OA辦公、業(yè)務處理、決策支持和會員俱樂部等。平臺數(shù)據存儲備份整體架構如圖3所示:
圖3 平臺數(shù)據存儲備份整體架構
由此平臺系統(tǒng)的功能決定,工作人員主要是在白天(上班時間)使用系統(tǒng),系統(tǒng)產生大量企業(yè)內業(yè)務數(shù)據和辦公數(shù)據;而決策支持的所需大批量數(shù)據主要由國家局每天下行導入本系統(tǒng)。為了保證業(yè)務的正常進行,白天需要把計算機的CPU資源和內存資源盡量用給業(yè)務功能,因此,本系統(tǒng)對國家下行數(shù)據的抽取、整理和重復數(shù)據刪除只能在夜里進行。首先,由于決策分析的需要,需要在每天夜里把下行的數(shù)據(數(shù)據量非常大,大概有7G到10G)進行完全加工,而這需要較長的時間(通過升級硬件資源和優(yōu)化算法可能將時間稍稍減少);其次本地存儲系統(tǒng)和異地存儲之間網絡帶寬的限制,在每天上班前要把每天的數(shù)據備份完畢也需要較長的時間。因此,重復數(shù)據刪除的策略如下:
1)首先對于本地存儲的數(shù)據,對每天新增的數(shù)據進行重復數(shù)據刪除,可以減少數(shù)據遠程備份的網絡流量,減少帶寬的占用。為能夠較快的完成重復數(shù)據刪除,采用基于哈希算法固定分塊的重復數(shù)據刪除策略,在分塊散列查找時采用一種滑動窗1:3的方式,期望盡可能的發(fā)現(xiàn)重復數(shù)據塊。
2)對于異地存儲,由于業(yè)務的需要對數(shù)據的真實性要求非常高,而現(xiàn)有的在線處理方式是在數(shù)據存入設備的同時時行重復數(shù)據刪除,并沒有進行嚴格的校驗和核對。萬一數(shù)據處理的環(huán)節(jié)發(fā)生一個小錯誤。可能導致整個備份變成無法使用的東西,給企業(yè)帶來損失。而且異地設備除了進行數(shù)據存儲,一般不需要進行其它工作。因此采用后處理重復數(shù)據刪除方式。并采用基于基于哈希算法變長分塊的重復刪除數(shù)據策略,盡可能的發(fā)現(xiàn)重復數(shù)據,提高存儲的使用率,在不增加存儲的情況下備份更多的數(shù)據。
3)因為哈希算法存在哈希沖突的問題,此系統(tǒng)采用一種優(yōu)化了的方法,對哈希匹配的數(shù)據對象,進行二進制的比對,若完全一致,才能進行重復數(shù)據刪除。
4)為了能以較快、較高效率的進行重復數(shù)據刪除,在本地和異地執(zhí)行重復數(shù)據刪除前,先利用系統(tǒng)的智能引擎模塊探測新增數(shù)據的文件名、文件各類和日期/時間戳等信息,然后進行有規(guī)律的分塊,再通過數(shù)據壓縮技術進行壓縮。這之后再進行重復數(shù)據刪除。采用這種策略可以極大的提高執(zhí)行重復數(shù)據刪除的效率。
5)對于非常重要的業(yè)務數(shù)據和要求能夠迅速恢復的數(shù)據(比如職員信息,最近的業(yè)務訂單等),則不進行重復數(shù)據刪除,以便在發(fā)生故障時能夠迅速恢復,不影響工作的開展。
4.結束語
配置管理自產生至今經過幾十年的發(fā)展,理論體系日臻成熟,是一種系統(tǒng)、高效的質量管理體系。在技術上。配置管理能夠建立對于核電數(shù)字化儀控系統(tǒng)原始設計和中間變更的控制和審查、批準流程,為核電項目的安全性和可靠性奠定基礎。在經濟上,配置管理保證配置項描述文檔及時的反應已經實施的變更,從而有效的控制變更,控制項目成本。在管理上,它為項目管理提供了各種監(jiān)控項目進展的視角,為項目經理確切掌握項目進程提供了保證。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:煙草工業(yè)數(shù)據災備中重復數(shù)據刪除技術研究
本文網址:http://m.hanmeixuan.com/html/consultation/10839312820.html