2.3 數(shù)據(jù)復(fù)制
為了保證較低的RPO和RTO目標,數(shù)據(jù)復(fù)制技術(shù)常應(yīng)用于各種災(zāi)備系統(tǒng)。數(shù)據(jù)復(fù)制是將原卷或原文件直接復(fù)制到目標卷或目標文件系統(tǒng)中,分別稱為卷復(fù)制和文件復(fù)制。由于數(shù)據(jù)復(fù)制的目標卷(目標文件)和源卷(源文件)的數(shù)據(jù)格式一致,可以消除備份系統(tǒng)中數(shù)據(jù)格式的轉(zhuǎn)換時間。數(shù)據(jù)復(fù)制又分為同步復(fù)制和異步復(fù)制。
2.3.1 同步復(fù)制
同步復(fù)制表示,在數(shù)據(jù)復(fù)制系統(tǒng)的源端,主機發(fā)出的I/O請求在寫入本地磁盤的同時,通過專用的數(shù)據(jù)網(wǎng)絡(luò)或通道將數(shù)據(jù)從本地磁盤系統(tǒng)同步地復(fù)制到異地磁盤系統(tǒng)。當異地系統(tǒng)完成該I/O操作后,通知本地系統(tǒng)I/O完成,本地的主機系統(tǒng)才能發(fā)出第二個I/O請求。利用同步復(fù)制方式建立異地數(shù)據(jù)災(zāi)備,可以保證異地系統(tǒng)和本地系統(tǒng)數(shù)據(jù)的完全一致性。但同步復(fù)制方式對性能的要求非常高。由于每一次本地I/O必須要等到數(shù)據(jù)成功地寫到異地系統(tǒng),才能進行下一個I/O操作,因此同步復(fù)制的性能受網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)的距離、中間設(shè)備及協(xié)議轉(zhuǎn)換等多方面的影響。
2.3.2 異步復(fù)制
異步復(fù)制是指在數(shù)據(jù)復(fù)制系統(tǒng)的源端,主機發(fā)出的/O請求在寫入本地磁盤的同時,向本地磁盤系統(tǒng)上預(yù)留的空間發(fā)出相同的寫請求(決定于不同的策略),然后通知本地系統(tǒng)I/O完成。此時,本地的主機系統(tǒng)可以發(fā)出第下一個I/O請求。在設(shè)定的復(fù)制規(guī)則滿足后(基于時間、基于變化量等),系統(tǒng)的復(fù)制功能模塊再將數(shù)據(jù)通過專用的數(shù)據(jù)網(wǎng)絡(luò)或通道復(fù)制到異地的存儲系統(tǒng)中。
2.4 災(zāi)備分析
與同步復(fù)制相比,異步復(fù)制對網(wǎng)絡(luò)帶寬和距離的要求低很多,只要在某個時間段內(nèi)能將數(shù)據(jù)全部復(fù)制到異地即可,同時異步復(fù)制對應(yīng)用系統(tǒng)的性能影響也很小。但是,當本地系統(tǒng)發(fā)生災(zāi)難時,異地系統(tǒng)上的數(shù)據(jù)可能會短暫缺失(在復(fù)制的時間間隔內(nèi)數(shù)據(jù)未完整地從源端發(fā)送到目的端)。因此,當源端災(zāi)難發(fā)生時,同步復(fù)制的RPO接近于0,異步復(fù)制的RPO則取決于復(fù)制時間間隔。同時,在業(yè)務(wù)恢復(fù)時間上,相對于傳統(tǒng)的備份系統(tǒng)而言,由于不存在數(shù)據(jù)格式的轉(zhuǎn)換,可以在較短的時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng),從而具有較好的RTO。對于1000億元人民幣以上的銀行,銀監(jiān)會要求建立200km以上的備份系統(tǒng)。因此只能使用遠程復(fù)制模式。同城復(fù)制可以使用光纖,但是遠程復(fù)制由于成本方面的因素,全光纖傳輸還很遙遠。因此,不可能采用同步復(fù)制。所以,遠程異步復(fù)制模式會越來越多。
3 云存儲與云災(zāi)備的短板
當用戶向云存儲系統(tǒng)中進行數(shù)據(jù)備份時,網(wǎng)絡(luò)對系統(tǒng)性能的影響起到了至關(guān)重要的作用。當云存儲服務(wù)提供商在進行后臺的云災(zāi)備時,遠程的云備份和云復(fù)制也依賴于網(wǎng)絡(luò)的性能。

圖4 英國劍橋大學(xué)到中國北京的網(wǎng)絡(luò)帶寬
3.1 網(wǎng)絡(luò)短板
按照Nielsen法則,終端用戶的網(wǎng)絡(luò)帶寬以每年50%的速度增長。然而,和局域網(wǎng)形成鮮明對照的是,廣域網(wǎng)的性能不盡人意。例如,一條T1線路的帶寬只相當于千兆網(wǎng)的千分之一,許多幀中繼線路的帶寬只有256kb/s。Garfinkel[19]通過測量發(fā)現(xiàn)從美國伯克利大學(xué)到西雅圖的平均網(wǎng)絡(luò)寫帶寬大約是5~18Mb/s。通過使用網(wǎng)絡(luò)測試工具iperf,采用256個數(shù)據(jù)流測量,數(shù)據(jù)表明在格林尼治標準時間下午7點到10點,從英國劍橋大學(xué)到中國北京的平均網(wǎng)絡(luò)帶寬大約是14Mb/s,如圖4所示[20]。
基于以上的測試數(shù)據(jù),如果假設(shè)網(wǎng)絡(luò)帶寬為20Mb/s,Armbrust[21]等人作了簡單的計算,計算結(jié)果表明從美國伯克利大學(xué)傳輸10TB數(shù)據(jù)到西雅圖需要45d的時間(10×1012B/(20×106b/s)=4000000s=45d)。如果通過亞馬遜來進行該數(shù)據(jù)傳輸,需要另外向亞馬遜支付1000美元的網(wǎng)絡(luò)傳輸費用。另外,由于廣域網(wǎng)物理距離的原因,不可避免的時延也會對帶寬造成影響。例如,一個T3鏈路(44.736Mb/s),當時延超過40ms時,其帶寬很快就下降到與T1鏈路(1.544Mb/s)相當。
如果是進行云備份,時間上的開銷相對還可以忍受,因為用戶在本地還有一個數(shù)據(jù)拷貝可供使用。但如果是從云存儲系統(tǒng)中恢復(fù)數(shù)據(jù),這是無法讓人接受的,特別是對于那些需要提供24×7×365業(yè)務(wù)連續(xù)性的企業(yè)級用戶。為了緩解這個問題,對于云存儲系統(tǒng)中大數(shù)據(jù)量的恢復(fù),云存儲提供商Mozy[22]和CrashPlan[23]提供了一個不得已的選擇,在用戶許可的情況下,將數(shù)據(jù)轉(zhuǎn)存在DVD或者硬盤上,然后通過特快專遞的形式交付給用戶。
3.2 網(wǎng)絡(luò)優(yōu)化
ACK:確認

圖5 針對廣域網(wǎng)數(shù)據(jù)傳輸?shù)膮f(xié)議優(yōu)化
針對廣域網(wǎng)數(shù)據(jù)傳輸?shù)膮f(xié)議優(yōu)化如圖5所示。為了優(yōu)化廣域網(wǎng)環(huán)境下大規(guī)模數(shù)據(jù)傳輸?shù)男阅埽覀冊鴮?shù)據(jù)在套接字層在發(fā)送端進行分割,然后利用多個套接字流進行并行傳輸,最后在接收端進行數(shù)據(jù)重組(如圖5(c)所示)。理論上講,對傳輸控制協(xié)議(TCP)管道而言,其最大的吞吐量為帶寬延遲乘積,即容量=帶寬×環(huán)回時間。在傳輸窗口一定的情況下(圖5中紅色的方形區(qū)表示傳輸窗口,缺省為64kB),按通常100Mb/s的網(wǎng)絡(luò)帶寬來計算,傳統(tǒng)的單套接字流顯然無法填滿TCP管道(如圖5(a)所示),使得其效率極低。通過加大傳輸窗口可以在一定程度上提高TCP管道的利用率(如圖5(b)所示),但在丟包的情況下,會導(dǎo)致每次重傳的數(shù)據(jù)增加。因此,通過多個套接字流來并行傳輸?shù)男Ч^好。另外,由于采用了多流,不同的數(shù)據(jù)流在必要的情況下可以走不同的路由,也能夠進一步優(yōu)化廣域網(wǎng)的性能。
正如前面提到的,云基礎(chǔ)設(shè)施必須是地理上分布的,因為云的成功在很大程度上決定于其規(guī)模效應(yīng)。雖然計算和存儲相對便宜,然而,由于廣域網(wǎng)環(huán)境下的低帶寬、高延遲和較高的丟包率,使得廣域網(wǎng)成為云環(huán)境下那塊最短的木板。因此,在地理上分布的云環(huán)境下進行大規(guī)模的數(shù)據(jù)傳輸是非常昂貴的。圖靈獎獲得者JimGray在2006年就指出在廣域網(wǎng)上處理大數(shù)據(jù)集時,應(yīng)該將程序傳給數(shù)據(jù),而不是將數(shù)據(jù)傳給程序。另外,也可以通過數(shù)據(jù)壓縮、數(shù)據(jù)去重等方法來減少網(wǎng)域網(wǎng)上的數(shù)據(jù)傳輸流量,降低對網(wǎng)絡(luò)帶寬的需求。還可以采用動態(tài)緩存、IP流量管理以及服務(wù)質(zhì)量(QoS)控制等方法來降低廣域網(wǎng)的延遲。但是,這些方法只能在一定程度上來緩解網(wǎng)絡(luò)“瓶頸”問題,不能從根本上解決問題。因此,在設(shè)計云存儲和云災(zāi)備系統(tǒng)時,必須要考慮廣域網(wǎng)的帶寬、延遲和包丟失率所帶來的影響。
4 云存儲實例分析

圖6 2.12 GB數(shù)據(jù)的備份時間

圖7 2.12 GB數(shù)據(jù)的恢復(fù)時間
對于企業(yè)用戶而言,現(xiàn)有的云存儲更多的是一種在線遠程備份系統(tǒng)。Hu等人針對Mozy、Carbonite、Dropbox、Crashplan4種云存儲系統(tǒng)進行了測試、比較和分析。當將8GB的文件備份到云存儲系統(tǒng)中時,有的系統(tǒng)的備份時間超過了30h,還有的系統(tǒng)經(jīng)過4d的時間還未備份完成。當他們將數(shù)據(jù)集減小到2GB左右時,云備份系統(tǒng)才回復(fù)到基本正常的工作狀態(tài)。
圖6表示Hu等人在Mozy、Carbonite、Dropbox、Crashplan4個不同的云存儲系統(tǒng)下備份2.12GB數(shù)據(jù)時的遠程備份時間。其中橫坐標從左到右的4種情況分別表示單個2.12GB的大普通文件、單個2.12GB的大稀疏文件、很多小的普通文件組成2.12GB的數(shù)據(jù)集、很多小的稀疏文件組成2.12GB的數(shù)據(jù)集。稀疏文件表示該文件不包含用戶數(shù)據(jù),也沒有分配用來存儲用戶數(shù)據(jù)的磁盤空間。當數(shù)據(jù)被寫入稀疏文件時,文件系統(tǒng)(例如微軟的NTFS)才逐漸地為其分配磁盤空間。可以看到對于正常2.12GB的文件數(shù)據(jù)4個系統(tǒng)的備份時間都超過了5h。
圖7表示相應(yīng)的恢復(fù)時間。恢復(fù)比備份要相對快很多,這主要是由于網(wǎng)絡(luò)的上行鏈路和下行鏈路帶寬的不對稱造成的。通過大量的測試分析,Hu等人得出了一下結(jié)論:
(1)云存儲系統(tǒng)必須對于網(wǎng)絡(luò)失效具有回彈性,同時能夠?qū)崿F(xiàn)大文件的增量備份。
(2)云存儲提供商在進行大數(shù)據(jù)的網(wǎng)絡(luò)傳輸時還要進行加密、壓縮等預(yù)處理以避免網(wǎng)絡(luò)延遲。
(3)云存儲用戶需要手動檢測重要的文件是否都已經(jīng)進行了備份。
(4)云存儲用戶應(yīng)該將云存儲系統(tǒng)作為本地備份系統(tǒng)的一種補充,而不能將其當成主要的備份策略。
本文認為,現(xiàn)有的云存儲應(yīng)對普通用戶小數(shù)據(jù)的備份與恢復(fù)應(yīng)該問題不大,但是企業(yè)級用戶大數(shù)據(jù)量的存儲與恢復(fù)則要慎重考慮。
5 結(jié)束語
云存儲面向個人的應(yīng)用主要有網(wǎng)盤、在線文檔編輯、工作流及日程安排。面向企業(yè)的應(yīng)用主要有企業(yè)空間的租賃服務(wù),企業(yè)級數(shù)據(jù)備份和歸檔、視頻監(jiān)控系統(tǒng)等。云災(zāi)備則主要用于保證云存儲服務(wù)商后臺系統(tǒng)的可靠性和可用性。對兩者而言,海量數(shù)據(jù)的高度聚集會對系統(tǒng)帶來一系列的挑戰(zhàn)。例如,如何實現(xiàn)海量存儲系統(tǒng)從傳統(tǒng)的縱向擴展向橫向擴展轉(zhuǎn)化?如何實現(xiàn)系統(tǒng)的性能和規(guī)模線性可擴展?如何處理海量存儲系統(tǒng)的高度聚集帶來的能耗和冷卻?等問題都是我們在進行云存儲和云災(zāi)備系統(tǒng)設(shè)計時必須要考慮的重要因素。當然,云存儲最終能否成功,還受到其他很多因素的影響,如大量的數(shù)據(jù)存儲在云端如何保證數(shù)據(jù)的安全和用戶隱私等。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文網(wǎng)址:http://m.hanmeixuan.com/html/consultation/1083978020.html
























