事實(shí)上,數(shù)據(jù)也是具有生命周期的,不同時(shí)期有其存在的不同意義。數(shù)據(jù)剛生成時(shí),訪問頻率最高,數(shù)據(jù)的價(jià)值也最高;隨著時(shí)間的推移,訪問頻率降低,數(shù)據(jù)的價(jià)值也隨之下降,低訪問頻率的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過高訪問頻率的數(shù)據(jù)量。如果全部用高性能存儲(chǔ)設(shè)備來存儲(chǔ)所有數(shù)據(jù),費(fèi)用非常高,管理也復(fù)雜,也沒有必要。
一般對(duì)企業(yè)來說,數(shù)據(jù)從產(chǎn)生到存儲(chǔ)、利用、歸檔,最后超過存儲(chǔ)期限被刪除,數(shù)據(jù)被讀取的頻率逐漸下降,數(shù)據(jù)存儲(chǔ)的位置也應(yīng)該隨之變化,以提高存儲(chǔ)設(shè)備的使用率,降低存儲(chǔ)成本。因此有必要進(jìn)行分級(jí)存儲(chǔ),企業(yè)在存儲(chǔ)其關(guān)鍵業(yè)務(wù)數(shù)據(jù)時(shí),采用昂貴的存儲(chǔ)設(shè)備、存儲(chǔ)技術(shù)和存儲(chǔ)方式。
存儲(chǔ)設(shè)備包括高性能的磁盤或磁盤陣列,存儲(chǔ)技術(shù)如RAID磁盤、復(fù)制、定時(shí)拷貝、多級(jí)備份等。當(dāng)數(shù)據(jù)已經(jīng)不再為企業(yè)帶來效益時(shí),將這類數(shù)據(jù)遷移到較便宜的存儲(chǔ)介質(zhì)上;最后,當(dāng)數(shù)據(jù)過時(shí)或一段時(shí)期不再訪問時(shí),應(yīng)考慮將其刪除或者遷移,如果是法律要求或政府規(guī)定要保留多年的數(shù)據(jù),應(yīng)將其遷移到近線磁盤或者離線磁帶上進(jìn)行歸檔,既安全又節(jié)省費(fèi)用。
同時(shí),信息量的急劇增長(zhǎng),也使存儲(chǔ)管理復(fù)雜性增加,數(shù)據(jù)的分級(jí)存儲(chǔ)也是簡(jiǎn)化存儲(chǔ)管理的需要。通過設(shè)定優(yōu)化的數(shù)據(jù)遷移規(guī)則,能使重要數(shù)據(jù)和常用數(shù)據(jù)在最短的時(shí)間內(nèi)訪問到,使極少使用的數(shù)據(jù)備份在廉價(jià)的海量存儲(chǔ)器中供以后使用。
概念
分級(jí)存儲(chǔ)是根據(jù)數(shù)據(jù)的重要性、訪問頻率、保留時(shí)間、容量、性能等指標(biāo),將數(shù)據(jù)采取不同的存儲(chǔ)方式分別存儲(chǔ)在不同性能的存儲(chǔ)設(shè)備上,通過分級(jí)存儲(chǔ)管理實(shí)現(xiàn)數(shù)據(jù)客體在存儲(chǔ)設(shè)備之間的自動(dòng)遷移。數(shù)據(jù)分級(jí)存儲(chǔ)的工作原理是基于數(shù)據(jù)訪問的局部性。通過將不經(jīng)常訪問的數(shù)據(jù)自動(dòng)移到存儲(chǔ)層次中較低的層次,釋放出較高成本的存儲(chǔ)空間給更頻繁訪問的數(shù)據(jù),可以獲得更好的性價(jià)比。這樣,一方面可大大減少非重要性數(shù)據(jù)在一級(jí)本地磁盤所占用的空間,還可加快整個(gè)系統(tǒng)的存儲(chǔ)性能。
在分級(jí)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)中,存儲(chǔ)設(shè)備一般有磁帶庫、磁盤或磁盤陣列等,而磁盤又可以根據(jù)其性能分為FC磁盤、SCSI磁盤、SATA磁盤等多種,而閃存存儲(chǔ)介質(zhì)(非易失隨機(jī)訪問存儲(chǔ)器)(NVRAM)也因?yàn)檩^高的性能可以作為分級(jí)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)中較高的一級(jí)。一般,磁盤或磁盤陣列等成本高、速度快的設(shè)備,用來存儲(chǔ)經(jīng)常訪問的重要信息,而磁帶庫等成本較低的存儲(chǔ)資源用來存放訪問頻率較低的信息。
信息生命周期管理(InformationLifecycleManagement,ILM)是StorageTek公司針對(duì)不斷變化的存儲(chǔ)環(huán)境推出的先進(jìn)存儲(chǔ)管理理念,ILM試圖實(shí)現(xiàn)根據(jù)數(shù)據(jù)在整個(gè)生命周期過程中不斷變化的數(shù)據(jù)訪問需求而進(jìn)行數(shù)據(jù)的動(dòng)態(tài)分布。分級(jí)存儲(chǔ)和ILM在存儲(chǔ)體系結(jié)構(gòu)上基本相同,目標(biāo)也都是使不同級(jí)別的數(shù)據(jù)在給定時(shí)間和不同級(jí)別的存儲(chǔ)資源能夠更好的匹配。二者本質(zhì)差別是數(shù)據(jù)分級(jí)的標(biāo)準(zhǔn)不同:前者標(biāo)準(zhǔn)為數(shù)據(jù)近期被訪問的概率;后者標(biāo)準(zhǔn)為數(shù)據(jù)近期對(duì)企業(yè)的價(jià)值。
存儲(chǔ)方式
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)一般分為在線(On-line)存儲(chǔ)和離線(Off-line)存儲(chǔ)兩級(jí)存儲(chǔ)方式。
而在分級(jí)存儲(chǔ)系統(tǒng)中,一般分為在線(On-line)存儲(chǔ)、近線(Near-line)存儲(chǔ)和離線(Off-line)存儲(chǔ)三級(jí)存儲(chǔ)方式。
在線存儲(chǔ)是指將數(shù)據(jù)存放在高速的磁盤系統(tǒng)(如閃存存儲(chǔ)介質(zhì)、FC磁盤或SCSI磁盤陣列)等存儲(chǔ)設(shè)備上,適合存儲(chǔ)那些需要經(jīng)常和快速訪問的程序和文件,其存取速度快,性能好,存儲(chǔ)價(jià)格相對(duì)昂貴。在線存儲(chǔ)是工作級(jí)的存儲(chǔ),其最大特征是存儲(chǔ)設(shè)備和所存儲(chǔ)的數(shù)據(jù)時(shí)刻保持“在線”狀態(tài),可以隨時(shí)讀取和修改,以滿足前端應(yīng)用服務(wù)器或數(shù)據(jù)庫對(duì)數(shù)據(jù)訪問的速度要求。
近線存儲(chǔ)是指將數(shù)據(jù)存放在低速的磁盤系統(tǒng)上,一般是一些存取速度和價(jià)格介于高速磁盤與磁帶之間的低端磁盤設(shè)備。近線存儲(chǔ)外延相對(duì)比較廣泛,主要定位于客戶在線存儲(chǔ)和離線存儲(chǔ)之間的應(yīng)用。就是指將那些并不是經(jīng)常用到(例如一些長(zhǎng)期保存的不常用的文件歸檔),或者說訪問量并不大的數(shù)據(jù)存放在性能較低的存儲(chǔ)設(shè)備上。但對(duì)這些設(shè)備的要求是尋址迅速、傳輸率高。因此,近線存儲(chǔ)對(duì)性能要求相對(duì)來說并不高,但又要求相對(duì)較好的訪問性能。同時(shí)多數(shù)情況下由于不常用的數(shù)據(jù)要占總數(shù)據(jù)量的較大比重,這也就要求近線存儲(chǔ)設(shè)備在需要容量上相對(duì)較大。近線存儲(chǔ)設(shè)備主要有SATA磁盤陣列、DVD-RAM光盤塔和光盤庫等設(shè)備。
離線存儲(chǔ)則指將數(shù)據(jù)備份到磁帶或磁帶庫上。大多數(shù)情況下主要用于對(duì)在線存儲(chǔ)或近線存儲(chǔ)的數(shù)據(jù)進(jìn)行備份,以防范可能發(fā)生的數(shù)據(jù)災(zāi)難,因此又稱備份級(jí)存儲(chǔ)。離線存儲(chǔ)通常采用磁帶作為存儲(chǔ)介質(zhì),其訪問速度低,但價(jià)格低廉的海量存儲(chǔ)。
分級(jí)存儲(chǔ)設(shè)備是根據(jù)具體應(yīng)用可以變化的,這種存儲(chǔ)級(jí)別的劃分是相對(duì)的,可以分為多種級(jí)別。如可以采取FC磁盤-SCSI磁盤-SATA磁盤這種三級(jí)存儲(chǔ)結(jié)構(gòu),也可以采取SSD盤-FC磁盤-SCSI磁盤-SATA磁盤-磁帶這種五級(jí)存儲(chǔ)結(jié)構(gòu),具體采用哪些存儲(chǔ)級(jí)別需要根據(jù)具體應(yīng)用而定。
管理的關(guān)鍵技術(shù)
分級(jí)存儲(chǔ)管理(HierarchicalStorageManagement,HSM)起源于1978年,首先使用于大型機(jī)系統(tǒng)。存儲(chǔ)實(shí)現(xiàn)分級(jí)以后,在線存儲(chǔ)、近線存儲(chǔ)和離線存儲(chǔ)存放的數(shù)據(jù)價(jià)值不同,在同一級(jí)別存儲(chǔ)內(nèi)部(比如在線存儲(chǔ)和離線存儲(chǔ)),存放的數(shù)據(jù)也應(yīng)該不同,實(shí)現(xiàn)每一級(jí)別內(nèi)的“分級(jí)存儲(chǔ)”。如何將各個(gè)級(jí)別存儲(chǔ)中數(shù)據(jù)統(tǒng)一管理起來便成了最為關(guān)鍵的問題。
分級(jí)存儲(chǔ)管理是將離線存儲(chǔ)、近線存儲(chǔ)和在線存儲(chǔ)融為一體的技術(shù)。在分級(jí)存儲(chǔ)系統(tǒng)中涉及許多技術(shù),如數(shù)據(jù)增量掃描技術(shù)、基于多指標(biāo)的數(shù)據(jù)分級(jí)策略、在線遷移中的一致性保證技術(shù)、數(shù)據(jù)自動(dòng)遷移存儲(chǔ)技術(shù)、存儲(chǔ)虛擬化技術(shù)、分級(jí)存儲(chǔ)管理技術(shù)等等。這里主要就幾個(gè)關(guān)鍵技術(shù)進(jìn)行討論。
增量掃描技術(shù)
在一個(gè)文件數(shù)為10億級(jí)的大規(guī)模文件系統(tǒng)中,選擇分級(jí)存儲(chǔ)管理操作的候選對(duì)象可能是非常耗費(fèi)資源的,一般須掃描整個(gè)文件系統(tǒng)的名字空間。而每秒大約能掃描5000個(gè)文件,掃描10億個(gè)文件大約需要27小時(shí),F(xiàn)有的分級(jí)存儲(chǔ)管理工具一種是集成到文件系統(tǒng)之中,一種是存在于文件系統(tǒng)之外。無論是哪一種,能夠獲得文件訪問情況并利用這一特性,大幅度減少文件掃描規(guī)模,減少維護(hù)文件訪問信息的開銷是非常重要的。
如于一個(gè)20萬個(gè)文件的文件系統(tǒng),每天只有不到1%的文件被訪問。隨著文件系統(tǒng)規(guī)模增加,訪問百分比期內(nèi)所有被訪問文件的訪問統(tǒng)計(jì)(包括訪問次數(shù)和文件大小)、總訪問熱度等信息,通過增量掃描技術(shù),元數(shù)據(jù)服務(wù)器不必掃描整個(gè)文件系統(tǒng),而通過定期獲取近期訪問過的文件信息,這樣就可大大減少維護(hù)文件訪問信息的開銷。
基于多指標(biāo)的數(shù)據(jù)分級(jí)策略
分級(jí)存儲(chǔ)采用的存儲(chǔ)方式與選擇的存儲(chǔ)設(shè)備的依據(jù)是數(shù)據(jù)的重要性、訪問頻次等多個(gè)指標(biāo)。多指標(biāo)的數(shù)據(jù)信息分級(jí)策略,是指根據(jù)基于數(shù)據(jù)的生命周期、上次訪問時(shí)間、大小、數(shù)據(jù)信息的關(guān)聯(lián)性等多個(gè)參數(shù)對(duì)數(shù)據(jù)的價(jià)值進(jìn)行分級(jí);如果數(shù)據(jù)一創(chuàng)建就能預(yù)測(cè)其訪問特性進(jìn)而給出相應(yīng)級(jí)別,將能夠減少不必要的遷移顛簸。因?yàn)閿?shù)據(jù)分級(jí)變化意味著數(shù)據(jù)要在不同級(jí)別的存儲(chǔ)設(shè)備間遷移,以保證合適的數(shù)據(jù)在合適的時(shí)間存放在合適的存儲(chǔ)級(jí)別上。
在實(shí)際應(yīng)用中,如能充分挖掘數(shù)據(jù)的靜態(tài)特征和訪問的動(dòng)態(tài)特征為基礎(chǔ)的分級(jí)將能獲得更好的效果。如以文件分級(jí)為例,第一,文件系統(tǒng)的靜態(tài)特征,如大小文件的分布;第二,文件系統(tǒng)的宏觀訪問規(guī)律,如大小文件的訪問次數(shù)分布;第三,文件個(gè)體的訪問模式,如是否具有訪問局部性;第四,文件之間的訪問關(guān)聯(lián)特征,如同一作業(yè)中的一個(gè)文件被訪問,另一個(gè)文件何時(shí)被訪問。根據(jù)這些文件特征和存儲(chǔ)設(shè)備的分級(jí)情況,確定文件分級(jí)標(biāo)準(zhǔn)及文件分級(jí)變化的觸發(fā)條件,從而可以在合適的時(shí)間把合適的文件存放在合適的存儲(chǔ)級(jí)別上。
在線遷移中的一致性保證技術(shù)
在分級(jí)存儲(chǔ)系統(tǒng)中,不可避免地要在不同存儲(chǔ)設(shè)備上進(jìn)行數(shù)據(jù)遷移,數(shù)據(jù)遷移可分為升級(jí)遷移和降級(jí)遷移。升級(jí)遷移是指數(shù)據(jù)由慢速存儲(chǔ)設(shè)備和低一級(jí)存儲(chǔ)設(shè)備往快速存儲(chǔ)設(shè)備或高一級(jí)的存儲(chǔ)設(shè)備遷移,降級(jí)遷移正好相反。但由于遷移目的不同,這兩種遷移有不同的特征。對(duì)于降級(jí)遷移來說,很可能在遷移的過程中并不會(huì)有I/O請(qǐng)求發(fā)生;但對(duì)于升級(jí)遷移來說,遷移幾乎是發(fā)生在I/O最密集的時(shí)候,如何保證在遷移過程中,盡可能減小遷移進(jìn)程對(duì)前臺(tái)I/O的影響,這是分級(jí)存儲(chǔ)系統(tǒng)需要解決的問題之一。
目前可以采用讀寫鎖來保證數(shù)據(jù)一致性,以數(shù)據(jù)塊為調(diào)度粒度來減小對(duì)前臺(tái)I/O性能的影響。遷移進(jìn)程為當(dāng)前數(shù)據(jù)塊申請(qǐng)讀寫鎖,以保證遷移進(jìn)程與寫操作進(jìn)程之間的數(shù)據(jù)一致性。
數(shù)據(jù)自動(dòng)遷移存儲(chǔ)技術(shù)
分級(jí)存儲(chǔ)中數(shù)據(jù)需要在線遷移,這就需要考慮數(shù)據(jù)移動(dòng)對(duì)前臺(tái)I/O負(fù)載的性能影響。數(shù)據(jù)自動(dòng)遷移技術(shù)是指最大限度的降低數(shù)據(jù)遷移動(dòng)作本身對(duì)計(jì)算結(jié)點(diǎn)的I/O性能影響,且對(duì)前端透明,它根據(jù)前臺(tái)I/O負(fù)載的變化,來調(diào)整數(shù)據(jù)遷移速率,使得數(shù)據(jù)遷移動(dòng)作本身對(duì)存儲(chǔ)系統(tǒng)的QoS的影響非常小,同時(shí)使得數(shù)據(jù)遷移任務(wù)能夠盡快完成。數(shù)據(jù)自動(dòng)遷移存儲(chǔ)涉及的主要技術(shù)有:數(shù)據(jù)遷移的速率控制與調(diào)度、數(shù)據(jù)遷移對(duì)應(yīng)用的延遲隱藏、文件訪問塊位置序列預(yù)測(cè)等等。
在實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)信息達(dá)到遷移觸發(fā)條件時(shí),數(shù)據(jù)遷移結(jié)點(diǎn)自動(dòng)遷移數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)信息的降級(jí)或升級(jí)存儲(chǔ),如數(shù)據(jù)升級(jí)遷移對(duì)用戶的延遲隱藏技術(shù)使得應(yīng)用程序感受不到數(shù)據(jù)升級(jí)遷移的延遲,并使整個(gè)存儲(chǔ)系統(tǒng)的性能與最高性能級(jí)別的存儲(chǔ)設(shè)備相當(dāng)。
目前,分級(jí)存儲(chǔ)管理更多從降低成本、不影響數(shù)據(jù)應(yīng)用效果、提高效率的角度解決數(shù)據(jù)的存儲(chǔ)問題。隨著單盤成本的下降,有業(yè)內(nèi)專家預(yù)測(cè),不久的將來,近線存儲(chǔ)技術(shù)將取代數(shù)據(jù)遷移技術(shù),用戶將以模擬海量備中,為分級(jí)存儲(chǔ)的發(fā)展起到關(guān)鍵的推動(dòng)作用。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:分級(jí)存儲(chǔ)與管理及數(shù)據(jù)自動(dòng)遷移存儲(chǔ)技術(shù)
本文網(wǎng)址:http://m.hanmeixuan.com/html/support/11121511846.html