檔案管理工作具有重大的意義,但是目前檔案管理工作在信息化進(jìn)程中遇到了大量的問題。使用檔案序列化存儲可以有效解決這些問題,本文討論了檔案信息化所遭遇的問題,以及檔案序列化存儲技術(shù)的應(yīng)用前景和使用困難。
一、檔案序列化存儲研究的背景
檔案管理系統(tǒng)是整個國家文獻(xiàn)信息系統(tǒng)的組成部分之一,在構(gòu)成整個社會的科學(xué)能力中占有重要地位,成為社會信息系統(tǒng)的基石。檔案管理不僅對各具體單位的工作和生產(chǎn)有意義,對整個社會而言,也很有意義,不僅具有當(dāng)前的、現(xiàn)實(shí)的意義,也具有長遠(yuǎn)的、歷史的意義。目前有充分的證據(jù)顯示,隨著科技水平的進(jìn)步,檔案管理工作必須要隨之利用科學(xué)的武器武裝自己,加快檔案信息化管理的步伐,才能更好地發(fā)揮檔案管理工作在社會中的作用。
在檔案信息化進(jìn)程中,很多檔案工作者發(fā)現(xiàn)了這樣的困難,即信息化后的檔案存儲往往呈現(xiàn)碎片狀,難以建立起一個相對完整的數(shù)據(jù)結(jié)構(gòu)。尤其是面對海量數(shù)據(jù)的檔案,例如某些大型國有企業(yè)的檔案庫中,大量的檔案在邏輯上緊密相鄰,但是在物理上卻分散在存儲設(shè)備的不同位置,這種數(shù)據(jù)結(jié)構(gòu)對于檔案的管理和檢索是十分不利的。大量的反饋信息反映出這樣一個現(xiàn)實(shí):每年有大量的資源被浪費(fèi)在了對于分散數(shù)據(jù)的檢索上。筆者結(jié)合實(shí)際以及其他學(xué)科的經(jīng)驗(yàn),提出了一種序列化存儲并管理檔案的方式,并對這種方式進(jìn)行了檢驗(yàn)。
二、序列化存儲基本原理
計算機(jī)科學(xué)中所討論的序列化(Serialization),其真實(shí)含義為將對象的狀態(tài)信息轉(zhuǎn)換為可以存儲或傳輸?shù)男问降倪^程。舉例而言,對于一條復(fù)雜的數(shù)據(jù),假定該數(shù)據(jù)牽扯到五個以上的表。如果我們使用傳統(tǒng)的數(shù)據(jù)庫存儲方式,數(shù)據(jù)將會呈現(xiàn)出四個或者更多的斷點(diǎn)。每次查找,都需要調(diào)用包含下列語句的程序:
USE數(shù)據(jù)庫名
SELECT表名.信息FROM表1表2
WHERE條件
按照這種方式,每一次的查找,都至少需要調(diào)用一次表查詢和一次表內(nèi)檢索。假如一次查詢需要同時使用四個表,那么實(shí)際上需要調(diào)用的表查詢次數(shù)至少為三,表內(nèi)檢索次數(shù)至少為四。這個結(jié)論的得出前提是每個表只需要使用一次。事實(shí)上,如果在數(shù)據(jù)庫建表時,數(shù)據(jù)庫已經(jīng)優(yōu)化到了BC范式,每個表很難做到只被調(diào)用一次。如果使用序列化的技術(shù),所有的表項(xiàng),也就是一個數(shù)據(jù)實(shí)體將會被表現(xiàn)成為一段序列化的代碼,通過對代碼的掃描,可以在一次檢索中完成對數(shù)據(jù)的增添、刪除、修改以及查詢。
目前在實(shí)際應(yīng)用中的序列化大部分是在一些程序中的某些過程中使用的,在這些過程中,使用各種語言編輯的對象經(jīng)過序列化得到了可以直接掃描讀取的序列信息。但是顯而易見,序列化技術(shù)可以不經(jīng)改變地用來對數(shù)據(jù)進(jìn)行存儲,并有著目前常用的檔案信息化管理方法難以比擬的優(yōu)勢。
假設(shè)有一條人事檔案,某同志部分基本情況如下:
姓名:張民 性別:男民族:漢 政治面貌:中共黨員
在傳統(tǒng)的情況下,我們需要建立一個數(shù)據(jù)表,這個表至少應(yīng)該有四項(xiàng),每一項(xiàng)對應(yīng)一類情況。如果在XML文件下,我們需要為張民創(chuàng)建一個單獨(dú)的標(biāo)記。如圖1所示:
圖1:XML文件保存的檔案條目
可能有檔案工作者提出質(zhì)疑,序列化的檔案條目目前沒有體現(xiàn)出優(yōu)勢。但是試想一下,如果檔案條目的內(nèi)容增加,形成了多表存儲,那么XML的簡單樹形存儲結(jié)構(gòu)就顯示出了優(yōu)勢。序列化的XML文件可以被多種平臺以及軟件API直接讀取,極大地拓展了存儲內(nèi)容的可用性。
三、一種改進(jìn)的檔案序列化存儲方案
上文主要介紹了XML文件對于要保存的內(nèi)容的序列化存儲,但是XML文件有著自身固有的弱點(diǎn)。如果數(shù)據(jù)量非常大,把全部的檔案內(nèi)容保存在XML文件中,使用起來確實(shí)方便許多,但是如果在缺乏相應(yīng)工具的時候,內(nèi)容檢索就比較困難。在本節(jié)中,筆者提出一種改進(jìn)的檔案序列化存儲方案設(shè)想,有充足證據(jù)顯示,這種設(shè)想如果可以被付諸實(shí)踐并不斷完善,那么將會給檔案管理工作帶來一次革命。
這種方案的核心思想是使用特征值將一條檔案序列化成為一個簡單字符串,字符串的不同位置被預(yù)先賦予特定的含義,這樣通過一次線性掃描可以獲知檔案條目的全部內(nèi)容。下面的例子可以簡要地說明這種方案的思想。
設(shè)想一條檔案的前12位是如下的一串?dāng)?shù)字:223729014610。如果不加以說明,很難有人可以理解到這12位數(shù)字的含義。事實(shí)上,這是姓名代碼解決方案下的筆者的姓名代碼。在我國目前的高考中通用的姓名代碼收錄了7000個以上的姓名常用漢字,每一個漢字由4位數(shù)字形成的代碼表示。這樣,不同的人名可以經(jīng)過這一次的轉(zhuǎn)換,序列化成為一個12位的字符串。如果我們約定,每一條人事檔案的前12位代表姓名,那么每次檢索姓名時,只需要檢索每一條檔案的前12位即可。
同樣,我們可以規(guī)范檔案的內(nèi)容,從而進(jìn)一步規(guī)定,每一條序列化的檔案記錄的固定位置記錄固定內(nèi)容,不同的信息也同樣設(shè)置類似于姓名代碼解決方案的對應(yīng)標(biāo)準(zhǔn),那么我們就可以做到由一個簡單字符串代表很豐富的信息。雖然目前并沒有應(yīng)用于檔案管理,這種序列化方案在很多領(lǐng)域有著廣泛的應(yīng)用,包括但不限于生物、醫(yī)學(xué)、機(jī)械、統(tǒng)計等。經(jīng)過序列化之后,原本復(fù)雜的、可能牽扯幾十個表的復(fù)雜數(shù)據(jù)庫將會在一個文件中簡單明了地標(biāo)示清楚。并且,序列化的內(nèi)容在對檔案的進(jìn)一步利用上會有更加優(yōu)越的特質(zhì),在本文的最后一部分將會介紹。
本文所討論的這種檔案序列化存儲技術(shù)推廣的阻礙主要有三個:首先,檔案本身難以規(guī)范,導(dǎo)致不同地區(qū)、不同級別的檔案序列長度很難保持一致,對于檢索有不可忽視的阻礙作用。第二,檔案序列化標(biāo)準(zhǔn)難以出臺。我們很難做到在全國范圍內(nèi),以同一個方式,將檔案內(nèi)容完全以姓名代碼解決方案的形式轉(zhuǎn)變?yōu)樽址蛘咦址,而這個轉(zhuǎn)變(事實(shí)上就是序列化)過程恰恰就是這種技術(shù)轉(zhuǎn)化為實(shí)用的門檻。這個轉(zhuǎn)化賦值必須像《漢語拼音方案》一樣全國通用,所以這個轉(zhuǎn)化復(fù)制過程也必須由權(quán)威機(jī)構(gòu)主管,并且調(diào)試之后全國同行業(yè)統(tǒng)一使用。第三,檢索工具的缺失導(dǎo)致目前這種技術(shù)難以為普通檔案工作者使用。不過,筆者個人認(rèn)為技術(shù)難度相對而言最為簡單,相關(guān)工具技術(shù)含量并非很高,在明確需求之后兩個星期內(nèi)筆者本人即可開發(fā)出有實(shí)用價值的工具。
四、序列化后的檔案信息的深入挖掘
上文說到,序列化之后的檔案信息可以直接利用于各種軟件和API,這為檔案進(jìn)行數(shù)據(jù)挖掘提供了基礎(chǔ)。數(shù)據(jù)挖掘是對大規(guī)模數(shù)據(jù)的分析分類的過程,序列分類作為數(shù)據(jù)挖掘的重要分支,具有十分廣泛的應(yīng)用前景,其應(yīng)用范圍包括但不限于基因分析、信息檢索、健康監(jiān)測、金融預(yù)測等領(lǐng)域。不同的序列分類器在面對不同特征的序列時,往往具有不同但是良好的分類效果。僅舉一例,美國最大的零售商在對全年的銷售單據(jù)進(jìn)行了數(shù)據(jù)挖掘之后,發(fā)現(xiàn)了嬰兒用品和酒精類飲料的銷售關(guān)系,于是將兩類商品放置在一起,第二年兩類商品的銷售量都有大幅提升。
檔案作為一類海量數(shù)據(jù),具有極高的數(shù)據(jù)挖掘價值,統(tǒng)計學(xué)家和計算科學(xué)家們相信,對于檔案進(jìn)行數(shù)據(jù)挖掘,可以得到很多有意義的數(shù)據(jù)和結(jié)果。例如,從事機(jī)械設(shè)計工作的工程師可能會更具語言天賦,小學(xué)時受到過獎勵的學(xué)生在長大后可能會更具有從事社會工作的趨向等。筆者參與過數(shù)個數(shù)據(jù)挖掘的項(xiàng)目,深信數(shù)據(jù)挖掘?qū)τ跈n案管理具有非常大的作用,通過數(shù)據(jù)挖掘?qū)n案進(jìn)行管理,將會是檔案管理工作的一次飛躍。
在數(shù)據(jù)挖掘這門學(xué)科中,序列分類(sequencclassification)是一個重要的分支,其中又以基于特征的分類(feature based)應(yīng)用最為廣泛,經(jīng)過序列化的檔案信息可以直接被用來進(jìn)行特征提取,然后使用經(jīng)典的序列分類算法進(jìn)行數(shù)據(jù)挖掘,從而得到我們難以想象的,但是價值非凡的結(jié)果。
總結(jié)起來,檔案序列化存儲是一項(xiàng)有著重大應(yīng)用前景的檔案管理技術(shù),它可以解決目前檔案管理工作中的數(shù)據(jù)分散、結(jié)構(gòu)混亂、空間開銷大等問題,而且有著極有價值的應(yīng)用空間。盡管可能有諸多困難,但是筆者相信,隨著檔案研究人員的努力,檔案序列化存儲將會成為檔案信息化和檔案管理的新方向。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:淺析檔案序列化存儲管理
本文網(wǎng)址:http://m.hanmeixuan.com/html/support/1112187026.html