一般來說,大數據存儲和分析會出現在企業數據倉庫(EDW)中或是與之相關聯的場景下。整合大數據解決方案的所有部分需要有對EDW流程每個部分進行轉換。本文會對圍繞EDW的主要工作進行總結,并討論它們是如何受大數據影響的,以及如何在實施之前進行規劃。
數據獲取與采集
存儲在EDW中的數據是從原始來源系統獲取的,這些是實時處理業務數據的典型系統。諸如ATM機,銀行用戶服務系統,在線訂單錄入系統,客戶檔案管理系統以及會計系統等這樣一些客戶接口系統。
數據轉換與遷移
由于大多業務數據是以其原有形式呈現的,因此一些需要轉換或是‘清洗’。典型的例子包括無效日期(比如02-31-2013,99-99-9999),缺失數據(一個不存在的客戶所下的訂單),未知數據(對于一個當前開放的賬戶其數據賬戶卻是關閉的)等等。EDW轉換流程會對源數據進行清洗,從而把它們以一種可用的形式存儲到數據庫中。
這一子流程的另一部分是將數據從源系統遷移到EDW中去。這一過程可能會包含文件傳輸,消息傳遞,甚至還有高速硬件連接。
數據暫存與鍵控
在企業數據倉庫中,將最初獲得的數據存儲在一個暫存區域中是很常見的,暫存區域通常是臨時文件或數據庫表。數據在載入EDW之前可以在那里得以積累并交叉引用。
鍵控就是為EDW中的實體分配一個代理鍵的過程。那為什么不使用數據的自然鍵呢,例如賬戶號或是客戶號?EDW是來自多個業務系統的實體組合。為了跨系統進行比較,鍵就必須擁有公共屬性,比如“賬戶號”。企業可能就需要支持許多不同格式的數據項,每個都有不同的數據類型和長度。而指定一個代理鍵就可以允許使用公共鍵來比較這些實體以進行分析。
數據訪問與分析
EDW中存入了數據之后,就可以展開分析了。大多數IT供應商為用戶提供了軟件工具來進行深入的分析,或者我們把它稱作BI分析。一些軟件能直接訪問EDW數據,或者提取數據的子集以供本地分析。
數據歸檔
EDW中的數據會過期或是變得無關緊要。將舊數據從數據倉庫中刪除并歸檔。EDW人員與業務部門協作進行分析以確定歸檔數據是否可以存儲在磁帶上,或是必須將其保留以供今后法律及業務層面的需求之用,這一點是非常重要的。
大數據如何影響數據倉庫
業務上處理的大數據會包含以下特點:
·從源系統捕獲大量數據
·數據以高速到達
·半結構化或非結構化數據
這就提出了一個非常有趣的問題:在你還沒有進行分析的前提下,你如何知道會存儲什么樣的大數據?亦或是,在沒有收集和存儲的情況下你如何分析大數據?
這是大數據實施的核心問題。甚至是一個包含大數據分析的小的測試或是試驗項目都要求獲取數據并存儲。為了衡量投資一個分析解決方案的風險和回報,你必須首先進行EDW的收集、清洗、暫存以及鍵控這些步驟來處理大數據;否則,要比較并連接到EDW就會極其困難了。
接下來的步驟就是確定EDW中的每個流程是如何受影響的。
大數據獲取與收集
大數據通常意味著的僅僅是:大量數據。你必須為數據分配軟硬件以及存儲介質。包括應急存儲數據,在能夠遷移至EDW之前需要一個應急數據存儲機制以防由于硬件緩慢造成的延遲。而且還要確定這些新設備和流程會如何影響你的災備預案。
最初的大數據分析測試可能會在數據源進行,而繞過EDW流程。但想要取得成功就應該考慮到這樣一個事實,就是大數據分析還是要集成到EDW的數據訪問和分析流程中的。
大數據轉換和遷移
一些大數據實現包含非結構化數據。例如音頻,圖像和視頻文件以及傳真等等。盡管從技術上講,這些數據是“結構化”的,因為它們是可聽和可見的。但結構化這個詞用在大數據環境下意味著數據擁有實體,屬性和關系。換言之就是存儲在數據庫表中的記錄,字段和鍵。
另外一項是半結構化數據,最常見的例子就是XML流數據。很多業務應用程序以常用格式把XML作為一種數據編碼方式。接著數據就可以被多個應用程序讀取,存儲,和處理。
當前版本的DB2允許以本地格式存儲XML數據,而不需要任何的預處理或是解碼到DB2表中。這一特性使得存儲,恢復和分析XML數據更為容易。
數據遷移則引出了另一個問題。快速遷移大量數據可能會需要額外資源,甚至是特殊軟件。
大數據暫存與鍵控
大數據暫存需要額外軟硬件以及存儲介質。因此開辟臨時存儲區是十分必要的。此外,輔以大數據的EDW長期積累數據,這些數據有必要以日期或是時間進行鍵控。人們普遍在EDW中采用業務數據并存儲在數據庫表中以日期進行分區。如果這些表中的數據以日期進行鍵控,那么這些鍵同樣必須添加到大數據中去。
另一個問題是大數據量。為了幫助解決這一問題,多數大數據分析解決方案都包含某種形式的數據壓縮或是特有的數據存儲機制。
大數據訪問與分析
最后我們將數據整合進數據倉庫。此時,用戶可以對合并后的大數據和當前數據倉庫執行分析軟件。這里你便會最終感受到如此實施所付出的成本是否值得。
大數據歸檔
最后我們要考慮數據的歸檔。隨著分析了大量數據,龐大的數據量可能會占據寶貴的存儲并使得一些流程變得緩慢。IT部門以及業務伙伴必須確定在何時和以何種方式對陳舊過期的大數據進行存檔,以及確定是否需要保留以供后用。這也是另一個要考慮的成本因素。
總結
通過對大數據進行分析來增加業務的價值,這樣一個概念聽起來十分美妙。但整個實施流程會有一些步驟并且它們會影響你企業數據倉庫流程的所有部分。看一下你整個的EDW流程,軟硬件,以此來確定大數據部署所造成的影響。也只有如此,你才能為過渡到大數據做好充分準備。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:企業數據倉庫如何過渡到大數據時代