本系列以獨(dú)特的視角,比較了非互聯(lián)網(wǎng)和互聯(lián)網(wǎng)兩個(gè)時(shí)代以及傳統(tǒng)與非傳統(tǒng)兩個(gè)行業(yè)。是對(duì)數(shù)據(jù)平臺(tái)發(fā)展的一個(gè)回憶,對(duì)非互聯(lián)網(wǎng)、互聯(lián)網(wǎng),從數(shù)據(jù)平臺(tái)的用戶角度、數(shù)據(jù)架構(gòu)演進(jìn)、模型等進(jìn)行了闡述。
圖1 大數(shù)據(jù)平臺(tái)發(fā)展史
前言,”數(shù)據(jù)模型“這個(gè)詞只要是跟數(shù)據(jù)沾邊就會(huì)出現(xiàn)的一個(gè)詞,在數(shù)據(jù)庫(kù)設(shè)計(jì)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘上、業(yè)務(wù)里都存在,聚焦一下,這里提到的是數(shù)據(jù)平臺(tái)中的”數(shù)據(jù)模型“。這是一個(gè)非常的抽象詞,個(gè)人也很難用簡(jiǎn)單語(yǔ)言把他描述出來(lái),這一章也是整個(gè)系列中較為抽象的一章節(jié),同時(shí)這個(gè)章節(jié)將會(huì)回答非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)數(shù)據(jù)模型是什么?如何需要數(shù)據(jù)模型?如何簡(jiǎn)單的建設(shè)?
在“我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史:非互聯(lián)網(wǎng)時(shí)代(上)”曾經(jīng)提到Billinmon與Ralph kilmball兩位大師的設(shè)計(jì)理念,對(duì)業(yè)務(wù)的數(shù)據(jù)按照某種規(guī)則進(jìn)行有效組織并滿足業(yè)務(wù)需求。
在構(gòu)建過(guò)程中,有一個(gè)角色理解業(yè)務(wù)并探索分散在各系統(tǒng)間的數(shù)據(jù),并通過(guò)某條業(yè)務(wù)主線把這些分散在各角落的數(shù)據(jù)串聯(lián)并存儲(chǔ)同時(shí)讓業(yè)務(wù)使用,在設(shè)計(jì)時(shí)苦逼的地方除了考慮業(yè)務(wù)數(shù)據(jù)結(jié)構(gòu)要素外,還得考慮可操作性、約束性(備注 約束性是完成數(shù)據(jù)質(zhì)量提升的一個(gè)關(guān)鍵要素,未來(lái)新話題主題會(huì)討論這些),這個(gè)既要顧業(yè)務(wù)、數(shù)據(jù)源、合理的整合的角色是數(shù)據(jù)模型設(shè)計(jì)師,又叫數(shù)據(jù)模型師。
非互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)模型是一個(gè)高度智慧業(yè)務(wù)抽象結(jié)晶,數(shù)據(jù)模型是整個(gè)系統(tǒng)建設(shè)過(guò)程的導(dǎo)航圖。
圖2 數(shù)據(jù)模型
平臺(tái)中模型設(shè)計(jì)所關(guān)注的是企業(yè)分散在各角落數(shù)據(jù)、未知的商業(yè)模式與未知的分析報(bào)表,通過(guò)模型的步驟,理解業(yè)務(wù)并結(jié)合數(shù)據(jù)整合分析,建立數(shù)據(jù)模型為Data cLEANing 指定清洗規(guī)則、為源數(shù)據(jù)與目標(biāo)提供ETL mapping (備注:ETL 代指數(shù)據(jù)從不同源到數(shù)據(jù)平臺(tái)的整個(gè)過(guò)程,ETL Mapping 可理解為數(shù)據(jù)加工算法,給數(shù)碼看的,互聯(lián)網(wǎng)與非互聯(lián)網(wǎng)此處差異性也較為明顯,非互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái)對(duì)ETL定義與架構(gòu)較為復(fù)雜)支持、理清數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。(備注:Data cLEANing 是指的數(shù)據(jù)清洗數(shù)據(jù)質(zhì)量相關(guān)不管是在哪個(gè)行業(yè),是最令人頭痛的問(wèn)題,分業(yè)務(wù)域、技術(shù)域的數(shù)據(jù)質(zhì)量問(wèn)題,需要通過(guò)事前盤點(diǎn)、事中監(jiān)控、事后調(diào)養(yǎng),有機(jī)會(huì)在闡述)。
大家來(lái)看一張較為嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)模型關(guān)系圖:
圖3 數(shù)據(jù)模型關(guān)系
數(shù)據(jù)模型是整個(gè)數(shù)據(jù)平臺(tái)的數(shù)據(jù)建設(shè)過(guò)程的導(dǎo)航圖。
有利于數(shù)據(jù)的整合。數(shù)據(jù)模型是整合各種數(shù)據(jù)源指導(dǎo)圖,對(duì)現(xiàn)有業(yè)務(wù)與數(shù)據(jù)從邏輯層角度進(jìn)行了全面描述,通過(guò)數(shù)據(jù)模型,可以建立業(yè)務(wù)系統(tǒng)與數(shù)據(jù)之間的映射與轉(zhuǎn)換關(guān)系。排除數(shù)據(jù)描述的不一致性。如:同名異義、同物異名..。
減少多余冗余數(shù)據(jù),因?yàn)榱私鈹?shù)據(jù)之間的關(guān)系,以及數(shù)據(jù)的作用。在數(shù)據(jù)平臺(tái)中根據(jù)需求采集那些用于分析的數(shù)據(jù),而不需要那些純粹用于操作的數(shù)據(jù)。
在面對(duì)企業(yè)復(fù)雜業(yè)務(wù)與成千上萬(wàn)的數(shù)據(jù)項(xiàng)進(jìn)行設(shè)計(jì)時(shí),沒(méi)有哪個(gè)牛逼的人都記得住的,所以出現(xiàn)了按照某種層次規(guī)則去有組織并抽象與管理易用,由此誕生了概念模型、邏輯模型、物理模型(備注 數(shù)據(jù)平臺(tái)數(shù)據(jù)模型,而非數(shù)據(jù)挖掘的模型)。
數(shù)據(jù)模型在數(shù)據(jù)平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)中是一個(gè)統(tǒng)稱,嚴(yán)格上來(lái)講分為概念模型、邏輯模型、物理模型。(備注:四類模型如何去詳細(xì)構(gòu)建文本不深講,關(guān)于非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)模型網(wǎng)上非常多)
圖4 數(shù)據(jù)模型
在“我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史:非互聯(lián)網(wǎng)時(shí)代(上)”提到兩位大師的架構(gòu)與爭(zhēng)論,進(jìn)一步聚焦來(lái)說(shuō),爭(zhēng)論點(diǎn)我的認(rèn)為其實(shí)是在數(shù)據(jù)模型的支持上,Bill Inmon的EDW的原則是準(zhǔn)三范式的設(shè)計(jì)、Ralph kilmbal是星型結(jié)構(gòu)。
Bill Inmon對(duì)EDW的定義是面向事物處理、面向數(shù)據(jù)管理,從數(shù)據(jù)的特征上需要堅(jiān)持維護(hù)最細(xì)粒度的數(shù)據(jù)、維護(hù)最微觀層次的數(shù)據(jù)關(guān)系、保存數(shù)據(jù)歷史。所以在構(gòu)建完畢的數(shù)據(jù)平臺(tái)中可以從中映射并檢查業(yè)務(wù)信息的完整性(同時(shí)也是養(yǎng)數(shù)據(jù)過(guò)程中的重要反饋點(diǎn)),這種方式還可以找出多個(gè)系統(tǒng)相關(guān)和重合的信息,減少多個(gè)系統(tǒng)之間數(shù)據(jù)的重復(fù)定義和不一致性,減小了應(yīng)用集成的難度。
圖5 數(shù)據(jù)模型-party
圖6 數(shù)據(jù)模型-party
該建設(shè)方式的要點(diǎn)是首先建立各個(gè)數(shù)據(jù)源業(yè)務(wù)的實(shí)體關(guān)系、然后再根據(jù)保存的主子實(shí)體關(guān)系、存儲(chǔ)性能做優(yōu)化。
Ralph kilmball 對(duì)DM(備注:數(shù)據(jù)集市,非挖掘模型)的定義是面向分析過(guò)程的(Analytical Process oriented),因?yàn)檫@個(gè)模型對(duì)業(yè)務(wù)用戶非常容易理解,同時(shí)為了查詢也是做了專門的性能優(yōu)化。所以星型、雪花模型很直觀比較高性能為用戶提供查詢分析。
圖7
該方式的建模首先確定用戶需求問(wèn)題與業(yè)務(wù)需求數(shù)據(jù)粒度,構(gòu)建分析所需要的維度、與度量值形成星型模型;(備注 涉及的復(fù)雜維度、退化維度等不在這個(gè)討論范圍)。
數(shù)據(jù)模型的業(yè)務(wù)建模階段、領(lǐng)域概念模型階段、邏輯模型階段、物理模型階段是超級(jí)學(xué)術(shù)與復(fù)雜的話題,而且在模型領(lǐng)域根據(jù)特點(diǎn)又分主數(shù)據(jù)(MDM)、CIF(企業(yè)級(jí)統(tǒng)一視圖)、通用模型(IBM的金融、保險(xiǎn)行業(yè)通用模型、Teradata的金融通用模型、電信移動(dòng)通用模型等),鎖涉及到術(shù)語(yǔ)”擴(kuò)展“、”扁平化“、”裁剪“等眼花繚亂的建模手法,數(shù)據(jù)模型不同層次ODS、DWD
DWD、DW、ST的分層目的不同導(dǎo)致模型設(shè)計(jì)方法又不同。相信業(yè)界有很多大牛能講的清楚的,以后有機(jī)會(huì)再交流。
圖8 個(gè)人客戶統(tǒng)一視圖
本文帶大家回憶了歷史非互聯(lián)網(wǎng)的數(shù)據(jù)平臺(tái)發(fā)展與核心模型特點(diǎn),當(dāng)然數(shù)據(jù)平臺(tái)的發(fā)展不是一步到位的,是經(jīng)過(guò)無(wú)數(shù)人的智慧、努力反復(fù)迭代而逐漸演進(jìn)的。
非互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)平臺(tái)發(fā)展,每一代的平臺(tái)架構(gòu)中的結(jié)構(gòu)都是及其復(fù)雜的,比如ETL架構(gòu)、數(shù)據(jù)模型架構(gòu)、BD的架構(gòu)、前端展現(xiàn)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量等各方面,每一部分展開(kāi)都是一個(gè)很深的話題,有機(jī)會(huì)再分享給大家。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:我所經(jīng)歷的大數(shù)據(jù)平臺(tái)發(fā)展史(下)
本文網(wǎng)址:http://m.hanmeixuan.com/html/support/11121519145.html