當今社會,數(shù)據(jù)量正在以爆炸方式迅猛增長,數(shù)據(jù)表示形式千變?nèi)f化,標志著我們已經(jīng)進入了大數(shù)據(jù)時代。云計算、三網(wǎng)融合、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的出現(xiàn),更加催生了大數(shù)據(jù)時代的產(chǎn)生。維基百科對大數(shù)據(jù)的定義是: 數(shù)據(jù)增長如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具進行快速的數(shù)據(jù)獲取、存儲、搜索、共享、分析和可視化等操作,這些數(shù)據(jù)量是如此之大,已經(jīng)不是以傳統(tǒng)的 GB 和 TB 為單位來衡量,而是以 PB( 1PB =1024TB) 、EB ( 1EB = 1024PB) ,甚至是以 ZB ( 1ZB =1024EB) 、YB( 1YB = 1024ZB) 為計量單位,所以稱之為大數(shù)據(jù)。有調(diào)查指出,如今大規(guī)模的企業(yè)系統(tǒng)包括由上千臺服務器所構(gòu)成的完整數(shù)據(jù)中心。使用大數(shù)據(jù)日益成為企業(yè)超越競爭對手的有力武器。企業(yè)通過快速獲取、分析由供應商和客戶產(chǎn)生的大量有關(guān)產(chǎn)品和服務的數(shù)據(jù),可以更有針對性地提升消費者所關(guān)心的產(chǎn)品質(zhì)量和服務質(zhì)量,制定出更加符合市場和客戶需求的產(chǎn)品和服務策略,從而獲取更多的市場份額,增強企業(yè)的競爭實力。然而,對于大數(shù)據(jù)時代下的企業(yè)來說,其所需存儲、處理的數(shù)據(jù)量驚人,數(shù)據(jù)來源和數(shù)據(jù)結(jié)構(gòu)繁多復雜,為大數(shù)據(jù)的分析和應用帶來很多挑戰(zhàn)。企業(yè)要想充分發(fā)揮大數(shù)據(jù)所賦予的機遇和優(yōu)勢,前提是必須擁有可靠、準確、及時的高質(zhì)量的數(shù)據(jù),只有從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的、有用的信息,企業(yè)才能做出更加精準、更加符合市場和客戶需求的決策,否則大數(shù)據(jù)的優(yōu)勢將化為泡影。為此,企業(yè)需要更加注重大數(shù)據(jù)時代下的數(shù)據(jù)質(zhì)量及其重要性。
一、大數(shù)據(jù)時代產(chǎn)生的必然
大數(shù)據(jù)是云計算技術(shù)的延伸,更是社會進步和發(fā)展的必然結(jié)果,大數(shù)據(jù)時代的到來引領(lǐng)了未來 IT 技術(shù)發(fā)展的戰(zhàn)略走向。在信息和網(wǎng)絡技術(shù)飛速發(fā)展的今天,越來越多的企業(yè)業(yè)務及社會活動實現(xiàn)了數(shù)字化,特別是隨著數(shù)據(jù)生成的自動化及數(shù)據(jù)生成速度的加快,數(shù)據(jù)量也隨之快速增長。同時,隨著存儲設備、內(nèi)存、處理器等電腦元件成本的穩(wěn)定下降,使得之前較昂貴的大規(guī)模數(shù)據(jù)存儲和處理變得十分經(jīng)濟,也使得大數(shù)據(jù)的存在成為可能。有調(diào)查顯示,企業(yè)信息系統(tǒng)中擁有數(shù)萬億字節(jié)的客戶信息、供應商信息以及業(yè)務運營信息,數(shù)據(jù)已經(jīng)成為業(yè)務活動的副產(chǎn)品。全球最大的零售商沃爾瑪公司,每天通過分布在世界各地的6000 多家商店向全球客戶銷售超過 2.67 億件的商品,分析交易數(shù)據(jù)的數(shù)據(jù)倉庫系統(tǒng)規(guī)模已經(jīng)達到 4PB,并且仍在不斷擴大。傳感器數(shù)據(jù)也是大數(shù)據(jù)的主要來源之一。在物聯(lián)網(wǎng)時代,成萬上億計的網(wǎng)絡傳感器嵌入在數(shù)量不斷增長的智能電表、移動電話、汽車等物理設備中,不斷感知、生成并傳輸超大規(guī)模的有關(guān)地理位置、振動、溫度、濕度等新型數(shù)據(jù),其中 2010 年的移動電話使用量已經(jīng)超過 40 億,傳感器的應用數(shù)量每年正在以 30%的速度增長。此外,全球數(shù)據(jù)存儲量也呈現(xiàn)飛速增長趨勢。2008 年全球數(shù)據(jù)量僅為0.49ZB; 在金融危機籠罩下的 2009 年,數(shù)據(jù)量也較2008 年增長了 63% ,達到 0.8ZB; 2010 年增至 1.2ZB;2011 年高達 1.82ZB; 2012 年則達到 2.7ZB,相比于2011 年的數(shù)據(jù)量增長了 48% 。若以如此快的速度增長,2015 年的全球數(shù)據(jù)量將會升至 8ZB,到 2020 年則高達 35.2ZB,是 2015 年數(shù)據(jù)量的 44 倍之多。
此外,移動互聯(lián)網(wǎng)、三網(wǎng)融合、Web 2.0 技術(shù)和電子商務技術(shù)的飛速發(fā)展,也促進了大數(shù)據(jù)時代的產(chǎn)生和發(fā)展。人們可以通過智能機、便攜機、個人電腦等終端設備,隨時隨地瀏覽網(wǎng)頁,上傳或下載、發(fā)布或共享圖片、視頻、音頻文本等多種媒體格式的文件,其中每秒鐘高清視頻所含的數(shù)據(jù)容量是單頁文本格式數(shù)據(jù)容量的 2000 倍,大量的多媒體內(nèi)容在指數(shù)增長的數(shù)據(jù)量中發(fā)揮著重要的作用。在以 Web 2.0 為技術(shù)支撐的社交網(wǎng)站中,大量網(wǎng)絡用戶的點擊量、瀏覽痕跡、日志、照片、視頻、音頻等多媒體信息都會被記錄下來,隨著時間的推移,如此龐大、復雜的數(shù)據(jù)為跟蹤用戶、分析用戶喜好等提供了基礎,從而使社交網(wǎng)站可以有針對性地開發(fā)、投放滿足用戶需求的各種應用、廣告及商品。同樣,網(wǎng)上書店則通過存儲顧客的搜索路徑、瀏覽記錄、購買記錄等大量數(shù)據(jù),分析顧客的購買傾向,設計算法來預測顧客感興趣的書籍類型。
通過上述典型的大數(shù)據(jù)的例子可以發(fā)現(xiàn),數(shù)字化已經(jīng)成為社會發(fā)展的必然趨勢。與生產(chǎn)過程必須依賴硬件設備和人力資本一樣,企業(yè)的業(yè)務活動、創(chuàng)新、成長也越來越離不開大量數(shù)據(jù)的支持。也就是說,企業(yè)的任何一項業(yè)務活動都與大量的數(shù)據(jù)緊密相聯(lián),而我們每一個人都是數(shù)據(jù)的產(chǎn)生者,數(shù)據(jù)量與日俱增,數(shù)據(jù)結(jié)構(gòu)繁雜多變,數(shù)據(jù)產(chǎn)生速度非常之快,我們已經(jīng)進入了大數(shù)據(jù)的時代。
二、大數(shù)據(jù)的特點
數(shù)據(jù)無所不在,充斥于社會中的每一個部門、每一個經(jīng)濟體、每一個組織、每一個 IT 技術(shù)的使用者,數(shù)據(jù)的海量生產(chǎn)、共享和應用已經(jīng)成為必然。之所以被稱為大數(shù)據(jù),是因為它具有傳統(tǒng)數(shù)據(jù)所不具備的獨特特點( 見表 1) 。
首先,數(shù)據(jù)量龐大。數(shù)據(jù)量大是大數(shù)據(jù)的首要特點之一,大數(shù)據(jù)時代的數(shù)據(jù)量是以 PB、EB、ZB 為存儲單位的。據(jù)麥肯錫全球研究院( MGI) 估計,2010 年,企業(yè)的磁盤中存儲了超過 7EB 字節(jié)的新數(shù)據(jù); 用戶在個人 PC 機和筆記本等設備上的新數(shù)據(jù)存儲量也超過了 6EB 字節(jié)。另有一份報告顯示,沃爾瑪公司每小時能夠從顧客交易信息中收集超過 2. 5PB 字節(jié)的數(shù)據(jù)。截至 2012 年,社會上每天會產(chǎn)生 2. 5EB 量的數(shù)據(jù),這個數(shù)據(jù)量是過去每 40 個月所產(chǎn)生數(shù)據(jù)量的兩倍。社會與企業(yè)被如此龐大的數(shù)據(jù)量所包圍,這也正是大數(shù)據(jù)時代下企業(yè)的重大變化之一,即用數(shù)據(jù)來表示企業(yè)的各種業(yè)務活動。
第二,數(shù)據(jù)增長、變化速度快。這既是大數(shù)據(jù)時代的特點,同時也是企業(yè)處理大數(shù)據(jù)所面臨的難題與挑戰(zhàn)。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)產(chǎn)生、存儲和變化的速率十分驚人。目前因特網(wǎng)上每秒鐘產(chǎn)生的數(shù)據(jù)量比 20 年前整個因特網(wǎng)所存儲的數(shù)據(jù)量還要巨大,可見大數(shù)據(jù)產(chǎn)生速度之快。然而,數(shù)據(jù)量飛速增長的同時,對數(shù)據(jù)處理速度也提出了更高的要求。在這個用數(shù)據(jù)說話、競爭異常激烈的時代,數(shù)據(jù)產(chǎn)生速率甚至比數(shù)據(jù)產(chǎn)生數(shù)量要重要得多,事先擁有了數(shù)據(jù),就意味著事先擁有了市場話語權(quán),能夠讓企業(yè)率先做出符合企業(yè)和消費者需求的戰(zhàn)略決策,使得企業(yè)更加敏捷,從而先于競爭對手快速占領(lǐng)市場,增強企業(yè)的競爭實力。如果企業(yè)不能快速、有效地處理如此龐大的數(shù)據(jù)量,就會被快速增長的數(shù)據(jù)量所淹沒,喪失了大數(shù)據(jù)的價值。
第三,數(shù)據(jù)的多樣性。多樣性也是大數(shù)據(jù)的重要特點之一。大數(shù)據(jù)以多種多樣的形式涌現(xiàn),如來自于傳感器的各種類型數(shù)據(jù)、移動電話的 GPS 定位數(shù)據(jù)、社交網(wǎng)絡中的語音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時代的發(fā)展,新的數(shù)據(jù)來源與數(shù)據(jù)形式也會不斷出現(xiàn)。在如此多樣化的數(shù)據(jù)結(jié)構(gòu)中,可獲得的數(shù)據(jù)常常是非結(jié)構(gòu)化的,因此,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫已經(jīng)很難存儲并處理多樣性的大數(shù)據(jù)。但是在如此大量、繁雜的信息中卻存在著值得人們?nèi)ネ诰虻臐撛谟杏眯畔ⅲ@也正是大數(shù)據(jù)多樣性價值的重要體現(xiàn)。
三、大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的重要性及挑戰(zhàn)
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強企業(yè)生產(chǎn)能力和競爭能力的機會,能夠給企業(yè)帶來巨大的潛在商業(yè)價值。例如在制造領(lǐng)域,嵌入在產(chǎn)品中的傳感器所傳輸?shù)拇髷?shù)據(jù)為企業(yè)開發(fā)新型的售后服務項目、開發(fā)下一代新產(chǎn)品提供了堅實的數(shù)據(jù)基礎。又如在醫(yī)療領(lǐng)域,通過分析患者的臨床和行為數(shù)據(jù),可以更深入地理解患者的病癥,進一步為不同的患者人群提供最適合他們的護理規(guī)劃等等。
大數(shù)據(jù)是企業(yè)決策的基礎,但是單純的數(shù)據(jù)量的積累不會對企業(yè)產(chǎn)生任何益處,只有建立適當?shù)姆治瞿P停⑦\用相應的技術(shù)手段,對大量的數(shù)據(jù)進行有效地深加工,發(fā)現(xiàn)隱含在大量數(shù)據(jù)中的信息并加以利用,進而指導企業(yè)做出相關(guān)決策,才能將大數(shù)據(jù)的真正效用發(fā)揮到極致。如果說云計算為海量分布的數(shù)據(jù)提供了存儲、訪問的平臺,那么如何在這個平臺上實時挖掘數(shù)據(jù)價值,使其為個人、組織和國家服務,將是云計算必然的發(fā)展方向,更是大數(shù)據(jù)技術(shù)的關(guān)鍵核心議題。然而要想充分發(fā)揮大數(shù)據(jù)給企業(yè)帶來的優(yōu)勢,實現(xiàn)大數(shù)據(jù)的價值增值,挑戰(zhàn)卻是巨大的。高質(zhì)量的數(shù)據(jù)是大數(shù)據(jù)發(fā)揮效能的前提和基礎,強大、高端的數(shù)據(jù)分析技術(shù)是大數(shù)據(jù)發(fā)揮效能的重要手段。對大數(shù)據(jù)進行有效分析的前提是必須要保證數(shù)據(jù)的質(zhì)量,專業(yè)的數(shù)據(jù)分析工具只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準確的、有用的信息,企業(yè)基于這些高質(zhì)量分析結(jié)果所做出的各項決策才不至于偏離正常軌道; 否則,即使數(shù)據(jù)分析工具再先進,在充滿“垃圾”的大數(shù)據(jù)環(huán)境中也只能提取出毫無意義的“垃圾”信息。因此數(shù)據(jù)質(zhì)量在大數(shù)據(jù)環(huán)境下顯得尤其重要。
然而,在大數(shù)據(jù)時代下,企業(yè)要想保證大數(shù)據(jù)的高質(zhì)量卻并非易事,很小的、容易被忽視的數(shù)據(jù)質(zhì)量問題在大數(shù)據(jù)環(huán)境下會被不斷放大,甚至引發(fā)不可恢復的數(shù)據(jù)質(zhì)量災難。因此,如何保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,以及如何有效地挖掘隱藏在大數(shù)據(jù)中的信息,成為企業(yè)日益關(guān)心的問題。以制造企業(yè)為例,企業(yè)可以從大量的客戶、產(chǎn)品和銷售信息中獲得更多有價值的信息,進而制定滿足消費者需求的銷售策略。然而這些信息的獲取和提煉都必須以高質(zhì)量的數(shù)據(jù)為前提,如果數(shù)據(jù)質(zhì)量低下,必然會影響提取出的信息的質(zhì)量,甚至是錯誤的、無效的信息。因此在大數(shù)據(jù)環(huán)境下,對數(shù)據(jù)質(zhì)量的要求更加苛刻。
總之,由于大數(shù)據(jù)具有復雜、多樣、多變等特點,在大數(shù)據(jù)時代下,數(shù)據(jù)質(zhì)量很難保證。下文重點從流程、技術(shù)和管理三方面來分析大數(shù)據(jù)環(huán)境下保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及重要性。
(一) 流程視角
從流程的角度,也即從數(shù)據(jù)生命周期角度來看,可以將數(shù)據(jù)生產(chǎn)過程分為數(shù)據(jù)收集、數(shù)據(jù)存儲和數(shù)據(jù)使用三個階段,三個階段對保證大數(shù)據(jù)質(zhì)量分別提出了不同的挑戰(zhàn)。
首先在數(shù)據(jù)收集方面,大數(shù)據(jù)的多樣性決定了數(shù)據(jù)來源的復雜性。大數(shù)據(jù)的數(shù)據(jù)來源眾多,數(shù)據(jù)結(jié)構(gòu)隨著數(shù)據(jù)來源的不同而各異,企業(yè)要想保證從多個數(shù)據(jù)源獲取的結(jié)構(gòu)復雜的大數(shù)據(jù)的質(zhì)量并有效地對數(shù)據(jù)進行整合,是一項異常艱巨的任務。來自于大量不同數(shù)據(jù)源的數(shù)據(jù)之間存在著沖突、不一致或相互矛盾的現(xiàn)象,在數(shù)據(jù)量較小的情形下,通過編寫簡單的匹配程序,甚至是人工查找,即可實現(xiàn)多數(shù)據(jù)源中不一致數(shù)據(jù)的檢測和定位,然而這種方法在大數(shù)據(jù)情形下卻顯得力不從心。在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的一致性、元數(shù)據(jù)定義的統(tǒng)一性及數(shù)據(jù)質(zhì)量是大數(shù)據(jù)為中國甚至全世界企業(yè)提出的挑戰(zhàn)。另外,由于大數(shù)據(jù)的變化速度較快,有些數(shù)據(jù)的“有效期”非常之短,如果企業(yè)沒有實時地收集所需的數(shù)據(jù),有可能收集到的就是“過期的”、無效的數(shù)據(jù),在一定程度上會影響大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)收集階段是整個數(shù)據(jù)生命周期的開始,這個階段的數(shù)據(jù)質(zhì)量對后續(xù)階段的數(shù)據(jù)質(zhì)量起著直接的決定性的影響。因此,企業(yè)應該重視源頭上的大數(shù)據(jù)質(zhì)量問題,為大數(shù)據(jù)的分析和應用提供高質(zhì)量的數(shù)據(jù)基礎。
其次在數(shù)據(jù)存儲階段,由于大數(shù)據(jù)的多樣性,單一的數(shù)據(jù)結(jié)構(gòu)( 如關(guān)系型數(shù)據(jù)庫中的二維表結(jié)構(gòu)) 已經(jīng)遠遠不能滿足大數(shù)據(jù)存儲的需要,企業(yè)應該使用專門的數(shù)據(jù)庫技術(shù)和專用的數(shù)據(jù)存儲設備進行大數(shù)據(jù)的存儲,保證數(shù)據(jù)存儲的有效性。據(jù)調(diào)查,目前國內(nèi)大部分企業(yè)的業(yè)務運營數(shù)據(jù)仍以結(jié)構(gòu)化數(shù)據(jù)為主,相應地主要采用傳統(tǒng)的數(shù)據(jù)存儲架構(gòu),如采用關(guān)系型數(shù)據(jù)庫進行數(shù)據(jù)的存儲,對于非結(jié)構(gòu)化數(shù)據(jù),則是先將其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)后再進行存儲、處理及分析。這種數(shù)據(jù)存儲處理方式不僅無法應對大數(shù)據(jù)數(shù)量龐大、數(shù)據(jù)結(jié)構(gòu)復雜、變化速度快等特點,而且一旦轉(zhuǎn)化方式不當,將會直接影響到數(shù)據(jù)的完整性、有效性與準確性等。而北京市科學技術(shù)委員會委員陳力工曾指出這種結(jié)構(gòu)化的數(shù)據(jù)只占到互聯(lián)網(wǎng)整體流動數(shù)據(jù)的 10%,剩余 90%都為視頻、圖片、音頻等非結(jié)構(gòu)化的數(shù)據(jù),這就對傳統(tǒng)數(shù)據(jù)存儲架構(gòu)的可靠性及有效性構(gòu)成了挑戰(zhàn)。數(shù)據(jù)存儲是實現(xiàn)高水平數(shù)據(jù)質(zhì)量的基本保障,如果數(shù)據(jù)不能被一致、完整、有效的存儲,數(shù)據(jù)質(zhì)量將無從談起。因此,企業(yè)要想充分挖掘大數(shù)據(jù)的核心價值,首先必須完成傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)存儲處理方式向同時兼具結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲處理方式的轉(zhuǎn)變,不斷完善大數(shù)據(jù)環(huán)境下企業(yè)數(shù)據(jù)庫的建設,為保證大數(shù)據(jù)質(zhì)量提供基礎保障。
同時,企業(yè)數(shù)據(jù)庫管理員( Database Administrator,DBA) 應該根據(jù)大數(shù)據(jù)結(jié)構(gòu)的要求和特點合理地設計數(shù)據(jù)存儲和使用規(guī)則,以方便對數(shù)據(jù)的快速讀取。如果數(shù)據(jù)存儲不合理,不僅會浪費系統(tǒng)的存儲空間,而且還會給后期的數(shù)據(jù)使用帶來極大的不便,甚至會產(chǎn)生錯誤、無效的數(shù)據(jù),難以保證數(shù)據(jù)質(zhì)量。此外,DBA 在設計相應規(guī)則時,還要考慮諸多罕見的情況,因為在傳統(tǒng)數(shù)據(jù)量較少的情況下沒有考慮到的情形在大數(shù)據(jù)情況下卻有可能會發(fā)生。如果沒有考慮特殊或罕見情況,或考慮得不夠全面,將會給大數(shù)據(jù)的數(shù)據(jù)質(zhì)量帶來嚴重的影響,甚至是危機。
最后,在數(shù)據(jù)使用階段,數(shù)據(jù)價值的發(fā)揮在于對數(shù)據(jù)的有效分析和應用,大數(shù)據(jù)涉及的使用人員眾多,很多時候是同步地、不斷地對數(shù)據(jù)進行提取、分析、更新和使用,任何一個環(huán)節(jié)出現(xiàn)問題,都將嚴重影響企業(yè)系統(tǒng)中的大數(shù)據(jù)質(zhì)量,影響最終決策的準確性。舉例來說,由于大數(shù)據(jù)規(guī)模龐大、變化速度快,對數(shù)據(jù)的處理速度要求較高,如果數(shù)據(jù)處理不及時,有些變化速度快的數(shù)據(jù)就失去了其最有價值的階段,有些“過期”的數(shù)據(jù)甚至與實際數(shù)據(jù)不符,企業(yè)根據(jù)這些“過期”的無效數(shù)據(jù)所做出的決策必然也是無效的,甚至是錯誤的。從這個角度來講,數(shù)據(jù)及時性也是大數(shù)據(jù)質(zhì)量的一個重要方面,如果企業(yè)不能快速地進行數(shù)據(jù)分析,不能從數(shù)據(jù)中及時地提取出有用的信息,就將會喪失預先占領(lǐng)市場的先機。
( 二) 技術(shù)視角
本文的技術(shù)視角主要是指從數(shù)據(jù)庫技術(shù)、數(shù)據(jù)質(zhì)量檢測識別技術(shù)、數(shù)據(jù)分析技術(shù)的角度來研究保證大數(shù)據(jù)質(zhì)量的挑戰(zhàn)及其重要性。大數(shù)據(jù)及其相關(guān)分析技術(shù)的應用能夠為企業(yè)提供更加準確的預測信息、更好的決策基礎以及更精準的干預政策,然而如果大數(shù)據(jù)的數(shù)據(jù)質(zhì)量不高,所有這些優(yōu)勢都將化為泡影。
在數(shù)據(jù)規(guī)模較小的情況下,關(guān)系型數(shù)據(jù)庫就能滿足企業(yè)數(shù)據(jù)存儲的需要,一般企業(yè)信息系統(tǒng)數(shù)據(jù)庫中的記錄通常會達到幾千條或上萬條,規(guī)模稍大的企業(yè),其數(shù)據(jù)記錄能達到幾十萬條,在這種情況下,檢測數(shù)據(jù)庫中錯誤、缺失、無效、延遲的數(shù)據(jù)非常容易,幾分鐘甚至幾秒鐘就能完成對所有記錄的掃描和檢測。然而在大數(shù)據(jù)時代,企業(yè)的數(shù)據(jù)量不僅巨大,而且數(shù)據(jù)結(jié)構(gòu)種類繁多,不僅僅有簡單的、結(jié)構(gòu)化的數(shù)據(jù),更多的則是復雜的、非結(jié)構(gòu)化的數(shù)據(jù),而且數(shù)據(jù)之間的關(guān)系較為復雜,若要識別、檢測大數(shù)據(jù)中錯誤、缺失、無效、延遲的數(shù)據(jù),往往需要遍歷數(shù)百萬甚至數(shù)億條記錄或語句,傳統(tǒng)的技術(shù)和方法常常需要幾小時甚至幾天的時間才能完成對所有數(shù)據(jù)的掃描與檢測,因此,從這個角度來講,大數(shù)據(jù)環(huán)境為數(shù)據(jù)質(zhì)量的監(jiān)測和管理帶來了巨大的挑戰(zhàn)。這種情況下,傳統(tǒng)的數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘工具和數(shù)據(jù)清洗技術(shù)在處理速度和分析能力上已經(jīng)無法應對大數(shù)據(jù)時代所帶來的挑戰(zhàn),處理小規(guī)模數(shù)據(jù)質(zhì)量問題的檢測工具已經(jīng)不能勝任大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量問題的檢測和識別任務,這就要求企業(yè)應根據(jù)實際業(yè)務的需要,在配備高端的數(shù)據(jù)存儲設備的同時,開發(fā)、設計或引進先進的、智能化的、專業(yè)的大數(shù)據(jù)分析技術(shù)和方法,以實現(xiàn)大數(shù)據(jù)中數(shù)據(jù)質(zhì)量問題的檢測與識別,以及對大數(shù)據(jù)的整合、分析、可視化等操作,充分地提取、挖掘大數(shù)據(jù)潛在的應用價值。
大數(shù)據(jù)是 IT 領(lǐng)域又一次新的技術(shù)變革,國際數(shù)據(jù)公司( International Data Corporation,IDC) 指出,在大數(shù)據(jù)潮流中,新的數(shù)據(jù)類型與新的數(shù)據(jù)分析技術(shù)的缺失將是阻礙企業(yè)成為其行業(yè)領(lǐng)導者的重要方面。然而,由于大數(shù)據(jù)熱潮在國內(nèi)剛剛掀起,諸多企業(yè)仍然采用的是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)處理方式及適用于小規(guī)模數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù),對先進的大數(shù)據(jù)存儲處理技術(shù)和分析工具仍處于學習和了解階段。另外,國內(nèi)對于大數(shù)據(jù)相關(guān)技術(shù)的開發(fā)多關(guān)注于數(shù)據(jù)分布式存儲及并行計算方面,能夠滿足大數(shù)據(jù)特點及要求的數(shù)據(jù)質(zhì)量檢測和清洗的智能化工具十分稀缺。這些都為保障大數(shù)據(jù)質(zhì)量、充分發(fā)揮數(shù)據(jù)質(zhì)量在推動大數(shù)據(jù)應用有效性方面的重要作用提出了挑戰(zhàn)。
( 三) 管理視角
管理視角主要探討企業(yè)高層管理者、專業(yè)管理和技術(shù)分析人員對保證大數(shù)據(jù)質(zhì)量的重要性。
首先,大數(shù)據(jù)的管理需要企業(yè)高層管理者的重視和支持。只有得到了企業(yè)高層管理者的高度重視,一系列跟大數(shù)據(jù)有關(guān)的應用及發(fā)展規(guī)劃才能有望得到推動,保證大數(shù)據(jù)質(zhì)量的各項規(guī)章制度才能得到順利的貫徹和落實。如果企業(yè)高層管理者缺乏大數(shù)據(jù)意識以及對大數(shù)據(jù)價值的正確理解,通常會給大數(shù)據(jù)管理帶來阻礙。缺少高層管理者的支持,企業(yè)對大數(shù)據(jù)管理、分析和應用的重視程度就會有所降低,大數(shù)據(jù)的質(zhì)量就無法得到全面、有效的保證,從而將會大大弱化大數(shù)據(jù)價值的發(fā)揮,不利于企業(yè)競爭能力的提升。因此,企業(yè)應該在高層管理的領(lǐng)導和帶領(lǐng)下,加強大數(shù)據(jù)質(zhì)量意識,建立完善的數(shù)據(jù)質(zhì)量保證制度。然而,大數(shù)據(jù)在中國仍然處于“初級發(fā)展階段”,遠未達到系統(tǒng)化使用大數(shù)據(jù)技術(shù)對數(shù)據(jù)進行深度分析和挖掘的程度,還沒有充分體會到大數(shù)據(jù)分析及應用給企業(yè)帶來的巨大商業(yè)價值,因此企業(yè)高管對大數(shù)據(jù)的認識還沒有真正提升到企業(yè)發(fā)展的戰(zhàn)略高度,大數(shù)據(jù)的質(zhì)量也因此并沒有得到充分地重視,這在很大程度上阻礙了大數(shù)據(jù)在國內(nèi)企業(yè)的發(fā)展。
其次,專業(yè)數(shù)據(jù)管理人員的配備是保證大數(shù)據(jù)質(zhì)量不可或缺的部分。由于大數(shù)據(jù)本身的復雜性增加了大數(shù)據(jù)管理的難度,既懂得數(shù)據(jù)分析技術(shù),同時又諳熟企業(yè)各項業(yè)務的新型復合型管理人員是當下企業(yè)應用大數(shù)據(jù)方案最急需的人才,而首席數(shù)據(jù)官( Chief Data Officer,CDO) 就是這類人才的典型代表。CDO 是有效管理企業(yè)大數(shù)據(jù)、保證大數(shù)據(jù)質(zhì)量的中堅力量。企業(yè)要想充分運用大數(shù)據(jù)方案,任命 CDO 來專門負責大數(shù)據(jù)所有權(quán)管理、定義元數(shù)據(jù)標準、制定并實施大數(shù)據(jù)管理決策等一系列活動是十分必要的。一份針對全球500 家企業(yè)的調(diào)查結(jié)果顯示,指定高層管理人員專門負責數(shù)據(jù)管理的 50 家企業(yè)的績效要遠遠高于其他企業(yè)的績效。因此,大數(shù)據(jù)環(huán)境下,需要 CDO 這樣的新型管理人才,根據(jù)企業(yè)的業(yè)務需求選擇合適的數(shù)據(jù)庫以及數(shù)據(jù)抽取、轉(zhuǎn)換和分析等工具,進行相關(guān)的數(shù)據(jù)挖掘、數(shù)據(jù)處理和分析,并根據(jù)分析結(jié)果對企業(yè)未來的業(yè)務規(guī)劃和發(fā)展戰(zhàn)略提供相應的建議和意見。然而,對于國內(nèi)傳統(tǒng)的中小型企業(yè)來說,其擁有的數(shù)據(jù)規(guī)模較小,數(shù)據(jù)復雜程度較低,利用數(shù)據(jù)挖掘技術(shù)探究潛在市場機遇的情況并不多,因此它們對大數(shù)據(jù)的認識明顯不足,不會意識到建立 CDO 職位的必要性和重要性。即使是在擁有大數(shù)據(jù)規(guī)模的大中型企業(yè),它們的數(shù)據(jù)管理和分析部門通常處于分散、被動、輔助的地位,沒有得到企業(yè)的充分高度重視,也同樣沒有把建立CDO 提升到企業(yè)戰(zhàn)略的高度,沒有意識到大數(shù)據(jù)環(huán)境下 CDO 對企業(yè)的重要作用,很多時候只是在企業(yè)內(nèi)部設立了首席信息官( Chief Information Officer,CIO) 一職來肩負最基本的數(shù)據(jù)管理職責。但是由于 CIO 是技術(shù)行家,缺乏全面、專業(yè)地對企業(yè)業(yè)務數(shù)據(jù)進行分析、整理和挖掘的能力,最終將會導致企業(yè)漸漸失去大數(shù)據(jù)所賦予的競爭優(yōu)勢。另外,CDO 的門檻很高,既要對企業(yè)各項業(yè)務的運作流程十分熟悉,又要懂得IT、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)的應用,同時還要具備極強的數(shù)據(jù)分析能力,集這些技能于一身的人才在國內(nèi)非常稀少,這種大數(shù)據(jù)應用需求高漲與 CDO 人才缺失之間的矛盾將成為國內(nèi)大數(shù)據(jù)應用面臨的最大挑戰(zhàn)之一。
CDO 的缺失是國內(nèi)數(shù)據(jù)管理方式落后的直接體現(xiàn),而落后的數(shù)據(jù)管理方式是影響大數(shù)據(jù)應用、阻礙大數(shù)據(jù)質(zhì)量提升的重要因素之一。傳統(tǒng)的數(shù)據(jù)管理方式已經(jīng)遠遠不能滿足大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的要求。以往大部分企業(yè)在運營過程中均由業(yè)務部門負責掌管數(shù)據(jù),IT 部門負責信息技術(shù)的應用,這種分離式的運營管理方式容易造成業(yè)務人員不了解分析不同數(shù)據(jù)所需的不同 IT 工具,而 IT 人員在運用 IT 技術(shù)分析數(shù)據(jù)時不了解數(shù)據(jù)本身的內(nèi)涵,甚至會做出錯誤的數(shù)據(jù)解釋,影響了企業(yè)決策的準確性和有效性。為此,企業(yè)應該對組織架構(gòu)體系及其資源配置進行重組,讓數(shù)據(jù)管理與分析部門處于企業(yè)的上游位置,而設立 CDO 便是企業(yè)重組的成功標志之一。大數(shù)據(jù)環(huán)境下,同時還應配備專業(yè)、高端的數(shù)據(jù)庫設計和開發(fā)人員、程序員、數(shù)學和統(tǒng)計學家,在全面保證大數(shù)據(jù)質(zhì)量的同時,充分挖掘大數(shù)據(jù)潛在的商業(yè)價值。
此外,在大數(shù)據(jù)生產(chǎn)過程的任何一個環(huán)節(jié),企業(yè)都應該配備相應的專業(yè)數(shù)據(jù)管理人員,通過熟悉掌握數(shù)據(jù)的產(chǎn)生流程進行數(shù)據(jù)質(zhì)量的監(jiān)測和控制,例如在數(shù)據(jù)獲取階段,應指定專門人員負責記錄定義并記錄元數(shù)據(jù),以便于數(shù)據(jù)的解釋,保證企業(yè)全體人員對數(shù)據(jù)的一致、正確理解,保證大數(shù)據(jù)源頭的質(zhì)量。
四、結(jié)語
像互聯(lián)網(wǎng)、云計算以及物聯(lián)網(wǎng)等技術(shù)一樣,大數(shù)據(jù)時代的到來勢必會再次讓信息技術(shù)領(lǐng)域煥然一新。大數(shù)據(jù)時代下,每個個體都是數(shù)據(jù)的產(chǎn)生者,企業(yè)的任何一項業(yè)務活動都可以用數(shù)據(jù)來表示,如何保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息以提升企業(yè)信息系統(tǒng)績效、提升企業(yè)決策能力,成為擺在業(yè)界和學術(shù)界面前的重大難題。管理大數(shù)據(jù)如同管理企業(yè)員工一樣,員工人數(shù)越多,管理起來越復雜,大數(shù)據(jù)管理也是如此。在數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)簡單、數(shù)據(jù)來源少的情形下,數(shù)據(jù)管理相對簡單,數(shù)據(jù)質(zhì)量也相對容易保證; 但是在數(shù)據(jù)量大、變化速度快、結(jié)構(gòu)復雜、來源眾多的大數(shù)據(jù)情形下,保證數(shù)據(jù)質(zhì)量并非易事。再加上國內(nèi)大部分企業(yè)的大數(shù)據(jù)及數(shù)據(jù)質(zhì)量重要性意識還較淡薄,大數(shù)據(jù)方案的建設及應用在我國尚不成熟,企業(yè)的數(shù)據(jù)存儲分析技術(shù)、數(shù)據(jù)管理方案等各項配套設施和制度還不完善,可見保證大數(shù)據(jù)的質(zhì)量任重而道遠。因此,從數(shù)據(jù)收集、數(shù)據(jù)存儲到數(shù)據(jù)使用,企業(yè)必須制定詳細、縝密的數(shù)據(jù)質(zhì)量管理制度,在數(shù)據(jù)庫設計時要考慮大數(shù)據(jù)在各個方面可能發(fā)生的種種意外情形,利用專門的數(shù)據(jù)提取和分析工具,任命專業(yè)的數(shù)據(jù)管理人才加強對大數(shù)據(jù)的管理,提高員工的數(shù)據(jù)質(zhì)量意識,以保證大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,從而挖掘出更多準確、有效、有價值的信息。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領(lǐng)域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標題:大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)
本文網(wǎng)址:http://m.hanmeixuan.com/html/support/11121816028.html