大數據是諸多計算技術的融合。從大的方面來分,大數據技術與研究主要分為大數據基礎理論、大數據關鍵技術和系統、大數據應用以及大數據信息資源庫等幾個重要方面。
從信息系統的角度來看,大數據處理是一個涉及整個軟硬件系統各個層面的綜合性信息處理技術。從信息系統角度可將大數據處理分為基礎設施層、系統軟件層、并行化算法層以及應用層。圖1-12所示是從信息處理系統角度所看到的大數據技術的主要技術層面和技術內容。

大數據主要技術層面和技術內容
1、基礎設施層
基礎設施層主要提供大數據分布存儲和并行計算的硬件基礎設施和平臺。目前大數據處理通用化的硬件設施是基于普通商用服務器的集群,在有特殊的數據處 理需要時,這種通用化的集群也可以結合其他類型的并行計算設施一起工作,如基于眾核的并行處理系統(如GPU或者Intel新近推出的MIC),形成一種 混合式的大數據并行處理構架和硬件平臺。此外,隨著云計算技術的發(fā)展,也可以與云計算資源管理和平臺結合,在云計算平臺上部署大數據基礎設施,運用云計算 平臺中的虛擬化和彈性資源調度技術,為大數據處理提供可伸縮的計算資源和基礎設施。
2、系統軟件層
在系統軟件層,需要考慮大數據的存儲管理和并行化計算系統軟件。
(1)分布式文件系統與數據查詢管理系統
大數據處理首先面臨的是如何解決大數據的存儲管理問題。為了提供巨大的數據存儲能力,人們的普遍共識是,利用分布式存儲技術和系統提供可擴展的大數據存儲能力。
首先需要有一個底層的分布式文件系統,以可擴展的方式支持對大規(guī)模數據文件的有效存儲管理。但文件系統主要是以文件方式提供一個最基礎性的大數據存 儲方式,其缺少結構化/半結構化數據的存儲管理和訪問能力,而且其編程接口對于很多應用來說還是太底層了。傳統的數據庫技術主要適用于規(guī)模相對較小的結構 化數據的存儲管理和查詢,當數據規(guī)模增大或者要處理很多非結構化或半結構化數據時,傳統數據庫技術和系統將難以勝任。現實世界中的大數據不僅數據量大,而 且具有多樣化的形態(tài)特征。據統計,現實世界80%的數據都是非結構化或半結構化的。因此,系統軟件層還需要研究解決大數據的存儲管理和查詢問題。由于 SQL不太適用于非結構化/半結構化數據的管理查詢,因此,人們提出了一種NoSQL的數據管理查詢模式。但是,人們發(fā)現,最理想的還是能提供統一的數據 管理查詢方法,能對付各種不同類型的數據的查詢管理。為此,人們進一步提出了NewSQL的概念和技術。
(2)大數據并行計算模式和系統
解決了大數據的存儲問題后,進一步面臨的問題是,如何能快速有效地完成大規(guī)模數據的計算。大數據的數據規(guī)模之大,使得現有的串行計算方法難以在可接 受的時間里快速完成大數據的處理和計算。為了提高大數據處理的效率,需要使用大數據并行計算模型和框架來支撐大數據的計算處理。目前最主流的大數據并行計 算和框架是Hadoop MapReduce技術。與此同時,近年來人們開始研究并提供不同的大數據計算模型和方法,包括高實時低延遲要求的流式計算,具有復雜數據關系的圖計算, 面向基本數據管理的查詢分析類計算,以及面向復雜數據分析挖掘的迭代和交互計算等。在大多數場景下,由于數據量巨大,大數據處理通常很難達到實時或低延遲 響應。為了解決這個問題,近年來,人們提出了內存計算的概念和方法,盡可能利用大內存完成大數據的計算處理,以實現盡可能高的實時或低延遲響應。目前 Spark已成為一個具有很大發(fā)展前景的新的大數據計算系統和平臺,正受到工業(yè)界和學術界的廣泛關注,有望成為與Hadoop并存的一種新的計算系統和平 臺。
3、并行化算法層
基于以上的基礎設施層和系統軟件層,為了完成大數據的并行化處理,進一步需要考慮的問題是,如何能對各種大數據處理所需要的分析挖掘算法進行并行化設計。
大數據分析挖掘算法大多最終會歸結到基礎性的機器學習和數據挖掘算法上來。然而,面向大數據處理時,絕大多數現有的串行化機器學習和數據挖掘算法都難以在可接受的時間內有效完成大數據處理,因此,這些已有的機器學習和數據挖掘算法都需要進行并行化的設計和改造。
除此以外,還需要考慮很多更貼近上層具體應用和領域問題的應用層算法,例如,社會網絡分析、分析推薦、商業(yè)智能分析、Web搜索與挖掘、媒體分析檢 索、自然語言理解與分析、語義分析與檢索、可視化分析等,雖然這些算法最終大都會歸結到底層的機器學習和數據挖掘算法上,但它們本身會涉及到很多高層的特 定算法問題,所有這些高層算法本身在面向大數據處理時也需要考慮如何進行并行化算法設計。
4、應用層
基于上述三個層面,可以構建各種行業(yè)或領域的大數據應用系統。大數據應用系統首先需要提供和使用各種大數據應用開發(fā)運行環(huán)境與工具;進一步,大數據 應用開發(fā)的一個特別問題是,需要有應用領域的專家歸納行業(yè)應用問題和需求、構建行業(yè)應用和業(yè)務模型,這些模型往往需要專門的領域知識,沒有應用行業(yè)領域專 家的配合,單純的計算機專業(yè)專業(yè)技術人員往往會無能為力,難以下手。只有在領域專家清晰構建了應用問題和業(yè)務模型后,計算機專業(yè)人員才能順利完成應用系統 的設計與開發(fā)。行業(yè)大數據分析和價值發(fā)現會涉及到很多復雜的行業(yè)和領域專業(yè)知識,這一特征在今天的大數據時代比以往任何時候都更為突出,這就是為什么我們 在大數據研究原則中明確提出,大數據的研究應用需要以應用需求為導向、領域交叉為橋梁,從實際行業(yè)應用問題和需求出發(fā),由行業(yè)和領域專家與計算機技術人員 相互配合和協同,以完成大數據行業(yè)應用的開發(fā)。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:大數據的主要技術層面和技術內容