1 大數據時代的來臨
隨著通信行業競爭的不斷加劇,運營商如何有效地利用龐大的信令數據進一步實現深度運營和精確營銷已經成為當務之急,急需一種可控投入就可滿足可控信令數據存儲,并能高效地對其分析、挖掘信令數據價值的數據平臺。Big Data”大數據”是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革,對國家治理模式,對企業決策、組織和業務流程,對個人生活方式都將產生巨大的影響。在研究領域,麥肯錫認為,數據已成為流入全球經濟每一個領域的洪流。大數據完全能夠成為企業的新型資產,形成競爭力的重要基礎,并發揮重要的經濟作用。IDC認為,大數據處理將在2012年成為一項必備能力。Gartner認為,2015年超過85%的財富500強企業將在大數據競爭中失去優勢。2012年3月,奧巴馬政府發布了“大數據發展計劃”,并將其定義為“未來的新石油”。這一系列事件使得大數據成為又一個炙手可熱的名詞。
電信運營商引入大數據技術,通過可控的成本實現海量數據存儲分層的同時,通過縮短數據處理路徑和提供超大數據處理帶寬,有效減少數據分析響應時間,提升信令分析的業務價值,增強運營商核心競爭力。
2 大數據時代面臨的挑戰
2.1 大數據概念
(1) 數據規模大:很難給出一個絕對的數字標準來確定大小,可能用一些模糊的感覺來相對比較;
(2) 數據結構復雜度高:復雜的數據結構的數據能夠傳遞更豐富的信息;
(3) 數據關聯度高:數據關聯度的高低關系到數據的可挖掘程度,如果數據關聯度低,無論數據量如何大,結構如何復雜,也形成不了大數據。
2.2 大數據時代面臨的問題
(1) 簡單的腳本語言預處理,無法解析過于復雜的數據結構;
(2) 關系型數據庫在大數據面前面臨尷尬;
(3) 商業數據庫的優化空間有限;
(4) 數據質量無法做到有效監控;
(5) 越來越多的業務需求向數據運算能力妥協。
3 基于云計算的大數據方案研究與設計
3.1 大數據統一分析平臺設計思路
圖1 大數據平臺體系架構
(1) 在企業內構建統一的數據運算平臺;
(2) 企業所有者可以直接控制其數據實例;
(3) 通過實體整合直接提供企業級的數據訪問功能;
(4) 靈活的擴展和配置降低了投資的平均風險。
3.2 大數據統一分析平臺軟件架構
圖2 大數據平臺與傳統方案架構比較
云時代的大數據平臺不僅以高性價比、高擴展性的硬件體系支撐PB級別,甚至ZB級別的海量結構化、半結構化、甚至非結構化的數據存儲。同時還需要能夠高速的挖掘這些數據的價值,為企業創造利潤,真正實現大數據等于大價值。
基于云計算的大數據統一分析平臺結合數據庫存儲和Map Reduce架構為企業構建高效處理的結構化、半結構化、甚至非結構化數據的大數據分析平臺,客戶可以以此平臺為基礎實現數據資產從成本中心到利潤中心的轉變,以數據驅動業務。
圖3 大數據統一分析平臺數據軟件架構
(1) 軟件架構
通過Master主機和多節點的Segment主機和數據庫通過互聯網絡連接。應用程序通過Master主機訪問數據,網絡中的每一個存儲節點都是獨立的數據庫,相互之間沒有共享。在多存儲節點和Master主機之間進行數據交換。各個節點的segment服務器通過互聯網絡進行連接,完成相同的任務,從用戶的角度來看是一個服務器系統。
其基本特征是由segment服務器(每個segment服務器為節點)通過互聯網絡連接而成,每個節點只訪問自己的本地資源包括內存、存儲等,是一種完全的無共享結構(share-nothing),因而擴展能力最好,理論上期擴展無限制,目前的技術可實現512個節點的互聯,數千個CPU。每個節點可運行自己的數據庫、操作系統,但是每個節點不能訪問其他節點的內存,節點之間的信息交互是通過節點互聯網實現的,這一過程稱為數據重分配。(2) 高可用性方案設計
圖4 大數據平臺高可用性架構
Master主機與備Master主機采用一主一備方式同步進程,Master主機與多節點的Segment主機通過GE網絡進行連接,每一節點Segment主機上包含了主網段和鏡像網段兩份數據,保障整個系統架構的高可用性。
3.3 大數據統一分析平臺網絡架構
(1) 目前的共享架構方案
圖5 完全共享性架構
“完全共享”體系局限于單一服務器(通常是價格比較昂貴的SMP服務器)。
圖6 共享磁盤架構
“磁盤共享”體系允許系統帶有多個服務器,這些服務器與SAN或其它共享存儲設備相連。這種體系需要通過一個狹窄的數據管道將所有I/O信息過濾到昂貴的共享磁盤子系統。
從結構上分析,采用“完全共享”或“磁盤共享”體系,其擴展性和性能受到相應的限制。而且,通用磁盤共享體系復雜、脆弱,在處理萬億字節數據時難以勝任。
(2) share-nothing完全不共享架構方案
圖7 “完全不共享”架構
完全不共享架構的磁盤SAN/FC網絡、網絡主機SAN/共享磁盤、通用數據庫等是針對OLTP處理功能設計的,在運行大量小規模交易查詢數據時效果最好。
在“完全不共享”體系下,在主機上規劃查詢項目,并將其分成若干部分在集群上并行執行,所有通訊功能都在一個高寬帶網絡互連體系上實現。這種體系的一個重要優勢就是每個節點都有一個通往本地磁盤的獨立高速通道,從而簡化了體系,并提供擴展性很好的并行掃描和查詢處理功能。
3.4 大數據統一分析平臺方案特點
(1) 數據保護-節點鏡像
圖8 大數據統一分析平臺數據保護
在大數據統一分析平臺中,只有Master主機保存了系統的元數據,每一節點的Segment主機保存了用戶的部分數據,通過鏡像,Segment主機的鏡像數據保存在不同的Segment主機上。
比如:Segment主機1的主要數據版本1在Segment主機1,它的鏡像數據保存在Segment主機n;Segment主機2的主要數據版本2在Segment主機2,它的鏡像數據保存在Segment主機1;Segment主機n的主要版本數據在Segment主機n,它的鏡像數據保存在Segment主機2;
根據這樣的鏡像配置,如果有Segment主機down機了,仍舊可以從其他節點的Segment主機恢復完整的可用數據到本Segment主機數據庫系統。
(2) 基于外部表的高速數據加載
圖9 大數據統一分析平臺外部表加載
①并行數據流引擎,可以直接用SQL操作外部表;
②加載完全并行,加載速度可達4.5TB/小時。
(3) MapReduce & SQL一體環境
與傳統的RDBMS系統和編程環境不同,大數據分析平臺采用MapReduce & SQL一體化的環境。
(4) 私有云計算平臺
硬件采用X86開放架構的PC服務器,數據分布式存儲和采用大規模并行計算,從根本上解決I/O問題,性能線性擴展,高可用保障,資源按需定制。
3.5 大數據統一分析平臺優勢分析
(1) 允許根據業務優先級按需調配和再分配大量計算資源的敏捷性;
(2) 能夠分析更細化、更多元化的低延遲數據集(大數據),同時保留數據內的細微區別和關系,以便得出有利于優化業務績效的差異化洞見點;
(3) 圍繞關鍵業務計劃展開組織范圍的協作,快速傳播最佳做法和組織發現的結果;
(4) 成本優勢:可以利用商品化處理組件來分析大數據,從而利用以前即便能利用也不能經濟高效的利用的業務機會。
基于云計算的大數據統一分析平臺將帶來可大幅擴展的處理容量,允許利用細粒度數據集,實現低延遲數據訪問以及緊密的數據倉庫和分析集成,為公司和企業提供有實際內容并有可操作性的洞見點。
4 結束語
根據Gartner的預測,2012年大數據技術處于高速的發展時期,不斷取得技術上的突破,產品密集發布或者其他能產生重大利益的項目快速大量出現。基于云計算的大數據統一分析平臺將有效地支撐數據關聯度高、數據結構復雜的數據,有效支持PB級別數據、有效減少數據分析響應時間,提升信令分析的業務價值。基于云計算的大數據統一分析平臺對電信運營商未來業務和技術的發展有重要的戰略意義和經濟意義。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:基于云計算的大數據統一分析平臺研究與設計