| 當前位置：拓步ERP資訊網 >>新聞動態(tài) >>觀點縱橫

京東王曉雨：Apache Kylin在云海的實踐

發(fā)布日期：2015-12-4 9:52:55 來源：m.hanmeixuan.com 編輯：拓步ERP資訊網瀏覽：評論

摘要：ApacheKylin旨在減少Hadoop在10億及百億規(guī)模以上數(shù)據(jù)級別的情況下的查詢延遲，目前底層數(shù)據(jù)存儲基于HBase，具有較強的可伸縮性。 原標題：京東王曉雨：Apache Kylin在云海的實踐 原作者：2015/12/4 來源：CSDN 作者：王曉雨
關鍵字：云計算大數(shù)據(jù) Kylin

京東云海是由京東和ISV共同合作的模式對商家提供服務。云海提供基礎的京東POP(商家開放平臺)數(shù)據(jù)，包括商品、商家、客服績效、品牌、行業(yè)等主題數(shù)據(jù)，目前可提供T+1匯總計算結果，以及上百個實時指標訂閱。ISV通過商家授權可以獲取商家基礎數(shù)據(jù)，ISV通過JOS的API接口上傳相關維表數(shù)據(jù)，數(shù)據(jù)上傳到數(shù)據(jù)倉庫后，ISV可以在云海開放平臺上開發(fā)相關的Hive SQL對上傳數(shù)據(jù)和商家基礎數(shù)據(jù)進行關聯(lián)計算，計算結果可以通過數(shù)據(jù)開放API查詢，ISV獲取到數(shù)據(jù)后通過應用展現(xiàn)給商家使用。

需求場景一：JOS開放API調用情況分析（OLAP分析）

JOS開放接近500個API，每天調用量在7億次左右。針對API的調用情況進行多維分析，分析查詢延遲要求達到秒級，并使用BI工具進行分析展現(xiàn)。

JOS的API訪問日志數(shù)據(jù)通過定時抓取存儲在Hive數(shù)據(jù)倉庫中。所以需要一種能夠在大數(shù)據(jù)量情況下進行交互式多維分析的SQL on Hadoop引擎。并且要支持和BI工具的集成，提供標準的JDBC、ODBC接口。

需求場景二：云海結果數(shù)據(jù)下載（原始明細數(shù)據(jù)查詢）

云海通過JOS的API將結果表的數(shù)據(jù)查詢服務開放給ISV，開放服務中允許ISV定義標準SQL模板，在接口調用時傳遞不同參數(shù)來查詢數(shù)據(jù)，接口單次調用返回數(shù)據(jù)量限制為5000條，接口查詢延遲要保證在毫秒級別，并支持高并發(fā)調用。結果表數(shù)據(jù)存儲在Hive數(shù)據(jù)倉庫中。所以需要一種SQL on Hadoop引擎能夠支撐基于大表的原始明細數(shù)據(jù)毫秒級查詢。

關于Apache Kylin

現(xiàn)在開源社區(qū)各種優(yōu)秀的SQL on Hadoop引擎不斷涌現(xiàn)，比如Impala，SparkSQL，Phoenix等等。但是針對于以上場景的考慮：大數(shù)據(jù)量情況下秒級多維分析、支持與傳統(tǒng)BI工具無縫集成、在大數(shù)據(jù)量基礎上使用標準SQL查詢小數(shù)據(jù)量結果集能夠達到毫秒級、完全基于Hadoop生態(tài)系統(tǒng)、T+1和實時處理數(shù)據(jù)、支持水平擴展等。最終我們把目標鎖定在了Apache Kylin。

Apache Kylin是一個開源的分布式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規(guī)模數(shù)據(jù)，能夠支持TB到PB級別的數(shù)據(jù)量，最初由eBay Inc開發(fā)并于2014年10月貢獻至開源社區(qū)，于2014年11月加入Apache孵化器項目，于今年11月正式畢業(yè)成為Apache 頂級項目。

Apache Kylin旨在減少Hadoop在10億及百億規(guī)模以上數(shù)據(jù)級別的情況下的查詢延遲，目前底層數(shù)據(jù)存儲基于HBase，具有較強的可伸縮性。Apache Kylin為Hadoop數(shù)據(jù)提供了ANSI-SQL接口，并且支持大多數(shù)的ANSI-SQL的函數(shù)；能夠支持在秒級別延遲的情況下同Hadoop進行交互式查詢；支持多維聯(lián)機分析處理數(shù)據(jù)倉庫（MOLAP Cube）；用戶能夠定義數(shù)據(jù)模型；并且通過Apache Kylin能夠預建超過10多億行原始數(shù)據(jù)記錄的數(shù)據(jù)模型；可與其他BI工具無縫集成，包括Tableau，Excel，PowerBI等；并提供了JDBC，ODBC接口；可分布式部署，Query Server可以水平擴展，存儲基于HBase也可以水平擴展。并且Apache Kylin將在后續(xù)版本支持流式近實時Cube計算，支持實時數(shù)據(jù)多維分析等各種場景。

更多關于Apache Kylin的詳細信息可以訪問：http://kylin.io

Apache Kylin在京東云海的應用部署及性能

系統(tǒng)架構及集群部署

Apache Kylin集群：

1個任務服務器，4個查詢服務器。
Apache HBase集群規(guī)模：
27個節(jié)點，和其他業(yè)務共用。
兩種場景使用同一個集群。

模塊關系圖：

部署圖：

Apache Kylin性能表現(xiàn)：

1.OLAP分析

單個Cube最大維度16個，最大數(shù)據(jù)條數(shù)100億，最大存儲空間400G。

性能：數(shù)據(jù)分析人員采用BI工具進行查詢，95%的查詢響應時間在15秒以內。

2.原始明細數(shù)據(jù)查詢

單個Cube最大維度8個，最大數(shù)據(jù)條數(shù)4億，最大存儲空間800G。30個Cube占用總空間4T左右。

性能：單次查詢返回數(shù)據(jù)條數(shù)限制在5000條以內，查詢QPS在50左右，所有查詢平均響應時間200ms，查詢QPS在200左右平均響應時間可以保持在1s以內。

查詢的并發(fā)能力和響應時間和HBase集群規(guī)模有關，這兩個場景的數(shù)據(jù)只使用了一個小集群，可以對Apache Kylin Query Server和HBase集群水平擴容來提高并發(fā)查詢能力和減小響應時間。

Apache Kylin原不支持此功能，京東對其實現(xiàn)邏輯做了修改，并已經貢獻回社區(qū)。

京東對于Apache Kylin的二次開發(fā)

主要的改造是增加了支持原始明細數(shù)據(jù)查詢的實現(xiàn)。

Apache Kylin在使用SQL查詢時，至少需要指定一個Group by條件，在類似Select dimension_column1,measure_column2,measure_column3 from fact_table這種包含指標列明細數(shù)據(jù)的查詢時不能返回結果。

由于Apache Kylin的Cube計算是根據(jù)所有聚合維度的組合計算定義指標的值，在Cube定義階段必須包含聚合維度和計算指標的配置。計算指標目前包括SUM，MAX，MIN，COUNT，COUNT_DISTINCT。

由此想要實現(xiàn)原始數(shù)據(jù)的查詢有以下方案：

方案一

在原始數(shù)據(jù)表中增加一列唯一值列，并將所有列都配置為維度列，如果某列的基數(shù)非常高，則不創(chuàng)建字典指定固定列長度的方式設置維度屬性。這樣的Cube計算結果相當于對唯一值列進行Group by，會查詢到所有行的值。

方案的優(yōu)點：不用修改Apache Kylin代碼，只需要處理原始數(shù)據(jù)增加唯一列即可。

方案的缺點：雖然是支持了原始明細數(shù)據(jù)的查詢，但是所有列都作為了維度聚合，在原始表列的數(shù)量非常多的情況下，Cube的大小會膨脹的非常大，構建時間增長。所以需要更優(yōu)的方法來處理。

方案二

1、在原始數(shù)據(jù)表中增加一列唯一值列，并把此列配置在維度中。

2、修改源碼增加一個新的聚合函數(shù)，此聚合函數(shù)的輸入和輸出保持相同，不做任何聚合計算。通過這個聚合函數(shù)和對唯一列的聚合來保證每一個指標列的原始值都能被獲取到。由于Apache Kylin本身帶有的聚合函數(shù)只支持數(shù)字類型的列，所以需要增加新的聚合函數(shù)支持所有數(shù)據(jù)類型的輸入和輸出。這樣能夠減少不必要的維度組合，減小Cube的大小，縮短構建的時間。

方案的優(yōu)點：能夠解決方案一中Cube膨脹的問題和構建時間長的問題。

方案的缺點：如果數(shù)據(jù)表中不存在唯一列的情況時，不能夠查詢到所有的明細數(shù)據(jù)。更好的解決方案是在沒有唯一列的情況下同樣也能夠支持明細數(shù)據(jù)查詢。

我們是對方案二進行了實現(xiàn)，并且將Patch貢獻回社區(qū)，目前正在和社區(qū)一起優(yōu)化：即方案三。

方案三

1、不需要在原始表中增加唯一列。

2、修改源碼增加新的聚合函數(shù)，此聚合函數(shù)能使被聚合的明細數(shù)據(jù)存儲在HBase中的一行。在查詢時將數(shù)據(jù)進行展開。

3、修改源碼增加對聚合函數(shù)值的字典支持，以減少存儲數(shù)據(jù)大小。

此方案是改進方案，我們正在和社區(qū)共同進行優(yōu)化改造，請關注KYLIN-1122以跟蹤最新進展。

使用Apache Kylin的實踐總結

1、大的事實表采用天分區(qū)增量構建，為了不影響查詢性能，可以定期做合并(Merge)，周期可以根據(jù)實際情況確定，我們一周進行一次合并。

2、對于維表比較大的情況，或者查詢Select部分存在復雜的邏輯判斷，存在Apache Kylin不支持的函數(shù)或語句時，可以將事實表和維表的關聯(lián)處理創(chuàng)建為Hive視圖，之后根據(jù)視圖創(chuàng)建Cube模型。

3、每次查詢必然帶有的條件建議在字典設置步驟將其設置為Mandatory。這樣會最終 Build出來Cube的大小會減少一半。

4、Cube的維度如果超過10個，建議將常用的聚合字段做分組，我們對于最大的16個維度分了三個組，每組大概在5個維度左右。

5、Cube定義中RowKey順序：Mandatory維度，Where過濾條件中出現(xiàn)頻率較多的維度，高基數(shù)維度，低基數(shù)維度。

6、對于Hierarchies，Derived維度方面配置優(yōu)化可以參考社區(qū)文檔：http://kylin.incubator.apache.org/docs/howto/howto_optimize_cubes.html

7、部署層面，可以通過Nginx在前端做負載均衡，后端啟動多個Query Server接收查詢請求處理。

名詞解釋：

云海：京東云海數(shù)據(jù)開放平臺

ISV ：與京東云合作的第三方服務廠商

JOS：京東API開放服務

關于作者：王曉雨，Apache Kylin Committer，京東大數(shù)據(jù)資深架構師，北京郵電大學軟件工程碩士，2014年加入京東云平臺-數(shù)據(jù)平臺部，參與京東公有云數(shù)據(jù)分析平臺的整體架構設計及開發(fā)，致力于對客戶提供云上的實時數(shù)據(jù)倉庫的探索。

核心關注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理，全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域，是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網 http://m.hanmeixuan.com/

本文標題：京東王曉雨：Apache Kylin在云海的實踐

本文網址：http://m.hanmeixuan.com/html/news/10515318948.html

關鍵詞標簽： 京東王曉雨：Apache Kylin在云海的實踐,云計算大數(shù)據(jù) Kylin,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業(yè)信息化門戶網

本文來源于互聯(lián)網，拓步ERP資訊網本著傳播知識、有益學習和研究的目的進行的轉載，為網友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：張周平：人民幣加入SDR短期對歐美電商影響有限

下一篇：涂子沛：互聯(lián)網、云、大數(shù)據(jù)和新的商業(yè)模式

相關文章

新聞動態(tài)

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務軟件標準版V8.1..

金蝶KIS財務軟件迷你版V8.1..

金蝶KIS工業(yè)貿易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿高級版V4.0|破..

金蝶KIS財務軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務管理系統(tǒng)電子圖書

拓步ERP業(yè)務系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務系列迷你版（財務管..

拓步ERP條碼系列業(yè)務標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版

互聯(lián)網時代企業(yè)級應用如何選型

涂子沛：互聯(lián)網、云、大數(shù)據(jù)和新..

2016年起將推動企業(yè)級技術發(fā)展..

傅志華：移動互聯(lián)網應用數(shù)據(jù)分析基..

二線城市創(chuàng)業(yè)沒有春夏秋冬，只有商..

雙11大戰(zhàn)已從價格戰(zhàn)走向物流戰(zhàn)

創(chuàng)建成功行業(yè)B2B網站需注意要點..

點擊

聯(lián)系ERP系統(tǒng)咨詢顧問
點擊

聯(lián)系ERP系統(tǒng)售前顧問-1
點擊

聯(lián)系ERP系統(tǒng)售前顧問-2


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關注產品觀點縱橫企業(yè)管理企業(yè)應用

	ERP解決方案按ERP應用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業(yè)應用 CIO網絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

拓步新聞

行業(yè)新聞

關注產品

觀點縱橫

企業(yè)管理

企業(yè)應用

即時聯(lián)系

服務熱線

快捷互動

猜您喜歡