| 當前位置：拓步ERP資訊網(wǎng) >>服務支持 >>ERP技術支持 >>技術支持知識庫

數(shù)據(jù)密集型系統(tǒng)架構設計

發(fā)布日期：2016-5-23 14:48:31 來源：m.hanmeixuan.com 編輯：拓步ERP資訊網(wǎng) 瀏覽：評論

摘要：按照使用的資源類型劃分，我們可以把系統(tǒng)分為三大類型：IO密集型、計算密集型，數(shù)據(jù)密集型。系統(tǒng)的類型反映了系統(tǒng)的主要瓶頸。 原標題：數(shù)據(jù)密集型系統(tǒng)架構設計 原作者：2016/5/23 來源：TigerMee的專欄作者：tigermee
關鍵字：數(shù)據(jù)庫系統(tǒng)架構設計

按照使用的資源類型劃分，我們可以把系統(tǒng)分為三大類型：IO密集型、計算密集型，數(shù)據(jù)密集型。系統(tǒng)的類型反映了系統(tǒng)的主要瓶頸。現(xiàn)實情況中，大部分系統(tǒng)在由小變大的過程中，最先出現(xiàn)瓶頸的是IO。IO問題體現(xiàn)在兩個方面：高并發(fā)，存儲介質的讀寫（例如數(shù)據(jù)庫，磁盤等）。隨著業(yè)務邏輯的復雜化，接下來出現(xiàn)瓶頸的是計算，也就是常說的CPU idle不足。出現(xiàn)計算瓶頸的時候，一般會使用水平擴展（加機器）和垂直擴張（服務拆分）兩個方法。隨著數(shù)據(jù)量（用戶數(shù)量，客戶數(shù)量）的增長，再接下來出現(xiàn)瓶頸的是內存。

如今，內存的合理使用比以往更加重要。一方面，大數(shù)據(jù)理論已經(jīng)非常普及，用數(shù)據(jù)驅動產(chǎn)品也已經(jīng)被普遍接受并落地，同時數(shù)據(jù)分析也促使產(chǎn)品設計的更加精細，因此系統(tǒng)承載的數(shù)量比以前有了很大的變化，系統(tǒng)遇到內存瓶頸的時間也比以前大大縮短了。另一方面，內存依然是相對昂貴的硬件，不能無限制的使用。即使在Amazon等云服務上，大內存的實例也是很昂貴的，并且大內存的實例往往伴隨著高性能型CPU，這對一些數(shù)據(jù)密集型系統(tǒng)是一個浪費。因此，本文重點探討數(shù)據(jù)密集系統(tǒng)如何應對出現(xiàn)的瓶頸。

1. 拆庫

任何工程上的問題最基本的思路都是“分而治之”。因此，當內存不夠時，很自然的想法是將數(shù)據(jù)拆分到多臺機器中，俗稱拆庫。沿用數(shù)據(jù)庫拆分的術語，拆庫又分為“水平拆分”和“垂直拆分”兩個派別。

1.1 水平拆分

水平拆分是指將同一種數(shù)據(jù)的不同記錄進行拆分。

例如我們有一億條商品數(shù)據(jù)供查詢。如果單機無法存儲，可以使用四臺機器，每臺機器存儲2500萬條商品數(shù)據(jù)。其中，每臺機器稱為一個“分片”，同一個分片的多臺機器組成一個“分組”，從四個分組各選出一臺機器組成一個完整的服務。當上游服務進行查詢時，同時查詢四臺機器，并對返回結果做合并。

在使用水平拆分的方案時，需要重點考慮以下問題：

索引服務

如前幾篇文章所述，任何大數(shù)據(jù)量系統(tǒng)中，在啟動之前都需要加載索引數(shù)據(jù)。索引數(shù)據(jù)一般是預先計算好的，并且以二進制格式持久化的文件。因為服務進行了拆分，每一臺機器只需要加載一部分數(shù)據(jù)，因此需要為每個分組的機器單獨計算索引數(shù)據(jù)，這樣減少了系統(tǒng)啟動時處理的數(shù)據(jù)量，加快啟動速度。

數(shù)據(jù)更新

同樣，由于每臺機器只需要加載一部分數(shù)據(jù)，那么也只需要處理這部分數(shù)據(jù)的更新。目前主流的更新數(shù)據(jù)流都是使用 Mesage Queue 作為傳輸和持久化系統(tǒng)個，在服務端接收 Message Queue 的數(shù)據(jù)并持久化到本地，供在線服務定期讀取。一般同一類的數(shù)據(jù)使用一個 Topic 傳輸，同時 Message Queue 一般都支持 Partition 的機制。即在向 MQ 中發(fā)送一條數(shù)據(jù)時，可以指定將該條數(shù)據(jù)發(fā)送到哪個 Partition；在從 MQ 中讀取數(shù)據(jù)時，可以指定只讀取哪些 Partition 的數(shù)據(jù)。例如上文的例子，存儲商品數(shù)據(jù)的服務器分了四個組，因此可以將傳輸商品更新數(shù)據(jù)的 Topic 劃分為四個 Partition，每個分組的機器只需要訂閱其需要的 Partition 即可。在實際操作中，為了保持未來的擴展性，一般 Partition 的數(shù)量都會設置為分組數(shù)量的若干倍，例如八個或者十六個，這樣在未來數(shù)據(jù)量進一步增長導致分組個數(shù)進一步增加時，不需要修改 MQ 的 Partition 配置。

利用 MQ 這個機制，可以使每臺機器只訂閱自己需要處理的數(shù)據(jù)，減少帶寬，也減少更新時處理的數(shù)據(jù)量，避免浪費資源。

服務管理的復雜性

在我們管理上下游機器時，一般會使用以 ZooKeeper 為核心的服務管理系統(tǒng)。即每個服務都注冊在 ZooKeeper 中，當上游服務需要訪問下游服務時，去 ZooKeeper 中查詢可用的下游服務列表，并同時考慮負載均衡等因素，選擇最合適的一個下游服務實例。

當一個服務出現(xiàn)分組時，管理的難度會增大。服務管理系統(tǒng)需要確保一個服務的每個分組的實例同樣多，并且負載基本保持平衡。另外，當任何一臺機器出現(xiàn) 故障導致的宕時，需要啟動備用機器。這時，需要判斷是哪個分組的機器發(fā)生了故障，并啟動相關分組的機器實例，重新注冊到 ZK 中。

無法拆分的數(shù)據(jù)

有很多數(shù)據(jù)是無法拆分的。一方面有些數(shù)據(jù)是天然不可拆分的，例如各種策略使用的詞典；另一方面，有些數(shù)據(jù)即使可以拆分，但和系統(tǒng)中其他數(shù)據(jù)的拆分規(guī)則不同，那么系統(tǒng)也無法保證所有數(shù)據(jù)都能被拆分，只能優(yōu)先拆分主要數(shù)據(jù)。

1.2 垂直拆分

在傳統(tǒng)關系型數(shù)據(jù)庫的設計上，垂直拆分是指將一種數(shù)據(jù)的不同列進行拆分；在對系統(tǒng)架構的設計上，垂直拆分是只將一個服務的不同計算邏輯拆分為多個服務。在使用垂直拆分的方案時，需要重點考慮以下問題：

增加網(wǎng)絡請求次數(shù)，增加系統(tǒng)響應時間

如果是對響應時間要求很高的系統(tǒng)，一定會盡可能地避免垂直拆分，例如搜索。而有一些對邏輯確實很復雜，對時間又不太敏感的系統(tǒng)，一般都會優(yōu)先選擇垂直拆分，例如支付。

增加系統(tǒng)復雜度

將服務進行了分層，更加了開發(fā)成本，對運維的要求也更高。

數(shù)據(jù)冗余

有一些數(shù)據(jù)會被拆分過的多個服務使用，會出現(xiàn)在上下游多個服務中，那么數(shù)據(jù)的分發(fā)、更新都會更加復雜，即浪費資源，又進一步增加了系統(tǒng)的復雜度。因此，在垂直拆分的過程中，一定要盡可能將服務的功能做良好的劃分，避免一種數(shù)據(jù)被多個服務使用的情況。

垂直拆分的方案中，有一種情況可以大幅減少機器數(shù)量，即：一部分數(shù)據(jù)的存在并不是在處理請求的時候被直接使用，其存在是為了維護被處理請求的邏輯直接使用的數(shù)據(jù)。

一個典型的例子是檢索服務中的正排索引。檢索服務在查詢時，直接使用的是倒排索引，而倒排索引是根據(jù)正排索引生成的。正排索引往往有多種數(shù)據(jù)，當一條數(shù)據(jù)發(fā)生更新時，會影響其他類別的數(shù)據(jù)。因此，一條數(shù)據(jù)的更新信息無法被單獨處理，在系統(tǒng)的內存中往往同時維護正排索引和倒排索引，導致內存翻倍。這種情況下，如果我們把正排索引獨立到一臺離線機器中，這臺機器維護正排索引的全部數(shù)據(jù)，當正排索引發(fā)生更新時，倒排索引的更新信息，并分發(fā)給所有在線機器。那么，在線服務就不需要維護正排索引，能夠大幅度減少內存的使用。

1.3 綜述

實際情況中，大型系統(tǒng)往往同時使用水平拆分和垂直拆分兩種方案。一方面，水平拆分雖然服務內部進行了分組，但對外仍然是單一的服務，因此從業(yè)務邏輯上來講更加簡單。另一方面，垂直拆分可以將非常復雜、計算資源有不同需求的業(yè)務邏輯進行很好的隔離，方便系統(tǒng)中各業(yè)務邏輯可以針對自己的特點進行開發(fā)和部署。因此，在選擇拆分方案時，要結合系統(tǒng)的主要矛盾以及目前團隊成員的技術特點，綜合考慮做出選擇。

2. 多級存儲

俗話說，當上帝為你關上了一扇門，必（可）定（能）為你打開了一扇窗。如果說大數(shù)據(jù)是上帝為架構師關上的一扇門，那么熱點數(shù)據(jù)就是打開的那扇窗。雖然在現(xiàn)實世界中的數(shù)據(jù)是海量難以估算的，但幸運的是，有價值或者說值得關注的數(shù)據(jù)總是少數(shù)的。在大型系統(tǒng)中，請永遠把二八法則的重要性放在第一位。

一般來說，計算機的存儲系統(tǒng)分為三級：CPU Cache，內存，磁盤。這三者的訪問速度依次降低（并且是數(shù)量級的降低），單位存儲的成本也依次降低（也是數(shù)量級的降低）。多級存儲的基本思想是，按照被訪問頻率的不同給數(shù)據(jù)分類，訪問頻率越高的數(shù)據(jù)應當放在訪問速度越快的存儲介質中。

三種系統(tǒng)都使用頁式存儲的結構，頁也是其處理數(shù)據(jù)的最小單位。由于這個特性，我們一般在編寫程序時，盡可能地將連續(xù)訪問的數(shù)據(jù)放在內存的相鄰位置，以提高CPU Cache的命中率，也就是常說的 locality principle。

隨著SSD的出現(xiàn)，對磁盤的使用已經(jīng)出現(xiàn)了新的方法論。機械磁盤的隨機讀寫速度在10ms左右，不太可能供實時系統(tǒng)使用。而SSD磁盤的隨機讀寫速度在100us左右，對于有些秒級響應的系統(tǒng)來說，已經(jīng)可以作為實時系統(tǒng)的存儲介質。一種典型的情況是系統(tǒng)存在相當數(shù)量的冷門數(shù)據(jù)。系統(tǒng)對于熱點數(shù)據(jù)可以快速地反饋，對于很少被訪問的冷門數(shù)據(jù)可以存儲在SSD磁盤中。當冷門數(shù)據(jù)被訪問時，只要latency仍然可以控制在秒級，就可以在保證用戶體驗只有很少的損害的情況下，大幅減少系統(tǒng)成本。

一種典型的場景是電商的商品信息。經(jīng)常被訪問的商品可能不到商品總量的1%。像淘寶這樣規(guī)模的電商系統(tǒng)，實際可能比1%還低。

另一種典型的場景是用戶評論。無論按評論發(fā)表的先后順序，還是按某種規(guī)則計算出的評論的質量度排序，總是前100個左右的評論被經(jīng)常訪問，后面的評論幾乎不會被訪問到。

另外，回想上文提到的檢索服務的案例。正排索引除了可以拆分為單獨的服務之外，還可以存儲在磁盤中。更新正排索引的時候直接從磁盤讀取數(shù)據(jù)，修改后寫會磁盤，同時更新內存的倒排索引。如果使用SSD磁盤，雖然更新的延遲會增長，但也會控制在毫秒級，對于系統(tǒng)完全是可以接受的。要知道，在一條數(shù)據(jù)到達檢索服務之前，都會經(jīng)過若干次網(wǎng)絡傳輸，由磁盤引起的延遲并不是主要因素。

在使用磁盤作為可以提供實時查詢功能的存儲介質時，很常見的方案是將磁盤作為二級緩存，將最近訪問的數(shù)據(jù)保存在內存中，當訪問的數(shù)據(jù)不在內存中時，從磁盤讀取，并放入內存中。這個方案的假設是，最近被訪問的數(shù)據(jù)很可能在接下來仍然被訪問。采用這種方案需要重點注意，防止爬蟲或者外部的惡意請求短期內訪問大量冷門數(shù)據(jù)，造成實際的熱點數(shù)據(jù)被換出緩存，導致處理真實請求時有大量的緩存失效。

大數(shù)據(jù)技術對商業(yè)效果的提升已經(jīng)在越來越多的行業(yè)中被證明，未來的服務，無論是在線還是離線，處理的數(shù)據(jù)都會有數(shù)量級甚至幾個數(shù)量級的增長。同時，我們看到內存除了訪問速度越來越快，在存儲的數(shù)據(jù)量和成本上并沒有太大的變化。因此，未來越來越多的系統(tǒng)的主要瓶頸會從計算、IO轉移到數(shù)據(jù)量上，內存密集型系統(tǒng)會變得越來越重要，相信其架構在未來幾年也會有很多新的方式出現(xiàn)。

核心關注：拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用，蘊涵了豐富的ERP管理思想，集成了ERP軟件業(yè)務管理理念，功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理，全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域，是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。

轉載請注明出處：拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/

本文標題：數(shù)據(jù)密集型系統(tǒng)架構設計

本文網(wǎng)址：http://m.hanmeixuan.com/html/support/11121519332.html

關鍵詞標簽： 數(shù)據(jù)密集型系統(tǒng)架構設計,數(shù)據(jù)庫系統(tǒng)架構設計,ERP,ERP系統(tǒng),ERP軟件,ERP系統(tǒng)軟件,ERP管理系統(tǒng),ERP管理軟件,進銷存軟件,財務軟件,倉庫管理軟件,生產(chǎn)管理軟件,企業(yè)管理軟件,拓步,拓步ERP,拓步軟件,免費ERP,免費ERP軟件,免費ERP系統(tǒng),ERP軟件免費下載,ERP系統(tǒng)免費下載,免費ERP軟件下載,免費進銷存軟件,免費進銷存,免費財務軟件,免費倉庫管理軟件,免費下載,

本文轉自：e-works制造業(yè)信息化門戶網(wǎng)

本文來源于互聯(lián)網(wǎng)，拓步ERP資訊網(wǎng)本著傳播知識、有益學習和研究的目的進行的轉載，為網(wǎng)友免費提供，并盡力標明作者與出處，如有著作權人或出版方提出異議，本站將立即刪除。如果您對文章轉載有任何疑問請告之我們，以便我們及時糾正。聯(lián)系方式：QQ：10877846 Tel：0755-26405298。

上一篇：除Hadoop大數(shù)據(jù)技術外，還需了解的九大技術

下一篇：算法分析的正確姿勢

相關文章

服務支持

拓步ERP系統(tǒng)軟件平臺11.5專業(yè)版v10.1.2...

拓步ERP系統(tǒng)軟件平臺11.5標..

金蝶KIS財務軟件標準版V8.1..

金蝶KIS財務軟件迷你版V8.1..

金蝶KIS工業(yè)貿(mào)易專業(yè)版V12...

SQL2000 4in1 ISO..

MSDE2000 SP4 簡體中..

金蝶KIS商貿(mào)高級版V4.0|破..

金蝶KIS財務軟件行政事業(yè)版V9..

金蝶KIS零售版V4.1|破解版..

熱門培訓視頻

拓步ERP系統(tǒng)平臺庫存管理系統(tǒng)培訓視頻教材

拓步ERP系統(tǒng)平臺客戶端安裝培訓..

拓步ERP財務管理系統(tǒng)培訓視頻

拓步ERP系統(tǒng)平臺數(shù)據(jù)庫安裝培訓..

拓步ERP系統(tǒng)平臺通用操作培訓視..

拓步ERP系統(tǒng)平臺采購管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺考勤管理系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務報表系統(tǒng)培..

拓步ERP系統(tǒng)平臺財務總帳系統(tǒng)培..

拓步ERP系統(tǒng)平臺應收帳款系統(tǒng)培..

熱門電子圖書

拓步ERP財務管理系統(tǒng)電子圖書

熱門管理軟件

拓步ERP系統(tǒng)管理軟件介紹

拓步ERP平臺系列旗艦版

拓步ERP生產(chǎn)系列標準版（進銷存..

拓步ERP業(yè)務系列倉存版（倉庫管..

拓步ERP平臺系列標準版

拓步ERP財務系列迷你版（財務管..

拓步ERP條碼系列業(yè)務標準版（條..

拓步ERP平臺系列企業(yè)版

拓步ERP平臺系列專業(yè)版

拓步ERP行業(yè)系列電子行業(yè)版


	ERP新聞動態(tài) 拓步新聞行業(yè)新聞關注產(chǎn)品觀點縱橫企業(yè)管理企業(yè)應用

	ERP解決方案按ERP應用行業(yè)分類按ERP企業(yè)規(guī)模分類按ERP管理領域分類按ERP軟件功能分類按ERP系統(tǒng)特性分類用友ERP解決方案金蝶ERP解決方案易飛ERP解決方案速達ERP解決方案其他ERP解決方案

	ERP顧問咨詢 ERP管理咨詢 ERP戰(zhàn)略診斷 ERP流程分析 ERP流程優(yōu)化 ERP風險分析 ERP可行性研究 ERP整體規(guī)劃 ERP選型招標 ERP實施監(jiān)理 ERP評審驗收 ERP績效評價 ERP基礎知識 ERP課程培訓 ERP培訓教育 ERP視頻教材

	CIO技術專欄 CIO企業(yè)應用 CIO網(wǎng)絡通信 CIO信息安全 CIO基礎設施 CIO云計算

	ERP技術支持技術支持知識庫常見問題資料庫在線學習資料庫日常辦公資料庫企業(yè)管理知識庫

	ERP系統(tǒng)價格拓步ERP系統(tǒng)價格體系拓步EIS軟件價格體系合作品牌ERP價格體系技術支持服務價格體系

	合作品牌用友UFIDA 金蝶KingDee 神州數(shù)碼Digital 速達SuperData 拓步ERP系統(tǒng)成功案例

	代理加盟合作聯(lián)盟策略代理合作指南代理聯(lián)盟前景聯(lián)盟技術支持快速搜索ERP軟件資訊

	關于拓步公司介紹公司愿景企業(yè)文化誠聘英才聯(lián)系我們在線留言在線訂購意向下載體驗登記

一区二区三区亚洲_中文字幕手机在线视频_日韩视频一区二区在线观看_欧美成人一区二区

ERP技術支持

技術支持知識庫

常見問題資料庫

在線學習資料庫

日常辦公資料庫

企業(yè)管理知識庫

ERP系統(tǒng)教程

ERP免費下載

ERP在線咨詢

即時聯(lián)系

服務熱線

快捷互動

猜您喜歡