SDN,在經(jīng)歷了猶豫彷徨、百家爭鳴之后,目前已成為企業(yè)CTO的堅定選擇。
SDN時代的網(wǎng)絡展現(xiàn)出兩面性:一方面讓客戶使用更加簡單,另一方面卻讓運維更加復雜。而當前,整個行業(yè)的目光多聚焦在前者而忽略了后者。
隨著SDN的部署如火如荼,一絲憂患也隱隱浮現(xiàn)。2015年12月,管理行業(yè)研究機構EMA(Ent
ERPrise Management Associates)針對100多家企業(yè)的調(diào)查結果顯示:70%左右的客戶對于現(xiàn)有管理運維體系是否適用于SDN場景表示擔憂。Gartner于 2015年7月發(fā)布的通信網(wǎng)絡技術成熟度曲線(The Hype Cycle)也顯示,SDN相關的運維技術處于泡沫化的底谷期(Trough of Disillusionment),將在2~5年內(nèi)進行大規(guī)模商用部署。
華為早在全面擁抱SDN初期,就把SDN運維作為關鍵課題進行研究和實踐,下面分別從WHY、WHAT、HOW這3個緯度展示華為對SDN運維的思考。
WHY:SDN運維的新變化
相對于傳統(tǒng)網(wǎng)絡,SDN時代的網(wǎng)絡有如下的特征:
動態(tài)網(wǎng)絡:動態(tài)是指根據(jù)應用需求按需創(chuàng)建和刪除邏輯網(wǎng)絡。比如某企業(yè)用戶反饋,在運維中需要投入50%的工作在防火墻的規(guī)則上,主要原因是隨著應用的變遷,防火墻規(guī)則沒有隨之變遷,造成網(wǎng)絡沉淀和碎片。
實時響應:傳統(tǒng)網(wǎng)絡的設計主要是面向人的界面,基于分鐘級別慢速的原則,比如使用了幾十年的SNMP機制。這種慢速機制,在SDN的快節(jié)奏中成為“吐槽”點。某企業(yè)客戶抱怨其輕載的網(wǎng)絡存在瞬態(tài)的突發(fā)丟包,懷疑存在毫秒級別的微突發(fā)流量,但是在分鐘級別的 SNMP機制下無法觀察到,更無法優(yōu)化。
大規(guī)模:大規(guī)模有兩個含義,其一是管理的設備數(shù)量。從物理網(wǎng)元到邏輯網(wǎng)元vSwitch/vRouter,其數(shù)量增加了50倍;其二是處理的故障數(shù)量。據(jù)LinkedIn披露,從2010年到2015年,需要處理的故障增加了18倍,但管理人員僅增加了幾個。
要應對上述SDN網(wǎng)絡的3大問題,傳統(tǒng)的“人工運維”方式賢德捉襟見肘、難以為繼。
WHAT:SDN運維內(nèi)涵
為了滿足SDN下“動態(tài)性、實時性、大規(guī)模”的挑戰(zhàn),華為提出需要對整個運維架構進行變革,才能讓SDN“管用、好用”。新的SDN運維架構需要圍繞下面幾個方面打造:
可視化:看得見,看得清
俗話說“You Can’t Manage What You Can’t See”。“看得見”有兩個方面的含義:
觀察對象可視:可監(jiān)控物理和邏輯對象,包括網(wǎng)元級別的節(jié)點和接口等,也包括網(wǎng)絡級別的鏈路、邏輯路徑和應用質(zhì)量等。
觀察的實時性:支持毫秒級別現(xiàn)象的感知(比如流量微突發(fā))、低頻率(<10-4)的丟包,以及大象流和老鼠流的識別等。
“看得清”意味著針對觀察的準確性,需要采集和分析海量的數(shù)據(jù)。包括:
精確計費:采集的比例需要從8K:1到2K:1,甚至1:1全量采集。
疑難問題定位:基于采集的“大數(shù)據(jù)”和實時分析,及時發(fā)現(xiàn)偶發(fā)性丟包和流量黑洞等。
自動化:自修復,自優(yōu)化
傳統(tǒng)的網(wǎng)絡運維架構是一個單向的系統(tǒng),而不是一個負反饋系統(tǒng)。網(wǎng)絡運維包括兩個方向:管理員在下行方向配置網(wǎng)絡,然后通過上行方向獲得網(wǎng)絡的狀態(tài),也就是說,網(wǎng)絡的部署和狀態(tài)是割裂的,通過管理員進行有限的溝通。這種機制顯然無法滿足網(wǎng)絡故障自修復和網(wǎng)絡自優(yōu)化的需求。自動化的運維需要構建 “閉環(huán)”運維架構,具體包括:
延遲修復:發(fā)現(xiàn)故障后,首先隔離故障,不影響現(xiàn)有業(yè)務。
診斷修復:結合采集的“大數(shù)據(jù)”和經(jīng)驗數(shù)據(jù)庫,進行自動修復或給出明確的修復方案。
網(wǎng)絡優(yōu)化:及時發(fā)現(xiàn)網(wǎng)絡存在的“病態(tài)”,如流量不均衡和流量擁塞風險等,通過閉環(huán)系統(tǒng),由網(wǎng)絡部署系統(tǒng)自動進行調(diào)整,把故障消滅在萌芽狀態(tài)。
HOW:SDN運維方案
基于SDN下的運維新變化,華為分解了運維的生命周期,構建了“閉環(huán)”的運維負反饋系統(tǒng),稱為Fabric Insight架構,包括如下4個模塊:
Monitor:監(jiān)視
為了解決實時,海量的數(shù)據(jù)監(jiān)視,需要在如下兩個方面改進方案:
改造采集通道,滿足海量數(shù)據(jù)上報:對于中規(guī)模的數(shù)據(jù)上報,采用gRPC等高效的采集通道替代SNMP等;對于大規(guī)模的數(shù)據(jù)上報,直接采用數(shù)據(jù)面基于UDP的采集通道,消除管理面CPU的帶寬限制。
改造采集點,滿足高頻采集:在數(shù)據(jù)中心交換機上設計專門的高頻采集部件,滿足毫秒級的事件采集。
Detector:探測
未來及時發(fā)現(xiàn)端到端業(yè)務路徑的質(zhì)量,需要通過實時發(fā)送探測報的方式,對網(wǎng)絡進行“掃描”。區(qū)別于傳統(tǒng)機制的“隨機掃描”,華為結合網(wǎng)絡的拓撲和路由,支持更精確的“定向掃描”,可以做到真正的全網(wǎng)全覆蓋。基于這種能力,管理員就不再是“救火員”,而是運籌帷幄的“諸葛亮”。
Metrics:度量
在某些情況下,網(wǎng)絡質(zhì)量顯示正常,但是應用體驗下降。探測機制無法解決這種問題,就需要基于真實的業(yè)務流進行度量,發(fā)現(xiàn)該業(yè)務流是否存在丟包和時延問題,如果丟包,丟包位置在哪?如果時延大,是什么因素造成的?
Diagnosis:診斷
診斷就像老中醫(yī)看病,通過Monitor、Detector和Metrics進行“望聞問切”后,再結合經(jīng)驗庫的案例,定位出問題的根因。診斷部件由一系列的工具組成,每個工具針對特定的問題。比如環(huán)路診斷工具、丟包診斷工具等。
華為秉承開放的理念,開放基本的運維API,客戶可自助地開放和定制自己的診斷工具集。
轉載請注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標題:云時代如何簡化數(shù)據(jù)中心網(wǎng)絡運維?
本文網(wǎng)址:http://m.hanmeixuan.com/html/consultation/10839719921.html