1 前言
自從計算機和互聯網出現以后,人類邁入信息化時代,在信息社會中,計算機系統逐步嵌入到生活和生產的每一個角落,大到探索深空的宇宙飛船、小到家庭中的電烤箱,都裝備有計算機系統和計算機系統芯片(SoC,System on Chip),尤其是伴隨著近年興起的云計算概念,CPU及計算能力已儼然變成像生活中的水和空氣一樣普遍存在的資源。
過去,計算機系統、數據中心只是為科研、軍事等部門配備的專用設施,現在數據中心已經成為普通大眾生活需求的一部分,隨著數據中心數量和規模急劇膨脹,能源消耗問題越來越突出,巨大的耗電量成為數據中心進一步發展的“攔路虎”。
當個人或家庭使用一、兩臺計算機時,使用者也許并未將這100-200瓦的功耗當作是什么大的問題.但是,當數據中心集中了成千上萬臺計算機服務器,24小時、365天運行,其耗電量就是一個巨大的數字.據測算,一臺服務器平均功耗為200瓦時,一個集中十萬臺服務器的數據中心年耗電達到1.752億千瓦時(度電),再加上與之相當的強制降溫所耗電量,年耗電總量達到3.893億千瓦時,按國家規定的噸鋼可比能耗進行折算,每生產10萬噸鋼鐵的用電量為1.9億千瓦時,就是說,運行十萬臺服務器的用電量遠遠超過生產10萬噸鋼鐵的能耗,數據中心因而“榮登”高能耗單位、節能減排重點名單。
預測2011年美國的數據中心消耗了1000億度電,占全美總耗電量的2.5%,另據Gartner統計的數據,2011年我國數據中心總耗電量達700億千瓦時,已經占到全社會用電量的1.5%,相當于天津市全年的總用電量,國內超大規模的電信級數據中心已經超過億元的電纜門檻,常年巨額的電費超過了一次性的基礎設施投入。
破解數據中心巨大耗電量難題,是計算技術、甚至信息社會進一步發展的重大問題,在工業和信息化部以及國家發改委的指導下,由云計算發展與政策論壇牽頭編制的《數據中心能效測評指南》,定義了數據中心電能利用效率(PUE)、局部PUE(pPUE)、制冷/供電負載系數(CLF/PLF)和可再生能源利用率(RER)等四個能效關鍵指標[2],希望以此引導綠色數據中心的建設.
本文從CPU、服務器、配電系統三個方面入手,對數據中心的耗電根源進行了條分縷析,提出了四項技術創新組合的整體解決方案,以此來徹底解決數據中心高能耗難題,在此基礎上研發云計算專用芯片、微服務器、配電系統全套關鍵技術,建立了中國第一個以太陽能為主供電源、微服務器集群架構、全高壓直流配電、異種電源雙回路不間斷服務器專用電源模塊為整體解決方案的綠色數據中心,四項技術環環相扣,完美契合,節能效果和采用綠色能源比例等指標達到國際先進水平。
2 技術組合
數據中心耗電量集中在IT設備和降溫空調用電,IT設備主要是服務器機群,兩者相加的耗電量占數據中心總耗電量的75%以上,服務器機群是數據中心的核心業務資源或服務對象,服務器機群耗電也是數據中心耗電量的根源,服務器在消耗巨大電能產生強大的計算能力的同時,電能最終以熱量形式散發出來,使得強制降溫成為必然,帶出了數量級相同的空調降溫用電,兩者疊加,再加上機房其他設備電能損耗,構成了數據中心的總耗電量,PUE(Power Usage Effectiveness)值是國際通行的衡量數據中心用電效果的指標,PUE值是數據中心總耗電量與IT設備耗量電量的比值,PUE值越小,表明用電效果越高,越集中用到IT設備上,國家發改委等組織的“云計算示范工程”也要求示范工程建設的數據中心PUE要達到1.5以下,而當下絕大多數的數據中心PUE值在1.7至2.0間。
業界提出、嘗試過一些減少數據中心耗電量的解決方案,比如空調下送風降溫方案、集裝箱密封降溫的高密度數據中心方案、甚至還有提議把數據中心建在南極和北極讓冰山來自然、無電降溫等等,他們的目標都是減少降溫用電,提高PUE值。
但PUE值只是反映IT設備用電量的比值,并沒有指出直接降低IT設備本身用電量的問題,而降低服務器機群的用電量,才是降低降溫用電量、降低機房總體用電量的根本之策。
同時,也只有在降低服務器機群用電量、降低數據中心用電總量的前提下,才有可能把可再生能源的應用比例提高到一個有意義的水平,因為再生能源,如風能、太陽能的單位面積發電量有限,假若以常規服務器現有的用電量來全部改用采用再生能源供電,發電面積與服務器安裝所占面積的比例太大,將是一個不切實際的空想,只有降低服務器機群用電量,使得再生能源發電面積與服務器安裝所占面積下降到一個合適的比例,采用再生能源才會達到經濟上、工程實施上的可行性,而不只是把再生能源作為一個點綴。
本文的技術方案組合是:
1)采用微服務器集群降低服務器機群的用電量絕對值;2)采用機房樓頂或鄰近空地的太陽能發電作為數據中心主供電源;3)高壓直流供配電系統減少供配電系統中多次交直流變換造成損耗;4)針對性設計的服務器電源模塊,使上述三個措施能充分發揮作用。
2.1 微服務器技術
服務器主板的功耗集中在CPU芯片,降低CPU芯片功耗,就可以有效降低服務器耗電量,進而減少降溫空調的耗電、減少供配電系統中的成比例電損,達到大幅度降低數據中心的整體用電量的效果,CPU芯片的降耗,是數據中心整體降耗的關鍵,芯片級每降低IW的功耗,由此而帶來的電源轉換、配電系統、UPS、制冷系統和變壓器等一系列設備的功耗降低,將會達到2.68-2.84W.這都說明了芯片級的節能降耗是實現綠色節能的首要措施。
CPU芯片是服務器、數據中心計算能力、數據處理能力的動力來源,在以往,人們在設計CPU芯片時,只是單一追求CPU芯片運算速度的提高,提高CPU主頻是提高CPU運算速度的絕對性指標,而現在需要均衡考慮速度性能和功耗,追求單位功耗下計算能力的提高,而不是單一的計算能力提高,這樣就出現了兩條技術路線的比較。
其一是提高CPU主頻以提高服務器計算能力.為服務器安裝更高主頻、更高復雜度的CPU,以提高服務器的計算能力,這條路線會不斷增加CPU指令執行的流水線級數、指令發射數、減少芯片中晶體管和金屬走線寬度、增加CPU數據總線的寬度等等,這些復雜、極致的設計,就是為了提升CPU的工作時鐘(主頻),但它的結果是使CPU的功耗呈指數增加,它遠遠超過了CPU計算能力增加的速度,兩者的增加極度不平衡。
其二是增加CPU數量以提高計算能力,為服務器安裝數量更多的CPU、或使CPU芯片增加更多CPU內核,來提高服務器、服務器集群的計算能力,這條路線采用的CPU往往是較低復雜度、較低主頻,例如流水線級數較少,CPU數據總線寬度較小等等,這些都顯著降低了CPU電路的復雜度,使其運行在較低的主頻以下,它的結果是使服務器或服務器集群的計算能力隨CPU數量的增加而線性增加,功耗也是線性增加,兩者的增加速度均衡發展。
下面對此作更深入的分析,為清晰起見,本文假設兩種技術路線下CPU設計都為單核,同時忽略不同CPU架構下的指令執行效率。
1)提高CPU主頻來提高計算能力
CPU芯片的計算能力與IPC(Instruction per Clock),即每時鐘指令執行數、CPU 主頻的關系可以用式
(1)表示:CP = IPC * f (1)
CP(Computing Performance)表示CPU 的計算能力,IPC表示一個時鐘周期內所執行的指令數,IPC 越高,CPU電路越復雜,本文用Cs 來表示CPU 電路的規模復雜度,它可以直觀地反映為CPU 電路的邏輯門單元電路數量規模,CPU 內部總線寬度增加也會增加CPU 電路的復雜度,f 是CPU 的工作時鐘頻,即常說的主頻。
再來研究CPU 的功耗,參考CMOS 電路的能耗模型,CPU 功耗與CPU 工作電壓V、CPU 電路規模復雜度Cs、CPU 的主頻f 之間關系可以用式(2)表示:
Pcpu=Cs * V * V * f (2)
Pcpu是CPU的功耗,它正比于CPU電路的邏輯門數量,即正比于Cs,電路負載,Pcpu 正比于CPU 工作電壓的二次方,正比于CPU 主頻f,在同工藝、同設計下,要提高CPU 主頻f 也需要同步提高V,使得式(2)可以再寫為:
Pcpu=Cs * V(f) * V(f) * f (3)
Pcpu正比于f的三次方關系,其實,要提高CPU的主頻f,設計復雜度提高,Cs也是f的因變量,綜合式(1)和(3),得出CP、Pcpu和f關系示意圖,如圖1(1)。
2)增加CPU數量來提高計算能力
CPU集群計算能力的提高,是以增加群內CPU數量為主,CPU集群的計算能力表示為:
CPs = K * Mcpu * f (4)
CPs表示CPU集群的計算能力,K是一個調整系數,代表CPU集群的調度效率,Mcpu表示CPU的數量,K受Mcpu影響,而K和Mcpu與f間是獨立變量,由式(4)可見,CPs與f間只是一次方關系,即線性關系。
考察CPU集群數量與功耗的關系,CPU群的功耗是單一CPU功耗與CPU數量的乘積,如式(5)示:
Pcluster=Pcpu* Mcpu (5)
Pcluster是CPU群的功耗,Pcpu是單一CPU的功耗,Pcluster與Mcpu成線性關系,綜合式(4)和式(5)得到Pcluster、Pcpu和Mcpu關系示意圖,如圖1(2)所示。
圖1 計算能力、功耗和主頻、CPU 數量的關系
要達到同等計算能力,可以通過提高CPU主頻的方法,也可以通過增加CPU數量的方法,通過上述分析可知,提高主頻會使能耗呈指數增加,而增加CPU數量只使能耗呈線性增加,所以,如果能在滿足應用的前提下,盡量采用增加CPU數量的辦法,可以十分有效地降低服務器的能耗。
CPU追求高主頻,會增加指令執行的流水線級(如Intel的CPU流水線已經超過了30級),會增加CPU電路設計的規模復雜度和需要驅動的負載數(式2中的Cs項),從而帶來功耗的增加;CPU提高計算速度還會加寬內部總線寬度,這也會導致CPU電路的復雜度和功耗的增加;CPU電路為提高主頻,采用的線寬已經接近物理極限,漏電流明顯增加,也帶來了電能損耗,這些都反映了繼續沿用提高主頻、增加總線寬度、減少芯片線寬,來提高計算能力的舊路已經不適合當展的發展要求,走到盡頭。
本文可以得出結論:根據面向的不同應用領域,合理選擇CPU的主頻、總線寬度、CPU集群數量,并配合軟件的算法優化,是提高單位功耗計算能力的正確方法。
服務器機群的應用方面可以分為數據優先和計算優先兩類,以降低總體功耗、提高單位功耗計算能力為導向,總結出數據優先應用的服務器CPU芯片頂層設計規范:
1)控制主頻在1GHZ以下,因為在目前芯片制作技術條件下,1GHZ以上主頻的CPU芯片在工藝、能耗和成本會出現階躍,工藝以90納米為界.
2)CPU總線采用32位,可以滿足大部數據優先的應用.
3)CPU芯片SOC化,減少對外設接口的支持,減少直至取消外圍配套芯片,增強對網絡通訊的支持。
4)采用多核、多線程計算,適當控制流水線級數。
5)對于數據優先應用,或一些專門的算法應用,不涉及浮點計算的應用環境,取消浮點部件。
依此規范設計出來的CPU芯片,稱為“云計算節點專用CPU芯片”,使用這種專用芯片設計出來的微計算節點電路模塊,除啟動FLASH芯片、內存芯片外,幾乎沒有任何多余的外圍芯片和電路模塊,功耗控制在最低水平,體積也很小,多個微計算節點模塊,配合電源模塊、數據交換模塊,組裝出來的服務器,稱為“微服務器(Micro-Server)”,大量微服務器組成集群,可以取代數據中心大部分數據優先應用的常規服務器,是實現大幅度降低數據中心總耗電量的首要和基礎步驟。
依照上述理論指導,用0.65GHZ主頻、32位MIPS架構的CPU組成微計算節點,功耗為50瓦,比較對象為2.9GHZ主頻、64位雙核、X86架構CPU的HP服務器(IntelG850),其主板功耗大于200瓦,兩者均采用網絡磁盤為數據儲存方式,以LoadRunner為加壓測試工具,測試結果如圖2所示,縱坐標表示每秒點擊數,橫坐標表示加壓數。
圖2 每秒點擊率對比圖
為反映不同架構微計算節點的綠色性能指標,本文定義了一個綠色度量單位GGPW,它把1GB內存、1GHZ主頻、1W功耗作為一個GGPW單位,用于比較不同架構、不同配置的CPU單位功耗計算能力參數.例如:一個CPU芯片含2個內核,主頻為1GHZ,內存為2GB,功耗8W,那么它的GGPW值為:
2*1GHZ*2GB/8W=0.5GGPW,GGPW值越大,表示微計算節點的綠色計算能力越高,這個指標是一個簡化模型,雖然在反映計算能力上欠精確,但在比較不同架構CPU的單位功耗計算能力時簡單、實用.
由于微服務器的超低功耗特性,原來數據中心必須的24小時機房空調強制降溫,變為了普通辦公環境的空調使用,微服務器降低能耗、進而減少空調用電,僅這兩條結合在一起,數據中心的用電量可減少到原來的25%。
2.2 太陽能主供電源技術
由太陽光輻射產生的能量稱太陽能,太陽輻射到地球大氣層的能量僅為其總輻射能量的22億份之一,但已高達173太瓦(TW)[6],地球上的風能、水能、海洋能和生物能,都源于太陽能,即使是化石燃料(如煤、石油、天然氣等),也是遠古保存下來的太陽能,所以說,太陽能是地球上最清潔、最永續不滅的能源,在可再生能源中開發、研究得最為廣泛。
但太陽能發電在當前存在兩個問題,一是單位面積發出的電量不高;二是時間上不均勻,不論并網輸送,還是離網應用,都需要加裝蓄能設備,提高了發電成本,所以,太陽能給計算機供電時,只能小規模應用,或作臨時備份手段使用。
由于采用微服務器作為數據中心的服務器設備,功耗得到了大幅度的降低,使得太陽能作為數據中心的主供電源成為了可能,而且不需要占用太大的發電場地,可充分利用機房樓頂、鄰近空地等,取得經濟和工程上的可行性,同時,絕大部分數據中心都使用蓄電池作UPS的主要蓄能裝備,本設計可以巧妙地把它們轉作為太陽能發電的蓄能用途,太陽能光伏產生的是直流電,給蓄電池充電時不需要整流,減少了部分整流損耗。
為反映微服務器集群構成的數據中心,采用太陽能為主供電源的可行性,本文定義了一個太陽能面積比的指標GSSR:GSSR=太陽能發電場面積/服務器機房面積,即在正常陽光照射條件下,可以完全滿足單位面積安裝的服務器全天使用所需要太陽能發電場面積,例如,一個500平方米機房中所有的服務器,24小時正常運行所需要的電量可以由4000平方米的太陽能光伏發電場在接受(每天)5小時陽光照后提供,不需要其它外供電源,那么,GSSR=4000平方米太陽能發電場面積/500平方米服務器機房面積=8.0,此時,可再生能源利用率接近當地全年日照天數比率,是最佳的綠色數據中心。
當陽光照射的有效時間少于設計值時,如陰天、冬季等,可以啟動交流電(市電或柴油電)補充,交流電“降格”成為后備電源。
2.3 高壓直流供電技術
目前的數據中心供電以交流電為主,三相四線AC380V為標準供電電源,經UPS模組,整流出直流電為蓄電池浮充電,蓄電池(直流電)再逆變為AC220V交流電給服務器機房配電,經服務器內部的電源模塊又轉換成低壓直流使用,AC-DC、DC-AC、AC-DC三次變換,損耗率在20%左右。
本文在設計微服務器時,采用兼容高壓直流輸入和高壓交流輸入的電源模塊,使得太陽能光伏發電DC240V、蓄電池儲能DC240V、服務器電源輸入DC240V,到服務器主板是低壓直流,整個供電、配電、變換過程都是直流電、僅一次DC-DC變換,損耗在10%以下,采用DC240V標準,是兼容目前AC220V為輸入標準的開關電源模塊,保證它們的元器件耐壓指標一致。
僅在太陽光照不足時,交流電整流給蓄電池充電,縮短交流電的使用時間,由長期使用變成短時間使用,AC-DC變換只有一次。
除服務器外,通訊交換機大部分也采用直流供電,如DC48V,機房照明采用LED照明,不僅減少照明燈具本身的功耗,而且直流電下,LED的交直轉換和散熱損耗均大大降低,只有大功率設備,如空調、新風機等,仍保留由交流供電驅動,相信未來直流空調、直流新風機等配套產品面市時,數據中心將成為全直流的用電環境,對功耗控制、電源質量都會帶來質的飛越。
2.4 專用電源模塊技術
對微服務器中的電源模塊進行了特殊設計,其原理圖如圖3所示,1)兼容高壓直流(DC240V)和高壓交流(AC220V)輸入,稱為“異種電源雙回路”;2)電源模塊內置鎳氫電池或鋰電池,既可以實現異種電源雙回路的“零秒”切換,又可以充分使用太陽能。
由于微服務器的電源模塊本身就是一個小的UPS模組,使數據中心集中配備的UPS模組可以使用數量較少的蓄電池,減少一次性的投資。
圖3 異種電源雙回路不間斷的服務器專用電源模塊結構示意圖
3 測試驗證
由于微服務器實現了服務器功耗的大幅降低、進而空調用電量同比例降低,使得太陽能發電有條件成為主供電源,太陽能光伏直流供電實現了數據中心全程高壓直流配電,當進一步采用“異種電源雙回路不間斷的服務器專門電源模塊”,使供電更穩定和節約,每一個節能技術環節是環環相扣、嚴絲合縫的,四個節能技術措施創新性組合在一起,這種數據中心構建技術稱為“綠云技術”,這樣的數據中心機房稱為“綠云房”。
表1 是按前言中的舉例,比較綠云房與普通數據中心在同等10 萬臺服務器計算能力時的電能消耗情況.
表1 普通數據中心與綠云房對比表
社會效益方面,綠云技術在大幅減少耗電量的同時,把主供電源改為清潔的太陽能,節省超過3億度傳統電能,也就是節約燃煤100萬噸/年(按照1噸煤可以發電3000度),減少的碳排放為245萬噸/年(一噸標準煤會帶來2.4567噸的二氧化碳排放量)。
4 實際應用
經歷1年時間的理論測算、9個月時間的技術開發和測試,把包含四大創新技術組合的綠色數據中心整體解決方案充分論證定型,和當地的中國聯通進行合作,在深汕特別合作區建立了全世界第一個全面實施“綠云技術”的數據服務中心--“微服務器集群架構的綠色云計算平臺”,數據中心的整體結構如圖4所示。
圖4 中國聯通&芯靈科技綠色數據服務中心結構示意圖
整個數據中心的設計規模和經營情況為:
1)太陽能發電場面積5000平方米,總發電功率40萬瓦;
2)服務器機房機柜總數達100個,部署微服務器1500臺,微計算節點數18000個,機房面積650平方米,單純以主頻和CPU數作比較,該機房滿裝時計算能力為IBM“深藍”超級計算機(以擊敗國際象棋大師而聞名于世)的3046倍,是Intel的超級計算機ASICRED(1997年TOP500的第一名,美國圣地亞國家實驗用于模擬原子彈爆炸)的8.1倍。
3)MIPS和X86兩種架構的微計算節點混合應用時,性能會進一步提高。
4)主要以微服務器包年出租和計算資源按時出租兩種模式進行經營。
5)向其他第三方授權使用“綠云技術”,并提供核心技術和產品。
據中國聯通數據中心提供的數據,與常規服務器機柜出租情況進行對比,比較情況如表2所示,在租金定價不變時,利潤提高了四倍,或者下調租金,給客戶更多優惠。
表2 微服集群經營數據對比表
上表是根據聯通公司提供原來服務器機群條件的經營數據,代入新的微服務器集群參數后計算得到的經營效果數據。
該數據中心主體已經建成,第一期將開通太陽能發電20萬瓦,服務器機房機柜數50個,微計算節點9000個,表3是該數據中心當前的實測數據,也是綠云房的“綠云技術”標準的推薦值。
目前,世界上已經有一些太陽能數據中心投入使用,如Intel在美國新墨西哥州里約牧場的數據中心安裝了太陽能板,產生1萬瓦功率的電力;IBM在印度班加羅爾5萬瓦功率的太陽能發電設備,主要是應對當地電網設施的供電不穩定或者幾乎不存在。
國際上這些太陽能數據中心案例,都只是簡單添加太陽能發電裝置,沒有在數據中心架構上采取整體配套技術改造措施,而把太陽能發電、UPS配電和微服務器集群作一體化設計,把它們建造成一個有機的整體是本文最大的創新之處,不管是四項技術創新組合的綠色數據中心,還是在全面采用微服務器集群、高壓直流配電方面,都居于領先地位。
表3“綠云技術”指標設計推薦值
5 意義重大
“綠云技術”的意義不僅僅是可以建立大幅度節能減排的數據中心,“綠云技術”概念的進一步發展,將對全球信息社會產生極為深遠地影響,她向我們展現出一片美好的前景。
1)“綠云技術”成倍地提高了每瓦電能可產生的計算能力,讓高性能計算以合理的經濟性走入尋常百姓家,為云計算、信息社會快速發展注入了強大的動力。
2)“綠云技術”數據中心的供電、配電回歸直流電時代,微服務器率先采用全直流供、配電系統,可能引領一波震天撼地的用電設備直流化浪潮。
3)由于太陽能光伏發電與直流用電設備是天然的伙伴,用電設備直流化,將猛推太陽能的普及使用.“綠云技術”帶領人類返璞歸真,重歸白云、綠地的自然家園。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:微服務器集群架構的綠色云計算平臺