《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 基于機器學習的數據中心參數自動優化關鍵技術研究

基于機器學習的數據中心參數自動優化關鍵技術研究

2020-08-06
來源:中國信通院CAICT

  1 引言

  隨著大數據、云計算等技術的高速發展,數字經濟已經成為我國經濟發展的重要戰略,高密度數據中心作為承載技術與產業的實體,是傳統工業向信息化轉型的關鍵“新基建”。因此,對數據中心的全方位優化部署成為了從業者的迫切追求。衡量數據中心性能的標準即為可定義、可量化的一系列數據中心關鍵參數。本文希望研究利用機器學習算法進行數據中心參數自動優化的典型關鍵技術,特別是研究聚焦在“基礎設施層”和“服務器層”等核心參數的具體優化方法,以形成數據中心參數自動優化的設計路徑。

  2 數據中心關鍵參數分析

  本文研究的關鍵參數包括:數據中心能源利用效率(Power Usage Effectiveness,PUE)、風機水泵等基礎設施系統設備耗電量;網絡傳輸性能如時延、丟包率、吞吐量等;數據中心的可靠性、可用性等。

  2.1 PUE

  全球通用的數據中心核心關鍵指標是PUE[1],該指標最早于2007年由綠色網格組織(The Green Grid,TGG)提出,用來評價數據中心能源利用效率,并得到廣泛使用。

  PUE的定義為:PUE=Pall/PIT,其中Pall指的是一個數據中心的全年總體累計電能消耗,單位為kWh;PIT為整個數據中心的IT設備全年累計電能消耗,單位同樣為kWh。因此,PUE為一個沒有單位的參數,且最小值為1。

  2.2 數據中心基礎設施耗電量分析

  隨著產業和規模的發展,數據中心能耗成為社會廣泛關注的問題。對于從業者而言,實現數據中心的綠色化發展也是體現技術水平的重要方面之一。因此,近年來數據中心行業對各種設備的能源消耗日益關注,基礎設施的耗電量成為最為關鍵的技術參數之一。

  2.2.1 冷水機組

  冷水機組是大型數據中心制冷架構中的核心設備,其工作原理是由一個多功能的機器,通過內部工質的壓縮或膨脹來完成制冷循環。在制冷行業中,通常冷機可以分為風冷式和水冷式兩種,根據壓縮機的不同種類,水冷型的冷機又分為螺桿式冷水機組和離心式冷水機組,在大型數據中心領域常見的是水冷型離心機組。根據調研,冷機是數據中心暖通系統中耗電量最大的單體設備,主要耗電部件是壓縮機。

  2.2.2 風機

  在數據中心基礎設施系統中,風機的功耗占據著僅次于冷水機組的耗電類設備第二大比例。在IDC制冷架構設備中,采用風機設備的風冷精密空調整體耗能比水冷型高15%。因此,從空調制冷,到冷板式制冷,再到浸沒式制冷,制冷末端在逐漸向熱源逼近。液冷技術直接利用冷卻液直接/間接給IT設備芯片散熱,效率較高。

  2.2.3 水泵

  在數據中心運維階段,通常水泵的運行頻率對各類制冷設備整體的總能耗起關鍵作用。因此,水泵的能耗成為被關注的另一個耗電量核心參數。

  2.3 網絡傳輸參數

  隨著網絡的快速發展和普及,互聯網規模不斷擴大,涌現出很多新型網絡應用和服務,例如高清視頻會議、在線游戲和網絡直播等。不同的數據中心應用對以下3個指標有不同側重點需求。

 ?。?)吞吐量:表征的是網絡架構中主機之間的傳輸速率,表現為單位時間長度內的傳輸數據總量,常用單位為kbit/s和Mbit/s。

  (2)時延:有單向時延和端到端時延兩種概念,單向時延指E1發送數據報文的時間與E2接收數據報文的時間之差,端到端時延是分組時延、單向(網絡)時延、抖動緩沖時延和附加固定時延(如果有)的總和。與單向時延一樣,端到端時延在端點之間是單向的,但擴展到硬件,包含所有延遲因素。

 ?。?)丟包率:是丟失IP包數與所有發送的IP包數的比值,衡量網絡架構性能的一個重要參數。通常數據在網絡傳遞中會發生丟失現象,經常和網絡轉發質量、末端間距等因素相關。

  2.4 數據中心可靠性和可用性

  數據中心的重要性在于支持企業應用不間斷運行。近年來,世界各地的數據中心經常發生一些安全故障事件,一次次沖擊著用戶的心理防線。因此,數據中心可靠性和可用性是衡量其綜合性能的關鍵參數。

 ?。?)可靠性(Reliability),指某個設備或系統在一個指定的時間內能夠無故障地持續穩定運行的可能性。人們通常用平均無故障時間(Mean Time Between Failure,MTBF)這一指標來量化它,MTBF反映了產品的時間質量。

  (2)可用性(Availability),指系統在使用過程中MTBF與總時間(MTBF+MTTR)之比(其中MTTR為平均修復時間),其計算公式是A=MTBF/(MTBF+MTTR)??捎眯允呛饬恳粋€數據中心整體或者設備穩定運行能力的指標,比率越無限接近1.0,穩定性越好。

  以上不同關鍵參數基本可以對一個數據中心進行整體綜合評價,這使得數據中心基礎設施的設計有了可量化的目標,也使得評估有了可量化的依據。

  3 針對參數優化的機器學習算法

  在信息通信領域,機器學習算法技術在過去幾年越來越受到重視。這些算法的目的是找到相關參數之間的關聯程度,并以此去規劃執行動作,從而對目標參數進行集成優化。集成優化是指對數據中心五層架構的統一調度,其中尤為重要的是風火水電和IT軟件硬件資源之間的優化[2]。人工智能、云計算和大數據技術的發展,催生基于海量數據進行預測并輸出建議的機器學習算法進展迅速。機器學習算法種類繁多,其中針對目標參數進行關系擬合、優化的算法基本分為三大類。

 ?。?)監督學習:監督學習問題可以分為兩類,一類是回歸,輸出結果是數字,如城市交通流量、設備運行速度;一類是分類,輸出結果是類別,如男性或者女性、睡眠或者清醒。

  (2)無監督學習:無監督學習問題可以分為3類,一類是關聯,該方法是為了找出各種情況出現的概率,廣泛地運用于購物車分析(電子商務領域)中;一類是聚類,把樣本分堆,使同一堆中的樣本之間很相似,而不同堆之間的樣本就有些差別;還有一類是降維,減少數據集中變量的個數,但是仍然保留重要的信息。

 ?。?)強化學習:通過學習那些能夠最大化獎勵的行為是什么,然后根據當前狀態來決定最優下一步行動。此算法通常用在機器人開發中,經常使用試錯的方式來學習最佳行動。機器人可以通過在撞到障礙物后接收到的負反饋來學習如何避免碰撞。例如,在視頻游戲里,試錯行為能發現那些給予玩家獎勵的特定動作。行動主體就能用這些正向獎勵來理解游戲中的最佳情形,并選擇下一步行動。

  4 基于機器學習的數據中心參數自動優化關鍵技術

  機器學習算法是一個在不斷發展中的邊界不明確的技術領域,如基本類別監督學習和非監督學習的算法分類目前尚存爭議[3]。機器學習界的一個最鮮明的特點就是算法眾多,思想各不相同,發展各有路徑。因此,業內廣泛接受的一個事實是:沒有任何一種機器學習算法可以適用所有應用場景,可以說是一類各方探討進程中的典型技術。根據各類學習算法的特征優勢,數據中心領域展開了多種算法實踐,其中的典型參數自動優化算法如下。

  4.1 應用監督學習算法的數據中心參數自動優化

  監督式學習在數據中心參數調優中的典型技術是“運維參數優化”,其主要思想就是驅動系統設備跟隨運維人員從歷史數據中學習,運維人員就像是一個“師傅”,將自己的領域知識“教” 給系統,然后系統根據“學”到的知識來自動選擇合適的檢測器和算法參數。運維人員首先在歷史數據中標記出異常,接著使用十幾種不同類型的檢測器提取出上百個異常特征,此時有了人工標記的數據和異常特征;然后,將異常檢測問題轉化成機器學習中監督式的分類問題,分析算法中參數的分布規律和不同參數下學習效果的評估,并將此規律應用于機器學習的模型訓練,達到自動選擇合適參數的目的。

  4.2 應用無監督學習算法的數據中心參數自動優化

  無監督算法的一個應用是對大型服務器集群內部的故障進行根因故障分析,以此提高數據中心的可靠性參數。目前,業界基于人工智能的運維以告警事件、業務日志、網絡及業務拓撲等為研究管理對象,通過算法智能降噪、算法智能聚類的管理過程,依托無監督方式的機器學習算法技術來實現智能事件關系整合,在海量的故障事件中高速、精準定位問題,解析原因,提高解決問題的速度。

  這種技術在對服務器進行故障分析時具備典型的優勢:首先是多元IT數據接入,融合告警事件、監控日志、流量、網絡拓撲等多維度數據接入;其次是大數據算法降噪,通過智能算法進行數據的降噪處理,高效的實時數據處理能力,海量數據的多維管理;第三是數據聚類和關聯,通過算法進行智能關聯性匹配并聚合歸類,產生新的數據模型;第四是智能根因推薦,依據IP、業務、歸屬等多維度進行智能化語義分析,快速推薦當前情境下的故障根因;最后是知識庫積累復用,可以構建一套知識體系與歷史事件分析的過程,即針對過去事件與當前告警智能提供匹配列表。

  4.3 應用強化學習算法的數據中心參數自動優化

  用強化學習算法去優化PUE是對傳統數據中心控制系統技術的突破性顛覆,也是目前機器學習算法在數據中心參數優化的最成功實踐。這種算法運用機器學習、統計學以及模糊控制等技術和方法對數據進行處理、對各類相關設備進行系統化分析和決策,從而達到優化數據中心整體PUE的目的。通過對當前運行數據的清洗、分析和挖掘,預測未來的控制動作。整個過程采用機器學習算法的模型進行訓練。從強化學習算法用于優化數據中心參數的成果來看,該方法收益顯著。例如,谷歌公司使用其機器學習系統,自動管理其數據中心的冷卻架構,并持續分析21個變量,如空氣溫度、功率負載和內部氣壓等。2018年,谷歌公司利用機器學習算法將冷卻系統所需的能耗減少40%,實現PUE值為1.06的良好成績。

  5 結束語

  自2013年起,中國信息通信研究院云計算與大數據研究所測試過眾多數據中心的PUE,其中表現良好的大部分為互聯網和通信行業大型數據中心。測試結果顯示,參測數據中心PUE已經由1.4~1.5區間降低到1.2~1.3區間,最佳PUE在不斷創新低?;跈C器學習的典型算法在數據中心的PUE等參數優化中已經有了不同的應用。未來,機器學習算法將與ICT領域的新技術產生更多交集,形成更多方向、更加深入的研究課題,通過算法與實際業務的結合,實現更大的收益。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 国产一区二区视频在线 | 在线亚洲天堂 | 日韩黄色片在线观看 | 日韩在线第三页 | 最近的中文字幕2019更新 | 亚洲欧美国产一区二区三区 | 亚洲熟乱 | 国产99视频精品免费观看7 | 欧美亚洲中日韩中文字幕在线 | 最新国产三级在线观看不卡 | 日韩一区二区三 | 多人伦交性欧美在线观看 | yellow网站在线观看 | 国产综合影院 | 欧美性xxx | 久草新免费 | 最刺激黄a大片免费观看下截 | 成人免费视频一区二区三区 | 久久女同互慰一区二区三区 | 国产一区二区视频免费 | 亚洲午夜久久 | 老司机天堂影院 | 亚洲午夜天堂 | 免费精品精品国产欧美在线 | 十八禁毛片 | 亚洲欧美日韩在线观看播放 | 日本系列 1页 亚洲系列 | 精品九九视频 | 亚洲视频免费播放 | 亚洲欧美一区二区三区综合 | 国产精品麻豆高清在线观看 | 九九九九精品视频在线播放 | 韩国伦理剧在线观看 | 涩涩色中文综合亚洲 | 亚洲国产模特在线播放 | 日韩免费一级a毛片在线播放一级 | 成人深夜福利视频 | 国产成人a毛片 | 日本三级全黄三级三级三级口周 | 国产一区免费视频 | 欧美日韩一区二区三区高清不卡 |