文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.183086
中文引用格式: 王舒平,張毅,韋文聞,等. 內容分發網絡預取技術綜述[J].電子技術應用,2019,45(4):23-28.
英文引用格式: Wang Shuping,Zhang Yi,Wei Wenwen,et al. Overview of prefetching technology in content deliver networks[J]. Application of Electronic Technique,2019,45(4):23-28.
0 引言
隨著互聯技術的發展,各類創新型應用如雨后春筍般涌現,以文件傳輸、視頻會議等為代表業務顯著提高了企業工作效率,網絡視頻直播、網上購物等熱點業務使人們的生活變得豐富、便捷[1]。由于智能終端的不斷普及,互聯網已成為現代人來獲取信息和信息分享的重要途徑,Web及流媒體業務用量爆炸式增長,網絡中服務器的負荷加重問題和網絡流量擁塞問題日益嚴峻。
大規模的用戶請求導致服務器負荷加重,成為網絡故障中的重要隱患,更有甚者它將會使服務器宕機,產生拒絕服務現象,嚴重影響用戶體驗質量。此外,大規模請求會造成網絡擁塞,顯著增加用戶側內容的獲取時延, 嚴重網絡擁塞將引發數據包的大量丟失,導致用戶訪問失敗。為了解決上述問題,研究者們提出了內容分發網絡(Content Deliver Network,CDN)。如圖1所示,CDN是由分布在網絡邊緣節點服務器構成的一層智能虛擬網,主要原理是將內容副本緩存到靠近用戶端的節點服務器上,并根據實時網絡情況把原始服務器的用戶請求重定向至距離用戶就近狀態最佳的節點服務器,使用戶可以就近獲取所需內容,從而有效地緩解由大量遠程訪問引起的骨干網流量擁塞[2]。
在CDN中,緩存技術[3]是保證用戶請求加速的一項關鍵技術,但就CDN本身而言,節點處的內容緩存主要由用戶驅動,即當有用戶請求內容時,節點服務器里沒有該內容,節點服務器向內容源服務器獲取該請求內容,在發給用戶的同時,將該內容保存在節點服務器中,為未來相同的請求提供服務。本質上,該技術所采用的是一種被動緩存方式。在網絡終端不斷普及的趨勢下,這種被動式內容存儲將無法滿足互聯網流量爆炸式增長的需求,典型地引發下述問題:(1)緩存具有滯后性,即服務器節點無法預測內容的流行趨勢,內容緩存滯后于潛在的用戶需求;(2)節點處緩存空間利用率低,尤其是在節點服務器處用戶請求較少的情況下,由用戶驅動的被動緩存將使服務器節點僅緩存有限的請求內容,致使節點處存在大量閑置緩存空間。為提升節點服務器上的緩存空間利用率以及提供更好的服務質量,眾多研究者提出在CDN節點處引入預取技術[4]。CDN預取技術是對其緩存的補充,核心思想是由節點服務器預先主動從內容源服務器處獲取部分內容,以期加速用戶對于內容的獲取。預取技術的引入,使得服務器節點可以先驗地緩存部分內容,解決了因無法預測網絡中內容流行趨勢所導致的緩存滯后的問題;此外,通過引入預取技術,服務器節點可以預取部分流行度較高的內容,避免節點處大量緩存空間閑置,使有限的網絡資源得到合理的利用。預取技術作為內容分發中的關鍵技術在國內外受到廣泛關注,眾多學者圍繞內容流行度及用戶需求等對預取進行了大量研究。
1 CDN預取分類
根據預取時關注的對象不同,將CDN預取分為面向內容的預取和面向用戶的預取。面向內容的預取依據網絡中內容請求數量變化來進行預取,稱之為基于流行度的預取。面向用戶的預取進一步劃分為三類預取方式:第一類主要通過對用戶興趣進行分析來決定預取的內容,稱之為基于用戶偏好的預取;第二類根據用戶之間的社交關系來預測內容的傳播趨勢,并據此進行內容預取,將其定義為基于社交網絡的預取;第三類旨在通過研究用戶移動性對節點服務器上緩存內容流行度的影響來動態調整內容預取策略,稱之為基于移動性的預取。
1.1 基于流行度的預取
大量統計表明:內容的訪問流行度分布符合zipf定律[5],即僅有近20%的內容對象被超過80%的用戶訪問,這一現象反映了在網絡中不同內容被用戶的訪問分布情況。流行度被定義為統計時間段中內容對象被訪問的次數或概率來表示,在研究中,基于流行度的預取利用上述現象對流行度較高的內容進行預取[6]。在CDN中,一方面,不允許存儲新內容時,根據流行度來確定所需要刪除的內容; 另一方面,根據流行度來選擇所要預取的具體內容。基于流行度的預取是CDN中一種主流的內容預取技術,其關鍵在于內容流行度的確定,目前常采用統計學、控制理論的預測方法,有指數平滑預測、多項式回歸預測及Savitzky-Golay濾波預測三種。
1.1.1 指數平滑預測
指數平滑預測是指采用指數平滑法(Exponential Smoothing,ES)對內容流行度進行預測,由于每個內容在其生命周期的早期和后期的流行度存在很強的相關性,指數平滑法已被廣泛地應用于預測內容未來的請求數量[7]。指數平滑法是在移動平均法[8]基礎上發展起來的一種時間序列分析預測法,既可以同全期平均法一樣無遺漏地對歷史數據加以利用,又可以同加權移動平均法一樣為近期數據賦予更大權重的熱點。指數平滑法兼容了全期平均和移動平均的優點,在不舍棄歷史數據的情況下,僅給予逐漸減弱的影響程度,即隨著數據的遠離,賦予逐漸收斂為零的權數;并且指數平滑法對不同時間訪問量賦予的權值具有伸縮性,可以通過賦予不同平滑指數來更改權值的變化速度。
文獻[9]提出一次指數平滑(Single Exponential Smoothing,SES)和二次指數平滑(Second Exponential Smoothing,DES)來預測各個階段的內容流行度,作者從YouTube以天為觀察單位提取每個內容流行度從上傳到觀測時間結束的真實軌跡,在每個觀測單位分別采用SES和DES來根據觀測時間前的流行度從而預測當前時間的流行度。
指數平滑預測法的優點是僅需少量數據資料,便可預測出短期的內容流行度值。但由于指數平滑法對近期數據所賦予的權重高,而對遠期數據的參考性弱,無法對遠期流行度進行預測,只能做短期的預測。
1.1.2 多項式回歸預測
在實際工作中,人們經常采用多項式回歸模型來解釋自變量與因變量的相關關系[10]。多項式回歸預測通過多項式回歸法擬合內容流行度隨時間變化的曲線,得到因變量內容流行度與自變量時間的變化函數,這一模型可以表示為,流行度等于時間的各次項與對應回歸系數的乘積之和。在擬合過程中,主要是通過增加時間變量的高次項推導出逼近真實的時間函數,推導時主要是找到各次項的合適系數。
文獻[11]研究提出屬于同一類別的內容具有相同的流行度隨時間變化的曲線相似,多項式回歸預測可以得到某一類內容流行度隨時間變化的規律,因此該規律可以用于該類內容流行度的長期和短期預測。
1.1.3 Savitzky-Golay濾波預測
Savitzky-Golay濾波預測通過Savitzky-Golay濾波器平滑觀測流行度隨時間的變化曲線,以便最好地保留流行度采樣曲線的特征。文獻[12]利用Savitzky-Golay濾波預測得到流行度時間模型,可表示為圍繞時間觀測窗口中心k的n次多項式,該模型能夠使得預測值和實際值的累積平方誤差值最小。
1.2 基于用戶偏好的預取
前面基于流行度的預取技術是利用流行度變化反映內容的訪問趨勢,這種趨勢相對于個體用戶偏好而言存在明顯的差異,造成邊緣節點預取的部分內容被閑置。為了解決上述問題,有學者提出了基于用戶偏好的預取,并且相關研究統計證明了用戶偏好在一定時間內是保持穩定的,這一特性為基于用戶偏好的預取的可行性提供了有力的保證。
在對從未訪問過的新內容做預取時,基于流行度的預取由于缺乏歷史數據作為分析基礎,無法做出正確的預測,但基于用戶偏好預取則可以根據用戶興趣內容標簽集合并結合用戶請求預判用戶偏好,指導預取的執行。基于用戶偏好的預取一般分為兩個階段,第一個階段是獲取用戶偏好;第二個階段是根據用戶偏好制定預取策略。
文獻[13]采用文檔主題生成模型(Latent Dirichlet Allocation,LDA)[14]獲取內容的潛在主題,并用對稱Jensen-Shannon散度[15]衡量內容主題與用戶興趣主題之間的相似性,節點將預取相似性較高的內容以供用戶未來請求。
文獻[16]通過預測函數對用戶為評分內容進行預測,將評分較高的一部分內容預取到邊緣節點。在該文獻中,作者首先將用戶偏好向量定義為用戶對不同內容屬性的偏好度,偏好度表示用戶訪問的全部內容屬性疊加后該屬性所占的權重;然后通過余弦相似性得到群體用戶的偏好相似度;最后根據用戶評分相似性和偏好相似性帶入對內容評分預測函數中得到內容的評分,并預取評分較高的內容。
1.3 基于社交網絡的預取
據統計,網絡中大量HTTP流量來自于在線社交網絡(Online Social Network,OSN)中的帶寬密集型媒體內容[17]。在線社交網絡可以捕捉朋友之間的聯系,且許多在線社交網絡上可以獲取用戶的地理位置,這為基于社交網絡的預取提供了實施條件。媒體提供商通常依靠CDN將其內容從內容源服務器分發到多個位置,基于社交關系的預取利用OSN上人們的社交關系了解內容地理傳播方式,從而改善CDN用戶訪問體驗。
社交預取主要利用社交網絡中的朋友關系信息、用戶的交互行為,如提到、轉發、評論等,來分析社交網絡的朋友關系。通過引入朋友關系強弱程度的預取模型,主動將某用戶訪問內容分發給可能訪問該內容的朋友附近的CDN節點,使其朋友下載內容時減少延遲。
SASTRY N[18]等人構建了Buzztraq模型,該模型根據用戶的朋友數量和朋友的位置信息,將用戶發布的內容副本放置在更靠近較多用戶朋友的位置,以滿足未來請求。但該模型僅僅強調了捕捉潛在的下一個內容訪問地址,并沒有考慮服務器帶寬和存儲等復雜約束。
KILANIOTI I[17]提出了利用OSN提取用戶活動的動態預取策略,并且考慮到網絡拓撲、服務器位置以及緩存容量的限制的情況,實驗證明了結合OSN的預取模型能夠改善CDN的性能。
1.4 基于用戶移動性的預取
CDN中大多數預取方案針對的是固定網絡,而據Cisco公司統計,在2016年,全球移動數據流量較2015年增長了63%,其中移動視頻流量占移動數據流量總量的60%,并且移動數據流量和移動視頻流量在未來幾年內還將呈現持續增長趨勢[19]。同樣,CDN網絡也將面臨著大量移動用戶接入的問題,文獻[22]通過測量發現移動用戶的緩存命中率遠低于LRU緩存策略下的靜態用戶的緩存命中率。因此用戶移動性是CDN緩存和預取策略的重要因素。
由于個人的移動性存在一定的隨機性,CDN節點下可以分為不同的用戶群體,不同群體與CDN節點存在不同的關聯程度,因此可以通過構建群體移動模型來優化CDN預取。文獻[20]引入了PageRank的人群移動性內容傳播(Crowd Mobility-based Content Propagation,CMCP)解決方案,通過關注不同用戶群體移動用戶的比例,預測未來的內容需求分配。
1.5 預取方法的比較
以上根據預取時關注的對象不同,介紹了現有的預取方式,包括基于流行度的預取、基于用戶偏好的預取、基于社交網絡的預取和基于用戶移動性的預取,表1給出了幾種預取方式的對比。
基于流行度的預取僅根據內容流行的趨勢,一般采用統計學方法,實現相對簡單。它不依賴于用戶的特性,可以作為服務器端宏觀地控制邊緣節點預取。早期的IPTV也是采用該預取方式,將部分流行度高的內容預取到邊緣節點上,從而提高用戶的訪問質量。但是基于流行度的預取技術缺乏對用戶訪問特性的研究,而且不同的用戶群體之間也存在著明顯的差異,比如在大學里學生一般大量地訪問科技文獻和技術視頻,而小區家庭中一般傾向于少兒視頻、體育賽事等一系列偏向于娛樂的業務需求。并且隨著P2P與CDN的結合,邊緣CDN節點越來越向用戶端靠近,節點附近用戶偏好對邊緣節點的緩存影響也愈加顯著,因此解決用戶訪問內容差異性問題成為了提高預取質量的重要所在。基于用戶偏好的預取根據用戶的歷史訪問記錄構建用戶畫像,提取用戶群體共同的內容偏好,預取時根據用戶偏好對當前流行的內容和最新發布的內容進行預取。它給用戶訪問提供更精確服務的同時,采用數據挖掘方法又給節點帶來了大量的運算開銷。由于內容的傳播很多的是由用戶之間的推薦,并且大量的內容也在社交網絡上發布。基于社交網絡的預取,通過用戶之間的社交關系,也可以提高用戶的訪問質量。基于用戶移動性的預取主要應用于移動互聯網中的內容預取,增加了用戶對移動性對邊緣節點內容需求的影響因素,以提高節點的服務質量。
2 評價標準
為了對不同預取技術進行公平對比,學術界通常采用命中率[21]、準確率[22]、帶寬成本[23]以及平均響應時延[24]評估預取技術對CDN系統性能的改善效果。
2.1 命中率
CDN系統中希望將用戶請求重新定向到離用戶最近的邊緣服務器上,以提高用戶訪問速度。在實際中,如果當服務器節點預先存儲有用戶請求內容時稱之為命中;如果沒有事先緩存稱為未命中。命中率(Hit Rate,HR)體現了預取和緩存對用戶訪問加速的貢獻,定義為:
其中SR表示命中的請求數,NR表示沒有命中的請求數。
2.2 準確率
命中率要求預取應該在用戶訪問之前緩存內容增加用戶的體驗質量,但是如果用戶并沒有訪問,則預取會浪費網絡資源和服務器存儲資源。當預取規則沒有準確地獲取用戶需求時,節點服務器會從源服務器下載必要的內容,導致服務器緩存資源浪費、帶寬成本增加。準確率可以間接表示預取規則的有效性,定義為:
其中TP表示用戶訪問的預取內容數量,FP表示用戶沒有訪問的預取內容數量。
2.3 帶寬成本
由于用戶訪問類型的多樣性,為了提高命中率則需要頻繁地進行預取操作,會造成邊緣節點和內容服務器之間產生大量額外的帶寬消耗和節點服務器過于頻繁的緩存、刪除操作,從而降低用戶的體驗質量。通常用帶寬成本作為預取觸發的約束條件,帶寬成本可定義為:
其中,Pband表示包含有預取策略的CDN系統下滿足用戶需求所需的總帶寬,Rband表示沒有預取策略的原CDN系統下用戶請求所需的總帶寬。
2.4 平均響應時間
CDN的主要目標是提高用戶訪問速度,平均響應時間的變化直接地反映了預取策略對CDN的優化程度,現實中預取往往在減少平均響應時間和帶寬成本之間進行權衡。平均響應時間是CDN系統性能和用戶體驗質量的重要指標,定義為:
其中,M是用戶請求的總數量,ti代表第i個請求開始時到連接結束時間。
3 未來研究方向
CDN預取技術是提升用戶體驗的有效方式,但CDN網絡本身仍有一些不足,信息時代的來臨和市場需求都迫切需要將CDN與新型技術進行融合,主要有軟件定義網絡(Software Define Network,SDN)[25]、網絡功能虛擬化(Network Function Virtualization,NFV)[26]技術以及深度學習技術,使其實現邊緣智能和自適應組網等功能。未來對CDN預取技術研究將更加關注于CDN網絡與新技術融合帶來的挑戰。
3.1 SDN/NFV技術與CDN網絡融合
目前,大多數的CDN網絡是由各大廠家研制開發的專用型設備組成的,對多樣性的業務支持的能力不足,且自建網絡方式產生了資源獨占的現象,阻礙著CDN行業的快速發展。融合SDN/NFV技術到CDN網絡,利用NFV的軟硬件解耦和功能抽象特點,以及利用SDN的設備控制與數據分離的特征,可以加強CDN的多業務智能化服務能力[27]。
在這種契機下,由差異化業務給CDN中內容預取帶來的挑戰:不同業務對應內容的格式、類型以及大小不盡相同;針對不同業務下相同類型的內容的用戶需求也有所不同;不同業務的用戶訪問場景也存在差異。如何針對差異化業務預取合理的內容,滿足不同業務下用戶的需求,實現CDN預取的靈活性,是下一步CDN預取技術的關鍵所在。
3.2 深度學習與CDN網絡融合
目前視頻提供商依賴于地理上分布的CDN網絡,將視頻內容盡可能靠近用戶放置,以提高視頻質量并避免服務器端的單點故障。視頻流量爆炸式增長嚴重增加了CDN網絡的負擔,準確分析視頻的特征并預取用戶需求的視頻內容,是減輕網絡負擔的重要途徑。相對于自然語言的分析,對視頻數據的分析更為困難。深度神經網絡通過分層學習過程,能夠有效地提取輸入數據的高維度特征,顯著提升計算機視覺、自然語言處理以及語音識別的精確度[28]。
深度神經網絡給CDN中視頻預取帶來新的契機,例如卷積神經網絡(Convolutional Neural Networks,CNN)[29]能夠仿造生物的視知覺(Visual Perception)[30]機制,可以應用于預取機制中的視頻分類和用戶偏好挖掘。此外,遞歸神經網絡(Recursive Neural Network,RNN)[31]能夠對時間順序的自然語言、語音識別等數據的變化進行建模,可用于預取時預測用戶需求。深度學習可以為CDN預取中內容分類方法、用戶興趣挖掘等提供了更優的解決方法,隨著流媒體內容的發展,對視頻、音樂的預取將更加依賴于深度學習。
4 結論
本文以預取關注對象為基礎,對近年來CDN預取技術進行綜述,總結歸納出基于流行度的預取、基于用戶偏好的預取、基于社交網絡的預取以及基于用戶移動性的預取這四類預取方式。基于流行度的預取關注了網絡中普遍的內容流行情況,本質上反映出內容的請求趨勢,它是當前一種主流的預取方式。基于用戶偏好的預取通過挖掘群體用戶的偏好,使預取技術更加適應于用戶的個性化需求,進一步提高了邊緣節點中緩存內容的準確率。基于社交網絡的預取根據用戶之間的聯系構建內容傳播的模型,預測用戶訪問內容傳播位置,提高邊緣節點的緩存命中率。基于用戶移動性的預取根據用戶的移動性對節點內容需求的影響,動態地調整內容預取,提高了移動場景下節點服務器的緩存命中率。預取機制的主要目的是為了提高CDN網絡的緩存命中率和準確率,但是也會帶來一定的網絡資源消耗,因此可以大規模實施的預取技術需要控制預取的帶寬成本。CDN網絡與新技術融合發展是滿足信息時代需求的必然走向,本文分析了新型技術融合下預取技術面臨的挑戰,并給出了可能的研究方向。
參考文獻
[1] “互聯網+”時代企業辦公自動化研究[J].信息技術與標準化,2015(8):66-69.
[2] 尹芹,華新海.基于融合CDN構建未來智能內容管道[J].電信科學,2015,31(4):33-37.
[3] HWANG K,SUH D Y.Reducing perceptible IPTV zapping delay using CDN cache server[C].2013 International Conference on ICT Convergence(ICTC),2013:738-739.
[4] PARMAR J,VERMA J.State-of-artsurvey of various web prefetching techniques[C].International Conference on Inventive Computation Technologies.IEEE,2016:1-7.
[5] 王道誼,周文安,劉元安.內容分發網絡中內容流行度集中性的研究[J].計算機工程與應用,2011,47(6):102-104.
[6] 聶華,張敏,郭敬榮,等.基于內容流行度差異性的CDN-P2P融合分發網絡緩存替換機制研究[J].通信學報,2015,36(s1):9-15.
[7] SZABO G,HUBERMAN B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[8] 李琦,陳玉新.移動平均法的滯后問題[J].統計與決策,2008(22):152-153.
[9] HASSINE N B,MARINCA D,MINET P,et al.Caching strategies based on popularity prediction in content delivery networks[C].2016 IEEE 12th International Conference on Wireless and Mobile Computing,Networking and Communi-cations(WiMob),New York,2016:1-8.
[10] 付凌暉,王惠文.多項式回歸的建模方法比較研究[J].數理統計與管理,2004,23(1):48-52.
[11] HASSINE N B,MARINCA D,MINET P,et al.Popularity prediction in content delivery networks[C].2015 IEEE 26th Annual International Symposium on Personal,Indoor, and Mobile Radio Communications(PIMRC),Hong Kong,2015:2083-2088.
[12] HASSINE N B,MARINCA D,MINET P,et al.Expert-based on-line learning and prediction in content delivery networks[C].2016 International Wireless Communications and Mobile Computing Conference(IWCMC),Paphos,2016:182-187.
[13] Hu Wen,Huang Jiahui,Wang Zhi,et al.MUSA:Wi-Fi AP-assisted video prefetching via Tensor Learning[C].2017 IEEE/ACM 25th International Symposium on Quality of Service(IWQoS),Vilanova i la Geltru,2017:1-6.
[14] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[15] LIN J,LIN J H.Divergence measures based on the Shannon entropy[J].IEEE Transactions on Inform Theory,1991,37(1):145-151.
[16] 田瑞云.基于Hadoop的CDN-P2P系統中內容預測機制研究與實現[D].北京:北京郵電大學,2013.
[17] KILANIOTI I.Improving multimedia content delivery via augmentation with social information: the social prefetcher approach[J].IEEE Transactions on Multimedia,2015,17(9):1460-1470.
[18] SASTRY N,YONEKI E,CROWCROFT J.Buzztraq:predicting geographical access patterns of social cascades using social networks[C].Proceedings of the Second ACM Euvosys Workshop on Social Network Systems,2009:39-45.
[19] 唐紅,韓健,段潔,等.基于內容流行度的移動CCN緩存策略研究[J].重慶郵電大學學報(自然科學版),2018,30(1):119-126.
文獻[20]-[31]略
作者信息:
王舒平,張 毅,韋文聞,楊 碩,何 皇
(重慶郵電大學 通信與信息工程學院,重慶400065)