文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復域名數據去重方法[J].信息技術與網絡安全,2022,41(4):71-76.
0 引言
隨著電子信息技術的發展,各行各業都產生了大量的數據信息,根據國際數據公司(International Data Corporation,IDC)的最新預測:到2023年,中國的數據量將達到40 ZB,并且隨著5G技術的普及,數據量增長將會迎來又一個新的高潮[1]。有研究發現,這些數據中超過60%都是重復冗余數據[2],傳輸和存儲這些冗余數據不僅造成了存儲資源和網絡資源的嚴重浪費,也降低了使用數據的效率。并且隨著時間推移,這些數據帶來的冗余問題會越來越嚴重。域名[3](Domain Name)作為互聯網中頻繁使用的數據類型之一,是一種特殊的數據形式,其對字符的變化敏感度極高,一個字符的變化往往會對使用結果產生嚴重的影響。因此,處理重復域名數據需要采用精確而且高效的去重技術。
已有重復數據處理技術中,完全文件檢測(Whole File Detection,WFD)技術[4]無法對內容進行查重處理,固定分塊(Fixed-Sized Partition,FSP)檢測技術、可變分塊檢測技術和滑動塊檢測技術都是針對數據共有特征的粗粒度去重,直接用于重復域名的處理效果并不理想。因此,本文在已有重復數據檢測技術的基礎上,引入Simhash算法,結合域名數據的結構特征,改進計算文本特征值的方式,提出了一種基于Simhash算法的重復域名數據去重方法。經過實驗對比看出,該方法對于處理重復域名數據效果更好,同時在時間開銷上也和原有技術差別不大,對于處理重復域名數據具有比傳統去重技術更好的實用價值。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000004102
作者信息:
侯開茂,韓慶敏,吳云峰,黃 兵,張久發,柴處處
(中國電子信息產業集團有限公司第六研究所,北京100083)