《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于文檔圖結構的惡意PDF文檔檢測方法
基于文檔圖結構的惡意PDF文檔檢測方法
信息技術與網絡安全 11期
俞遠哲,王金雙,鄒 霞
(陸軍工程大學 指揮控制工程學院,江蘇 南京210007)
摘要: 目前基于機器學習的惡意PDF文檔檢測方法依賴于專家經驗來遴選特征,無法全面反映文檔屬性。而且在面對對抗樣本時,檢測器性能下降明顯。針對上述問題,提出了一種基于文檔圖結構和卷積神經網絡的惡意PDF文檔檢測方法。該方法解析文檔結構,根據文檔中各對象之間的引用關系構建出有向圖。然后,通過TF-IDF算法計算各節點對分類的貢獻度來進行圖結構精簡。最后,計算精簡后圖的鄰接矩陣和度矩陣,并得到圖的拉普拉斯矩陣,以此作為特征送入CNN分類模型進行訓練。同時還加入了對抗樣本,對模型進行對抗訓練。實驗評估表明,在給定訓練和測試樣本比例9:1條件下,不斷調整神經網絡結構和參數,該方法的準確率達到了99.71%,性能優于KNN和SVM分類模型。在針對對抗樣本的檢測上,與知名在線檢測網站VirusTotal上的67款殺毒引擎相比,該方法取得了更高的檢測性能。
中圖分類號: TP309
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.11.003
引用格式: 俞遠哲,王金雙,鄒霞. 基于文檔圖結構的惡意PDF文檔檢測方法[J].信息技術與網絡安全,2021,40(11):16-23.
Malicious PDF detection method based on document graph structure
Yu Yuanzhe,Wang Jinshuang,Zou Xia
(Command & Control Engineering College,Army Engineering University of PLA,Nanjing 210007,China)
Abstract: Malicious PDF detection methods based on machine learning rely on the expert knowledge, which still cannot fully reflect the document attributes. Moreover, the performances of the detectors are easily affected by adversarial samples. To overcome these limitations, a malicious PDF detection method based on the PDF document graph structures and Convolutional Neural Network(CNN) was proposed. Firstly, a directed graph was constructed according to the document structure and the reference relationships between document objects. Secondly, the contribution of each node was calculated using TF-IDF algorithm, according to which the graph structures was simplified. Thirdly, the adjacency and degree matrices of the simplified graph were calculated, and the Laplacian matrix of the graph was obtained, which was used as a feature and sent to the CNN classification model for training. Adversarial samples were also added to train the model. It was evaluated that this method has an accuracy of 99.71% which is better than KNN and SVM classification models. Compared with the 67 antivirus engines on VirusTotal, it has achieved higher detection performance in the detection of adversarial samples.
Key words : malicious PDF document;document graph structure;CNN;adversarial sample

0 引言

PDF(Portable Document Format)文檔的使用非常廣泛。隨著版本的更新換代,PDF文檔包含的功能也變得多種多樣,但其中一些鮮為人知的功能(如文件嵌入、JavaScript代碼執行、動態表單等)越來越多地被不法分子利用,來實施惡意網絡攻擊行為[1]。APT(Advanced Persistent Threat)攻擊[2]常常構造巧妙偽裝的惡意PDF文檔,通過釣魚郵件攻擊等手段誘騙受害者下載,從而侵入或破壞計算機系統。相比傳統的惡意可執行程序,惡意文檔具有更強的迷惑性。

基于機器學習的檢測方法被研究人員廣為使用,主要可以分為靜態檢測、動態檢測和動靜結合檢測方法[3]。而現有的惡意文檔特征選擇方法大多依賴于專家的知識驅動,在惡意文檔的手動分析期間進行觀察來選擇特征集(如調用類對象的數量、文檔頁數或版本號等),或是通過數學統計分析將特征細化(如某類對象在所有對象中的占比)。由于特征可選取的范圍很大,如果僅僅根據經驗選取了一部分作為特征集,就會喪失文檔的部分信息,無法全面地表達文檔特性。

由于PDF文檔格式的復雜性,其邏輯結構包含了大量的文檔語義。文獻[4]認為通過對結構屬性的綜合分析能夠解釋惡意和良性PDF文檔之間的顯著結構差異。因此本文設計通過綜合分析文檔的邏輯結構,以文檔的結構圖為特征進行檢測,而不是獨立的結構路徑。即使攻擊者知道哪些對象是成功檢測的關鍵,并可能針對性地修改某一特定路徑,但這樣就會破壞文檔的整體結構,因此逃避檢測的成本很高。




本文詳細內容請下載:http://m.viuna.cn/resource/share/2000003843




作者信息:

俞遠哲,王金雙,鄒  霞

(陸軍工程大學 指揮控制工程學院,江蘇 南京210007)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国内精品免费视频 | 亚洲欧美片 | 国产视频中文字幕 | 一个人看的www视频免费观看 | 欧美在线一区二区三区欧美 | 亚洲人成一区二区不卡 | 成人欧美一区二区三区黑人 | 黄色三级在线 | 欧洲色吧| 亚洲乱码尤物193yw在线播放 | 日韩一区视频在线 | 亚洲免费视 | 99久在线精品99re6视频 | 女性爽爽影院免费观看麻豆 | www.国产一区二区三区 | 1024国产精品视频观看 | 成人看免费一级毛片 | wwwwxxxx国产| 欧美日韩视频一区三区二区 | 免费看片网址 | 色综合久久久高清综合久久久 | 女同志videos最新 | 天天爽天天操 | 天天干天天拍天天射天天添天天爱 | 天天做天天爱天天干 | 黄色福利小视频 | 在线不卡一区二区 | 最近中文字幕网2019 | 国产精品毛片无码 | 97色伦图片在线观看 | 日韩黄色大全 | 美女视频久久 | 午夜看片网站 | 天天透天天射 | 欧美禁片在线观看免费 | 久久青草免费免费91线频观看 | jizjizjizji在线观看 | 亚洲an天堂an在线观看 | 综合亚洲网 | 久草精品免费 | 成人精品视频一区二区在线 |