有声,盗墓笔记有声小说,我欲封天耳根小说

人工智能人工做——基于特征相似性的安全告警評估方法

日期： 2020-12-01

來源：關鍵基礎設施安全應急響應中心

關鍵詞： 海量告警人工智能

　　摘要：海量告警的篩選問題多年來一直困擾著安全行業。為了減輕運維人員排查告警的壓力，提高對安全威脅的發現能力，需要對安全設備產生的告警日志進行進一步的分析，篩選出關鍵的具有高威脅度的告警。本文是AISecOps專題中的一篇，進一步介紹基于特征相似性的安全設備告警評估方法。

　　一、背景

　　海量告警的篩選問題多年來一直困擾著安全行業。企業側的安全設備，例如IPS，WAF等每天產生大量的告警。這些告警遠遠超出了安全運維人員的排查能力。而在這些告警中，真正有威脅的（即代表系統真正被黑客攻擊的）告警所占的比例卻非常小。因此，為了減輕運維人員排查告警的壓力，提高對安全威脅的發現能力，需要對安全設備產生的告警日志進行進一步的分析，篩選出關鍵的具有高威脅度的告警。之前的文章對基于多維度關聯的告警評估方法進行了闡述，在告警評估過程中存在多種維度可以用來進行關聯。本文以此為基礎，進一步介紹采用對告警中某些特征相似性進行關聯的評估方法。通過關聯告警中的特定的特征，找出“獨特”性較高的告警。這類告警一般具有很高的威脅度，需要管理員進行進一步的排查。

　　二、告警特征提取之感

　　所謂“獨特”的告警，就是具有某些特殊的特征的告警。因此為了從海量告警中篩選出真正具有高威脅度的告警，運維人員基于告警的特征制定了一系列的篩選策略，例如重點關注高中風險等級的告警、特定防護規則的告警、敏感業務系統的告警、惡意源IP觸發的告警等。但是在真實的運維環境中，以上的篩選策略取得的效果都很有限。究其原因，主要是因為以上的篩選策略所參考的特征并不能有效描述告警的威脅度。在實際的運維場景中，運維人員在告警排查處置的過程中最關注的部分就是告警的payload。攻擊行為信息包含在告警的payload中。因此為了篩選出具有高威脅度的告警，需要重點考慮payload中包含的特征信息。

　　告警的payload中包含著攻擊者所使用的攻擊手法，使用的攻擊工具等特征，例如文件路徑、IP、域名、URL、操作系統命令、腳本函數、SQL語句、系統表名稱等。在實際的網絡環境中，由于業務種類，通信協議等不同，告警的payload結構也千變萬化。因此告警的payload是非結構化的文本數據。在現有的工作中，自然語言處理（NLP）技術為非結構化文本數據提供了多種處理方法。通過分詞，Doc2vec等技術，可以將payload轉化為向量化表示。

　　在實踐中，以上方法在處理告警的payload數據的過程中往往會失效，所得到的向量化表示仍然無法有效的表征告警的特征。其原因在于，自然語言處理技術無法真正“理解”攻擊者的攻擊意圖和所采用的攻擊技術。也就是說，基于NLP方法得到的告警的向量化表示更多的利用了原始payload的統計特征。這些統計特征不能有效的描述告警中所包含的攻擊技術。因此，在提取特征的過程中要引入專家知識，使得特征提取算法能夠真正“理解”告警。

　　三、“人工”提取特征

　　在告警特征提取的過程中需要引入大量的安全專家知識，才能夠有效提取出payload的特征。而引入專家知識需要由安全專家提供特征提取的正則式，正所謂人工智能還得人工來做。也就是說，特征提取過程相當于專家知識的引入過程。這一步對后續的告警評估效果影響巨大。專家知識引入的越多，準確度越高，后續告警評估的效果越好。

　　四、找出“獨特”的告警

　　在真實的企業網絡環境中，大部分的安全設備告警都是低危告警，真正有威脅的告警所占的比例非常小。低危告警往往是由掃描探測等行為產生。掃描探測一般會采用自動化工具來完成，因此這類工具對不同的主機進行掃描探測過程中所產生的告警往往具有相似的payload特征。而對于真正的攻擊而言，攻擊者為了攻破某一特定的主機，往往會采用一些比較獨特的攻擊技術。這樣這類攻擊所產生的告警，其payload的特征也會比較獨特。因此根據告警payload特征的獨特性可以對告警進行評估。告警特征越獨特，其威脅度也就越高。

　　基于以上思路，可以基于特征相似度來對告警進行評估。其總體流程如圖 1所示。

微信圖片_20201201151638.jpg

　　圖1 告警評估流程

　　特征提取：如前所述，采用正則式匹配的方法提取每一條告警的payload特征，提取以后的特征經過編碼，得到特征向量。

　　告警聚合：將告警按照源ip，目的ip，目的端口進行聚合，得到告警序列。每個序列中的告警代表著從一個源ip到一個目標ip攻擊者所采取的攻擊行為。這里可以認為攻擊行為由一系列的特征向量所描述。

　　?相似度分析：對聚合以后的每個告警序列之間進行相似度分析，檢測序列之間的相似度的大小。這里需要選擇一個測度，對任意兩個告警序列進行相似度評估。根據測度找出與其他序列相似度較低的告警序列。這些告警序列中的告警被設定為高危告警。

　　在上面的第三步中，需要對告警序列的相似度進行評估。而每一個告警序列由一系列的特征向量組成，而且告警序列的長度各不相同，也就是說告警序列中特征向量的數量各不相同。因此需要一種能夠比較兩個告警序列相似度的方法。一種可行的方法是對于兩個告警序列，分別對其中的特征向量進行相似度比較，記錄特征向量相似度的值，然后取相似度的統計值，例如最小值，中位數，平均值等，作為告警序列的相似度。

　　由于圖模型能夠清晰地表征實體之間關聯和相似的關系，因此在具體的告警評估的過程中，可以采用圖模型來輔助告警序列相似度的評估。圖模型由頂點和邊構成。在本問題中，可以將告警序列設定為頂點，然后根據序列的相似度來構建邊。選定一個相似度的閾值，如果用上面的方法計算得到的兩個序列之間的相似度大于該閾值，則在這兩個序列對應的頂點之間建立一條邊。最終所得的圖模型如圖 2所示。

微信圖片_20201201151635.jpg

　　圖 2

　　圖2所示的圖模型中，每個頂點的度是不相同的，這表示相應的告警序列之間相似性的差異。在實際的企業內網告警數據生成的圖中，會有很多孤立的頂點，也就是度為0的頂點。這些頂點對應的告警序列與其他的序列的相似度非常低，因此可以認為這些序列中包含的告警具有更高的威脅度。另外，度比較低的頂點，其對應的告警序列中的告警同樣具有較高的威脅度。通過以上方法，即可以篩選出具有較高威脅度的告警。

　　采用以上的方法對某次公司內部攻防演練中安全設備所產生的共2300萬條告警進行評估。所得到的評估結果的top10中真正的高危告警有九條，如所示。

微信圖片_20201201151633.jpg

　　五、總結

　　基于相似度的告警評估方法給安全設備告警的篩選問題提供了一種新的思路。從實際的企業內網環境測試結果來看，該方法可以有效的找出高危的告警。該方法比現有的方法效果好，一個主要原因是在基于正則式提取告警payload特征的過程中引入了大量的專家知識，使得后面建立的模型可以對告警有一定的“理解”。但是引入專家知識是一把雙刃劍。如果專家知識不夠全面或者不夠準確，該方法的評估準確率也會降低。因此，該方法輸出的高危告警需要經過安全專家進一步的研判，根據研判的結果進一步調整優化特征提取正則式，提高特征提取的準確度，進而提高評估算法的性能。也就是說，該方法需要一個持續運維的過程。隨著專家知識不斷地引入與完善，方法的評估效果會不斷得到提升。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

人工智能人工做——基于特征相似性的安全告警評估方法

日期： 2020-12-01

來源：關鍵基礎設施安全應急響應中心

相關內容