在如今這個大數據的時代里,人人都希望能夠借助大數據的力量,達到自己的理想的科技營銷目的。電商希望能夠借助大數據進一步獲悉用戶的消費需求,實現更為精準的營銷;網絡安全從業者希望通過大數據更早洞悉惡意攻擊者的意圖,實現主動、超前的安全防護;而駭客們也在利用大數據,更加詳盡的挖掘出被攻擊目標信息,降低攻擊發起的難度。
大數據應用最為典型的案例是國外某著名零售商,通過對用戶購買物品等數據的分析,向該用戶——一位少女寄送了嬰兒床和衣服的優惠券,而少女的家人在此前對少女懷孕的事情一無所知。大數據的威力正在逐步顯現,銀行、保險公司、醫院、零售商等等諸多企業都愈發動力十足的開始搜集整理自己用戶的各類數據資料。但與之相比極度落后的數據安全防護措施,卻讓駭客們樂了:如此重要的數據不僅可以輕松偷盜,而且還是整理好的,憑借這些數據駭客能夠發起更具“真實性”的欺詐攻擊。好在安全防御者們也開始發現利用大數據抵抗各類惡意攻擊的方法了。
擾動安全的大數據
2014年IDC在“未來全球安全行業的展望報告”中指出,預計到2020年信息安全市場規模將達到500億美元。與此同時,安全威脅的不斷變化、IT交付模式的多樣性、復雜性以及數據量的劇增,針對信息安全的傳統以控制為中心的方法將站不住腳。預計到2020年,60%的企業信息化安全預算將會分配到以大數據分析為基礎的快速檢測和響應的產品上。
瀚思(HanSight)聯合創始人董昕認為,借助大數據技術網絡安全即將開啟“上帝之眼”模式。“你不能保護你所不知道的”已經成為安全圈的一句名言,即使部署再多的安全防御設備仍然會產生“不為人知”的信息,在各種不同設備產生的海量日志中發現安全事件的蛛絲馬跡非常困難。而大數據技術能將不同設備產生的海量日志進行集中存儲,通過數據格式的統一規整、自動歸并、關聯分析、機器學習等方法,自動發現威脅和異常行為,讓安全分析更簡單。同時通過豐富的可視化技術,將威脅及異常行為可視化呈現出來,讓安全看得見。
愛加密CEO高磊提出,基于大數據技術能夠從海量數據中分析已經發生的安全問題、病毒樣本、攻擊策略等,對于安全問題的分析能夠以宏觀角度和微觀思路雙管齊下找到問題根本的存在。所以,在安全領域使用大數據技術,可以使原本單一攻防分析轉為基于大數據的預防和安全策略。大數據的意義在于提供了一種新的安全思路和解決辦法,而不僅僅是一種工具,單純的海量數據是沒有意義的。如果大數據領域運用得當,可以十分便捷地和安全領域進行結合,通過對數據分析所得出的結論反映出安全領域所存在漏洞問題的方向,從而針對該類漏洞問題制定出相對應的解決方法。
卡巴斯基技術開發(北京)有限公司大中華區技術總監陳羽興強調,大數據對于安全公司是件殺敵利器,對于黑客來說也是一塊巨大的“奶酪”,而這塊“奶酪”有時候不僅僅是存放在一個地方,如果仍然使用傳統的防范手段——端點、網絡、加密等——是不足以抵擋黑客的,所以作為安全公司不僅要著力去完善自家的解決方案,同時在整個產業鏈各個環節的企業都要開放,形成產業協同。
其實云計算的大熱,就已經讓用戶和云服務提供商愈加意識到云安全的重要性,云安全則更需要大數據。作為客戶數據托管方的云服務提供商,客戶最關注的是服務提供商保證他們的數據安全:既不丟失也不被非法訪問,且遵從法規要求。即使是在企業的私有云中,各個部門之間的信息安全也必須考慮,特別是財務數據、客戶信息等。由于數據的集中,云所需要處理的數據可能是PB級甚至更大,如此大的數據量是傳統安全分析手段根本處理不了的,只有依靠大數據分布式計算技術對海量數據進行安全分析。
排兵布陣情報先行
近兩年,安全企業就如何運用大數據于網絡安全中費盡了腦筋,而安全威脅情報可以說是大數據技術在網絡安全防御環節里比較成熟的應用。
什么是安全威脅情報?形象地說,人們經常可以從CERT、安全服務廠商、防病毒廠商、政府機構和安全組織那里看到安全預警通告、漏洞通告、威脅通告等等,這些都屬于典型的安全威脅情報。而隨著新型威脅的不斷增長,也出現了新的安全威脅情報,例如僵尸網絡地址情報(Zeus/SpyEye Tracker)、0day漏洞信息、惡意URL地址情報,等等。
陳羽興舉了一個十分有趣的例子:中國股市剛剛興起時,人們要去證券大廳了解行情,門口擺攤賣茶葉蛋的老太太雖然不懂股票,但是她懂一個道理:茶葉蛋生意清淡的時候買入、茶葉蛋生意火爆的時候賣出。其實茶葉蛋本身的銷量數據不會直接導致股票的漲跌,但是這兩者之間存在“相關性”,大數據環境下的安全威脅情報也是如此。
目前,無論國內還是國外對安全威脅情報系統的建設都普遍參考STIX標準框架,它有幾個關鍵點:時效性、完整的攻擊鏈條(包括:攻擊行動、攻擊入口、攻擊目標、Incident事件、TTP——攻擊戰術、技術和過程、攻擊特征指標、攻擊表象、行動方針等)以及威脅情報共享。而傳統漏洞和病毒庫只是在安全廠家捕獲到樣本后將對應的特征碼更新到漏洞或病毒數據庫里,并沒有將整個攻擊過程完整描述下來,且缺少相互共享合作。
大數據時代下,通過大數據的計算能力、算法和機器學習優勢可以快速、自動的在海量數據中發現安全問題,提升安全情報的時效性。其次由于大數據分析的數據來自網絡、終端、認證系統等各個維度,便于分析整個安全攻擊鏈條形成安全威脅情報。最后,隨著一些新興的大數據廠商興起,用戶至上、信息共享等互聯網思維逐步形成,使安全威脅情報共享得以實現。
瀚思采用“圖分析”結合強大情報系統(域名Whois、被動DNS、黑名單)所實現的極速感知可疑域名方法,就是通過將每天各個渠道收集到的幾十萬域名及其相關信息導入圖數據庫,根據節點關系快速繪制連接邊,形象直觀的展現節點之間內在聯系,將有問題的域名暴露在安全分析人員的眼前,使得以域名為基礎的惡意行為無處躲藏,并以最快的速度查出惡意網站。
卡巴斯基則在10年前就建立了自己的安全網絡KSN,通過多年的數據搜集與研究,再加上其所設立的全球威脅分析團隊(Great team),已經能夠對未來威脅走向進行相對比較準確的預判。
而綠盟科技的研究團隊在吸收“殺傷鏈(Kill Chain)”和“攻擊樹(Attack Tree)”等相關理論,形成獨特推理決策引擎后,借助大數據安全分析系統的分布式數據庫,實現了對網絡入侵態勢的感知。
高磊認為,其實大數據從誕生開始就用于統計與記錄安全情報。它能夠幫助情報分析人員發現藏匿于數據中的威脅,通過大數據分析處理獲取威脅情報、預測攻擊事件。與傳統情報獲取方法不同的是,真正意義的大數據安全情報是能夠基于更多的數據(不是僅僅一些工具)分析半年以上的重點風險,預測未來的風險趨勢。
玩轉大數據安全分析
如何才能實現對數據的有效深入分析呢?
綠盟科技的安全專家發現,大數據安全分析主要的問題在于將業務目標與技術實現混淆以及業務目標不明確兩個方面。而大數據安全分析的三大瓶頸分別是:大數據僅僅是一種技術手段而不是一個業務目標,安全分析才是實際要解決的核心問題;大數據安全分析能夠在安全防御里起到很重要的作用,但并不能解決全部的安全問題;大數據安全分析需要極為詳細的業務梳理、安全分析、數據分析等一系列工作,而不是簡單的數據堆疊。要想解決這些問題,需要明確業務目標,明確目標的分解落實,還要在項目啟動前進行安全咨詢,并基于安全咨詢結果編制目標及項目階段,分階段實現項目目標,同時進行專業分析人員的培養工作。
陳羽興提出要想實現對數據的有效安全分析,首先要有統一的數據管理平臺,要能夠支持多種數據類型——大數據分析平臺需要足夠掌握不同安全類型的語義信息以便進行整合和關聯分析,還要有諸如Hadoop、Spark等專業的安全分析工具,以及富有經驗的專業安全分析人員。
高磊強調“如果無法對數據進行分析篩選,獲取有價值的信息,就不是真正的大數據安全分析。”例如,愛加密采集的APP超過1000萬個,其會對所有的APP進行拆包分析,對病毒樣本進行記錄保存,并對應用的類型、大小、簽名、包名等多方面參數進行記錄存儲,對樣本進行詳細分析,錄入特征值,并對數據進行統計分析,生成報表。
瀚思在大數據安全分析上的經驗是,“首先在底層架構上采用了主流大數據分布式架構,即Hadoop+Spark+Elasticsearch,它能準實時處理幾百TB以上的數據;其次在安全應用上則采用一些自動化分析的手段,瀚思做了比較多的機器學習、算法工作,通過模型給用戶、業務來建模,并建立正常訪問基線,這個環節稱之為異常檢查(anomaly detection),并基于此實現Web訪問安全、反欺詐、內部核心資源等傳統安全很難解決的問題;第三在算法層面上,瀚思主要使用基于用戶行為序列和基于時間序列的建模。”機器學習是自動化和提升日志數據洞察力的關鍵。不同的機器學習技術要應對不同類型的日志數據和分析挑戰。瀚思能夠提前確定機器學習要查找的關聯性和其他模式,采用非監督式學習的方式,并輔助專家準備供參考的“練習數據”集,以便于機器學習算法能夠識別具有重大聯系的模式,幫助企業提早發現風險,防患于未然。最后就是將分析安全問題及異常行為通過可視化的手段呈現出來,讓安全問題看得見、看得懂。
在安全世界里大數據可以做得更多
網絡安全防御主要分為三個環節:預防、保護和查找攻擊,大數據能夠為這三個環節提供強大的數據支撐。面對0-day漏洞、APT攻擊等未知威脅,利用大數據分析手段可以進行快速檢測和響應。組織在建立安全防御體系過程中,也可以利用大數據影響人和管理流程,通過大數據的反饋更有針對性的提高用戶的安全意識,對安全管理的模式進行更新。借助大數據還可以實現用戶異常行為檢測、敏感數據泄露檢測、DNS異常分析、反欺詐等。
未來,大數據還可能會成為網絡安全智能化的推動者。設想一下:某平臺系統在分析知道攻擊者的攻擊目標或者攻擊方式時,能夠通過大數據分析,智能關閉有關服務或者端口,防止信息泄露,又或者在受到攻擊之后,系統從經驗中知道問題所在,及時采取切斷連接等手段,實現網絡安全智能化。
陳羽興表示,引導人的行為和事物的發展向更安全的目標走近,這是大數據能給人們帶來的更大意義所在。
大數據時代下的大安全
“大數據時代下,安全將經歷數據統計階段、數據分析階段、網絡安全智能化階段。”高磊表示,數據統計階段只能通過經驗和案例分析所需記錄數據類型,盡可能的獲取到所需信息。數據分析階段則要注重完善數據庫的效率和針對性。而網絡安全智能化階段將基本上不依賴人力即可控制系統自主進行智能保護、自主查找可能的攻擊源,此時需要做好測試工作,搭建虛擬數據庫,防止智能系統落后。
董昕提出,一個完整的大數據安全生態應該包括安全情報、企業級大數據安全分析系統、安全即服務這三部分,只有三者相互配合才能組成完整的安全閉環。“當然,專業的安全研究團隊和服務團隊也是少不了的。”瀚思除了傳統精通于攻防、漏洞、合規等方面的專家外,還擁有多名精通安全與數據分析的跨界專家。例如瀚思聯合創始人兼首席科學家萬曉川先生就是核心安全分析、算法、Sandbox領域以及異常檢測和用戶行為分析的世界級專家,他擁有多項美國專利,并一直在倡導將機器學習應用于信息安全。這也是數據驅動安全閉環中必不可少的一點。
Gartner早在2010年的一份報告中指出,“未來的信息安全將是情境感知的和自適應的”。如今,大數據正在很好的詮釋“情景感知”與“自適應”。
人們常說安全性與便利性是矛盾的,但陳羽興認為,隨著大數據時代的來臨人們會越來越發現,這兩者并非不可調和,有時甚至可以相輔相成。
大數據時代下,安全正在變得更為廣義。但同時需要注意,大數據的本質是數據,在利用數據的同時,也應該注重自身數據的安全保護,防止自己的有效數據被人惡意利用。