文獻標識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.01.001
引用格式: 王申奧,王亞龍,王乾旭,等. 安卓應用隱私合規檢測方法研究[J].網絡安全與數據治理,2023,42(1):4-14.
0 引言
近年來,移動應用超范圍收集用戶隱私信息,強制索取敏感權限等現象屢見不鮮。為了保護用戶的個人隱私信息,監管部門要求企業或組織在隱私政策以簡潔易讀的方式告知用戶他們如何收集、存儲和管理用戶的個人信息。然而,根據武漢大學2021年的相關調查顯示,77.8%的用戶在安裝App時“很少或從未”閱讀過隱私協議,69.69%的用戶會忽略App隱私協議的更新提示。盡管一些服務提供商已經提高了其隱私政策的可理解性和可讀性,但這些政策仍然篇幅太長,難以閱讀。此外,2021年國家計算機網絡應急技術處理協調中心和中國網絡空間安全協會共同發布的《App違法違規收集使用個人信息監測分析報告》中也顯示,超范圍收集用戶隱私信息,違反用戶“知情同意”原則的違法違規應用在各主流應用市場仍然廣泛存在。
近來,隱私合規分析的相關工作在國外頗受關注,逐漸被應用到大規模網站隱私合規性分析、移動應用隱私泄露檢測等領域。移動應用的隱私合規分析主要包括隱私政策文本分析與程序分析兩個部分。靜態程序分析執行效率高,然而由于缺乏運行時路徑信息,靜態分析往往會產生一定程度的誤報。動態污點分析通常是利用插裝和代碼重寫為污點數據創建污點標記,優點是準確率更高,但插裝和代碼重寫往往帶來更大的性能開銷。隱私合規研究往往是在程序分析的基礎上結合隱私政策文本進行合規性檢查。隱私政策文本分析作為國外新興的研究熱點,已經陸續建立起豐富的隱私政策語料庫。然而在中文領域,隱私政策命名實體識別的研究仍然缺乏,中文隱私政策的公開語料庫也仍處于空白。這些問題制約了國內隱私政策與程序分析相結合的自動化合規檢測技術的發展。
為了解決上述問題,本文通過人工注釋構建危險權限術語詞典,提出利用雙向最大匹配算法實現基于詞典的隱私政策自動標注,從而構建中文隱私政策權限詞實體識別語料庫。在此基礎上,本文為隱私政策語料構建預訓練字嵌入,通過雙向長短期記憶神經-條件隨機場(Bi-directional Long Short-Term Memory-Conditional Random Field,BiLSTM-CRF)架構實現最優標簽序列預測,從而完成權限詞實體識別任務。在應用程序動靜態混合分析部分,基于Androguard實現交叉引用并對程序實際調用的危險權限進行靜態分析。通過隱私政策聲明權限集與實際調用權限集的一致性分析,實現了對超范圍收集敏感信息行為的檢測。此外,依托 Frida動態插樁與Hook技術,對敏感應用編程接口(Application Programming Interface,API)進行重載,記錄函數調用堆棧、調用頻次、關鍵參數等行為日志信息,針對同意隱私政策前收集、靜默狀態下頻繁訪問敏感信息實現運行時狀態監測。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000005092.
作者信息:
王申奧,王亞龍,王乾旭,賀紫怡,李 暉
(西安電子科技大學 網絡與信息安全學院,陜西 西安710071)
歡迎關注電子技術應用2023年2月22日==>>商業航天研討會<<