盡管歐盟的 《通用數據保護條例》(GDPR)和加利福尼亞的《加州消費者隱私法案》(CCPA)等數據隱私立法旨在防止隱私泄露,但消費者的隱私仍然經常受到黑客、公司和政府的侵犯。隨著企業與第三方公司共享消費者數據以獲取洞察力、改善服務或將數據資產貨幣化,這種情況正在不斷加劇。隱私增強技術(PET)使企業能夠利用越來越多的數據,同時確保個人或敏感信息保持私密性。
例如,人工智能公司和人工智能顧問經常會遇到這個問題,因為他們需要使用客戶數據來構建機器學習模型,這時候就需要一種安全的方式來訪問客戶數據,而隱私增強技術可以實現這一點。
什么是隱私增強技術(PET)
隱私增強技術是一個籠統的術語,包括在隱私信息采集、存儲、以及在執行搜索或分析過程中對于保護和增強隱私安全性的數據安全技術,旨在提取數據價值,以充分發揮其商業、科學和社會價值,但同時又不會危及這些信息的隱私和安全性。
為什么隱私增強技術(PET)現在很重要?
與任何其他數據隱私解決方案一樣,隱私增強技術對于企業來說很重要,原因有以下三點:
GDPR和CCPA等數據保護法案正在迫使組織保護消費者數據。因為一旦發生數據泄露,企業可能需要支付高額罰款。根據DLA Piper 《2020年GDPR數據泄露調查》報告顯示,罰款舉措已經落實,從2018年5月到2020年1月,GDPR罰款金額已經超過1.26億美元。
由于您的企業在分析和應用程序測試方面缺乏自給自足的能力,因此數據可能需要由第三方組織進行測試。隱私增強技術能夠在數據共享的同時實現隱私保護。
隱私泄露可能會損害您的企業聲譽,企業或客戶(取決于您的商業模式)可能終止與您的合作。一個例子就是劍橋分析公司丑聞后Facebook的股價下跌。
常見的隱私增強技術示例
密碼算法
1. 同態加密
同態加密是一種加密方法,被廣泛認為是加密的“圣杯”,允許對加密密文進行計算。它生成一個加密結果,當解密時,該結果匹配操作的結果,就好像它們是在未加密的數據(即明文)上執行的一樣。這使得加密數據能夠被傳輸、分析并返回給數據所有者,數據所有者可以解密信息并查看原始數據的結果。因此,公司可以出于分析目的與第三方共享敏感數據。
同態加密不是一項新技術,學術領域已經進行了30多年的研究。盡管從歷史上來看同態加密一直是計算密集型的技術,但現在的最新突破使之可廣泛用于各種商業應用。
一些常見的同態加密類型包括:
全同態加密:同時支持乘法和加法,并且對執行的操作數量沒有限制。利用全同態加密可以實現讓解密方只能獲知最后的結果,而無法獲得每個密文的消息與同態計算方式,從而提高隱私信息的安全性;
部分同態加密:可以對加密數據執行一種類型的操作,例如僅提供乘法或加法,但不能同時進行;
有點同態加密:可以執行多種類型的運算(例如加法、乘法),但只能執行有限數量的運算;
2. 安全多方計算(SMPC)
這是同態加密的一個子領域,但存在一個區別:它允許多方共同對數據進行操作,同時保持其各自的輸入信息私有和安全。因此,機器學習模型可以應用于加密數據,因為SMPC適用于更大規模的數據。
3. 差分隱私
差分隱私可以防止共享有關個人的任何數據。在差分隱私中,出于混淆目的,將隨機生成的“噪聲”添加到基礎數據中,對更改后的數據執行的任何計算僅在統計/方向上正確(即不準確)。因此,由于不能保證準確的結果并且限制了可能的計算,因此差分隱私的應用領域比其他隱私增強技術要窄。
4. 零知識證明(ZKP)
ZKP 使用一組加密算法,允許在不泄露證明數據的情況下驗證信息。可用于身份驗證等場景,例如無需提交準確生日信息就可驗證用戶是否符合規定年齡。
數據屏蔽技術
一些隱私增強技術也是數據屏蔽技術,企業使用它們來保護其數據集中的敏感信息。
5. 混淆
這是數據屏蔽的通用術語,它包含多種方法來通過向日志或配置文件添加分散注意力或誤導性的數據以替換敏感信息。
6. 假名化(Pseudonymisation)
術語“假名化”在GDPR中被提及15次之多,它是指在一個資料記錄中的識別字段被一個或多個人為的標識符或化名所代替的程序。GDPR建議使用假名化技術建立個人資料以降低資料主體的風險,并協助控制者與處理者履行資料保護的義務。
7. 小數據
與大數據相對應,小數據(Small Data)指人工智能或者機器學習系統借助數據增強、轉移學習、合成數據集等技術,使用很少,甚至不使用真實數據。隨著小數據技術的興起,也許未來的人工智能模型將不再需要海量的訓練數據,同時也將極大降低隱私風險。
8. 通信匿名技術
通信匿名技術作為一種主要的隱私增強技術被廣泛應用于互聯網的各個方面,現有的通信匿名技術主要是通過多次存儲轉發(利用Mix網絡和洋蔥路由技術)來改變消息的外觀(報文延遲、亂序、報文填充等),并利用Mix網絡的刷新機制消除消息間的對應關系,從而為在線用戶提供隱私保護,典型的低時延通信匿名系統包括Tor,I2P等。
這些通信匿名系統不僅提供了對Internet用戶的身份信息的保護,同時實現了對服務提供者的身份信息保護,它們允許用戶能夠在確保服務器IP不被泄漏的前提下提供網絡服務。
借助人工智能和機器學習算法的技術
9. 合成數據生成
合成數據本身就是人工智能對數據進行提取歸納的產物,這些算法會學習真實數據的結構性和關聯性,生成無限量的相同質量的人工數據。
這樣產生的數據可以符合原先數據的特征,依舊具有一定的價值,但是卻沒有隱私問題。
而且,在這個過程中可以對人工智能進行編程,以提供社會所需的公平性結果,從而從源頭上糾正偏見,以減少任何潛在的違反公平性的行為。其合成結果將會是公平的合成數據,是完全匿名和去偏見的。
10. “聯邦學習”(Federated Learning)
“聯邦學習”指的是在滿足隱私保護和數據安全的前提下,設計一個機器學習框架,使各個機構在不交換數據的情況下進行協作,提升機器學習的效果。其核心就是解決“數據孤島”和數據隱私保護的問題,通過建立一個數據“聯邦”,讓參與各方都獲益,推動技術整體持續進步。
具體的實現策略是:建立一個虛擬的共有模型。這個虛擬模型類似于把數據聚合在一起建立的最優模型,但是在建立虛擬模型的時候,數據本身不移動,因此不泄露隱私,符合數據合規要求,建好的模型也僅在各自的區域為本地的目標服務。在這樣一個聯邦機制下,各個參與者的身份和地位相同,實現“共同富裕”。
隱私增強技術的主要用例
測試數據管理:應用程序測試和數據分析有時需求由第三方提供商處理。即使是在內部處理,公司也應盡量減少對客戶數據的內部訪問。使用不會顯著影響測試結果的合適隱私增強技術 對組織至關重要。
金融交易:由于公民有與其他方進行私人交易的自由,金融機構有責任保護客戶的隱私。
醫療保健服務:醫療保健行業收集并共享(在需要時)患者的電子健康記錄(EHR)。例如,臨床數據可用于搜索各種藥物組合的不良反應。在這種情況下,醫療保健公司通過使用隱私增強技術可以確保患者數據的隱私。
?促進包括中介在內的多方之間的數據傳輸:對于在雙方之間充當中間人的企業,隱私增強技術的使用至關重要,因為這些企業負責保護雙方信息的隱私。
總結
用戶對隱私的渴望將是科技業,更是網絡安全行業的下一個“金礦”。無論是在政府法規的引導下還是在消費者需求的引導下,企業都必須準備好在優先考慮數據和隱私安全性的世界中運營。
此外,隨著隱私增強技術在商業領域中的日益流行和廣泛應用,越來越多的企業將其作為數字化轉型的必備技術。但是,企業首先需要識別哪些是以隱私為中心的業務,然后選擇投資最合適的隱私增強技術。