《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業界動態 > 數據不出門就能被利用,聯邦學習讓機器學習工程化

數據不出門就能被利用,聯邦學習讓機器學習工程化

2022-07-13
來源:Soft6軟件網

近年來,人工智能相關技術持續演進,與云計算大數據、物聯網、5G等技術不斷融合,成為引領未來的新興戰略性技術,是驅動新一輪科技革命和產業變革的重要力量。

在新科技革命和產業變革的大背景下,人工智能產業化和商業化進程不斷提速,正在加快與千行百業深度融合,正在促進新興產業之間、新興產業與傳統產業之間以及技術與社會的跨界融合發展。

中國軟件網、海比研究院認為,人工智能與產業深度融合,將成為企業釋放數字化疊加倍增效應、加快戰略新興產業發展、構筑綜合競爭優勢的必然選擇,全面梳理人工智能技術、應用的發展態勢,對推動人工智能持續健康發展至關重要。

為此,中國軟件網、海比研究院特別推出了“人工智能行業洞察”系列報道,通過對人工智能技術、應用、企業等深度報道,助力企業數字化、智能化。

目前,中國軟件網、海比研究院已經推出的AI報道包括:

·HR擁抱人工智能,8大場景重塑無限可能

·一文透視“北京智源大會”十大AI熱點

·讓機器人解惑傳道,對話式AI能否為企業帶來巨量的業務

·MLOps:讓AI應用周期從9個月縮短到幾天

·超大規模與輕量化模型,誰會成為AI主流?

·大型機沒有滅亡,反而正成為AI、混合云的寵兒

·向死而生,浴火重生,創新能讓AI芯片新生?

·從蜂擁而上到紛紛退場,AI芯片誰在“裸泳”?

·谷歌微軟阿里華為都愛上大模型,AI開發邊界被打破

兩個百萬富翁街頭邂逅,想比比誰更有錢。但是出于隱私,都不想讓對方知道自己到底擁有多少財富。在不借助第三方的情況下,如何讓他們彼此知道誰更有錢呢?

這就是姚期智院士在1982年提出的隱私計算領域經典的“百萬富翁”問題。

其實,在手機輸入法的下一個詞預測、疑難疾病診斷、汽車自動駕駛、智能家居系統等AI應用中,同樣面臨著需要大量數據進行模型訓練,又需要保護用戶數據背后的隱私的問題。

作為一種機器學習方法,聯邦學習的核心理念是“數據不動模型動”,通過用戶數據不出本地的方式,完成云端模型訓練,實現了“數據可用不可見”,成為隱私保護計算的主流技術之一。

海比研究院認為,目前以聯邦學習為核心代表的隱私計算技術逐步發展,并在實踐中不斷走向成熟,正處于隱私計算商業引爆的前夜,2022年或成為規模化商業落地的第一年。

1.理念:聯邦學習為機器學習開了一扇窗

AI模型需要大量的數據來訓練,而沒有數據和數據背后隱私如何保證呢?

目前全球有30億部智能手機和70億臺連接設備,這些手機和設備不斷生成新數據。傳統的機器學習需要在處理數據之前集中收集數據,以產生機器學習模型和最終形成更好的產品。

如果我們能夠在生成數據的設備上運行數據分析和機器學習,并且仍然能夠將所學知識匯總在一起,那不是更好嗎?

AI模型是靠數據來“喂養”的,而且需要大量優質的數據。現實生活中,除了少數巨頭公司能夠具備這樣條件外,絕大多數企業都存在數據量少、數據質量差的問題,不足以支撐人工智能技術的實現。

另外,數據是分散在不同地方的,放在不同的數據中心和不同的國家的,因為各個國家都有一些數據保護法規,很難把數據拿出來。

有些客戶的數據量太大,沒辦法放在一個數據中心,可能需要放在多個城市、多個地方。

還有一種情況是不同的企業之間要進行數據共享、數據交換,但是因為數據的隱私,如《網絡安全法》合規要求等,無法把原始數據直接給別人。

在這些情況下,催生聯邦學習技術。

谷歌首倡的聯邦學習正在不斷發展進化。

聯邦學習(Federated  Learning)是一種新興的人工智能基礎技術,在2016 年由谷歌最先提出,用于解決安卓手機終端用戶在本地更新模型的問題。其設計目標是在保障大數據交換時的信息安全、終端數據和個人數據隱私、合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

信通院的報告認為,聯邦學習本質上是一種分布式機器學習框架,能做到了在保障數據隱私安全及合法合規的基礎上,實現數據共享,共同建模。

其核心思想是在多個數據源共同參與模型訓練時,不需要進行原始數據流轉的前提下,僅通過交互模型中間參數進行模型聯合訓練,原始數據可以不出本地。這種方式實現數據隱私保護和數據共享分析的平衡,即“數據可用不可見”的數據應用模式。

總體來說,聯邦學習技術,可以實現多個機構間構建統一的數據安全、高效、合規的多源數據應用生態系統,實現跨機構的數據共享融合,通過系統擴大樣本量、增加數據維度為大數據應用提供高精度模型構建的有力支撐,進而提供更豐富、高質量的大數據服務。

聯邦學習的目標是在保證數據隱私安全及合法合規的基礎上,實現共同建模,提升AI模型的效果。

由此我們可以發現,聯邦學習本質上是一種分布式機器學習技術,或機器學習框架。聯邦學習是機器學習領域的一個新興領域,與傳統的集中式機器學習方法相比,具有顯著的優勢。

一是保護數據安全,將訓練數據集保留在設備上,因此模型不需要數據池。

二是保護數據多樣性。邊緣設備中的網絡不可用,可能會阻止公司合并來自不同來源的數據集。而聯邦學習有助于訪問異構數據,即使在數據源只能在特定時間進行通信的情況下也是如此。

三是實時持續學習,使用客戶數據不斷改進模型,無需聚合數據即可持續學習。

四是提升硬件效率,這種方法可以使用不太復雜的硬件,因為聯邦學習模型不需要一個復雜的中央服務器來分析數據。

2.技術:開源聯邦學習框架興起

了解聯邦學習的分類,可能有利于了解其技術和應用的范圍。

按照數據特征與分布方式的不同,聯邦學習可以分為三類:

橫向聯邦學習,在特征趨同的情況下對不同樣本進行聯合互補,用更大的樣本數據提升現有模型的精度。

比如罕見病研究中,每個醫院病例的數據維度基本一致,且病例樣本有限,通過聯邦學習可以在保障隱私的前提下,匯聚不同醫藥的相同病癥的數據,提高模型訓練的能力。

而縱向聯邦學習,比如同一個人,在樣本趨同的情況下,對不同特征進行聯合互補,用更多的特征數據,補全對某一客戶樣本的畫像。

比如同一地區的銀行、電商、運營商等用戶集可能包含該區域的大多數居民,但不同機構用戶數據特征不同,如果希望基于用戶的購買、收支、位置等數據進行信用等級評估,需要融合三方數據做回歸模型。

遷移聯邦學習則是一類樣本上面統一的模型,可以遷移到另外一批數據上面。有一些不同企業數據之間可能是互相影響的,就需要用個性聯邦學習來做統一的分析。

遷移聯邦學習適用于兩個數據集的重疊較少,不僅樣本不同,而且特征空間也有很大差異的場景下。

用于聯邦學習的流行框架包括Tensorflow Federated、Federated AI Technology Enabler(FATE)和PySyft,以及國內的FederatedScope。

PySyft是一個基于深度學習庫PyTorch的開源聯合學習庫,在主流深度學習框架PyTorch和TensorFlow等中使用聯邦學習,差分隱私和加密計算(如多方計算(MPC)、同態加密(HE))將隱私數據與模型訓練分離。

據介紹,PyTorch支持聯邦學習、安全多方計算、差分隱私等,可擴展,貢獻者可接入新的FL、MPC或DP方法,運算時間是純PyTorch的約46~70倍。

Tensorflow Federated是基于Google的Tensorflow平臺的開源聯邦學習框架。該方法使許多參與的客戶端能夠訓練共享的機器學習模型,同時將其數據保存在本地。

除了使用戶能夠創建自己的算法外,Tensorflow Federated還允許用戶在自己的模型和數據上模擬許多包含的聯邦學習算法。

FATE是由Webank AI設計的開源框架,旨在為Federated AI生態系統提供安全的計算框架。它基于同態加密和多方計算(MPC)實現安全的計算協議。它支持聯邦學習體系結構和各種機器學習算法的安全計算,包括邏輯回歸、深度學習和遷移學習等。

今年,阿里達摩院智能計算實驗室研發布了新型聯邦學習框架Federated Scope,并開源,希望促進隱私保護計算在研究和生產中的廣泛應用。

達摩院使用了事件驅動的編程范式來構建聯邦學習,即將聯邦學習看成是參與方之間收發消息的過程,通過定義消息類型以及處理消息的行為來描述聯邦學習過程。

通過這一方式,Federated Scope實現了支持在豐富應用場景中進行大規模、高效率的聯邦學習異步訓練。

達摩院團隊對Federated Scope訓練模塊進行抽象,使其不依賴特定的深度學習后端,能兼容PyTorch、Tensorflow等不同設備運行環境,大幅降低了聯邦學習在科研與實際應用中的開發難度和成本。

為進一步適應不同應用場景,Federated Scope還集成了多種功能模塊,包括自動調參、隱私保護、性能監控、端模型個性化等。

3.市場:解決ML規模化及成本等工程問題

市場研究機構KBV預言,全球聯邦學習市場規模,預計到2028年達到1.987億美元,在預測期間內將以11.1%的年復合成長率增長。

亞太地區的聯邦學習市場在預測期間(2022-2028年)將見證11.7%的復合年增長率。中國市場在2021年按國家劃分的亞太地區聯邦學習市場占主導地位,并將在未來幾年繼續成為主導市場。

同樣,中國的《網絡安全法》和《民法通則》等相繼頒布,規定互聯網企業不得泄露、篡改或破壞其收集的個人數據,在與第三方進行數據傳輸時,必須確保提交的合同明確描述要交換的數據范圍和數據保護義務。在不同程度上,這些法規的實施為人工智能的典型數據處理提出新的要求,同時也促進聯邦學習等市場的發展。

而國內的市場研究機構認為,包括聯邦學習在內的隱私計算將快速落地,服務企業智能應用發展。

與傳統的機器學習領域不同,新興的聯邦學習并不是因技術研究的推進而產生的,而是在實際應用中為解決數據隱私的問題而產生。因其特殊性,專家普遍認為“該技術正在進行工程化驗證其廣泛使用的可行性,解決規模化及成本等工程問題”。

市場參與者遵循的主要策略是產品發布。根據KVB公司分析,微軟和谷歌是聯邦學習市場的先驅,英偉達(Nvidia)、IBM等公司是市場上的一些關鍵創新者,還包括英特爾、Cloudera、Edge Delta、DataFleets、Enveil和Secure AI Labs等參與者。

中國云服務商、AI企業和大數據企業如阿里云、騰訊云、第四范式等都進入隱私計算領域,其聯邦學習平臺正在擴大應用落地。

聯邦學習市場增長的主要因素是應用和協作學習。

一是在眾多應用中增強數據隱私。借助聯邦學習,機器學習方法的提供方式正在不斷發展。使用聯邦學習,企業可以加強現有的算法并改進其AI應用,小公司也可以發展自己的AI應用。在醫療保健領域,聯邦學習可以幫助醫療保健人員提供高質量的結果,同時加速藥物開發,成為集中學習不足的一項補救措施。

二是實現不同用戶之間的協作學習。聯邦學習不是將數據保存在單臺計算機或數據集市上,而是將數據存儲在原始來源上,如智能手機、制造檢測設備、其他終端設備以及隨時隨地訓練的機器學習機,有助于在被發送到集中式服務器之前做出決策。

例如,聯邦學習在金融部門被廣泛用于債務風險評估。通常銀行使用白名單流程根據客戶的信用卡信息將客戶排除在集中儲備系統之外。風險評估變量,如稅收和聲譽,可以通過與其他金融機構和電子商務企業合作來使用。

但是市場制約因素是缺乏熟練的技術專業人員。由于訓練有素的人員(尤其是IT專家)的稀缺,許多企業在將機器學習集成到現有工作流程中時遇到了障礙。由于聯邦學習系統是一個新概念,因此人們很難掌握和執行它們。招聘和維護技術技能成為公司的主要關注點。

4.應用:面向實際場景的優化等亟待解決

在聯邦學習的應用方面,一方面應用場景不斷增多,如藥物發現、風險管理、在線視覺對象檢測、數據隱私和安全管理、工業物聯網、增強現實/虛擬現實、購物體驗個性化等。

另一方面,基于垂直行業,醫療保健和生命科學、BFSI、IT和電信、能源和公用事業、制造、汽車和運輸、零售和電子商務等應用都開始應用聯邦學習技術。

介紹幾大典型應用場景。

政務數據交換。政務大數據蘊含著巨大的經濟與社會價值,其開放與共享對于促進政府自身轉型、社會需求獲取模式轉型、打造智慧城市以及產業經濟轉型都具有重要意義。

在政務數據開放共享的過程中,由于缺乏可信的數據資產權利確認方案,導致政府部門不愿意共享數據。因缺乏有效的隱私安全保護技術,數據共享后無法限制數據用途,導致數據濫用和隱私泄露等問題,政府部門共享數據意愿較低。

聯邦學習可以與大數據開發組件集成,打破政府部門數據孤島,實現跨部門、與社會數據等安全共享。除了提供“脫敏”、“審計”和“細粒度權限控制”等措施外,可以實現數據資源的定向使用,防范申請權限獲批后的數據濫用或二次分發等行為導致的隱私泄露問題。

移動應用。聯邦學習可用于從智能手機的數據池中構建用戶行為模型,而不會泄露個人數據,如用于下一個單詞預測、人臉檢測、語音識別等。Google使用聯邦學習來改進設備上的機器學習模型,例如Google Assistant中的“Hey Google”,允許用戶發出語音命令。

醫療保健和健康保險行業。可以利用聯邦學習,保護原始源中的敏感數據,可以通過從不同位置(如醫院、電子健康記錄數據庫等)收集數據來診斷罕見疾病,從而提供更好的數據多樣性。

自動駕駛汽車。為了正常運行,自動駕駛汽車可能需要更新的建筑、交通或行人行為模型。由于隱私問題和每個設備的連接受限,在這些情況下構建聚合模型可能具有挑戰性。聯邦學習方法可以訓練模型,可以在尊重用戶隱私的同時快速響應這些系統中的變化。聯邦學習可以通過實時數據和預測提供更好、更安全的自動駕駛汽車體驗。

制造行業預測性維護。制造公司可以使用聯邦學習模型來開發設備的預測性維護模型。預測性維護可能會面臨一些障礙,如客戶不想共享其個人數據或從不同國家/站點導出數據問題。聯邦學習可以通過使用本地數據集來處理這些挑戰。

盡管聯邦學習技術因工程而生,但由于其處于萌芽階段,專家認為該領域缺少足夠多的實際應用案例,且面向實際場景的優化等問題也亟待解決。

業界經常用“數據不動模型動”和“讓數據可用不可見”來概括聯邦學習的基本原理。在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,聯邦學習這一新興的人工智能基礎技術,在多參與方或多計算結點之間可以開展高效率的機器學習,是一項值得期待的技術。


  更多信息可以來這里獲取==>>電子技術應用-AET<<


1文章最后空三行圖片 (1).jpg


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 特级中国aaa毛片 | 97av视频| 欧美在线综合 | 欧美高清日本三级人妇 | se成人| 日批视频在线看 | 亚洲日本一区二区三区在线 | 污视频免费观看网站 | 极品色在线精品视频 | 欧美一级欧美一级在线播放 | 日韩高清成人毛片不卡 | 小明成人免费视频 | 亚洲午夜成激人情在线影院 | 亚洲欧美中文字幕 | 国产成人午夜 | 国产色妇 | 国产亚洲人成在线影院 | 欧美性猛交ⅹxxx乱大交免费 | 欧美狠狠入鲁的视频极速 | a级黄色片网站 | 欧美中文字幕 | 日本黄色三级网站 | 中国老妇另类xxxx | 亚洲h片 | 2021最新国产精品一区 | 大学生一级特黄的免费大片视频 | 久久国产香蕉视频 | 一级黄色片在线观看 | 欧美激情a∨在线视频播放 欧美激情二区 | 天堂网中文 | 天堂在线www网亚洲 天堂网在线网站成人午夜网站 | 亚洲午夜18 | 午夜免费福利网站 | 国产成人精品高清在线观看99 | 天天做天天干 | 人人舔人人插 | 狠狠搞视频 | 亚洲第一中文字幕 | 天天操天天草 | 国产成人综合久久亚洲精品 | 窝窝午夜看片成人精品 |