「第三代人工智能」能幫助我們做什么?瑞萊智慧 RealAI 用兩年的時間給出了一個答案。
「第一代知識驅動的 AI 利用知識、算法和算力 3 個要素構造 AI;第二代數據驅動的 AI 利用數據、算法與算力 3 個要素構造 AI。由于第一、二代 AI 只是從一個側面模擬人類的智能行為,因此存在各自的局限性,不可能觸及人類真正的智能。」清華大學人工智能研究院院長、中國科學院院士張鈸等人在今年 9 月份的一篇專刊文章中這樣寫道。
在這篇文章中,他們還首次全面闡述了第三代人工智能的理念,提出第三代人工智能的發展路徑是融合第一代的知識驅動和第二代的數據驅動的人工智能, 利用知識、數據、算法和算力 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發展安全、可信、可靠和可擴展的 AI 技術(詳細信息請參見:《清華張鈸院士專刊文章:邁向第三代人工智能(全文收錄)》)。
其實,早在 2016 年,張鈸教授就提出了發展「第三代人工智能」的理念。在他看來,雖然當前的 AI 已經取得了一些進展,但仍面臨魯棒性差、決策不透明等問題,需要把知識驅動與數據驅動結合起來解決問題。
2018 年,由張鈸、朱軍(清華大學人工智能研究院基礎理論研究中心主任)擔任首席科學家的瑞萊智慧(RealAI)作為產學研技術公司從清華大學人工智能研究院孵化成立。這家公司的愿景是:以第三代人工智能技術為依托,克服一般深度學習存在的諸多缺點,從根本上增強人工智能的可靠性、可信性以及安全性。
兩年后的今天,在「2020 第三代人工智能產業論壇暨瑞萊智慧 RealAI 戰略發布會」上,RealAI 第一次向外界展示了他們基于第三代人工智能技術打造的 AI 原生基礎設施產品藍圖。
論壇上,瑞萊智慧 CEO 田天指出,當前 AI 基礎設施建設的重心集中在數據、算力平臺上,主要為 AI 提供基礎運算條件和生產力,打個比方,相當于是解決了 AI 的溫飽問題。數據和算力的快速增長作為「外部驅動力」的確帶動了 AI 技術在包括人臉識別、語音識別等領域的快速發展,驅動 AI 產業「第一增長曲線」的出現。
但隨著數據受場景復雜與隱私保護限制、算力增長緩慢等問題的出現,AI 產業的第一增長曲線開始放緩。在此情景下,我們亟需為 AI 產業打開「數據」和「算力」之外的全新維度,從增強算法底層能力出發,發展出AI「內生驅動力」。
不過想要加強AI內生驅動力,有幾道「關卡」需要我們去突破,包括更加安全可靠的決策(AI 決策邏輯和鏈路都不明確、易受攻擊)、數據隱私與安全(信息泄露、數據孤島)以及 AI 應用場景的管控(算法公平、社會倫理)。
「作為 AI 產業的建設者,我們從基礎設施的角度看待這一問題,在繼承自互聯網時代的數據平臺、算力平臺之外,需要建設 AI 原生基礎設施,從 AI 技術自身能力出發提供必備保障」,田天表示。
經過兩年的努力,田天等人已經給出了這套基礎設施的藍圖。
在算法可靠方面,他們研發了基于貝葉斯深度學習技術的可解釋 AI 建模平臺 RealBox。該平臺在 2019 年正式發布,目前已經在多家金融機構實際使用,并且通過了中國人工智能產業發展聯盟的首批可信 AI 認證。在應用可控方面,他們推出的DeepReal深度偽造檢測工具,能夠高效精準地判斷視頻、圖片等內容素材是否是經過AI偽造生成的,避免相應輿情,DeepReal 入選了國家工信安全中心人工智能優秀產品,基于其中的核心技術,RealAI 也獲得了 GeekPwn2020 年深度偽造檢測項目冠軍。
除此以外,活動現場還發布了兩款新品。
其中一款是針對數據安全的RealSecure,它是業內首個編譯級的隱私保護機器學習平臺,其核心模塊「隱私保護AI編譯器」能夠自動將普通機器學習算法程序轉換為分布式、隱私安全程序,使隱私安全的人工智能商業應用門檻大幅降低。
另一款是針對算法可靠發布的RealSafe2.0,它是世界首個企業級AI安全平臺RealSafe的升級版,相當于是針對AI模型的殺毒軟件和防火墻。升級后的RealSafe提供針對目標識別等算法的安全攻防能力,同時增加了后門漏洞檢測等功能。
田天表示,「這一系列 AI 原生基礎設施可以打開 AI 能力的全新維度,激發 AI 的第二增長曲線,為 AI 賦能各行各業帶來全新市場機會。」
業內首個編譯級隱私保護機器學習平臺 RealSecure 亮相
在 AI 的發展過程中,數據是基礎生產力,用于解決 AI 的「溫飽問題」。但由于數據本身難以獲取、加工,還涉及行業機密、用戶隱私等問題,很多數據擁有者不愿或不能將數據上傳至一個數據中心進行模型訓練,從而形成了一個個的「煙囪」或「孤島」。
針對這個問題,分布式隱私保護機器學習是一種新興的解決方案,它能使多方合作完成學習目標,但又避免各方傳輸原始數據,這并不是一個全新的概念,類似的術語還包括谷歌等機構提出的「聯邦學習」,實現「數據不出門,可用不可見」,但在實際商業應用中卻面臨三大痛點:
第一是學術界工業界公認的隱私保護機器學習最主要的問題—性能差。隱私保護機器學習需要多方配合執行,多方需要以加密形式完成參數交換,加密帶來了高達百倍的性能損失。同時超參數設置等與既有機器學習生態存在差距,隱私保護機器學習的速度慢了近千倍。本地幾十秒的模型訓練,隱私保護下需要數小時。而特征篩選、模型調參、模型驗證又需要幾十上百次重復建模流程,為了實現數據安全,極大的犧牲了建模速度。
第二是隱私保護機器學習難以大規模商業化落地的重要原因—難以兼容現有機器學習生態。不同于傳統機器學習,隱私保護機器學習是分布式系統、密碼學、人工智能三個領域的結合。為了實現隱私保護的目標,各家機構要組織團隊學習分布式系統、學習密碼學;學習使用新算法、新框架,并在新平臺下執行程序。這也意味著,AI 團隊長期以來積累下的經驗和方法論在隱私保護機器學習領域無法直接運用,重建或改寫的投入與代價非常之大。
第三隱私保護最核心的問題是保障數據財產的安全,這也意味著,平臺自身的安全性應該是可被檢驗的。現有模式都是純黑盒運行,安全性檢驗完全依賴專家背書,但整個平臺代碼量巨大,專家逐行審計模式難以實現。而且實際生產環境中,是否真的按照審計時提供的代碼邏輯執行,也都難以保障。
隱私保護機器學習平臺 RealSecure 就是在以上需求下誕生的,它首創以底層數據流圖的視角揭示機器學習算法與對應分布式隱私保護機器學習算法的聯系,通過算子組合將機器學習生態與隱私保護機器學習生態一脈打通,解決企業搭建隱私保護生態面臨著的性能差、易用性差、黑盒協議等諸多難題,實現兩大生態的一體化。
得益于底層編譯級的能力,RSC 具備三大優勢:
性能強勁。借助密碼學優化、AI 算法優化等改進實現,模型訓練相比某主流國產開源框架(最新版)性能提升約 40 倍,耗時從 4 小時 40 分鐘縮減至 6 分鐘。考慮到特征工程與自動調參環境,隱私保護下完成全流程建模,總耗時實現從日級別到小時級別的飛躍。
無感應用。實現機器學習生態與隱私保護機器學習生態的「一脈相承」,僅需要少量改動,可以通過自動轉換完成機器學習算法平臺框架與隱私保護機器學習平臺框架的統一,數據科學家能夠以與機器學習建模相同的方式使用隱私保護機器學習,易用性大幅提升。
安全透明。真正的隱私保護學習應用應該是白盒可驗證的,所有底層執行的計算是可審計的,這樣才能保證隱私保護學習平臺的安全性。RealSecure 以數據流圖形式,將中間計算過程公開,實現計算過程的安全透明。
RealAI 表示,易用性與性能的顛覆性提升,也讓 RealSecure 成為更快更容易應用到商業環境的「企業級」隱私保護機器學習平臺。
在發布會現場,田天還闡明了他們開發這兩款產品的理念:「當在應用中碰到技術難題時,我們不是見一個解決一個,修修補補;而是發現一個問題就看到一類問題,并通過底層技術框架、平臺的突破,助力產業的升級。今天我們重點發布的兩款新品都是這一理念的典型代表,它們的產品定位、功能和價值都是獨一無二,RealAI 首創。」
世界首款企業級 AI 安全平臺 RealSafe 迎來 2.0
在網絡安全時代,網絡攻擊的大規模滲透催生出一大批殺毒軟件。但隨著 AI 逐漸成為基礎設施的一部分,針對 AI 模型的「殺毒軟件」卻一直處于缺位狀態。
這種缺位存在巨大的安全隱患。數據顯示,去年就已經有超過 40% 的手機配備了人臉識別方案,但其中一些通過一副印有特殊紋理圖案的眼鏡就能輕松解鎖。
如果說手機影響的只是隱私和財產安全,那自動駕駛系統的安全漏洞則是真正的致命威脅。國際管理咨詢公司(Roland Berger)預測,2020 年全球自動駕駛車端系統的市場規模有望超過 1000 億美元。但與此同時,黑客只需要在標識牌上加上特定圖案就可以讓機器把限速標識識別為停止標識,導致致命事故的發生。
要徹底解決這些問題,我們需要理解深度神經網絡等 AI 算法是如何學習和工作的,但直到今天,我們仍對此知之甚少。因此,我們可能需要換一個思路。
對此,RealAI 給出的解決方案是:模型安全檢測 + 防御。也就是說,我們可以先通過多種攻擊方法對模型的安全風險類別和高低進行檢測,然后提供多種方案提升模型的安全性。這就是他們今年年初推出的世界首款企業級 AI 安全平臺——RealSafe。
在安全檢測階段,RealSafe 會利用多種攻擊算法生成不同迭代次數、擾動大小的對抗樣本進行模擬攻擊,嘗試使其出錯,然后統計其出錯的概率和分布,輸出檢測報告。該平臺相當于一款「殺毒軟件」,整個檢測過程全界面化操作,用戶無需具備專業的模型安全算法知識和編程開發經驗。
在防御階段,RealSafe 支持多種去除對抗噪聲的通用防御方法,可實現對輸入數據的自動去噪處理,破壞攻擊者惡意添加的對抗噪聲。同時,RealSafe 也支持檢測輸入數據是否含有對抗樣本,這種防御方式在模型和輸入數據之間構建了一道「防火墻」,將有攻擊意圖的數據擋在了模型之外。
今年 4 月份,RealAI 發布了 RealSafe 1.0,可用于提高人臉識別模型的安全性,提高應對對抗樣本攻擊(如上文中印有特殊紋理圖案的眼鏡)的能力。幾個月后的今天,RealSafe 實現了快速迭代,2.0 版本正式上線。與 RealSafe 1.0 相比,2.0 版本在支持防御的攻擊類型、適用范圍等方面進行了擴展。
首先,在檢測抗對抗樣本攻擊的安全性基礎上,新版本增加了「模型后門攻擊」自動化檢測,可以針對模型每個類別搜索并還原后門觸發器的最終結果,并依據還原結果的離散程度判別模型是否被植入后門。此外,測試報告還可以展示出模型被植入后門的類別以及對應的后門所在區域。
「模型后門攻擊」是一種新興的針對機器學習模型的攻擊方式,攻擊者會在模型中埋藏后門,使得被感染的模型在一般情況下表現正常。但當后門觸發器被激活時,模型的輸出將變為攻擊者預先設置的惡意目標。由于模型在后門未被觸發之前表現正常,因此這種惡意的攻擊行為很難被發現。雖然目前來看這種攻擊方式在實際場景中還不太常見,但針對可能存在的攻擊對算法進行加固仍然具有重要意義。這也表現了 RealAI 在產品布局上的前瞻性。
其次,2.0 版的 RealSafe 將適用范圍擴展到了目標檢測、圖像分類等底層 AI 模型。前者的典型應用場景包括安防場景中的人體檢測、車輛、無人機檢測,以及自動駕駛場景中的人體檢測、車輛檢測等。后者的典型應用場景包括社交網絡與短視頻應用的色情、暴恐、侵權元素的識別,手機相冊的自動分類等。這些場景也是目前 AI 模型應用最廣泛、安全需求最迫切的領域。
在進行安全性檢測后,RealSafe 平臺還提供了多種功能幫助用戶提升 AI 模型安全性。以對抗樣本去噪為例,平臺將自動針對已被測的模型,量化出多種通用對抗樣本去噪方案對模型安全性的提升效果,便于用戶選擇最適合當前被測模型的防御解決方案。
RealSafe 集成了多項國際領先的 AI 對抗攻防算法,榮獲多項世界 AI 安全大賽冠軍。與業界已有的一些人工智能對抗技術工具包相比,RealSafe 還具有支持基于生成模型的對抗樣本攻防、支持黑盒檢測、零代碼易上手等優勢。
目前,RealSafe 已在工信部重大建設項目以及某電網公司落地應用。
RealAI 表示,未來,RealSafe 還將提供應對模型竊取、數據逆向還原等新型 AI 安全風險的解決方案。
底層技術與應用場景
為了打造基于第三代 AI 的基礎設施,RealAI 應用了多項技術,包括:
貝葉斯深度學習:將深度學習和貝葉斯方法的優勢有機結合,將數據和預測結果中天然存在的不確定性納入考慮,提升 AI 模型的泛化能力,從而實現可靠可解釋的 AI;
可解釋機器學習:保證在建模過程中,從關鍵特征和決策相關依據等不同維度給出解釋,增進人們對 AI 結果的理解;
AI 安全對抗攻防:通過對抗的方式發現 AI 算法存在漏洞的機理,并通過對抗防御技術指導魯棒 AI 算法和系統研發;
新一代知識圖譜:將領域知識引入到 AI 建模中,實現知識與數據的共同驅動;
隱私保護機器學習:解決 AI 場景下的數據流通問題,實現在明文數據不出庫的情況下,通過與密碼學和分布式系統結合的方式,支持 AI 模型的訓練和預測;同時保證 AI 對數據的用量和用途,控制權屬和收益。
……
這些技術的運用極大地提高了 AI 技術在現實場景中的可用性。RealAI的AI基礎設施產品已經用于解決金融風控場景中的數據有偏、資產配置效率低、基建場景中的數據缺失等問題。
為了進一步從研究、平臺、產業賦能三方面持續發力,加速安全、可信、可靠的產業智能化升級,RealAI 也與北京智源人工智能研究院聯合成立安全人工智能創新中心,助力人工智能產業負責任發展。
AI 基礎設施的建設是一項長期任務,田天表示,RealAI 將「堅持長期主義,推動 AI 更高質量的服務于人類社會。」