易于解釋的神經元對于提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。
AI 模型能「理解」什么?為什么能理解這些東西?回答這些問題對于復現和改進 AI 系統至關重要。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落后于我們利用這些網絡獲取有用成果的能力。
理解 DNN 的一類常見方法是聚焦于單個神經元的屬性,如找到一個能夠被貓的圖像而非其他類型的圖像激活的神經元。我們把這種對于特定圖像類型的偏好稱之為「類選擇性(class selectivity)」。
選擇性的應用非常廣泛,部分原因在于它直觀、易懂,而且這些類型的神經元其實會自然地出現于多種不同任務上訓練的網絡中。例如,為不同類型圖像分類任務訓練的 DNN 包含針對拉布拉多尋回犬激活最強烈(有選擇性)的單個神經元。為了預測產品評論中單個字母而訓練的神經元包含對積極 / 消極情緒具有選擇性的神經元。
但是,要想讓 DNN 發揮作用,這些易于解釋的神經元真的是必要的嗎?這就好比通過汽車的排氣管來研究其推進系統。盡管排氣管與車速有一定關系,但推動汽車前進的并不是它。那么,類選擇性到底是「引擎」還是「排氣管」的一部分?
頗為意外的是,Facebook 的研究者發現,有強烈的證據表明即使 DNN 的大部分神經元沒有類選擇性,它也能運轉良好。他們還表示,其實,易于解釋的神經元可能會損害 DNN 的功能并使其更容易受到任意扭曲的輸入的影響。
為了研究這一問題,研究者開發了一種新的技術來直接控制 DNN 神經元的類選擇性。他們的研究結果表明,在理解 DNN 時過度依賴基于直覺的方法可能具有誤導性,如果這些方法沒有經過嚴格的測試和驗證。要完全理解 AI 系統,我們必須尋找那些不僅依靠直覺,還經歷過實驗檢驗的方法。
Facebook 研究者的發現
盡管很多研究者已經將類選擇性當做 DNN 可解釋性的一個工具進行了廣泛的研究,但令人意外的是,很少有人去研究易于解釋的神經元對于 DNN 發揮最佳作用是否必要。最近,部分研究者已經開始了這一問題的探索,但不同的研究給出了不同的結論。
在此背景下,Facebook AI 的研究者通過一種新的類選擇性操縱方法來探索上述問題。在訓練一個圖像分類網絡時,他們不僅指導網絡提高其分類圖像的能力,還添加了一個降低(或提高)神經元中類選擇性程度的激勵。
上圖顯示了操縱類選擇性神經元如何影響 DNN 正確分類圖像的能力(在 Tiny ImageNet 上訓練的 ResNet18)。每個點代表一個 DNN。點的顏色代表類選擇性在 DNN 神經元中被激勵的程度。x 軸表示 DNN 神經元間的平均類選擇性,y 軸表示 DNN 圖像分類的準確性。灰色的點表示中立——既不鼓勵也不抑制類選擇性——表示這種類型 DNN 在自然狀態下的類選擇性發生水平,研究者將其作為一個比較分類準確率的基線。通過抑制類選擇性(藍色點),我們可以將測試準確率提高 2% 以上。相比之下,激勵類選擇性(紅色的點)會對 DNN 的圖像分類能力產生明顯的負面影響。
在具體操作上,研究者通過在用于訓練網絡的損失函數中添加一個類選擇性項來實現這一點。他們使用一個參數來控制類選擇性對于網絡的重要性。通過這個參數可以激勵或抑制易于解釋的神經元,以及激勵 / 抑制的程度。這樣的話,研究者就相當于掌握了一個旋鈕,通過這個旋鈕可以操縱網絡中所有神經元的類選擇性。他們借助這個旋鈕進行了實驗,以下是實驗的結果:
1. 減少 DNN 的類選擇性對于性能的影響非常小,在某些情況下甚至會帶來性能的提升。這些結果表明,盡管類選擇性在多種任務和模型中普遍存在,但它并不是 DNN 發揮作用所必需的,有時甚至會發揮負面作用;
2. 在增加類選擇性時,可以發現 DNN 性能顯著下降。這一結果表明,類選擇性的存在并不能保證 DNN 的良好運行;
3. 與學術環境相比,部署到現實世界的 DNN 通常要處理更加嘈雜、有挑戰性的數據。研究者發現,減少類選擇性之后,DNN 在處理有噪聲、扭曲的數據時更加穩健。有趣的是,減少類選擇性也使得 DNN 更容易受到針對性的攻擊(故意操縱圖像來欺騙 DNN)。
Facebook 的研究者認為,我們之所以對這些結果感到驚訝,可以歸結為兩方面的原因。首先,由于類選擇性天然地存在于多數 DNN 中,它已經被廣泛地用于理解 DNN 的性能。本文中的研究也表明,在沒有類選擇性操縱的情況下,DNN 自然而然地學習盡可能多的類選擇性,而不會對性能產生負面影響。這就引出了 Facebook 研究者希望在未來工作中回答的一個更深層次的問題:如果類選擇性對良好的表現來說不是必需的,為什么網絡要學習它呢?
研究意義
研究者希望,他們提出的這個類選擇性旋鈕能夠鼓勵其他研究者利用該技術進一步研究類選擇性在 DNN 中扮演的角色。重要的是,他們開發的理解復雜神經網絡系統的方法是基于有意義的特征。研究者表示,如果能夠訓練一個沒有貓神經元也能很好地識別貓的 DNN,我們就不應該試圖通過關注貓的神經元來理解 DNN。相比之下,AI 研究者應該更多地關注、分析大群神經元是如何一起工作的。
從更廣泛的意義上來說,研究者認為,他們的研究為將單個神經元特性作為理解 DNN 性能關鍵的方法提了個醒。在得出這些結論之后,他們還考察了一些廣泛使用的可解釋性方法如何產生有誤導性的結果。
為了解決這些問題,他們發表了一篇立場論文來評估兩個個案研究。