時下業界利用深度學習算法來訓練卷積神經網絡(CNN),以期實現智能化程度更高的移動設備,這可能需要以全新方法來設計處理器架構。但是,巧妙地充分利用現有的技術,也可幫助我們進一步走向具備真正智能認知能力的設備,并能夠完全重新定義用戶體驗。
Nvidia在三月的GPU技術大會上使用汽車和先進駕駛輔助系統(ADAS)作為應用重點,配合Elon Musk的意見和評論,希望表明自動駕駛汽車的挑戰幾乎已被完全克服了。另一方面,隨著時間的推移,加上一些著眼于降低功耗的調整與改良,我看到無處不在的3D感知、3D跟蹤,以及圖像搜索等許多技術和應用正在快速進入智能手機,以及其他以電源或電池供電的嵌入式系統中。
結合用于偵測運動和音頻信號的傳感器、快速的存儲器訪問 ,以及高功效的數據處理方法,這些系統可以擁有真正的“認知”能力,甚至在不遠的將來構成一個用于人工智能移動設備的平臺。同時,重要的是優化現有的架構來實現“智能視覺”功能,比如3D深度圖和感知、物體識別以及增強現實,還有一些核心的計算圖像學功能,比如圖像縮放、HDR、圖像再對焦,以及微光圖像增強。
隨著許多圖像處理與增強功能也都使用計算機視覺技術,計算機視覺和圖像處理技術之間的區別正在變得越來越模糊。最直接的例子就是多幀圖像增強功能,比如HDR、圖像縮放與再對焦——拍攝多個連續的圖像,然后將它們融合在一起,得到更高質量的畫面。
雖然我們稱之為“圖像增強”,但這其實涉及大量的計算機視覺處理來“register”圖像,既完成兩幀或三幀畫面之間的匹配。現在,用戶認為這種基本功能是理所當然的,但其實它需要非常強大的處理能力,使得對于專門的、高性能的數字信號處理 (DSP)的需求將會增加。
高通公司(Qualcomm) 在Uplinq 2013上發布了文章,很好地描繪出用于各種不同處理功能的像素功率和時間關系。圖中展示了三個處理器,包括一個在1.2 GHz下運行的單核CPU、一個四核CPU,以及一個在690 MHz下運行的DSP。
圖1:描繪不同處理器在處理每個像素時需要的處理能力和時間,表明了DSP結合CPU用于視覺處理的優勢。為了優化功耗和性能,結合CPU、DSP和GPU可能是總體來說最好的方法。
圖表表明DSP在僅略微超過CPU一半的時鐘頻率下運行,便能夠在圖像處理上達到相同的效果,提供了潛在的性能增益,同時節省了更多的功耗(功率= 電容 x 電壓2 x 頻率,或者P=CV2xF)。
然而,隨著我們轉向在移動平臺上實現類似人類的視覺、人工智能和增強現實應用,可能需要重新思考所需的處理架構。結合傳感器融合和先進深度學習算法(比如CNN),這些非常先進的計算密集型應用將提供更具環境感知和情境感知的用戶體驗,但是在電池壽命方面卻要作出取舍。
設計人員面臨的挑戰,是一方面要實現具有智能感知能力的設備,同時在另一方面維持可接受的電池壽命。有幾種方法來實現這一點。例如,可以使用來自高通或Nvidia的GPU來支持CPU。這已經在許多智能手機中實現了。然而,降低功耗這一持續性的強制需求驅使我們將特定的處理密集型功能分散給針對視覺處理進行優化的DSP處理器。在處理物體識別和跟蹤時,對比當下最先進的GPU簇群,使用這種方法可以節省高達9倍的功耗。
然而,即使具備這種功耗水平,移動設備仍然不太可能很快地使用面部識別來進行人群搜索,因為此功能對于處理能力的要求還是太高了。不過,低功耗處理器和經過特定優化的處理器架構的面世帶來了希望,使得我們在這個領域內正在取得實質的進展。這類進展是MIT Technology Review將深度學習稱為2013年十項技術突破之一的原因所在。除了GTC上進行了相關演示,微軟、百度,以及Cognivue也展示了一些研究成果。此后,這個領域中還有其他長足發展。
此外,Aziana (澳大利亞)最近宣布與BrainChip(美國加州)合并,后者是專門以硬件方式實施人工智能的企業,并已經著眼于開發用于移動平臺的人工智能。雖然支持強大處理能力的架構和超低功耗處理是至關重要的,但隨著云連接變得更普及、更快捷,若我們將盡可能多的處理開銷分配到云中,也是合乎情理的。這將會走向智能的處理性能分配。在云做最適合在云中處理的工作,在移動設備做最適合移動設備處理的工作,盡可能高效地依據架構分配功能,比如使用CPU來分配GPU和DSP之間的負載。用高通公司的說法,就是使用合適的引擎來做合適的工作。