AI加速器實現高速CNN處理,降低功耗。
全球領先的半導體解決方案供應商瑞薩電子株式會社(TSE:6723)近日宣布推出全新AI加速器,可高速且低功耗地執行CNN(卷積神經網絡)處理,向下一代瑞薩嵌入式人工智能(e-AI)邁進,加速端點設備智能化。采用該加速器的測試芯片可實現效率達到8.8 TOPS/W(注1),達到業界最高水平。瑞薩加速器基于計算存儲一體化(PIM)架構,即當讀取存儲器數據時,在存儲器電路中執行乘法和累加運算。
為構建全新AI加速器,瑞薩推出了以下三種技術。一是可執行大規模CNN計算的三進制(-1,0,1)SRAM結構PIM技術。二是與比較器配合使用的SRAM電路,可在低功耗下讀取存儲器數據。三是能夠防止在制造過程中因工藝變化而導致的計算錯誤。將以上技術結合,既能縮短深度學習處理中的存儲器訪問時間,又可降低乘法和累加運算所需的功率。因此,當通過手寫字符識別測試(MNIST)進行評估時,新加速器在保持99%以上準確率的同時,達到了業界最高能效等級。
瑞薩于6月13日在日本京都召開的2019年度“VLSI和電路技術專題研討會(2019年6月9-14日)”上展示了相關測試結果。瑞薩還基于原型AI模塊演示了實時圖像識別技術,其中測試芯片由一顆小型電池供電,在演示環節中與微控制器、攝像頭、其它外圍設備及開發工具相連接。
由于二進制(0,1)SRAM結構只能處理值為0或1的數據,PIM架構無法通過單比特計算獲得足夠的大規模CNN運算精度水平。此外,制造過程中的工藝變化導致這些運算的可靠性降低。瑞薩現已開發出攻克這些問題的技術,并將其作為實現未來革命性AI芯片的前沿技術應用于下一代e-AI解決方案,例如對性能和功率效率有較高要求的可穿戴設備及機器人等。
下一代AI芯片技術的關鍵特性:
可根據所需精度調整計算位數的三進制(-1,0,1)SRAM結構PIM技術
三進制(-1,0,1)SRAM結構PIM技術采用三元存儲器與簡單數字計算塊相組合,保證硬件數量增加的同時將計算誤差降至最低。同時,允許根據所需精度進行位數切換(如1.5位(三進制)和4位計算之間)。可針對不同用戶需求支持不同的精度及運算規模,用戶可優化精度與功耗間的平衡。
結合比較器和復制單元的高精度/低功耗存儲器數據讀取電路
當采用PIM架構時,通過檢測SRAM結構中的位線電流值以讀取存儲器數據。盡管使用A/D轉換器進行高精度位線電流檢測是有效的,但這種方法功耗高且芯片面積較大。因此,瑞薩將比較器(1位感測放大器)與復制單元相結合,方便靈活控制電流,從而開發出高精度的存儲器數據讀取電路。此外,由于神經網絡操作所激活節點(神經元)數量非常少(約1%),通過關閉未激活節點(神經元)讀取電路以實現更低的運行功率。
消除制造過程中因工藝變化導致計算誤差的規避技術
由于制造過程中的工藝變化,導致SRAM結構中位線電流值產生誤差,從而造成存儲器讀取數據時出現錯誤。為解決這個問題,瑞薩在芯片內部覆蓋了多個SRAM計算電路模塊,由制造工藝變化最小的模塊執行計算任務。由于激活節點只是所有節點中的一小部分,因此激活節點被有選擇地分配給制造過程變化最小的SRAM計算電路模塊執行計算。從而將計算誤差降至幾乎可忽略的水平。
自2015年引入嵌入式AI(e-AI)概念以來,瑞薩一直致力于多個e-AI解決方案的研發。瑞薩根據e-AI的有效性和已實施的應用程序定義了“類”,并根據以下四類開發出e-AI解決方案:
第1類:判斷信號波形數據的正確性或異常。
第2類(100GOPS/W級):通過實時圖像處理判斷正確性或異常。
第3類(1TOPS/W級):實時識別。
第4類(10TOPS/W級):在端點啟用增量學習。
瑞薩于2017年推出e-AI開發環境,并于2018年發布RZ/A2M微處理器,該微處理器集成瑞薩獨有DRP技術,為第2類應用提供解決方案。同時,為實現第3類應用,瑞薩進一步提高了DRP技術的計算性能。
現在,瑞薩正立足此項開發并推出新型尖端技術。全新加速器技術結合低功耗特性和改進的計算性能,可能成為實現第4類應用的關鍵技術之一。瑞薩致力于通過在物聯網邊緣及端點采用AI技術來增強智能,為實現智能社會做出貢獻。