一款理想的神經(jīng)網(wǎng)絡(luò)芯片是什么樣的?按照工程師的說法,最重要的是在芯片本身上擁有大量的存儲空間。這是因?yàn)閿?shù)據(jù)傳輸(從主內(nèi)存到處理器芯片)通常消耗最多的能量,并且會產(chǎn)生大部分的系統(tǒng)滯后,即使與AI計算本身相比也是如此。
有鑒于此,Cerebras Systems通過制造一臺幾乎完全由一個包含18 GB內(nèi)存的大型芯片組成的計算機(jī),解決了這些問題(統(tǒng)稱為內(nèi)存墻)。
但是法國,硅谷和新加坡的研究人員提出了另一種方法。
一家稱為Illusion的公司使用在硅邏輯之上構(gòu)建的3D堆棧中使用由電阻性RAM存儲器構(gòu)建的處理器來執(zhí)行相關(guān)操作,因此花費(fèi)很少的精力或時間來獲取數(shù)據(jù)。
僅憑其本身,還不夠,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的規(guī)模越來越大,無法容納在一個芯片中。因此,該方案還需要多個此類混合處理器以及一種算法,該算法既可以智能地對處理器之間的網(wǎng)絡(luò)進(jìn)行分割,還可以知道何時在閑置時迅速關(guān)閉處理器。
在測試中,八芯片版本的Illusion的能耗和延遲約為“理想”處理器的3-4%,該處理器在一塊芯片上具有所有需要的內(nèi)存和處理能力。
該研究團(tuán)隊(duì)(其中包括來自法國CEA-Leti研究實(shí)驗(yàn)室,F(xiàn)acebook,新加坡南洋理工大學(xué),圣何塞州立大學(xué)和斯坦福大學(xué)的貢獻(xiàn))受到了神經(jīng)網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大這一事實(shí)的推動。
負(fù)責(zé)這項(xiàng)研究的斯坦福大學(xué)電氣工程和計算機(jī)科學(xué)教授Subhasish Mitra說:“從某種意義上講,這種理想的芯片永遠(yuǎn)無法使用,因?yàn)樗且粋€不斷發(fā)展的目標(biāo)。” 他說:“神經(jīng)網(wǎng)絡(luò)變得越來越快,其速度超過了摩爾定律。”
因此,他們設(shè)法設(shè)計一種系統(tǒng),使它實(shí)際上是由多個混合處理器組成,它也會產(chǎn)生一個帶有大量片上存儲器的單個處理器的錯覺(illusion),因此他們將其命名為為項(xiàng)目名)。這樣,Illusin就可以輕松擴(kuò)展以適應(yīng)不斷增長的神經(jīng)網(wǎng)絡(luò)。
Mishra解釋說,這樣的系統(tǒng)需要做到三件事:
首先是芯片上的大量內(nèi)存,可以快速訪問而幾乎不消耗能量。這就是集成3D的RRAM發(fā)揮功效的地方。他們選擇了RRAM,“因?yàn)樗敲芗模?D集成的,并且可以在掉電狀態(tài)下快速訪問,并且因?yàn)樗跀嚯姇r不會丟失數(shù)據(jù), ” 斯坦福大學(xué)電氣工程學(xué)教授,該項(xiàng)目的合作者Philip Wong說。
但是RRAM確實(shí)有一個缺點(diǎn)。像Flash存儲器一樣,它被覆蓋過多次后就會損耗。在Flash中,軟件會跟蹤每個存儲單元塊發(fā)生了多少次覆蓋,并試圖保持該數(shù)量,即使在芯片中的所有單元中也是如此。斯坦福大學(xué)理論計算機(jī)科學(xué)家 Mary Wootters 領(lǐng)導(dǎo)團(tuán)隊(duì)為RRAM發(fā)明了類似的東西。結(jié)果稱為Distributed Endurer,這增加了確保寫入時的磨損甚至跨越多個芯片的負(fù)擔(dān)。
即使使用Endurer混合RRAM和處理器芯片,但強(qiáng)大的神經(jīng)網(wǎng)絡(luò)(例如當(dāng)今使用的自然語言處理器)仍然太大,讓我們無法將其容納在一個芯片中。然而使用多個混合芯片意味著在它們之間傳遞消息,消耗能量并浪費(fèi)時間。
Illusion團(tuán)隊(duì)的解決方案是其技術(shù)的第二部分,其解決方案是以使消息傳遞最小化的方式來切割神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一組計算發(fā)生的節(jié)點(diǎn)以及連接它們的邊。每個網(wǎng)絡(luò)將具有某些節(jié)點(diǎn)或節(jié)點(diǎn)的整個層,它們具有大量的連接。
但是網(wǎng)絡(luò)中也將存在阻塞點(diǎn),即在節(jié)點(diǎn)之間必須傳遞少量消息的地方。在這些阻塞點(diǎn)上劃分大型神經(jīng)網(wǎng)絡(luò),并將每個部分映射到單獨(dú)的芯片上,可確保從一個芯片到另一個芯片的數(shù)據(jù)傳輸量最少。Mitra說,Illusion映射算法“自動識別切割神經(jīng)網(wǎng)絡(luò)的理想位置,以最小化這些消息。”
但是像這樣切割的東西有其自身的后果。
不可避免地,一種芯片會先于另一種芯片來完成其業(yè)務(wù),這會拖延系統(tǒng)并浪費(fèi)功耗。其他嘗試運(yùn)行超大型神經(jīng)網(wǎng)絡(luò)的多芯片系統(tǒng),則以使所有芯片持續(xù)忙碌的方式來劃分網(wǎng)絡(luò),但這是以在它們之間傳輸更多數(shù)據(jù)為代價的。
在第三項(xiàng)創(chuàng)新中,Illusion團(tuán)隊(duì)決定設(shè)計混合處理器及其控制算法,以便可以快速關(guān)閉和打開芯片。因此,當(dāng)芯片等待工作時,它不會消耗任何功耗。
Mishra說,CEA-Leti的3D RRAM技術(shù)是制造3D SoC的關(guān)鍵,該SoC可以在幾個時鐘周期內(nèi)完全關(guān)閉并重新啟動而不會丟失數(shù)據(jù)。
該團(tuán)隊(duì)構(gòu)建了八芯片版本的Illusion,并在三個深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行了測試。這些網(wǎng)絡(luò)遠(yuǎn)不及當(dāng)前正在計算機(jī)系統(tǒng)運(yùn)行的網(wǎng)絡(luò)的規(guī)模,因?yàn)槊總€Illusion原型僅為神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)保留了4 KB的RRAM。他們測試過的“理想芯片”實(shí)際上是一個模仿了完整神經(jīng)網(wǎng)絡(luò)執(zhí)行的illusion 芯片。
8片幻覺系統(tǒng)能夠在理想芯片能耗的3.5%和2.5%的執(zhí)行時間內(nèi)運(yùn)行神經(jīng)網(wǎng)絡(luò)。Mitra指出,該系統(tǒng)可以很好地擴(kuò)展。有4 GB RRAM的64芯片illusion 方案的仿真也接近理想。
“我們已經(jīng)展開了新的更強(qiáng)大的原型設(shè)計”,斯坦福大學(xué)的研究生Robert Radway說。他們也將其發(fā)表在本周的自然電子上。與原型相比,下一代芯片將具有更大數(shù)量級的內(nèi)存和計算能力。雖然第一代經(jīng)過了推理的測試,但下一代將用于訓(xùn)練它們,這是一項(xiàng)艱巨的任務(wù)。
“總的來說,我們認(rèn)為illusion 對未來技術(shù)具有深遠(yuǎn)的影響,” Radway說。“它為技術(shù)創(chuàng)新開辟了廣闊的設(shè)計空間,并為未來的系統(tǒng)創(chuàng)造了新的擴(kuò)展途徑。”