總部位于英國的AI芯片公司Graphcore發布了新一代IPU產品Bow,這是其第三代IPU系統,發布即面向客戶發貨。
與上一代IPU相比,Bow IPU性能提升40% ,能耗比提升了16%,電源效率也提升16%。
值得注意的是,這一次Bow IPU的性能提升并非主要依賴采用更先進的制程,Bow IPU采用了和上一代IPU相同的臺積電 7nm,通過采用和臺積電共同開發的先進硅晶圓堆疊技術(3D Wafer-on-Wafer)達到性能和能耗比的提升。
Bow作為世界首款3D WoW處理器,證明了芯片性能提升的范式從先進制程向先進封裝轉移的可行性。
新一代 IPU 性能提升40%,價格保持不變
2016年,Graphcore成立并開創了全新類型處理器架構IPU,因其在架構上的創新曾被英國半導體之父Hermann Hauser稱之為是計算機歷史上的第三次革命。
經歷6年時間的發展,Graphcore的IPU逐漸在在金融、醫療、電信、機器人、云和互聯網等領域取得成效。本周四,Graphcore又推出了第三代產品Bow IPU。
據Graphcore介紹,第三代IPU相對于上一代M2000,性能提高40%,每瓦性能提升16%,即能耗比實現16%的提升。
不過,AI芯片的真實性能還需要放在不同的應用領域中討論。為此,Graphcore也給出了在不同垂直領域中Bow的性能表現。
在圖像方面,無論是典型的CNN網絡,還是近期比較熱門的Vision Transformer網絡,以及深層次的文本到圖片的網絡,與上一代產品相比,Bow IPU都有30%到40%的性能提升,在EfficientNet-B4這一項中,接近理論上限值。
BERT訓練模型是自然語言方面的經典模型,基于BERT,OpenAI提出了GPT-1、GPT-2、GPT-3等縱向擴展或橫向擴展,通過更深的網絡層次和更寬的網絡寬度讓模型的性能和精度進一步提高。
“我們可以看到,這些模型在我們最新的硬件形態上都有很大的性能提升。”Graphcore中國工程副總裁、AI算法科學家金琛介紹道。
不僅如此,轉換到實際模型中的吞吐量,與IPU POD64相比,在計算機視覺的ResNet50 和 EifficientNet-B4 訓練模型中,Bow Pod64的吞吐量能夠達到34%和39%的性能提升。
自然語言方面, BERT-Large Ph1 預訓練模型和語音識別Conformer Large 訓練模型,后者都有36%的吞吐量提升。
作為英偉達的競爭對手,Graphcore自然不忘將 Bow Pod16 與DGX-A100進行對比,實驗數據表明,EfficientNet-B4的backbone的訓練在DGX-A100上需要花費70個小時的訓練時間,而在Bow Pod16上,只需要14小時左右。
接近理論極限的性能提升,Graphcore Bow IPU是如何實現的?
5nm不再是首選,采用先進封裝性價比更高
從芯片的規格上看,Bow IPU是世界上第一款基于臺積電的 3D Wafer-On-Wafer的處理器,單個封裝中擁有超過600億個晶體管,具有350 TeraFLOPS的人工智能計算的性能,是上一代MK2 IPU的1.4倍。
片內存儲較上一代來看沒有變化,依然保持0.9GB的容量,不過吞吐量從47.5TB提高到了65TB。
“變化主要體現在,它是一個3D封裝的處理器,晶體管的規模有所增加,算力和吞吐量均得到提升。” Graphcore大中華區總裁兼全球首席營收官盧濤說道。而在大家都關注的工藝制程上,Bow IPU 延續了上一代臺積電 7nm 工藝制程,沒有變化。
理論上,一顆芯片的性能提升很大程度上取決于工藝制程上的進步,但隨著工藝制程越來越逼近物理極限,摩爾定律逐漸失效,業界不得不尋找新的技術方向來延續摩爾定律。其中,3D封裝就是被業界廣泛看好的技術方向。
中國工程院院士、浙江大學微納電子學院院長吳漢明就曾在一次演講中提到,如果將芯片制造和芯片封裝相結合,也可以做到65nm工藝制程實現40nm工藝制程的性能功耗要求。
Bow IPU正好驗證了吳院士的觀點。
盧濤表示,Bow IPU產品性能的提升主要來源于3D WoW和新增的Die。
至于為何選擇改變封裝方式而不是更先進的工藝,盧濤則表示MK2 IPU有594億個晶體管,大概823平方毫米,已經是7nm單個Die能夠生產的最精密的芯片。
“我們評估從7nm、5nm,到3nm等不同工藝節點的收益時發現,從7nm到5nm的生產工藝提升所帶來的收益不像以前從28nm到14nm一樣,能夠帶來百分之幾十的收益,而是降到了20%。這時候我們可以通過別的手段和方法獲得同樣的收益。”
通過3D堆疊的方式,Bow IPU的兩個Die增加了晶體管的數量,其中一個Die(Colossus Die)和上一代一樣,另一個Die主要用于提高跨Colossus Die的電源功率傳輸,優化Colossus Die的操作節點,從而轉化為有效的時鐘加速。
在同臺積電的合作方面,盧濤告訴雷峰網,Graphcore在一年之前就同臺積電合作了一顆測試芯片,與臺積電的關系非常緊密,加上AI處理器本身規模較大,需要一些新技術支持落地,而從臺積電的角度而言,新的技術也需要有需求的產品共同推進。
值得一提的是,雖然封裝方式有所變化,但Bow IPU開箱即用,與前一代產品百分之百軟件兼容,不用修改任何代碼,老用戶無需做任何軟件適配工作就能獲得性能提升,價格保持不變。
目前,美國國家實驗室Pacific Northwest已經基于Bow IPU嘗試做一些基于Transformer的模型以及圖神經網絡,面向計算化學和網絡安全方面的應用,且給出了比較正面的反饋。
延續3D封裝,開發超越人腦的超級智能機器
Bow IPU使用3D封裝只是起點,面向未來,Graphcore正在開發一款可以用來超越人腦處理的超級智能機器。
Graphcore將這款正在研發的產品命名為Good Computer,一方面希望計算機能夠為這個世界帶來正面的影響,另一方面致敬著名計算機科學家Good。
基于3D WoW,預計未來Good Computer將包含8192個IPU,提供超過10 Exa-Flops的AI算力,實現4 PB的存儲,可以助力超過500萬億參數規模的人工智能模型的開發。
取決于不同的配置,Good Computer價格將在100萬美元到1.5億美元之間。
盧濤表示,開發Good Computer還是會沿用IPU的體系結構,IPU的存儲是在處理器里面,雖然不叫類腦、內存計算或存算一體,但從某種程度上而言,IPU的運作機理接近大腦計算的工作原理,只是把計算和存儲相結合。
另外,Graphcore也將從軟件方面更有效支持稀疏化以達到類腦的計算量。