盗墓笔记小说全集,我欲封天,玄幻小说排行榜完本

國產GPGPU如何趕超國外？這3條路最有希望

日期： 2021-11-29

來源：CSDN

關鍵詞： 人工智能國產GPGPU 芯片

　　通用or專用，智能算力芯片架構該如何設計？

　　常用芯片中最通用的就屬CPU。以英特爾、AMD為代表，幾乎可以做任何事情，但是無法做到極致的性能和功耗。能做到極致能效比的是專用芯片，既所謂的ASIC。但是它的編程性差，應用的范圍就比較窄。

　　而在這兩個極端之間還有很多選擇，比如GPU，這些年越來越成為行業的熱點。GPU是一個相對比較通用的處理器，現在稱之為GPGPU，具有良好的編程性，特別適合大規模數據并行類應用。還有一類在硬件靈活度上更大的就是FPGA（現場可編程門陣列），這類器件可以通過硬件描述語言來改變邏輯結構，性能和功耗會更好，只是編程的難度較大。

　　通過分析過去五年具有代表性的芯片公司的股價走勢，就可以對行業的發展趨勢窺見一斑：英特爾近五年股價上漲了50%；Xilinx（全球領先的FPGA公司）股價大概上漲了2.6倍；而英偉達（當紅的GPGPU壟斷企業）過去五年股價上漲了16倍。我們即便不去追究深層次的原因，僅憑股價的成長也可以判斷行業已經作出了選擇，GPGPU已經成為未來計算的主角和核心。

　　同時，以史為鑒，從GPU的發展歷史看，它是如何一步一步成長為行業王者的？

　　GPU早在上世紀八十年代就已經出現了，那時對于游戲的需求催生了特殊的專用于圖形渲染的硬件，這就是早期的GPU。在1990年-2000年這段時間，涌現了很多GPU廠商，每家公司規模并不大，有很多代表性的專用芯片產品。但是到了2005年左右，大家意識到在圖形學這個領域算法變化很快，可能每隔幾個月甚至每隔幾周就會發生翻天覆地的變化。但芯片需要18個月才能完成一次更迭，如果把硬件完全固定下來就無法跟上行業發展的節奏。

　　所以，人們開始探索把原來不可變的執行流水線，設計成可以部分編程的架構，這種架構更加靈活，可以更加高效的適應算法的變化。真正的GPGPU行業大發展始于2006年出現的CUDA（Compute Unified Device Architecture，統一計算設備架構），它是一種精心設計的、可對GPGPU直接編程的接口和語言。從此以后，對于大量的數據并行應用就可以方便地使用CUDA編程，從而釋放出GPGPU中可觀的算力。

　　所以回看過去幾十年GPU的發展之路，是一條從“專用”過渡到“比較通用”，直到現在“非常通用”的發展路徑。如果我們用來類比今天的人工智能，是否也有相同的趨勢？AI需要極致的算力和能效比，做成專用芯片可能是合適的。但AI算法的變化又非常快，可能以“天”計，這又要求我們不能做成非常固定的硬件，可能最后也會收斂到一個偏通用的架構。這是我們的一個推論。

　　GPGPU的發展離不開“摩爾定律”

　　摩爾定律已經被“社死”了很多年，在很多年前就有人說摩爾定律要終結了，但這些年摩爾定律非但沒有終結，而且還活得很好。

　　如今5納米工藝可以量產，3納米也沒問題，1納米也能夠預見，摩爾定律仍然會持續下去，而且會持續相當長的時間。但確實，計算機不會變得更快。因為頻率不會變得更高，所以CPU的性能總體趨于穩定。但計算機能夠集成的計算資源和存儲資源還是會不斷翻倍，因為摩爾定律使得硬件集成度每隔18個月提升一倍。

　　摩爾定律和GPGPU可謂“佳偶天成”，數據并行是一種可擴展性最強的并行方式，只要有海量的數據并行性，同時芯片又能夠按照摩爾定律不斷堆砌硬件資源，GPGPU的性能就會不斷提升。歷史已經證明GPGPU的勝出歸根結底是摩爾定律的功勞。

　　既然針對某個特定應用做到極致能效比的方式是專用芯片，那么專用芯片是否會比GPGPU更加有優勢呢？

　　實際上GPGPU的架構也不是一成不變的，也會加入專用的單元用于處理專業的任務，從而使得GPGPU的發展與時俱進，它可以是專用和通用的結合體。比如Volta這一代的GPGPU，在流處理器里就把計算資源分成幾塊，既有計算整型數的單元也有強大的浮點數單元。

　　為了適應人工智能的發展，還特意加入了新的單元，叫Tensor Core，其實就是為AI量身定做的專用計算單元。所以，GPGPU的架構也在不斷更新、不斷地去適應新型應用所需要的底層算力。

　　如果說傳統GPGPU的算力并行度是以一個數據點為基本的粒度，在這個規模上并行，那么到了Tensor Core就變成了以小矩陣塊為基本粒度并行了，它在每一個周期都可以完成一個4×4矩陣相乘的結果，所以并行度和算力都高于傳統GPGPU的設計。

　　這個概念還可以推而廣之，比如說華為的昇騰AI處理器中的核心單元3D Cube，實際上就是一個矩陣計算的陣列塊，而它的規模比Tensor Core還要大，是以16×16為單位來做矩陣計算的，因此它的粒度更大，并行度更高，并且做同樣的矩陣計算平均下來功耗更低。但是基本單元塊粒度過大的話，相對于程序來說控制就復雜，通用性和適用性就下降。所以各個公司都是盡量在功耗、性能以及并行的粒度和可編程性之間找到一個平衡點。

　　為了適應人工智能的發展，現代GPGPU還做了很多革新。比如引入了多樣化的數制。人工智能的應用對計算精度的要求可以放寬，沒有必要一定按照標準的浮點數規則去運算。英偉達最新的Ampere架構中就引入了新的數制TF32。之所以起名叫TF32，意思是用這個標準來做，最后訓練出來的網絡精度不會下降，但TF32只有19位，它的計算方式和標準的浮點數不同，也正因為把位寬減少了，所以性能可以顯著提升。

　　此外，Ampere架構還采用結構化的稀疏。我們在神經網絡中發現，很多節點的權重都接近于0，而和0計算是白白浪費算力，所以在Ampere架構中也考慮了結構化的稀疏，每進行四次計算就可以規定有兩個是結構化的0，實踐發現如果可以把網絡訓練成這樣，那么在Ampere架構下運算起來就會得到兩倍的性能提升。

　　所以說，GPGPU里面也會發生各種各樣的優化，也在與時俱進。人工智能需要新型的計算芯片支持，大致可分為云端和終端。

　　在云端要適應各種需求變化和應用，并且既要能做訓練也要能做推理，所以看起來就是GPGPU的天下。英偉達這樣的公司也在不斷的進化，不斷的推陳出新來保證產品的競爭力。

　　而在終端的需求相對比較單一，應用固定一些，所以理論上設計專用硬件來追求極致的能效比是合理的。但終端的問題是加速器永遠只是一小部分，需要其他各種IP的配合協作才能組成一個完整的產品。比如說手機里面有豐富的功能，不是說只要人工智能做的好，手機就能賣得好。所以掌握傳統渠道和市場的終端芯片廠商，也會推出自己的解決方案，很有可能會后發制人。

　　市場需要的不是“好”的芯片，而是“好用”的芯片

　　我們要感謝這個時代帶給行業極大的發展機遇，甚至吸引了互聯網巨頭和海量的資本加入到這個戰場。

　　此前，中國的互聯網企業重視用戶體驗和商業模式，較少參與底層的硬件和芯片開發，但現在情況完全不同了。世界面臨產業的大變革、大重組、大轉移。而芯片產業的發展本質靠的是資本推動，當硬科技成為行業風口，就會產生大量的機會和變化。

　　這是一個非常好的時代，芯片產業總是由先進工藝推動的，我們可以樂觀的預期未來推動先進工藝的未必是美國的英特爾或英偉達，或許可能是中國的某家高科技公司呢？但另一方面，我們也必須看到英偉達研發一款新品的投入是以十億美金計，如果一個芯片公司的銷售達不到這個規模，肯定是無法持續的。

　　當前海量的資本都瘋狂的涌入這個賽道，而芯片是一個需要打持久戰的行業，一旦收入無法跟上，或無法成長為某個賽道的頭部，結局就可能很悲慘，即便是“飛起來的豬”也可能很快掉下來。

　　我們必須理解市場需要的不是“好”的芯片，而是“好用”的芯片。所謂好的芯片就是絕對算力高、硬件指標高，這個相對容易做到。但是做到好用就很困難，做出來的芯片沒辦法把潛力發揮出來，這是目前AI芯片公司的通病。

　　還是以史為鑒，英偉達其實也是一步一步從不好用做到好用，走過了一個漫長的階段。早期的GPU是很不好用的，沒有什么人會用GPU編程，只有那些所謂的“極客”會考慮使用GPU，拼命把其中的算力榨取出來。可以說早期的GPU比現在的AI芯片更不好用。

　　這時候就需要有一批行業領袖和技術大咖挺身而出，代表性的人物包括UIUC的胡文美教授（Wen-mei Hwu），他們發明了CUDA，從此有了可以直接對GPU進行編程的語言，使得GPU的潛力得以充分發揮，從而真正走上了騰飛之路。又經過十年左右的發展，形成了一個非常強大的生態，可以支持各種各樣的應用，豐富了高級語言的屬性，能夠支持更為復雜的模型和算法，并且逐步在很多行業形成壟斷。所以說GPGPU的發展不是一蹴而就的，是經過十多年的不懈奮斗才走到了今天。

　　發展國產自主GPGPU的三種可能性

　　當我們回過頭來探索國產自主GPGPU的發展之路，首先就是要沉得住氣，耐得下心，切不可急功近利、操之過急。事物的發展要遵循客觀規律，資本永遠是雙刃劍，既可載舟亦可覆舟。

　　一款芯片的絕對算力有多高，集成了多少個晶體管并不重要，關鍵是把芯片的潛力充分釋放給用戶，這需要一個良好的生態和完整的軟件棧，才能讓用戶樂于接受，不用改變太多的習慣就可以迅速移植現有的工作。講起來容易，實際做起來很難，需要長期的努力，因為這世界上并不存在一個通用的辦法或者一個通用架構就可以解決這個問題。

　　現在流行說“兼容CUDA”，但要真正兼容出效率很難。即便英偉達做GPGPU這么多年，其實也是由無數個專用的優化累積起來才能夠看上去如此的通用，這其中凝聚著大量工程師多年的心血。我們從頭做起也需要花費同樣的代價，沒有捷徑可走，大家一定要意識到這個問題的復雜性和長期性。

　　在此，我們嘗試探討發展國產自主GPGPU的三種可能性：

　　第一條道路叫“農村包圍城市”。策略是從專用芯片做起，把某一個小的領域做精做強，占據一個山頭，然后再占第二個、第三個，形成一個個的革命根據地，逐漸實現農村包圍城市。但也要防止各家企業在小的山頭上惡性競爭乃至自相殘殺，從而忘記了我們真正的歷史使命和遠大目標。經常發生的誤區是：當一個企業爬上一座山頂的時候，只顧著欣賞眼前的風景而忘記了去征服更高的高山。

　　第二條道路來自“龜兔賽跑”的啟發。在歷史上小企業挑落行業巨頭的案例也是屢有發生的，比如說，英特爾的指令集在桌面電腦上一家獨大，但后來ARM能夠成功挑戰英特爾，就是抓住了移動互聯網帶來的歷史機遇。英特爾在這個時候打盹了，并沒有意識到行業發生的深刻變革（再加上幕后推手蘋果公司的推波助瀾）。當下人工智能時代帶來的變革可能還要超越移動互聯網，但令人吃驚的是在這個大變革的時代，實際上是兔子跑得比烏龜快。“兔子”就是英偉達，英偉達沒有停下前進的步伐，沒有犯當年英特爾的錯誤，至今還保持著當年初創企業的活力，很多行業突破性的技術是最先出現在英偉達的產品上。

　　兔子跑得快已經很棘手，而糟糕的是，我們作為后發者，國內的芯片人才本來就極為緊缺，但由于資本的驅動，短期內催生出很多芯片公司，據說今年新成立的芯片公司是去年的3倍，而培養的人才不可能一下子成長這么多。都說要集中優勢兵力才能殲滅強敵，但現狀是，我們把為數不多的兵力分散到多個戰場，從而陷入越打越弱的怪圈。以史為鑒，只有當對手疏忽的時候，抓住戰機畢其功于一役才有大的勝算，這往往需要有極大的戰略定力，甚至還需要有些運氣。在芯片行業，千萬要防止一哄而上之后的一哄而散！

　　第三條道路也是目前我們認為最有機會的道路，就是開源。靠的是眾人拾柴和愚公移山，要的是細水長流，拼的是“天荒地老”。通過開源戰勝強大的對手，在軟件生態方面已經戰果累累，在硬件上也已經開始顯示威力。我們有理由相信，開源硬件即便不能一統江湖，至少也可以分庭抗禮。

　　我們認為，現階段國內完全有機會做一個開源開放的、免費公益的GPGPU項目，目的是打造一個全棧式的平臺，提供開源硬件，編譯器、算子庫等，并且在指令集的設計上盡可能接近或者兼容CUDA生態圈。我們的研究團隊最近攥寫了一本關于GPGPU體系結構的專用教材，書名是《通用圖形處理器設計-GPGPU編程模型和架構原理》，預計明年初正式出版發行。同時希望號召國內最大的程序員社區，大家攜起手來，摒棄門戶之見，都來支持國產自主GPGPU，盡快把這個生態做大做強。

　　通過這些方式，經過十年以上的努力，我們堅信在這一塊的劣勢會逐步得到彌補，逐漸縮小和國外巨頭之間的差距。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

國產GPGPU如何趕超國外？這3條路最有希望

日期： 2021-11-29

來源：CSDN

相關內容