近日,英偉達GTC大會上亮相了新一代GPU H100,800億個晶體管,使用臺積電4nm工藝,采用HBM3,可實現3TB/s的顯存帶寬,算力達到了2000TOPs,但功耗也創造了新紀錄,達到了驚人的700W。可以說,英偉達已經在現有技術路線上把芯片性能和帶寬做到了極致,業界將鮮少有企業能夠用同樣的方式取得更高的突破,要想在關鍵指標上突破,必須要發展新路徑。
在人工智能應用推動下,存內計算這個新型計算架構逐漸被商業界看重,也成為未來造就計算芯片的熱門技術之一。在這樣的背景下,后摩智能異軍突起,試圖用存算一體來解鎖大算力AI芯片,據悉,其首款基于SRAM的存算一體大算力AI芯片近日已被成功點亮。國內發展大算力AI芯片再多一條創新路徑。
用存算一體顛覆大算力AI芯片
在人工智能、5G、大數據和自動駕駛交織而成的數字經濟文明時代,計算能力將決定生產力。OpenAI發現,自2012年以來,人工智能所需的計算能力大約每3、4個月翻一番。所以現在,越來越多的芯片企業開始投入重金,不斷的在AI大算力芯片上攻堅。
那么,目前市面上都有哪些主流的大算力AI芯片方案:
第一種是當下英偉達采用的的這種馮·諾依曼架構策略,用HBM來解決內存墻的問題,采用3D封裝,工藝要先進,最新一代的英偉達GPU Hopper架構已經到了4nm。這種方案的優點是相對成熟,英偉達已經趟過。缺點是無法打造足夠的差異化,能做到英偉達70-80分就差不多是極限,再者,其HBM成本占比較大,總體昂貴。
第二種是DSA,也就是算法和芯片高度綁定在一起的方案。其優點是,不僅可以提高計算效率,還能達到降低功耗的目的;該方案類似Turn-key的方式,比較方便省事。但這種方式的缺點是,算法和硬件是緊耦合的,部分算法硬化到電路里,以犧牲靈活性換取效率提升。因為不同客戶所需要的算法各異,而且算法在快速迭代,完全黑盒的方式可能并不那么受歡迎。
在后摩智能看來,對于初創公司,如果沒有技術創新而采用巨頭大廠的技術路線,是很難在競爭中脫穎而出的。而且1-2倍的產品性能提升并不具有絕對競爭力,必須要有5倍、10倍以上的提升才能真正刺激到生態的轉變。所以要想在大算力芯片上取得更高的突破和更長遠的發展,宏觀上必須要有差異化,不能以英偉達的方式去打敗英偉達,就如同當年英偉達沒用英特爾的方式來打英特爾一般。
存算一體這種打破傳統存儲墻和功耗墻的新架構,成為后摩智能顛覆大算力AI芯片的策略。目前在架構創新可稱之為是第三種大算力AI芯片的方式。這是一條有風險的路徑,但也是一條技術進階比較大的路徑。其實國外已有不少企業開始在創新架構上進行大膽的探索和創新,如英國公司Graphcore的IPU,就是采用基于SRAM的近存計算,其產品也頗具競爭力,只是云端訓練市場生態太重。后摩智能則更進一步,基于SRAM做到了存內計算。
在各種存儲介質中,SRAM是一項成熟度較高且能夠滿足理想存內計算并行性需求的存儲介質之一,是未來3-5年產業化的必選路徑之一。作為存內計算的計算部件,SRAM讀寫性能優勢較大,存儲邏輯簡單清晰,不易受外界干擾,外圍電路可操作性大,且能夠和現在的數字處理器技術天然融合。
“采取存算一體這種新架構的方式,其技術演進的天花板會更高,而且在成本上更可控,未來也更容易做到大規模普及。”后摩智能聯合創始人、產品副總裁信曉旭表示。 成立僅1年多,后摩智能的首款基于SRAM的存算一體大算力AI芯片就成功點亮,這也是業內首款大算力存算一體AI芯片。據后摩智能聯合創始人、戰略副總裁項之初透露,該款芯片采用22nm工藝制程,樣片算力達20TOPS,可擴展至200TOPS,計算單元能效比高達20TOPS/W。相比國際廠商1~2TOPS/W的平均水準來說,后摩智能在能效比上優勢明顯。而且這是在不犧牲芯片靈活性的基礎上做到的,后摩的芯片不但支持市面上的主流算法,還可以支持不同客戶定制自己的算子。
后摩智能芯片開發板
當下信創等國產替代的剛需,給芯片創業公司帶來了很大的市場機會,在這樣的需求下,國產芯片無需各項指標都達到100分級別,可能及格就行,但在后摩智能看來,國產替代只是其中一個撬動的點,芯片是一個長跑賽道,要想真正經得住市場的長期考量,最終還是能夠持續的用領先技術做出有競爭力的產品,真正給客戶帶來價值。
后摩智能信心何在?
當下AI創企眾多,各種技術路徑不同,做大算力芯片的不少,做存算一體芯片的企業也有一些,但用存算一體來做AI大算力芯片的卻寥寥無幾。后摩智能為何敢勇闖無人區?
信曉旭坦言道,存算一體大算力芯片確實沒有企業工程實現過,主要系其存在一些技術難點,譬如存儲單元陣列、AI core、工具鏈等各個方面都需要有經驗、并且具備極強功力的團隊,將其整合起來,還需要進行整體的協同優化設計,才能最終實現一款高效的基于存算一體的大算力AI芯片。當然如果這些難點被成功攻克之后,將成為企業最堅固的護城河。
后摩智能聯合創始人、戰略副總裁項之初補充道,“要做存算一體的AI大芯片,需要有兩撥人:一撥是在存算一體學術領域達到國際頂尖水準的學者;另一撥是做過大芯片的工程派系。”后摩智能兼具這兩大派系,創始團隊的成員來自普林斯頓大學、美國Penn State大學等海內外知名高校,及AMD、Nvidia、華為海思、地平線等一線芯片企業,在先進存儲器件及存算一體技術方向擁有近15年的研究積累,具有豐富的存算電路設計與流片、先進制造工藝從理論到實踐、以及大芯片設計與實戰經驗,主導過多顆世界級芯片的研發量產,包括GPU、CPU、及高性能車規級AI芯片。
這兩大派系的團隊成員各司所長,又互相爭議,對AI芯片的核心痛點——能效比進行深層次的碰撞。最終做出的產品有兩大優勢:一個是芯片的處理能效比大大提升,另外,存算融合的方式也提升了芯片的計算密度,為成百上千Tops的大算力提供更好的擴展性。
那么問題來了,既然后摩智能可以做,其他廠商是不是也可以集齊這兩撥人進行復制?關于這方面,項之初告訴筆者,首先,對創業公司來說,有存算一體經驗的工程師在工業界并不多見,新入者需要從零開始做起,而后摩智能已具有2-3年的先發優勢,可以通過快速迭代產品提前拿下一定的市場。再者,像英偉達這樣有足夠資源的巨頭,如果也反過來做存算一體的大芯片,對他們而言,最痛苦的是顛覆原來強大的生態,所以不到萬不得已,他們不會自廢武功。
在當下半導體創業熱度空前、人心浮躁的大背景下,后摩智能聚攏了在存算一體和AI大芯片領域富有經驗的團隊,探索真正顛覆AI芯片的新技術,實現國產芯片換道超車,在前沿化和工程化上與國際大廠進行PK。一位最近新加入后摩智能,在某國際大廠工作了20多年的資深工程師表示,加入后摩智能不僅僅是金錢的意義,更重要的是公司的目標讓他又有了為實現夢想而奮斗的感覺。
應用場景的無限可能
產品研發出來只是萬里長征的第一步,能夠真正找到落地場景才是更重要的。AI大芯片的第一個市場需求較大的場景是數據中心,早期的創業者們也大都聚焦在這個領域,目前這些企業也交出了一些性能不錯的產品,現在對AI大芯片的需求已經逐漸來到邊緣端,譬如智能駕駛領域,而且其需求快速增長,大有超越數據中心之勢。因此,后摩智能首要主打的市場是智能駕駛、泛機器人等大邊緣端。
后摩智能的市場邏輯是,絕對不會和英偉達進行水平競爭,而是要從垂直細分領域、且大廠生態壁壘最薄弱的地方切入。后摩智能指出,當下AI生態中最主要的就是算法,早期的CV類算法生態沒有那么牢不可破,可作為一個發力突破點。在這方面也有成功的案例,CV類算法目前主要應用在安防和智能駕駛領域,早期安防領域是英偉達主宰的市場,但后來華為海思的3559A很快占領了安防市場;智能駕駛也是CV類的場景,其主要是解決眼睛看的問題,相對來說也是英偉達比較薄弱的地方。
后摩智能基于自研的存算一體大算力AI芯片,
成功跑通智能駕駛算法模型
所以在早期的AI落地場景中,后摩智能會優先選擇CV類的場景,智能駕駛是后摩智能首選的方向。智能駕駛作為一個大的市場,作為技術棧,如果能夠攻克,將來技術能力自然會外溢到機器人、數據中心等更多場景。
“如果市場下游比較固定,那供應鏈也是相對較穩定的,這對創業型公司來說是不友好的。而汽車當下是處于高速變化的場景,新能源車、智能駕駛各個新需求的誕生,車企需要找到更適配的供應鏈。這給創業公司帶來了很大的機遇。”項之初指出。
后摩智能的團隊在車規AI芯片上有豐富的經驗。現在公司正在著手引入車規級認證。信曉旭談到,像智能駕駛這樣的大邊緣推理機會很適合用SRAM做存算一體。當然后摩智能并沒有止步于此,公司還在對新的存儲介質RRAM和MRAM進行探索。他補充道,現在在SRAM上的AI核心的設計、編譯器和解決方案等的配套,在RRAM上是可以直接繼承過去的,經過幾年的客戶打磨,再隨著RRAM等存儲介質的成熟,繼而進行更進一步的提升,徹底顛覆AI計算的格局。值得一提的是,后摩智能已經拿到了臺積電RRAM的PDK。
結語
圖靈獎得主、計算機體系結構宗師David Patterson與John Hennessy認為,未來將是計算機體系結構的黃金十年,新的架構設計將會帶來更低的成本,更優的能耗、安全和性能。存算一體這種新架構作為延續摩爾定律的一條有利的道路,備受資本界和商業界關注。我們也已看到,國外已經有多家AI初創公司采用架構創新的路徑發力AI芯片,并且還交付了非常有競爭力的產品,如Graphcore,SambaNova等。
在國產大算力AI芯片的攀登之路上,后摩智能作為國內唯一一家選擇以架構創新的方式來設計大算力AI芯片,并且躋身為數不多的國際前沿技術研究企業的行列,必將為國產AI芯片彎道超車、趕超巨頭帶來更大的機會。