作為Al芯片的積極布局者與應用者,百度對外發布AI云端芯片“昆侖”,備受業界矚目。在中國產業智能化進程的逐步深入,市場對于 AI 算力的需求超大規模增長,在端側部署 AI 芯片也成為企業應用 AI 的重要一環。
芯片領域成為熱點
我國在人工智能芯片領域不斷取得創新突破。各個平臺型企業也紛紛基于數據、算法和應用優勢,宣布進軍人工智能芯片領域。AI領域已經成為世界科技巨頭爭奪的制高點, AI 應用的爆發對運算能力提出越來越高的要求,基于傳統芯片的 AI 運算加速,已經不能滿足需求。
軟件領域的谷歌、Facbook,硬件廠商英偉達、英特爾等全都宣布了自己的芯片規劃以及未來遠景。在這個大背景下,以百度昆侖芯片為代表的國產技術,能夠突破國際巨頭技術體系的壓制,成為國內業界普遍關注國產代表。
國內首款云端全功能芯片
中國首款云端Al全功能AI芯片“昆侖”是中國在大規模AI運算實踐中催生出的芯片。
與市面上已發布的適用于垂直場景的芯片不同,百度之所以將“昆侖”定義為國內首款云端全功能芯片,是因為其可高效地同時滿足訓練和推斷的需求,除了常用深度學習算法等云端需求,還能適配諸如自然語言處理,大規模語音識別,自動駕駛,大規模推薦等具體終端場景的計算需求。
基于FPGA打造的昆侖芯片
眾所周知,GPU是打造AI芯片的重要手段之一。百度昆侖芯片是基于FPGA所打造的AI芯片采用了XPU架構。在FPGA方面,百度擁有超過8年的FPGAAI加速器積累,累計上線超過了1萬個。其XPU架構及軟件棧也在實際業務中,有了超過8年的持續迭代。
昆侖芯片與GPU和專用AI芯片相比,在實行性能和性價比上都有一定的優勢。昆侖芯片非常通用且靈活,既可以做訓練也可以做推理,XPU的功能架構也在百度內部很多應用中得到驗證,相對而言,它是一款全功能的Al芯片。
昆侖芯片的閃光點
百度昆侖采用了14nm三星工藝、260Tops性能、512GB/s內存帶寬、100+ 瓦特功耗,由幾萬個小核心構成。昆侖芯片可以在100瓦+功耗下提供260TOPS ,每秒260萬億次定數運算性能。此前,NVIDIA用于汽車L 4.L .5自動駕駛的Xavier芯片,8核ARM CPU+512顆CUDA的性能是30TOPS。
架構方面:昆侖芯片有2個計算單元,512GB/S的內存帶寬,16MBSRAM/unit。16MB的SRAM對AI推理很有幫助,XPU架構上的XPU-SDNN是為Tensor等而設計,XPU-Cluster則能夠滿足通用處理的需求。
昆侖第一代芯片沒有采用NVLink,而是通過PCIE4.0接口進行互聯。在三星14nm的制造工藝和2.5D封裝的支持下,昆侖芯片峰值性能可以達到260TOPS,功耗為150W。
在靈活性和易用性方面:昆侖面向開發者提供類似英偉達CUDA的軟件棧,可以通過C/C++語言進行編程,降低開發者的開發難度。
基于第一代昆侖芯片,百度推出了兩款AI加速卡,K100和K200,前者算力和功耗都是后者的兩倍。在語音常用的Bert/Ernie測試模型下,昆侖也有明顯性能優勢。在線上性能數據的表現上,昆侖的表現相比英偉達T4更加穩定,且延遲也有優勢。
強強合作提升領域發展
2019年12月18日,三星宣布代工百度首款云到邊緣AI芯片“昆侖”,借由三星14納米處理技術及其I-Cube(Interposer-Cube)封裝解決方案生產。
三星的 14nm 工藝是其最廣泛使用的制造節點之一,該工藝的晶體管密度為 32.5 MTr /mm,主要用于英偉達的 GeForce 10 系列,以及許多高通和三星芯片。它有多種變體,包括 14nm LPE(Low Power Early)和 14nm LPP(Low Power Plus)。
目前昆侖芯片已完成開發,并將批量生產。昆侖芯片首先將會用于百度的自家產品當中,能解決工業智能遇到的計算問題以及和飛騰ARM處理器的適配。
昆侖芯片未來落腳點
工業上百度昆侖芯片也正式在微億智造的工業智能質檢設備上部署上線。百度智能云以整機一體化方式,向微億智造交付搭載百度昆侖芯片的百度云質檢一體機。
預計在今年以內,微億智造的數千臺智能質檢設備將全部應用上百度昆侖芯片,而百度昆侖還將在更多場景中部署應用,百度的AI能力將成為“新基建”的重要基礎,推動工業制造業的產業智能化升級。
結尾:
未來“昆侖”既將實現對數據中心、公有云等云端場景的全覆蓋,也將用于滿足自然語言處理、語音識別、自動駕駛等終端場景的計算需求。此次“昆侖”能成功落地,有望形成人工智能芯片與平臺應用相互促進的良性循環。