如何发布网络小说,欢乐颂第一季,好看的历史书籍推荐

高通AI大揭秘：NPU引領四兄弟無敵

日期： 2024-03-08

來源：快科技

關鍵詞： 高通 NPU 生成式AI 異構計算

生成式AI的變革，對于基礎硬件設計、軟件生態開發都提出了新的、更高的要求，尤其是底層硬件和算力必須跟上新的形勢，并面向未來發展做好準備。

近日，高通特別發布了《通過NPU和異構計算開啟終端側生成式AI》白皮書，對于終端側生成式AI的發展趨勢，以及高通驍龍處理器的多模塊異構計算引擎，尤其是NPU的設計及優勢，都進行了詳細解讀。

生成式AI雖然這兩年才火熱起來，但是AI的發展歷史悠久，高通也早在2007年就打造了Hexagon DSP，其控制和標量架構正是后續NPU的基礎。

2015年發布的驍龍820處理器集成了首個高通AI引擎，支持成像、音頻和傳感器運算。

之后，2018年的驍龍855又增加了Hexagon張量加速器。

2020年驍龍888里的全新架構Hexagon NPU堪稱里程碑轉折，并在之后的三代驍龍8中持續迭代演進，AI性能、效能和范圍不斷拓展。

比如第三代驍龍8的張量運算核心的峰值性能就大幅提升了98％，同時依然保持高超的能效。

高通在AI方面采用的是異構計算引擎思路，由Kryo CPU、Adreno GPU、Hexagon NPU、傳感器中樞四大核心模塊共同組成，彼此協作。

根據終端類型、終端層級、關鍵性能指標、時延等因素的不同，這種架構可以使用不同的組件進行AI處理，以達到最佳效率。

比如說，CPU計算量一般，但擅長順序控制和即時性，非常合對延遲要求非常高的場景，比如時序敏感性小模型，比如卷積神經網絡模型(CNN)或者特定大語言模型(LLM)。

GPU擅長高精度格式的并行處理，比如對畫質要求非常高的圖像、視頻處理，同時算力非常強，可運行大規模的模型。

NPU擅長標量、向量和張量數學運算，而且能效非常高，能夠以極低功耗實現持續穩定的高峰值性能，在基于LLM和LVM(大視覺模型)的不同用例中，比如說Stable Diffusion或其他擴散模型，每瓦特性能十分出色。

高通傳感器中樞則能以極低功耗運行始終開啟的用例，可獲取大量端側情境信息，讓生成式AI體驗更加個性化，這也是終端側AI的獨特優勢之一，并且信息保留在終端上，不會聯網上傳到云端，隱私更安全。

如此設計的異構計算，能夠實現最佳的應用性能、能效和電池續航，以最大化提升生成式AI終端的用戶體驗。

這里重點說說NPU。

NPU全程為神經網絡處理器，是專為低功耗加速AI推理而打造的硬件模塊，架構上隨著新AI算法、模型和用例的發展而不斷演進。

Al工作負載主要包括由標量、向量和張量數學組成的神經網絡層計算以及非線性激活函數。

優秀的NPU設計，能正確選擇如何處理AI工作負載，同時與CPU、GPU等其他模塊協同執行，并與AI行業發展方向保持高度一致。

高通Hexagon NPU就是為了以低功耗實現持續穩定的高性能AI推理而設計，其差異化優勢在于系統級解決方案、定制設計和快速創新。

通過定制設計NPU并控制指令集架構(ISA)，高通可以讓NPU快速演進和擴展，以解決遇到的任何瓶頸問題，并優化性能。

高通透露，最初開始研究NPU的時候，關注的是一些簡單用例，比如用于音頻和語音處理的卷積神經網絡模型(CNN)和長短期記憶網絡模型(LSTM)，2015年第一代高通AI引擎的Hexagon NPU就集成了標量和向量運算擴展。

2016-2022年間，高通將研究方向拓展至AI影像和視頻處理，比如暗光拍照、降噪、多幀處理等，同時引入了Transforme層處理，因此增加了張量運算核心(Tensor Core)。

2023年，Hexagon NPU開始支持LLM和LVM，并支持Transformer，可以更好地處理基于Transformer的模型。

如今第三代驍龍8集成的Hexagon NPU已經能夠在終端側運行高達100億參數的模型，無論是首個token的生成速度，還是每秒生成token的速率，都處在業界領先水平。

值得一提的是，Hexagon NPU還引入了用于圖像處理的微切片推理技術，增加了能夠支持所有引擎組件的大共享內存，最高支持到4.8GHz頻率的LPDDR5X，LLM處理能力更上一層樓，可快速處理百川、Llama2等等。

說了半天原理，看看實際性能表現，首先是第三代驍龍8和三款安卓、iOS平臺競品的對比。

魯大師AIMark V4.3測試中，第三代驍龍8的總分達到了競品B的5.7倍、競品C的7.9倍。

安兔兔測試中，第三代驍龍8的總分是競品B的6.3倍。

MLCommon MLPerf推理的不同子項中，比如圖像分類、語言理解、超級分辨率等，第三代驍龍8也都保持領先。

PC端對比驍龍X Elite和其他x86架構競品。

Windows系統下的UL Procyon AI推理測試中，驍龍X Elite在ResNet-50、DeeplabV3等測試項目中都大幅領先，總分是競品A的3.4倍、競品B的8.6倍。

近日在巴塞羅那舉辦的MWC 2024大會上，高通還展示了在終端上運行的多模態生成式AI模型。

在第三代驍龍8上運行的首個大語言和視覺助理大模型(LLaVA)，能基于圖像輸入，回答用戶提出的問題。

比如為視障人士在城市內進行導航，就可以將圖像信息轉換成語音，幫助他們了解周圍的事物。

順帶一提，高通還展示了基于驍龍X Elite筆記本，首個在終端側運行的超過70億參數的大型多模態語言模型(LMM)，可接受文本和音頻輸入(如音樂、交通環境音頻等)，再生成多輪對話。

硬件AI能力之上，高通還打造了AI軟件棧(AI Stack)。

它可以支持目前所有的主流AI框架，包括TensorFlow、PyTorch、ONNX、Keras；支持所有主流的AI運行時，包括DirectML、TFLite、ONNX Runtime、ExecuTorch；還支持不同的編譯器、數學庫等AI工具。

此外，高通還有AI Studio，可為開發者提供開發過程中需要用到的各種相關工具，包括支持模型量化和壓縮的高通AI模型增效工具包(AIMET)，能夠大幅提高模型運行的效率。

高通認為，AI終端市場的發展還在初期階段，但已經為高通的不同產品和解決方案帶來了顯著的改進，對消費者的重要性也在不斷增加，無論教育、醫學還是養老等各個領域，AI的作用將愈發凸顯。

互聯網出現的時候，只有少數人能夠利用PC上網，而智能手機的出現讓數十億人都能夠連接網絡。

相信終端側生成式AI的發展也是如此，它將讓所有人都能充分利用生成式AI，改變工作、娛樂和生活中的切身體驗，變革各行各業。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

高通AI大揭秘：NPU引領四兄弟無敵

日期： 2024-03-08

來源：快科技

相關內容