千年殇,完美世界国际版下载,好看的电视剧

進駐物聯網終端人工智能應用可能性無限

日期： 2017-06-20

關鍵詞： 索思人工智能處理器芯片

人工智能終端應用的可能性無限，舉凡智能型手機、汽車、照明等，都有機會成為所謂的邊緣運算裝置。但在過去，運算處理器是在數據中心有較為明顯的需求。目前邊緣運算此一產業走向的大逆轉，已可從各芯片供貨商，如GPU、CPU等，以及硅智財（IP）授權商紛紛針對人工智能展開布局，推出各自處理器縮小化的解決方案，明顯可見一斑。

隨著人工智能的發展，有越來越多應用產品開始在終端上進行實時運算，也就是所謂的邊緣運算。不過，目前的處理器核心對許多終端裝置來說，功耗仍嫌偏高。

AIoT浪潮興起小型處理器核心滿足邊緣運算需求

索思未來（Socionext）戰略銷售組銷售部銷售項目總監張育豪（圖1）表示，目前市場上主流的CPU或GPU核心規模很大，雖然運算效能很強，但功耗也高，而且不易針對應用進行客制化設計。有鑒于此，Socionext采取用小型核心堆棧的設計架構，其好處在于從云到端都可以采用同樣的處理器核心，且也較容易針對個別應用進行客制化，例如將CPU核心跟圖像處理核心（VPU）整合在單芯片上。

圖1 Socionext戰略銷售組銷售部銷售項目總監張育豪表示，VPU在圖像處理的功耗/性能比，遠勝過CPU跟GPU。

張育豪觀察，目前的人工智能應用大多與影像相關，但不管是CPU或GPU，在進行影像運算時，功耗/性能比都不盡理想。這是因為CPU跟GPU原本就不是為了處理影像而設計的芯片。CPU的強項在于進行數據運算，而GPU則適合用來進行3D繪圖處理。因此，用CPU或GPU來進行影像分析，其實效率不是太好。相較之下，專門為處理影像而設計的VPU，在圖像處理的功耗/性能比方面，是遠勝過CPU跟GPU的。

舉例來說，用CPU來對4K影像進行處理跟分析，功耗預算大概是230瓦左右；若用GPU來進行，功耗更可達到400?500瓦。但如果是用Socionext的解決方案，一顆核心的功耗只有5瓦左右，就算串聯多顆核心，也會比CPU或GPU來得省電許多。因此，張育豪認為，在人工智能進駐各類終端裝置的趨勢下，如果是與影像分析有關的人工智能應用，VPU將有非常大的發展潛力。 Socionext本身擁有業界領先的VPU技術，更是目前市場上唯一已經有8K圖像處理芯片的芯片業者。

不管是針對大規模數據中心，或是在各種終端裝置上直接進行邊緣運算，功耗都是非常關鍵的考慮。功耗越高，則系統的散熱設計也越昂貴，不僅會增加終端裝置的生產制造成本，也會增加系統擁有者的總體持有成本（TCO）。

以數據中心為例，冷卻系統的電費是相當可觀的，如果處理器能更省電，空調冷卻的電費也可以隨之降低。其他形形色色的終端裝置也一樣，當芯片的功耗太高時，就得采用更大的散熱片，甚至用風扇來散熱，這些都會造成產品的生產成本跟總體持有成本增加。

單一叢集配置更彈性 DynamIQ推升大小核效率

針對小型處理器需求的增加，安謀國際（ARM）日前在處理器架構上，也宣布了大幅度調整，也就是DynamIQ技術。 DynamIQ達成了上一代big.LITTLE架構在單一運算叢集上無法實現的大小核彈性配置，對異質運算及人工智能這類應用帶來相當明顯的效率提升。其將作為未來ARM Cortex-A系列處理器的基礎，亦同時代表了業界在多核處理程序設計上的新紀元。

ARM行動通訊暨數字家庭市場資深營銷經理林修平（圖2）表示，DynamIQ可以說是ARM big. LITTLE的第二代硬件架構，其最主要的特點在于其可以在同一個叢集（Cluster）中同時擺放大小核，且電源（Power）與頻率（Clock）都可以單獨作管理。在第一代的大小核架構中，一個叢集只能擺放大核或小核，因此在執行轉換任務時，必須經過快取（Cache）轉換。但在DynamIQ中，由于所有任務都將能在同個叢集中運作，在任務切換上，便會相對迅速很多。

圖2 ARM行動通訊暨數字家庭市場資深營銷經理林修平表示，DynamIQ技術可在同一個叢集中同時擺放大小核。

林修平指出，由于人工智能所需要的運算量很大，同時需要很多矩陣乘法，透過DynamIQ的架構，將能做1+3、1+7、2+2+4等設計配置。在過去的big. LITTLE架構中，由于一個叢集最多即是4核（大核（Big）4核，小核（LITTLE）4核），是沒有辦法做到1+7的。DynamIQ所帶來的多元變化SoC設計配置，將能幫助應用達到CPU優化，進而讓效能與功耗能更往上提升。

DynamIQ的頻率可以單獨管理，也將帶來很大好處。第一代的大小核，在同一個叢集當中，頻率是統一的，但DynamIQ可以讓同一叢集中的不同核心，依據運算需求在不同的頻率下運作。

此外，林修平也表示，DynamIQ還可連接外部的硬件加速器。以人工智能來說，不同應用會有不同的軟硬件加速需求，例如加速器、DSP、CPU、GPU等，像是在高階智能型手機上，可能會放置加速器，來使其表現度達到最好、功耗達到最低，不過這也會增加集成電路的成本。因此，若是比較大眾化的產品，則可能會利用系統上現有的CPU、GPU，來滿足人工智能的需要。

GPU模型推論效能升級邊緣運算裝置AI能力更強大

然而，隨著各種邊緣運算裝置上所內建的人工智能（AI）能力變得更加強大，GPU模型的推論效能也必須隨之提升。輝達（NVIDIA）旗下軟件目前已可協助客戶做8位與16位的神經網絡運算優化，不僅讓GPU模型的推論（Inference）更形完善，同時對硬件資源的需求也明顯降低，只需要一小塊電路板就能支持AI算法。

針對邊緣運算日益漸增的需求，NVIDIA近期推出了新款開發板Jetson TX2，將整套人工智能系統縮小在一塊電路板之上，為商用無人機、工業機械、智能型攝影設備等領域，提供進階的導航、影像與語音識別功能。相較前一代產品Jetson TX1，Jetson TX2的效能提升了兩倍，耗電量則不到7.5瓦，能源效率提升了兩倍多。這讓Jetson TX2可在終端裝置上運行更大、更深的神經網絡，進而開發出更高智能化的裝置，并提升影像分類、導航以及語音識別等作業的精準度與反應速度。

NVIDIA技術營銷經理蘇家興（圖3）表示，對于訓練好的模型，NVIDIA也提供Tense RT軟件來協助客戶做模型優化、縮小化，其支持整數8位與浮點數16位的運算。目前的主流是以32位的運算去做訓練，該16位運算也就減少了一半，增加了一倍的效能，8位則增加了四倍的效能，因此在模型推論上能運作的更好。

圖3 NVIDIA技術營銷經理蘇家興表示，以往在多GPU運算時，受限于PCIe的帶寬問題，HGX-1搭載了NVIDIA的8張GP 100的GPU，因此當深度學習在做訓練時，規模效果是相當好的。

AI算法日新月異 FPGA靈活特性優勢顯著

即便目前人工智能（AI）算法日新月異，對嵌入式處理器的靈活性帶來許多挑戰，這卻也讓以靈活彈性著稱的現場可編程門陣列（FPGA）組件有了很大的發揮空間。

賽靈思ISM營銷資深技術經理羅霖（圖4）表示，由于人工智能目前還處于發展階段，算法日新月異，目前還沒有一個算法可以固定下來，這為特殊應用集成電路（ASIC）的設計帶來很大挑戰，因客戶往往需要的是十分靈活的架構。

圖4 賽靈思ISM營銷資深技術經理羅霖表示，在賽靈思旗下的芯片產品中，有許多并行運算資源，很適合用于計算量、吞吐量大的卷積運算。

有鑒于此，賽靈思推出reVISION堆棧技術，其具備了可重組以及所有形式鏈接的特性，讓開發者能充分運用堆棧技術，快速研發與部署升級方案，這樣的特性對于開發未來需求的智能視覺系統是至關重要的的。不僅如此，該技術也使開發者在結合機器學習、計算機視覺、傳感器融合與連接的應用時，能夠獲得顯著優勢。舉例而言，相較于其他嵌入式GPU與傳統SoC，reVISION將機器學習推論的每秒每瓦影像效能，提升了6倍、計算機視覺每秒每瓦每幀處理速度提升了42倍，而延遲卻只有五分之一。

羅霖分析，相較于同等級GPU技術，FPGA在低延遲（Low Latency）的部分，本身就與傳統的架構不同，傳統架構是將收集到的數據送到DDR內存中進行緩存，處理器要再從DDR中取出數據進行運算，運算完成后再送回DDR。但FPGA則是采用像素流（Stream）的方式，直接可以到模擬進行運算，運算完成后，輸出結果即可，由于省去了存取DDR的時間，因此可以延遲可以降到非常低。

從算法的層面來看，人工智能含有許多智能決策的部分，因此需要有很強的平行運算能力。這些算法進而對處理器結構產生了不同的需求，像是在神經網絡中，卷積運算強調的是平行運算，適合在FPGA上運行，但在傳感器融合的部分，則比較適合在CPU上運行，因其必須將硬件進行分割，再將不同的算法，放到處理器中。

羅霖指出，在脫機的神經網絡訓練部分，GPU的確是比較有優勢的，由于其要求的浮點運算性能特別高，因此不少深度學習都是采用GPU，而賽靈思的立場是不會以FPGA去進攻這塊市場，不過若是以在線的任務來看，FPGA還是很有優勢的。目前邊緣運算對嵌入式處理器的要求除了傳感器的接口要夠多，組件的I/O型態也十分多變，可能是高速率、中速率或低速率，這些處理器都要能支持，且在線處理的能力也相當關鍵。

蘇家興則表示，無論是軟件還是硬件公司，都須要對訓練好的深度學習模型進行優化，除了邊緣設備會采用縮小化的模型，在服務器與數據中心端，也會有某些情境需要采用這些優化過的模型去做推論。舉例而言，Facebook、百度在做語音識別的推論時，若能透過優化的模型讓運作更快，勢必能讓消耗的功耗越少。

不過，并不是所有的應用都適合做前端邊緣運算。以AlphaGo來看，其是以32臺服務器在做運算，因AlphaGo運算量非常大，所以就不太可能進行邊緣運算，因1臺服務器與32臺服務器運算的精準度，絕對是有差異的。若以語音識別來看，即便可以同時采用在線與脫機的方式進行，但精準度也勢必會有落差。

蘇家興指出，應用開發商須盡快分辨出哪些運算任務適合采用邊緣運算，哪些部分還是得留在服務器端執行。舉例來說，當無人機飛到有些沒有網絡的地方，便必須運用邊緣運算，設計出可承載范圍內的推論。 NVIDIA相信，未來數據中心與邊緣運算將會并存，但在瞄準的應用上必定會有所不同。

GPU模型推論效能升級邊緣運算裝置AI能力更強大

AI算法日新月異 FPGA靈活特性優勢顯著

圖4 賽靈思ISM營銷資深技術經理羅霖表示，在賽靈思旗下的芯片產品中，有許多并行運算資源，很適合用于計算量、吞吐量大的卷積運算。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

進駐物聯網終端 人工智能應用可能性無限

日期： 2017-06-20

相關內容

進駐物聯網終端人工智能應用可能性無限