《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于GPU的遙感圖像融合并行算法研究
基于GPU的遙感圖像融合并行算法研究
來源:微型機與應用2013年第6期
趙 進1, 劉昌明1, 宋 峰2, 張麗萍3
(1. 海軍計算技術研究所,北京100086; 2. 68310部隊, 陜西 西安710600;
摘要: 基于通用GPU并行計算技術,結合遙感圖像數據融合處理特點,利用NVIDIA公司的CUDA編程框架,在其 GPU平臺上對BROVEY變換和YIQ變換融合算法進行了并行研究與實現。實驗結果表明,隨著遙感圖像融合算法的計算復雜度、融合處理的問題規模逐漸增加,GPU并行處理的加速性能優勢也逐漸增大,GPU通用計算技術在遙感信息處理領域具有廣闊的應用前景。
Abstract:
Key words :

摘  要:  基于通用GPU并行計算技術,結合遙感圖像數據融合處理特點,利用NVIDIA公司的CUDA編程框架,在其 GPU平臺上對BROVEY變換和YIQ變換融合算法進行了并行研究與實現。實驗結果表明,隨著遙感圖像融合算法的計算復雜度、融合處理的問題規模逐漸增加,GPU并行處理的加速性能優勢也逐漸增大,GPU通用計算技術在遙感信息處理領域具有廣闊的應用前景。  
關鍵詞: 遙感圖像融合; GPU; 并行; CUDA; 優化

    隨著遙感傳感器技術的發展,獲取遙感數據的方式已經由單一可見光模式發展成多種傳感器模式。每一種傳感方式獲取的數據信息相對單一,融合不同傳感方式獲取的數據信息可以有效提高數據信息量,提供更為精確的遙感圖像信息。
    POHL C和GENDEREN J L[1]對圖像融合給出了如下定義:通過特定算法將兩幅或多幅圖像合成一幅新的圖像。圖像融合可以分為像素級、特征級和決策級3個層次,其中像素級融合需要處理的數據量最大,計算過程也最復雜。隨著遙感圖像的時間、空間和光譜分辨率逐步提高,融合算法處理結果的精度要求同時在逐步提高,導致圖像融合的處理速度需求逐步增大,計算量大、計算過程復雜的遙感圖像融合在處理速度上面臨著新的問題與挑戰。近幾年來,基于GPU的異構平臺在通用計算領域得到快速發展,已經在許多方面得到了有效應用[2-4],為遙感圖像融合快速處理技術研究提供了新的思路。
    結合CPU-GPU異構平臺面向通用計算領域的性能優勢,針對遙感圖像融合面臨的處理速度問題,通過分析圖像融合處理過程的特點,將像素級融合的BROVEY變換和YIQ變換融合算法在基于GPU平臺上進行了并行研究與實驗,獲得了突出的性能。
1 研究背景
1.1 CUDA編程模型

    NVIDIA公司的CUDA[5]語言是基于C語言的擴展,主要使用API調用底層功能進行處理與計算,使熟悉C語言的編程人員能夠快速運用CUDA開發通用計算程序。在CUDA結構中, CPU端被稱為Host,GPU端被稱為Device,采用SIMT(Single Instruction Multiple Thread)模式執行程序[5]。用戶把可以放在GPU上并行執行的程序組織稱為Kernel內核程序。在CPU端執行的程序稱為Host宿主程序,控制Kernel的啟動、加載或保存與GPU的通信數據,以及執行部分的串行計算。Device端在執行時創建很多的并行線程Thread,線程組織成線程塊Block,而Block再組成網格Grid。每個Thread執行自己的程序Kernel,Block內的線程通過共享存儲器(Shared Memory)分享數據。并行線程通過GPU上的眾多計算內核實現并行處理,實現整個程序的性能加速[5]。
1.2 兩種典型的像素級融合算法
     遙感圖像融合在遙感圖像配準基礎上進行,待融合的兩幅遙感圖像具有相同大小,每個像素點的融合或是獨立執行,或者只需要少量周圍像素點數據協助執行。
1.2.1 BROVEY變換融合算法
    BROVEY變換融合算法[6]是一種基于色度的變換,屬于彩色空間的方法。它是將多光譜的色彩空間進行分解得到色彩與亮度,再用其全色圖像進行計算。這種算法像素點彼此單獨執行,具有良好的并行性,算法執行簡單,在保留了較多光譜信息的同時,也具有較快的處理速度。
1.2.2 YIQ變換融合算法
    YIQ顏色系統是一種用于電視信號傳輸NTSC制式的彩色編碼系統。其中,Y對應亮度信息,I、Q分量反映圖像與硬件相關的彩色信息。YIQ變換融合算法[7]屬于彩色空間的方法,計算較為復雜,像素點在變換到YIQ分量后,需要使用直方圖匹配,具有一定的并行性。
2 并行設計及優化實現
2.1 優化策略
2.1.1 數據異步傳輸

    遙感圖像融合CUDA并行計算程序在CPU-GPU異構平臺上執行,該平臺上CPU與GPU工作任務不同。CPU為GPU準備執行數據,同時執行邏輯控制等復雜事務。CPU加載數據時,采用同步方式啟動傳輸指令;傳遞數據時,CPU處于空閑狀態,計算資源不能得到充分利用。優化時CPU采用異步方式傳輸數據,啟動傳輸指令后直接進行后續事務處理,使CPU執行與加載數據重疊,提高資源利用率。
2.1.2 訪存優化
    GPU線程對全局存儲器(Global Memory)進行一次訪存需要400~600個時鐘周期,對共享存儲器(Shared Memory)、寄存器(Register)等快速存儲部件訪存一次只需要4個左右的時鐘周期。優化時充分利用GPU顯存中的多層次存儲部件,發揮快速存儲部件讀取數據優勢,最大化提高執行性能。
2.2 融合算法的CUDA并行實現
    綜合融合算法CUDA優化策略,進行融合算法CUDA程序并行設計與實現時,重點研究以下問題。
2.2.1 線程塊參數與網格參數的設置
    CPU-GPU異構計算模式中,每個線程塊只能擁有有限線程數,每個流處理單元SP最多可同時執行256整數倍線程,根據遙感圖像數據以二維方式組織的特點,將塊Block設置為16×16二維形式,每個塊有256個線程,使每個SP單元能夠滿負載執行,最大限度地提高資源利用率。設計實現時,線程網格大小的設置與圖像大小有關,網格的寬度設置成(imagewidth+dimBlock.x-1)/dimBlock.x,高度設置成(imageheight+dimBlock.y-1)/dimBlock.y,保證線程塊是一個整數。線程塊規模與遙感圖像規模有關,與GPU處理核心數量無關。這樣同一問題能夠在不同型號的GPU上執行,形成CUDA并行程序良好的可移植性。
2.2.2 線程網格規模大于圖像規模
    令i為線程網格寬度索引號,j為線程網格高度索引號,imagewidth為圖像寬度,imageheight為圖像高度。通過加入if(i<imagewidth&&j< imageheight)語句控制線程執行對應像素點。空執行線程最多可以為255×I+255×J-255×255個,其中,I是線程網格的寬度,J是線程網格的高度。與具有的大量執行線程相比,空執行線程占很小比例,幾乎不需要執行時間。與并行加速獲取的提升時間相比,空執行少量線程浪費的時間可以忽略。
3 實驗與結果分析
    實驗硬件為:Inter(CR) Core(TM) i5四核2.67 GHz CPU,2 GB內存,NVIDIA GeForce GTX 460 GPU,1 GB顯存,336個SP計算單元。操作系統為Linux Ubuntu 10.10,串行程序為C語言實現的標準程序。融合的圖像是IKONOS掃描北京故宮的遙感衛星圖像。
 

      (3)在相同的計算復雜度下,圖像規模使GPU計算核心執行達到飽和時,speedupexecute趨于穩定甚至下降。但因為計算資源的優勢,總加速性能仍有提升。
      
    從圖中可以看出,圖像規模(如256×256和512×512)小時, Pexecute小,算法計算復雜度的不同導致加速比出現不同情況。因此,為進一步提升加速性能,融合算法CUDA并行執行需要最大化地提高Pexecute。
    從實驗結果可以得到,隨著算法計算復雜度與問題規模的增大,加速性能逐漸增加。實驗表明,GPU并行處理能夠很好地應用于遙感圖像融合的算法,將GPU應用到遙感加速處理領域具有很好的應用前景。
    本文從遙感圖像融合處理背景出發,闡述了研究融合處理加速的意義,然后針對近些年興起的CPU-GPU異構加速平臺,對BROVEY變換和YIQ變換遙感圖像融合算法進行了CUDA并行優化實現。研究表明,GPU通用計算技術在遙感圖像融合領域具有廣闊的應用前景。
參考文獻
[1] POHL C, Van Genderen J L. Multisensor image fusion in remote sensing: concepts,methods and applications[J].International Journal of Remote Sensing, 1998,19(5):823-854.
[2] OWENS J, LUEBKE D,GOVINDARAJU N,et al. A survey of general-purpose computation on graphics hardware[J]. Computer Graphics Forum, 2007,26(1):80-113.
[3] GARLAND M, GRAND S, NICKOLLS J, et al. Parallel computing experiences with CUDA[J]. IEEE Micro, 2008,28(4):13-27.
[4] LAHABAR S, AGRAWAL P, NARAYANAN P J. High performance pattern recognition on GPU[J]. National Conference on Computer Vision Pattern Recognition Image Processing and Graphics, 2008:154-159.
[5] NVIDIA. NVIDIA CUDA compute unified device architecture,Programming Guide,Version 2.0.NVIDIA,2008.[EB/OL].http//www.nvidia.com/object/cude_home_new.html.
[6] GILLESPIE A R, KAHLE A B, WALKER R E. Color enhancement of highly correlated images-II. channel ratio and chromaticity transformation techniques[J]. Remote Sensing of Environment,1987,22:343-365.
[7] Dong Guangjun, Huang Xiaobo, Dai Chenguang. Comparison and analysis of fusion algorithms of high resolution Imagery[C].International Symposium on Photoelectronic Detection and Imaging: Related Technologies and Applications, Proceedings of SPIE, 2008,6625(66250H).

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产香港一级毛片在线看 | 中国免费一级片 | 翁熄性荡事最新篇王伟忠 | 黄色一级片在线看 | 男女午夜免费视频 | 亚洲无限乱码一二三四区 | 欧美一级专区免费大片 | 日韩精品福利视频一区二区三区 | 亚洲欧美一区二区三区在线 | 亚洲视频精品在线 | 成人18在线观看 | 18男同志可播放free69 | 看全色黄大色大片免费久久 | 日本特黄特色aaa大片免费欧 | 国内成人免费视频 | 日本欧美色图 | 精品日本亚洲一区二区三区 | 久久精品视频3 | 在线日韩亚洲 | 亚洲成a人在线观看 | 中国一级毛片国产高清 | 午夜免费观看体验区入口 | 日本中文字幕在线观看视频 | kk4kk免费视频毛片 | 天堂资源wwww在线看 | 亚洲精品不卡午夜精品 | 亚洲精品第一页 | 人人爱天天做夜夜爽2020麻豆 | 九九精品在线播放 | 成年人免费在线播放 | 中文字幕在线观看网站 | 国产精品高清一区二区三区不卡 | 日本黄色片网站 | 91大片淫黄大片.在线天堂 | 精品伊人久久大线蕉色首页 | 一级毛片一级毛片一级毛片aa | 男女免费网站 | 欧美特级特黄a大片免费 | 一级毛片区 | 黄 在线 | 亚洲色图国产 |