基于Flink框架的TopN堆排序優化算法
2020年信息技術與網絡安全第2期
關沫,魏碧晴
(沈陽工業大學 信息科學與工程學院,遼寧 沈陽 110870)
摘要: 為了解決大數據TopN排序問題,將傳統的堆排序進行優化,闡述了優化后的HeapOptimize方法的處理過程。HeapOptimize方法基于Flink框架來完成TopN作業,可以實時地接收并處理大量的數據,根據單位時間需要處理的數據數量來調整算子的并行度,增加Flink框架的吞吐量,提高處理數據的速度。通過實驗測量的數據結果佐證了HeapOptimize方法的優勢。
中圖分類號:TP311.13
文獻標識碼:A
DOI:10.19358/j.issn.2096-5133.2020.02.005
引用格式:關沫,魏碧晴.基于Flink框架的TopN堆排序優化算法[J].信息技術與網絡安全,2020,39(2):23-26.
文獻標識碼:A
DOI:10.19358/j.issn.2096-5133.2020.02.005
引用格式:關沫,魏碧晴.基于Flink框架的TopN堆排序優化算法[J].信息技術與網絡安全,2020,39(2):23-26.
Flinkbased heap ranking optimization algorithm for TopN problem
Guan Mo,Wei Biqing
(School of Information Science and Engineering,Shenyang University of Technology,Shenyang 110870,China)
Abstract: In order to solve the problem of TopN sorting for big data,the traditional heap sorting is optimized.The optimized method is named HeapOptimize,and the calculation process of HeapOptimize method is described.This method is based on Flink framework to complete TopN operations.It can receive and process large amounts of data in real time.It can adjust the parallelism of operators according to the number of data to be processed per unit time,increase the throughput of Flink framework,and improve the speed of data processing.The advantage of HeapOptimize method is confirmed by the data results of experimental measurement.
Key words : big data;TopN;Flink;throughput
0 引言
隨著計算機技術和信息科技的快速發展,全球的數據量急劇增長,2015年全球的數據總量達到8.61 ZB,預估2020年全球的數據總量會超過40 ZB。通過移動互聯網、社交媒體等服務模式,大數據產業已滲透到人們生活的各個方面,并且數據價值的時效性越來越重要,集群必須以毫秒級的延遲從大規模的數據中提煉有價值的信息。
TopN問題就是從許多的數值選出前N個最大或者最小的數值有序排好,最常見的應用于微博熱搜榜、歌曲人氣榜、投票選舉等。由此可見利用大數據技術和計算機技術能輕松解決傳統排序問題。如微博熱搜榜,需要實時更新點擊量并按其從大到小的順序排列。而使用流計算框架Flink來解決TopN問題可以滿足其實時性和低延遲的要求。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000003154
作者信息:
關沫,魏碧晴
(沈陽工業大學 信息科學與工程學院,遼寧 沈陽 110870)
此內容為AET網站原創,未經授權禁止轉載。