文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場景下基于深度強化學習的感知型路徑分配算法[J].信息技術與網絡安全,2022,41(6):43-49.
0 引言
目前我國交通環境日益復雜,現有交通體系的服務能力難以滿足城市居民的出行期望,城市面臨日益嚴峻的交通管理挑戰。研究者們希望借助交通數字孿生技術,通過數據驅動、精準建模,實現交通的模擬、預測診斷和優化[1]。然而在交通仿真模擬層次,現有的路徑分配模塊不能反映出現實交通的多變狀況。在人-車-路的核心體系中,天氣氣候、交通管制、突發事故等影響因子將時刻影響駕駛員的判斷以及路網的狀態[2]。
在當前的交通數字孿生系統中,現有的路徑分配方法主要分為兩類,第一類為用于實現靜態全局路徑最優的傳統算法,如經典的蟻群算法、Floyd算法、A-Star、粒子群算法、Dijkstra及其改進算法等,本質為基于圖論中重要的最短路徑問題所提出的各種方案,也即在一個加權有向圖中,按一定要求尋找一條權重總和最短的路徑[3]。如Xu[4]等基于二叉樹結構,通過雙向搜索方法加快搜索效率,作為A-Star改進算法;Lee[5]等基于遺傳算法實現蟻群算法中的參數調節優化。在路網信息發生變化時,該類算法難以做出及時反饋。如果需要滿足動態路徑規劃的需求,則需要施加額外的更新優化和重規劃機制。第二類指的是通過機器學習、時空神經網絡、強化學習等技術來實現路徑分配。這一類更加強調數據的搜集、分析和處理,通過提取海量歷史數據的價值信息,為解決路徑規劃問題提供了一個新的思路[6]。
本文的中心工作是研究了一種基于傳統路徑算法與深度強化學習的感知型路徑分配算法,首先通過改進版Dijkstra算法為所有車輛分配初始路徑,路網中的車輛在不斷感知當前位置、行駛軌跡以及目標路網中各路段的車流等信息后,通過DDQN(Double DQN)將自動選擇是否重新進行全局的路徑規劃,實現路徑更新。與現有的經典路徑規劃方法相比,本文提出的規劃方案填補了傳統模型在路況變化下的泛化性、拓展性不足,優化了深度學習型方法的資源損耗,同時基于強化學習模型在長期收益方面的優越性,本文模型更加滿足路徑分配模型對當今城市路網交通出行的各種需求。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000004534
作者信息:
曹 歡
(中國科學技術大學 信息科學技術學院,安徽 合肥230026)