文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.06.001
引用格式: 郭瑝清,陳鋒. 干線動態協調控制的深度Q網絡方法[J].信息技術與網絡安全,2020,39(6):1-6.
隨著城市人口的增多與經濟的快速發展,我國汽車保有量不斷增長,城市交通擁堵問題日益嚴峻。而城市交通干線是城市交通的動脈,實現干線各交叉口間交通信號的動態協調,有效地疏導干線車輛,對于緩解城市交通擁堵具有重要意義。
目前,城市主干道多交叉口的協調控制,主要采用Maxband和Multiband法以及圖解法、數解法等綠波方法。LITTLE J D C等人最早提出最大綠波帶寬Maxband模型;GARTNER N H等人在Maxband模型的基礎上,提出復合綠波帶寬Multiband模型;陳昕等人對圖解法進行了優化,基于綠波帶的中心線交點,設計了一種新的雙向綠波圖解法;盧凱等人[在綠燈中心點型雙向綠波協調設計數解法的基礎上,建立了一種綠燈終點型的雙向綠波數解法,從而減少了干線車隊的延誤時間;曲大義等人在綠波協調中考慮了公交車輛的影響,并通過增加綠信比與對公交車輛適當的提速,進一步提升了交叉口的通行效率。
現有的綠波方法難以準確地描述復雜的城市干線交通流狀態,且采用靜態的控制模式,無法有效地協調時變的干線交通流。隨著人工智能的不斷發展,采用深度強化學習實現城市交通信號優化控制已成為研究的熱點。HA-LI P等人為提高交叉口通行能力,提出了一種基于深度強化學習算法的單交叉口信號優化控制方法;GAO J等人提出一種深度強化學習算法,從實時的交通流數據中自動提取有用特征,實現單交叉口交通流的自適應控制,并采用經驗回放和目標網絡技術,提高了算法的穩定性;LI C C等人為提高城市路網通行能力,提出了一種用于區域交叉口交通信號控制的深度強化學習算法,通過多智能體學習最佳的交通信號控制策略;VAN DER POL E采用Max-plus算法和基于深度強化學習的多智能體方法,實現城市交通區域協調控制。
在深度強化學習領域,目前對于城市交通信號控制的研究,多以單交叉口為研究對象,而對于多交叉口的協調處理,普遍采用多智能體的協調控制。本文結合了雙重深度Q網絡(Double Deep Q Network,Double DQN)與基于競爭架構深度Q網絡(Dueling Deep Q Network,Dueling DQN),設計了基于DDDQN(Dueling Double Deep Q Network,DDDQN)的干線動態協調控制算法。通過將干線多交叉口的交通信號作為一個整體進行處理,相比于采用多智能體協調控制,減輕了智能體間通信協調的負擔,且智能體通過獲取多交叉口的實時狀態,掌握干線全局信息,并使用Dueling DQN網絡結構模型,能更充分地發揮網絡提取干線交通流特征的能力,挖掘出多交叉口間協調控制的相關性。實驗結果表明,本文方法相比于現有綠波方法、經典的深度Q網絡(Deep Q Network,DQN)、以及Double DQN與Dueling DQN,能夠更有效地降低城市主干道的車均延誤和車輛的停車次數等重要的交通評價指標。
本文詳細內容請下載:http://m.viuna.cn/resource/share/2000003143
作者信息:
郭瑝清1,陳 鋒1,2
(1.中國科學技術大學 信息科學技術學院,安徽 合肥230027;
2.安徽中科龍安科技股份有限公司,安徽 合肥230088)