專利名稱:一種優(yōu)化信號交叉口排隊長度的在線學習方法
技術領域:
本發(fā)明屬于交通技術領域,涉及一種優(yōu)化信號交叉口排隊長度的在線學習方法。
背景技術:
人工智能是現(xiàn)代科學技術領域的一個重要方向,是實現(xiàn)系統(tǒng)智能化、提高系統(tǒng)性能的重要手段。人工智能方法是一個橫斷技術,可以應用于各個學科領域。在道路交通信號控制領域,現(xiàn)有技術采用的是20世紀60年代至80年代的科學技術,這些技術在處理龐大的狀態(tài)空間和解空間問題上具有很大的局限性。城市道路交叉口信號配時涉及龐大的狀態(tài)空間和解空間,現(xiàn)有技術對交叉口信號配時問題作了諸多簡化。城市路網(wǎng)交通擁堵是近些年國內(nèi)外大中城市面臨的一個難題,經(jīng)常出現(xiàn)車輛排隊至上游路口造成路網(wǎng)死鎖的嚴重擁堵情況。以排隊長度為優(yōu)化目標應對我國機動車保有量井噴式增長具有重要的理論價值和現(xiàn)實意義。目前城市交叉口信號配時技術的智能化程度較低,不能夠從經(jīng)驗中改善系統(tǒng)性能,對系統(tǒng)經(jīng)歷過的狀態(tài)無記憶性。風險敏感的強化學習技術為交通信號控制的智能化提供了一個途徑,適合交通信號控制的無導師學習、動態(tài)學習、在線學習的特點。交通信號控制的現(xiàn)有技術主要有三種=Transyt系統(tǒng)采用歷史數(shù)據(jù)優(yōu)化配時方案,SCOOT系統(tǒng)采用檢測器數(shù)據(jù)優(yōu)化配時方案,優(yōu)化方法均為爬山法,SCOOT系統(tǒng)可稱為Transyt系統(tǒng)的實時在線版本。SCATS系統(tǒng)采用“投票”法優(yōu)化配時方案。其中Transyt系統(tǒng)和SCOOT系統(tǒng)以延誤、排隊長度、油耗的綜合指標為優(yōu)化目標,SCATS系統(tǒng)以綠燈時間等飽和度為優(yōu)化目標。Transyt系統(tǒng)和SCOOT系統(tǒng)的技術方案是建立一個交通流運動的仿真模型,通過計算各比選配時方案的指標值,確定新的配時方案。采用小步距調(diào)整的方法尋求局部最優(yōu)解,解空間很小,如當前方案、當前方案加4秒、當前方案減4秒。SCATS系統(tǒng)沒有使用仿真交通的數(shù)學模型,采用以實時交通數(shù)據(jù)為基礎的算法,用于實時方案選擇。根據(jù)車輛檢測裝置所提供的實時交通量數(shù)據(jù)和停車線斷面在綠燈期間的實際通過量,算法選擇子系統(tǒng)內(nèi)各交叉口共用的信號周期長度、各交叉口的綠信比及綠燈起步時距。SCATS系統(tǒng)要求事先利用脫機計算的方式為每個交叉口擬定四個可供選用的綠信比方案、五個內(nèi)部綠燈起步時距方案、五個外部綠燈起步時距方案。綠信比方案的選擇與信號周期的調(diào)整交錯進行,兩者結合起來,對各相位的綠燈時間不斷調(diào)整的結果,使各相位飽和度維持大致相等的水平,即“綠燈時間等飽和度”原則。近幾年來,國內(nèi)外學者對采用強化學習方法建立信號配時優(yōu)化技術進行了一定的嘗試。采用基于環(huán)境檢測的強化學習方法對噪音環(huán)境下的配時優(yōu)化進行了研究,噪音環(huán)境主要指駕駛員行為和流量需求波動,該文通過檢測環(huán)境的改變來學習動態(tài)的流量模式,自動對流量模式進行識別,執(zhí)行對應的策略,跟蹤環(huán)境轉(zhuǎn)換的預估誤差和獎勵。研究了一種基于近似動態(tài)規(guī)劃的自適應交通信號實時控制算法,具體地利用線性近似函數(shù)代替動態(tài)規(guī)劃中的值函數(shù),其中線性近似函數(shù)的參數(shù)由時間差分強化學習和擾動強化學習兩種方法在線學習,結果表明極大地提高了模型的計算效率,而且模型優(yōu)化的時間步長越小性能越優(yōu)。研究了基于“車輛投票”的強化學習優(yōu)化模型,通過估計每個車輛的等待時間決定配時方案,結果表明優(yōu)于固定信號配時模型。建立了基于Q學習模型的配時優(yōu)化模型,需要對狀態(tài)集中所有連續(xù)狀態(tài)進行描述,計算時間隨著車道數(shù)量和交叉口數(shù)量指數(shù)增加,限制了該模型只能用于小型路網(wǎng)。隨后,基于函數(shù)近似的強化學習算法對信號配時優(yōu)化進行了研究,提出了基于特征的狀態(tài)描述方法,將狀態(tài)離散為低、中、高三個區(qū)間,解決了狀態(tài)一行為對的維數(shù)災難問題。使用神經(jīng)網(wǎng)絡調(diào)整模糊交通信號控制器的成員函數(shù),使用強化學習評估神經(jīng)網(wǎng)絡采用的行為的效用,改進了模糊控制的效果。將Agent與經(jīng)驗知識和Q學習算法相結合,研究單個路口的動態(tài)配時問題。采用Q學習方法以減少延誤為目標對單路口進行信號配時的優(yōu)化,并應用模糊控制規(guī)則改善信號控制,研究結果表明該方法優(yōu)于定時控制、感應式控制。將Q學習及BP神經(jīng)元網(wǎng)絡應用于切換式的信號控制優(yōu)化,結果表明該模型能夠感知交通流變化,并能夠自適應控制,比定時控制相比具有明顯的優(yōu)勢??傮w上說,現(xiàn)有技術中建立基于強化學習的交通控制模型的做法是不考慮周期的概念,在每個時間步判斷各相位的放行權是否切換;沒有和傳統(tǒng)的交通控制優(yōu)化目標進行結合,建立的優(yōu)化目標的可行性沒有被驗證;而且這些方法都是基于風險中立的強化學習方法,優(yōu)化的過程中沒有考慮車輛到達的隨機波動,只能先離線學習獲得初始強化學習矩陣,然后再在線應用,在優(yōu)化的實時性和動態(tài)性方面具有一定的局限??傊?,現(xiàn)有技術中城市交通信號控制系統(tǒng)存在以下缺陷(1)采用小步距對配時方案進行優(yōu)化,優(yōu)化滯后于實際交通流狀態(tài);(2)在很小的空間中優(yōu)化,解為局部最優(yōu)解,性能差;(3)對經(jīng)歷的歷史狀態(tài)不具有記憶性,效率低。(4)路網(wǎng)幾何尺寸布局一旦調(diào)整,就需要花費大量時間對系統(tǒng)的參數(shù)進行調(diào)試。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術的缺陷,提供一種優(yōu)化信號交叉口排隊長度的在線學習方法,提出能夠計算全局最優(yōu)解、且具有記憶性的信號配時優(yōu)化技術。解決現(xiàn)有技術只能在很小的空間中進行優(yōu)化,難以保證解的最優(yōu)化的問題。解決現(xiàn)有技術不能夠積累經(jīng)驗、形成管理預案的缺點。相對于風險中立的強化學習優(yōu)化技術,本發(fā)明解決了需要事先離線學習進行初始化的不足,保證了配時方案的連續(xù)性、小波動。風險中立的強化學習技術屬于方案選擇式原理,風險敏感的強化學習技術屬于方案生成式原理。本發(fā)明采用人工智能領域的風險敏感強化學習理論建立了配時優(yōu)化技術,該技術能夠?qū)φ麄€優(yōu)化空間進行搜索,得到全局最優(yōu)解;該技術具有學習能力,對經(jīng)歷的歷史狀態(tài)具有記憶能力;由于風險敏感強化學習技術解決了規(guī)避車輛隨機到達帶來的風險問題,因此可以直接在線學習。與風險中立強化學習技術相比,本發(fā)明不需要事先離線學習,具有更好的實時性和適應性。其技術方案為一種優(yōu)化信號交叉口排隊長度的在線學習方法,包括以下步驟(I)狀態(tài)、行為、獎賞選取11)以各相位關鍵車流的排隊長度組成的向量作為狀態(tài),為了提高計算效率,狀態(tài)空間采用離散形式,離散步長為平均排隊長度差的整數(shù)倍數(shù);12)以各相位綠燈時間組成的向量作為行為,采用動態(tài)行為集技術首先計算各相位關鍵車流的平均排隊長度占交叉口總排隊長度的比例,然后將這一比例乘以事先確定的周期長度,得到各相位的基準綠燈時間,以基準綠燈時間為原點,以周期的某一比例值作為半徑,構成各相位綠燈時間的行為集;13)以各相位關鍵車流的加權排隊長度差的絕對值之和作為獎賞,優(yōu)化目標是等排隊長度,通過權重系數(shù)反映交通流向的重要程度;(2)強化學習矩陣更新公式強化學 習矩陣 更新公 式為:Q(s,a) = (1-P)Q{s,a) + fia[r + rmaxQ(s',a')-Q{s,a)]其中 β 為權重因子,α 為學習率,
Y為折扣因子,r表示當前獎勵,Q (s,a)表示狀態(tài)S、行為a對應的強化學習值;(3)建立仿真優(yōu)化平臺31)以Excel VBA作為主控程序,將微觀交通仿真軟件Vissim和Matlab軟件作為調(diào)用對象,分別采用COM接口和Excel Link接口 ;32)利用Vissim軟件建立交通仿真模型,利用Matlab開發(fā)優(yōu)化排隊長度的強化學習模型,基于實時數(shù)據(jù)利用該平臺計算強化學習矩陣;(4)在線運行41)按照步驟⑴中提到的離散步長,通過視頻檢測器判斷排隊長度處于哪個區(qū)間;42)在線運行指數(shù)平滑型的強化學習模型,優(yōu)化信號配時;43)利用數(shù)據(jù)采集手段對優(yōu)化效果進行評估。進一步優(yōu)選,所述數(shù)據(jù)采集手段主要包括視頻檢測器、線圈檢測器數(shù)據(jù)、出租車GPS數(shù)據(jù)、人工調(diào)查、視頻錄像。本發(fā)明的有益效果:本發(fā)明提出了基于仿真平臺計算風險敏感強化學習矩陣的方法,比基于解析模型的方法更加準確;本發(fā)明提出以優(yōu)化排隊長度作為目標,這對于解決高峰期出現(xiàn)的死鎖現(xiàn)象有重要價值;本發(fā)明提出了可直接在線應用的風險敏感強化學習,解決了風險中立強化學習方法需事先離線學習進行初始化的問題。本發(fā)明提出了指數(shù)平滑型的風險敏感強化學習技術,規(guī)避車輛到達的隨機波動對強化學習矩陣更新帶來的風險;本發(fā)明提出了動態(tài)行為集技術,提高了在線學習的計算效率。
圖1是仿真優(yōu)化平臺結構圖;C0M接口為Component Object Model的簡稱,微軟定義的標準接口,Vissim為德國PTV公司的交通仿真商業(yè)軟件,Excel VBA為Excel VisualBasicFor application,Excel Link接口為一種軟件中間件,Matlab為Matrix Laboratory的簡稱。圖2是本發(fā)明離散步長和檢測器位置示意圖。
具體實施例方式下面結合附圖具體實例來詳細描述本發(fā)明的技術方案。
一種優(yōu)化信號交叉口排隊長度的在線學習方法,其特征在于,包括以下步驟:(1)狀態(tài)、行為、獎賞選取11)以各相位關鍵車流的排隊長度組成的向量作為狀態(tài),為了提高計算效率,狀態(tài)空間采用離散形式,離散步長為平均排隊長度差的整數(shù)倍數(shù);12)以各相位綠燈時間組成的向量作為行為,對于多相位交叉口,會出現(xiàn)行為對的維數(shù)災難問題,學習速度是在線學習技術具有實用性的關鍵,為了提高學習速度,采用動態(tài)行為集技術:具體地,首先計算各相位關鍵車流的平均排隊長度占交叉口總排隊長度即交叉口各相位關鍵車流的排隊長度之和的比例,然后將這一比例乘以事先確定的周期長度,得到各相位的基準綠燈時間。以基準綠燈時間為原點,以周期的某一比例值作為半徑,構成各相位綠燈時間的行為集;13)以各相位關鍵車流的加權排隊長度差的絕對值之和作為獎賞,優(yōu)化目標是等排隊長度,通過權重系數(shù)反映交通流向的重要程度。例如,對于有三個關鍵相位的交叉口,獎勵函數(shù)可寫為 r = I Yiq1-Y2q2I+ Y 2q2- Y 2q31 + Y2Q2I2Q3I,Y1.Y2 * Y 3 表示車流流向的權重,Q1和q2和q3表示紅末排隊長度,根據(jù)相位的重要程度設置權重值。(2)強化學習矩陣更新公式車輛到達具有隨機性,這種隨機性會導致收斂的強化學習矩陣瞬間變化,從而導致當前最優(yōu)行為瞬間轉(zhuǎn)換至其他行為,然后又逐漸地轉(zhuǎn)回到當前最優(yōu)行為。這種隨機波動對于在線強化學習模型是一種風險,為了規(guī)避這種風險,本發(fā)明提出了一種指數(shù)平滑型的強化學習技術,解決了車輛隨機到達造成的模型波動問題,降低了最優(yōu)行為頻繁變換的風險,提高了控制的魯棒性。強化學習矩陣更新公式為:Q{s,a) = (1-p)Q{s,a) + pa[r + γmaxQ(s',a')-Q(s,a)}其中 β 為權重因子,α 為學習率,
Y為折扣因子,r表示當前獎勵,Q (s,a)表示狀態(tài)S、行為a對應的強化學習值;(3)建立仿真優(yōu)化平臺,仿真優(yōu)化平臺的結構圖如圖1所示。31)以Excel VBA作為主控程序,將微觀交通仿真軟件Vissim和Matlab軟件作為調(diào)用對象,分別采用COM接口和Excel Link接口 ;32)利用Vissim軟件建立交通仿真模型,利用Matlab開發(fā)優(yōu)化排隊長度的強化學習模型,基于實時數(shù)據(jù)利用該平臺計算強化學習矩陣; 以兩相位配時為例說明強化學習矩陣的含義,表I中ql,q2是各相位的排隊長度值,數(shù)量是排隊長度的排列組合值。gl,g2是指各相位的綠燈時間,數(shù)量是綠燈時間的排列組合值。其他的矩陣元素值是(狀態(tài)-行為對)值。表I
權利要求
1.一種優(yōu)化信號交叉口排隊長度的在線學習方法,其特征在于,包括以下步驟: (1)狀態(tài)、行為、獎賞選取 11)以各相位關鍵車流的排隊長度組成的向量作為狀態(tài),為了提高計算效率,狀態(tài)空間采用離散形式,離散步長為平均排隊長度差的整數(shù)倍數(shù); 12)以各相位綠燈時間組成的向量作為行為,采用動態(tài)行為集技術:首先計算各相位關鍵車流的平均排隊長度占交叉口總排隊長度的比例,然后將這一比例乘以事先確定的周期長度,得到各相位的基準綠燈時間,以基準綠燈時間為原點,以周期的某一比例值作為半徑,構成各相位綠燈時間的行為集; 13)以各相位關鍵車流的加權排隊長度差的絕對值之和作為獎賞,優(yōu)化目標是等排隊長度,通過權重系數(shù)反映交通流向的重要程度; (2)強化學習矩陣更新公式 強化學習矩陣更新公式為:
2.根據(jù)權利要求1所述的優(yōu)化信號交叉口排隊長度的在線學習方法,其特征在于,所述數(shù)據(jù)采集手段主要包括視頻檢測器數(shù)據(jù)、線圈檢測器數(shù)據(jù)、出租車GPS數(shù)據(jù)、人工調(diào)查、視頻錄像。
全文摘要
本發(fā)明公開了一種優(yōu)化信號交叉口排隊長度的在線學習方法,包括以下步驟(1)狀態(tài)、行為、獎賞選??;(2)強化學習矩陣更新公式;(3)建立仿真優(yōu)化平臺;(4)在線運行。本發(fā)明所述方法能夠計算全局最優(yōu)解、且具有記憶性的信號配時優(yōu)化技術。本發(fā)明與風險中立強化學習技術相比,本發(fā)明不需要事先離線學習,具有更好的實時性和適應性。
文檔編號G08G1/07GK103077615SQ20121055460
公開日2013年5月1日 申請日期2012年12月20日 優(yōu)先權日2012年12月20日
發(fā)明者盧守峰, 劉喜敏 申請人:長沙理工大學