亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法及裝置與流程

文檔序號(hào):11177870閱讀:553來(lái)源:國(guó)知局
一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法及裝置與流程

本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法及裝置。



背景技術(shù):

隨著經(jīng)濟(jì)的發(fā)展和城鎮(zhèn)化的推進(jìn),全球汽車保有量和道路里程逐步增加,導(dǎo)致諸如交通擁堵、事故、污染、土地資源緊缺等一系列傳統(tǒng)汽車無(wú)法妥善解決的問(wèn)題日益凸顯。無(wú)人駕駛汽車技術(shù)被視為這些問(wèn)題的有效解決方案,其發(fā)展被受矚目,美國(guó)電子和電子工程師協(xié)會(huì)(ieee)預(yù)測(cè),至2040年自動(dòng)駕駛車輛數(shù)目所占比例將達(dá)到75%。

無(wú)人駕駛汽車,即在沒(méi)有司機(jī)的情況下通過(guò)自身的輔助駕駛系統(tǒng)在道路上行駛,具備環(huán)境感知能力。輔助駕駛系統(tǒng)通過(guò)傳感器獲取的環(huán)境信息做出控制決策,已出現(xiàn)了多種用于輔助駕駛系統(tǒng)的傳感器和產(chǎn)品,例如:激光雷達(dá)、機(jī)器視覺(jué)、自適應(yīng)巡航、車輛接近通報(bào)裝置、夜視輔助、自適應(yīng)前照明系統(tǒng)等。

目前,輔助駕駛系統(tǒng)的控制方法主要為基于規(guī)則的控制決策,即根據(jù)已知的駕駛經(jīng)驗(yàn)構(gòu)建對(duì)車輛環(huán)境信息輸出控制決策的專家規(guī)則系統(tǒng),專家規(guī)則系統(tǒng)這類淺層學(xué)習(xí)算法可看作從被標(biāo)記的數(shù)據(jù)之間尋找規(guī)律的過(guò)程,當(dāng)規(guī)則很難被抽象成公式或簡(jiǎn)單邏輯時(shí),淺層學(xué)習(xí)就無(wú)法奏效,然而,自動(dòng)駕駛場(chǎng)景類別多樣、路況復(fù)雜,很難用有限的規(guī)則定義清楚。

隨著深度強(qiáng)化學(xué)習(xí)技術(shù)的快速發(fā)展,一些研究機(jī)構(gòu)提出“端對(duì)端”式的自動(dòng)駕駛算法,通過(guò)深度網(wǎng)絡(luò)構(gòu)建輔助駕駛系統(tǒng)中的控制決策模型。這類方法不需要對(duì)車輛的狀態(tài)進(jìn)行基于規(guī)則的識(shí)別。然而,對(duì)車輛自動(dòng)駕駛進(jìn)行深度學(xué)習(xí)要求強(qiáng)大的計(jì)算資源,例如需要數(shù)百瓦的圖形處理器(gpu)等長(zhǎng)時(shí)間(數(shù)天到數(shù)周)的訓(xùn)練,才能得到一個(gè)決策網(wǎng)絡(luò),如果外界條件改變,則需要重新訓(xùn)練。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法及裝置,旨在解決現(xiàn)有技術(shù)中策略網(wǎng)絡(luò)模型的生成效率較低的問(wèn)題。

一方面,本發(fā)明提供了一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法,所述方法包括下述步驟:

將每個(gè)試驗(yàn)時(shí)刻采集到的車輛狀態(tài)信息構(gòu)成狀態(tài)信息集,對(duì)所述狀態(tài)信息集進(jìn)行處理,獲得特征狀態(tài)信息集;

根據(jù)預(yù)設(shè)的回報(bào)值函數(shù)和預(yù)先構(gòu)建的車輛動(dòng)作集,查找在所述特征狀態(tài)信息集的每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作;

根據(jù)所述特征狀態(tài)信息集、所述特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值和所述獲得最大回報(bào)值的車輛動(dòng)作,訓(xùn)練極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型;

根據(jù)所述極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果,生成用于所述車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型。

另一方面,本發(fā)明提供了一種用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成裝置,所述裝置包括:

狀態(tài)處理模塊,用于將每個(gè)試驗(yàn)時(shí)刻采集到的車輛狀態(tài)信息構(gòu)成狀態(tài)信息集,對(duì)所述狀態(tài)信息集進(jìn)行處理,獲得特征狀態(tài)信息集;

強(qiáng)化學(xué)習(xí)模塊,用于根據(jù)預(yù)設(shè)的回報(bào)值函數(shù)和預(yù)先構(gòu)建的車輛動(dòng)作集,查找在所述特征狀態(tài)信息集的每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作;

極限學(xué)習(xí)機(jī)訓(xùn)練模塊,用于根據(jù)所述特征狀態(tài)信息集、所述特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值和所述獲得最大回報(bào)值的車輛動(dòng)作,訓(xùn)練極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型;以及

策略網(wǎng)絡(luò)生成模塊,用于根據(jù)所述極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果,生成用于所述車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型。

本發(fā)明將每個(gè)試驗(yàn)時(shí)刻采集到的車輛狀態(tài)信息構(gòu)成狀態(tài)信息集,對(duì)狀態(tài)信息集進(jìn)行處理,以在降低狀態(tài)信息集中數(shù)據(jù)量的同時(shí)保留狀態(tài)信息集中的特征,獲得特征狀態(tài)信息集,根據(jù)預(yù)設(shè)的回報(bào)值函數(shù)和預(yù)先構(gòu)建的車輛動(dòng)作集,查找在特征狀態(tài)信息集的每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作,根據(jù)特征狀態(tài)信息集中的狀態(tài)信息、每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值以及每個(gè)最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,訓(xùn)練預(yù)設(shè)的極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型,并根據(jù)訓(xùn)練結(jié)果,生成車輛自動(dòng)駕駛的策略模型,從而通過(guò)對(duì)狀態(tài)信息的處理、通過(guò)采用強(qiáng)化學(xué)習(xí)得到每個(gè)狀態(tài)信息的最大回報(bào)值和最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作、通過(guò)訓(xùn)練極限學(xué)習(xí)及的網(wǎng)絡(luò)模型,有效地降低了計(jì)算資源的消耗,有效地提高了車輛自動(dòng)駕駛策略網(wǎng)絡(luò)模型的泛化能力和生成效率。

附圖說(shuō)明

圖1是本發(fā)明實(shí)施例一提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法的實(shí)現(xiàn)流程圖;

圖2是本發(fā)明實(shí)施例一提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的結(jié)構(gòu)示例圖;

圖3是本發(fā)明實(shí)施例二提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成裝置的結(jié)構(gòu)示意圖;以及

圖4是本發(fā)明實(shí)施例二提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成裝置的優(yōu)選結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

以下結(jié)合具體實(shí)施例對(duì)本發(fā)明的具體實(shí)現(xiàn)進(jìn)行詳細(xì)描述:

實(shí)施例一:

圖1示出了本發(fā)明實(shí)施例一提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成方法的實(shí)現(xiàn)流程,為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,詳述如下:

在步驟s101中,將每個(gè)試驗(yàn)時(shí)刻采集到的車輛狀態(tài)信息構(gòu)成狀態(tài)信息集,對(duì)狀態(tài)信息集進(jìn)行處理,獲得特征狀態(tài)信息集。

本發(fā)明適用于基于賽車仿真模擬平臺(tái)或賽車模擬器(例如開(kāi)放式賽車模擬器torcs,theopenracingcarsimulation)建立的交互平臺(tái),在該交互平臺(tái)上進(jìn)行無(wú)人駕駛汽車的行駛交互試驗(yàn)。在當(dāng)前的交互試驗(yàn)過(guò)程中,通過(guò)車輛上預(yù)設(shè)的多個(gè)傳感器采集車輛狀態(tài)信息,車輛狀態(tài)信息可包括車輛離道路中線的距離、車輛前進(jìn)方向與道路切向的夾角、車輛前方激光測(cè)距儀的距離值和車輛在道路切向上的速度分量。

在本發(fā)明實(shí)施例中,采集每個(gè)實(shí)驗(yàn)時(shí)刻的車輛狀態(tài)信息,并將所有的車輛狀態(tài)信息一起構(gòu)成狀態(tài)信息集,為了減少狀態(tài)信息集中的數(shù)據(jù)量并保留狀態(tài)信息集的特征,對(duì)狀態(tài)信息集進(jìn)行處理,生成特征狀態(tài)信息集,從而通過(guò)對(duì)狀態(tài)信息集的處理有效地降低后續(xù)過(guò)程的計(jì)算量。其中,特征狀態(tài)信息集可包含具有代表性的狀態(tài)信息或狀態(tài)信息的特征。

具體地,可通過(guò)預(yù)設(shè)的聚類算法(例如k-means聚類)將狀態(tài)信息集劃分為若干個(gè)簇,并聚類出能夠代表每個(gè)簇的簇中心點(diǎn),這些簇中心點(diǎn)的狀態(tài)信息構(gòu)成特征狀態(tài)信息集,此外,還可通過(guò)預(yù)設(shè)的特征提取算法(例如自編碼機(jī)特征提取算法)提取狀態(tài)信息集中的特征,由這些特征構(gòu)成特征狀態(tài)信息集。

在步驟s102中,根據(jù)預(yù)設(shè)的回報(bào)值函數(shù)和預(yù)先構(gòu)建的車輛動(dòng)作集,查找在特征狀態(tài)信息集的每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作。

在本發(fā)明實(shí)施例中,回報(bào)值函數(shù)用來(lái)計(jì)算在某個(gè)狀態(tài)下車輛做出某個(gè)動(dòng)作后獲得的立即回報(bào)值,車輛動(dòng)作集中可包括直行、剎車等車輛動(dòng)作。先對(duì)特征狀態(tài)信息集的每個(gè)狀態(tài)信息對(duì)應(yīng)的回報(bào)值序列進(jìn)行初始化,可初始化為零,每個(gè)狀態(tài)信息的回報(bào)值序列包括在該狀態(tài)信息下每個(gè)車輛動(dòng)作對(duì)應(yīng)的回報(bào)值,其中,狀態(tài)信息s的回報(bào)值序列中車輛動(dòng)作s的回報(bào)值可表示為

在本發(fā)明實(shí)施例中,根據(jù)回報(bào)值函數(shù)和車輛動(dòng)作集,對(duì)特征狀態(tài)信息集中狀態(tài)信息的回報(bào)值序列進(jìn)行多次更新,直至所有回報(bào)值序列中的值不再變化,最后從所有回報(bào)值序列中選取特征狀態(tài)信息集中每個(gè)狀態(tài)信息的最大回報(bào)值以及該最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,從而通過(guò)強(qiáng)化學(xué)習(xí)確定了特征狀態(tài)信息集中每個(gè)狀態(tài)信息最佳的車輛動(dòng)作。

具體地,在更新回報(bào)值序列時(shí),在車輛動(dòng)作集中遍歷可以在特征狀態(tài)信息集的當(dāng)前狀態(tài)信息下執(zhí)行的車輛動(dòng)作,執(zhí)行遍歷得到的動(dòng)作,并通過(guò)回報(bào)值函數(shù)計(jì)算執(zhí)行后的立即回報(bào)值,根據(jù)該立即回報(bào)值和預(yù)設(shè)的更新公式,即可對(duì)在該當(dāng)前狀態(tài)信息下遍歷到的車輛動(dòng)作所對(duì)應(yīng)的回報(bào)值。其中,回報(bào)值函數(shù)可表示為:

其中,為在特征狀態(tài)信息集的狀態(tài)信息s下執(zhí)行遍歷到的動(dòng)作a時(shí)的回報(bào)值,為狀態(tài)信息s的下一狀態(tài)信息s'的最大回報(bào)值,r為在狀態(tài)信息s下執(zhí)行遍歷到的動(dòng)作a時(shí)的立即回報(bào)值,γ為預(yù)設(shè)參數(shù)且0≤γ<1。

作為示例地,回報(bào)值函數(shù)的公式可為:

r=δdis*cos(α*angle)*sgn(trackpos-threshold),其中,r為回報(bào)值函數(shù)計(jì)算得到的立即回報(bào)值,δdis為車輛在相鄰試驗(yàn)時(shí)刻跑過(guò)的有效距離,α為預(yù)設(shè)的權(quán)重縮放因子,angle為車輛當(dāng)前行駛方向與道路切向的夾角,trackpos為車輛離道路中線的距離,threshold為預(yù)設(shè)閾值,當(dāng)trackpos大于threshold時(shí),r為無(wú)窮小,可表示對(duì)車輛太靠近道路邊界時(shí)的懲罰。另外,回報(bào)值函數(shù)還可考慮行駛速度、單位耗油量、平穩(wěn)度等。

在步驟s103中,根據(jù)特征狀態(tài)信息集、特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值和獲得最大回報(bào)值的車輛動(dòng)作,訓(xùn)練預(yù)設(shè)極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,極限學(xué)習(xí)機(jī)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。其中,極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型可表示為:

其中,g()為隱層節(jié)點(diǎn)的激活函數(shù),βi=[βi1,βi2,...,βin]t為連接第i個(gè)隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量,ωi=[ω1i,ω2i,...,ωmi]為連接第i個(gè)隱層節(jié)點(diǎn)的隨機(jī)輸入權(quán)值向量,極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸出值為qi=[qi1,qi2,...,qin]t,qj為輸出值中的第j列向量,j=1,2,…,n,n為輸出節(jié)點(diǎn)的個(gè)數(shù),m為隱層節(jié)點(diǎn)的個(gè)數(shù)。

在本發(fā)明實(shí)施例中,可將特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值設(shè)置為極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型一次訓(xùn)練過(guò)程中的輸出值,將特征狀態(tài)信息集中的狀態(tài)信息和每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作最為極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型一次訓(xùn)練過(guò)程中的輸入值,從而訓(xùn)練得到極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型中隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量??赏ㄟ^(guò)進(jìn)行多次的車輛自動(dòng)駕駛試驗(yàn),多次地訓(xùn)練極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的表示方式還可寫(xiě)為矩陣形式wβ=q,當(dāng)隱層節(jié)點(diǎn)的激活函數(shù)無(wú)限可微時(shí),極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸入權(quán)值和隱層節(jié)點(diǎn)閾值可隨機(jī)賦值,此時(shí)可將矩陣w視為常數(shù),極限學(xué)習(xí)機(jī)的學(xué)習(xí)過(guò)程可等價(jià)為求取線性系統(tǒng)wβ=q最小范數(shù)的最小二乘解。

在步驟s104中,根據(jù)極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果,生成用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,圖2為策略網(wǎng)絡(luò)模型的示例,由此可見(jiàn),極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型中隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量,即策略網(wǎng)絡(luò)模型中隱藏層的權(quán)重值,最后得到了狀態(tài)數(shù)據(jù)處理、強(qiáng)化學(xué)習(xí)和極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型構(gòu)成的策略網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,對(duì)采集到的所有狀態(tài)信息構(gòu)成的狀態(tài)信息集進(jìn)行處理,以降低狀態(tài)信息集中的數(shù)據(jù)量并保留狀態(tài)信息集中的特征,生成特征狀態(tài)信息集,通過(guò)強(qiáng)化學(xué)習(xí)得到特征狀態(tài)信息集中每個(gè)狀態(tài)信息的最大回報(bào)值和該最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,通過(guò)特征狀態(tài)信息集中每個(gè)狀態(tài)信息、每個(gè)狀態(tài)信息的最大回報(bào)值、和最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,訓(xùn)練極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型,最后根據(jù)訓(xùn)練的到的參數(shù)向量,得到車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型,從而通過(guò)對(duì)狀態(tài)信息的處理、通過(guò)強(qiáng)化學(xué)習(xí)和極限學(xué)習(xí)機(jī)的結(jié)合,有效地降低了計(jì)算資源的消耗,有效地提高了車輛自動(dòng)駕駛策略網(wǎng)絡(luò)模型的泛化能力和生成效率。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述的存儲(chǔ)介質(zhì),如rom/ram、磁盤(pán)、光盤(pán)等。

實(shí)施例二:

圖3示出了本發(fā)明實(shí)施例二提供的用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的生成裝置的結(jié)構(gòu),為了便于說(shuō)明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,其中包括:

狀態(tài)處理模塊31,用于將每個(gè)試驗(yàn)時(shí)刻采集到的車輛狀態(tài)信息構(gòu)成狀態(tài)信息集,對(duì)狀態(tài)信息集進(jìn)行處理,獲得特征狀態(tài)信息集。

在本發(fā)明實(shí)施例中,采集每個(gè)實(shí)驗(yàn)時(shí)刻的車輛狀態(tài)信息,并將所有的車輛狀態(tài)信息一起構(gòu)成狀態(tài)信息集,為了減少狀態(tài)信息集中的數(shù)據(jù)量并保留狀態(tài)信息集的特征,對(duì)狀態(tài)信息集進(jìn)行處理,生成特征狀態(tài)信息集,從而通過(guò)對(duì)狀態(tài)信息集的處理有效地降低后續(xù)過(guò)程的計(jì)算量。其中,特征狀態(tài)信息集可包含具有代表性的狀態(tài)信息或狀態(tài)信息的特征。

強(qiáng)化學(xué)習(xí)模塊32,用于根據(jù)預(yù)設(shè)的回報(bào)值函數(shù)和預(yù)先構(gòu)建的車輛動(dòng)作集,查找在特征狀態(tài)信息集的每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作。

在本發(fā)明實(shí)施例中,每個(gè)狀態(tài)信息的回報(bào)值序列包括在該狀態(tài)信息下每個(gè)車輛動(dòng)作對(duì)應(yīng)的回報(bào)值,根據(jù)回報(bào)值函數(shù)和車輛動(dòng)作集,對(duì)特征狀態(tài)信息集中狀態(tài)信息的回報(bào)值序列進(jìn)行多次更新,直至所有回報(bào)值序列中的值不再變化,最后從所有回報(bào)值序列中選取特征狀態(tài)信息集中每個(gè)狀態(tài)信息的最大回報(bào)值以及該最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,從而通過(guò)強(qiáng)化學(xué)習(xí)確定了特征狀態(tài)信息集中每個(gè)狀態(tài)信息最佳的車輛動(dòng)作。

具體地,在更新回報(bào)值序列時(shí),在車輛動(dòng)作集中遍歷可以在特征狀態(tài)信息集的當(dāng)前狀態(tài)信息下執(zhí)行的車輛動(dòng)作,執(zhí)行遍歷得到的動(dòng)作,并通過(guò)回報(bào)值函數(shù)計(jì)算執(zhí)行后的立即回報(bào)值,根據(jù)該立即回報(bào)值和預(yù)設(shè)的更新公式,即可對(duì)在該當(dāng)前狀態(tài)信息下遍歷到的車輛動(dòng)作所對(duì)應(yīng)的回報(bào)值。其中,回報(bào)值函數(shù)可表示為:

其中,為在特征狀態(tài)信息集的狀態(tài)信息s下執(zhí)行遍歷到的動(dòng)作a時(shí)的回報(bào)值,為狀態(tài)信息s的下一狀態(tài)信息s'的最大回報(bào)值,r為在狀態(tài)信息s下執(zhí)行遍歷到的動(dòng)作a時(shí)的立即回報(bào)值,γ為預(yù)設(shè)參數(shù)且0≤γ<1。

極限學(xué)習(xí)機(jī)訓(xùn)練模塊33,用于根據(jù)特征狀態(tài)信息集、特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值和獲得最大回報(bào)值的車輛動(dòng)作,訓(xùn)練極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型可表示為:

其中,g()為隱層節(jié)點(diǎn)的激活函數(shù),βi=[βi1,βi2,...,βin]t為連接第i個(gè)隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量,ωi=[ω1i,ω2i,...,ωmi]為連接第i個(gè)隱層節(jié)點(diǎn)的隨機(jī)輸入權(quán)值向量,極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸出值為qi=[qi1,qi2,...,qin]t,qj為輸出值中的第j列向量,j=1,2,...,n,n為輸出節(jié)點(diǎn)的個(gè)數(shù),m為隱層節(jié)點(diǎn)的個(gè)數(shù)。

在本發(fā)明實(shí)施例中,可將特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值設(shè)置為極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型一次訓(xùn)練過(guò)程中的輸出值,將特征狀態(tài)信息集中的狀態(tài)信息和每個(gè)狀態(tài)信息下獲得最大回報(bào)值的車輛動(dòng)作最為極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型一次訓(xùn)練過(guò)程中的輸入值,從而訓(xùn)練得到極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型中隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量??赏ㄟ^(guò)進(jìn)行多次的車輛自動(dòng)駕駛試驗(yàn),多次地訓(xùn)練極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的表示方式還可寫(xiě)為矩陣形式wβ=q,當(dāng)隱層節(jié)點(diǎn)的激活函數(shù)無(wú)限可微時(shí),極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸入權(quán)值和隱層節(jié)點(diǎn)閾值可隨機(jī)賦值,此時(shí)可將矩陣w視為常數(shù),極限學(xué)習(xí)機(jī)的學(xué)習(xí)過(guò)程可等價(jià)為求取線性系統(tǒng)wβ=q最小范數(shù)的最小二乘解。

策略網(wǎng)絡(luò)生成模塊34,用于根據(jù)極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型的訓(xùn)練結(jié)果,生成用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型。

在本發(fā)明實(shí)施例中,極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型中隱層節(jié)點(diǎn)與網(wǎng)絡(luò)輸出層節(jié)點(diǎn)的輸出權(quán)值向量,即策略網(wǎng)絡(luò)模型中隱藏層的權(quán)重值,最后得到了狀態(tài)數(shù)據(jù)處理、強(qiáng)化學(xué)習(xí)和極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型構(gòu)成的策略網(wǎng)絡(luò)模型。

優(yōu)選地,如圖4所示,狀態(tài)處理模塊31包括:

狀態(tài)處理子模塊411,用于通過(guò)預(yù)設(shè)的聚類算法對(duì)狀態(tài)信息集進(jìn)行聚類、或通過(guò)預(yù)設(shè)的特征提取算法對(duì)狀態(tài)信息集進(jìn)行特征提取,以生成特征狀態(tài)信息集。

優(yōu)選地,強(qiáng)化學(xué)習(xí)模塊32包括回報(bào)值初始化模塊421、回報(bào)值更新模塊422和最大回報(bào)值獲取模塊423,其中:

回報(bào)值初始化模塊421,用于對(duì)特征狀態(tài)信息集的每個(gè)狀態(tài)信息對(duì)應(yīng)的回報(bào)值序列進(jìn)行初始化,回報(bào)值序列包括執(zhí)行車輛動(dòng)作集中所有車輛動(dòng)作對(duì)應(yīng)的回報(bào)值;

回報(bào)值更新模塊422,用于根據(jù)回報(bào)值函數(shù)和車輛動(dòng)作集,對(duì)所有回報(bào)值序列進(jìn)行多次更新,直至所有回報(bào)值序列不再變化;以及

最大回報(bào)值獲取模塊423,用于從特征狀態(tài)信息的每個(gè)狀態(tài)信息對(duì)應(yīng)的回報(bào)值序列中獲取最大回報(bào)值和最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作。

回報(bào)值更新模塊422包括動(dòng)作遍歷模塊和回報(bào)值更新子模塊,其中:

動(dòng)作遍歷模塊,用于遍歷車輛動(dòng)作集,并根據(jù)回報(bào)值函數(shù)計(jì)算在特征狀態(tài)信息集的狀態(tài)信息下執(zhí)行遍歷到的車輛動(dòng)作時(shí)的立即回報(bào)值;以及

回報(bào)值更新子模塊,用于根據(jù)立即回報(bào)值和預(yù)設(shè)的更新公式,更新在特征狀態(tài)信息集的狀態(tài)信息下執(zhí)行遍歷到的車輛動(dòng)作對(duì)應(yīng)的回報(bào)值。

優(yōu)選地,極限學(xué)習(xí)機(jī)訓(xùn)練模塊33包括學(xué)習(xí)機(jī)設(shè)置模塊431和網(wǎng)絡(luò)訓(xùn)練模塊432,其中:

學(xué)習(xí)機(jī)設(shè)置模塊431,用于根據(jù)特征狀態(tài)信息集、特征狀態(tài)信息集中每個(gè)狀態(tài)信息對(duì)應(yīng)的最大回報(bào)值和獲得最大回報(bào)值的車輛動(dòng)作,設(shè)置極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸入和輸出;以及

網(wǎng)絡(luò)訓(xùn)練模塊432,用于對(duì)極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,獲得極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)模型的輸出權(quán)重。

在本發(fā)明實(shí)施例中,對(duì)采集到的所有狀態(tài)信息構(gòu)成的狀態(tài)信息集進(jìn)行處理,以降低狀態(tài)信息集中的數(shù)據(jù)量并保留狀態(tài)信息集中的特征,生成特征狀態(tài)信息集,通過(guò)強(qiáng)化學(xué)習(xí)得到特征狀態(tài)信息集中每個(gè)狀態(tài)信息的最大回報(bào)值和該最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,通過(guò)特征狀態(tài)信息集中每個(gè)狀態(tài)信息、每個(gè)狀態(tài)信息的最大回報(bào)值、和最大回報(bào)值對(duì)應(yīng)的車輛動(dòng)作,訓(xùn)練極限學(xué)習(xí)機(jī)的網(wǎng)絡(luò)模型,最后根據(jù)訓(xùn)練的到的參數(shù)向量,得到車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型,從而通過(guò)對(duì)狀態(tài)信息的處理、通過(guò)強(qiáng)化學(xué)習(xí)和極限學(xué)習(xí)機(jī)的結(jié)合有效地降低了計(jì)算資源的消耗,有效地提高了車輛自動(dòng)駕駛策略網(wǎng)絡(luò)模型的泛化能力和生成效率。

在本發(fā)明實(shí)施例中,用于車輛自動(dòng)駕駛的策略網(wǎng)絡(luò)模型的裝置的各模塊可由相應(yīng)的硬件或軟件模塊實(shí)現(xiàn),各模塊可以為獨(dú)立的軟、硬件模塊,也可以集成為一個(gè)軟、硬件模塊,在此不用以限制本發(fā)明。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1