本發(fā)明涉及一種將用戶(駕駛員)對(duì)所提供的信息進(jìn)行的響應(yīng)的歷史記錄數(shù)據(jù)進(jìn)行存儲(chǔ)并學(xué)習(xí),基于該學(xué)習(xí)結(jié)果而提供符合用戶(駕駛員)意圖的信息的信息提供裝置、以及存儲(chǔ)信息提供程序的存儲(chǔ)介質(zhì)。
背景技術(shù):
作為這種信息提供裝置,已知例如國(guó)際公開wo2015/162638中所記載的裝置(用戶界面系統(tǒng))。在該裝置中,在通過(guò)語(yǔ)音輸入而執(zhí)行功能時(shí),首先使用與當(dāng)前時(shí)刻的車輛狀況相關(guān)的信息推定用戶(駕駛員)可能進(jìn)行的語(yǔ)音操作的候選,將上述推定出的語(yǔ)音操作的候選中概率從高到低的順序的前3個(gè)作為選項(xiàng)顯示在觸摸屏上。然后,對(duì)從上述選項(xiàng)中由駕駛員手動(dòng)輸入而選擇的候選進(jìn)行判斷,確定語(yǔ)音操作的對(duì)象,并且與該所確定的語(yǔ)音操作的對(duì)象對(duì)應(yīng)而生成催促用戶進(jìn)行語(yǔ)音輸入的引導(dǎo)并輸出。然后,通過(guò)與該引導(dǎo)對(duì)應(yīng)而駕駛員進(jìn)行語(yǔ)音輸入,從而確定作為對(duì)象的車輛功能并執(zhí)行該功能。并且,通過(guò)如上所述,通過(guò)與當(dāng)前時(shí)刻的車輛狀況對(duì)應(yīng)而提供符合用戶意圖的語(yǔ)音操作的入口,從而能夠降低進(jìn)行語(yǔ)音輸入的用戶的操作負(fù)擔(dān)。
但是,在上述文獻(xiàn)所記載的裝置中,在執(zhí)行車輛功能時(shí),用戶界面需要從針對(duì)顯示在觸摸屏上的選項(xiàng)進(jìn)行手動(dòng)輸入的操作模式切換為利用語(yǔ)音輸入的操作模式,不可避免地導(dǎo)致駕駛員負(fù)擔(dān)增加。
另外,在上述文獻(xiàn)所記載的裝置中,雖然簡(jiǎn)化了語(yǔ)音操作的入口,但其后的操作不過(guò)是實(shí)現(xiàn)了與現(xiàn)有的語(yǔ)音對(duì)話系統(tǒng)相同的功能,因此,人們期望進(jìn)一步降低駕駛員的負(fù)擔(dān)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種信息提供裝置及存儲(chǔ)信息提供程序的存儲(chǔ)介質(zhì),其能夠通過(guò)始終使用簡(jiǎn)單的用戶界面,在減輕駕駛員負(fù)擔(dān)的同時(shí),作為信息提供而執(zhí)行符合駕駛員意圖的更適當(dāng)?shù)能囕d設(shè)備的操作提案。
本發(fā)明的第1方式所涉及的信息提供裝置具有智能電子控制單元(智能ecu)。所述智能ecu含有:狀態(tài)空間構(gòu)成部,其通過(guò)將多種車輛數(shù)據(jù)關(guān)聯(lián)起來(lái)而定義車輛的狀態(tài),從而構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間;行動(dòng)空間構(gòu)成部,其將表示基于駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的數(shù)據(jù),定義為行動(dòng),從而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間;增強(qiáng)學(xué)習(xí)部,其存儲(chǔ)駕駛員對(duì)所述車載設(shè)備的操作提案的響應(yīng)的歷史記錄,使用該存儲(chǔ)的歷史記錄,設(shè)定作為表示所述車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù),并且通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),計(jì)算出在構(gòu)成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構(gòu)成所述行動(dòng)空間的各行動(dòng)的概率分布;分散度運(yùn)算部,其對(duì)所述增強(qiáng)學(xué)習(xí)部計(jì)算出的概率分布的分散度進(jìn)行運(yùn)算;以及信息提供部,其在由所述分散度運(yùn)算部運(yùn)算出的概率分布的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,在由所述分散度運(yùn)算部運(yùn)算出的概率分布的分散度為所述閾值以上時(shí),從多個(gè)候選中將成為對(duì)象的行動(dòng)選擇為操作提案的對(duì)象而輸出,即,進(jìn)行試錯(cuò)性的操作提案。
另外,本發(fā)明的第2方式所涉及的存儲(chǔ)信息提供程序的非易失性計(jì)算機(jī)可讀介質(zhì)中,所述信息提供程序使計(jì)算機(jī)實(shí)現(xiàn)下述功能,即:狀態(tài)空間構(gòu)成功能,其通過(guò)將多種車輛數(shù)據(jù)關(guān)聯(lián)起來(lái)而定義車輛的狀態(tài),從而構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間;行動(dòng)空間構(gòu)成功能,其將表示基于駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的數(shù)據(jù),定義為行動(dòng),從而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間;增強(qiáng)學(xué)習(xí)功能,其存儲(chǔ)駕駛員對(duì)所述車載設(shè)備的操作提案的響應(yīng)的歷史記錄,使用該存儲(chǔ)的歷史記錄,設(shè)定作為表示所述車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù),并且通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),計(jì)算出在構(gòu)成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構(gòu)成所述行動(dòng)空間的各行動(dòng)的概率分布;分散度運(yùn)算功能,其對(duì)所述增強(qiáng)學(xué)習(xí)功能計(jì)算出的概率分布的分散度進(jìn)行運(yùn)算;以及信息提供功能,其在由所述分散度運(yùn)算功能運(yùn)算出的概率分布的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,在由所述分散度運(yùn)算功能運(yùn)算出的概率分布的分散度為所述閾值以上時(shí),從多個(gè)候選中將成為對(duì)象的行動(dòng)選擇為操作提案的對(duì)象而輸出,即,進(jìn)行試錯(cuò)性的操作提案。
在上述第1、第2方式中,使用駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)的歷史記錄,設(shè)定表示車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù)。并且,通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),構(gòu)筑在各狀態(tài)下駕駛員針對(duì)車載設(shè)備的操作提案的意思決定的模型。另外,使用該構(gòu)筑好的模型,計(jì)算出在各狀態(tài)下基于駕駛員針對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的概率分布。在這里,車載設(shè)備的操作內(nèi)容的概率分布的分散度通常是根據(jù)車載設(shè)備的操作提案的對(duì)象不同而不同的。例如,如果車載設(shè)備的操作提案的對(duì)象是聲音播放,則通常不僅受到車輛狀態(tài)的影響,還容易受到此時(shí)駕駛員的情緒等影響,其選項(xiàng)也非常多,因此,很可能使得車載設(shè)備的操作內(nèi)容的概率分布的分散度變大。另一方面,如果車載設(shè)備的操作提案的對(duì)象為目的地設(shè)定,則通常與聲音播放相比,容易根據(jù)該時(shí)刻的車輛狀態(tài)縮小選項(xiàng)范圍,因此,很可能車載設(shè)備的操作內(nèi)容的概率分布的分散度變小。針對(duì)這一點(diǎn),在上述結(jié)構(gòu)中,在概率分布的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定作為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,從而進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案,而無(wú)需駕駛員選擇車載設(shè)備的操作內(nèi)容。另一方面,在上述結(jié)構(gòu)中,在概率分布的分散度為閾值以上時(shí),通過(guò)從多個(gè)候選中選擇成為對(duì)象的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出,即進(jìn)行試錯(cuò)性的操作提案,從而更可靠得進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。即,在上述結(jié)構(gòu)中,無(wú)論概率分布的分散度是大還是小,作為操作提案的對(duì)象而一次輸出的車載設(shè)備的操作內(nèi)容都只有一個(gè),因此,駕駛員只要對(duì)每次提議的車載設(shè)備的操作內(nèi)容進(jìn)行是否同意的意思表示即可。因此,針對(duì)目的地的設(shè)定及聲音播放這些概率分布的分散度不同的不同種類的車載設(shè)備的操作提案的響應(yīng),能夠始終使用簡(jiǎn)單且相同的用戶界面進(jìn)行。由此,能夠在減輕駕駛員的負(fù)擔(dān)的同時(shí)執(zhí)行符合駕駛員意圖的車載設(shè)備的操作提案。
本發(fā)明的第3方式所涉及的信息提供裝置具有智能電子控制單元(智能ecu)。智能ecu含有:狀態(tài)空間構(gòu)成部,其通過(guò)將多種車輛數(shù)據(jù)關(guān)聯(lián)起來(lái)而定義車輛的狀態(tài),從而構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間;行動(dòng)空間構(gòu)成部,其將表示基于駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的數(shù)據(jù),定義為行動(dòng),從而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間;增強(qiáng)學(xué)習(xí)部,其存儲(chǔ)駕駛員對(duì)所述車載設(shè)備的操作提案的響應(yīng)的歷史記錄,使用該存儲(chǔ)的歷史記錄,設(shè)定作為表示所述車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù),并且通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),計(jì)算出在構(gòu)成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構(gòu)成所述行動(dòng)空間的各行動(dòng)的概率分布;分散度運(yùn)算部,其通過(guò)將與構(gòu)成所述狀態(tài)空間的多個(gè)狀態(tài)相對(duì)應(yīng)的、由所述增強(qiáng)學(xué)習(xí)部計(jì)算出的概率分布的分散度進(jìn)行加合運(yùn)算,從而運(yùn)算所述狀態(tài)空間的分散度;以及信息提供部,其在由所述分散度運(yùn)算部運(yùn)算出的所述狀態(tài)空間的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,在由所述分散度運(yùn)算部運(yùn)算出的所述狀態(tài)空間的分散度為所述閾值以上時(shí),從多個(gè)候選中將成為對(duì)象的行動(dòng)選擇為操作提案的對(duì)象而輸出,即,進(jìn)行試錯(cuò)性的操作提案。
在第4方式所涉及的存儲(chǔ)信息提供程序的非易失性計(jì)算機(jī)可讀介質(zhì)中,所述信息提供程序使計(jì)算機(jī)實(shí)現(xiàn)下述功能,即:狀態(tài)空間構(gòu)成功能,其通過(guò)將多種車輛數(shù)據(jù)關(guān)聯(lián)起來(lái)而定義車輛的狀態(tài),從而構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間;行動(dòng)空間構(gòu)成功能,其將表示基于駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的數(shù)據(jù),定義為行動(dòng),從而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間;增強(qiáng)學(xué)習(xí)功能,其存儲(chǔ)駕駛員對(duì)所述車載設(shè)備的操作提案的響應(yīng)的歷史記錄,使用該存儲(chǔ)的歷史記錄,設(shè)定作為表示所述車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù),并且通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),計(jì)算出在構(gòu)成所述狀態(tài)空間的各狀態(tài)下,執(zhí)行構(gòu)成所述行動(dòng)空間的各行動(dòng)的概率分布;分散度運(yùn)算功能,其通過(guò)將與構(gòu)成所述狀態(tài)空間的多個(gè)狀態(tài)相對(duì)應(yīng)的、由所述增強(qiáng)學(xué)習(xí)功能計(jì)算出的概率分布的分散度進(jìn)行加合運(yùn)算,從而運(yùn)算所述狀態(tài)空間的分散度;以及信息提供功能,其在由所述分散度運(yùn)算功能運(yùn)算出的所述狀態(tài)空間的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,在由所述分散度運(yùn)算功能運(yùn)算出的所述狀態(tài)空間的分散度為所述閾值以上時(shí),從多個(gè)候選中將成為對(duì)象的行動(dòng)選擇為操作提案的對(duì)象而輸出,即,進(jìn)行試錯(cuò)性的操作提案。
根據(jù)上述第3、第4方式,使用駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)的歷史記錄,設(shè)定表示車載設(shè)備的操作提案的適合程度的指標(biāo)的回報(bào)函數(shù)。并且,通過(guò)基于該回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí),構(gòu)筑在各狀態(tài)下駕駛員針對(duì)車載設(shè)備的操作提案的意思決定的模型。另外,使用該構(gòu)筑好的模型,計(jì)算出在各狀態(tài)下基于駕駛員針對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作內(nèi)容的概率分布。在這里,車載設(shè)備的操作內(nèi)容的概率分布的分散度通常是根據(jù)車載設(shè)備的操作提案的對(duì)象不同而不同的。例如,如果車載設(shè)備的操作提案的對(duì)象是聲音播放,則通常不僅受到車輛狀態(tài)的影響,還容易受到此時(shí)駕駛員的情緒等影響,其選項(xiàng)也非常多,因此,很可能使得車載設(shè)備的操作內(nèi)容的概率分布的分散度變大。另一方面,如果車載設(shè)備的操作提案的對(duì)象為目的地設(shè)定,則通常與聲音播放相比,容易根據(jù)該時(shí)刻的車輛狀態(tài)縮小選項(xiàng)范圍,因此,很可能車載設(shè)備的操作內(nèi)容的概率分布的分散度變小。針對(duì)這一點(diǎn),在上述結(jié)構(gòu)中,在根據(jù)概率分布的分散度的加合運(yùn)算值求出的狀態(tài)空間的分散度小于閾值時(shí),將成為對(duì)象的行動(dòng)固定作為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案,從而進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案,而無(wú)需駕駛員選擇車載設(shè)備的操作內(nèi)容。另一方面,在上述結(jié)構(gòu)中,在根據(jù)概率分布的分散度的加合運(yùn)算值求出的狀態(tài)空間的分散度為閾值以上時(shí),通過(guò)從多個(gè)候選中選擇成為對(duì)象的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出,即進(jìn)行試錯(cuò)性的操作提案,從而更可靠得進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。即,在上述結(jié)構(gòu)中,無(wú)論狀態(tài)空間的分散度是大還是小,作為操作提案的對(duì)象而一次輸出的車載設(shè)備的操作內(nèi)容都只有一個(gè),因此,駕駛員只要對(duì)每次提議的車載設(shè)備的操作內(nèi)容進(jìn)行是否同意的意思表示即可。因此,針對(duì)目的地的設(shè)定及聲音播放這些概率分布的分散度不同的不同種類的車載設(shè)備的操作提案的響應(yīng),能夠始終使用簡(jiǎn)單且相同的用戶界面進(jìn)行。由此,能夠在減輕駕駛員的負(fù)擔(dān)的同時(shí)執(zhí)行符合駕駛員意圖的車載設(shè)備的操作提案。
在上述第2方式中,也可以是所述增強(qiáng)學(xué)習(xí)部構(gòu)成為,在將構(gòu)成所述狀態(tài)空間的各狀態(tài)至構(gòu)成所述行動(dòng)空間的各行動(dòng)的映射作為策略,且將在所述各狀態(tài)下遵從所述策略的情況下所得到的累計(jì)回報(bào)的期待值設(shè)為狀態(tài)值函數(shù),將構(gòu)成所述狀態(tài)空間的全部狀態(tài)中使所述狀態(tài)值函數(shù)最大的所述策略設(shè)為最優(yōu)策略時(shí),將構(gòu)成所述狀態(tài)空間的各狀態(tài)下從所述行動(dòng)空間中選擇了規(guī)定行動(dòng)后遵從所述最優(yōu)策略的情況下始終得到的累計(jì)回報(bào)的期待值推定為最優(yōu)行動(dòng)值函數(shù),基于該推定出的最優(yōu)行動(dòng)值函數(shù)計(jì)算所述概率分布,所述信息提供部構(gòu)成為,在由所述分散度運(yùn)算部運(yùn)算出的所述狀態(tài)空間的分散度小于所述閾值時(shí),將當(dāng)前狀態(tài)下的使所述最優(yōu)行動(dòng)值函數(shù)最大化的行動(dòng)作為對(duì)象,進(jìn)行所述確定的操作提案。
在上述結(jié)構(gòu)中,在狀態(tài)空間的分散度小于閾值時(shí),將當(dāng)前狀態(tài)下的使最優(yōu)行動(dòng)值函數(shù)最大化的行動(dòng)、即在當(dāng)前狀態(tài)下的最有價(jià)值的行動(dòng)也就是預(yù)測(cè)駕駛員采用可能性最高的行動(dòng)作為對(duì)象,執(zhí)行確定的操作提案。由此,能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的車載設(shè)備的操作提案。
在上述信息提供裝置中,也可以是所述信息提供部構(gòu)成為,在由所述分散度運(yùn)算部運(yùn)算出的所述狀態(tài)空間的分散度為所述閾值以上時(shí),其執(zhí)行的所述試錯(cuò)性的操作提案呈現(xiàn)出的趨勢(shì)為,當(dāng)前狀態(tài)下的所述概率分布的概率密度越高的行動(dòng),被選擇為對(duì)象的頻率越高。
在上述結(jié)構(gòu)中,在狀態(tài)空間的分散度為閾值以上時(shí),執(zhí)行的試錯(cuò)性的操作提案呈現(xiàn)出的趨勢(shì)為,當(dāng)前狀態(tài)下的概率分布的概率密度越高的行動(dòng),即當(dāng)前狀態(tài)下駕駛員采用可能性較高的行動(dòng)被選擇為車載設(shè)備的操作提案的對(duì)象的頻率越高。由此,對(duì)于作為對(duì)象的車載設(shè)備的操作提案,即使難以事先確定駕駛員的行動(dòng),也能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的車載設(shè)備的操作提案。
在上述信息提供裝置中,也可以使所述分散度運(yùn)算部將構(gòu)成所述狀態(tài)空間的各狀態(tài)下的構(gòu)成所述行動(dòng)空間的各行動(dòng)被執(zhí)行的概率分布的分散度定義為熵,并且將所述狀態(tài)空間的分散度定義為平均熵,所述信息提供部使用將所述平均熵的值設(shè)定為ε值的ε-貪婪法,以ε值越大則所述試錯(cuò)性的操作提案頻率越高的趨勢(shì),選擇所述確定的操作提案或所述試錯(cuò)性的操作提案。
在上述結(jié)構(gòu)中,定義為狀態(tài)空間的分散度的平均熵的值即ε值越大、即狀態(tài)空間的分散度越大,則選擇試錯(cuò)性的操作提案的頻率越高。由此,對(duì)于作為對(duì)象的車載設(shè)備的操作提案,即使難以確定駕駛員的行動(dòng),也能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的車載設(shè)備的操作提案。
在上述信息提供裝置中,也可以是所述增強(qiáng)學(xué)習(xí)部構(gòu)成為,將根據(jù)駕駛員對(duì)所述車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作的頻率,設(shè)定為所述回報(bào)函數(shù),在與所述車載設(shè)備的操作提案對(duì)應(yīng)地進(jìn)行車載設(shè)備的操作時(shí),與該操作歷史記錄的變更對(duì)應(yīng)而更新所述回報(bào)函數(shù)。
在上述結(jié)構(gòu)中,作為針對(duì)駕駛員意圖的車載設(shè)備的操作提案的適合程度的指標(biāo),應(yīng)用根據(jù)駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的行動(dòng)的頻率設(shè)定回報(bào)函數(shù),并在每次響應(yīng)歷史記錄變更時(shí)都更新回報(bào)函數(shù)。由此,能夠在符合駕駛員意圖的情形下計(jì)算出構(gòu)成狀態(tài)空間的各狀態(tài)下的執(zhí)行構(gòu)成行動(dòng)空間的各行動(dòng)的概率分布,并且能夠隨著駕駛員響應(yīng)的頻率增加,在符合駕駛員個(gè)人進(jìn)行的響應(yīng)的實(shí)際狀態(tài)的情形下提高概率分布的精度。
在上述信息提供裝置中,也可以是所述狀態(tài)空間構(gòu)成部構(gòu)成為,作為將所述車載設(shè)備的操作狀況、所述車輛的乘客的特性、以及所述車輛的行駛狀況關(guān)聯(lián)起來(lái)的數(shù)據(jù)組即狀態(tài)的集合,構(gòu)成所述狀態(tài)空間。
在上述結(jié)構(gòu)中,考慮車載設(shè)備的操作狀況、車輛的乘客的特性、以及車輛的行駛狀況等多種對(duì)向駕駛員提出的車載設(shè)備的操作提案產(chǎn)生影響的要素,定義構(gòu)成狀態(tài)空間的各狀態(tài)。由此,能夠在更高一級(jí)地符合實(shí)際情況的情形下,實(shí)現(xiàn)符合駕駛員意圖的車載設(shè)備的操作提案。此外,在上述結(jié)構(gòu)中,如上所述考慮到各種要素后,還可預(yù)想到構(gòu)成狀態(tài)空間的狀態(tài)的數(shù)量變得龐大這一情況。但是,通過(guò)在存儲(chǔ)歷史記錄數(shù)據(jù)的同時(shí)使用實(shí)現(xiàn)精度提高的增強(qiáng)學(xué)習(xí)的方法,從而即使沒(méi)有例如像使用監(jiān)督學(xué)習(xí)那樣事先準(zhǔn)備龐大數(shù)量的訓(xùn)練數(shù)據(jù),也能夠?qū)崿F(xiàn)符合駕駛員意圖的車載設(shè)備的操作提案。
附圖說(shuō)明
下面,參照附圖記載本發(fā)明所示例的實(shí)施例的特征、優(yōu)點(diǎn)、以及技術(shù)上和工業(yè)上的意義,在附圖中,同一附圖標(biāo)記示出同一部件。
圖1是表示信息提供裝置的第1實(shí)施方式的概略結(jié)構(gòu)的框圖。
圖2是表示對(duì)狀態(tài)空間進(jìn)行定義的車輛數(shù)據(jù)的屬性的一個(gè)例子的圖。
圖3是表示狀態(tài)空間表格的設(shè)定內(nèi)容的一個(gè)例子的圖。
圖4是表示對(duì)狀態(tài)空間進(jìn)行定義的車輛數(shù)據(jù)的屬性的一個(gè)例子的圖。
圖5是表示狀態(tài)空間表格的設(shè)定內(nèi)容的一個(gè)例子的圖。
圖6是表示行動(dòng)空間表格的設(shè)定內(nèi)容的一個(gè)例子的圖。
圖7是表示行動(dòng)空間表格的設(shè)定內(nèi)容的一個(gè)例子的圖。
圖8是表示在構(gòu)成狀態(tài)空間的各狀態(tài)下進(jìn)行構(gòu)成行動(dòng)空間的各行動(dòng)時(shí)的跳轉(zhuǎn)概率矩陣的一個(gè)例子的圖。
圖9是表示執(zhí)行試錯(cuò)性的操作提案時(shí)使用的累積分布函數(shù)的一個(gè)例子的曲線圖。
圖10a是表示對(duì)當(dāng)前狀態(tài)進(jìn)行定義的車輛數(shù)據(jù)的屬性的一個(gè)例子的圖,圖10b是用于說(shuō)明在圖10a所示的狀態(tài)下選擇確定的操作提案所使用的行動(dòng)的過(guò)程的圖。
圖11a是表示對(duì)當(dāng)前狀態(tài)進(jìn)行定義的車輛數(shù)據(jù)的屬性的一個(gè)例子的圖,圖11b是用于說(shuō)明在圖11a所示的狀態(tài)下選擇試錯(cuò)性的操作提案所使用的行動(dòng)的過(guò)程的圖。
圖12是表示方向盤操作開關(guān)的一個(gè)例子的圖。
圖13是作為信息提供處理的一個(gè)例子而示出車載設(shè)備的操作提案處理的處理內(nèi)容的流程圖。
圖14是表示在包括確定的操作提案的方式下,智能ecu與駕駛員之間交互對(duì)話的內(nèi)容的一個(gè)例子的圖。
圖15是表示在包括試錯(cuò)性的操作提案的方式下,智能ecu與駕駛員之間交互對(duì)話的內(nèi)容的一個(gè)例子的圖。
圖16是用于說(shuō)明信息提供裝置的第2實(shí)施方式中,選擇確定的操作提案及試錯(cuò)性的操作提案的過(guò)程的圖。
圖17是表示方向盤操作開關(guān)的另一個(gè)例子的圖。
圖18是表示方向盤操作開關(guān)的其它例子的圖。
具體實(shí)施方式
(第1實(shí)施方式)以下,說(shuō)明信息提供裝置的第1實(shí)施方式。本實(shí)施方式的信息提供裝置由智能ecu(電子控制裝置)構(gòu)成,該智能ecu搭載于車輛上,向駕駛員進(jìn)行作為信息提供的車載設(shè)備的操作提案。在這里,智能ecu的功能大致劃分為學(xué)習(xí)類、信息獲取類、用戶界面類。并且,智能ecu基于通過(guò)信息獲取類獲取到的各種信息,將車載設(shè)備的操作歷史記錄根據(jù)當(dāng)時(shí)的各種車輛狀態(tài)而分類,并在學(xué)習(xí)類中作為學(xué)習(xí)的一個(gè)方式而執(zhí)行增強(qiáng)學(xué)習(xí),并且基于該增強(qiáng)學(xué)習(xí)的學(xué)習(xí)結(jié)果,執(zhí)行經(jīng)由用戶界面類的車載設(shè)備的操作提案。在這里,增強(qiáng)學(xué)習(xí)是指,在智能ecu基于環(huán)境選擇了某種行動(dòng)時(shí),通過(guò)與基于該所選擇的行動(dòng)發(fā)生的環(huán)境變化相伴而對(duì)智能ecu產(chǎn)生的某種回報(bào),從而通過(guò)試錯(cuò)使得智能ecu不斷適應(yīng)環(huán)境的學(xué)習(xí)方法。此外,在本實(shí)施方式中,智能ecu將例如車載設(shè)備的操作狀況、車輛的乘客的特性、車輛的行駛狀況等各種車輛數(shù)據(jù)彼此關(guān)聯(lián)起來(lái)而定義狀態(tài),從而構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間。另外,智能ecu將伴隨著駕駛員對(duì)操作提案的響應(yīng)而智能ecu能夠代替實(shí)行的某一車載設(shè)備的操作的種類定義為行動(dòng),從而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間。并且,在構(gòu)成狀態(tài)空間的各狀態(tài)下,作為針對(duì)車載設(shè)備的操作提案的響應(yīng)而執(zhí)行的車載設(shè)備的操作的歷史記錄,相當(dāng)于增強(qiáng)學(xué)習(xí)中所謂的回報(bào)。另外,智能ecu通過(guò)執(zhí)行上述增強(qiáng)學(xué)習(xí),計(jì)算出在構(gòu)成狀態(tài)空間的各狀態(tài)下執(zhí)行構(gòu)成行動(dòng)空間的各行動(dòng)的概率分布。另外,智能ecu基于上述計(jì)算出的概率分布,根據(jù)此刻的車輛狀態(tài)預(yù)測(cè)駕駛員采用可能性較高的行動(dòng),以添加該預(yù)測(cè)結(jié)果的方式執(zhí)行車載設(shè)備的操作提案。
首先,參照附圖說(shuō)明本實(shí)施方式的裝置的構(gòu)成。如圖1所示,智能ecu100具有:控制部110,其控制車載設(shè)備的操作提案;以及存儲(chǔ)部120,其存儲(chǔ)控制部110在進(jìn)行車載設(shè)備的操作提案時(shí)執(zhí)行的信息提供程序、以及執(zhí)行該信息提供程序時(shí)控制部110讀寫的各種數(shù)據(jù)。在這里,作為存儲(chǔ)在存儲(chǔ)部120中各種數(shù)據(jù),包括定義狀態(tài)空間的狀態(tài)空間表格t1、t1α,定義行動(dòng)空間的行動(dòng)空間表格t2、t2α、以及車載設(shè)備的操作歷史記錄ra。狀態(tài)空間表格作為狀態(tài)空間構(gòu)成部起作用,行動(dòng)空間表格作為行動(dòng)空間構(gòu)成部起作用。此外,在本實(shí)施方式中,準(zhǔn)備了例如聲音播放、目的地設(shè)定、空調(diào)設(shè)定、座椅位置設(shè)定、鏡子設(shè)定、雨刷設(shè)定等多種作為操作提案的對(duì)象的服務(wù)種類。并且,在智能ecu100的存儲(chǔ)部120中,針對(duì)上述服務(wù)的各個(gè)種類而分別存儲(chǔ)相應(yīng)的狀態(tài)空間表格t1、t1α及行動(dòng)空間表格t2、t2α。
圖2中,作為操作提案的一個(gè)例子而示出在進(jìn)行目的地設(shè)定時(shí)狀態(tài)定義所使用的車輛數(shù)據(jù)的屬性的一個(gè)例子。在這里,車輛數(shù)據(jù)的屬性是指作為對(duì)目的地設(shè)定的方法有幫助的要素而預(yù)先登記的內(nèi)容,在該圖所示的例子中,包括與車載設(shè)備的操作狀況da、車輛的乘客的特性db、車輛的行駛狀況dc相關(guān)的車輛數(shù)據(jù)。此外,作為與車載設(shè)備的操作狀況da相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出目的地da1、時(shí)刻da2、星期幾da3、當(dāng)前位置da4。另外,作為與車輛的乘客的特性db相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出有無(wú)配偶db1、有無(wú)孩子db2、同行人數(shù)量db3、有無(wú)愛好db4、目的db5。另外,作為與車輛的行駛狀況dc相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出交通狀況(堵車程度)dc1、天氣dc2。
并且,如圖3所示,狀態(tài)空間表格t1通過(guò)將圖2所示的車輛數(shù)據(jù)的屬性通過(guò)輪詢方式進(jìn)行組合而定義狀態(tài),構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間。在這里,狀態(tài)空間表格t1含有的狀態(tài)的數(shù)量m(例如為400萬(wàn)左右)隨著構(gòu)成車輛數(shù)據(jù)的屬性的要素種類(在圖2所示的例子中,包括從左側(cè)開始順序?yàn)椤澳康牡亍敝痢疤鞖狻睘橹沟?1種)或各要素的參數(shù)數(shù)量(在圖2所示的例子中,例如作為“目的地”的參數(shù)數(shù)量為8個(gè))變多而增加。
另一方面,圖4中,作為操作提案的一個(gè)例子而示出進(jìn)行聲音播放時(shí)的狀態(tài)定義所使用的車輛數(shù)據(jù)的屬性的一個(gè)例子。在這里,車輛數(shù)據(jù)的屬性是指作為對(duì)聲音播放的方式有幫助的要素而預(yù)先登記的內(nèi)容,在該圖所示的例子中,包含與車載設(shè)備的操作狀況daα、車輛的乘客的特性dbα、車輛的行駛狀況dcα相關(guān)的車輛數(shù)據(jù)。此外,作為與車載設(shè)備的操作狀況daα相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出音源da1α、重復(fù)播放設(shè)定da2α、音量da3α、時(shí)刻da4α、星期幾da5α、當(dāng)前位置da6α。另外,作為與車輛的乘客的特性dbα相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出有無(wú)配偶db1α、有無(wú)孩子db2α、同行人數(shù)量db3α、駕駛員的困倦程度db4α。另外,作為與車輛的行駛狀況dcα相關(guān)的車輛數(shù)據(jù)的一個(gè)例子,舉出包括車輛周邊的城市化·郊野化的程度及道路環(huán)境在內(nèi)的環(huán)境dc1α。
并且,如圖5所示,狀態(tài)空間表格t1α通過(guò)將圖4所示的車輛數(shù)據(jù)的屬性通過(guò)輪詢方式進(jìn)行組合而定義狀態(tài),構(gòu)成多個(gè)狀態(tài)的集合即狀態(tài)空間。在這里,狀態(tài)空間表格t1α含有的狀態(tài)的數(shù)量n(例如為15億左右)也是隨著構(gòu)成車輛數(shù)據(jù)的屬性的要素種類或各要素的參數(shù)數(shù)量變多而增加。
圖6示出智能ecu100對(duì)作為操作提案的一個(gè)例子的代為實(shí)行目的地設(shè)定時(shí)的行動(dòng)進(jìn)行定義而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間的行動(dòng)空間表格t2的一個(gè)例子。在該圖所示的例子中,作為行動(dòng)空間含有的行動(dòng)的種類,舉出作為設(shè)定的對(duì)象的目的地的場(chǎng)所名稱的一覽。在這里,作為設(shè)定的對(duì)象的目的地的場(chǎng)所是指,例如作為過(guò)去由駕駛員自己設(shè)定的頻率特別高的場(chǎng)所名而預(yù)先登記的內(nèi)容,在該圖所示的例子中,除了“家”,“父母家”之外,還登記有“場(chǎng)所1”~“場(chǎng)所6”等共計(jì)8個(gè)場(chǎng)所名。
另外,圖7示出智能ecu100對(duì)作為操作提案的一個(gè)例子的代為實(shí)行聲音播放時(shí)的行動(dòng)進(jìn)行定義而構(gòu)成多個(gè)行動(dòng)的集合即行動(dòng)空間的行動(dòng)空間表格t2α的一個(gè)例子。在該圖所示的例子中,作為行動(dòng)空間所包含的行動(dòng)的種類,舉出作為播放對(duì)象的音源的一覽。在這里,作為播放對(duì)象的音源是指,例如作為過(guò)去由駕駛員播放的頻率特別高的音源而預(yù)先登記的內(nèi)容,在該圖所示的例子中,登記有包括收音機(jī)的頻道名、以及移動(dòng)終端或cd(compactdisk)等存儲(chǔ)介質(zhì)中保存的樂(lè)曲的曲名在內(nèi)的共計(jì)100個(gè)音源。
另外,如圖1所示,智能ecu100經(jīng)由例如can(控制器局域網(wǎng))等構(gòu)成的車輛網(wǎng)絡(luò)nw而與其它ecu組130、傳感器組131、以及開關(guān)組132連接。
其它ecu組130是控制各種車載設(shè)備的動(dòng)作的車載ecu,包括對(duì)發(fā)動(dòng)機(jī)、制動(dòng)器、轉(zhuǎn)向舵等進(jìn)行控制的車輛驅(qū)動(dòng)類的車載ecu、對(duì)空調(diào)、儀表等進(jìn)行控制的車身類的車載ecu、對(duì)導(dǎo)航系統(tǒng)、音頻系統(tǒng)等進(jìn)行控制的信息類的車載ecu。
傳感器組131是用于取得各種車輛數(shù)據(jù)的傳感器組,包括gps(全球定位系統(tǒng))傳感器、激光雷達(dá)、紅外線傳感器、超聲波傳感器、雨滴傳感器、外部氣溫傳感器、車廂內(nèi)溫度傳感器、就座傳感器、安全帶佩戴狀態(tài)傳感器、車廂內(nèi)照相機(jī)、智能鑰匙傳感器(注冊(cè)商標(biāo)“スマートキー”)、入侵監(jiān)視傳感器、花粉等微粒傳感器、加速度傳感器、電場(chǎng)強(qiáng)度傳感器、駕駛員監(jiān)視器、車速傳感器、轉(zhuǎn)向角傳感器、偏航率傳感器,生物體傳感器。
開關(guān)組132是用于對(duì)各種車載設(shè)備的動(dòng)作進(jìn)行切換的開關(guān)組,包括轉(zhuǎn)向桿開關(guān)、雨刷操作開關(guān)、車燈操作開關(guān)、方向盤操作開關(guān)、導(dǎo)航·音頻操作開關(guān)、車窗操作開關(guān)、車門·行李箱開閉·鎖定開關(guān)、空調(diào)操作開關(guān)、座椅加熱·通風(fēng)開關(guān)、座椅位置調(diào)整·預(yù)設(shè)值存儲(chǔ)開關(guān)、入侵監(jiān)視系統(tǒng)開關(guān)、后視鏡操作開關(guān)、自適應(yīng)巡航控制(acc)開關(guān)、發(fā)動(dòng)機(jī)開關(guān)。
并且,智能ecu100的控制部110在從上述其它ecu組130、傳感器組131、及開關(guān)組132經(jīng)由車輛網(wǎng)絡(luò)nw輸入了各種車輛數(shù)據(jù)后,參照存儲(chǔ)在存儲(chǔ)部120中的狀態(tài)空間表格t1、t1α確定相應(yīng)的車輛狀態(tài)。另外,智能ecu100的控制部110在每次根據(jù)駕駛員針對(duì)車載設(shè)備的操作提案的響應(yīng)而從行動(dòng)空間所包含的行動(dòng)中選擇規(guī)定的行動(dòng)并執(zhí)行車載設(shè)備的操作時(shí),都對(duì)存儲(chǔ)在存儲(chǔ)部120中的車載設(shè)備的操作歷史記錄ra中與該狀態(tài)對(duì)應(yīng)的操作歷史記錄的計(jì)數(shù)值進(jìn)行累加計(jì)算。在這一點(diǎn)上,智能ecu100的控制部110是存儲(chǔ)在構(gòu)成狀態(tài)空間的各狀態(tài)下駕駛員針對(duì)車載設(shè)備的操作提案的響應(yīng)的歷史記錄數(shù)據(jù)的部件。
另外,智能ecu100的控制部110,對(duì)于在如上所述進(jìn)行了學(xué)習(xí)的各狀態(tài)下,將接受操作提案時(shí)的車載設(shè)備的操作歷史記錄的計(jì)數(shù)值設(shè)定為回報(bào)函數(shù),同時(shí)作為通過(guò)以下(步驟1)~(步驟7)的流程執(zhí)行增強(qiáng)學(xué)習(xí)種類之一的q學(xué)習(xí)的增強(qiáng)學(xué)習(xí)部111起作用。
(步驟1)在將從構(gòu)成狀態(tài)空間的各狀態(tài)至構(gòu)成行動(dòng)空間的各行動(dòng)的映射作為策略π時(shí),在初始設(shè)定任意的策略π。(步驟2)觀測(cè)當(dāng)前狀態(tài)st(t為時(shí)間步長(zhǎng))。(步驟3)基于任意的行動(dòng)選擇方法執(zhí)行行動(dòng)at(t為時(shí)間步長(zhǎng))。(步驟4)獲取回報(bào)rt(t為時(shí)間步長(zhǎng))。(步驟5)觀測(cè)狀態(tài)跳轉(zhuǎn)后的狀態(tài)s(t+1)(其前提為,向狀態(tài)s(t+1)的跳轉(zhuǎn)僅與此時(shí)的狀態(tài)st和行動(dòng)at相關(guān),并不受到此前的狀態(tài)及行動(dòng)的影響(即所謂的馬爾可夫性))。(步驟6)更新行動(dòng)值函數(shù)q(st,at)。(步驟7)將時(shí)間步長(zhǎng)t前進(jìn)至(t+1)后返回(步驟1)。
此外,作為在(步驟3)的流程中的行動(dòng)選擇方法,可以使用后述的必定選擇使行動(dòng)值函數(shù)q(st,at)的值為最大的行動(dòng)的貪婪法,或者相反地使用將各種行動(dòng)以相同概率進(jìn)行選擇的隨機(jī)法。另外,還可以使用以概率ε通過(guò)隨機(jī)法進(jìn)行行動(dòng)選擇且以概率(1-ε)通過(guò)貪婪法進(jìn)行行動(dòng)選擇的ε-貪婪法,或者以高概率選擇行動(dòng)值函數(shù)q(st,at)較高的行動(dòng)且以低概率選擇行動(dòng)值函數(shù)q(st,at)較低的行動(dòng)的玻爾茲曼選擇等方法。
另外,在(步驟6)的流程中的行動(dòng)值函數(shù)q(st,at)的更新基于下述算式(1)進(jìn)行。
q(st,at)=(1-α)q(st,at)+α(rt+γmaxat+1∈aq(st+1,at+1))
...(1)
此外,在算式(1)中將學(xué)習(xí)率α設(shè)定為0<α<1的數(shù)值范圍內(nèi)。這是為了使得隨著時(shí)間經(jīng)過(guò)而不斷更新的行動(dòng)值函數(shù)q(st,at)的增大量逐漸減少而容易收斂。另外,在該算式(1)中,q(st,at)表示上述的行動(dòng)值函數(shù),其表示以增強(qiáng)學(xué)習(xí)部111與時(shí)間經(jīng)過(guò)無(wú)關(guān)地采取固定策略π為前提時(shí),在狀態(tài)st下采用行動(dòng)at后遵從策略π的情況所得到的折算累積回報(bào)rt的期待值。在這里,折算累積回報(bào)rt是指在反復(fù)發(fā)生狀態(tài)跳轉(zhuǎn)中得到的回報(bào)的總和,根據(jù)以下算式(2)得出。
此外,在算式(2)(算式(1)也相同地)中,將折算率γ設(shè)定在0<γ<1的數(shù)值范圍內(nèi)。這是為了使得隨著時(shí)間經(jīng)過(guò)而得到的回報(bào)值逐漸減少,從而使得折算累積回報(bào)rt的值容易收斂。
然后,增強(qiáng)學(xué)習(xí)部111通過(guò)反復(fù)進(jìn)行上述(步驟1)~(步驟7)的流程,從而計(jì)算出使行動(dòng)值函數(shù)q(st,at)最大化(最優(yōu)化)的最優(yōu)行動(dòng)值函數(shù)q*(st,at)。在這里,最優(yōu)行動(dòng)值函數(shù)q*(st,at)表示在將表示狀態(tài)st下遵從策略π的情況所得到的折算累積回報(bào)rt的期待值的函數(shù)設(shè)為狀態(tài)值函數(shù)v(st),將所有狀態(tài)st下滿足v(st)≧v’(st)的策略π作為最優(yōu)策略π*時(shí),在狀態(tài)st下選擇行動(dòng)at后遵從最優(yōu)策略π*的情況下所得到的折算累積回報(bào)rt的期待值。
并且,增強(qiáng)學(xué)習(xí)部111將如上所述得到的最優(yōu)行動(dòng)值函數(shù)q*(st,at)代入以下算式(3)。由此,計(jì)算出從構(gòu)成狀態(tài)空間的各狀態(tài)向構(gòu)成行動(dòng)空間的各行動(dòng)跳轉(zhuǎn)的跳轉(zhuǎn)概率矩陣中的使折算累積回報(bào)rt最大化的跳轉(zhuǎn)概率矩陣、即計(jì)算出考慮各狀態(tài)的操作歷史記錄ra的計(jì)數(shù)值且符合駕駛員意圖的跳轉(zhuǎn)概率矩陣p(st,at)。
圖8示出如上所述計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)的一個(gè)例子。跳轉(zhuǎn)概率矩陣p(st,at)的各行對(duì)應(yīng)于構(gòu)成狀態(tài)空間的各狀態(tài),各列對(duì)應(yīng)于構(gòu)成行動(dòng)空間的各行動(dòng)。并且,在該圖所示的例子中,例如將狀態(tài)s1下采用行動(dòng)a1的概率設(shè)為“0.01”,在該狀態(tài)s1下采用行動(dòng)a2的概率設(shè)為“0.10”,在該狀態(tài)s1下采用行動(dòng)a100的概率設(shè)為“0.03”。
并且,智能ecu100的控制部110在將上述概率作為p時(shí),使用圖8所示的算式計(jì)算出信息熵h(s)。此外,信息熵h(s)是作為概率分布的分散度的指標(biāo)的參數(shù)。從這一點(diǎn)來(lái)說(shuō),智能ecu100的控制部110還作為對(duì)由增強(qiáng)學(xué)習(xí)部111計(jì)算出的概率分布的分散度進(jìn)行運(yùn)算的分散度運(yùn)算部112起作用。并且,信息熵h(s)的值越大,就表示概率分布的分散度越大,即狀態(tài)st下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率越均勻地分散。因此,在信息熵h(s)的值較大的情況下,難以預(yù)測(cè)駕駛員要從構(gòu)成行動(dòng)空間的行動(dòng)中采用的行動(dòng)。
另外,分散度運(yùn)算部112如以下的算式(4)所示,將針對(duì)構(gòu)成狀態(tài)空間的各狀態(tài)計(jì)算出的信息熵h(s)進(jìn)行加合運(yùn)算而計(jì)算出平均熵h(ω)。
此外,平均熵h(ω)是表示狀態(tài)空間的分散度的參數(shù)。并且,平均熵h(ω)的值越大,表示狀態(tài)空間的分散度就越大,即在對(duì)狀態(tài)空間整體進(jìn)行觀察時(shí)各狀態(tài)下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率就越均勻地分散。因此,平均熵h(ω)的值成為能否針對(duì)作為操作提案的對(duì)象的服務(wù)而預(yù)測(cè)駕駛員從構(gòu)成行動(dòng)空間的行動(dòng)中可能采用的行動(dòng)的指標(biāo)。
因此,智能ecu100的控制部110還作為提案信息生成部113起作用,該提案信息生成部113根據(jù)以下算法而使用將由增強(qiáng)學(xué)習(xí)部111求出的平均熵h(ω)作為ε值的ε-貪婪法,生成與車載設(shè)備的操作提案相關(guān)的信息。提案信息生成部還作為信息提供部起作用。
此外,在上述算法中,提案信息生成部113設(shè)定落在0~1的數(shù)值范圍內(nèi)的隨機(jī)數(shù)δ(閾值),在滿足“δ>ε”的條件時(shí),應(yīng)用算式(5)。即,由增強(qiáng)學(xué)習(xí)部111求出的平均熵h(ω)的值越小,提案信息生成部113就越提高應(yīng)用算式(5)的頻率。并且,提案信息生成部113通過(guò)應(yīng)用算式(5),將如上所述使得由增強(qiáng)學(xué)習(xí)部111求出的最優(yōu)行動(dòng)值函數(shù)q*(st,at)最大化的行動(dòng)a也就是狀態(tài)s下最有價(jià)值的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出,即執(zhí)行確定的操作提案。
另一方面,在上述算法中,提案信息生成部113在滿足“δ≦ε”的條件時(shí),應(yīng)用算式(6)。即,由增強(qiáng)學(xué)習(xí)部111求出的平均熵h(ω)的值越大,提案信息生成部113就越提高應(yīng)用算式(6)的頻率。提案信息生成部113在應(yīng)用算式(6)時(shí),首先將某一狀態(tài)s下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率進(jìn)行加合運(yùn)算而求出累積分布函數(shù)f(s)。并且,提案信息生成部113在設(shè)定與上述隨機(jī)數(shù)δ不同的變量即落在0~1的數(shù)值范圍內(nèi)的隨機(jī)數(shù)τ時(shí),執(zhí)行將滿足“f(s)=τ”的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出的試錯(cuò)性的操作提案。
根據(jù)圖9中作為一個(gè)例子而示出的累積分布函數(shù)f(s)也可知,與采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率對(duì)應(yīng)地,累積分布函數(shù)f(s)的增加量也發(fā)生變動(dòng)。具體地說(shuō),在概率較高的行動(dòng)所對(duì)應(yīng)的橫軸的區(qū)間,累積分布函數(shù)f(s)的增加量變得劇烈,另一方面,在概率較低的行動(dòng)所對(duì)應(yīng)的橫軸的區(qū)間,累積分布函數(shù)f(s)的增加量也變得緩慢。因此,在使隨機(jī)數(shù)τ在0~1的數(shù)值范圍內(nèi)變化時(shí),概率較高的行動(dòng)更容易滿足“f(s)=τ”這一條件,概率較低的行動(dòng)難以滿足“f(s)=τ”這一條件。由此,如上述所示,在將滿足“f(s)=τ”的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出時(shí),以概率越高的行動(dòng)被選擇的頻率就越高的趨勢(shì)而進(jìn)行輸出。此外,在該圖所示的例子中,滿足f(s)=τ時(shí)的所對(duì)應(yīng)的行動(dòng)為行動(dòng)a3’。因此,從構(gòu)成行動(dòng)空間的多個(gè)行動(dòng)中選擇行動(dòng)a3’作為操作提案的對(duì)象而輸出。
圖10a、b示出用于說(shuō)明在作為操作提案而進(jìn)行目的地設(shè)定時(shí),使用ε-貪婪法進(jìn)行確定的操作提案和試錯(cuò)性的操作提案的選擇的具體例子。
在該例子中,如圖10a所示,智能ecu100首先基于通過(guò)車輛網(wǎng)絡(luò)nw獲取的各種車輛數(shù)據(jù),提取出當(dāng)前狀態(tài)符合狀態(tài)空間表格t1中構(gòu)成狀態(tài)空間的各狀態(tài)中的哪一個(gè)狀態(tài)(在該圖中,提取出狀態(tài)si)。并且,在該例子中,處于根據(jù)跳轉(zhuǎn)概率矩陣p(st,at)求出的平均熵h(ω)比較高的狀況,進(jìn)行應(yīng)用上述算式(5)的確定的操作提案的頻率變高。在此情況下,如圖10b所示,智能ecu100將構(gòu)成行動(dòng)空間的各行動(dòng)中的當(dāng)前狀態(tài)下最有價(jià)值的行動(dòng)(在該圖所示的例子中為“家”)作為操作提案的對(duì)象而輸出。
另外,圖11a、b示出用于說(shuō)明在作為操作提案而進(jìn)行聲音播放時(shí),使用ε-貪婪法進(jìn)行確定的操作提案和試錯(cuò)性的操作提案的選擇的具體例子。
該例子如圖11a所示,智能ecu100首先基于通過(guò)車輛網(wǎng)絡(luò)nw獲取的各種車輛數(shù)據(jù),提取出當(dāng)前狀態(tài)符合狀態(tài)空間表格t1α中構(gòu)成狀態(tài)空間的各狀態(tài)中的哪一個(gè)狀態(tài)(在該圖中,提取出狀態(tài)sj)。并且,在該例子中,處于根據(jù)跳轉(zhuǎn)概率矩陣p(st,at)求出的平均熵h(ω)較低的狀況,進(jìn)行應(yīng)用上述算式(6)的試錯(cuò)性的操作提案的頻率變高。在此情況下,如圖11b所示,智能ecu100以構(gòu)成行動(dòng)空間的各行動(dòng)中的從當(dāng)前狀態(tài)跳轉(zhuǎn)的跳轉(zhuǎn)概率的概率密度越高的行動(dòng)被選擇的頻率就越高的趨勢(shì),作為操作提案的對(duì)象而隨機(jī)輸出(在該圖所示的例子中為“fmd”)。
并且,智能ecu100將上述作為操作提案的對(duì)象輸出的行動(dòng)的相關(guān)信息,經(jīng)由車輛網(wǎng)絡(luò)nw向揚(yáng)聲器等聲音輸出部140、或者lcd(液晶顯示器)及hud(抬頭顯示器)等的圖像輸出部141發(fā)送,執(zhí)行經(jīng)由聲音或圖像的車載設(shè)備的操作提案。
另外,智能ecu100還作為操作檢測(cè)部114起作用,該操作檢測(cè)部114經(jīng)由車輛網(wǎng)絡(luò)nw接收經(jīng)由方向盤操作開關(guān)、拾音器等操作輸入部142的操作輸入、或者語(yǔ)音輸入的操作信號(hào),從而檢測(cè)駕駛員對(duì)操作提案的響應(yīng)。
圖12是用于說(shuō)明經(jīng)由方向盤操作開關(guān)進(jìn)行的操作輸入的一個(gè)例子的圖。在該圖所示的例子中,方向盤操作開關(guān)142a具有4個(gè)操作按鈕ba1~ba4,這些操作按鈕中位于上方的第1操作按鈕ba1及位于下方的第2操作按鈕ba2,被分配為在對(duì)來(lái)自智能ecu100的操作提案進(jìn)行響應(yīng)時(shí)操作的操作按鈕。并且,在接受操作提案時(shí)操作第1操作按鈕ba1,相反,在拒絕操作提案時(shí)操作第2操作按鈕ba2。另外,這些操作按鈕中位于左方的第3操作按鈕ba3及位于右方的第4操作按鈕ba4,被分配為在進(jìn)行與來(lái)自智能ecu100的操作提案無(wú)關(guān)的車載設(shè)備操作時(shí)進(jìn)行操作的操作按鈕。并且,通過(guò)由駕駛員自己手動(dòng)輸入而操作車載設(shè)備時(shí),操作第3操作按鈕ba3,在駕駛員自己進(jìn)行與此刻的車輛狀態(tài)無(wú)關(guān)且以較高頻率進(jìn)行的車載設(shè)備的操作時(shí),操作第4操作按鈕ba4。此外,第4操作按鈕ba4也可以被分配成為如下的操作按鈕,即,將從外部服務(wù)器獲取的、在與當(dāng)前狀況為相同狀況時(shí)其他駕駛員曾經(jīng)進(jìn)行的車載設(shè)備的操作相關(guān)的信息,提供給本駕駛員時(shí)進(jìn)行操作的操作按鈕。
并且,智能ecu100的控制部110在由操作檢測(cè)部114檢測(cè)出操作信號(hào)后,促使從學(xué)習(xí)更新觸發(fā)部115向增強(qiáng)學(xué)習(xí)部111發(fā)送觸發(fā)信號(hào)。此外,如上所述,在本實(shí)施方式中,接受操作提案時(shí)的車載設(shè)備的操作歷史記錄的計(jì)數(shù)值被設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。因此,如果以圖12所示的方向盤操作開關(guān)142a為例,則在操作第1操作按鈕ba1而接受操作提案時(shí),從學(xué)習(xí)更新觸發(fā)部115向增強(qiáng)學(xué)習(xí)部111發(fā)送觸發(fā)信號(hào)。
并且,增強(qiáng)學(xué)習(xí)部111在從學(xué)習(xí)更新觸發(fā)部115接收到觸發(fā)信號(hào)后,基于該時(shí)刻通過(guò)車輛網(wǎng)絡(luò)nw獲取的各種車輛數(shù)據(jù),確定當(dāng)前狀態(tài)符合狀態(tài)空間表格t1、t1α中的構(gòu)成狀態(tài)空間的各狀態(tài)中的哪一種狀態(tài)。并且,增強(qiáng)學(xué)習(xí)部111對(duì)存儲(chǔ)在存儲(chǔ)部120中的車載設(shè)備的操作歷史記錄ra中與該狀態(tài)對(duì)應(yīng)的操作歷史記錄的計(jì)數(shù)值進(jìn)行累加計(jì)算。
另外,增強(qiáng)學(xué)習(xí)部111在更新車載設(shè)備的操作歷史記錄ra后,使用與該操作歷史記錄ra更新一起更新后的回報(bào)函數(shù),重新計(jì)算出最優(yōu)行動(dòng)值函數(shù)q*(st,at)、及基于該最優(yōu)行動(dòng)值函數(shù)q*(st,at)得到的跳轉(zhuǎn)概率矩陣p(st,at)。并且,提案信息生成部113基于由增強(qiáng)學(xué)習(xí)部111重新計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at),執(zhí)行符合駕駛員意圖的車載設(shè)備的操作提案。
然后,針對(duì)本實(shí)施方式的智能ecu100讀出存儲(chǔ)在存儲(chǔ)部120中的信息提供程序并執(zhí)行的車載設(shè)備的操作提案處理,說(shuō)明該具體的處理步驟。在這里,智能ecu100以車輛的點(diǎn)火開關(guān)接通為條件,開始圖13所示的車載設(shè)備的操作提案處理。
如圖13所示,在該車載設(shè)備的操作提案處理中,首先智能ecu100判定存儲(chǔ)在存儲(chǔ)部120中的操作歷史記錄ra是否更新、即是否從學(xué)習(xí)更新觸發(fā)部115向增強(qiáng)學(xué)習(xí)部111發(fā)送了觸發(fā)信號(hào)(步驟s10)。
然后,智能ecu100在操作歷史記錄ra有更新時(shí)(步驟s10=是),因回報(bào)函數(shù)也被同時(shí)更新了,所以使用該更新后的回報(bào)函數(shù)而通過(guò)增強(qiáng)學(xué)習(xí)部111計(jì)算出最優(yōu)行動(dòng)值函數(shù)q*(st,at)(步驟s11)。
另外,智能ecu100基于如上述所示計(jì)算出的最優(yōu)行動(dòng)值函數(shù)q*(st,at),通過(guò)增強(qiáng)學(xué)習(xí)部111計(jì)算出從構(gòu)成狀態(tài)空間的各狀態(tài)向構(gòu)成行動(dòng)空間的各行動(dòng)跳轉(zhuǎn)的跳轉(zhuǎn)概率矩陣p(st,at)(步驟s12)。
另外,智能ecu100基于如上述所示計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at),通過(guò)分散度運(yùn)算部112計(jì)算出構(gòu)成狀態(tài)空間的各狀態(tài)的各自的信息熵h(s)(步驟s13)。進(jìn)而,智能ecu100通過(guò)分散度運(yùn)算部112計(jì)算出對(duì)各狀態(tài)的各自的信息熵h(s)進(jìn)行加合運(yùn)算而得到的平均熵h(ω)(步驟s14)。
并且,智能ecu100在如上述所示計(jì)算出的平均熵h(ω)小于作為隨機(jī)數(shù)設(shè)定的隨機(jī)數(shù)δ時(shí)(步驟s15=是),將使得在先前的步驟s11中計(jì)算出的最優(yōu)行動(dòng)值函數(shù)q*(st,at)最大化的行動(dòng)a,作為自動(dòng)設(shè)定的對(duì)象而從提案信息生成部113固定地向聲音輸出部140或圖像輸出部141輸出,即執(zhí)行確定的操作提案(步驟s16)。
另一方面,智能ecu100在先前的步驟s14中計(jì)算出的平均熵h(ω)為隨機(jī)數(shù)δ以上時(shí)(步驟s15=否),基于在先前的步驟s12中計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at),以在當(dāng)前狀態(tài)st下執(zhí)行概率越高的行動(dòng)則被選擇的頻率越高的趨勢(shì),將該行動(dòng)作為自動(dòng)設(shè)定的對(duì)象隨機(jī)輸出,即執(zhí)行試錯(cuò)性的操作提案(步驟s17)。
然后,智能ecu100在駕駛員對(duì)先前的步驟s16或先前的步驟s17的操作提案進(jìn)行響應(yīng)時(shí),通過(guò)操作輸入部142獲取與該響應(yīng)相關(guān)的信息(步驟s18)。并且,智能ecu100判斷如上述所示獲取到的來(lái)自駕駛員的響應(yīng)是否為接受操作提案(步驟s19)。例如在經(jīng)由方向盤操作開關(guān)進(jìn)行操作輸入的情況下,根據(jù)是否按壓了確定按鈕(在圖12所示的例子中為第1操作按鈕ba1)、或者在經(jīng)由拾音器進(jìn)行語(yǔ)音輸入的情況下,根據(jù)是否輸入了表示肯定響應(yīng)的單詞(例如“是”、“yes”等)而進(jìn)行上述判斷。
并且,在來(lái)自駕駛員的響應(yīng)為接受操作提案時(shí)(步驟s19=是),智能ecu100執(zhí)行在先前的步驟s16或步驟s17中作為自動(dòng)設(shè)定的對(duì)象而輸出的行動(dòng)(步驟s20)。另外,智能ecu100隨著作為自動(dòng)設(shè)定的對(duì)象而輸出的行動(dòng)的執(zhí)行,從學(xué)習(xí)更新觸發(fā)部115向增強(qiáng)學(xué)習(xí)部111發(fā)送觸發(fā)信號(hào),在通過(guò)增強(qiáng)學(xué)習(xí)部111更新車載設(shè)備的操作歷史記錄ra后(步驟s21),使該處理跳轉(zhuǎn)至步驟s22。
另一方面,智能ecu100在來(lái)自駕駛員的響應(yīng)并非接受操作提案時(shí)(步驟s19=否),不經(jīng)過(guò)前述步驟s20及步驟s21的處理而使處理跳轉(zhuǎn)至步驟s22。
然后,智能ecu100在車輛的點(diǎn)火開關(guān)接通的期間(步驟s22=否),使該處理返回步驟s10,以規(guī)定周期反復(fù)進(jìn)行步驟s10~步驟s22的處理。此時(shí),如果在先前的步驟s21中更新了車載設(shè)備的操作歷史記錄ra,智能ecu100則使用伴隨該操作歷史記錄ra更新而一起更新后的回報(bào)函數(shù),重新計(jì)算出最優(yōu)行動(dòng)值函數(shù)q*(st,at)、以及基于該最優(yōu)行動(dòng)值函數(shù)q*(st,at)的新的跳轉(zhuǎn)概率矩陣p(st,at)(步驟s11、步驟s12)。并且,智能ecu100基于重新計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at),作為車載設(shè)備的操作提案而執(zhí)行上述的確定的操作提案或試錯(cuò)性的操作提案(步驟s16、步驟s17)。
然后,在每次作為對(duì)操作提案的響應(yīng)而駕駛員對(duì)操作輸入部142進(jìn)行操作接受操作提案時(shí),智能ecu100都更新車載設(shè)備的操作歷史記錄ra,并與該更新一起反復(fù)進(jìn)行由增強(qiáng)學(xué)習(xí)部111進(jìn)行的增強(qiáng)學(xué)習(xí)。由此,隨著駕駛員對(duì)車載設(shè)備的操作提案的響應(yīng)頻率不斷增加,跳轉(zhuǎn)概率矩陣p(st,at)的精度提高并從而符合駕駛員個(gè)人行動(dòng)的實(shí)際情況。
下面,針對(duì)本實(shí)施方式的智能ecu100的作用,特別著眼于在執(zhí)行車載設(shè)備的操作提案時(shí)的作用進(jìn)行如下說(shuō)明。在執(zhí)行車載設(shè)備的操作提案時(shí),通常,與此時(shí)的車輛狀態(tài)對(duì)應(yīng)而提前預(yù)測(cè)駕駛員要采用的行動(dòng)的難度是隨著成為對(duì)象的操作提案的種類不同而變化的。例如收音機(jī)播放或樂(lè)曲播放等在車輛行駛時(shí)的聲音播放,通常不僅受到車輛狀態(tài)的影響,還容易受到此時(shí)的駕駛員的情緒等影響,其選項(xiàng)也很多。因此,提前預(yù)測(cè)駕駛員要采用的行動(dòng)變得困難這一情況是可以預(yù)想到的。另一方面,例如目的地設(shè)定等,可以預(yù)想到,通常與聲音播放相比,容易根據(jù)此時(shí)的車輛狀態(tài)縮小選項(xiàng)范圍,從而提前預(yù)測(cè)駕駛員要采用的行動(dòng)。
因此,在本實(shí)施方式中,智能ecu100針對(duì)各種不同的操作提案種類,將作為對(duì)操作提案的響應(yīng)而進(jìn)行的車載設(shè)備的操作歷史記錄ra作為日志進(jìn)行記錄,執(zhí)行將記錄到的操作歷史記錄ra設(shè)定為回報(bào)函數(shù)的增強(qiáng)學(xué)習(xí)。由此,智能ecu100以符合駕駛員個(gè)人行動(dòng)的實(shí)際情況的方式,計(jì)算出從構(gòu)成狀態(tài)空間的各狀態(tài)向構(gòu)成行動(dòng)空間的各行動(dòng)跳轉(zhuǎn)的跳轉(zhuǎn)概率矩陣p(st,at)。
在此情況下,如上述所示,在基于與聲音播放對(duì)應(yīng)的車載設(shè)備的操作歷史記錄ra計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)中,在構(gòu)成狀態(tài)空間的各狀態(tài)下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率相對(duì)容易分散。另一方面,也如上述所示,在基于與目的地設(shè)定對(duì)應(yīng)的車載設(shè)備的操作歷史記錄ra計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)中,在構(gòu)成狀態(tài)空間的各狀態(tài)下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率相對(duì)難以分散。
因此,在本實(shí)施方式中,智能ecu100基于將構(gòu)成狀態(tài)空間的各狀態(tài)的各自的信息熵h(s)的值進(jìn)行加合運(yùn)算而得到的平均熵h(ω)的值,進(jìn)行上述狀態(tài)空間的分散度的評(píng)價(jià)。
并且,智能ecu100在平均熵h(ω)小于隨機(jī)數(shù)δ時(shí),將當(dāng)前狀態(tài)下最有價(jià)值的行動(dòng)固定為操作提案的對(duì)象而輸出,即執(zhí)行確定的操作提案。在此情況下,平均熵h(ω)的值越小,智能ecu100就越提高執(zhí)行確定的操作提案的頻率。
圖14示出以包含確定的操作提案的方式在智能ecu100和駕駛員之間進(jìn)行交互對(duì)話的內(nèi)容的一個(gè)例子。在該圖所示的例子中,智能ecu100作為確定的操作提案而確認(rèn)成為自動(dòng)設(shè)定的對(duì)象的目的地是否為“家”。并且,智能ecu100在駕駛員輸入了表示接受確定的操作提案這一情況的聲音指令(在該圖所示的例子中為“yes”)后,作為目的地而自動(dòng)設(shè)定為“家”。這樣,智能ecu100在例如目的地設(shè)定這種易于確定當(dāng)前狀態(tài)下駕駛員采用構(gòu)成行動(dòng)空間的行動(dòng)中的哪一種行動(dòng)的狀況下,能夠進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案,而無(wú)需駕駛員進(jìn)行選擇行動(dòng)的操作。
另一方面,智能ecu100在平均熵h(ω)為隨機(jī)數(shù)δ以上時(shí),以從當(dāng)前狀態(tài)跳轉(zhuǎn)的跳轉(zhuǎn)概率的概率密度越高則被選擇的頻率越高的趨勢(shì),將隨機(jī)選擇的行動(dòng)作為操作提案的對(duì)象輸出,即執(zhí)行試錯(cuò)性的操作提案。在此情況下,平均熵h(ω)的值越大,智能ecu100執(zhí)行試錯(cuò)性的操作提案的頻率越高。
圖15示出以包含試錯(cuò)性的操作提案的方式在智能ecu100和駕駛員之間進(jìn)行交互對(duì)話的內(nèi)容的一個(gè)例子。在該圖所示的例子中,智能ecu100首先向駕駛員確認(rèn)是否開始試錯(cuò)性的操作提案。然后,智能ecu100在駕駛員輸入接受試錯(cuò)性的操作提案的聲音指令(在該圖所示的例子中為“yes”)后,作為在從當(dāng)前狀態(tài)跳轉(zhuǎn)的跳轉(zhuǎn)概率的概率密度較高的行動(dòng)中隨機(jī)選擇的行動(dòng),將“fma”這一選擇向駕駛員提出。然后,智能ecu100在駕駛員輸入接受所提出的聲音方案的聲音指令后,作為聲音方案而自動(dòng)設(shè)定“fma”。另外,如果在播放聲音后,被輸入了拒絕所提出的聲音方案的聲音指令(在該圖所示的例子中為“no”)后,智能ecu100以上述跳轉(zhuǎn)概率的概率密度越高的行動(dòng)則被選擇的頻率越高的趨勢(shì),作為隨機(jī)選擇的其它行動(dòng)而將“cd樂(lè)曲n”這一選擇向駕駛員提出。并且,智能ecu100以跳轉(zhuǎn)概率的概率密度越高的行動(dòng)則被選擇的頻率越高的趨勢(shì),將隨機(jī)選擇的其它行動(dòng)依次向駕駛員提出,直至駕駛員輸入了接受所提出的聲音方案的聲音指令為止。并且,在“cd樂(lè)曲2”這一選擇的提案被接受時(shí),智能ecu100作為聲音而自動(dòng)設(shè)定“cd樂(lè)曲2”。這樣,智能ecu100在例如聲音設(shè)定這種難以確定在當(dāng)前狀態(tài)下駕駛員會(huì)采用構(gòu)成行動(dòng)空間的行動(dòng)中的哪一個(gè)行動(dòng)的狀況下,通過(guò)從多個(gè)候選中選擇成為對(duì)象的行動(dòng)并輸出,從而更可靠地進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。
如上述說(shuō)明所示,根據(jù)本實(shí)施方式,能夠得到下述效果。
(1)智能ecu100在基于通過(guò)增強(qiáng)學(xué)習(xí)計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)中的各狀態(tài)各自的信息熵h(s)的加合運(yùn)算值而求出的平均熵h(ω)小于隨機(jī)數(shù)δ時(shí),將成為對(duì)象的行動(dòng)固定為操作提案的對(duì)象而輸出,即進(jìn)行確定的操作提案。由此,能夠進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案,而無(wú)需駕駛員進(jìn)行選擇行動(dòng)的操作。另一方面,智能ecu100在基于通過(guò)增強(qiáng)學(xué)習(xí)計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)中的各狀態(tài)各自的信息熵h(s)的加合運(yùn)算值而求出的平均熵h(ω)為隨機(jī)數(shù)δ以上時(shí),從多個(gè)候選中選擇成為對(duì)象的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出,即進(jìn)行試錯(cuò)性的操作提案。由此,能夠更可靠得進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。即,無(wú)論平均熵h(ω)是大還是小,作為操作提案的對(duì)象而一次輸出的車載設(shè)備的操作內(nèi)容都只有一個(gè),因此,駕駛員只要對(duì)每次提議的車載設(shè)備的操作內(nèi)容進(jìn)行是否同意的意思表示即可。因此,針對(duì)目的地的設(shè)定及聲音播放這些平均熵h(ω)的分散度不同的不同種類的車載設(shè)備的操作提案的響應(yīng),能夠始終使用簡(jiǎn)單且相同的作為用戶界面的操作輸入部142進(jìn)行。由此,能夠在減輕駕駛員的負(fù)擔(dān)的同時(shí)執(zhí)行符合駕駛員意圖的車載設(shè)備的操作提案。
(2)智能ecu100在平均熵h(ω)的值小于隨機(jī)數(shù)δ時(shí),將當(dāng)前狀態(tài)下的使最優(yōu)行動(dòng)值函數(shù)q*(st,at)最大化的行動(dòng)、即在當(dāng)前狀態(tài)下的最有價(jià)值的行動(dòng)也就是預(yù)測(cè)駕駛員采用可能性最高的行動(dòng)作為對(duì)象,執(zhí)行確定的操作提案。由此,能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的操作提案。
(3)智能ecu100在平均熵h(ω)的值為隨機(jī)數(shù)δ以上時(shí),以當(dāng)前狀態(tài)下的概率分布的概率密度越高的行動(dòng)、即當(dāng)前狀態(tài)下駕駛員采用可能性越高的行動(dòng)被選擇為對(duì)象的頻率越高的趨勢(shì),進(jìn)行試錯(cuò)性的操作提案。由此,即使事先難以確定作為對(duì)象的車載設(shè)備的操作提案,也能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的操作提案。
(4)智能ecu100使用將平均熵h(ω)的值設(shè)定為ε值的ε-貪婪法,以ε值越大則進(jìn)行試錯(cuò)性的操作提案的頻率越高的趨勢(shì),進(jìn)行確定的操作提案和試錯(cuò)性的操作提案的選擇。因此,平均熵的值即ε值越大即狀態(tài)空間的分散度越大,智能ecu100選擇試錯(cuò)性的操作提案的頻率越高。由此,在提供作為對(duì)象的信息時(shí),即使難以確定駕駛員的行動(dòng),也能夠以更高一級(jí)的可靠性實(shí)現(xiàn)符合駕駛員意圖的操作提案。
(5)作為針對(duì)駕駛員意圖的車載設(shè)備的操作提案的適合程度的指標(biāo),智能ecu100應(yīng)用根據(jù)對(duì)操作提案的響應(yīng)而從構(gòu)成行動(dòng)空間的行動(dòng)中選擇并執(zhí)行的行動(dòng)的頻率設(shè)定回報(bào)函數(shù),并在每次響應(yīng)歷史記錄(車載設(shè)備的操作歷史記錄ra)更新時(shí)一并更新回報(bào)函數(shù)。由此,能夠在符合駕駛員意圖的情形下就算出構(gòu)成狀態(tài)空間的各狀態(tài)下執(zhí)行構(gòu)成行動(dòng)空間的各行動(dòng)的跳轉(zhuǎn)概率矩陣p(st,at),并且能夠隨著駕駛員響應(yīng)的頻率不斷增加而使跳轉(zhuǎn)概率矩陣p(st,at)的精度提高進(jìn)而更符合駕駛員個(gè)人進(jìn)行的響應(yīng)的實(shí)際狀態(tài)。
(6)智能ecu100考慮車載設(shè)備的操作狀況da、daα、車輛的乘客的特性db、dbα、以及車輛的行駛狀況dc、dcα等多種對(duì)車載設(shè)備的操作提案產(chǎn)生影響的要素,定義構(gòu)成狀態(tài)空間的各狀態(tài)。由此,能夠在更高一級(jí)地符合實(shí)際情況的情形下,實(shí)現(xiàn)符合駕駛員意圖的操作提案。此外,可以預(yù)想到,如上所述考慮了各種要素后,構(gòu)成狀態(tài)空間的狀態(tài)的數(shù)量變得龐大。對(duì)于這一點(diǎn),在上述實(shí)施方式中,通過(guò)在存儲(chǔ)操作歷史記錄ra的同時(shí)使用實(shí)現(xiàn)精度提高的增強(qiáng)學(xué)習(xí)的方法,從而即使沒(méi)有例如像監(jiān)督學(xué)習(xí)那樣事先準(zhǔn)備龐大數(shù)量的訓(xùn)練數(shù)據(jù),也能夠?qū)崿F(xiàn)符合駕駛員意圖的操作提案。
(第2實(shí)施方式)下面,參照附圖,說(shuō)明信息提供裝置的第2實(shí)施方式。此外,第2實(shí)施方式與第1實(shí)施方式不同的點(diǎn)在于,不將各狀態(tài)各自的信息熵的值進(jìn)行加合運(yùn)算求出平均熵的值,而是基于與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵的值進(jìn)行確定的操作提案及試錯(cuò)性的操作提案的選擇。由此,在以下的說(shuō)明中,主要說(shuō)明與第1實(shí)施方式不同的結(jié)構(gòu),對(duì)于與第1實(shí)施方式相同或相當(dāng)?shù)慕Y(jié)構(gòu),省略重復(fù)的說(shuō)明。
圖16示出本實(shí)施方式中在確定的操作提案及試錯(cuò)性的操作提案的選擇時(shí)所使用的跳轉(zhuǎn)概率矩陣p(st,at)的一個(gè)例子。在該圖所示的例子中,例如假設(shè)狀態(tài)si下采用行動(dòng)a1的概率為“0.03”,假設(shè)該狀態(tài)si下采用行動(dòng)a2的概率為“0.04”,假設(shè)該狀態(tài)si下采用行動(dòng)a100的概率為“0.02”。并且,在將上述概率設(shè)為p時(shí),智能ecu100使用圖8所示的算式計(jì)算出信息熵h(s)的值。在此情況下,由于這些概率均勻地分散,所以信息熵h(s)的值變得較大。
另外,同樣在該圖所示的例子中,例如假設(shè)狀態(tài)sj下采用行動(dòng)a1的概率為“0.6”,假設(shè)該狀態(tài)sj下采用行動(dòng)a2的概率為“0.02”,假設(shè)該狀態(tài)sj下采用行動(dòng)a100的概率為“0.04”。并且,在將上述概率設(shè)為p時(shí),智能ecu100使用圖8所示的算式計(jì)算出信息熵h(s)的值。在此情況下,由于上述概率偏向一處(“行動(dòng)a1”),所以信息熵h(s)的值變得較小。
并且,智能ecu100大致基于上述第1實(shí)施方式中使用的算法,使用將與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值設(shè)為ε值的ε-貪婪法,生成與車載設(shè)備的操作提案相關(guān)的信息。由此,在假設(shè)當(dāng)前狀態(tài)為圖16所示的狀態(tài)si時(shí)那樣,與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值較大時(shí),智能ecu100通過(guò)應(yīng)用上述算式(6),從而提高執(zhí)行試錯(cuò)性的操作提案的頻率。另一方面,在假設(shè)當(dāng)前狀態(tài)如圖16所示的狀態(tài)sj時(shí)那樣,與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值較小時(shí),智能ecu100通過(guò)應(yīng)用上述算式(5),從而提高執(zhí)行確定的操作提案的頻率。即,即使在例如目的地設(shè)定這樣從狀態(tài)空間整體觀察時(shí)平均熵h(ω)的值較小的情況下,在與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值為隨機(jī)數(shù)δ以上時(shí),智能ecu100也判斷為處于僅考慮當(dāng)前狀態(tài)的話難以確定駕駛員會(huì)采用構(gòu)成行動(dòng)空間的行動(dòng)中的哪一個(gè)行動(dòng)的狀況,因而執(zhí)行試錯(cuò)性的操作提案。另外相反地,即使在例如聲音設(shè)定這樣從狀態(tài)空間整體觀察時(shí)平均熵h(ω)的值較大時(shí),在與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值小于隨機(jī)數(shù)δ時(shí),智能ecu100也判斷為處于僅考慮當(dāng)前狀態(tài)的話容易確定駕駛員會(huì)采用構(gòu)成行動(dòng)空間的行動(dòng)中的哪一種行動(dòng)的狀況,因而執(zhí)行確定的操作提案。這樣,智能ecu100通過(guò)個(gè)別具體地考慮當(dāng)前狀態(tài)下是否容易確定駕駛員的行動(dòng),從而能夠以更高一層地契合實(shí)際情形的方式,進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。
如以上說(shuō)明所示,根據(jù)上述第2實(shí)施方式,能夠替代第1實(shí)施方式的上述(1)所述的效果而得到以下所示的效果。(1a)在通過(guò)增強(qiáng)學(xué)習(xí)計(jì)算出的跳轉(zhuǎn)概率矩陣p(st,at)中與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)為隨機(jī)數(shù)δ以上時(shí),智能ecu100將從多個(gè)候選中選擇成為對(duì)象的行動(dòng)進(jìn)行輸出的試錯(cuò)性的操作提案,作為車載設(shè)備的操作提案。由此,能夠更可靠地進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。另一方面,在通過(guò)增強(qiáng)學(xué)習(xí)就算出的跳轉(zhuǎn)概率矩陣p(st,at)中與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)小于隨機(jī)數(shù)δ時(shí),智能ecu100將固定成為對(duì)象的行動(dòng)進(jìn)行輸出的確定的操作提案,作為車載設(shè)備的操作提案。由此,能夠進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案,而無(wú)需駕駛員進(jìn)行選擇行動(dòng)的操作。即,無(wú)論各狀態(tài)各自的信息熵h(s)的分散度是大還是小,作為操作提案的對(duì)象而一次輸出的車載設(shè)備的操作內(nèi)容都只有一個(gè),因此,駕駛員只要對(duì)每次提議的車載設(shè)備的操作內(nèi)容進(jìn)行是否同意的意思表示即可。因此,針對(duì)目的地的設(shè)定及聲音播放這些各狀態(tài)各自的信息熵h(s)的分散度不同的不同種類的車載設(shè)備的操作提案的響應(yīng),能夠始終使用簡(jiǎn)單且相同的作為用戶界面的操作輸入部142進(jìn)行。由此,能夠在減輕駕駛員的負(fù)擔(dān)的同時(shí)執(zhí)行符合駕駛員意圖的車載設(shè)備的操作提案。另外,智能ecu100與定義從狀態(tài)空間整體觀察下的狀態(tài)空間的分散度的平均熵h(ω)的值無(wú)關(guān)地,基于與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)的值,選擇試錯(cuò)性的操作提案及確定的操作提案。由此,智能ecu100通過(guò)個(gè)別具體地考慮當(dāng)前狀態(tài)下是否容易確定駕駛員的行動(dòng),從而能夠以更高一層地契合實(shí)際情形的方式,進(jìn)行符合駕駛員意圖的車載設(shè)備的操作提案。
(其它實(shí)施方式)此外,上述各實(shí)施方式也可以以下述方式實(shí)施。
·在上述第1實(shí)施方式中,通過(guò)對(duì)定義狀態(tài)空間的所有狀態(tài)所對(duì)應(yīng)的信息熵h(s)進(jìn)行加合運(yùn)算,從而計(jì)算出對(duì)狀態(tài)空間的分散度進(jìn)行定義的平均熵h(ω)。但也可以不用這種方式,而是將定義狀態(tài)空間的狀態(tài)中的一部分狀態(tài)所對(duì)應(yīng)的信息熵h(s)進(jìn)行加合運(yùn)算而計(jì)算出平均熵h(ω)。
·在上述第1實(shí)施方式中,作為成為與平均熵h(ω)進(jìn)行比較的對(duì)象的閾值而使用隨機(jī)數(shù)δ。由此,能夠更具多樣性地進(jìn)行分配,但為了降低處理負(fù)載,也可以不用這種方式,而使用固定值作為與平均熵h(ω)進(jìn)行比較的對(duì)象的閾值。在此情況下,在平均熵h(ω)小于固定值時(shí),應(yīng)用上述算式(5)執(zhí)行確定的操作提案,另一方面在平均熵h(ω)為固定值以上時(shí),應(yīng)用上述算式(6)執(zhí)行試錯(cuò)性的操作提案即可。
·相同地,在上述第2實(shí)施方式中,作為成為與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)進(jìn)行比較的對(duì)象的閾值而使用隨機(jī)數(shù)δ。也可以不用這種方式,而使用固定值作為成為與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)進(jìn)行比較的對(duì)象的閾值。在此情況下,在信息熵h(s)小于固定值時(shí),應(yīng)用上述算式(5)執(zhí)行確定的操作提案,另一方面在與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)為固定值以上時(shí),應(yīng)用上述算式(6)執(zhí)行試錯(cuò)性的操作提案即可。
·在上述第1實(shí)施方式中,狀態(tài)空間的分散度的評(píng)價(jià)是基于將與構(gòu)成狀態(tài)空間的各狀態(tài)對(duì)應(yīng)的信息熵h(s)進(jìn)行加合運(yùn)算而得到的平均熵h(ω)進(jìn)行的。也可以不用這種方式,而使?fàn)顟B(tài)空間的分散度的評(píng)價(jià)基于將構(gòu)成狀態(tài)空間的各狀態(tài)各自的概率分布的分散或標(biāo)準(zhǔn)方差進(jìn)行加合運(yùn)算而得到的值進(jìn)行。
·相同地,在上述第2實(shí)施方式中,當(dāng)前狀態(tài)下的概率分布的分散度的評(píng)價(jià)是基于與當(dāng)前狀態(tài)對(duì)應(yīng)的信息熵h(s)進(jìn)行的,也可以不用這種方式,而基于當(dāng)前狀態(tài)下的概率分布的分散或標(biāo)準(zhǔn)方差進(jìn)行。
·在上述各實(shí)施方式中,作為定義狀態(tài)的車輛數(shù)據(jù)的屬性,包括車載設(shè)備的操作狀況da、daα、車輛的乘客的特性db、dbα、以及車輛的行駛狀況dc、dcα。但并不限定于此,定義狀態(tài)的車輛數(shù)據(jù)的屬性只要是對(duì)駕駛員操作車載設(shè)備的方式有幫助的要素即可,也可以采用其它要素。
·在上述各實(shí)施方式中,作為確定的操作提案,將構(gòu)成行動(dòng)空間的各行動(dòng)中使得當(dāng)前狀態(tài)下的最優(yōu)行動(dòng)值函數(shù)q*(st,at)最大化的行動(dòng)、即當(dāng)前狀態(tài)下最有價(jià)值的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出。也可以不用這種方式,而是例如將當(dāng)前狀態(tài)下跳轉(zhuǎn)概率最大的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出。只要是將預(yù)測(cè)駕駛員采用可能性最大的行動(dòng)作為對(duì)象而執(zhí)行確定的操作提案即可。
·在上述各實(shí)施方式中,作為試錯(cuò)性的操作提案,將滿足“f(s)=τ”的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出。也可以不用這種方式,而是在通過(guò)將某一狀態(tài)s下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率以從低到高的順序排列后進(jìn)行加合運(yùn)算而求出累積分布函數(shù)f(s)時(shí),將滿足“f(s)≧τ”的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出。另外,也可以在通過(guò)將某一狀態(tài)s下采用構(gòu)成行動(dòng)空間的各行動(dòng)的概率以從高到低的順序排列后進(jìn)行加合運(yùn)算而求出累積分布函數(shù)f(s)時(shí),將滿足“f(s)≦τ”的行動(dòng)作為操作提案的對(duì)象進(jìn)行輸出。只要是以當(dāng)前狀態(tài)下的概率分布的概率密度越高的行動(dòng)則被選擇作為對(duì)象的頻率越高的趨勢(shì)執(zhí)行試錯(cuò)性的操作提案即可。
·在上述各實(shí)施方式中,作為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù),設(shè)定作為對(duì)操作提案的響應(yīng)的為圖12所示的方向盤操作開關(guān)142a中的第1操作按鈕ba1的操作次數(shù)。也可以不用這種方式,而是作為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù),設(shè)定為圖12所示的方向盤操作開關(guān)中從第1操作按鈕ba1的操作次數(shù)減去第2操作按鈕ba2的操作次數(shù)而得到的值。另外,也可以將第1操作按鈕ba1的操作次數(shù)減去第3操作按鈕ba3的操作次數(shù)或第4操作按鈕ba4的操作次數(shù)而得到的值,設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。另外,也可以將在駕駛員針對(duì)車載設(shè)備的操作提案沒(méi)有進(jìn)行任何操作時(shí),將該次數(shù)作為日志進(jìn)行記錄,并將從第1操作按鈕ba1的操作次數(shù)中減去該次數(shù)后的值,設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。另外,也可以基于駕駛員的身體信號(hào)等測(cè)量駕駛員對(duì)車載設(shè)備的操作提案感覺到愉快·不愉快的感情的次數(shù),將駕駛員感覺愉快的次數(shù)設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。另外,也可以將駕駛員感覺愉快的次數(shù)減去感覺不愉快的次數(shù)而得到的值,設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。只要是能夠表示車載設(shè)備的操作提案相對(duì)于駕駛員意圖的適合程度的指標(biāo),都可以設(shè)定為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。
·在上述各實(shí)施方式中,作為方向盤操作開關(guān),以具有在對(duì)來(lái)自智能ecu100的操作提案進(jìn)行響應(yīng)時(shí)操作的第1操作按鈕ba1及第2操作按鈕ba2、以及與來(lái)自智能ecu100的操作提案無(wú)關(guān)地操作車載設(shè)備時(shí)進(jìn)行操作的第3操作按鈕ba3及第4操作按鈕ba4的結(jié)構(gòu)作為例子進(jìn)行了說(shuō)明。但也可以如圖17所示,作為方向盤操作開關(guān)的另一個(gè)例子,采用僅具有在對(duì)來(lái)自智能ecu100的操作提案進(jìn)行響應(yīng)時(shí)操作的第1操作按鈕ba1及第2操作按鈕ba2的方向盤操作開關(guān)142b的結(jié)構(gòu)。另外,也可以如圖18所示,作為方向盤操作開關(guān)的其它例子,采用不用圖12所示的在駕駛員自身手動(dòng)輸入而操作車載設(shè)備時(shí)進(jìn)行操作的第3操作按鈕ba3,而使用具有在啟動(dòng)管家服務(wù)時(shí)進(jìn)行操作的第3操作按鈕ba3α的方向盤操作開關(guān)142c的結(jié)構(gòu)。并且,上述方向盤操作開關(guān)142b、142c的結(jié)構(gòu),都可以通過(guò)方向盤操作開關(guān)142b、142c的操作而檢測(cè)出駕駛員對(duì)操作提案的響應(yīng),并用作為增強(qiáng)學(xué)習(xí)中的回報(bào)函數(shù)。
·在上述各實(shí)施方式中,作為增強(qiáng)學(xué)習(xí)的方法而進(jìn)行q學(xué)習(xí)。但也可以不用這種方式,而是作為增強(qiáng)學(xué)習(xí)的方法而使用例如sarsa法、actor-critic法等其它方法。