本發(fā)明涉及一種對(duì)風(fēng)扇電動(dòng)機(jī)的清掃間隔進(jìn)行學(xué)習(xí)的機(jī)械學(xué)習(xí)器、電動(dòng)機(jī)控制系統(tǒng)以及機(jī)械學(xué)習(xí)方法。
背景技術(shù):
以往,在NC(Numerical Control:數(shù)值控制)機(jī)床、機(jī)器人等機(jī)械裝置上搭載有電動(dòng)機(jī)(驅(qū)動(dòng)電動(dòng)機(jī)),為了冷卻從這樣的驅(qū)動(dòng)電動(dòng)機(jī)放出的熱,通常設(shè)有風(fēng)扇電動(dòng)機(jī)。
然而,NC機(jī)床、機(jī)器人等在有各種塵埃的工廠等使用,因此,例如在風(fēng)扇電動(dòng)機(jī)、通風(fēng)孔上附著有污濁或者積有灰塵,其結(jié)果,驅(qū)動(dòng)電動(dòng)機(jī)的冷卻能力下降。因此,要求NC機(jī)床、機(jī)器人等機(jī)械裝置的使用者進(jìn)行風(fēng)扇電動(dòng)機(jī)、通風(fēng)孔的清掃(以下,也記作風(fēng)扇電動(dòng)機(jī)的清掃)。
若風(fēng)扇電動(dòng)機(jī)的冷卻能力降低,則導(dǎo)致驅(qū)動(dòng)電動(dòng)機(jī)的溫度上升,尤其是驅(qū)動(dòng)電動(dòng)機(jī)的軸承的潤(rùn)滑油的溫度上升。這里,軸承的潤(rùn)滑油的壽命是電動(dòng)機(jī)的壽命的很大因素,該潤(rùn)滑油的壽命受溫度的很大影響。即,溫度越高,潤(rùn)滑油的壽命越短,這是公知的,例如,潤(rùn)滑油的溫度上升10度左右,則潤(rùn)滑油的壽命會(huì)縮短數(shù)萬(wàn)小時(shí)。
以往,例如,日本特開(kāi)2005-249277號(hào)公報(bào)(專利文獻(xiàn)1)提出了在最佳定時(shí)進(jìn)行風(fēng)扇(風(fēng)扇電動(dòng)機(jī))的維護(hù)的方案。
如上所示,例如,要求NC機(jī)床、機(jī)器人等機(jī)械裝置的使用者進(jìn)行風(fēng)扇電動(dòng)機(jī)的清掃(風(fēng)扇電動(dòng)機(jī)、通風(fēng)孔的清掃),但是,包括專利文獻(xiàn)1所記載的方法在內(nèi)都是基于經(jīng)驗(yàn)來(lái)決定風(fēng)扇電動(dòng)機(jī)的清掃間隔(風(fēng)扇電動(dòng)機(jī)的清掃時(shí)機(jī))。
例如,在專利文獻(xiàn)1中公開(kāi)了:在初始特性存儲(chǔ)部中存儲(chǔ)的合計(jì)要求風(fēng)量-風(fēng)扇轉(zhuǎn)速的初始特性與來(lái)自特性修正·更新部的實(shí)際特性之差超過(guò)預(yù)定范圍的情況下,判斷為維修時(shí)期。但是,該情況下,風(fēng)扇(風(fēng)扇電動(dòng)機(jī))的初始特性與實(shí)際特性之差的預(yù)定范圍的決定也是依賴于經(jīng)驗(yàn)。
這里,若風(fēng)扇電動(dòng)機(jī)的清掃頻率過(guò)低,則例如驅(qū)動(dòng)電動(dòng)機(jī)的溫度變高,驅(qū)動(dòng)電動(dòng)機(jī)(或者,設(shè)有驅(qū)動(dòng)電動(dòng)機(jī)的機(jī)械裝置)的壽命降低。另一方面,若風(fēng)扇電動(dòng)機(jī)的清掃頻率過(guò)高,則例如機(jī)械裝置的運(yùn)轉(zhuǎn)率降低,相應(yīng)地,生產(chǎn)率降低。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明的目的在于提供一種能夠使電動(dòng)機(jī)的壽命提高,并且能夠使機(jī)械裝置的運(yùn)轉(zhuǎn)率提高的機(jī)械學(xué)習(xí)器、電動(dòng)機(jī)控制系統(tǒng)以及機(jī)械學(xué)習(xí)方法。
根據(jù)本發(fā)明的第1實(shí)施方式,提供一種機(jī)械學(xué)習(xí)器,該機(jī)械學(xué)習(xí)器學(xué)習(xí)對(duì)設(shè)于機(jī)械裝置的電動(dòng)機(jī)進(jìn)行冷卻的風(fēng)扇電動(dòng)機(jī)的清掃頻率,包括:狀態(tài)觀測(cè)部,其觀測(cè)所述機(jī)械裝置的狀態(tài);以及學(xué)習(xí)部,其基于由所述狀態(tài)觀測(cè)部觀測(cè)到的狀態(tài)量,來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。
優(yōu)選的是,所述狀態(tài)觀測(cè)部觀測(cè)所述電動(dòng)機(jī)的電流、電壓、溫度及轉(zhuǎn)差率、所述風(fēng)扇電動(dòng)機(jī)的清掃間隔以及所述機(jī)械裝置的運(yùn)轉(zhuǎn)率的狀態(tài)量,所述學(xué)習(xí)部基于由所述狀態(tài)觀測(cè)部觀測(cè)到的所述電動(dòng)機(jī)的電流、電壓、溫度及轉(zhuǎn)差率、所述風(fēng)扇電動(dòng)機(jī)的清掃間隔以及所述機(jī)械裝置的運(yùn)轉(zhuǎn)率的狀態(tài)量來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。
所述狀態(tài)觀測(cè)部接收所述電動(dòng)機(jī)的電流、電壓、溫度以及轉(zhuǎn)差率的第1狀態(tài)量,作為從所述電動(dòng)機(jī)向控制所述電動(dòng)機(jī)的電動(dòng)機(jī)控制部的反饋信號(hào),從所述電動(dòng)機(jī)控制部接收所述風(fēng)扇電動(dòng)機(jī)的清掃間隔以及所述機(jī)械裝置的運(yùn)轉(zhuǎn)率的第2狀態(tài)量。優(yōu)選的是,所述狀態(tài)觀測(cè)部還觀測(cè)所述電動(dòng)機(jī)的周圍溫度的狀態(tài)量,所述學(xué)習(xí)部還考慮由所述狀態(tài)觀測(cè)部觀測(cè)到的所述電動(dòng)機(jī)的周圍溫度的狀態(tài)量,來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。所述狀態(tài)觀測(cè)部從配置于所述電動(dòng)機(jī)附近的溫度測(cè)量部接收所述電動(dòng)機(jī)的周圍溫度的第3狀態(tài)量。
優(yōu)選的是,所述學(xué)習(xí)部包括:回報(bào)計(jì)算部,其基于由所述狀態(tài)觀測(cè)部觀測(cè)到的狀態(tài)量來(lái)計(jì)算回報(bào);以及價(jià)值函數(shù)更新部,其基于由所述回報(bào)計(jì)算部計(jì)算出的回報(bào),來(lái)更新根據(jù)當(dāng)前的狀態(tài)變量(狀態(tài)量)決定所述風(fēng)扇電動(dòng)機(jī)的清掃間隔的變化量的函數(shù)。所述機(jī)械學(xué)習(xí)器還包括:意圖決定部,其基于所述學(xué)習(xí)部的學(xué)習(xí)結(jié)果,根據(jù)當(dāng)前的狀態(tài)變量來(lái)決定是否清掃所述風(fēng)扇電動(dòng)機(jī)。
優(yōu)選的是,所述回報(bào)計(jì)算部進(jìn)行如下動(dòng)作:基于所述風(fēng)扇電動(dòng)機(jī)的清掃間隔的增大、觀測(cè)到的所述電動(dòng)機(jī)的溫度與所述電動(dòng)機(jī)的預(yù)測(cè)溫度之間的差異的縮小、或者所述機(jī)械裝置的運(yùn)轉(zhuǎn)率的降低給予較小的回報(bào),基于所述風(fēng)扇電動(dòng)機(jī)的清掃間隔的縮短、觀測(cè)到的所述電動(dòng)機(jī)的溫度與所述電動(dòng)機(jī)的預(yù)測(cè)溫度之間的差異的增大、或者所述機(jī)械裝置的運(yùn)轉(zhuǎn)率的上升給予較大的回報(bào)。并且,還能夠包括:警報(bào)輸出部,其在清掃所述風(fēng)扇電動(dòng)機(jī)時(shí),基于所述意圖決定部的輸出來(lái)輸出警報(bào)。所述機(jī)械學(xué)習(xí)器也可以具有神經(jīng)網(wǎng)絡(luò)。
根據(jù)本發(fā)明的第2實(shí)施方式,提供一種包括多個(gè)機(jī)械學(xué)習(xí)器的電動(dòng)機(jī)控制系統(tǒng),該機(jī)械學(xué)習(xí)器學(xué)習(xí)對(duì)設(shè)于機(jī)械裝置的電動(dòng)機(jī)進(jìn)行冷卻的風(fēng)扇電動(dòng)機(jī)的清掃頻率,包括:狀態(tài)觀測(cè)部,其觀測(cè)所述機(jī)械裝置的狀態(tài);以及學(xué)習(xí)部,其基于由所述狀態(tài)觀測(cè)部觀測(cè)到的狀態(tài)量來(lái)對(duì)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表,所述學(xué)習(xí)部包括:回報(bào)計(jì)算部,其基于由所述狀態(tài)觀測(cè)部觀測(cè)到的狀態(tài)量來(lái)計(jì)算回報(bào);以及價(jià)值函數(shù)更新部,其基于由所述回報(bào)計(jì)算部計(jì)算出的回報(bào)來(lái)更新根據(jù)當(dāng)前的狀態(tài)變量決定所述風(fēng)扇電動(dòng)機(jī)的清掃間隔的變化量的函數(shù),該電動(dòng)機(jī)控制系統(tǒng)具有在多個(gè)所述機(jī)械學(xué)習(xí)器之間交換數(shù)據(jù)的單元,利用由多個(gè)所述機(jī)械學(xué)習(xí)器中的1個(gè)機(jī)械學(xué)習(xí)器的價(jià)值函數(shù)更新部更新后的函數(shù),來(lái)更新其他機(jī)械學(xué)習(xí)器的價(jià)值函數(shù)更新部的函數(shù)。所述電動(dòng)機(jī)控制系統(tǒng)包括多個(gè)所述電動(dòng)機(jī)以及所述風(fēng)扇電動(dòng)機(jī),所述機(jī)械學(xué)習(xí)器被設(shè)置成與各個(gè)所述風(fēng)扇電動(dòng)機(jī)相對(duì)應(yīng),利用通信介質(zhì)共享或者相互交換所述機(jī)械學(xué)習(xí)器學(xué)習(xí)到的所述狀態(tài)變量。
根據(jù)本發(fā)明的第3實(shí)施方式,提供一種機(jī)械學(xué)習(xí)方法,在該方法中,學(xué)習(xí)對(duì)設(shè)于機(jī)械裝置的電動(dòng)機(jī)進(jìn)行冷卻的風(fēng)扇電動(dòng)機(jī)的清掃頻率,觀測(cè)所述機(jī)械裝置的狀態(tài),基于觀測(cè)到的狀態(tài)量來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。優(yōu)選的是,所述機(jī)械裝置的狀態(tài)的觀測(cè)是指,觀測(cè)所述電動(dòng)機(jī)的電流、電壓、溫度及轉(zhuǎn)差率、所述風(fēng)扇電動(dòng)機(jī)的清掃間隔以及所述機(jī)械裝置的運(yùn)轉(zhuǎn)率,清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表的更新是指,基于觀測(cè)到的所述電動(dòng)機(jī)的電流、電壓、溫度及轉(zhuǎn)差率、所述風(fēng)扇電動(dòng)機(jī)的清掃間隔以及所述機(jī)械裝置的運(yùn)轉(zhuǎn)率,來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。所述機(jī)械裝置的狀態(tài)的觀測(cè)還指,觀測(cè)所述電動(dòng)機(jī)的周圍溫度的狀態(tài)量,清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表的更新是指,考慮觀測(cè)到的所述電動(dòng)機(jī)的周圍溫度的狀態(tài)量,來(lái)更新清掃所述風(fēng)扇電動(dòng)機(jī)的行為價(jià)值表。
附圖說(shuō)明
參照以下的附圖,進(jìn)一步明確地理解本發(fā)明。
圖1是概略地表示本發(fā)明的電動(dòng)機(jī)控制系統(tǒng)的一實(shí)施例的框圖。
圖2是表示神經(jīng)元的模型的示意圖。
圖3是表示將圖2所示的神經(jīng)元組合而構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)的示意圖。
圖4是表示圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的一例的流程圖。
圖5是用于說(shuō)明圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的一例的圖(其一)。
圖6是用于說(shuō)明圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的一例的圖(其二)。
圖7是表示圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的其他例子的流程圖。
圖8是表示圖1所示的機(jī)械學(xué)習(xí)器所使用的行為價(jià)值表的一例的圖。
具體實(shí)施方式
以下,參照附圖詳述本發(fā)明的機(jī)械學(xué)習(xí)器、電動(dòng)機(jī)控制系統(tǒng)以及機(jī)械學(xué)習(xí)方法的實(shí)施例。圖1是概略地表示本發(fā)明的電動(dòng)機(jī)控制系統(tǒng)的一實(shí)施例的框圖。
另外,在以下的記載中,為了簡(jiǎn)化說(shuō)明,主要以針對(duì)由電動(dòng)機(jī)控制部13控制的一個(gè)驅(qū)動(dòng)電動(dòng)機(jī)12設(shè)有一個(gè)風(fēng)扇電動(dòng)機(jī)11、利用機(jī)械學(xué)習(xí)器2學(xué)習(xí)該風(fēng)扇電動(dòng)機(jī)11的清掃間隔的情況為例來(lái)進(jìn)行說(shuō)明。另外,以下,僅簡(jiǎn)單地記載為風(fēng)扇電動(dòng)機(jī)11的清掃,這可以是自動(dòng)清掃風(fēng)扇電動(dòng)機(jī)11的情況或者操作人員手動(dòng)清掃的情況中的任一方。并且,風(fēng)扇電動(dòng)機(jī)11的清掃并非僅是風(fēng)扇電動(dòng)機(jī)11的清掃,例如包括消除通風(fēng)孔的污濁、堵塞這樣的各種清掃作業(yè)。
如圖1所示,本實(shí)施例的電動(dòng)機(jī)控制系統(tǒng)包括機(jī)械裝置1以及機(jī)械學(xué)習(xí)器2。這里,機(jī)械裝置1設(shè)有NC機(jī)床、機(jī)器人等的電動(dòng)機(jī)(驅(qū)動(dòng)電動(dòng)機(jī))12,利用風(fēng)扇電動(dòng)機(jī)11來(lái)冷卻從驅(qū)動(dòng)電動(dòng)機(jī)12放出的熱。機(jī)械裝置1還設(shè)有控制驅(qū)動(dòng)電動(dòng)機(jī)12的電動(dòng)機(jī)控制部(電動(dòng)機(jī)控制部)13以及溫度測(cè)量部14。
機(jī)械裝置1也可以包括多個(gè)驅(qū)動(dòng)電動(dòng)機(jī)12,另外,也可以與驅(qū)動(dòng)電動(dòng)機(jī)12的數(shù)量相應(yīng)地設(shè)有多個(gè)用于冷卻驅(qū)動(dòng)電動(dòng)機(jī)12的風(fēng)扇電動(dòng)機(jī)11。另外,也能夠針對(duì)一個(gè)驅(qū)動(dòng)電動(dòng)機(jī)12設(shè)有多個(gè)風(fēng)扇電動(dòng)機(jī)11。此外,不言而喻,電動(dòng)機(jī)控制部13能夠控制多個(gè)驅(qū)動(dòng)電動(dòng)機(jī)12。
如圖1所示,機(jī)械學(xué)習(xí)器2學(xué)習(xí)對(duì)設(shè)于機(jī)械裝置1的驅(qū)動(dòng)電動(dòng)機(jī)12進(jìn)行冷卻的風(fēng)扇電動(dòng)機(jī)11的清掃頻率,包括狀態(tài)觀測(cè)部21、學(xué)習(xí)部22以及意圖決定部25。狀態(tài)觀測(cè)部21觀測(cè)機(jī)械裝置1的狀態(tài),學(xué)習(xí)部22基于由狀態(tài)觀測(cè)部21觀測(cè)到的狀態(tài)量來(lái)更新清掃風(fēng)扇電動(dòng)機(jī)11的行為價(jià)值表。即,狀態(tài)觀測(cè)部21觀測(cè)驅(qū)動(dòng)電動(dòng)機(jī)12的電流、電壓、溫度及轉(zhuǎn)差率(ship)、風(fēng)扇電動(dòng)機(jī)11的清掃間隔、以及機(jī)械裝置1的運(yùn)轉(zhuǎn)率的狀態(tài)量。另外,狀態(tài)觀測(cè)部21例如配置于驅(qū)動(dòng)電動(dòng)機(jī)12的附近,能夠?qū)y(cè)量驅(qū)動(dòng)電動(dòng)機(jī)12的周圍溫度的溫度測(cè)量部14的輸出(驅(qū)動(dòng)電動(dòng)機(jī)12的周圍溫度)也作為狀態(tài)量來(lái)進(jìn)行觀測(cè)。
這里,狀態(tài)觀測(cè)部21例如接收驅(qū)動(dòng)電動(dòng)機(jī)12的電流、電壓、溫度以及轉(zhuǎn)差率的狀態(tài)量(第1狀態(tài)量)SV1作為從驅(qū)動(dòng)電動(dòng)機(jī)12向電動(dòng)機(jī)控制部13的反饋信號(hào)FB。即,電動(dòng)機(jī)控制部13向驅(qū)動(dòng)電動(dòng)機(jī)12輸出控制信號(hào)CS來(lái)控制驅(qū)動(dòng)電動(dòng)機(jī)12,并且從驅(qū)動(dòng)電動(dòng)機(jī)12接收驅(qū)動(dòng)電動(dòng)機(jī)12的電流、電壓、溫度以及轉(zhuǎn)差率這樣的狀態(tài)量作為反饋信號(hào)FB。然后,將該反饋信號(hào)FB作為第1狀態(tài)量SV1而提供給機(jī)械學(xué)習(xí)器2的狀態(tài)觀測(cè)部21。
另外,狀態(tài)觀測(cè)部21例如從電動(dòng)機(jī)控制部13接收風(fēng)扇電動(dòng)機(jī)11的清掃間隔以及機(jī)械裝置1的運(yùn)轉(zhuǎn)率這樣的狀態(tài)量(第2狀態(tài)量)SV2。并且,狀態(tài)觀測(cè)部21還從配置于驅(qū)動(dòng)電動(dòng)機(jī)12的附近的溫度測(cè)量部14例如接收驅(qū)動(dòng)電動(dòng)機(jī)12的周圍溫度的狀態(tài)量(第3狀態(tài)量)SV3。
學(xué)習(xí)部22包括:回報(bào)計(jì)算部23,其基于由狀態(tài)觀測(cè)部21觀測(cè)到的狀態(tài)量來(lái)計(jì)算回報(bào);以及價(jià)值函數(shù)更新部24,其基于由回報(bào)計(jì)算部23計(jì)算出的回報(bào),更新根據(jù)當(dāng)前的狀態(tài)量(狀態(tài)變量)決定風(fēng)扇電動(dòng)機(jī)11的清掃間隔的變化量的函數(shù)?;貓?bào)計(jì)算部23例如根據(jù)驅(qū)動(dòng)電動(dòng)機(jī)12的電流及電壓的值(第1狀態(tài)量SV1的一部分)、驅(qū)動(dòng)電動(dòng)機(jī)12的周圍溫度(第3狀態(tài)量SV3)來(lái)計(jì)算驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度,根據(jù)風(fēng)扇電動(dòng)機(jī)11的清掃間隔及機(jī)械裝置1的運(yùn)轉(zhuǎn)率(第2狀態(tài)量SV2)來(lái)計(jì)算回報(bào)。
然而,關(guān)于驅(qū)動(dòng)電動(dòng)機(jī)12的壽命,大致成為軸承的壽命,即軸承的潤(rùn)滑油的壽命很大的因素。如上所示,溫度越高潤(rùn)滑油的壽命越短。作為簡(jiǎn)單的計(jì)算例,例如能夠表示為ΔT(電動(dòng)機(jī)的溫度上升)={(電壓)×(電流)-(輸出)-(冷卻能力)}/(熱容量)。這里,若風(fēng)扇電動(dòng)機(jī)的清掃頻率過(guò)低,則例如驅(qū)動(dòng)電動(dòng)機(jī)的溫度變高,驅(qū)動(dòng)電動(dòng)機(jī)(或者,設(shè)有驅(qū)動(dòng)電動(dòng)機(jī)的機(jī)械裝置)的壽命降低。另一方面,若風(fēng)扇電動(dòng)機(jī)的清掃頻率過(guò)高,則例如機(jī)械裝置的運(yùn)轉(zhuǎn)率降低,相應(yīng)地,生產(chǎn)率降低。
因此,回報(bào)計(jì)算部23例如基于風(fēng)扇電動(dòng)機(jī)11的清掃間隔的增大、觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度之間的差異的縮小、或者機(jī)械裝置1的運(yùn)轉(zhuǎn)率的降低給予較小的回報(bào),相反,基于風(fēng)扇電動(dòng)機(jī)11的清掃間隔的縮短、觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度之間的差異的增大、或者機(jī)械裝置1的運(yùn)轉(zhuǎn)率的上升給予較大的回報(bào)。
價(jià)值函數(shù)更新部24基于來(lái)自回報(bào)計(jì)算部23的回報(bào)來(lái)更新價(jià)值函數(shù)(清掃風(fēng)扇電動(dòng)機(jī)11的行為價(jià)值表)。另外,價(jià)值函數(shù)例如存儲(chǔ)于設(shè)在機(jī)械學(xué)習(xí)器2上的存儲(chǔ)器,或者,還能夠經(jīng)由通信線路等傳送到其他機(jī)械學(xué)習(xí)器2。另外,在圖1中,在機(jī)械學(xué)習(xí)器2上設(shè)有警報(bào)輸出部26,在清掃風(fēng)扇電動(dòng)機(jī)11時(shí),基于意圖決定部25的輸出來(lái)輸出警報(bào)。作為該警報(bào)輸出部26的輸出,能夠利用例如在電動(dòng)機(jī)控制部13設(shè)有的顯示器上進(jìn)行催促風(fēng)扇電動(dòng)機(jī)11的清掃的顯示、或者在操作人員關(guān)注的位置設(shè)置顯示燈并使其閃爍等各種方法,來(lái)輸出警報(bào)。收到警報(bào)后,例如操作人員能夠進(jìn)行風(fēng)扇電動(dòng)機(jī)的清掃(風(fēng)扇電動(dòng)機(jī)、通風(fēng)孔的清掃)。另外,不言而喻,也能夠基于警報(bào)輸出部26的輸出信號(hào)而自動(dòng)地進(jìn)行風(fēng)扇電動(dòng)機(jī)、通風(fēng)孔的清掃。
另外,電動(dòng)機(jī)控制系統(tǒng)也可以具有:多個(gè)機(jī)械裝置1(1a~1z),各機(jī)械裝置都包括驅(qū)動(dòng)電動(dòng)機(jī)12(12a~12z)、風(fēng)扇電動(dòng)機(jī)11(11a~11z)以及電動(dòng)機(jī)控制部13(13a~13z);以及與機(jī)械裝置1(1a~1z)相對(duì)應(yīng)的多個(gè)機(jī)械學(xué)習(xí)器2(2a~2z)。這里,加在各附圖標(biāo)記之后的a~z是表示該構(gòu)成要素有多個(gè)的意思。這樣,電動(dòng)機(jī)控制系統(tǒng)具有多個(gè)機(jī)械裝置1a~1z以及與機(jī)械裝置1a~1z相對(duì)應(yīng)的多個(gè)機(jī)械學(xué)習(xí)器2a~2z的情況下,例如,能夠用由一個(gè)機(jī)械學(xué)習(xí)器2a的價(jià)值函數(shù)更新部24a更新好的函數(shù)來(lái)更新其他機(jī)械學(xué)習(xí)器2b~2z的價(jià)值函數(shù)更新部24b~24z的函數(shù)。
另外,機(jī)械學(xué)習(xí)器2具有這樣的功能:從輸入到裝置的數(shù)據(jù)的集合通過(guò)解析而提取出其中的有用的規(guī)則、知識(shí)表現(xiàn)、判斷基準(zhǔn)等,輸出其判斷結(jié)果,并進(jìn)行知識(shí)的學(xué)習(xí)(機(jī)械學(xué)習(xí))。機(jī)械學(xué)習(xí)的方法具有多種,大致分為“有教師學(xué)習(xí)”、“無(wú)教師學(xué)習(xí)”、“強(qiáng)化學(xué)習(xí)”。并且,還具有在實(shí)現(xiàn)這些方法的基礎(chǔ)上學(xué)習(xí)特征量其本身的提取的被稱為“深層學(xué)習(xí)(Deep Learning)”的方法。另外,這些機(jī)械學(xué)習(xí)(機(jī)械學(xué)習(xí)器2)例如能夠通過(guò)應(yīng)用GPGPU(通用圖形處理器:General-Purpose computing on Graphics Processing Units)、大規(guī)模PC群等來(lái)實(shí)現(xiàn)。另外,本實(shí)施例中,以“強(qiáng)化學(xué)習(xí)”為例進(jìn)行說(shuō)明,但是并非一定限定于“強(qiáng)化學(xué)習(xí)”。
首先,作為強(qiáng)化學(xué)習(xí)的問(wèn)題設(shè)定考慮如下。
·機(jī)械裝置1(風(fēng)扇電動(dòng)機(jī)11)觀測(cè)環(huán)境狀態(tài),決定行為(風(fēng)扇電動(dòng)機(jī)11的清掃)。
·環(huán)境按照某些規(guī)則發(fā)生變化,并且,自身的行為還會(huì)使環(huán)境變化。
·每次行動(dòng)時(shí),返回回報(bào)信號(hào)。
·想要最大化的是將來(lái)的回報(bào)(折扣)的合計(jì)。
·從完全不知道或者不完全知道行為所導(dǎo)致的結(jié)果的狀態(tài)起開(kāi)始學(xué)習(xí)。即,機(jī)械裝置1能夠在實(shí)際行動(dòng)后,首次將其結(jié)果作為數(shù)據(jù)而獲得。也就是說(shuō),需要一邊試錯(cuò)一邊探索最佳行為。
·也可以像模擬人的動(dòng)作那樣,以事先學(xué)習(xí)(上述的有教師學(xué)習(xí)、反向強(qiáng)化學(xué)習(xí)這樣的方法)的狀態(tài)為初始狀態(tài),從好的開(kāi)始點(diǎn)開(kāi)始學(xué)習(xí)。
這里,強(qiáng)化學(xué)習(xí)是指,并非僅進(jìn)行判斷、分類,還學(xué)習(xí)行為,由此依據(jù)行為給予環(huán)境的相互作用,來(lái)學(xué)習(xí)適當(dāng)?shù)男袨?,即,學(xué)習(xí)為了使將來(lái)能夠獲得的回報(bào)最大化而進(jìn)行學(xué)習(xí)的方法。在本實(shí)施例中,這表示能夠獲得例如通過(guò)進(jìn)行風(fēng)扇電動(dòng)機(jī)11的清掃來(lái)決定驅(qū)動(dòng)電動(dòng)機(jī)12的狀態(tài)量(電流、電壓、溫度等)這樣的對(duì)未來(lái)造成影響的行為。以下,作為例子以Q學(xué)習(xí)的情況繼續(xù)說(shuō)明,但并不限定于Q學(xué)習(xí)。
Q學(xué)習(xí)是學(xué)習(xí)在某環(huán)境狀態(tài)s下選擇行為a的價(jià)值Q(s,a)的方法。也就是說(shuō),在某狀態(tài)s下,將價(jià)值Q(s,a)最高的行為a作為最佳行為來(lái)選擇即可。但是,最初關(guān)于狀態(tài)s與行為a的組合,完全不知道價(jià)值Q(s,a)的正確值。因此,智能體(行為主體)在某狀態(tài)s下選擇各種行為a,對(duì)此時(shí)的行為a給予回報(bào)。由此,智能體學(xué)習(xí)較好的行為選擇、即正確的價(jià)值Q(s,a)。
并且,行為的結(jié)果是想要使將來(lái)能夠獲得的回報(bào)的合計(jì)最大化,因此以最終成為Q(s,a)=E[Σ(γt)rt]為目標(biāo)。這里,設(shè)為按照最佳行為在狀態(tài)發(fā)生了變化時(shí)取得期望值,因?yàn)椴恢肋@個(gè),所以一邊探索一邊學(xué)習(xí)。這樣的價(jià)值Q(s,a)的更新式例如能夠由下式(1)來(lái)表示。
在上述式(1)中,st表示時(shí)刻t的環(huán)境的狀態(tài),at表示時(shí)刻t的行為。由于行為at,狀態(tài)變化為st+1。rt+1表示由該狀態(tài)的變化得到的回報(bào)。另外,帶有max的項(xiàng)是在狀態(tài)st+1下選擇了此時(shí)所知道的Q值最高的行為a時(shí)的Q值乘以γ而得的值。這里,γ是0<γ≤1的參數(shù),稱為折扣率。此外,α是學(xué)習(xí)系數(shù),設(shè)為0<α≤1的范圍。
上述式(1)表示基于試行at的結(jié)果返回的回報(bào)rt+1來(lái)更新?tīng)顟B(tài)st下的行為at的評(píng)價(jià)值Q(st,at)的方法。即,示出了與狀態(tài)s下的行為a的評(píng)價(jià)值Q(st,at)相比,若回報(bào)rt+1+行為a導(dǎo)致的下一狀態(tài)下的最佳行為max a的評(píng)價(jià)值Q(st+1,max at+1)較大則使Q(st,at)變大,相反,若Q(st+1,max at+1)較小則使Q(st,at)變小。也就是說(shuō),使某狀態(tài)下的某行為的價(jià)值接近作為結(jié)果立即返回的回報(bào)和該行為導(dǎo)致的下一狀態(tài)下的最佳行為的價(jià)值。
這里,Q(s,a)在計(jì)算機(jī)上的表現(xiàn)方法有:針對(duì)所有的狀態(tài)行為對(duì)(s,a),將其值以表的方式保持的方法;準(zhǔn)備對(duì)Q(s,a)進(jìn)行近似的函數(shù)的方法。后者的方法中,能夠利用隨機(jī)梯度下降法(Stochastic gradient descent method)等方法調(diào)整近似函數(shù)的參數(shù),從而實(shí)現(xiàn)上述式(1)。作為近似函數(shù),能夠使用后述神經(jīng)網(wǎng)絡(luò)。
這里,作為強(qiáng)化學(xué)習(xí)中的價(jià)值函數(shù)的近似算法,能夠使用神經(jīng)網(wǎng)絡(luò)。圖2是表示神經(jīng)元的模型的示意圖,圖3是表示將圖2所示的神經(jīng)元組合而構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)的示意圖。即,神經(jīng)網(wǎng)絡(luò)例如由模擬圖2所示這樣的神經(jīng)元的模型的演算裝置以及存儲(chǔ)器等構(gòu)成。
如圖2所示,神經(jīng)元輸出與多個(gè)輸入x(在圖2中,作為一例,是輸入x1~輸入x3)對(duì)應(yīng)的輸出(結(jié)果)y。各輸入x(x1、x2、x3)乘以與該輸入x對(duì)應(yīng)的權(quán)值w(w1、w2、w3)。由此,神經(jīng)元輸出由下式(2)表現(xiàn)出來(lái)的結(jié)果y。其中,輸入x、結(jié)果y及權(quán)值w都是向量。另外,在下述的式(2)中,θ是偏置,fk是激活函數(shù)。
參照?qǐng)D3說(shuō)明將圖2所示的神經(jīng)元組合而構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)。如圖3所示,從神經(jīng)網(wǎng)絡(luò)的左側(cè)輸入多個(gè)輸入x(這里,作為一例,是輸入x1~輸入x3),從右側(cè)輸出結(jié)果y(這里,作為一例,是結(jié)果y1~結(jié)果y3)。具體而言,輸入x1、x2、x3分別針對(duì)三個(gè)神經(jīng)元N11~N13乘以相應(yīng)的權(quán)值后輸入。與這些輸入相乘的權(quán)值統(tǒng)一標(biāo)記為W1。
神經(jīng)元N11~N13分別輸出z11~z13。在圖3中,這些z11~z13統(tǒng)一標(biāo)記為特征向量Z1,可以視為是將輸入向量的特征量提取后的向量。該特征向量Z1是權(quán)值W1與權(quán)值W2之間的特征向量。z11~z13分別針對(duì)兩個(gè)神經(jīng)元N21以及N22乘以相應(yīng)的權(quán)值后輸入。與這些特征向量相乘的權(quán)值統(tǒng)一標(biāo)記為W2。
神經(jīng)元N21、N22分別輸出z21、z22。在圖3中,這些z21、z22統(tǒng)一標(biāo)記為特征向量Z2。該特征向量Z2是權(quán)值W2與權(quán)值W3之間的特征向量。z21、z22分別針對(duì)三個(gè)神經(jīng)元N31~N33乘以相應(yīng)的權(quán)值后輸入。與這些特征向量相乘的權(quán)值統(tǒng)一標(biāo)記為W3。
最后,神經(jīng)元N31~N33分別輸出結(jié)果y1~結(jié)果y3。神經(jīng)網(wǎng)絡(luò)的動(dòng)作具有學(xué)習(xí)模式和價(jià)值預(yù)測(cè)模式。例如,在學(xué)習(xí)模式下,使用學(xué)習(xí)數(shù)據(jù)集來(lái)學(xué)習(xí)權(quán)值W,使用該參數(shù)在預(yù)測(cè)模式下進(jìn)行機(jī)器人的行為判斷。另外,為了方便起見(jiàn),寫(xiě)了預(yù)測(cè),但是不言而喻,也可以是檢測(cè)、分類、推論等各種各樣的任務(wù)。
這里,能夠在預(yù)測(cè)模式下即時(shí)學(xué)習(xí)實(shí)際啟動(dòng)機(jī)器人而得到的數(shù)據(jù),并將其反映到接下來(lái)的行為中(在線學(xué)習(xí)),還能夠使用預(yù)先收集的數(shù)據(jù)組進(jìn)行總結(jié)學(xué)習(xí),以后一直以該參數(shù)進(jìn)行檢測(cè)模式(批量學(xué)習(xí))?;蛘?,還能夠每當(dāng)中間數(shù)據(jù)積存某程度時(shí)插入學(xué)習(xí)模式。
另外,權(quán)值W1~W3能夠利用誤差反向傳播法(Backpropagation)來(lái)進(jìn)行學(xué)習(xí)。另外,誤差信息從右側(cè)進(jìn)入,流向左側(cè)。誤差反向傳播法是這樣的方法:對(duì)于各神經(jīng)元,以減小輸入x輸入后的輸出y與真正的輸出y(教師)之間的差異的方式,調(diào)整(學(xué)習(xí))各個(gè)權(quán)值。這樣的神經(jīng)網(wǎng)絡(luò)能夠進(jìn)一步將層增加至3層以上(被稱為深層學(xué)習(xí))。另外,能夠僅從教師數(shù)據(jù)自動(dòng)獲得階段性地進(jìn)行輸入的特征提取,并反饋結(jié)果運(yùn)算的運(yùn)算裝置。
因此,如上所示,本實(shí)施例的機(jī)械學(xué)習(xí)器2例如為了實(shí)施Q學(xué)習(xí)而包括狀態(tài)觀測(cè)部21、學(xué)習(xí)部22、以及意圖決定部25。但是,如上所述,能夠應(yīng)用于本發(fā)明的機(jī)械學(xué)習(xí)方法不限定于Q學(xué)習(xí)。另外,如上所述,機(jī)械學(xué)習(xí)(機(jī)械學(xué)習(xí)器2)例如能夠通過(guò)應(yīng)用GPGPU、大規(guī)模PC群等來(lái)實(shí)現(xiàn)。
圖4是表示圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的一例的流程圖。如圖4所示,在機(jī)械學(xué)習(xí)開(kāi)始(學(xué)習(xí)開(kāi)始)時(shí),基于行為價(jià)值表來(lái)決定風(fēng)扇電動(dòng)機(jī)的清掃間隔(步驟ST11),判斷機(jī)械運(yùn)轉(zhuǎn)率,決定回報(bào)(回報(bào)值)(步驟ST12~ST15)。例如,機(jī)械裝置1的運(yùn)轉(zhuǎn)率低的情況下,設(shè)為沒(méi)有回報(bào)(步驟ST13),機(jī)械裝置1的運(yùn)轉(zhuǎn)率為中等程度的情況下,輸出“+5”的回報(bào)(步驟ST14),另外,機(jī)械裝置1的運(yùn)轉(zhuǎn)率高的情況下,輸出“+10”的回報(bào)(步驟ST15)。之后,將由步驟ST13~ST15輸出的回報(bào)累計(jì)到這之前的回報(bào)(步驟ST16)。
接著,進(jìn)行與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較,決定回報(bào)(步驟ST17~ST20)。例如,與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度相比,觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度相當(dāng)高的情況下,輸出“-10”的回報(bào)(步驟ST18),觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度比驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度高的情況下,輸出“+6”的回報(bào)(步驟ST19),另外,觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度同等的情況下,輸出“+10”的回報(bào)(步驟ST20)。
之后,將由步驟ST18~ST20輸出的回報(bào)累計(jì)到這之前的回報(bào)(步驟ST21),基于累計(jì)后的回報(bào)更新行為價(jià)值表(步驟ST21),反復(fù)進(jìn)行同樣的處理。這里,步驟ST13~ST15的回報(bào)值以及步驟ST18~ST20的回報(bào)值僅是簡(jiǎn)單的例子,能夠適當(dāng)變更。
圖5以及圖6是用于說(shuō)明圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的一例的圖。這里,圖5(a)表示參照?qǐng)D4中的步驟ST17~ST20進(jìn)行了說(shuō)明的與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度的比較、風(fēng)扇電動(dòng)機(jī)11的清掃間隔的關(guān)系,圖5(b)表示參照?qǐng)D4中的步驟ST12~ST15進(jìn)行了說(shuō)明的機(jī)械裝置1的運(yùn)轉(zhuǎn)率與風(fēng)扇電動(dòng)機(jī)11的清掃間隔的關(guān)系。并且,圖5(c)表示圖5(a)以及圖5(b)所示的特性曲線的一致地方,即,通過(guò)本實(shí)施例的機(jī)械學(xué)習(xí)器2來(lái)求出的適當(dāng)?shù)娘L(fēng)扇電動(dòng)機(jī)11的清掃間隔的范圍(學(xué)習(xí)目標(biāo)部分)PR。
另外,圖6(a)是與圖5(a)同等的圖,表示通過(guò)機(jī)械學(xué)習(xí)器2求出的學(xué)習(xí)目標(biāo)部分PR,圖6(b)是將圖6的(a)所示的學(xué)習(xí)目標(biāo)部分PR換算成回報(bào)來(lái)表示的圖。即,機(jī)械學(xué)習(xí)器2將圖4中的步驟ST12~ST15的回報(bào)以及步驟ST17~ST20的回報(bào)分別通過(guò)步驟ST16以及ST21累計(jì)到這之前的回報(bào),以該累計(jì)后的回報(bào)(步驟ST21)成為最大的方式進(jìn)行學(xué)習(xí),求出風(fēng)扇電動(dòng)機(jī)11的最佳清掃間隔。
圖7是表示圖1所示的機(jī)械學(xué)習(xí)器的動(dòng)作的其他例子的流程圖。從圖7與上述圖4的比較能夠明確看出:圖7中的步驟ST32~ST36對(duì)應(yīng)于圖4中的步驟ST12~ST16,圖7中的步驟ST37~ST41對(duì)應(yīng)于圖4中的步驟ST17~ST21。即,判斷機(jī)械運(yùn)轉(zhuǎn)率來(lái)決定回報(bào)的處理、進(jìn)行與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較來(lái)決定回報(bào)的處理能夠同時(shí)(并列地)進(jìn)行,因此,在圖7所示的流程圖中,同時(shí)進(jìn)行這些處理。這里,圖7中的步驟ST31以及ST43對(duì)應(yīng)于圖4中的步驟ST11以及ST22。
但是,在圖7中追加了將同時(shí)進(jìn)行處理的、累計(jì)步驟ST32~ST35的回報(bào)的步驟ST36(對(duì)應(yīng)于圖4中的步驟ST16)的輸出和累計(jì)步驟ST37~ST40的回報(bào)的步驟ST41(對(duì)應(yīng)于圖4中的步驟ST21)的輸出加起來(lái)(累計(jì))的步驟ST42。
圖8是表示圖1所示的機(jī)械學(xué)習(xí)器所使用的行為價(jià)值表(價(jià)值函數(shù))的一例的圖,縱向表示編號(hào)N1~N18的18種模式。并且,橫向表示“與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較(觀測(cè)到的驅(qū)動(dòng)電動(dòng)機(jī)12的溫度與驅(qū)動(dòng)電動(dòng)機(jī)12的預(yù)測(cè)溫度之間的誤差)”、“機(jī)械運(yùn)轉(zhuǎn)率(機(jī)械裝置1的運(yùn)轉(zhuǎn)率)”、“清掃間隔(風(fēng)扇電動(dòng)機(jī)11的清掃間隔)”、“當(dāng)前的狀態(tài)”、“接下來(lái)的狀態(tài)”以及“行為價(jià)值”。這里,在將“清掃間隔”選擇為“縮小”的情況下,設(shè)為使“與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較”降低一級(jí),并且使“機(jī)械運(yùn)轉(zhuǎn)率”降低一級(jí),另外,在將“清掃間隔”選擇為“延長(zhǎng)”的情況下,設(shè)為使“機(jī)械運(yùn)轉(zhuǎn)率”提高一級(jí),以此進(jìn)行說(shuō)明。
具體而言,在圖8中,如編號(hào)N9、N10所示,例如,若“與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較”為“中(高:例如圖4中的步驟ST19)”,則回報(bào)為“+6”,若“機(jī)械運(yùn)轉(zhuǎn)率”為“中(例如圖4中的步驟ST14)”,則回報(bào)為“+5”,“當(dāng)前的狀態(tài)(回報(bào))”為“+11”。此時(shí),根據(jù)是“縮小”“清掃間隔”(N9)還是“延長(zhǎng)”“清掃間隔”(N10)的情況來(lái)使“接下來(lái)的狀態(tài)”變化。
即,N9的情況,“縮小”“清掃間隔”的情況下,使“與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較”下降一級(jí)(“小(同等:例如圖4中的步驟ST20)”,以及使“機(jī)械運(yùn)轉(zhuǎn)率”下降一級(jí)(“低(例如圖4中的步驟ST13)”),而與N17、N18相對(duì)應(yīng),因此回報(bào)為“+10+0=+10”,相抵的“行為價(jià)值”為“+10-11=-1”。
另一方面,N10的情況,“延長(zhǎng)”“清掃間隔”的情況下,“與電動(dòng)機(jī)的預(yù)測(cè)溫度的比較”保持不變(“中(高:例如圖4中的步驟ST19)”以及使”機(jī)械運(yùn)轉(zhuǎn)率”上升一級(jí)(“高(例如圖4中的步驟ST15)”),而與N3、N4相對(duì)應(yīng),因此回報(bào)為“+6+10=+16”,相抵的“行為價(jià)值”為“+16-11=+5”。
因而,在上述情況下,N9的“行為價(jià)值”為“-1”,N10的“行為價(jià)值”為“+5”,對(duì)于“行為價(jià)值”,N9<N10,因此選擇N10的行為、即“延長(zhǎng)”“清掃間隔”的行為。這只是一例,與“縮短”還是“延長(zhǎng)”“清掃間隔”相對(duì)應(yīng)的情況的選擇、或者各種情況的回報(bào)值的設(shè)定等能夠進(jìn)行各種變形以及變更。此外,不言而喻,行為價(jià)值表(價(jià)值函數(shù))并不限定于圖8,能夠應(yīng)用各種表。
這樣,通過(guò)本發(fā)明的對(duì)風(fēng)扇電動(dòng)機(jī)的清掃間隔進(jìn)行學(xué)習(xí)的機(jī)械學(xué)習(xí)器、電動(dòng)機(jī)控制系統(tǒng)以及機(jī)械學(xué)習(xí)方法,能夠求出風(fēng)扇電動(dòng)機(jī)的最佳清掃間隔,能夠使電動(dòng)機(jī)的壽命提高,并且能夠使機(jī)械裝置的運(yùn)轉(zhuǎn)率提高。
通過(guò)本發(fā)明的機(jī)械學(xué)習(xí)器、電動(dòng)機(jī)控制系統(tǒng)以及機(jī)械學(xué)習(xí)方法,取得這樣的效果:能夠使電動(dòng)機(jī)的壽命提高,并且能夠使機(jī)械裝置的運(yùn)轉(zhuǎn)率提高。
以上,對(duì)實(shí)施方式進(jìn)行了說(shuō)明,這里記載的所有例子、條件是為了幫助理解應(yīng)用于發(fā)明以及技術(shù)的發(fā)明的概念而記載的,特別是,記載的例子、條件并不意圖限制發(fā)明的范圍。并且,說(shuō)明書(shū)的記載不是表示發(fā)明的優(yōu)點(diǎn)以及缺點(diǎn)的記載。對(duì)發(fā)明的實(shí)施方式進(jìn)行了詳細(xì)的記載,但應(yīng)該理解為能夠在不脫離發(fā)明的精神以及范圍的前提下進(jìn)行各種變更、置換、變形。