本發(fā)明涉及一種電動機(jī)驅(qū)動裝置,特別涉及一種具備風(fēng)扇電動機(jī)的預(yù)防性維護(hù)功能的電動機(jī)驅(qū)動裝置。
背景技術(shù):
以往,在具備電動機(jī)驅(qū)動裝置以及向電動機(jī)驅(qū)動裝置輸出指令的數(shù)值控制裝置的數(shù)值控制系統(tǒng)中,為了對設(shè)置于電動機(jī)驅(qū)動裝置的發(fā)熱部件進(jìn)行冷卻而使用風(fēng)扇電動機(jī)。當(dāng)風(fēng)扇電動機(jī)發(fā)生異常時,存在以下?lián)鷳n:由于部件發(fā)熱等,電動機(jī)驅(qū)動裝置發(fā)生故障。因此,作為其對策,已知如下一種裝置:在風(fēng)扇電動機(jī)的轉(zhuǎn)速變?yōu)橐?guī)定值以下的情況下輸出警告(例如,日本特開2007-200092號公報。以下稱為“專利文獻(xiàn)1”。)。
簡單說明專利文獻(xiàn)1所記載的以往的數(shù)值控制系統(tǒng)。在第一存儲部中,作為用于判斷是否輸出警告的基準(zhǔn)值而存儲有第一基準(zhǔn)值以及比第一基準(zhǔn)值大的第二基準(zhǔn)值。在比較部的比較結(jié)果是各個檢測值大于第一基準(zhǔn)值且為第二基準(zhǔn)值以下時,顯示部顯示為“警告”,在比較部的比較結(jié)果是各個檢測值大于第二基準(zhǔn)值時,顯示部顯示為“故障”。根據(jù)這種結(jié)構(gòu),操作者能夠?qū)⒓榷ǖ牡谝换鶞?zhǔn)值和第二基準(zhǔn)值作為判定基準(zhǔn),來個別地預(yù)測多個風(fēng)扇電動機(jī)的異常,并個別地確認(rèn)發(fā)生了異常。
然而,在以往技術(shù)中,上述的第一基準(zhǔn)值和第二基準(zhǔn)值等規(guī)定值是預(yù)先決定的。因此,存在以下問題:無法在與風(fēng)扇電動機(jī)的驅(qū)動環(huán)境的變化相應(yīng)的最佳時機(jī)更換風(fēng)扇電動機(jī)。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種監(jiān)視風(fēng)扇電動機(jī)的轉(zhuǎn)速的推移來預(yù)測風(fēng)扇電動機(jī)的故障并輸出警告的電動機(jī)驅(qū)動裝置。
本發(fā)明的一個實施例所涉及的電動機(jī)驅(qū)動裝置具備機(jī)器學(xué)習(xí)器,該電動機(jī)驅(qū)動裝置具有:風(fēng)扇電動機(jī);以及警報輸出部,其通知風(fēng)扇電動機(jī)的更換時期,其中,機(jī)器學(xué)習(xí)器具有:狀態(tài)觀測部,其觀測風(fēng)扇電動機(jī)的轉(zhuǎn)速;獎勵(日語:報酬)計算部,其根據(jù)警報輸出部輸出警報的時期以及風(fēng)扇電動機(jī)實際發(fā)生故障的時期來計算獎勵;人工智能,其基于狀態(tài)觀測部中的觀測結(jié)果以及獎勵計算部中的獎勵來判斷行動的價值;以及意思決定部,其基于人工智能中的判斷結(jié)果來決定是否從警報輸出部輸出警報。
附圖說明
通過與附圖相關(guān)聯(lián)的以下的實施方式的說明,本發(fā)明的目的、特征以及優(yōu)點會變得更進(jìn)一步明確。在該附圖中,
圖1是本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的結(jié)構(gòu)圖,
圖2是用于說明使用本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置來根據(jù)多個過去的轉(zhuǎn)速的推移和故障的數(shù)據(jù)預(yù)想今后的轉(zhuǎn)速的推移的方法的曲線圖,
圖3是表示在本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的機(jī)器學(xué)習(xí)器中使用的神經(jīng)元的模型的示意圖,
圖4是表示在本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的機(jī)器學(xué)習(xí)器中使用的3層神經(jīng)網(wǎng)絡(luò)模型的示意圖,以及
圖5是用于說明本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的動作過程的流程圖。
具體實施方式
下面,參照附圖來說明本發(fā)明所涉及的電動機(jī)驅(qū)動裝置。
圖1是本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的結(jié)構(gòu)圖。本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置100具備機(jī)器學(xué)習(xí)器(智能體(agent))10和風(fēng)扇電動機(jī)控制部(環(huán)境)20。機(jī)器學(xué)習(xí)器10具備狀態(tài)觀測部1、獎勵計算部2、人工智能(學(xué)習(xí)部)3以及意思決定部4。風(fēng)扇電動機(jī)控制部20具備風(fēng)扇電動機(jī)21以及通知風(fēng)扇電動機(jī)21的更換時期的警報輸出部22。
狀態(tài)觀測部1觀測風(fēng)扇電動機(jī)21的旋轉(zhuǎn)速度、即每單位時間的轉(zhuǎn)速(以下僅稱為“轉(zhuǎn)速”)。圖2是用于說明使用本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置來根據(jù)多個過去的轉(zhuǎn)速的推移和故障的數(shù)據(jù)預(yù)想今后的轉(zhuǎn)速的推移的方法的曲線圖。
圖2的上側(cè)的2個曲線圖表示作為狀態(tài)觀測部1觀測出的過去的數(shù)據(jù)的、風(fēng)扇電動機(jī)21的轉(zhuǎn)速的推移(時間性變化)。例如,在數(shù)據(jù)no.1中示出了以下例子:從時刻0[sec]到時刻t1[sec]大致以額定轉(zhuǎn)速進(jìn)行旋轉(zhuǎn),但是從時刻t1[sec]起轉(zhuǎn)速開始減少,在時刻t2[sec]旋轉(zhuǎn)停止。同樣地,在數(shù)據(jù)no.2中示出了以下例子:從時刻0[sec]到時刻t3[sec]大致以額定轉(zhuǎn)速進(jìn)行旋轉(zhuǎn),但是從時刻t3[sec]起轉(zhuǎn)速開始減少,在時刻t4[sec]旋轉(zhuǎn)停止。此外,圖2中示出了2個數(shù)據(jù)作為過去的數(shù)據(jù),但是過去的數(shù)據(jù)也可以是3個以上。
警報輸出部22按照風(fēng)扇電動機(jī)21的轉(zhuǎn)速的推移來輸出通知風(fēng)扇電動機(jī)21的更換時期的警報。例如,警報輸出部22可以在風(fēng)扇電動機(jī)21的轉(zhuǎn)速低于額定轉(zhuǎn)速的x[%]的情況下輸出警報?;蛘?,警報輸出部22也可以在風(fēng)扇電動機(jī)21的轉(zhuǎn)速低于規(guī)定的轉(zhuǎn)速y[min-1]的情況下輸出警報?;蛘?,警報輸出部22還可以在風(fēng)扇電動機(jī)21開始旋轉(zhuǎn)起的經(jīng)過時間超過規(guī)定的時間z[hour]的情況下輸出警報。但是,這些例子是一例,也可以基于其它基準(zhǔn)來輸出警報。
獎勵計算部2根據(jù)警報輸出部22輸出警報的時期以及風(fēng)扇電動機(jī)實際發(fā)生故障的時期來計算獎勵??梢允?,從輸出警報到風(fēng)扇電動機(jī)實際發(fā)生故障的時間越短,獎勵計算部2計算出越高的獎勵。另外,也可以是,在未輸出警報、風(fēng)扇電動機(jī)21未發(fā)生故障而繼續(xù)旋轉(zhuǎn)的情況下,獎勵計算部2計算出高的獎勵。并且,還可以是,在輸出警報之前風(fēng)扇電動機(jī)21發(fā)生了故障的情況下,獎勵計算部2計算出低的獎勵。
人工智能(學(xué)習(xí)部)3能夠基于狀態(tài)觀測部1所觀測出的風(fēng)扇電動機(jī)21的轉(zhuǎn)速等觀測結(jié)果以及獎勵計算部2中的獎勵來判斷行動的價值。另外,也可以是,狀態(tài)觀測部1還觀測電動機(jī)驅(qū)動裝置100的周圍溫度,人工智能3將周圍溫度也納入考慮范圍來判斷行動的價值?;蛘?,也可以是,狀態(tài)觀測部1還觀測風(fēng)扇電動機(jī)21的消耗電流,人工智能3將消耗電流也納入考慮范圍來判斷行動的價值?;蛘撸部梢允?,狀態(tài)觀測部1還觀測電源接通時和電源斷開時的風(fēng)扇電動機(jī)21的轉(zhuǎn)速的推移變化,人工智能3將轉(zhuǎn)速的推移變化也納入考慮范圍來判斷行動的價值。
優(yōu)選的是,人工智能3利用多層結(jié)構(gòu)對狀態(tài)觀測部1觀測出的狀態(tài)變量進(jìn)行運算,實時地更新用于判斷行動的價值的行動價值表。在此,作為利用多層結(jié)構(gòu)對狀態(tài)變量進(jìn)行運算的方法,例如能夠使用如圖4所示的多層神經(jīng)網(wǎng)絡(luò)。
意思決定部4基于人工智能3中的判斷結(jié)果來決定是否從警報輸出部22輸出警報。意思決定部4根據(jù)過去的轉(zhuǎn)速的推移和故障的數(shù)據(jù),來學(xué)習(xí)到發(fā)生故障(旋轉(zhuǎn)停止)為止的時間,預(yù)想今后的轉(zhuǎn)速的推移,來判斷是否輸出警報。例如,如圖2所示,基于數(shù)據(jù)no.1和數(shù)據(jù)no.2來判斷是否應(yīng)該在時刻t5[sec]輸出警報。之后,風(fēng)扇電動機(jī)21在時刻t6[sec]停止旋轉(zhuǎn)(故障)、或者未故障而繼續(xù)旋轉(zhuǎn)。在判斷為在時刻t5[sec]輸出警報的情況下,從輸出警報到風(fēng)扇電動機(jī)21實際發(fā)生故障的時間越短,獎勵計算部2計算出越高的獎勵。在判斷為在時刻t5[sec]不輸出警報的情況下,若風(fēng)扇電動機(jī)21未發(fā)生故障而繼續(xù)旋轉(zhuǎn),則計算出高的獎勵。另外,若在警報輸出部22輸出警報之前風(fēng)扇電動機(jī)21發(fā)生了故障,則計算出低的獎勵。意思決定部4也可以輸出到風(fēng)扇電動機(jī)21發(fā)生故障為止的時間。
在此,詳細(xì)說明圖1所示的機(jī)器學(xué)習(xí)器10。機(jī)器學(xué)習(xí)器10具有以下功能:通過分析來從輸入到裝置的數(shù)據(jù)的集合提取其中有用的規(guī)則、知識表述、判斷基準(zhǔn)等,輸出其判斷結(jié)果,并且進(jìn)行知識的學(xué)習(xí)。其手法各種各樣,但大致分為“有監(jiān)督學(xué)習(xí)”、“無監(jiān)督學(xué)習(xí)”以及“強(qiáng)化學(xué)習(xí)”。并且,存在以下被稱為“深度學(xué)習(xí)”的手法:在實現(xiàn)上述手法的基礎(chǔ)上,對特征量本身的提取進(jìn)行學(xué)習(xí)。
在“有監(jiān)督學(xué)習(xí)”中,向?qū)W習(xí)裝置(機(jī)器學(xué)習(xí)器)大量提供某個輸入與結(jié)果(標(biāo)簽,label)的數(shù)據(jù)組,由此能夠?qū)W習(xí)這些數(shù)據(jù)組所具有的特征,從而歸納性地獲得根據(jù)輸入來估計結(jié)果的模型、即輸入與結(jié)果的相關(guān)性。在本實施方式中,能夠在決定風(fēng)扇電動機(jī)21的更換時期時使用風(fēng)扇電動機(jī)21的轉(zhuǎn)速等狀態(tài)觀測部1中的觀測結(jié)果以及獎勵計算部2中的獎勵。能夠使用后述的神經(jīng)網(wǎng)絡(luò)等算法來實現(xiàn)上述學(xué)習(xí)。
“無監(jiān)督學(xué)習(xí)”是指以下手法:僅將輸入數(shù)據(jù)大量提供給學(xué)習(xí)裝置(機(jī)器學(xué)習(xí)器),由此學(xué)習(xí)輸入數(shù)據(jù)是如何分布的,即使不提供對應(yīng)的監(jiān)督輸出數(shù)據(jù)也學(xué)習(xí)對輸入數(shù)據(jù)進(jìn)行壓縮、分類、整形等的裝置。能夠?qū)⑦@些數(shù)據(jù)組所具有的特征在相似者之間進(jìn)行聚類分析等。使用該結(jié)果來進(jìn)行設(shè)置某種基準(zhǔn)并使其最優(yōu)化那樣的輸出分配,由此能夠?qū)崿F(xiàn)輸出的預(yù)測。另外,作為“無監(jiān)督學(xué)習(xí)”與“有監(jiān)督學(xué)習(xí)”的中間性的問題設(shè)定,還存在被稱為“半監(jiān)督學(xué)習(xí)”的手法,在僅部分存在輸入與輸出的數(shù)據(jù)組、除此以外是僅有輸入的數(shù)據(jù)的情況下符合這種情況。在本實施方式中,通過無監(jiān)督學(xué)習(xí)來利用不使風(fēng)扇電動機(jī)實際進(jìn)行動作也能夠獲取的數(shù)據(jù),從而能夠高效地進(jìn)行學(xué)習(xí)。
如下那樣設(shè)定強(qiáng)化學(xué)習(xí)的問題。
·風(fēng)扇電動機(jī)控制部20觀測環(huán)境的狀態(tài),決定行動。
·環(huán)境按照某種規(guī)則發(fā)生變化,并且也存在自己的行動使環(huán)境發(fā)生變化的情況。
·在每次行動時都有獎勵信號返回來。
·想要最大化的是涉及將來的(折扣)獎勵的總和。
·從完全不知道或者只是不完全地知道行動所引起的結(jié)果的狀態(tài)開始學(xué)習(xí)。風(fēng)扇電動機(jī)控制部20使風(fēng)扇電動機(jī)21實際動作才能夠得到其結(jié)果來作為數(shù)據(jù)。也就是說,需要一邊反復(fù)試驗一邊探索最佳的行動。
·也能夠?qū)⑷缒7氯说膭幼髂菢舆M(jìn)行了事先學(xué)習(xí)(前述的有監(jiān)督學(xué)習(xí)、逆向強(qiáng)化學(xué)習(xí)之類的手法)的狀態(tài)作為初始狀態(tài),來從好的開始地點開始學(xué)習(xí)。
“強(qiáng)化學(xué)習(xí)”是指以下方法:不僅學(xué)習(xí)判定、分類,還學(xué)習(xí)行動,由此基于行動與環(huán)境相互給與的相互作用來學(xué)習(xí)適當(dāng)?shù)男袆印⒓礊榱耸箤淼玫降莫剟钭畲蠖M(jìn)行學(xué)習(xí)。這表示在本實施方式中能夠獲得對未來產(chǎn)生影響那樣的行動。例如,以q學(xué)習(xí)的情況來繼續(xù)說明,但是不限于此。
q學(xué)習(xí)是以下方法:學(xué)習(xí)在某種環(huán)境狀態(tài)s下選擇行動a的價值q(s,a)。也就是說,在某種狀態(tài)s時,只要將價值q(s,a)最高的行動a選作最佳的行動即可。但是,最初,關(guān)于狀態(tài)s與行動a的組合,完全不知道價值q(s,a)的正確的值。因此,智能體(行動主體)在某種狀態(tài)s下選擇各種行動a,并對此時的行動a給與獎勵。由此,智能體逐漸學(xué)習(xí)更好的行動的選擇、即正確的價值q(s,a)。
行動的結(jié)果是想要使涉及將來地得到的獎勵的總和最大化。因此,最終目標(biāo)是使得q(s,a)=e[σγtrt](獎勵的折扣期待值。γ:折扣率)(在按照最佳的行動發(fā)生狀態(tài)變化時取期待值。當(dāng)然,尚不知道該期待值,因此必須一邊探索一邊學(xué)習(xí))。例如能夠通過下式來表示這種價值q(s,a)的更新式。
在此,st表示時刻t下的環(huán)境的狀態(tài),at表示時刻t下的行動。通過行動at,狀態(tài)變化為st+1。rt+1表示通過該狀態(tài)的變化而得到的獎勵。另外,帶有max的項為在狀態(tài)st+1下將選擇當(dāng)時知道的q值最高的行動a時的q值與γ相乘而得到的項。γ是0<γ≤1的參數(shù),被稱為折扣率。α是學(xué)習(xí)系數(shù),設(shè)為0<α≤1的范圍。
該式表示了以下方法:基于作為實驗at的結(jié)果而返回來的獎勵rt+1,來對狀態(tài)st下的行動at的評價值q(st,at)進(jìn)行更新。示出了以下情況:與狀態(tài)s下的行動a的評價值q(st,at)相比,如果基于獎勵rt+1+行動a的下一個狀態(tài)下的最好的行動maxa的評價值q(st+1,maxat+1)大,則使q(st,at)變大,相反地,如果基于獎勵rt+1+行動a的下一個狀態(tài)下的最好的行動maxa的評價值q(st+1,maxat+1)小,則使q(st,at)也變小。也就是說,使某種狀態(tài)下的某種行動的價值接近基于作為結(jié)果而即時返回的獎勵以及該行動的、下一個狀態(tài)下的最好的行動的價值。
q(s,a)在計算機(jī)上的表達(dá)方法包括以下方法:針對全部狀態(tài)行動對(s,a),將評價值q保持為表(行動價值表);以及準(zhǔn)備對q(s,a)進(jìn)行近似那樣的函數(shù)。在后者的方法中,能夠通過利用隨機(jī)梯度下降法等手法逐漸調(diào)整近似函數(shù)的參數(shù)來實現(xiàn)前述的更新式。作為近似函數(shù),能夠使用后述的神經(jīng)網(wǎng)絡(luò)。
作為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)中的價值函數(shù)的近似算法,能夠使用神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)例如由實現(xiàn)對如圖3所示的神經(jīng)元的模型進(jìn)行模仿的神經(jīng)網(wǎng)絡(luò)的運算裝置和存儲器等構(gòu)成。
如圖3所示,神經(jīng)元輸出針對多個輸入x(在此作為一例,輸入x1~輸入x3)的輸出y。對各輸入x1~x3賦予與該輸入x對應(yīng)的權(quán)重w(w1~w3)。由此,神經(jīng)元輸出通過下式表達(dá)的輸出y。此外,輸入x、輸出y以及權(quán)重w均是矢量。
在此,θ是偏置,fk是激活函數(shù)。
接著,參照圖4來說明將上述的神經(jīng)元進(jìn)行組合而得到的具有3層權(quán)重的神經(jīng)網(wǎng)絡(luò)。圖4是表示具有d1~d3這3層權(quán)重的神經(jīng)網(wǎng)絡(luò)的示意圖。
如圖4所示,從神經(jīng)網(wǎng)絡(luò)的左側(cè)輸入多個輸入x(在此作為一例,輸入x1~輸入x3),從右側(cè)輸出結(jié)果y(在此作為一例,結(jié)果y1~結(jié)果y3)。
具體地說,輸入x1~輸入x3被賦予與3個神經(jīng)元n11~n13分別對應(yīng)的權(quán)重后被分別輸入到3個神經(jīng)元n11~n13。對這些輸入賦予的權(quán)重被統(tǒng)一標(biāo)記為w1。
神經(jīng)元n11~n13分別輸出z11~z13。這些z11~z13被統(tǒng)一標(biāo)記為特征矢量z1,能夠視為提取了輸入矢量的特征量的矢量。該特征矢量z1是權(quán)重w1與權(quán)重w2之間的特征矢量。
z11~z13被賦予與2個神經(jīng)元n21、n22分別對應(yīng)的權(quán)重后被分別輸入到2個神經(jīng)元n21、n22。對這些特征矢量賦予的權(quán)重被統(tǒng)一標(biāo)記為w2。
神經(jīng)元n21、n22分別輸出z21、z22。它們被統(tǒng)一標(biāo)記為特征矢量z2。該特征矢量z2是權(quán)重w2與權(quán)重w3之間的特征矢量。
特征矢量z21、z22被賦予與3個神經(jīng)元n31~n33分別對應(yīng)的權(quán)重后被分別輸入到3個神經(jīng)元n31~n33。對這些特征矢量賦予的權(quán)重被統(tǒng)一標(biāo)記為w3。
最后,神經(jīng)元n31~n33分別輸出結(jié)果y1~結(jié)果y3。
神經(jīng)網(wǎng)絡(luò)的動作中存在學(xué)習(xí)模式和價值預(yù)測模式,在學(xué)習(xí)模式下使用學(xué)習(xí)數(shù)據(jù)組來學(xué)習(xí)權(quán)重w,使用該參數(shù)來在預(yù)測模式下進(jìn)行風(fēng)扇電動機(jī)的行動判斷(為了方便而寫為預(yù)測,但是能夠進(jìn)行檢測、分類、推斷等各種任務(wù))。
也能夠在預(yù)測模式下即時學(xué)習(xí)使風(fēng)扇電動機(jī)實際動作而得到的數(shù)據(jù),使該數(shù)據(jù)反映到下一次行動中(在線學(xué)習(xí))。另外,也能夠進(jìn)行使用預(yù)先收集到的數(shù)據(jù)群來進(jìn)行總結(jié)的學(xué)習(xí),以后一直以該參數(shù)進(jìn)行探測模式(批量學(xué)習(xí))。也能夠折衷地每當(dāng)數(shù)據(jù)積攢到某種程度就插入學(xué)習(xí)模式。
能夠通過誤差反向傳播法(backpropagation)來學(xué)習(xí)權(quán)重w1~w3。誤差的信息從右側(cè)進(jìn)入而流向左側(cè)。誤差反向傳播法是以下手法:針對各神經(jīng)元,以減小輸入了輸入x時的輸出y與真正的輸出y(監(jiān)督)之差的方式調(diào)整(學(xué)習(xí))各個權(quán)重。
這種神經(jīng)網(wǎng)絡(luò)也能夠在3層以上進(jìn)一步增加層(被稱為深度學(xué)習(xí))。能夠僅根據(jù)監(jiān)督數(shù)據(jù)來自動獲得運算裝置,該運算裝置階段性地進(jìn)行輸入的特征提取,并將結(jié)果進(jìn)行回歸。
因此,本實施方式的機(jī)器學(xué)習(xí)器10如圖1所示那樣具備狀態(tài)觀測部1、人工智能3以及意思決定部4,以實施上述的q學(xué)習(xí)。但是,本發(fā)明中應(yīng)用的機(jī)器學(xué)習(xí)方法不限定于q學(xué)習(xí)。例如,在應(yīng)用有監(jiān)督學(xué)習(xí)的情況下,價值函數(shù)與學(xué)習(xí)模型對應(yīng),獎勵與誤差對應(yīng)。
如圖1所示,風(fēng)扇電動機(jī)控制部20的狀態(tài)包括通過行動而間接地變化的狀態(tài)以及通過行動而直接地變化的狀態(tài)。通過行動而間接地變化的狀態(tài)包括風(fēng)扇電動機(jī)的轉(zhuǎn)速。通過行動而直接地變化的狀態(tài)包括更換還是不更換風(fēng)扇電動機(jī)這樣的信息。
人工智能3基于更新式和獎勵,從行動價值表中對當(dāng)前的狀態(tài)變量以及與能夠采取的行動對應(yīng)的行動價值進(jìn)行更新。
也可以構(gòu)成為:機(jī)器學(xué)習(xí)器10經(jīng)由網(wǎng)絡(luò)而與風(fēng)扇電動機(jī)控制部20連接,狀態(tài)觀測部1經(jīng)由網(wǎng)絡(luò)來獲取當(dāng)前的狀態(tài)變量。另外,優(yōu)選的是,機(jī)器學(xué)習(xí)器10存在于云服務(wù)器。
另外,在圖1所示的例子中,示出了使用通過自己的機(jī)器學(xué)習(xí)器的人工智能進(jìn)行更新后的行動價值表來更新自己的行動價值表的例子,但是不限于這種例子。即,也可以使用通過與自己的機(jī)器學(xué)習(xí)器不同的其它機(jī)器學(xué)習(xí)器的人工智能進(jìn)行更新后的行動價值表來更新自己的行動價值表。例如,也可以還具有在多個電動機(jī)驅(qū)動裝置之間交換數(shù)據(jù)的數(shù)據(jù)交換部,將其它電動機(jī)驅(qū)動裝置的機(jī)器學(xué)習(xí)器中的學(xué)習(xí)內(nèi)容運用到自身的機(jī)器學(xué)習(xí)器的學(xué)習(xí)中。
接著,說明本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的動作。圖5中示出了用于說明本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置的動作過程的流程圖。
首先,在步驟s101中,利用狀態(tài)觀測部1觀測風(fēng)扇電動機(jī)21的各種狀態(tài)。即,狀態(tài)觀測部1觀測風(fēng)扇電動機(jī)21的轉(zhuǎn)速、溫度等。
接著,在步驟s102中,獎勵計算部2根據(jù)觀測出的狀態(tài)來計算獎勵。例如,從輸出警報到風(fēng)扇電動機(jī)實際發(fā)生故障的時間越短,獎勵計算部2計算出越高的獎勵,在未輸出警報、風(fēng)扇電動機(jī)21未發(fā)生故障而繼續(xù)旋轉(zhuǎn)的情況下,獎勵計算部2計算出高的獎勵,在輸出警報之前風(fēng)扇電動機(jī)21發(fā)生了故障的情況下,獎勵計算部2計算出低的獎勵。
接著,在步驟s103中,人工智能3根據(jù)獎勵以及狀態(tài)觀測部1所觀測出的狀態(tài)來學(xué)習(xí)行動價值。具體地說,基于狀態(tài)觀測部1所觀測出的風(fēng)扇電動機(jī)21的轉(zhuǎn)速以及獎勵計算部2中的獎勵來判斷行動的價值。在狀態(tài)觀測部1還觀測電動機(jī)驅(qū)動裝置100的周圍溫度的情況下,人工智能3也可以除了風(fēng)扇電動機(jī)21的轉(zhuǎn)速以外將周圍溫度也納入考慮范圍來判斷行動的價值。另外,在狀態(tài)觀測部1還觀測風(fēng)扇電動機(jī)21的消耗電流的情況下,人工智能3也可以除了風(fēng)扇電動機(jī)21的轉(zhuǎn)速以外將消耗電流也納入考慮范圍來判斷行動的價值。另外,在狀態(tài)觀測部1還觀測風(fēng)扇電動機(jī)21的電源接通時和電源斷開時的風(fēng)扇電動機(jī)21的轉(zhuǎn)速的變化的情況下,人工智能3也可以除了風(fēng)扇電動機(jī)21的轉(zhuǎn)速以外將轉(zhuǎn)速的變化也納入考慮范圍來判斷行動的價值。
接著,在步驟s104中,意思決定部4基于狀態(tài)和行動價值來決定最佳的參數(shù)(行動)。例如,意思決定部4基于人工智能3中的判斷結(jié)果來決定是否從警報輸出部22輸出警報。
接著,在步驟s105中,根據(jù)參數(shù)(行動)而狀態(tài)發(fā)生變化。即,風(fēng)扇電動機(jī)控制部20決定更換還是不更換風(fēng)扇電動機(jī)21。
如以上所說明的那樣,根據(jù)本發(fā)明的實施例所涉及的電動機(jī)驅(qū)動裝置,能夠在最佳的時機(jī)更換風(fēng)扇電動機(jī),即使在根據(jù)風(fēng)扇電動機(jī)的周圍溫度、消耗電流等而到發(fā)生故障為止的時間改變的情況下,也能夠適當(dāng)?shù)剌敵鼍妗?/p>