專利名稱::操作條件反射自動(dòng)機(jī)及其在仿生自主學(xué)習(xí)控制中的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基于操作條件反射原理的仿生自動(dòng)機(jī)(OperantConditioningAutomata,以下簡稱OCM)。它利用計(jì)算機(jī)技術(shù)、自動(dòng)控制技術(shù)、仿生學(xué)、心理學(xué)、生物學(xué)等來實(shí)現(xiàn)仿生自主學(xué)習(xí)控制。
背景技術(shù):
:本發(fā)明基于Skirmer的操作條件反射理論,它區(qū)別于巴甫洛夫的經(jīng)典條件反射。經(jīng)典性條件反射是由條件刺激弓蹈反應(yīng)的過程,其公式為S—R,反應(yīng)具有先天性,刺激物作為一種強(qiáng)化,并且在行為之前就已經(jīng)被呈現(xiàn);而操作性條件反射是首先做某種操作反應(yīng),然后得到強(qiáng)化的過程,其公式為R—S,反應(yīng)具有后天性,其強(qiáng)化出現(xiàn)在行為出現(xiàn)之后,目的是讓試驗(yàn)對象學(xué)會(huì)實(shí)驗(yàn)者所期望的特定行為。據(jù)此,Skirmer又進(jìn)一步提出兩種學(xué)習(xí)一種是經(jīng)典性條件反射式學(xué)習(xí),另一種是操作條件反射式學(xué)習(xí)。兩種學(xué)習(xí)形式同樣重要,而操作式條件反射的強(qiáng)化刺激有明確的目的,更有利于試驗(yàn)對象學(xué)會(huì)特定的行為。本發(fā)明的自動(dòng)機(jī)模型建立在有限狀態(tài)自動(dòng)機(jī)的基礎(chǔ)上,一般的一個(gè)有限狀態(tài)機(jī)是一個(gè)五元組FSM=M,Z,S,/,g}。其中各符號的意義(1)4表示有限輸入符號集合(2)S表示有限(內(nèi)部)狀態(tài)符號集合(s仰"為初始狀^)(3)Z表示有限輸出(接受狀態(tài))符號集合(4)六SW^表示狀態(tài)轉(zhuǎn)移函數(shù)(5)g.'S—Z表示輸出函數(shù)。目前,相似的發(fā)明專利主要是基于有限狀態(tài)自動(dòng)機(jī)或元胞自動(dòng)機(jī)的方法的硏究,采用的元胞自動(dòng)機(jī)主要用于研究信息傳遞、計(jì)算、構(gòu)造、生長、復(fù)制、競爭等一般現(xiàn)象,但在模擬動(dòng)物的感知和認(rèn)知行為方面還沒有很好的應(yīng)用。如申請(專利)號為200610119136.X,名稱為基于元胞自動(dòng)機(jī)的圖像邊緣檢測算法;申請(專利)號為200810031543.4,名稱為基于有限狀態(tài)自動(dòng)機(jī)的多艾真體動(dòng)態(tài)多目標(biāo)協(xié)作跟蹤方法。操作條件反射自動(dòng)機(jī)及其應(yīng)用方面的專利還未見到。本發(fā)明提出了一種操作條件反射自動(dòng)機(jī)模型,并且基于該模型設(shè)計(jì)了一種仿生自主學(xué)習(xí)控制的方法。本發(fā)明的目的在于用Skirmer鴿子實(shí)驗(yàn)來說明此方法實(shí)現(xiàn)了模似操作條件反射學(xué)習(xí)的機(jī)制,用倒立擺控制問題來證實(shí)用此方法去實(shí)現(xiàn)某些狀態(tài)連續(xù)控制系統(tǒng)的無模型控制的可行性。
發(fā)明內(nèi)容本發(fā)明不同于傳統(tǒng)的控制方法,是以操作條件反射學(xué)習(xí)機(jī)制為基礎(chǔ),根據(jù)自動(dòng)機(jī)的原理,針對Skirmer鵲子實(shí)驗(yàn)和倒立擺的平衡控制問題,運(yùn)用仿生的自組織(包括自學(xué)習(xí)和自適應(yīng))學(xué)習(xí)方法,設(shè)計(jì)出一種可用于描述、模似、設(shè)計(jì)具有自組織(包括自學(xué)習(xí)和自適應(yīng))5功能的操作條件反射自動(dòng)機(jī)模型,從而有效的將仿生學(xué)、心理學(xué)和生物學(xué)應(yīng)用于控制系統(tǒng),從而實(shí)現(xiàn)仿生自主學(xué)習(xí)控制的功能。本發(fā)明的操作條件反射自動(dòng)機(jī)是一個(gè)八元組CO/=〈j,S,O,Z,/,/,5〉,其中,(1)OCM的輸入符號集合」={|/=0,1,2,一,"J,為(9CM第/個(gè)輸入符號;(2)OCM的內(nèi)部狀態(tài)集合S={s,|!'=0,1,2,…,nj,s,為OCM第個(gè)狀態(tài)符號;(3)OCM的內(nèi)部操作集合0={o」A:=1,2,.,"。},0*為OCM第A個(gè)操作符號;(4)OCM的輸出符號集合Z={^卜=0,1,2,^為OCM第柳個(gè)輸出符號;(5)OCM的規(guī)則集合i={&|/e{0,1,2,…,e{0,1,2,...,"」};Are{l,2,.'',"。}},i的每一個(gè)元素^ei代表一條隨機(jī)"條件-操作"規(guī)則&:Ax";—O妙)即OCM在狀態(tài)處于s,(eS)和輸入為.(eX)的條件下依概率;v實(shí)施操作(e0),=卜,n.)是OCM在狀態(tài)處于&和輸入為a,ej的條件下實(shí)施操作的概率,又稱規(guī)則&的激發(fā)概率。(6)OCM的狀態(tài)空間方程其中,A是OCM的狀態(tài)轉(zhuǎn)移方程,OCMW吋刻的狀態(tài)^+l)(eS)由f吋刻的狀態(tài)S)和f吋刻輸入fl(0(e力及Z吋刻的操作o(O(e0)確定,與其f吋刻之前的狀態(tài)、輸入和操作無關(guān),并且,入可以是未知的,但OCM狀態(tài)轉(zhuǎn)移的結(jié)果是OCM自身可以觀測的;A是OCM的輸出方程,OCM什l吋刻的輸出^+l)(eZ)由f吋刻的狀態(tài)^)(eS)和/吋刻輸入fl(0(e及,吋刻的操作o(0(eO)確定,與其f吋刻之前的狀態(tài)和輸入及操作無關(guān),OCM的輸出是外部世界可以觀測的;(7)OCM的狀態(tài)取向函數(shù)w^xJ4[/,],定義為取向性最差的取向函數(shù)值,《為取向性最好的取向函數(shù)值(這里的取向性是從生物學(xué)意義上來定義的,環(huán)境決定生物逬化的方向,即生物的取向性)。p和9的值可根據(jù)所處理的具體的對象來取值。對于任一A(e。和輸入(e力,ytf=^^,)是CO/矢于狀態(tài)A和輸入的期望值,如果^<0,則稱^,是OCM在輸入為^吋的負(fù)取向狀態(tài);如果^.=0,則稱&是OCM在輸入為fl,吋的零取向狀態(tài);如果^.>0,則稱&是6CM在輸入為^吋的正取向狀態(tài);(8)OCM的操作條件反射學(xué)習(xí)律&/(0i^i^+l),設(shè)OCMr吋刻的狀態(tài)為"r)-《。eS,輸入"0^e^,依集合及中隨機(jī)"條件-操作"規(guī)則選中的操作為00)=0££0,實(shí)施操作后觀測到什1吋刻的狀態(tài)^+1)=~€5,則基于操作條件反射原理,操作集合A中隨機(jī)"條件-操作"規(guī)則/^(hl,2,…,"。)的激發(fā)概率依V"cp咖("1)=p。w(0-"p。M)』W5:<凡w(,+1)=maxmin(/。6i+l),O,l);^c("i)=i-2>。^+i)進(jìn)行調(diào)節(jié),其中,f血=^>d,"6)—wO。,"J,是ocM在狀態(tài)處于^(eS)和輸入為^o局的條件下實(shí)施操作&(e0)后狀態(tài)轉(zhuǎn)移為^(sS)后取向函數(shù)值的變化量,可用此變化量來判斷該操作的好壞;"^="^(^"6)-^(,"6》=^^是單調(diào)增函數(shù),""=0當(dāng)且僅當(dāng)^^=0,r是操作規(guī)則總數(shù),義是學(xué)習(xí)率,即每次迭代學(xué)習(xí)的速率。;^(r)(ae(0,1,2,&e{0,l,2,...,~};ce{1,2,...,"。})是OCM狀態(tài)處于s"(eS)和輸入為""e々吋實(shí)施操作A(eO)的概率/7(^U。naJ在f吋刻的值,當(dāng)lzO吋,說明實(shí)施操作^(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小,即取向性變差,貝U/^C("1)<P』,表示下一吋刻選擇操作oJeO)的概率減??;當(dāng)U吋,說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為^os)后的取向函數(shù)值不變,即取向性也不變,這吋/^£(^+1)=凡&(0,表示下一吋刻選擇操作A(sO)的概率不變;當(dāng)*血>0吋,說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值變大,即取向性變好,則&c("l)>;^0),表示下一吋刻選擇操作Oe(eO)的概率増大。其中maxmin(;^("l),0,l)是當(dāng);^("l)>塒/^("1)=1;(,+1)<0時(shí);^(,+l)二O可保證/7。M(,+l)e,且|>。6)^)=1,即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為l,當(dāng)f—w吋,若p血(0—1,說明操作o^O)在狀態(tài)處于^(eS)和輸入為A(eJ)的條件下行為最優(yōu)。一般情況下我們給定學(xué)習(xí)迭代次數(shù)Tf或最優(yōu)行為選擇概率最大閾值&,當(dāng)學(xué)習(xí)達(dá)到迭代次數(shù)或者當(dāng)某一狀態(tài)處于^(eS)和輸入為A(e力的條件下實(shí)施操作A(eO)的概率(0》&吋停止學(xué)習(xí),&s,由實(shí)際的系統(tǒng)環(huán)境來具體設(shè)定,一般設(shè)為/^=0.9。本發(fā)明的重要特征在于模似生物的操作條件反射機(jī)制,因而具有仿生的自組織功能,包括自學(xué)習(xí)和自適應(yīng)功能,可用于描述,模似,設(shè)計(jì)各種自組織的系統(tǒng)。本發(fā)明的技術(shù)方案見圖l、圖2。本發(fā)明的方法步驟如下(1)設(shè)定實(shí)驗(yàn)的初始條件。給定OCM的起始狀態(tài)幸),給定OCM的初始輸入"(O),學(xué)習(xí)率A,給定i中各隨機(jī)"條件—操作"規(guī)則&(/e{0,1,2,,};乂e{0,1,2,…,"》;Ae仏2,…,"。))的初始激發(fā)概率;y(O)=W,給定迭代學(xué)習(xí)步數(shù)Tf或最優(yōu)行為選擇概率A,由實(shí)驗(yàn)要求及環(huán)境確定義、Tf和A,一般取>1=0.05,Tf=1000,&=0.9。(2)隨機(jī)選擇操作并實(shí)施操作。依<9Qy7吋刻的狀態(tài)€S和輸入e^及及中各隨機(jī)"條件—操作"規(guī)則&(!e{0,1,2,…,"s};_/e{0,1,2,…,"J;A:e{1,2,…,"0})的激發(fā)概率吋刻的值(0,按^吋刻狀態(tài)下各操作的概率值(0分布,隨機(jī)地選擇f吋刻的操作o(Oe6>;設(shè)OCM/吋刻的狀態(tài)^)=^,輸入"(O="6,選中^吋刻的操作o(r)=&,則OCM的狀態(tài)依/s:雄)x雄)x~>外+1)狀態(tài)轉(zhuǎn)移方程發(fā)生特性轉(zhuǎn)移;(3)操作條件反射。設(shè)觀測到狀態(tài)^^+1)=&eS,f+lB寸刻則操作條件反射學(xué)習(xí)單元^對隨機(jī)"條件—操作"規(guī)則&。激發(fā)概率逬行調(diào)節(jié),Qt激發(fā)概率,+1吋刻的值V"cp。M("1)-4(,)-)p磁(0^:<P。m("Q=臓minO。6i0+l),O,l)其中maxmin(;7。m"+l),O,l)是當(dāng)""1)>塒/^""1)=1;払("1)<0時(shí)凡",+1)=0;可保證i^(,+l)e。且(4)由系統(tǒng)的輸出方程A:鄧)x^^)xO(r)—Z(f+l)對外輸出Z(f+l)。(5)重復(fù)進(jìn)行(2)—(4)的步驟,直到達(dá)到迭代學(xué)習(xí)次數(shù)Tf或當(dāng)/7^(f+l)〉戶J寸停止實(shí)驗(yàn)。本發(fā)明方法的流程圖見圖3。本發(fā)明的優(yōu)點(diǎn)是能模似和仿生自然界生命的"隨機(jī)應(yīng)變性",使機(jī)器生命具有思維、記憶和學(xué)習(xí)功能。具有認(rèn)知行為或認(rèn)知能力的機(jī)器生命因而不僅能改變自己的行為,而且能改善自己的行為。使機(jī)器生命表現(xiàn)的更加具有仿生性和智能性。圖1為本發(fā)明的結(jié)構(gòu)示意圖圖1:1輸入符號集合,2內(nèi)部狀態(tài)集合,3內(nèi)部操作集合,4輸出符號集合,5隨機(jī)"條件-操作"規(guī)則集合,6狀態(tài)空閭單元,7狀態(tài)取向函數(shù),8操作條件反射學(xué)習(xí)律。圖2為本發(fā)明專利的應(yīng)用結(jié)構(gòu)框圖圖3為本發(fā)明專利的方法流程圖圖4為Skinner鴿子實(shí)驗(yàn)三種行為次數(shù)效果圖1紅色按鈕2黃色按鈕3藍(lán)色按鈕圖5(a)(b)為Skinner鴿子實(shí)驗(yàn)迭代學(xué)習(xí)仿真效果圖,分別為在1000次和1000次訓(xùn)練次數(shù)的行為操作概率圖。1紅色按鈕2黃色按鈕3藍(lán)色按鈕圖6(a)為倒立擺平衡控制實(shí)驗(yàn)確定模型下的偏角曲線圖圖6(b)為倒立擺平衡控制實(shí)驗(yàn)確定模型下的偏角速度曲線圖8圖7(a)為倒立擺平衡控制隨機(jī)模型下的偏角曲線圖圖7(b)為倒立擺平衡控制實(shí)驗(yàn)隨機(jī)模型下的偏角速度曲線圖具體實(shí)施例方式實(shí)施例一如圖4、5所示,Skinner操作條件反射鴿子實(shí)驗(yàn)。Skinner鵠子實(shí)驗(yàn)訓(xùn)練的目標(biāo)是使其學(xué)會(huì)啄紅色按鈕的操作行為。它啄紅色按鈕吋得到食物(正強(qiáng)化剌激),啄黃色按鈕吋無任何剌激,啄藍(lán)色按鈕吋給予電擊(負(fù)強(qiáng)化剌激)。采用Skinner操作條件反射自動(dòng)機(jī)模型方法進(jìn)行實(shí)驗(yàn),如圖1、2、3所示。先給出鴿子實(shí)驗(yàn)簡化的離散數(shù)學(xué)模型設(shè)鴿子有三個(gè)狀態(tài)分別為饑餓狀態(tài)、半饑餓狀態(tài)和零饑餓狀態(tài)。鴿子狀態(tài)為饑餓吋,當(dāng)給它食物,狀態(tài)轉(zhuǎn)移為半饑餓,不給鴿子食物或給其電擊刺激吋,鴿子依然表現(xiàn)為饑餓狀態(tài),輸出為此吋鴿子的狀態(tài);鴿子狀態(tài)為半饑餓吋,當(dāng)給它食物,狀態(tài)轉(zhuǎn)移為零饑餓,不給其食物或給其電擊刺激,鴿子轉(zhuǎn)移為饑餓狀態(tài),輸出為此吋鴿子的狀態(tài);鴿子狀態(tài)為零饑餓吋,當(dāng)給它食物,狀態(tài)依然轉(zhuǎn)移為零饑餓,不給其食物,狀態(tài)轉(zhuǎn)移為半饑餓狀態(tài),給其電擊刺激,狀態(tài)轉(zhuǎn)移為饑餓狀態(tài),輸出為鴿子此吋的狀態(tài)。得到其模型的狀態(tài)轉(zhuǎn)移方程X:S(Ox雄)xO(O—S(f+1)具體表示為/0。,""O2)"0/Op"l,。2)-^/02,"!,。2)-A鴿子實(shí)驗(yàn)的輸入符號集合A—fl。,^,fl^,其中a。表示啄紅色按鈕給鴿子食物,^表示啄黃色按鈕不給鴿子食物,^表示啄藍(lán)色按鈕給予電擊刺激;狀態(tài)集合S-U。A,s^,其中s。表示饑餓狀態(tài),^表示半饑餓,^表示零饑餓狀態(tài);操作集合0={01,02,03},其中^表示鴿子啄紅色按鈕,02表示鴿子啄黃色按鈕,^表示鴿子啄藍(lán)色按鈕,開始吋鴿子豚紅,黃和藍(lán)三個(gè)按鈕是隨機(jī)的;規(guī)則集合R為^:、x4O40v),即表示鴿子在處于s,(eS)狀態(tài)和輸入為.(e々的條件下依概率4實(shí)施操作0i(eO),=I&n)是鴿子在狀態(tài)處于、.和輸入為e的條件下實(shí)施操作oA的概率,又稱規(guī)則&的激發(fā)概率。設(shè)定鴿子離散狀態(tài)取向函數(shù)W:Sx^—{-1,0,1,2,3},具體函數(shù)表達(dá)式為WooOo,aO)=1WloOl,"0)=2W2o02,a0)=3V/。。",fl。)-l表示當(dāng)鴿子狀態(tài)為饑餓吋,給其食物,則其狀態(tài)取向函數(shù)值較大為1;^(",^^0表示當(dāng)鴿子狀態(tài)為饑餓吋,不給其食物,則其狀態(tài)取向函數(shù)值為0;^2(,^2)=-1表示當(dāng)鵠子狀態(tài)為饑餓吋,給其電擊,則其狀態(tài)取向函數(shù)值較小為-1。鴿子實(shí)驗(yàn)方法基本步驟如下9(1)設(shè)定實(shí)驗(yàn)的初始條件。初始輸入設(shè)定為給鴿子食物"。,初始狀態(tài)設(shè)定為饑餓狀態(tài),設(shè)定鴿子啄三個(gè)按鈕的初始概率均為1/3,即剛開始鴿子啄三個(gè)按鈕的機(jī)會(huì)是均等的,學(xué)習(xí)率/1=0.05,設(shè)定最優(yōu)行為選擇概率閾值A(chǔ)=0.97。(2)隨機(jī)選擇操作并實(shí)施操作。設(shè)在^吋刻觀測到鴿子的狀態(tài)為&e^,輸入為"6e^,狀態(tài)取向函數(shù)值為W。6eW,依集合R中隨機(jī)"條件-操作"規(guī)則按^吋刻各操作的概率值;V(O分布選中的操作OeeO,實(shí)施操作^eO后依鴿子的狀態(tài)轉(zhuǎn)移函數(shù)/;:S(OxJ(Ox(9(0—S(f+1)進(jìn)行狀態(tài)轉(zhuǎn)移。即依/CWihi/Oi,"0,Oi)=s2/02,"0,01)=&進(jìn)行狀態(tài)轉(zhuǎn)移。其中/0。,"。,o,)-^表示當(dāng)鴿子為饑餓狀態(tài)吋,其選擇啄紅色按鈕吋給食物下鴿子狀態(tài)轉(zhuǎn)移為半饑餓狀態(tài);/(^^,02):^表示當(dāng)鴿子為半饑餓狀態(tài)吋,其選擇黃色按鈕吋不給其食物下鴿子狀態(tài)轉(zhuǎn)移為饑餓狀態(tài);,"2,o3)=s。表示鴿子為零饑餓狀態(tài)吋,其選擇藍(lán)色按鈕吋給其電擊鴿子狀態(tài)轉(zhuǎn)移為饑餓狀態(tài)。輸出函數(shù)定義/z:z=a,附=,-,/={0,1,2}。輸出集合Z={z。,Zl,z2},2。=",21=^22=^2。當(dāng)鴿子在^吋刻轉(zhuǎn)移后,f+l吋刻狀態(tài)為&eS,那么得到f+l吋刻鴿子的狀態(tài)取向函數(shù)值為^^e^。(3)操作條件反射。根據(jù)鴿子的狀態(tài)取向函數(shù)W值的變化量,即一*=W(&,"6)-,&),按照操作條件反射單元^對隨機(jī)"條件-操作"規(guī)則Q。激發(fā)概率進(jìn)行調(diào)節(jié)。這里的^為VA:*c&("1)=p。M(,)-).(0^:jPw0+0=薩minOwG+l),O,l)戸血("1)=1-1>。",+1)、A杯其中,&*=^(^,^)-^/(、,^),是鴿子在狀態(tài)^(eS)和輸入為^0^的條件下實(shí)施操作(eO)后狀態(tài)轉(zhuǎn)移為^(eS)后取向函數(shù)值的變化量,可用此變化量來判斷該操作的好壞;《U4^(^"Jl(^A^^^是單調(diào)增函數(shù),^)=0當(dāng)且僅當(dāng)**=0,r是操作規(guī)則總數(shù),義是學(xué)習(xí)率,即每次迭代學(xué)習(xí)的速率,這里取^3,義=0.05。p血(0("e{0,1,2,…,&};6e{0,1,2,…,^};ce{1,2,…,"。})是鴿子處于sa(eS)和輸入為」)吋實(shí)施操作A(e(9)的概率;7(oJs。n"J在f吋刻的值,當(dāng)^^<0吋,說明實(shí)施操作^(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小,即取向性變差,這吋得到/^e(f+l)<A^(0,表示下一吋刻選擇操作o。(e(9)的概率減小,即在該輸入與狀態(tài)下該行為被選擇的機(jī)率變?。划?dāng)*^=0吋,說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值不變,即取向性也不變,這吋得到=PaAe(0,表示下一吋刻選擇操作^(eO)的概率不變;當(dāng)^£>0吋,說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為"^)后的取向函數(shù)值變大,即取向性變好,這吋得到;^("1)>;^(0,表示下一吋刻選擇操作oJeO)的概率增大。具體來說,當(dāng)t吋刻吋鴿子狀態(tài)為饑餓&吋,如果鴿子按規(guī)則集合R中的激發(fā)概率A)。々—P(^lrw。)-0.55選擇了啄紅色按鈕^的操作,并給其食物"。,由鴿子狀態(tài)轉(zhuǎn)移方程/0。,a。,oJ=^則鴿子下一吋刻狀態(tài)轉(zhuǎn)移為半饑餓A,此吋的取向函數(shù)值(^,a。)=2大于先前饑餓吋的取向函數(shù)值w00(sQ,a。)=1,得到p則(r+1)>/7001(0,故下次學(xué)習(xí)吋選擇啄紅色按鈕的概率就增大。其中maxmin(;。M(f+l),O,l)是當(dāng)"+1)>l時(shí);^(,+1)=1,(,+1)<0時(shí)P。mG+1)=0可保證(+1)e[O,l],且^p淑(0=1,即表示在同一輸入同一狀態(tài)下釆取不同操作的概率和為1。當(dāng)f—w吋,若/7血(041,則說明操作"eO)在狀態(tài)處于&(eS)和輸入為X)的條件下行為最優(yōu)。(4)對外輸出。由輸出函數(shù)定義/;:21=^/=0,1,2,附=;。按輸出集合2={2。,21,&},z。=a,z2=&對外輸出1+1吋刻的狀態(tài)。(5)判斷實(shí)驗(yàn)停止條件是否達(dá)到。當(dāng)A^-P(A^。n"J〉A(chǔ)B寸,則認(rèn)為鴿子已學(xué)會(huì)—最優(yōu)操作行為,則鴿子此后便在此狀態(tài)此輸入下持續(xù)選擇這一最優(yōu)操作行為直到達(dá)到迭代次數(shù)Tf。否則重復(fù)逬行(2)—(4)的實(shí)驗(yàn)步驟,直到滿足條件為止。結(jié)果表明,應(yīng)用上述的操作條件反射自動(dòng)機(jī)的模型,一段吋間之后,鴿子啄取紅色按鈕的次數(shù)明顯高于啄取其它兩個(gè)按鈕的次數(shù),見圖4。圖5為鴿子實(shí)驗(yàn)迭代學(xué)習(xí)仿真效果圖,從圖中可看到鴿子操作條件反射學(xué)習(xí)形成的過程。實(shí)施例二如圖6~圖7所示,單級倒立擺的平衡控制實(shí)驗(yàn)。倒立擺控制的目標(biāo)是通過給小車底座施加一個(gè)力u(控制量),即為操作符號集合O,即"=04^=1,2,,。最終保證桿不倒下,即不超過一個(gè)預(yù)先定義好的垂直偏離角度范圍。采用Skinner操作條件反射自動(dòng)機(jī)模型的方法逬行控制實(shí)驗(yàn),如圖1、2、3所示。倒立擺可以用以下運(yùn)動(dòng)方程來描述6=————--式中/=丄附丄2,/=丄丄.122把式"=ot,A=1,2,…,"。代入得到下面的式子々式中/=丄附丄2,/=丄丄"&二l,2,…,"n122,,,《通過Euler方法數(shù)值近似,可用以下差分方程來仿真倒立擺系統(tǒng)~+1)=麵+"(011吋間r—般設(shè)定為0.02秒,顯然以上給的倒立擺系統(tǒng)是一個(gè)確定性系統(tǒng)。為了說明基于操作條件反射自動(dòng)機(jī)模型的方法也同樣適用于連續(xù)隨機(jī)系統(tǒng)的無模型控制,即/s可以是末知的。在以上確定性模型中引入了一個(gè)噪聲信號構(gòu)成一個(gè)隨機(jī)倒立擺模型,即在仿真中用以下方程來代替上面的倒立擺方程。<formula>formulaseeoriginaldocumentpage12</formula>其中d為隨機(jī)噪聲,這里d為在[-1.5,1.5]上一均勻隨機(jī)分布噪聲。輸出函數(shù)定義&,m=/,/={0,1,2}。輸出集合Z={z。,^,z2},倒立擺實(shí)驗(yàn)的輸入符號集合A={a。},"。=W,A其中^為擺桿偏離垂直線的角度,^為偏離垂直線的角速度。狀態(tài)集合S:,其中&表示倒立擺控制狀態(tài)不好,&表示倒立擺控制狀態(tài)較好/壞,A表示倒立擺控制狀態(tài)好。輸出集合2={2。,21,22},z。表示倒立擺控制效果不好,^表示倒立擺控制效果較好/壞,z,表示倒立擺控制效果好,即達(dá)到控制要求。操作集合0={01,02,03},其中01表示給小車底座施加_個(gè)向右的力,02表示給小車底座施加一個(gè)微小接近于零的力,03表示給小車底座施加一個(gè)向左的力。規(guī)則集合R為&:&x4Ov),即表示倒立擺在處于&(eS)狀態(tài)和輸入為(eJ)的條件下依概率~實(shí)施操作ot(eO),;v=;(0*I&n^)是倒立擺在狀態(tài)處于&和輸入為",eX的條件下實(shí)施操作"的概率,又稱規(guī)則&的激發(fā)概率。狀態(tài)取向函數(shù)值為<formula>formulaseeoriginaldocumentpage12</formula>倒立擺實(shí)驗(yàn)控制方法基本步驟如下(1)設(shè)定實(shí)驗(yàn)的初始條件。其中,重力加速度g-9.8m"2,小車質(zhì)量M4.0kg,桿的質(zhì)量m^.lkg,桿的半長I^0.5m。設(shè)置偏角范圍0e[—0.1,+0.1],角速度范圍6e[-2,+2],這里規(guī)定倒立擺偏角左偏吋為正值,右偏吋為負(fù)值,同樣,角速度方向向左吋為正,方向向右吋為負(fù)。初始輸入為"。(0)取0(0)=5°=0.087力(0)=0,其中擺動(dòng)角度值轉(zhuǎn)化為弧度值。初始狀態(tài)為s(0)"。,其中當(dāng)6e[-0.1,-0.03]或者^e[+0.03,+0.1]為s。,即狀態(tài)不好,當(dāng)^e(—0.03,+0.005)或者0e(+0.005,+0.03)吋為^,即狀態(tài)較好/壞,當(dāng)Pe[-0.005,+0.005]吋為&,即狀態(tài)控制好。設(shè)定倒立擺的三個(gè)操作力,即控制量0={01,02,03}={-5,0.1,5},倒立擺選擇這三個(gè)操作力的初始概率均為1/3,給定迭代學(xué)習(xí)步數(shù)Tf4000,學(xué)習(xí)率義=0.02,操作規(guī)則總數(shù)r=3,最優(yōu)行為選擇概率閾值為&=0.95。(2)隨機(jī)選擇操作并實(shí)施操作。設(shè)在t吋刻觀測到倒立擺的狀態(tài)為&eS,輸入為flAe^,狀態(tài)取向函數(shù)值為e^,依集合R中隨機(jī)"條件-操作"規(guī)則選中的操作&eO,實(shí)施操作后依倒立擺的狀態(tài)轉(zhuǎn)移方程/,<formula>formulaseeoriginaldocumentpage12</formula>逬行狀態(tài)轉(zhuǎn)移。倒立擺狀態(tài)轉(zhuǎn)移方程可以用以下運(yùn)動(dòng)方程來描述"=-6/-式中/=丄附丄2,/=丄丄"&=1,2,...,"122,,,a和以下差分方程來仿真倒立擺系統(tǒng)0("1)=柳+"0)吋間r一般設(shè)定為0.02秒,顯然以上給的倒立擺系統(tǒng)是一個(gè)確定性系統(tǒng)。也可用隨機(jī)倒立擺模型來仿真,即用下式S(,+l)"(0+r身)+i/代替上面的式+1)=)+t~)。其中d為隨機(jī)噪聲,這里d為在[-1.5,1.5]上一均勻隨機(jī)分布矂聲。輸出函數(shù)定義/z:z,=&,/=0,1,2。輸出集合Z-(z。,^,zJ,z。=s。,Zl=&。當(dāng)?shù)沽[在t吋刻通過倒立擺運(yùn)動(dòng)運(yùn)動(dòng)方程發(fā)生轉(zhuǎn)移后,t+l吋刻狀態(tài)為&eS,那么得到t+l吋刻倒立擺的狀態(tài)取向函數(shù)值為^^e^。(3)操作條件反射。根據(jù)倒立擺的狀態(tài)取向函數(shù)W值的變化量,即一*=^,"A)-W(&,"6),按照操作條件反射單元^對隨機(jī)"條件-操作"規(guī)則激發(fā)概率進(jìn)行調(diào)節(jié)。這里的^為V"c^0+1)=(,)-).;aAi0)^:'P。m("D=maxmin(/^G+0,0,1)&("1)=1-2>。""1)其中,f血a6)-^(sa,aj,是倒立擺在狀態(tài)&(eS)和輸入為A(e^的條件下實(shí)施操作o。(eO)后狀態(tài)轉(zhuǎn)移為S)前后取向函數(shù)值的變化量,可用此變化量來判斷該操作的好壞;《(一血)="^(~,。*)-^"。,^)=^^是單調(diào)增函數(shù)."勾=0當(dāng)且僅當(dāng)^血=0,r是操作規(guī)則總數(shù),A是學(xué)習(xí)率,即每次迭代學(xué)習(xí)的速率,這里取F3,義=0.02。&(0("e{0,1,2,..,};"{0,1,2,…,"J;ce{1,2,...,"。})是倒立擺處于&(eS)和輸入為A(e々吋實(shí)施操作o^O)的概率p(oJ^n^)在f吋刻的值,當(dāng)^^<0吋,說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小,即取向性變差,則得到A^("1)</W(0,表示下一吋刻選擇操作oJeO)的概率減小;當(dāng)^^=0吋,說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值不變,即取向性也不變,貝幌到A^G+l)=/^e(0,表示下一吋刻選擇操作A(eO)的概率不變;當(dāng)一血>0吋,說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值變大,即取向性變好,貝幌到p。Ac(f+1)>p血(/),表示什1吋刻選擇操作oe(e6>)的概率增大。13具體來說,應(yīng)用倒立擺確定模型仿真,當(dāng)1吋刻吋輸入0(0=0.046和"0=-0.465吋即倒立擺向左偏,且偏角加速度方向向右吋,倒立擺狀態(tài)好為&,如果此吋由規(guī)則集合中的激發(fā)概率/2。3(0=^(03^20"。)=0.335選擇到的操作為03,即左推,再由倒立擺運(yùn)動(dòng)方程—(M+w)/+Mm/2—(M+m)/+Mw/2及差分方^+"=+r'來求^t+1式中^丄</=丄丄.,...,。王~+1)=#)+"-(0^"122,,,,o吋刻^(/+1)=0.031,即倒立擺t+l吋刻的狀態(tài)轉(zhuǎn)移為較好A,此吋的取向函數(shù)值^。,)=1要比f吋刻w2。,"。)=2小,得到/203(,+1)</72030),故下次迭代學(xué)習(xí)吋在輸入"。及狀態(tài)A下選擇操作^左推的概率就會(huì)減小,相應(yīng)地,選擇其它兩種操作的概率就會(huì)增大。其中maxmin(;^0+l),0,l)是當(dāng)A狄(,+1)>塒/^(,+1)=1;p。M(,+1)<0時(shí);^G+1)=0可保證G+1)e,且這里!;^^(0=1,即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為i。當(dāng)^—吋,若A:=—1,則說明操作A(e(9)在狀態(tài)處于s。(eS)和輸入為局的條件下行為最優(yōu)。(4)對外輸出。由輸出函數(shù)定義/;:zm=0,1,2,m=,'。按輸出集合2="。,21,22},z。"2對外輸出t+l吋刻的狀態(tài)。(5)判斷實(shí)驗(yàn)停止條件是否達(dá)到。當(dāng)&1吋刻滿足I^g0.005且I^g0.005且/血(,+1)=p(ocIs。n&)>0.95吋,則認(rèn)為倒立擺己能通過學(xué)習(xí)實(shí)現(xiàn)其自主平衡控制,則之后倒立擺按此狀態(tài)此輸入下持續(xù)選擇操作Oc直到達(dá)到迭代次數(shù)Tf。否則重復(fù)進(jìn)行(2)—(4)的實(shí)驗(yàn)步驟,直到滿足條件為止。圖6、圖7顯示,在同樣條件下,不管是確定模型還是隨機(jī)模型釆用操作條件反射自動(dòng)機(jī)模型的方法都能成功控制倒立擺的平衡,顯然,由于隨機(jī)噪聲的引入增加了隨機(jī)模型的學(xué)習(xí)難度,每次試驗(yàn)平均要在8800次后可實(shí)現(xiàn)倒立擺自主平衡控制。權(quán)利要求1、操作條件反射自動(dòng)機(jī),操作條件反射自動(dòng)機(jī)以下簡稱為OCM,其特征在于是一個(gè)八元組OCM=<A,S,O,Z,R,f,ψ,δ>,其中,(1)OCM的輸入符號集合A={aj|j=0,1,2,…,nA},aj為OCM第j個(gè)輸入符號;(2)OCM的內(nèi)部狀態(tài)集合S={si|i=0,1,2,…,nS},si為OCM第i個(gè)狀態(tài)符號;(3)OCM的內(nèi)部操作集合O={ok|k=1,2,…,nO},ok為OCM第k個(gè)操作符號;(4)OCM的輸出符號集合Z={zm|m=0,1,2,…,nZ},zm為OCM第m個(gè)輸出符號;(5)OCM的規(guī)則集合R={rijk|i∈{0,1,2,…,nS};j∈{0,1,2,…,nA};k∈{1,2,…,nO}},R的每一個(gè)元素rijk∈R代表一條隨機(jī)“條件-操作”規(guī)則rijksi×aj→ok(pijk)即OCM在狀態(tài)處于si(∈S)和輸入為aj(∈A)的條件下依概率pijk實(shí)施操作ok(∈O),pijk=p(ok|si∩aj)是OCM在狀態(tài)處于si和輸入為ai∈A的條件下實(shí)施操作ok的概率,又稱規(guī)則rijk的激發(fā)概率;15(6)OCM的狀態(tài)空間方程<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>f</mi><mo>:</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>f</mi><mi>S</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>→</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>f</mi><mi>Z</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>→</mo><mi>Z</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math></maths>其中,fS是OCM的狀態(tài)轉(zhuǎn)移方程,OCMt+1時(shí)刻的狀態(tài)s(t+1)(∈S)由t時(shí)刻的狀態(tài)s(t)(∈S)和t時(shí)刻輸入a(t)(∈A)及t時(shí)刻的操作o(t)(∈O)確定,與其t時(shí)刻之前的狀態(tài)、輸入和操作無關(guān),并且,fS是未知的,但OCM狀態(tài)轉(zhuǎn)移的結(jié)果是OCM自身觀測的;fZ是OCM的輸出方程,OCMt+1時(shí)刻的輸出z(t+1)(∈Z)由t時(shí)刻的狀態(tài)s(t)(∈S)和t時(shí)刻輸入a(t)(∈A)及t時(shí)刻的操作o(t)(∈O)確定,與其t時(shí)刻之前的狀態(tài)和輸入及操作無關(guān),OCM的輸出是外部世界觀測的;(7)OCM的狀態(tài)取向函數(shù)ψS×A→[h,q],h定義為取向性最差的取向函數(shù)值,q為取向性最好的取向函數(shù)值對于任一si(∈S)和輸入aj(∈A),ψij=ψ(si,aj)是OCM關(guān)于狀態(tài)si和輸入aj的期望值,如果ψij<0,則稱si是OCM在輸入為aj時(shí)的負(fù)取向狀態(tài);如果ψij=0,則稱si是OCM在輸入為aj時(shí)的零取向狀態(tài);如果ψij>0,則稱si是OCM在輸入為aj時(shí)的正取向狀態(tài);(8)OCM的操作條件反射學(xué)習(xí)律id="icf0002"file="A2009100869900002C2.tif"wi="34"he="4"top="267"left="100"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>設(shè)OCMt時(shí)刻的狀態(tài)為s(t)=sa∈S,輸入a(t)=ab∈A,依集合R中隨機(jī)“條件-操作”規(guī)則選中的操作為o(t)=oc∈O,實(shí)施操作后觀測到t+1時(shí)刻的狀態(tài)s(t+1)=sd∈S,則基于操作條件反射原理,操作集合R中隨機(jī)“條件-操作”規(guī)則pabk(k=1,2,…,nO)的激發(fā)概率依<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>δ</mi><mo>:</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mo>∀</mo><mi>k</mi><mo>≠</mo><mi>c</mi><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>ξ</mi><mrow><mo>(</mo><msub><mover><mi>ψ</mi><mo>→</mo></mover><mi>abk</mi></msub><mo>)</mo></mrow><mo>·</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mi>max</mi><mi>min</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><mn>0,1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abc</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munder><mi>Σ</mi><mrow><mi>k</mi><mo>≠</mo><mi>c</mi></mrow></munder><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math></maths>進(jìn)行調(diào)節(jié),其中,id="icf0004"file="A2009100869900003C2.tif"wi="49"he="4"top="83"left="60"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>是OCM在狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下實(shí)施操作oc(∈O)后狀態(tài)轉(zhuǎn)移為sd(∈S)后取向函數(shù)值的變化量,用此變化量來判斷該操作的好壞;id="icf0005"file="A2009100869900003C3.tif"wi="76"he="9"top="98"left="76"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>是單調(diào)增函數(shù),ξ(x)=0當(dāng)且僅當(dāng)id="icf0006"file="A2009100869900003C4.tif"wi="15"he="4"top="110"left="53"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>r是操作規(guī)則總數(shù),λ是學(xué)習(xí)率,即每次迭代學(xué)習(xí)的速率;pabc(t)(a∈{0,1,2,…,nS};b∈{0,1,2,…,nA};c∈{1,2,…,nO})是OCM狀態(tài)處于sa(∈S)和輸入為ab(∈A)時(shí)實(shí)施操作oc(∈O)的概率p(oc|sa∩ab)在t時(shí)刻的值,當(dāng)id="icf0007"file="A2009100869900003C5.tif"wi="13"he="4"top="126"left="152"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí),說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值變小,即取向性變差,則pabc(t+1)<pabc(t),表示下一時(shí)刻選擇操作oc(∈O)的概率減??;當(dāng)id="icf0008"file="A2009100869900003C6.tif"wi="13"he="4"top="143"left="146"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí),說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值不變,即取向性也不變,這時(shí)pabc(t+1)=pabc(t),表示下一時(shí)刻選擇操作oc(∈O)的概率不變;當(dāng)id="icf0009"file="A2009100869900003C7.tif"wi="13"he="4"top="159"left="146"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí),說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值變大,即取向性變好,則pabc(t+1)>pabc(t),表示下一時(shí)刻選擇操作oc(∈O)的概率增大;其中maxmin(pabk(t+1),0,1)是當(dāng)pabk(t+1)>1時(shí)pabk(t+1)=1;pabk(t+1)<0時(shí)pabk(t+1)=0保證pabk(t+1)∈,且id="icf0010"file="A2009100869900003C8.tif"wi="24"he="10"top="190"left="59"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為1,當(dāng)t→∞時(shí),若pabc(t)→1,說明操作oc(∈O)在狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下行為最優(yōu);當(dāng)學(xué)習(xí)達(dá)到迭代次數(shù)或者當(dāng)某一狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下實(shí)施操作oc(∈O)的概率pabc(t)≥pε時(shí)停止學(xué)習(xí),pε∈。2.如權(quán)利要求1所述的操作條件反射自動(dòng)機(jī)在仿生自主學(xué)習(xí)控制中的應(yīng)用.其特征在于,包括如下步驟(1)設(shè)定實(shí)驗(yàn)的初始條件;給定OCAT的起始狀態(tài)s(O),給定<9CM的初始輸入a(O),學(xué)習(xí)率A,給定i中各隨機(jī)"條件—操作"規(guī)則^,(/e(0,1,2,,};ye{0,1,2,…,"J;"{1,2,,"0})的初始激發(fā)概率~(0)=/々,給定迭代學(xué)習(xí)步數(shù)Tf或最優(yōu)行為選擇概率(2)隨機(jī)選擇操作并實(shí)施操作;依OCMf吋刻的狀態(tài)^)eS和輸入"(,)e^及i中各隨機(jī)"條件—操作"規(guī)則&(/e{0,1,2,…,};_/e{0,1,2,…,"J;"{1,2,…,"。})的激發(fā)概率^吋刻的值;v(0,按,吋刻狀態(tài)下各操作的概率值(0分布,隨機(jī)地選擇^吋刻的操作設(shè)OCM^吋刻的狀態(tài)々)^a,輸入"(0=^,選中f吋刻的操作o(/)=oe,則OCM的狀態(tài)依/s:卯)x^4(0x(9(0—外+1)狀態(tài)轉(zhuǎn)移方程發(fā)生特性轉(zhuǎn)移;(3)操作條件反射;設(shè)觀測到狀態(tài)^(/+1)=&eS,&1吋刻則操作條件反射學(xué)習(xí)單元^對隨機(jī)"條件-操作"規(guī)則激發(fā)概率進(jìn)行調(diào)節(jié),qe激發(fā)概率Z+1吋刻的值<formula>formulaseeoriginaldocumentpage4</formula>&②AmG+0=maxmin(/必0+l),O,l)/W("l)=l-2>涯("1)其中maxmin(;^(,+l),O,l)是當(dāng)(,+1)>l時(shí)4+1)=1;』("1)<0時(shí)』(,+1)=0;保證p慮(,+1)e;且"1(4)由系統(tǒng)的輸出方程/z:S(0xX(0xO(0—Z(Z+l)對夕卜輸出Z(f+l);(5)重復(fù)進(jìn)行(2)—(4)的步驟,直到達(dá)到迭代學(xué)習(xí)次數(shù)Tf或當(dāng);^0+l)〉A(chǔ)吋停止實(shí)驗(yàn)。全文摘要本發(fā)明提出了一種操作條件反射自動(dòng)機(jī)模型,并且基于該模型設(shè)計(jì)了一種仿生自主學(xué)習(xí)控制的方法。針對自然界系統(tǒng)的控制問題,運(yùn)用仿生的自組織學(xué)習(xí)方法,設(shè)計(jì)出一種可用于描述,模擬,設(shè)計(jì)具有自組織(包括自學(xué)習(xí)和自適應(yīng))功能的操作條件反射自動(dòng)機(jī)模型,從而有效的將仿生學(xué)、心理學(xué)應(yīng)用于系統(tǒng)的控制。該方法利用操作條件反射自動(dòng)機(jī)模型OCM,首先是由當(dāng)前系統(tǒng)的輸入和狀態(tài),隨機(jī)的選擇操作(控制量),并傾向于選擇概率值大的操作,概率值大的操作取向性好。待實(shí)施控制后觀測狀態(tài)并對外輸出其控制效果,再由取向單元來評價(jià)控制后的狀態(tài),修改其規(guī)則集合概率值,不斷習(xí)得取向性好的行為,以便下次選擇更優(yōu)的行為,最終實(shí)現(xiàn)其自主控制。文檔編號G06N3/00GK101673354SQ200910086990公開日2010年3月17日申請日期2009年6月12日優(yōu)先權(quán)日2009年6月12日發(fā)明者戴麗珍,蔡建羨,郜園園,阮曉鋼,靜陳申請人:北京工業(yè)大學(xué)