操作條件反射自動(dòng)機(jī)及其在仿生自主學(xué)習(xí)控制中的應(yīng)用的制作方法

文檔序號：6619136閱讀：169來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：操作條件反射自動(dòng)機(jī)及其在仿生自主學(xué)習(xí)控制中的應(yīng)用的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及一種基于操作條件反射原理的仿生自動(dòng)機(jī)(OperantConditioningAutomata,以下簡稱OCM)。它利用計(jì)算機(jī)技術(shù)、自動(dòng)控制技術(shù)、仿生學(xué)、心理學(xué)、生物學(xué)等來實(shí)現(xiàn)仿生自主學(xué)習(xí)控制。
背景技術(shù)：
：本發(fā)明基于Skirmer的操作條件反射理論，它區(qū)別于巴甫洛夫的經(jīng)典條件反射。經(jīng)典性條件反射是由條件刺激弓蹈反應(yīng)的過程，其公式為S—R，反應(yīng)具有先天性，刺激物作為一種強(qiáng)化，并且在行為之前就已經(jīng)被呈現(xiàn)；而操作性條件反射是首先做某種操作反應(yīng)，然后得到強(qiáng)化的過程，其公式為R—S，反應(yīng)具有后天性，其強(qiáng)化出現(xiàn)在行為出現(xiàn)之后，目的是讓試驗(yàn)對象學(xué)會(huì)實(shí)驗(yàn)者所期望的特定行為。據(jù)此，Skirmer又進(jìn)一步提出兩種學(xué)習(xí)一種是經(jīng)典性條件反射式學(xué)習(xí)，另一種是操作條件反射式學(xué)習(xí)。兩種學(xué)習(xí)形式同樣重要，而操作式條件反射的強(qiáng)化刺激有明確的目的，更有利于試驗(yàn)對象學(xué)會(huì)特定的行為。本發(fā)明的自動(dòng)機(jī)模型建立在有限狀態(tài)自動(dòng)機(jī)的基礎(chǔ)上，一般的一個(gè)有限狀態(tài)機(jī)是一個(gè)五元組FSM=M,Z,S,/，g}。其中各符號的意義(1)4表示有限輸入符號集合(2)S表示有限(內(nèi)部)狀態(tài)符號集合(s仰"為初始狀^)(3)Z表示有限輸出(接受狀態(tài))符號集合(4)六SW^表示狀態(tài)轉(zhuǎn)移函數(shù)(5)g.'S—Z表示輸出函數(shù)。目前，相似的發(fā)明專利主要是基于有限狀態(tài)自動(dòng)機(jī)或元胞自動(dòng)機(jī)的方法的硏究，采用的元胞自動(dòng)機(jī)主要用于研究信息傳遞、計(jì)算、構(gòu)造、生長、復(fù)制、競爭等一般現(xiàn)象，但在模擬動(dòng)物的感知和認(rèn)知行為方面還沒有很好的應(yīng)用。如申請(專利)號為200610119136.X，名稱為基于元胞自動(dòng)機(jī)的圖像邊緣檢測算法；申請(專利)號為200810031543.4,名稱為基于有限狀態(tài)自動(dòng)機(jī)的多艾真體動(dòng)態(tài)多目標(biāo)協(xié)作跟蹤方法。操作條件反射自動(dòng)機(jī)及其應(yīng)用方面的專利還未見到。本發(fā)明提出了一種操作條件反射自動(dòng)機(jī)模型，并且基于該模型設(shè)計(jì)了一種仿生自主學(xué)習(xí)控制的方法。本發(fā)明的目的在于用Skirmer鴿子實(shí)驗(yàn)來說明此方法實(shí)現(xiàn)了模似操作條件反射學(xué)習(xí)的機(jī)制，用倒立擺控制問題來證實(shí)用此方法去實(shí)現(xiàn)某些狀態(tài)連續(xù)控制系統(tǒng)的無模型控制的可行性。
發(fā)明內(nèi)容本發(fā)明不同于傳統(tǒng)的控制方法，是以操作條件反射學(xué)習(xí)機(jī)制為基礎(chǔ)，根據(jù)自動(dòng)機(jī)的原理，針對Skirmer鵲子實(shí)驗(yàn)和倒立擺的平衡控制問題，運(yùn)用仿生的自組織(包括自學(xué)習(xí)和自適應(yīng))學(xué)習(xí)方法，設(shè)計(jì)出一種可用于描述、模似、設(shè)計(jì)具有自組織(包括自學(xué)習(xí)和自適應(yīng))5功能的操作條件反射自動(dòng)機(jī)模型，從而有效的將仿生學(xué)、心理學(xué)和生物學(xué)應(yīng)用于控制系統(tǒng)，從而實(shí)現(xiàn)仿生自主學(xué)習(xí)控制的功能。本發(fā)明的操作條件反射自動(dòng)機(jī)是一個(gè)八元組CO/=〈j,S,O,Z,/,/,5〉，其中，(1)OCM的輸入符號集合」={|/=0，1,2，一,"J，為(9CM第/個(gè)輸入符號；(2)OCM的內(nèi)部狀態(tài)集合S={s,|!'=0,1,2,…,nj，s,為OCM第個(gè)狀態(tài)符號；(3)OCM的內(nèi)部操作集合0={o」A:=1,2,.，"。}，0*為OCM第A個(gè)操作符號；(4)OCM的輸出符號集合Z={^卜=0,1,2,^為OCM第柳個(gè)輸出符號；(5)OCM的規(guī)則集合i={&|/e{0,1，2,…,e{0,1,2，...，"」};Are{l，2，.''，"。}}，i的每一個(gè)元素^ei代表一條隨機(jī)"條件-操作"規(guī)則&:Ax";—O妙)即OCM在狀態(tài)處于s,(eS)和輸入為.(eX)的條件下依概率;v實(shí)施操作(e0)，=卜,n.)是OCM在狀態(tài)處于&和輸入為a,ej的條件下實(shí)施操作的概率，又稱規(guī)則&的激發(fā)概率。(6)OCM的狀態(tài)空間方程其中，A是OCM的狀態(tài)轉(zhuǎn)移方程，OCMW吋刻的狀態(tài)^+l)(eS)由f吋刻的狀態(tài)S)和f吋刻輸入fl(0(e力及Z吋刻的操作o(O(e0)確定，與其f吋刻之前的狀態(tài)、輸入和操作無關(guān)，并且，入可以是未知的，但OCM狀態(tài)轉(zhuǎn)移的結(jié)果是OCM自身可以觀測的；A是OCM的輸出方程，OCM什l吋刻的輸出^+l)(eZ)由f吋刻的狀態(tài)^)(eS)和/吋刻輸入fl(0(e及,吋刻的操作o(0(eO)確定，與其f吋刻之前的狀態(tài)和輸入及操作無關(guān)，OCM的輸出是外部世界可以觀測的；(7)OCM的狀態(tài)取向函數(shù)w^xJ4[/,]，定義為取向性最差的取向函數(shù)值，《為取向性最好的取向函數(shù)值(這里的取向性是從生物學(xué)意義上來定義的，環(huán)境決定生物逬化的方向，即生物的取向性)。p和9的值可根據(jù)所處理的具體的對象來取值。對于任一A(e。和輸入(e力，ytf=^^,)是CO/矢于狀態(tài)A和輸入的期望值，如果^<0,則稱^,是OCM在輸入為^吋的負(fù)取向狀態(tài)；如果^.=0，則稱&是OCM在輸入為fl,吋的零取向狀態(tài)；如果^.>0,則稱&是6CM在輸入為^吋的正取向狀態(tài)；(8)OCM的操作條件反射學(xué)習(xí)律&/(0i^i^+l)，設(shè)OCMr吋刻的狀態(tài)為"r)-《。eS，輸入"0^e^，依集合及中隨機(jī)"條件-操作"規(guī)則選中的操作為00)=0￡￡0，實(shí)施操作后觀測到什1吋刻的狀態(tài)^+1)=~€5，則基于操作條件反射原理，操作集合A中隨機(jī)"條件-操作"規(guī)則/^(hl,2,…,"。)的激發(fā)概率依V"cp咖("1)=p。w(0-"p。M)』W5:<凡w(,+1)=maxmin(/。6i+l)，O,l);^c("i)=i-2>。^+i)進(jìn)行調(diào)節(jié)，其中，f血=^>d,"6)—wO。，"J，是ocM在狀態(tài)處于^(eS)和輸入為^o局的條件下實(shí)施操作&(e0)后狀態(tài)轉(zhuǎn)移為^(sS)后取向函數(shù)值的變化量，可用此變化量來判斷該操作的好壞；"^="^(^"6)-^(,"6》=^^是單調(diào)增函數(shù)，""=0當(dāng)且僅當(dāng)^^=0,r是操作規(guī)則總數(shù)，義是學(xué)習(xí)率，即每次迭代學(xué)習(xí)的速率。;^(r)(ae(0，1，2,&e{0，l,2,...，~};ce{1,2，...,"。})是OCM狀態(tài)處于s"(eS)和輸入為""e々吋實(shí)施操作A(eO)的概率/7(^U。naJ在f吋刻的值，當(dāng)lzO吋，說明實(shí)施操作^(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小，即取向性變差，貝U/^C("1)<P』,表示下一吋刻選擇操作oJeO)的概率減??；當(dāng)U吋，說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為^os)后的取向函數(shù)值不變，即取向性也不變，這吋/^￡(^+1)=凡&(0，表示下一吋刻選擇操作A(sO)的概率不變；當(dāng)*血>0吋，說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值變大，即取向性變好，則&c("l)>;^0)，表示下一吋刻選擇操作Oe(eO)的概率増大。其中maxmin(;^("l),0，l)是當(dāng);^("l)>塒/^("1)=1;(,+1)<0時(shí);^(,+l)二O可保證/7。M(,+l)e，且|>。6)^)=1,即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為l，當(dāng)f—w吋，若p血(0—1，說明操作o^O)在狀態(tài)處于^(eS)和輸入為A(eJ)的條件下行為最優(yōu)。一般情況下我們給定學(xué)習(xí)迭代次數(shù)Tf或最優(yōu)行為選擇概率最大閾值&,當(dāng)學(xué)習(xí)達(dá)到迭代次數(shù)或者當(dāng)某一狀態(tài)處于^(eS)和輸入為A(e力的條件下實(shí)施操作A(eO)的概率(0》&吋停止學(xué)習(xí)，&s，由實(shí)際的系統(tǒng)環(huán)境來具體設(shè)定，一般設(shè)為/^=0.9。本發(fā)明的重要特征在于模似生物的操作條件反射機(jī)制，因而具有仿生的自組織功能，包括自學(xué)習(xí)和自適應(yīng)功能，可用于描述，模似，設(shè)計(jì)各種自組織的系統(tǒng)。本發(fā)明的技術(shù)方案見圖l、圖2。本發(fā)明的方法步驟如下(1)設(shè)定實(shí)驗(yàn)的初始條件。給定OCM的起始狀態(tài)幸)，給定OCM的初始輸入"(O),學(xué)習(xí)率A,給定i中各隨機(jī)"條件—操作"規(guī)則&(/e{0，1，2，，};乂e{0，1,2，…,"》；Ae仏2，…，"。))的初始激發(fā)概率;y(O)=W,給定迭代學(xué)習(xí)步數(shù)Tf或最優(yōu)行為選擇概率A,由實(shí)驗(yàn)要求及環(huán)境確定義、Tf和A，一般取>1=0.05，Tf=1000，&=0.9。(2)隨機(jī)選擇操作并實(shí)施操作。依<9Qy7吋刻的狀態(tài)€S和輸入e^及及中各隨機(jī)"條件—操作"規(guī)則&(!e{0,1,2,…，"s};_/e{0,1,2,…,"J;A:e{1,2,…,"0})的激發(fā)概率吋刻的值(0，按^吋刻狀態(tài)下各操作的概率值(0分布，隨機(jī)地選擇f吋刻的操作o(Oe6>;設(shè)OCM/吋刻的狀態(tài)^)=^,輸入"(O="6,選中^吋刻的操作o(r)=&，則OCM的狀態(tài)依/s:雄)x雄)x~>外+1)狀態(tài)轉(zhuǎn)移方程發(fā)生特性轉(zhuǎn)移；(3)操作條件反射。設(shè)觀測到狀態(tài)^^+1)=&eS，f+lB寸刻則操作條件反射學(xué)習(xí)單元^對隨機(jī)"條件—操作"規(guī)則&。激發(fā)概率逬行調(diào)節(jié)，Qt激發(fā)概率,+1吋刻的值V"cp。M("1)-4(,)-)p磁(0^:<P。m("Q=臓minO。6i0+l)，O,l)其中maxmin(;7。m"+l)，O,l)是當(dāng)""1)>塒/^""1)=1;払("1)<0時(shí)凡",+1)=0;可保證i^(,+l)e。且(4)由系統(tǒng)的輸出方程A:鄧)x^^)xO(r)—Z(f+l)對外輸出Z(f+l)。(5)重復(fù)進(jìn)行(2)—(4)的步驟，直到達(dá)到迭代學(xué)習(xí)次數(shù)Tf或當(dāng)/7^(f+l)〉戶J寸停止實(shí)驗(yàn)。本發(fā)明方法的流程圖見圖3。本發(fā)明的優(yōu)點(diǎn)是能模似和仿生自然界生命的"隨機(jī)應(yīng)變性"，使機(jī)器生命具有思維、記憶和學(xué)習(xí)功能。具有認(rèn)知行為或認(rèn)知能力的機(jī)器生命因而不僅能改變自己的行為,而且能改善自己的行為。使機(jī)器生命表現(xiàn)的更加具有仿生性和智能性。圖1為本發(fā)明的結(jié)構(gòu)示意圖圖1:1輸入符號集合，2內(nèi)部狀態(tài)集合，3內(nèi)部操作集合，4輸出符號集合，5隨機(jī)"條件-操作"規(guī)則集合，6狀態(tài)空閭單元，7狀態(tài)取向函數(shù)，8操作條件反射學(xué)習(xí)律。圖2為本發(fā)明專利的應(yīng)用結(jié)構(gòu)框圖圖3為本發(fā)明專利的方法流程圖圖4為Skinner鴿子實(shí)驗(yàn)三種行為次數(shù)效果圖1紅色按鈕2黃色按鈕3藍(lán)色按鈕圖5(a)(b)為Skinner鴿子實(shí)驗(yàn)迭代學(xué)習(xí)仿真效果圖，分別為在1000次和1000次訓(xùn)練次數(shù)的行為操作概率圖。1紅色按鈕2黃色按鈕3藍(lán)色按鈕圖6(a)為倒立擺平衡控制實(shí)驗(yàn)確定模型下的偏角曲線圖圖6(b)為倒立擺平衡控制實(shí)驗(yàn)確定模型下的偏角速度曲線圖8圖7(a)為倒立擺平衡控制隨機(jī)模型下的偏角曲線圖圖7(b)為倒立擺平衡控制實(shí)驗(yàn)隨機(jī)模型下的偏角速度曲線圖具體實(shí)施例方式實(shí)施例一如圖4、5所示，Skinner操作條件反射鴿子實(shí)驗(yàn)。Skinner鵠子實(shí)驗(yàn)訓(xùn)練的目標(biāo)是使其學(xué)會(huì)啄紅色按鈕的操作行為。它啄紅色按鈕吋得到食物(正強(qiáng)化剌激)，啄黃色按鈕吋無任何剌激，啄藍(lán)色按鈕吋給予電擊(負(fù)強(qiáng)化剌激)。采用Skinner操作條件反射自動(dòng)機(jī)模型方法進(jìn)行實(shí)驗(yàn)，如圖1、2、3所示。先給出鴿子實(shí)驗(yàn)簡化的離散數(shù)學(xué)模型設(shè)鴿子有三個(gè)狀態(tài)分別為饑餓狀態(tài)、半饑餓狀態(tài)和零饑餓狀態(tài)。鴿子狀態(tài)為饑餓吋，當(dāng)給它食物，狀態(tài)轉(zhuǎn)移為半饑餓，不給鴿子食物或給其電擊刺激吋，鴿子依然表現(xiàn)為饑餓狀態(tài)，輸出為此吋鴿子的狀態(tài)；鴿子狀態(tài)為半饑餓吋，當(dāng)給它食物，狀態(tài)轉(zhuǎn)移為零饑餓，不給其食物或給其電擊刺激，鴿子轉(zhuǎn)移為饑餓狀態(tài)，輸出為此吋鴿子的狀態(tài)；鴿子狀態(tài)為零饑餓吋，當(dāng)給它食物，狀態(tài)依然轉(zhuǎn)移為零饑餓，不給其食物，狀態(tài)轉(zhuǎn)移為半饑餓狀態(tài)，給其電擊刺激，狀態(tài)轉(zhuǎn)移為饑餓狀態(tài)，輸出為鴿子此吋的狀態(tài)。得到其模型的狀態(tài)轉(zhuǎn)移方程X:S(Ox雄)xO(O—S(f+1)具體表示為/0。，""O2)"0/Op"l,。2)-^/02，"!，。2)-A鴿子實(shí)驗(yàn)的輸入符號集合A—fl。,^,fl^，其中a。表示啄紅色按鈕給鴿子食物，^表示啄黃色按鈕不給鴿子食物，^表示啄藍(lán)色按鈕給予電擊刺激；狀態(tài)集合S-U。A,s^，其中s。表示饑餓狀態(tài)，^表示半饑餓，^表示零饑餓狀態(tài)；操作集合0={01,02,03}，其中^表示鴿子啄紅色按鈕，02表示鴿子啄黃色按鈕，^表示鴿子啄藍(lán)色按鈕，開始吋鴿子豚紅，黃和藍(lán)三個(gè)按鈕是隨機(jī)的；規(guī)則集合R為^:、x4O40v)，即表示鴿子在處于s,(eS)狀態(tài)和輸入為.(e々的條件下依概率4實(shí)施操作0i(eO)，=I&n)是鴿子在狀態(tài)處于、.和輸入為e的條件下實(shí)施操作oA的概率，又稱規(guī)則&的激發(fā)概率。設(shè)定鴿子離散狀態(tài)取向函數(shù)W:Sx^—{-1,0,1,2,3}，具體函數(shù)表達(dá)式為WooOo，aO)=1WloOl,"0)=2W2o02，a0)=3V/。。"，fl。)-l表示當(dāng)鴿子狀態(tài)為饑餓吋，給其食物，則其狀態(tài)取向函數(shù)值較大為1;^(",^^0表示當(dāng)鴿子狀態(tài)為饑餓吋，不給其食物，則其狀態(tài)取向函數(shù)值為0;^2(,^2)=-1表示當(dāng)鵠子狀態(tài)為饑餓吋，給其電擊，則其狀態(tài)取向函數(shù)值較小為-1。鴿子實(shí)驗(yàn)方法基本步驟如下9(1)設(shè)定實(shí)驗(yàn)的初始條件。初始輸入設(shè)定為給鴿子食物"。，初始狀態(tài)設(shè)定為饑餓狀態(tài)，設(shè)定鴿子啄三個(gè)按鈕的初始概率均為1/3，即剛開始鴿子啄三個(gè)按鈕的機(jī)會(huì)是均等的，學(xué)習(xí)率/1=0.05，設(shè)定最優(yōu)行為選擇概率閾值A(chǔ)=0.97。(2)隨機(jī)選擇操作并實(shí)施操作。設(shè)在^吋刻觀測到鴿子的狀態(tài)為&e^，輸入為"6e^,狀態(tài)取向函數(shù)值為W。6eW,依集合R中隨機(jī)"條件-操作"規(guī)則按^吋刻各操作的概率值;V(O分布選中的操作OeeO,實(shí)施操作^eO后依鴿子的狀態(tài)轉(zhuǎn)移函數(shù)/;:S(OxJ(Ox(9(0—S(f+1)進(jìn)行狀態(tài)轉(zhuǎn)移。即依/CWihi/Oi,"0,Oi)=s2/02，"0,01)=&進(jìn)行狀態(tài)轉(zhuǎn)移。其中/0。，"。,o,)-^表示當(dāng)鴿子為饑餓狀態(tài)吋，其選擇啄紅色按鈕吋給食物下鴿子狀態(tài)轉(zhuǎn)移為半饑餓狀態(tài)；/(^^，02):^表示當(dāng)鴿子為半饑餓狀態(tài)吋，其選擇黃色按鈕吋不給其食物下鴿子狀態(tài)轉(zhuǎn)移為饑餓狀態(tài)；,"2,o3)=s。表示鴿子為零饑餓狀態(tài)吋，其選擇藍(lán)色按鈕吋給其電擊鴿子狀態(tài)轉(zhuǎn)移為饑餓狀態(tài)。輸出函數(shù)定義/z:z=a，附=,-,/={0,1，2}。輸出集合Z={z。，Zl,z2}，2。="，21=^22=^2。當(dāng)鴿子在^吋刻轉(zhuǎn)移后，f+l吋刻狀態(tài)為&eS，那么得到f+l吋刻鴿子的狀態(tài)取向函數(shù)值為^^e^。(3)操作條件反射。根據(jù)鴿子的狀態(tài)取向函數(shù)W值的變化量，即一*=W(&,"6)-,&)，按照操作條件反射單元^對隨機(jī)"條件-操作"規(guī)則Q。激發(fā)概率進(jìn)行調(diào)節(jié)。這里的^為VA:*c&("1)=p。M(,)-).(0^:jPw0+0=薩minOwG+l),O，l)戸血("1)=1-1>。",+1)、A杯其中，&*=^(^,^)-^/(、，^),是鴿子在狀態(tài)^(eS)和輸入為^0^的條件下實(shí)施操作(eO)后狀態(tài)轉(zhuǎn)移為^(eS)后取向函數(shù)值的變化量，可用此變化量來判斷該操作的好壞；《U4^(^"Jl(^A^^^是單調(diào)增函數(shù)，^)=0當(dāng)且僅當(dāng)**=0，r是操作規(guī)則總數(shù)，義是學(xué)習(xí)率，即每次迭代學(xué)習(xí)的速率，這里取^3,義=0.05。p血(0("e{0,1，2,…,&};6e{0,1,2,…,^};ce{1,2,…，"。})是鴿子處于sa(eS)和輸入為」)吋實(shí)施操作A(e(9)的概率;7(oJs。n"J在f吋刻的值，當(dāng)^^<0吋，說明實(shí)施操作^(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小，即取向性變差，這吋得到/^e(f+l)<A^(0,表示下一吋刻選擇操作o。(e(9)的概率減小，即在該輸入與狀態(tài)下該行為被選擇的機(jī)率變?。划?dāng)*^=0吋，說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值不變，即取向性也不變，這吋得到=PaAe(0，表示下一吋刻選擇操作^(eO)的概率不變；當(dāng)^￡>0吋，說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為"^)后的取向函數(shù)值變大，即取向性變好，這吋得到;^("1)>;^(0,表示下一吋刻選擇操作oJeO)的概率增大。具體來說，當(dāng)t吋刻吋鴿子狀態(tài)為饑餓&吋，如果鴿子按規(guī)則集合R中的激發(fā)概率A)。々—P(^lrw。)-0.55選擇了啄紅色按鈕^的操作，并給其食物"。，由鴿子狀態(tài)轉(zhuǎn)移方程/0。,a。，oJ=^則鴿子下一吋刻狀態(tài)轉(zhuǎn)移為半饑餓A，此吋的取向函數(shù)值(^，a。)=2大于先前饑餓吋的取向函數(shù)值w00(sQ,a。)=1，得到p則(r+1)>/7001(0，故下次學(xué)習(xí)吋選擇啄紅色按鈕的概率就增大。其中maxmin(;。M(f+l),O，l)是當(dāng)"+1)>l時(shí);^(,+1)=1，(,+1)<0時(shí)P。mG+1)=0可保證(+1)e[O，l],且^p淑(0=1,即表示在同一輸入同一狀態(tài)下釆取不同操作的概率和為1。當(dāng)f—w吋，若/7血(041,則說明操作"eO)在狀態(tài)處于&(eS)和輸入為X)的條件下行為最優(yōu)。(4)對外輸出。由輸出函數(shù)定義/;:21=^/=0,1，2,附=;。按輸出集合2={2。,21,&},z。=a,z2=&對外輸出1+1吋刻的狀態(tài)。(5)判斷實(shí)驗(yàn)停止條件是否達(dá)到。當(dāng)A^-P(A^。n"J〉A(chǔ)B寸，則認(rèn)為鴿子已學(xué)會(huì)—最優(yōu)操作行為，則鴿子此后便在此狀態(tài)此輸入下持續(xù)選擇這一最優(yōu)操作行為直到達(dá)到迭代次數(shù)Tf。否則重復(fù)逬行(2)—(4)的實(shí)驗(yàn)步驟，直到滿足條件為止。結(jié)果表明，應(yīng)用上述的操作條件反射自動(dòng)機(jī)的模型，一段吋間之后，鴿子啄取紅色按鈕的次數(shù)明顯高于啄取其它兩個(gè)按鈕的次數(shù)，見圖4。圖5為鴿子實(shí)驗(yàn)迭代學(xué)習(xí)仿真效果圖，從圖中可看到鴿子操作條件反射學(xué)習(xí)形成的過程。實(shí)施例二如圖6~圖7所示，單級倒立擺的平衡控制實(shí)驗(yàn)。倒立擺控制的目標(biāo)是通過給小車底座施加一個(gè)力u(控制量)，即為操作符號集合O,即"=04^=1,2,,。最終保證桿不倒下，即不超過一個(gè)預(yù)先定義好的垂直偏離角度范圍。采用Skinner操作條件反射自動(dòng)機(jī)模型的方法逬行控制實(shí)驗(yàn)，如圖1、2、3所示。倒立擺可以用以下運(yùn)動(dòng)方程來描述6=————--式中/=丄附丄2，/=丄丄.122把式"=ot,A=1,2，…,"。代入得到下面的式子々式中/=丄附丄2,/=丄丄"&二l，2，…，"n122，，，《通過Euler方法數(shù)值近似，可用以下差分方程來仿真倒立擺系統(tǒng)~+1)=麵+"(011吋間r—般設(shè)定為0.02秒，顯然以上給的倒立擺系統(tǒng)是一個(gè)確定性系統(tǒng)。為了說明基于操作條件反射自動(dòng)機(jī)模型的方法也同樣適用于連續(xù)隨機(jī)系統(tǒng)的無模型控制，即/s可以是末知的。在以上確定性模型中引入了一個(gè)噪聲信號構(gòu)成一個(gè)隨機(jī)倒立擺模型，即在仿真中用以下方程來代替上面的倒立擺方程。<formula>formulaseeoriginaldocumentpage12</formula>其中d為隨機(jī)噪聲，這里d為在[-1.5，1.5]上一均勻隨機(jī)分布噪聲。輸出函數(shù)定義&,m=/,/={0,1,2}。輸出集合Z={z。，^,z2}，倒立擺實(shí)驗(yàn)的輸入符號集合A={a。}，"。=W,A其中^為擺桿偏離垂直線的角度，^為偏離垂直線的角速度。狀態(tài)集合S:，其中&表示倒立擺控制狀態(tài)不好，&表示倒立擺控制狀態(tài)較好/壞，A表示倒立擺控制狀態(tài)好。輸出集合2={2。,21,22},z。表示倒立擺控制效果不好，^表示倒立擺控制效果較好/壞，z,表示倒立擺控制效果好，即達(dá)到控制要求。操作集合0={01,02,03}，其中01表示給小車底座施加_個(gè)向右的力，02表示給小車底座施加一個(gè)微小接近于零的力，03表示給小車底座施加一個(gè)向左的力。規(guī)則集合R為&:&x4Ov),即表示倒立擺在處于&(eS)狀態(tài)和輸入為(eJ)的條件下依概率~實(shí)施操作ot(eO)，；v=;(0*I&n^)是倒立擺在狀態(tài)處于&和輸入為",eX的條件下實(shí)施操作"的概率，又稱規(guī)則&的激發(fā)概率。狀態(tài)取向函數(shù)值為<formula>formulaseeoriginaldocumentpage12</formula>倒立擺實(shí)驗(yàn)控制方法基本步驟如下(1)設(shè)定實(shí)驗(yàn)的初始條件。其中，重力加速度g-9.8m"2,小車質(zhì)量M4.0kg，桿的質(zhì)量m^.lkg,桿的半長I^0.5m。設(shè)置偏角范圍0e[—0.1,+0.1]，角速度范圍6e[-2，+2],這里規(guī)定倒立擺偏角左偏吋為正值，右偏吋為負(fù)值，同樣，角速度方向向左吋為正，方向向右吋為負(fù)。初始輸入為"。(0)取0(0)=5°=0.087力(0)=0，其中擺動(dòng)角度值轉(zhuǎn)化為弧度值。初始狀態(tài)為s(0)"。，其中當(dāng)6e[-0.1,-0.03]或者^e[+0.03,+0.1]為s。，即狀態(tài)不好，當(dāng)^e(—0.03,+0.005)或者0e(+0.005,+0.03)吋為^，即狀態(tài)較好/壞，當(dāng)Pe[-0.005,+0.005]吋為&,即狀態(tài)控制好。設(shè)定倒立擺的三個(gè)操作力，即控制量0={01,02,03}={-5，0.1,5}，倒立擺選擇這三個(gè)操作力的初始概率均為1/3,給定迭代學(xué)習(xí)步數(shù)Tf4000,學(xué)習(xí)率義=0.02，操作規(guī)則總數(shù)r=3,最優(yōu)行為選擇概率閾值為&=0.95。(2)隨機(jī)選擇操作并實(shí)施操作。設(shè)在t吋刻觀測到倒立擺的狀態(tài)為&eS，輸入為flAe^,狀態(tài)取向函數(shù)值為e^，依集合R中隨機(jī)"條件-操作"規(guī)則選中的操作&eO，實(shí)施操作后依倒立擺的狀態(tài)轉(zhuǎn)移方程/,<formula>formulaseeoriginaldocumentpage12</formula>逬行狀態(tài)轉(zhuǎn)移。倒立擺狀態(tài)轉(zhuǎn)移方程可以用以下運(yùn)動(dòng)方程來描述"=-6/-式中/=丄附丄2,/=丄丄"&=1,2，...，"122,，，a和以下差分方程來仿真倒立擺系統(tǒng)0("1)=柳+"0)吋間r一般設(shè)定為0.02秒，顯然以上給的倒立擺系統(tǒng)是一個(gè)確定性系統(tǒng)。也可用隨機(jī)倒立擺模型來仿真，即用下式S(,+l)"(0+r身)+i/代替上面的式+1)=)+t~)。其中d為隨機(jī)噪聲，這里d為在[-1.5,1.5]上一均勻隨機(jī)分布矂聲。輸出函數(shù)定義/z:z,=&,/=0,1，2。輸出集合Z-(z。,^,zJ，z。=s。,Zl=&。當(dāng)?shù)沽[在t吋刻通過倒立擺運(yùn)動(dòng)運(yùn)動(dòng)方程發(fā)生轉(zhuǎn)移后，t+l吋刻狀態(tài)為&eS，那么得到t+l吋刻倒立擺的狀態(tài)取向函數(shù)值為^^e^。(3)操作條件反射。根據(jù)倒立擺的狀態(tài)取向函數(shù)W值的變化量，即一*=^,"A)-W(&,"6)，按照操作條件反射單元^對隨機(jī)"條件-操作"規(guī)則激發(fā)概率進(jìn)行調(diào)節(jié)。這里的^為V"c^0+1)=(,)-).;aAi0)^:'P。m("D=maxmin(/^G+0,0,1)&("1)=1-2>。""1)其中，f血a6)-^(sa，aj，是倒立擺在狀態(tài)&(eS)和輸入為A(e^的條件下實(shí)施操作o。(eO)后狀態(tài)轉(zhuǎn)移為S)前后取向函數(shù)值的變化量，可用此變化量來判斷該操作的好壞；《(一血)="^(~,。*)-^"。，^)=^^是單調(diào)增函數(shù)."勾=0當(dāng)且僅當(dāng)^血=0，r是操作規(guī)則總數(shù)，A是學(xué)習(xí)率，即每次迭代學(xué)習(xí)的速率，這里取F3，義=0.02。&(0("e{0,1,2,..，};"{0,1,2,…,"J;ce{1，2,...,"。})是倒立擺處于&(eS)和輸入為A(e々吋實(shí)施操作o^O)的概率p(oJ^n^)在f吋刻的值，當(dāng)^^<0吋，說明實(shí)施操作(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值變小，即取向性變差，則得到A^("1)</W(0,表示下一吋刻選擇操作oJeO)的概率減小；當(dāng)^^=0吋，說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為^(eS)后的取向函數(shù)值不變，即取向性也不變，貝幌到A^G+l)=/^e(0，表示下一吋刻選擇操作A(eO)的概率不變；當(dāng)一血>0吋，說明實(shí)施操作A(eO)并轉(zhuǎn)移狀態(tài)為&(eS)后的取向函數(shù)值變大，即取向性變好，貝幌到p。Ac(f+1)>p血(/)，表示什1吋刻選擇操作oe(e6>)的概率增大。13具體來說，應(yīng)用倒立擺確定模型仿真，當(dāng)1吋刻吋輸入0(0=0.046和"0=-0.465吋即倒立擺向左偏，且偏角加速度方向向右吋，倒立擺狀態(tài)好為&，如果此吋由規(guī)則集合中的激發(fā)概率/2。3(0=^(03^20"。)=0.335選擇到的操作為03,即左推，再由倒立擺運(yùn)動(dòng)方程—(M+w)/+Mm/2—(M+m)/+Mw/2及差分方^+"=+r'來求^t+1式中^丄</=丄丄.,...,。王~+1)=#)+"-(0^"122，，，，o吋刻^(/+1)=0.031，即倒立擺t+l吋刻的狀態(tài)轉(zhuǎn)移為較好A，此吋的取向函數(shù)值^。,)=1要比f吋刻w2。,"。)=2小，得到/203(,+1)</72030)，故下次迭代學(xué)習(xí)吋在輸入"。及狀態(tài)A下選擇操作^左推的概率就會(huì)減小，相應(yīng)地，選擇其它兩種操作的概率就會(huì)增大。其中maxmin(;^0+l),0，l)是當(dāng)A狄(,+1)>塒/^(,+1)=1;p。M(,+1)<0時(shí);^G+1)=0可保證G+1)e，且這里!;^^(0=1，即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為i。當(dāng)^—吋，若A:=—1，則說明操作A(e(9)在狀態(tài)處于s。(eS)和輸入為局的條件下行為最優(yōu)。(4)對外輸出。由輸出函數(shù)定義/;:zm=0,1,2,m=,'。按輸出集合2="。,21,22}，z。"2對外輸出t+l吋刻的狀態(tài)。(5)判斷實(shí)驗(yàn)停止條件是否達(dá)到。當(dāng)&1吋刻滿足I^g0.005且I^g0.005且/血(,+1)=p(ocIs。n&)>0.95吋，則認(rèn)為倒立擺己能通過學(xué)習(xí)實(shí)現(xiàn)其自主平衡控制，則之后倒立擺按此狀態(tài)此輸入下持續(xù)選擇操作Oc直到達(dá)到迭代次數(shù)Tf。否則重復(fù)進(jìn)行(2)—(4)的實(shí)驗(yàn)步驟，直到滿足條件為止。圖6、圖7顯示，在同樣條件下，不管是確定模型還是隨機(jī)模型釆用操作條件反射自動(dòng)機(jī)模型的方法都能成功控制倒立擺的平衡，顯然，由于隨機(jī)噪聲的引入增加了隨機(jī)模型的學(xué)習(xí)難度，每次試驗(yàn)平均要在8800次后可實(shí)現(xiàn)倒立擺自主平衡控制。權(quán)利要求1、操作條件反射自動(dòng)機(jī)，操作條件反射自動(dòng)機(jī)以下簡稱為OCM，其特征在于是一個(gè)八元組OCM＝<A，S，O，Z，R，f，ψ，δ>，其中，(1)OCM的輸入符號集合A＝{aj|j＝0，1，2，…，nA}，aj為OCM第j個(gè)輸入符號；(2)OCM的內(nèi)部狀態(tài)集合S＝{si|i＝0，1，2，…，nS}，si為OCM第i個(gè)狀態(tài)符號；(3)OCM的內(nèi)部操作集合O＝{ok|k＝1，2，…，nO}，ok為OCM第k個(gè)操作符號；(4)OCM的輸出符號集合Z＝{zm|m＝0，1，2，…，nZ}，zm為OCM第m個(gè)輸出符號；(5)OCM的規(guī)則集合R＝{rijk|i∈{0，1，2，…，nS}；j∈{0，1，2，…，nA}；k∈{1，2，…，nO}}，R的每一個(gè)元素rijk∈R代表一條隨機(jī)“條件-操作”規(guī)則rijksi×aj→ok(pijk)即OCM在狀態(tài)處于si(∈S)和輸入為aj(∈A)的條件下依概率pijk實(shí)施操作ok(∈O)，pijk＝p(ok|si∩aj)是OCM在狀態(tài)處于si和輸入為ai∈A的條件下實(shí)施操作ok的概率，又稱規(guī)則rijk的激發(fā)概率；15(6)OCM的狀態(tài)空間方程<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>f</mi><mo>:</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>f</mi><mi>S</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>f</mi><mi>Z</mi></msub><mo>:</mo><mi>S</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>A</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>×</mo><mi>O</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>&RightArrow;</mo><mi>Z</mi><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math></maths>其中，fS是OCM的狀態(tài)轉(zhuǎn)移方程，OCMt+1時(shí)刻的狀態(tài)s(t+1)(∈S)由t時(shí)刻的狀態(tài)s(t)(∈S)和t時(shí)刻輸入a(t)(∈A)及t時(shí)刻的操作o(t)(∈O)確定，與其t時(shí)刻之前的狀態(tài)、輸入和操作無關(guān)，并且，fS是未知的，但OCM狀態(tài)轉(zhuǎn)移的結(jié)果是OCM自身觀測的；fZ是OCM的輸出方程，OCMt+1時(shí)刻的輸出z(t+1)(∈Z)由t時(shí)刻的狀態(tài)s(t)(∈S)和t時(shí)刻輸入a(t)(∈A)及t時(shí)刻的操作o(t)(∈O)確定，與其t時(shí)刻之前的狀態(tài)和輸入及操作無關(guān)，OCM的輸出是外部世界觀測的；(7)OCM的狀態(tài)取向函數(shù)ψS×A→[h，q]，h定義為取向性最差的取向函數(shù)值，q為取向性最好的取向函數(shù)值對于任一si(∈S)和輸入aj(∈A)，ψij＝ψ(si，aj)是OCM關(guān)于狀態(tài)si和輸入aj的期望值，如果ψij＜0，則稱si是OCM在輸入為aj時(shí)的負(fù)取向狀態(tài)；如果ψij＝0，則稱si是OCM在輸入為aj時(shí)的零取向狀態(tài)；如果ψij＞0，則稱si是OCM在輸入為aj時(shí)的正取向狀態(tài)；(8)OCM的操作條件反射學(xué)習(xí)律id="icf0002"file="A2009100869900002C2.tif"wi="34"he="4"top="267"left="100"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>設(shè)OCMt時(shí)刻的狀態(tài)為s(t)＝sa∈S，輸入a(t)＝ab∈A，依集合R中隨機(jī)“條件-操作”規(guī)則選中的操作為o(t)＝oc∈O，實(shí)施操作后觀測到t+1時(shí)刻的狀態(tài)s(t+1)＝sd∈S，則基于操作條件反射原理，操作集合R中隨機(jī)“條件-操作”規(guī)則pabk(k＝1，2，…，nO)的激發(fā)概率依<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>δ</mi><mo>:</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mo>&ForAll;</mo><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>-</mo><mi>ξ</mi><mrow><mo>(</mo><msub><mover><mi>ψ</mi><mo>&RightArrow;</mo></mover><mi>abk</mi></msub><mo>)</mo></mrow><mo>·</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mi>max</mi><mi>min</mi><mrow><mo>(</mo><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>,</mo><mn>0,1</mn><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>abc</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><mn>1</mn><mo>-</mo><munder><mi>Σ</mi><mrow><mi>k</mi><mo>&NotEqual;</mo><mi>c</mi></mrow></munder><msub><mi>p</mi><mi>abk</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>+</mo><mn>1</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>]]></math></maths>進(jìn)行調(diào)節(jié)，其中，id="icf0004"file="A2009100869900003C2.tif"wi="49"he="4"top="83"left="60"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>是OCM在狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下實(shí)施操作oc(∈O)后狀態(tài)轉(zhuǎn)移為sd(∈S)后取向函數(shù)值的變化量，用此變化量來判斷該操作的好壞；id="icf0005"file="A2009100869900003C3.tif"wi="76"he="9"top="98"left="76"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>是單調(diào)增函數(shù)，ξ(x)＝0當(dāng)且僅當(dāng)id="icf0006"file="A2009100869900003C4.tif"wi="15"he="4"top="110"left="53"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>r是操作規(guī)則總數(shù)，λ是學(xué)習(xí)率，即每次迭代學(xué)習(xí)的速率；pabc(t)(a∈{0，1，2，…，nS}；b∈{0，1，2，…，nA}；c∈{1，2，…，nO})是OCM狀態(tài)處于sa(∈S)和輸入為ab(∈A)時(shí)實(shí)施操作oc(∈O)的概率p(oc|sa∩ab)在t時(shí)刻的值，當(dāng)id="icf0007"file="A2009100869900003C5.tif"wi="13"he="4"top="126"left="152"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí)，說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值變小，即取向性變差，則pabc(t+1)＜pabc(t)，表示下一時(shí)刻選擇操作oc(∈O)的概率減??；當(dāng)id="icf0008"file="A2009100869900003C6.tif"wi="13"he="4"top="143"left="146"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí)，說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值不變，即取向性也不變，這時(shí)pabc(t+1)＝pabc(t)，表示下一時(shí)刻選擇操作oc(∈O)的概率不變；當(dāng)id="icf0009"file="A2009100869900003C7.tif"wi="13"he="4"top="159"left="146"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>時(shí)，說明實(shí)施操作oc(∈O)并轉(zhuǎn)移狀態(tài)為sd(∈S)后的取向函數(shù)值變大，即取向性變好，則pabc(t+1)＞pabc(t)，表示下一時(shí)刻選擇操作oc(∈O)的概率增大；其中maxmin(pabk(t+1)，0，1)是當(dāng)pabk(t+1)＞1時(shí)pabk(t+1)＝1；pabk(t+1)＜0時(shí)pabk(t+1)＝0保證pabk(t+1)∈，且id="icf0010"file="A2009100869900003C8.tif"wi="24"he="10"top="190"left="59"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>即表示在同一輸入同一狀態(tài)下采取不同操作的概率和為1，當(dāng)t→∞時(shí)，若pabc(t)→1，說明操作oc(∈O)在狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下行為最優(yōu)；當(dāng)學(xué)習(xí)達(dá)到迭代次數(shù)或者當(dāng)某一狀態(tài)處于sa(∈S)和輸入為ab(∈A)的條件下實(shí)施操作oc(∈O)的概率pabc(t)≥pε時(shí)停止學(xué)習(xí)，pε∈。2.如權(quán)利要求1所述的操作條件反射自動(dòng)機(jī)在仿生自主學(xué)習(xí)控制中的應(yīng)用.其特征在于，包括如下步驟(1)設(shè)定實(shí)驗(yàn)的初始條件；給定OCAT的起始狀態(tài)s(O)，給定<9CM的初始輸入a(O)，學(xué)習(xí)率A,給定i中各隨機(jī)"條件—操作"規(guī)則^,(/e(0,1,2,，};ye{0,1,2,…,"J;"{1,2,,"0})的初始激發(fā)概率~(0)=/々，給定迭代學(xué)習(xí)步數(shù)Tf或最優(yōu)行為選擇概率(2)隨機(jī)選擇操作并實(shí)施操作；依OCMf吋刻的狀態(tài)^)eS和輸入"(,)e^及i中各隨機(jī)"條件—操作"規(guī)則&(/e{0,1,2，…,};_/e{0,1，2，…,"J;"{1,2，…，"。})的激發(fā)概率^吋刻的值;v(0,按,吋刻狀態(tài)下各操作的概率值(0分布，隨機(jī)地選擇^吋刻的操作設(shè)OCM^吋刻的狀態(tài)々)^a,輸入"(0=^，選中f吋刻的操作o(/)=oe,則OCM的狀態(tài)依/s:卯)x^4(0x(9(0—外+1)狀態(tài)轉(zhuǎn)移方程發(fā)生特性轉(zhuǎn)移；(3)操作條件反射；設(shè)觀測到狀態(tài)^(/+1)=&eS，&1吋刻則操作條件反射學(xué)習(xí)單元^對隨機(jī)"條件-操作"規(guī)則激發(fā)概率進(jìn)行調(diào)節(jié)，qe激發(fā)概率Z+1吋刻的值<formula>formulaseeoriginaldocumentpage4</formula>&②AmG+0=maxmin(/必0+l),O,l)/W("l)=l-2>涯("1)其中maxmin(;^(,+l),O,l)是當(dāng)(,+1)>l時(shí)4+1)=1;』("1)<0時(shí)』(,+1)=0;保證p慮(,+1)e;且"1(4)由系統(tǒng)的輸出方程/z:S(0xX(0xO(0—Z(Z+l)對夕卜輸出Z(f+l);(5)重復(fù)進(jìn)行(2)—(4)的步驟，直到達(dá)到迭代學(xué)習(xí)次數(shù)Tf或當(dāng);^0+l)〉A(chǔ)吋停止實(shí)驗(yàn)。全文摘要本發(fā)明提出了一種操作條件反射自動(dòng)機(jī)模型，并且基于該模型設(shè)計(jì)了一種仿生自主學(xué)習(xí)控制的方法。針對自然界系統(tǒng)的控制問題，運(yùn)用仿生的自組織學(xué)習(xí)方法，設(shè)計(jì)出一種可用于描述，模擬，設(shè)計(jì)具有自組織(包括自學(xué)習(xí)和自適應(yīng))功能的操作條件反射自動(dòng)機(jī)模型，從而有效的將仿生學(xué)、心理學(xué)應(yīng)用于系統(tǒng)的控制。該方法利用操作條件反射自動(dòng)機(jī)模型OCM，首先是由當(dāng)前系統(tǒng)的輸入和狀態(tài)，隨機(jī)的選擇操作(控制量)，并傾向于選擇概率值大的操作，概率值大的操作取向性好。待實(shí)施控制后觀測狀態(tài)并對外輸出其控制效果，再由取向單元來評價(jià)控制后的狀態(tài)，修改其規(guī)則集合概率值，不斷習(xí)得取向性好的行為，以便下次選擇更優(yōu)的行為，最終實(shí)現(xiàn)其自主控制。文檔編號G06N3/00GK101673354SQ200910086990公開日2010年3月17日申請日期2009年6月12日優(yōu)先權(quán)日2009年6月12日發(fā)明者戴麗珍,蔡建羨,郜園園,阮曉鋼,靜陳申請人:北京工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阮曉鋼;郜園園;蔡建羨;陳靜;戴麗珍
技術(shù)所有人：北京工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

操作條件反射自動(dòng)機(jī)及其在仿生自主學(xué)習(xí)控制中的應(yīng)用的制作方法