專利名稱::自治操作條件反射自動機及在實現(xiàn)智能行為中的應用的制作方法
技術領域:
:本發(fā)明涉及一種自動機,一種基于操作條件反射原理的仿生自動機。
背景技術:
:用于學習系統(tǒng)的自動機模型在1960s就有了,并被稱為學習自動機,在過去的幾年里,主要是改變學習自動機的結構來滿足不同的應用要求,一般是既有輸入又有輸出。本發(fā)明是一個基于斯金納操作條件反射理論的自組織系統(tǒng),具有自學習和自適應功能。斯金納從20世紀20年代末,便開始了動物學習的實驗硏究并提出兩種學習形式一種是經典式條件反射學習,用以塑造有機體的應答行為;另一種是操作式條件反射學習,用以塑造有機體的操作行為。西方學者認為,這兩種反射是兩種不同的聯(lián)結過程經典性條件反射是S-R的聯(lián)結過程;操作性條件反射是R--S的聯(lián)結過程。近十幾年,自治系統(tǒng)的學術關注度逐年增高,與自治系統(tǒng)相關的文獻總量逐年增多。本發(fā)明是一個自治式自動機,跟非自治式自動機不同,其輸出不需要外部指令的驅動,是自動機根據自身的需要而作出的。相關的專利如申請?zhí)枮?8115560,X,名稱為顧客操作型自動機的畫面生成方法及顧客操作型自動機、申請?zhí)枮?00710071071.0名稱為基于帶記憶確定有限自動機的正則表達式匹配加速方法等都是將自動機跟外界環(huán)境相交來實現(xiàn)一定的功能。目前,自治式操作條件反射自動機還沒出現(xiàn)過。本發(fā)明提出了一個基于斯金納操作條件反射理論的抽象的自組織模型,用于描述,模似,設計各種自組織系統(tǒng),使其表現(xiàn)出自學習和自適應特性,特別地,將其應用于描述,模似,設計機器人系統(tǒng)的各種智能行為。
發(fā)明內容本發(fā)明提供了一種可用于描述,模似,設計具有自組織泡括自學習和自適應)功能的自治操作條件反射自動機。本發(fā)明的操作條件反射自動機是一個九元組,包括輸入符號集合,內部狀態(tài)集合、內部操作集合、輸出符號集合、隨機"條件-操作"規(guī)則集合、狀態(tài)轉移單元、觀測單元、狀態(tài)取向單元,以及操作條件反射學習單元,并且,規(guī)定了XOC的遞歸運行程序。JOC的重要特征在于模似生物的操作條件反射機制,因而具有仿生的自組織功能,包括自學習和自適應功能,可用于描述,模似,設計各種具有交互功能的自組織系統(tǒng)?!獋€一般的有限狀態(tài)自動機是一個五元組i^=W,Z,S,/,g}。其中,^表示有限輸入符號集合,S表示有限(內部)狀態(tài)符號集合(V^eS為初始狀態(tài)),Z表示有限輸出(接受狀態(tài))符號集合,/.Sx44表示狀態(tài)轉移函數(shù),g.'S—Z表示輸出函數(shù)。有限狀態(tài)自動機i^是一個非自治系統(tǒng)。XOC中操作符號不等同與有限狀態(tài)自動機^4中的輸入符號,^OC中操作符號代表的是^OC的內部操作,而^4中輸入符號代表的是外部指令,在此意義上,JOC與有限狀態(tài)自動機i^4似乎是不等價的?!筄C中的操作符號集合i2并不是^4中的輸入符號集合,而是^OC的內部操作。FJ中的輸入符號集合實際上是外部可能輸入的指令的集合。^OC中沒有輸出符號集合,自然也沒有輸出函數(shù)。作為自治式系統(tǒng),xoc需要輸出符號集合和輸出函數(shù)。自治系統(tǒng)也能或也需要作用于環(huán)境或客觀世界。從狀態(tài)空間方程的形式看,輸出是狀態(tài)的組合,或狀態(tài)與操作的組合,因此,可以說^OC的內部狀態(tài)集合本身就是一種輸出符號的集合,并且,^OC的狀態(tài)是可以觀測的;定義中"JOC的狀態(tài)是可以觀測的"是指^OC自身有感受器,能檢測到自身狀態(tài)的改變,并不意味著外部世界能觀測到這些量;自治式自動機也需要輸出,這種輸出不需要外部指令的驅動,是自動機根據自身的需要而作出的。自治式自動機跟非自治式自動機相比較,其優(yōu)勢在于其輸出不需要外部指令的驅動,是自動機根據自身的需要而作出的某種作用于環(huán)境的行動,也就是說即使外部環(huán)境發(fā)生改變,自治式自動機仍然可以照常工作,而非自治式自動機需要改變結構模型或參數(shù)來適應外部環(huán)境的變化。非自治系統(tǒng)總可以轉化為自治系統(tǒng),那么總可以找到一個自治操作條件反射J(9C與相應的非自治操作條件反射自動機相對應。自治操作條件反射^OC應用更為廣泛。在信息論中,熵可用作某事件不確定度的量度。信息量越大,體系結構越規(guī)則,功能越完善,熵就越小。利用熵的概念,從理論上研究信息的計量、傳遞、變換、存儲。本發(fā)明引入操作熵的概念,證明AOC操作熵w(0的收斂性,由于系統(tǒng)自組織的過程是吸取信息的過程,是吸取負熵的過程,是消除不確定性的過程,那么也就闡明^OC的自組織特性,JOC確實具有自學習和自適應功能。本發(fā)明提出了一種自治操作條件反射自動機,并用其來模似斯金納的動物實驗,以證明此自動機實現(xiàn)了模似操作條件反射學習的機制,同吋還用它來實現(xiàn)兩輪自平衡機器人的平衡控制,說明xoc可用于設計機器人系統(tǒng)的各種智能行為。本發(fā)明的自動機是一個九元組的自治操作條件反射自動機:JOC=《,Q,S,r,5,s,;7,^〉—k(0,U,...,",}Q={」A=1,2,5="卜'=0,1,2,■..,}r=("ke戶;;e{0,1,2,...,"s};A:e{1,2,…,}}-3:柳xQ(,)—S(,+l)e:S—E=/=0,1,2,…,"s);7:r(,)4r("1)其中(1)爿(9C的離散吋間fe{0,1,2,…,",),f=0為爿OC的起始吋刻;(2)JOC的操作符號集合Q={at|"1,2,,"。},c^為^9C的第A:個操作符號;(3)爿(9C的狀態(tài)集合S="|/=0,1,2,,",},^為力OC的第/個狀態(tài);(4)爿OC的操作規(guī)則集合r4^(/7)l/7e尸;/e(0,l,2,…,"^;k(0,l,2,…,"^,隨機"條件-操作"規(guī)則^(p):&—"t(P)意味著XOC在其狀態(tài)處于s,eS的條件下依概率pe尸實施操作^e/2,;7:;^:;(Als,)即^9C在狀態(tài)處于、的條件下實施操作A的概率值,P表示A的集合;(5)JOC的狀態(tài)轉移函數(shù)5:x—S(/+1),XOC什l吋刻的狀態(tài)s(r+1)eS由r吋刻的狀態(tài)4/)eS和Z吋刻的操作"(/)e/3確定,與其f吋刻之前的狀態(tài)和操作無關;3所確定的狀態(tài)轉移過程是已知的或未知的,但其狀態(tài)轉移的結果是能夠觀測的;(6)爿OC的取向函數(shù)e:S—E==0,1,2,…,"s〉,e,=e五為狀態(tài)s,.eS的取向值;(7)^9C的操作條件反射學習律7:廠(0w廠(f+l),調節(jié)操作規(guī)則&(P)er的實施概率/;e戶假設t吋刻的狀態(tài)為^),實施操作a(/)e/3,t+l吋刻觀測到的狀態(tài)^+l),按照斯金納的操作條件反射理論,如果^("1))-^(/))<0則IW))傾向于減小,反之,如果s(W+1))->0則p(aa)IW))傾向于增大。在,吋刻自治操作條件反射自動機^(9(^處于狀態(tài)5(/)=5,并且當前選擇操作《(0=^,同吋依狀態(tài)轉移轉移函數(shù),下一吋刻的狀態(tài)<^+1)=~,模擬生物的操作條件反射機制,那么下一吋刻即汁l吋刻當前操作的概率將發(fā)生改變,它的值在原來的基礎上增加A.這里A與取向值s有關,取向值越大表明操作的結果越好,同吋A越大,m吋刻其余操作的概率都相應地減去一個值,并且減去的值的和正好是A,相應操作減去的值正好是上一吋亥U該操作的概率占這些操作(不包括/吋刻被選中的操作)之和的比例乘以A。這樣保證了每個吋刻選擇各個操作的概率之和都是l。更形式化地用公式描述為當<0=&、"(0=^并且<,+1)=~8寸,那么&G+1)=&(0+△,其它操作的概率表示為aG+1)=a"(0-△《,這里"表示0到"n之間不等于^的任何一個數(shù)值。其中,A^)是^OC狀態(tài)處于^eS的條件下實施操作AeQ的概率在/吋刻的值;A"W虎AOC狀態(tài)處于&eS的條件下實施操作qe/2的概率在什l吋亥U的值;A-p(^)-flx々x(1—p汰(,))并且0《/^+ASl;^sO,)艮[l取向值的增量;f00是單調增函數(shù),滿足^(力=0當且僅當^=0;"是學習率;《=a(0/1>,v(0,這里v表示0到之間不等于A:的所有數(shù)值,Z表示狀態(tài)處于s,eS的條件下實施操作"eQ的概率之和在?吋刻的值;/7,(0是^OC狀態(tài)處于&eS的條件下實施操作eQ的概率在f吋刻的值,N(汁l)是JOC狀態(tài)處于eS的條件下實施操作"eQ的概率在/+1吋刻的值。(8)」OC的操作熵^:尸xE—i+,/T是正的實數(shù)集,XOC在f吋刻的操作熵^W表示r吋刻狀態(tài)處于&條件下的操作熵之和它由?吋刻處于狀態(tài)<0=^條件下的操作概率集合和取向函數(shù)集合決定。^W是^oc處于狀態(tài)s,條件下的操作熵知道每個狀態(tài)下的操作熵并加權求和就可以得出xoc在f吋刻的操作熵=-Z凡2>汰l。g2&=—2>")2>(AIs,)iog2M"*IO。如果AOC的操作熵越來越小并且在^—w吋趨向于最小,那么就說明AOC操作熵^W是收斂的。JOC是一個基于斯金納操作條件反射理論的自組織系統(tǒng),具有自學習和自適應功能。系統(tǒng)自組織的過程是吸取信息的過程,是吸取負熵的過程,是消除不確定性的過程。為了闡明^OC的自組織特性,我們需要證明AOC操作熵w(/)的收斂性。(9)相C的起始狀態(tài)=,eS。本發(fā)明的重要特征在于模似生物的操作條件反射機制,因而具有仿生的自組織功能,包括自學習和自適應功能,可用于描述,模似,設計各種自組織的系統(tǒng)。本發(fā)明中的自治操作條件反射自動機^CC依下述程序步驟遞歸地運行(1)初始化設置,=0,隨機給定AOC的初始狀態(tài),),給定學習率",給定初始操作概率A(O)=l/"n(z、0,l,2,…,"s;"l,2,…,"。);給定停機吋間7>;(2)選擇操作依操作集合r中"條件-操作"規(guī)則集合r中的規(guī)則&(p):—&(p),即AOC在其狀態(tài)處于&eS的條件下依概率/e戶實施操作ateQ,P==P("」A)是AOC在其狀態(tài)處于s,的條件下實施操作^的概率值,隨機地選擇AOC狀態(tài)處于W)eS的操作a(OeQ;(3)實施操作t吋刻,AOC處于狀態(tài)s(0eS實施上一步已選中的操作a(r)eQ,當前狀態(tài)發(fā)生轉移外(0,""))=*^,"》;(4)觀測狀態(tài)依AOC的狀態(tài)轉移函數(shù)5:S(/)x—外+l).狀態(tài)轉移的結果是完全能夠觀測的,即存在^{0,1,2,-,",}使得^+1)=~;(5)操作條件反射在^吋刻實施操作,不僅AOC的狀態(tài)發(fā)生轉移,它的各個操作在下一吋刻的實施概率也發(fā)生改變,則依操作條件反射學習律:r(o^r(/+1)調節(jié)操作規(guī)則/^(/7)er的實施概率;eP。t吋刻^)=^且"(0=A,那么t+l吋刻的操作概率依A("1),(0+A逬行更新。其中,△==—x(l-;說(0)并且0、十ASI;g=,)-啦)巨,向值的增量;"是學習率;《=/^(々2>力);(6)計算操作熵根據定義fe癀作熵的公式wn=-i。g2&=—2>(ol>("tioi。g2i、)。計算/吋刻的操作熵,其中,是^OC狀態(tài)\eS的出現(xiàn)概率在^吋刻的值,MAIA)是XOC狀態(tài)處于s,eS的條件下實施操作Ae^的概率在f吋刻的值。(7)遞歸轉移如果f+l《7;,那么/="1并重復(2)-(7);(8)當"1>7;吋停機。本發(fā)明方法的流程圖見圖2。附圖1,本發(fā)明中自治操作條件反射自動機的結構示意圖;f是離散吋刻(l),"是操作^(A:-l,2,…,"n)的集合(2),S是狀態(tài)s力'=0,1,2,...,"》的集合(3),^是狀態(tài)轉移函數(shù)(4),廠是"條件一操作"規(guī)則^(/^0,l,2,…,"s);"仏2,…,"J)的集合(5),s是取向函數(shù)(6),是條件反射學習律(7),^是行為熵(8),化是初始狀態(tài)(9)。附圖2,自治操作條件反射自動機XOC程序流程附圖3,小白鼠的操作行為概率曲線;附圖4,小白鼠實驗的操作熵曲線;附圖5,機器鴿的操作行為概率曲線;附圖6,機器鴿實驗的操作熵曲線;附圖7,兩輪自平衡機器人在直立狀態(tài)即偏角6=0°吋的各操作行為概率曲線;附圖8,兩輪自平衡機器人在偏角0°<0<12°吋的各操作行為概率曲線;附圖9,兩輪自平衡機器人在偏角0=12°吋的各操作行為概率曲線;附圖10,兩輪自平衡機器人在偏角-12°<^<0°吋的各操作行為概率曲線;附圖11,兩輪自平衡機器人在偏角6=-12°吋的各操作行為概率曲線;附圖12,兩輪自平衡機器人實驗的操作熵曲線;實施例實施例一一個最小系統(tǒng)一具有學習能力的小白鼠,模似斯金納的小白鼠實驗。簡要地描述一下斯金納的小白鼠實驗斯金納箱內放逬一只白鼠子,并設一杠桿,箱子的構造盡可能排除一切外部刺激。小白鼠在箱內可自由活動,當它壓杠桿吋,就會有一團食物掉進箱子下方的盤中,小白鼠就能吃到食物。箱外有一裝置記錄動物的動作。小白鼠會學會來不停地壓杠桿,通過自己的動作獲得食物獎勵。本實驗通過自治操作條件反射自動機來實現(xiàn)斯金納的小白鼠實驗。小白鼠有兩個操作行為一個是壓杠桿",,另一個是不壓杠桿《2,即操作集合Q:(A,"2},概率分別用p/、W表示。其狀態(tài)集合5=^。,&},s。表示饑餓狀態(tài),s,表示非饑餓狀態(tài)。其操作規(guī)則「={&(/)|;^尸;/£{0,1};"{0,1}},隨機"條件-操作"規(guī)則Q0)A—&(p)意味著AOC在其狀態(tài)處于&eS的條件下依概率pe戶實施操作&eQ,p==戶(AI&)即AOC在狀態(tài)處于&的條件下實施操作"t的概率值。其狀態(tài)轉移函數(shù)&S(0x/2(04S(r+l),具體情況是s0~>a,s。x;2~>s。,s,xa~>a,s!xp2—s0。其取向函數(shù)e:S—E=(s,卜'=0,1},=^^)£五為狀態(tài)&eS的取向值,同吋定義A-"x^x(l-A)。其中a是學習率,g是取向值的增量。初始吋刻兩個行為的概率都是0.5,只要小白鼠壓杠桿就能獲得獎賞,同吋壓杠桿的概率也增加即下一吋刻小白鼠選擇壓杠桿的可能性增加,其概率依操作條件反射學習律7:廠(0^A,+1)更新,經過反復不斷地學習,小白鼠選擇壓杠桿的概率A越來越大。本實驗的學習率"=0.01,經過668步的學習之后,小白鼠學會壓杠桿獲取食物,從附圖3可以容易看出,小白鼠壓杠桿的概率A最終趨向于1。在實驗的過程中,根據定義的操作熵的公式^(,)=-2>,.282&=-藝p(OZP(Ak"og^("^,)計算出了每個吋刻的操作熵,隨著吋間的推移AOC的操作熵y(O越來越小并且在/—oo吋趨向于最小,見附圖4,那么說明AOC操作熵w(,)是收斂的。^OC是一個基于斯金納操作條件反射理論的自組織系統(tǒng),具有自學習和自適應功能。系統(tǒng)自組織的過程是吸取信息的過程,是吸取負熵的過程,是消除不確定性的過程。既然已經證明了AOC操作熵v/(f)的收斂注,那么也就闡明了^OC的自組織特性。該實驗的具體實施步驟如下(1)初始化設置^=0,隨機給定AOC的初始狀態(tài),),給定學習率"=0.01,給定初始操作概率&(0)=0.5(/=0,1;A:=1,2};給定停機吋間T產IOOO;(2)選擇操作依操作集合r中"條件-操作"規(guī)則集合r中的規(guī)則r=kt(/)|/^P;/e{0,l};"{l,2}},隨機"條件-操作"規(guī)則&0)j,—"J/),艮口AOC在其狀態(tài)處于s,eS的條件下依概率尸實施操作^eQ,=p(|^)是AOC在0狀態(tài)處于s,的條件下實施操作&的概率值,隨機地選擇AOC狀態(tài)處于s(OeS的操作a")eQ;(3)實施操作t吋刻,AOC處于狀態(tài)^(0eS實施上一步己選中的操作c^)eQ,當前狀態(tài)依^:鄧)xi2()—鄧+1),具體情況是s。x;i4^,SqX;24&,s,xa"^,s,x/2發(fā)生轉移;(4)觀測狀態(tài)依AOC的狀態(tài)轉移函數(shù)5:S(0x—S(r+1),狀態(tài)轉移過程雖然是已知或末知的,但其狀態(tài)轉移的結果是完全能觀測的,即存在/€{0,1}使得力+1)=~;(5)操作條件反射在,吋刻實施操作,不僅AOC的狀態(tài)發(fā)生轉移,它的各個操作在下一吋刻的實施概率也發(fā)生改變,則依操作條件反射學習律7:r(r)^r(f+1)調節(jié)操作規(guī)則^(/7)er的實施概率pe戶。t吋刻力)w,且a(/)-^,那么t+l吋刻的操作概率依"'1au("1)-A力)—△《,當"-A:時進《,更新。其中,A二p(^)二ax^.x(l—;7汰(0)并且0《;7汰;g.s(^)即取向值的増量;"是學習率;《=&(0/1>,力);(6)計算操作熵根據定義的操作熵的公式w)=i。g2&=-2>")!>("*i&)iog2ia。計算^吋刻的操作熵,其中,(=0A:=l/=0"I/7(0是」OC狀態(tài)、eS的出現(xiàn)概率在f吋刻的值,;(qI、)是XOC狀態(tài)處于^eS的條件下實施操作Ae/2的概率在f吋刻的值。(7)遞歸轉移如果"127;,那么,^+l并重復(2)-(7);(8)當f+b:Tf吋停機。實施例二具有學習能力的機器鴿,模似斯金納的鴿子實驗。本實驗中機器鴿啄紅色按鈕吋得到食物(正強化刺激),啄黃色按鈕吋無任何刺激,啄藍色按鈕吋給予電擊(負強化刺激),開始吋鴿子啄紅,黃和藍三個按鈕是隨機的。一段吋間之后,鴿子啄取紅色按鈕的次數(shù)明顯高于啄取其它兩個按鈕的次數(shù)。為機器鴿定義一個3操作3狀態(tài)的自治操作條件反射自動機,其操作集合0={"。,",,"2},其元素分別是啄紅色按鈕"。、啄黃色按鈕",和啄藍色按鈕"2,概率分別用W、p7、W表示。狀態(tài)集合5={&,A,"},即零饑餓狀態(tài)(非饑餓狀態(tài))"、半饑餓狀態(tài)&、饑餓狀態(tài)&,狀態(tài)轉移規(guī)則為3(S。XQTo)二51。"s。xc^)二^3(s。xor2)="s,xa。)=s。5(Sjxor!)=3(s,xor2)=3(S2XQTo)二、<5(S2XC^)二5125(S2XOf2)二j12以表格形式表示出來如下表1。其取向函數(shù)f:S—E={s」/=0,±0.5,±1},e,=sCs,)ef為狀態(tài)^eS的取向值,同吋定義A巧x^x(l-;。)。其取向性"4":零取向(^。。=0);化書/:零取向(4=0);正取向(^。=0.5);負取向(《2=-0.5);正取向(4=1.0);負取向(^22=-1.0)。依操作條件反射學習律/7:廠(04廠(/+1)當前操作受到獎賞(^>0吋對應的實施概率傾向于增加,其他操作的實施概率相應減?。划斍安僮魇艿姜勝p(^=0)吋所有操作的概率都不變;當前操作受到獎賞(^<0)吋對應的實施概率傾向于減小,其他操作的實施概率相應增加。各個操作的初始概率都是1/3,經過大概5000步的學習,機器鴿基本只啄紅色按鈕,不啄紅色按鈕和藍色按鈕,從附圖5可以看出機器鴿啄紅色按鈕的概率;0趨向于1,啄黃色按鈕的概率和藍色按鈕的概率^2都趨向于0。表1機器鴿的狀態(tài)轉移<table>tableseeoriginaldocumentpage13</column></row><table>在實驗的過程中,每個吋刻都根據定義的操作熵的公式MS&rtsM。=—1>,1>,Alog2A=-2>")1>"101og2P(AIO計算出了操作熵,隨著吋間/=0A=l/=0fc=l的推移AOC的操作熵,(0越來越小并且在/4w吋趨向于最小,見附圖6,那么說明AOC操作熵^(,)是收斂的。JOC是一個基于斯金納操作條件反射理論的自組織系統(tǒng),具有自學習和自適應功能。系統(tǒng)自組織的過程是吸取信息的過程.是吸取負熵的過程,是消除不確定性的過程。既然已經證明了AOC操作熵y(O的收斂注,那么也就闡明了JOC的自組織特性。該實驗的具體實施步驟如下(1)初始化設置,=0,隨機給定AOC的初始狀態(tài)幸),給定學習率"=0.01,給定初始操作概率AJO)=W(!'=0,1,2;A;=0,1,2);給定停機吋間r產5000;(2)選擇操作依操作集合r中"條件-操作"規(guī)則集合廠=化汰(內|/^尸;/£{0,1,2}^€{0,1,2}},隨機"條件-操作"的規(guī)則^(/7):^—^(;7),即AOC在其狀態(tài)處于^eS的條件下依概率;eP實施操作AeQ,p=P汰=P("」O是AOC在其狀態(tài)處于&的條件下實施操作"t的概率值,隨機地選擇AOC狀態(tài)處于eS的操作a(f)eQ;(3)實施操作t吋刻,AOC處于狀態(tài)s(OeS實施上一步已選中的操作a(r)eQ,當前狀態(tài)^:邵)xi2(r)—鄧+1)發(fā)生轉移,具體情況是<5(s。xa。)-51。5(s。xa—A5(s。xar2)=^5(s!xar0)=s。^"xo^)-^2(5(s,xorp-^^(S2xa。)-^3(S2xc^)二512(5(s2xa2)=s2(4)觀測狀態(tài)依AOC的狀態(tài)轉移函數(shù)5:鄧)xQ(0—鄧+1),狀態(tài)轉移過程雖然是已知或未知的,但其狀態(tài)轉移的結果是完全可以觀測的,即存在_/、{0,1,2}使得牟1)=~;(5)操作條件反射在f吋刻實施操作,不僅AOC的狀態(tài)發(fā)生轉移,它的各個操作在下一吋刻的實施概率也發(fā)生改變,則依操作條件反射學習律//:r(owr(z+1)調節(jié)操作規(guī)則^(;)er的實施概率;e尸。t吋刻^)=s,且"(O=",,那么t+l吋刻的操作概率依"'1W+1)=AuW-△《,當"塒逬行更新。其中,A:^(^)-"x^x(1—;^0))并且0《/汰+A《1;Sy=£(~)—sO,)即取向值的增量;"是學習率;《=&(^2>,力);(6)計算操作熵根據定義fe湊作熵的公式=-2>,£&i。g2&=-£*,)2>(%iyiog2k)。計算,吋刻的操作熵,其中,=0A:=l是JOC狀態(tài)s,eS的出現(xiàn)概率在f吋刻的值,k)是^C>C狀態(tài)處于s,e<S的條件下實施操作"Ae^的概率在《吋刻的值。(7)遞歸轉移如果"B7;,那么?=/+1并重復(2)-(7);(8)當"1>7;吋停機。實施例三通過自治操作條件反射自動機實現(xiàn)兩輪自平衡機器人的平衡控制。兩輪直立式機器人可以自由地在平地上左右移動。當偏角超出±12°機器人會失去平衡。為此設計的AOC自動機的狀態(tài)集合就是機器人偏角,包括6個狀態(tài)P=0°、0°<P<12°、^=12°、—12°<^<0°、0=—12°、|^|>12°,分別用^、^,a、&,"來表示,因此,狀態(tài)集合5={,a,其操作集合Q=《2},包括不移動"。、向右移動",、向左移動"2。其狀態(tài)轉移規(guī)則如下3(s0xor0)=5(s0xq^)=^5(s。xa2)二^5(s,xor。)=s25(s,xar,)=s0<5(s!xa2)=s2"SjXq^^s"SjX"')^^(S2xa2)二^55(s3xor0)=s4"s3xoTj)二5145(s3xor2)=51。(s4xor0)=_s5<5(s4xor!)=5(s4乂《2)=_3見表2。其取向函數(shù)£:s4e={£,|/=0,±0.5,±1},&-eCy,)e五為狀態(tài)AeS的取向值,同吋A-flx^.x(1-Aa)。其取向性w—化正取向(4>=0);化4&:零取向(4=0);化4^:零取向(S,0)^/4":正取向(^。=1.0);^—":負取向0.5);正取向(f21=1.0);s2,:負取向n_1.0);負取向(f34=_0.5);正取向(^。=1.0);負取向<^45=—1.0);正取向(^43=1.0)。其中&表示機器人處于狀態(tài)&下實施操作&的概率。依操作條件反射學習律7:廠a)H/^+l),其概率不斷更新。初始概率都是1/3,經過大概1500步的學習,機器人在每種狀態(tài)下都會以接近1的概率來選擇好的操作,保持自身的平衡,在前5種狀態(tài)下它一般都能選擇好的操作讓^趨向于0。,從附圖7-ll可以看出。在實驗的過程中,每個吋刻都根據定義的操作熵的公式sMsw。W)=-l>,l>"0g2&=-2>^)J>Kk)iog^Kk)計算出了操作熵,隨著吋間的推移AOC的操作熵^(0越來越小并且在/4w吋趨向于最小,見附圖12,那么說明AOC操作熵^(0是收斂的。xoc是一個基于斯金納操作條件反射理論的自組織系統(tǒng),具有自學習和自適應功能。系統(tǒng)自組織的過程是吸取信息的過程,是吸取負熵的過程.是消除不確定性的過程。既然已經證明了AOC操作熵y(0的收斂注,那么也就闡明了^OC的自組織特性。表2兩輪自平衡機器人的狀態(tài)轉移和取向機制<table>tableseeoriginaldocumentpage15</column></row><table>該實驗的具體實施步驟如下(1)初始化設置,=0,隨機給定AOC的初始狀態(tài),),給定學習率"=0.01,給定初始操作概率&(0)(/=0,1,2;A=0,1,2);給定停機吋間r產1500;(2)選擇操作依操作集合r中"條件-操作"規(guī)則「=(P)Ipe尸;;e{0,1,2,3,4};A:e{0,1,2}}'隨機"條件—操作"的規(guī)則^(戶)\—(/),即AOC在其狀態(tài)處于s,eS的條件下依概率尸實施操作&eQ,=p汰=;(^|&)是AOC在其狀態(tài)處于&的條件下實施操作"t的概率值,隨機地選擇AOC狀態(tài)處于s(OeS的(3)實施操作t吋刻,AOC處于狀態(tài)^)eS實施上一步已選中的操作"(OeQ,當前狀態(tài)&S(0x/2(0—S"+l),具體情況是^(s0xa0)《"oJ(s0xa2)xor0):5(S,X"j):5(S1xa2)=《23(s2xor0)5(s2『5(s2xor2)"s3xor0)3(s33(s3xor2)="s4xor0)"5"s45(s4xa2)發(fā)生轉移;(4)觀測狀態(tài)依AOC的狀態(tài)轉移函數(shù)3:S(0xQ(0—S"+l),狀態(tài)轉移過程雖然是已知或未知的,但其狀態(tài)轉移的結果是完全可以觀測的,即存在_/、{0,1,2,3,4}使得^+1)=~;(5)操作條件反射在/吋刻實施操作,不僅AOC的狀態(tài)發(fā)生轉移,它的各個操作在下一吋刻的實施概率也發(fā)生改變,則依操作條件反射學習律"r(r)^r(z+1)調節(jié)操作規(guī)則^(/7)er的實施概率;e尸。t吋亥"(O=、且"(O=A,那么t+1吋刻的操作概率依w+1)=w)+A進JT更新。其中,A二p(^)二flx^x(1—;說0))并且0《;汰+A^1;^—s(;y,)艮口取向值的増量;"是學習率;《=/^/2/^(0;這里每種狀態(tài)下的最優(yōu)操作是不一樣的,所以得算出每種狀態(tài)下的不同操作對應的概率,一共有15個概率。(6)計算操作熵根據定義的操作熵的公式=-藝log2&=i"log2i。計算z吋刻的操作熵,其中,PCs,)是^oc狀態(tài)&eS的出現(xiàn)概率在f吋刻的值,k)是^oc狀態(tài)處于es的條件下實施操作Ae/2的概率在f吋刻的值。(7)遞歸轉移如果"B7;,那么"1并重復(2)-(7);(8)當"1>7;吋停機。權利要求1、一種自治操作條件反射自動機,以下簡稱AOC是一個九元組<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>AOC</mi><mo>=</mo><mo><</mo><mi>t</mi><mo>,</mo><mi>Ω</mi><mo>,</mo><mi>S</mi><mo>,</mo><mi>Γ</mi><mo>,</mo><mi>δ</mi><mo>,</mo><mi>ϵ</mi><mo>,</mo><mi>η</mi><mo>,</mo><mi>ψ</mi><mo>,</mo><msub><mi>s</mi><mn>0</mn></msub><mo>></mo></mrow>]]></math></maths>其中(1)AOC的離散時間t∈{0,1,2,…,nt},t=0為AOC的起始時刻;(2)AOC的操作符號集合Ω={αk|k=1,2,…,nΩ},αk為AOC的第k個操作符號;(3)AOC的狀態(tài)集合S={si|i=0,1,2,…,nS},si為AOC的第i個狀態(tài);(4)AOC的操作規(guī)則集合Γ={rik(p)|p∈P;i∈{0,1,2,…,nS};k∈{0,1,2,…,nΩ}},隨機“條件-操作”規(guī)則rik(p)si→αk(p)意味著AOC在其狀態(tài)處于si∈S的條件下依概率p∈P實施操作αk∈Ω,p=pik=p(αk|si)即AOC在狀態(tài)處于si的條件下實施操作αk的概率值,P表示pik的集合;(5)AOC的狀態(tài)轉移函數(shù)δS(t)×Ω(t)→S(t+1),AOCt+1時刻的狀態(tài)s(t+1)∈S由t時刻的狀態(tài)s(t)∈S和t時刻的操作α(t)∈Ω確定,與其t時刻之前的狀態(tài)和操作無關;δ所確定的狀態(tài)轉移過程是已知的或未知的,但其狀態(tài)轉移的結果是能夠觀測的;(6)AOC的取向函數(shù)εS→E={εi|i=0,1,2,…,nS},εi=ε(si)∈E為狀態(tài)si∈S的取向值;(7)AOC的操作條件反射學習律id="icf0003"file="A2009100892630002C3.tif"wi="34"he="4"top="201"left="93"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>模擬生物的操作條件反射機制,調節(jié)操作規(guī)則rik(p)∈Γ的實施概率,假設t時刻的狀態(tài)為s(t)=si,實施操作α(t)=αk∈Ω,t+1時刻觀測到的狀態(tài)s(t+1)=sj,那么t+1時刻的操作概率依進行更新;這里其中,pik(t)是AOC狀態(tài)處于si∈S的條件下實施操作αk∈Ω的概率在t時刻的值;pik(t+1)是AOC狀態(tài)處于si∈S的條件下實施操作αk∈Ω的概率在t+1時刻的值;id="icf0005"file="A2009100892630002C5.tif"wi="51"he="4"top="254"left="22"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>并且0≤pik+Δ≤1;<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mover><mi>ϵ</mi><mo>→</mo></mover><mi>ij</mi></msub><mo>=</mo><mi>ϵ</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>ϵ</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math>id="icf0006"file="A2009100892630002C6.tif"wi="29"he="4"top="254"left="111"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>即取向值的增量;id="icf0007"file="A2009100892630002C7.tif"wi="7"he="4"top="255"left="174"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>是單調增函數(shù),滿足id="icf0008"file="A2009100892630002C8.tif"wi="14"he="4"top="263"left="56"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>當且僅當x=0;a是學習率;<mathsid="math0003"num="0003"><math><![CDATA[<mrow><mi>ξ</mi><mo>=</mo><msub><mi>p</mi><mi>iu</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>/</mo><munder><mi>Σ</mi><mrow><mi>v</mi><mo>≠</mo><mi>k</mi></mrow></munder><msub><mi>p</mi><mi>iv</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>,</mo></mrow>]]></math>id="icf0009"file="A2009100892630002C9.tif"wi="34"he="8"top="262"left="126"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>這里u表示0到nΩ之間不等于k的任何一個數(shù)值,id="icf0010"file="A2009100892630003C1.tif"wi="14"he="7"top="28"left="91"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>表示AOC狀態(tài)處于si∈S的條件下實施操作αu∈Ω的概率之和在t時刻的值,v表示0到nΩ之間不等于k的所有數(shù)值;piu(t)是AOC狀態(tài)處于si∈S的條件下實施操作αu∈Ω的概率在t時刻的值,piu(t+1)是AOC狀態(tài)處于si∈S的條件下實施操作αu∈Ω的概率在t+1時刻的值;(8)AOC的操作熵ψP×E→R+,R+是正的實數(shù)集,AOC在t時刻的操作熵ψ(t)表示t時刻狀態(tài)處于si條件下的操作熵之和<mathsid="math0004"num="0004"><math><![CDATA[<mrow><mi>ψ</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mi>ψ</mi><mrow><mo>(</mo><mi>Ω</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><msub><mi>n</mi><mi>S</mi></msub></munderover><msub><mi>p</mi><mi>i</mi></msub><msub><mi>ψ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><msub><mi>n</mi><mi>S</mi></msub></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>ψ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>Ω</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math></maths>它由t時刻處于狀態(tài)s(t)=si條件下的操作概率集合和取向函數(shù)集合決定;ψi(t)是AOC處于狀態(tài)si條件下的操作熵<mathsid="math0005"num="0005"><math><![CDATA[<mrow><msub><mi>ψ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><msub><mi>ψ</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>Ω</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>Ω</mi></msub></munderover><msub><mi>p</mi><mi>ik</mi></msub><msub><mrow><msub><mi>log</mi><mn>2</mn></msub><mi>p</mi></mrow><mi>ik</mi></msub><mo>=</mo><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>Ω</mi></msub></munderover><mi>p</mi><mrow><mo>(</mo><msub><mrow><msub><mi>α</mi><mi>k</mi></msub><mo>|</mo><mi>s</mi></mrow><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>α</mi><mi>k</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>]]></math></maths>知道每個狀態(tài)下的操作熵并加權求和就可以得出AOC在t時刻的操作熵<mathsid="math0006"num="0006"><math><![CDATA[<mrow><mi>ψ</mi><mrow><mo>(</mo><mi>t</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><msub><mi>n</mi><mi>S</mi></msub></munderover><msub><mi>p</mi><mi>i</mi></msub><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>Ω</mi></msub></munderover><msub><mi>p</mi><mi>ik</mi></msub><msub><mi>log</mi><mn>2</mn></msub><msub><mi>p</mi><mi>ik</mi></msub><mo>=</mo><mo>-</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><msub><mi>n</mi><mi>S</mi></msub></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>Ω</mi></msub></munderover><mi>p</mi><mrow><mo>(</mo><msub><mi>α</mi><mi>k</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><msub><mi>log</mi><mn>2</mn></msub><mi>p</mi><mrow><mo>(</mo><msub><mi>α</mi><mi>k</mi></msub><mo>|</mo><msub><mi>s</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math>id="icf0013"file="A2009100892630003C4.tif"wi="113"he="10"top="149"left="22"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中,p(si)是AOC狀態(tài)si∈S的出現(xiàn)概率在t時刻的值,p(αk|si)是AOC狀態(tài)處于si∈S的條件下實施操作αk∈Ω的概率在t時刻的值;(9)AOC的起始狀態(tài)s0=s(0)∈S。2、根據權利要求1所述的自治操作條件反射自動機JOC,其特征是它依下述程序步驟遞歸地運行(1)初始化設置0,隨機給定AOC的初始狀態(tài),),給定學習率",給定初始操作概率;^(0)=1/"。(/=0,l,2,,"s;A:=l,2,一,"n);給定停機吋間7>;(2)選擇操作依操作集合r中"條件-操作"規(guī)則集合r中的規(guī)則&:—&(p),即AOC在其狀態(tài)處于aeS的條件下依概率P實施操作%eQ,p=At=k)是AOC在其狀態(tài)處于&的條件下實施操作"4的概率值,隨機地選擇AOC狀態(tài)處于eS的操作"(0eQ;(3)實施操作t吋刻,AOC處于狀態(tài)^)eS實施上一步已選中的操作"WeQ,當前狀態(tài)發(fā)生轉移^s(0,"(0)-5","J;(4)觀測狀態(tài)依AOC的狀態(tài)轉移函數(shù)5:外)xQ《)—S(/+l),狀態(tài)轉移的結果是完全能夠觀測的,即存在_/£{0,1,2,一,"5}使得力+1)=~;(5)操作條件反射在f吋刻實施操作,不僅AOC的狀態(tài)發(fā)生轉移,它的各個操作在下一吋刻的實施概率也發(fā)生改變,則依操作條件反射學習律/7:r(owr(z+i)調節(jié)操作規(guī)則^(/)er的實施概率pe尸;t吋刻=^且"(O=A,那么t+l吋刻的操作概率依7.1W+l)i(0-△《,當"塒進《,更新;其中,A:p(^):ax^x(l—;汰(/))并且0《;^+ASl;^^s(^.)—s(s,)巨D取向值的增量;fl是學習率;《=/U^I>vW;(6)計算操作z贈根據定義的操作熵的公式<formula>formulaseeoriginaldocumentpage4</formula>a);計算f吋刻的操作熵.其中,WO是狀態(tài)^eS的出現(xiàn)概率在f吋刻的值,Ia)是XOC狀態(tài)處于s,.eS的條件下實施操作Ae的概率在?吋刻的值;(7)遞歸轉移如果/+1《7;,那么Z+1并重復(2)-(7);(8)當"1>7;吋停機。全文摘要自治操作條件反射自動機及在實現(xiàn)智能行為中的應用屬于仿生領域。一種自治操作條件反射自動機AOC涉及一種描述自治式自動機器的離散計算機模型,主要包括操作集合、狀態(tài)集合、“條件-操作”規(guī)則集合、可觀測的狀態(tài)轉移,以及操作條件反射學習律,并且,定義了基于AOC狀態(tài)取向值的行為熵,規(guī)定了AOC的遞歸運行程序。AOC的重要特征在于模擬生物的操作條件反射機制,因而具有仿生的自組織功能,包括自學習和自適應功能,可用于描述,模擬,設計各種自組織系統(tǒng),特別地,應將其應用于描述,模擬,設計機器人系統(tǒng)的各種智能行為。文檔編號G06N3/00GK101599137SQ20091008926公開日2009年12月9日申請日期2009年7月15日優(yōu)先權日2009年7月15日發(fā)明者戴麗珍,蔡建羨,郜園園,阮曉鋼,靜陳申請人:北京工業(yè)大學