一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法

文檔序號：8298427閱讀：235來源：國知局

一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法，屬于智能機器人技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 對智能機器人的研宄已由早期的示教再現(xiàn)型機器人以及具有簡單感知能力的機器人發(fā)展到今天的認知發(fā)育機器人。認知發(fā)育機器人具有認知和學習的能力，能夠從與環(huán) 境的接觸過程中學習到環(huán)境知識，對于代替人類完成地震、火災(zāi)、深海等危險環(huán)境的任務(wù)具有重要意義。
[0003] 1952年，日內(nèi)瓦大學心理學教授皮亞杰指出認知發(fā)育的第一階段主要通過其感知運動技能獲得，而感知運動技能的習得需要感知器官和運動器官協(xié)調(diào)完成，這就涉及到感知運動系統(tǒng)。感知運動系統(tǒng)對于人或動物運動技能的習得有著重要的指導意義，將這種感知運動能力復(fù)制到機器人上，使機器人能夠主動探索外部世界，學習世界知識，對認知發(fā)育機器人的研宄有著重要意義。
[0004] 基于以上背景，本發(fā)明以學習自動機為數(shù)學模型，提出了一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知模型并設(shè)計了其學習算法，將其應(yīng)用于機器人上，使機器人可以模擬人或動物的感知運動認知過程，提高了機器人的認知能力。相關(guān)的專利如申請?zhí)?CN200910086990. 4基于斯金納操作條件反射理論提出了一種操作條件反射自動機模型，并且基于該模型設(shè)計了一種仿生自主學習控制方法；申請?zhí)朇N200910089263.3同樣基于斯金納操作條件反射理論提出一種自治操作條件反射自動機，并討論了其在實現(xiàn)智能行為中的應(yīng)用，以上兩項工作均在操作條件反射的指導下，使用自動機為數(shù)學模型，設(shè)計了新的具有自學習和自組織能力的仿生自動機，但均未涉及感知運動系統(tǒng)學習過程，同時，二者在學習過程中均采用依概率機制實施操作，使得模型在達到一定穩(wěn)定狀態(tài)后無法杜絕小概率事件的發(fā)生。相關(guān)專利申請?zhí)朇N201410101272. 0從仿生學角度模擬生物的感覺運動神經(jīng)系統(tǒng)，使用神經(jīng)網(wǎng)絡(luò)為數(shù)學模型，將操作條件反射機理融入感覺運動系統(tǒng)的設(shè)計中，采用"勝者全拿"的動作選擇機制，提出了一種仿生智能控制方法，較好地模擬了生物自學習行為，證明了感知運動系統(tǒng)在智能體學習過程中的重要性。本發(fā)明以學習自動機為基礎(chǔ)，為感知運動系統(tǒng)認知過程設(shè)計了一種認知模型及其學習方法，動作選擇上設(shè)計了能夠主動學習環(huán) 境的內(nèi)發(fā)動機機制，在提高系統(tǒng)學習效率的同時，有效避免小概率事件的發(fā)生，提高了系統(tǒng) 的穩(wěn)定性。目前，尚未見到與本發(fā)明相似的專利記錄。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明涉及一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法，屬于智能機器人技術(shù)領(lǐng)域，系統(tǒng)認知模型以學習自動機為基礎(chǔ)，引入好奇心和取向性概念，從生物學角度出發(fā)，設(shè)計了能夠主動學習環(huán)境的內(nèi)發(fā)動機機制，提高了系統(tǒng)自學習和自組織的能力及其穩(wěn)定性。模型包括十部分：感知狀態(tài)集合、動作集合、取向性映射集合、狀態(tài)學習次數(shù)、好奇心、狀態(tài)取向值、取向函數(shù)、取向性學習矩陣、狀態(tài)轉(zhuǎn)移函數(shù)以及知識熵，各部分含義具體如下：
[0006] (1)S:系統(tǒng)離散感知狀態(tài)集合，S={Si|i= 1，2,…ns}，SiGS為第i個感知狀態(tài)， ^為可感知到的離散狀態(tài)的個數(shù)，針對連續(xù)系統(tǒng)，將需要考慮的連續(xù)狀態(tài)空間離散化為離散狀態(tài)空間，其中Xmin為所需考慮狀態(tài)的下限值，X_為所需考慮狀態(tài)的上限值，一般地，對連續(xù)狀態(tài)空間進行均勻劃分，令w= (X^-X^J/n,，則離散化后的狀態(tài)空間為：S= {[Xmin+(i-l)w,Xmin+iw] |i= 1,2,---nj；
[0007](2)M:系統(tǒng)動作集合，M={Mi|i=1, 2,…，nj，Mi={m。|j=1, 2,…，nj，mu表示系統(tǒng)第i個感知狀態(tài)下第j個可選動作，叫為第i個狀態(tài)下可選動作的個數(shù)；
[0008] (3)0:"感知-運動"取向性映射集合，0= {A|i= 1，2,…ns}，〇i為狀態(tài)\對應(yīng)的取向性映射矩陣，其中4 ，…，"V…，％I，diag表示括號里的元素以對角陣的方式儲存，此處元素％的下表i(i= 1，2,…，ns)并不表示元素所在矩陣的行信息，(iG(1，2,…，ns)，jG(1，2,…，叫)）表不一條"感知-運動"映射，表征的是系統(tǒng)在感知狀態(tài)SiGS下對動作mu的取向性，或稱感知狀態(tài)si與動作mu的感知運動取向性為〇。，規(guī) 定智能體在任何感知狀態(tài)下對該狀態(tài)下所有動作的取向性總和保持不變，即當智能體在某狀態(tài)下對其中一動作的取向性增加時，同時意味著在該狀態(tài)下對其他動作的取向性減小，本認知模型中，取向性滿足0 < 〇ij< 1且
【主權(quán)項】
1. 一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法，其特征在于，系統(tǒng)認知模型以學習自動機為基礎(chǔ)，設(shè)計為一個十元組<s，M，0,N，C，V，Vs，P，F(xiàn)，E>，各部分內(nèi)容具體如下： (1)S:系統(tǒng)離散感知狀態(tài)集合，S={Si|i= 1，2,…ns}，SiGS為第i個感知狀態(tài)，1為可感知到的離散狀態(tài)的個數(shù)，針對連續(xù)系統(tǒng)，將需要考慮的連續(xù)狀態(tài)空間[Xmin，X_]離散化為離散狀態(tài)空間，其中Xmin為所需考慮狀態(tài)的下限值，X_為所需考慮狀態(tài)的上限值，對連續(xù) 狀態(tài)空間進行均勻劃分，令w= (X^-X^J/n,，則離散化后的狀態(tài)空間為：S= {[X^+a-l) w，Xmin+iw] |i= 1，2,...nj; (2)M:系統(tǒng)動作集合，M= % |i= 1，2, ???，ns}，Mi={m" |j= 1，2, ???，nj，mi」表示系統(tǒng)第i個感知狀態(tài)下第j個可選動作，叫為第i個狀態(tài)下可選動作的個數(shù)； (3) 0:"感知-運動"取向性映射集合，0={0」1 = 1，2，?1〇，(^為狀態(tài)\對應(yīng)的取向性映射矩陣，其中〇,=力嘆0,",lxn，diag表示括號里的元素以對角陣的方式儲存，此處元素％的下表i(i= 1，2,…，ns)并不表示元素所在矩陣的行信息，％(1￡(1，2，? ，ns)，jG(1，2,…，r〇)表示一條"感知-運動"映射，表征的是系統(tǒng)在感知狀態(tài)SiGS下對動作&的取向性，或稱感知狀態(tài)si與動作mu的感知運動取向性為〇 u，規(guī)定智能體在任何感知狀態(tài)下對該狀態(tài)下所有動作的取向性總和保持不變，即當智能體在某狀態(tài)下對其中一動作的取向性增加時，同時意味著在該狀態(tài)下對其他動作的取向性減小，本認知模型中，取向性滿足0彡〇ij彡1且|>,7 = 1 ; y-i (4) N:狀態(tài)學習次數(shù)，N=仉|i= 1，2,…，nj，隊為至t時刻狀態(tài)s顏學習的次數(shù)； (5)C:好奇心，C= |i= 1，2,…nj，q為狀態(tài)si的好奇心； (6)V:系統(tǒng)狀態(tài)取向值，用來決定取向函數(shù)的值，V={Vili= 1，2,…ns}，為滿足系統(tǒng) 普適性，定義ViG[-1，1]，-1為最差狀態(tài)的狀態(tài)取向值，1為最理想狀態(tài)的狀態(tài)取向值，對于離散系統(tǒng)，根據(jù)實際情況定義各狀態(tài)的取向值，對于連續(xù)系統(tǒng)，對離散化后的狀態(tài)定義離散狀態(tài)取向值，也在線計算所處狀態(tài)的連續(xù)狀態(tài)取向值，針對連續(xù)系統(tǒng)，狀態(tài)取向值的計算方法為：h )/(1 +J,e#)，1表征期望狀態(tài)和實際狀態(tài)之間的誤差程度，定義為Kt) = (Xb-X"t))2,其中Xb為期望狀態(tài)值，X"t)為t時亥IJ實際狀態(tài)值，Vi被歸一化到 [-1，1]之間，且為1的減函數(shù)，意味著t時刻所處狀態(tài)與期望狀態(tài)之間誤差越大，狀態(tài)取向值越小，所處狀態(tài)與期望狀態(tài)之間誤差越小，狀態(tài)取向值越大，符合生物取向性，A為歸一化系數(shù)； (7) Vs:取向函數(shù)，Vs=aVn+b(Vn-V。)，入和Vn分別表示執(zhí)行某一動作的前后狀態(tài)，取向函數(shù)影響系統(tǒng)取向性的變化方向，既與狀態(tài)取向值變化過程相關(guān)，也與變化后所處狀態(tài)的狀態(tài)取向值相關(guān)，其中a多0，b多0為取向函數(shù)參數(shù)，其取值應(yīng)保證取向函數(shù)的正負號不改變（Vn_V。）的正負號，且滿足a+b= 1，通過學習得到； (8)P:取向性學習矩陣，P= {P」i=l，2，?ns}，作用是依據(jù)取向函數(shù)所提供的信息，對取向性映射進行更新調(diào)整，其中乃= ?，凡,,J)nxn為狀態(tài)Si對應(yīng)的學習矩陣，各參數(shù)意義與（3)中相同，不再贅述； (9)F:系統(tǒng)內(nèi)部狀態(tài)轉(zhuǎn)移函數(shù)，F(xiàn)(s(t)，m(t)) =s(t+l)，表示t時刻在感知狀態(tài)為s(t)下執(zhí)行動作m(t)后狀態(tài)轉(zhuǎn)移為s(t+l); (l〇)E:感知運動系統(tǒng)的知識熵，E= {E」i= 1，2,…ns}，用來描述系統(tǒng)對知識的學習程度，表征系統(tǒng)的自學習和自組織特性，系統(tǒng)在學習初始階段，沒有任何知識，對各動作的取向性相等，經(jīng)過不斷學習，習得世界知識，取向性發(fā)生變化，因此采用信息熵的變化過程來描述系統(tǒng)自學習、自組織的過程，通過信息熵值的變化，來反應(yīng)系統(tǒng)知識積累的程度，系統(tǒng)t 時刻在狀態(tài)Si下的知識熵及總的知識熵定義如下：
系統(tǒng)按以下步驟進行學習： (1) 初始化：設(shè)定初始狀態(tài)S。，初始取向性分布h及初始好奇心的值 (2) 感知當前狀態(tài)； (3) 計算當前狀態(tài)下的取向性映射矩陣； (4) 計算當前狀態(tài)下的好奇心值，生成隨機指針，將好奇心投向指針指向的動作；好奇心計算方法設(shè)計為：
mm卜」次^」機機_遠擇動作； (6) 實施選定的動作，狀態(tài)發(fā)生轉(zhuǎn)移； (7) 計算轉(zhuǎn)移后狀態(tài)的狀態(tài)取向值； (8) 計算取向函數(shù)值； (9) 根據(jù)取向函數(shù)提供的信息更新"感知-運動"映射； (10) 重復(fù)執(zhí)行步驟（2) -(9)直至知識熵不再發(fā)生變化或?qū)W習時間大于終止時間，學習結(jié)束。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，取向性映射更新機制的設(shè)計，具體為：設(shè)t時刻系統(tǒng)在感知狀態(tài)Si下的取向性映射為0i(t)，執(zhí)行所選動作mu后，在該感知狀態(tài)下的取向性映射變?yōu)椹杋(t+1)，則取向性映射更新方法如下：
其中Pu(t)為t時刻取向性學習矩陣Pi中的第j個元素，與取向性元素ou(t)相對應(yīng)，Pik(t)為其余元素，與〇ik(t)對應(yīng)，n>〇為取向性學習參數(shù)。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，系統(tǒng)認知模型從生物學角度出發(fā)，設(shè)計了感知運動系統(tǒng)選擇動作的內(nèi)發(fā)動機機制，具體為每個時刻選擇所處狀態(tài)下取向性和好奇心和值最大的動作。
【專利摘要】一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法屬于智能機器人技術(shù)領(lǐng)域。系統(tǒng)認知模型以學習自動機為基礎(chǔ)，包括感知狀態(tài)集合、動作集合、取向性映射集合、好奇心、取向函數(shù)、取向性學習矩陣、狀態(tài)轉(zhuǎn)移函數(shù)以及知識熵等十部分。模型首先感知系統(tǒng)當前狀態(tài)；依據(jù)內(nèi)發(fā)動機機制選擇動作；執(zhí)行動作，狀態(tài)發(fā)生轉(zhuǎn)移；計算取向函數(shù)的值；更新“感知-運動”映射；重復(fù)以上過程，直至知識熵達到極小或?qū)W習時間大于終止時間。本發(fā)明引入具有主動學習環(huán)境的內(nèi)發(fā)動機機制，不僅使系統(tǒng)具有較強的自學習和自組織能力，同時能夠有效避免具有破壞性的小概率事件的發(fā)生，提高了系統(tǒng)的穩(wěn)定性，為建立具有認知發(fā)育能力的機器人提供了有力基礎(chǔ)。
【IPC分類】G05B13-04
【公開號】CN104614988
【申請?zhí)枴緾N201410808900
【發(fā)明人】阮曉鋼, 張曉平, 武璇, 黃靜, 陳志剛, 肖堯, 朱曉慶, 奧塔瓦.謝
【申請人】北京工業(yè)大學
【公開日】2015年5月13日
【申請日】2014年12月22日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：阮曉鋼;張曉平;武璇;黃靜;陳志剛;肖堯;朱曉慶;奧塔瓦.謝;
技術(shù)所有人：北京工業(yè)大學;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種具有內(nèi)發(fā)動機機制的感知運動系統(tǒng)認知及其學習方法