一種基于注意機制的機器人視覺處理方法
【專利摘要】本發(fā)明公布了一種基于注意機制的機器人視覺處理方法,包含以下步驟:圖像預(yù)處理:對圖像進行基本處理,包括顏色空間轉(zhuǎn)換、邊緣提取、圖像變換和圖像閾值化;特征提?。簩?jīng)過預(yù)處理的圖像,提取其膚色、顏色、紋理、運動和空間坐標(biāo)五類特征信息;仲裁決策:對于提取的信息,按照一定的仲裁決策策略,有選擇地分發(fā)給需要該特征信息上層功能應(yīng)用子系統(tǒng);功能應(yīng)用:經(jīng)過仲裁決策后遞交過來的特征信息,進行相應(yīng)的操作實現(xiàn)功能應(yīng)用,即機器人視覺應(yīng)用的直接實現(xiàn)層,包括人臉檢測、顏色識別、運動檢測與跟蹤、手勢交互、注意機制五個部分。本發(fā)明的方法,能夠提供給機器人更為完備的人臉和膚色及手勢等視覺信息,且具有運動檢測和跟蹤及規(guī)劃的能力。
【專利說明】一種基于注意機制的機器人視覺處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機器人視覺系統(tǒng),特別涉及一種基于注意機制的機器人視覺處理方 法。
【背景技術(shù)】
[0002] 一、國外機器人視覺系統(tǒng)研究
[0003] 1993年,由美國麻省理工學(xué)院的人工智能實驗室的機器人專家Cynthia Breazeal 領(lǐng)導(dǎo)研制了一個名為Kismet的機器人頭部,Kismet具有視覺和聽覺功能。Kismet是從嬰 兒和看護者之間的交流方式中獲得的啟發(fā),開發(fā)的嬰兒機器人。Kismet頭部的每個眼睛裝 有一個5. 5mm的C⑶彩色攝像機,以及8個50MHz的DSPTMS321C40組成的并行網(wǎng)絡(luò)進行圖 像處理和兩個基于Motorola 68332的微控制器組成的動機裝置。Kismet具有與嬰兒相仿 的能力和行為方式,例如模仿孩子和父母之間表達感情的反饋方式和嬰兒自我學(xué)習(xí)與他人 交流方式等。
[0004] Kismet的系統(tǒng)架構(gòu)是由六個子系統(tǒng)組成:底層特征提取系統(tǒng)(low - level feature extraction system),高層認知識別系統(tǒng)(high - level perception system), 注意系統(tǒng)(the attention system),動力系統(tǒng)(motivation system),行為表示系統(tǒng) (behavior system),以及運動系統(tǒng)(motor system)。其中底層特征提取系統(tǒng)主要是從傳感 器中得到的信息中提取特征;高層識別系統(tǒng)將得到的特征信息壓縮并按對行為、動力、運動 的影響量進行分類,分發(fā)到相應(yīng)的子系統(tǒng)中。注意系統(tǒng)是對該環(huán)境引起最突出的刺激進行 決策,并讓系統(tǒng)采取相應(yīng)的行為組織方式。動力系統(tǒng)是保持機器人的任何時候的姿態(tài)都是 穩(wěn)定的。行為表示系統(tǒng)是在多個可能的行為進行仲裁并執(zhí)行最合適的行為。運動系統(tǒng)主要 是規(guī)劃機器人的行為過程。Kismet的系統(tǒng)架構(gòu)如圖2,它具有高興、沮喪、驚訝、疲倦、憤怒、 安靜、不高興、害怕和感興趣等9種表情。
[0005] 目前,美國麻省理工學(xué)院同時正在研制一個命名為Cog的機器人,其名字來源于 認知(Cognition)這個單詞,意圖是設(shè)計出具有人類認知能力的認知機器人。Cog具有眼、 耳和上肢并具有模擬人腦功能的微處理器網(wǎng)絡(luò),通過與環(huán)境的交互,能夠識別面孔、物體, 跟蹤物體運動等能力。Cog的視覺系統(tǒng)模擬裝置是雙眼結(jié)構(gòu),其眼睛能圍繞水平和垂直方 向軸轉(zhuǎn)動,每個眼睛由兩個攝像機組成,一個負責(zé)外圍視野的廣角鏡頭,另一個負責(zé)景物中 心的窄角鏡頭。Cog仿人視覺系統(tǒng)設(shè)計的大部分和Kismet都是一樣的,但是在機器人思維 方面做了進一步的工作,提出了一個基于Baron - Cohen模型和Leslie模型的混合模型,如 圖3。德國卡爾斯魯厄大學(xué)于2006年在德國漢諾威春節(jié)電腦展上首次展現(xiàn)了他們的機器人 ARMAR III。ARMAR III的上半身是人體,下半身采用的是輪子的移動平臺,總共具有49個 自由度,其中頭部為7個自由度。
[0006] 和Cog -樣,ARMAR III的每個眼睛也都有兩個攝像機,分別是廣角和窄角,這樣 可以對視野內(nèi)區(qū)域進行掃視和對焦點區(qū)域進行注視,可以更方便的完成更復(fù)雜的功能,如 手眼協(xié)調(diào)。整個機器人的視覺和控制系統(tǒng)的結(jié)構(gòu)圖如圖4。系統(tǒng)采用分層結(jié)構(gòu),共有任務(wù)規(guī) 劃、任務(wù)仲裁和任務(wù)執(zhí)行三個部分。任務(wù)規(guī)劃主要是任務(wù)調(diào)度,收集任務(wù)的各種參數(shù)(比如 紋理、色彩等等),并把任務(wù)分成各種子任務(wù)并送到任務(wù)仲裁部分等;任務(wù)仲裁是對任務(wù)規(guī) 劃中送過來的各子任務(wù)進行仲裁并分發(fā)到各執(zhí)行單元;任務(wù)執(zhí)行使各個任務(wù)串行或并行執(zhí) 行。
[0007] LUIZ M. G. . G0NCALVES等人對一個四自由度的機器人頭部,設(shè)計了一個機器人數(shù) 據(jù)流圖的框架,如圖5。在實現(xiàn)上使用多尺度圖像進行加速對圖像的處理,并利用高斯偏導(dǎo) 數(shù)求取圖像特征,然后利用基于生物學(xué)模型的相似性對比方法進行識別分類。
[0008] 二、國內(nèi)機器人視覺系統(tǒng)研究
[0009] 相比國外而言,我國從20世紀80年代中期才開始研究機器人。北京理工大學(xué)2002 年12月研發(fā)出的機器人BHR-1,此后又在此基礎(chǔ)上了"匯童"機器人。BHR-1的頭部有2 個自由度,每個眼睛共有一個CCD攝像機。BHR- 1的上肢共有7個自由度,其中肩關(guān)節(jié)3個 自由度,肘關(guān)節(jié)2個自由度,腕關(guān)節(jié)2個自由度。機器人可根據(jù)目標(biāo)的三維空間中的位置實 施對物體的抓取。BHR - 1采用的立體視覺解決方案來自于美國SRI人工智能中心所研發(fā)的 一套雙目立體視覺系統(tǒng)SVS(Small Vision System)。其整個視覺處理系統(tǒng)的流程圖如圖 6〇
[0010] 為加快視覺系統(tǒng)的處理速度,系統(tǒng)中采用比例微分控制的方法。清華大學(xué)于2000 年初開始研制THBIP - I機器人,THBIP - I的手臂和手采用9個自由度,其中肩3個、肘部 1個、腕部2個,手部3個。頭部采用2個自由度,可實現(xiàn)頭部的前后運動和旋轉(zhuǎn),以使安裝 在機器人頭部的攝像機能具有更大的視覺范圍。視覺系統(tǒng)的兩個數(shù)字攝像機通過USB 口和 筆記本電腦連接,視覺圖像處理由筆記本電腦完成,機器人的手、腳、眼睛的協(xié)調(diào)配合,實現(xiàn) THBIP - I的穩(wěn)定行走,視覺系統(tǒng)通過對被抓物體的識別,實現(xiàn)手對物體的穩(wěn)定抓取作業(yè)。 THBIP - I在實現(xiàn)上采用的是組織層、協(xié)調(diào)層和執(zhí)行層的三層集中式控制結(jié)構(gòu)。隨后清華大 學(xué)又研制出了一個小型的機器人THBIP-II,采用了分布式控制系統(tǒng),系統(tǒng)分為:感知層、 決策層、協(xié)調(diào)層和執(zhí)行層四層結(jié)構(gòu)。上海交通大學(xué)于1999年研制的機器人SFHR,腿部和手 部分別有12和10自由度,身上有2個自由度,共24個自由度。在機器人的視覺部分配備 的是富士通公司的主動視覺系統(tǒng)。此外國防科技大學(xué)和哈爾濱工業(yè)大學(xué)等都對機器人的頭 部視覺系統(tǒng)做了大量的研究,并取得了一定的進展。
[0011] 綜上所述,二十多年來,對機器人視覺系統(tǒng)的框架設(shè)計、算法實現(xiàn)等相關(guān)問題的研 究不斷深入,無論在國外還是國內(nèi)都獲得了很大的進展,并取得了比較明顯的效果。機器人 視覺系統(tǒng)聯(lián)系著外部世界和自身知識獲取、自身狀態(tài)決策規(guī)劃,具有非常重大的意義。然而 要使機器人視覺系統(tǒng)的功能達到與人的視覺系統(tǒng)接近,是一個極富挑戰(zhàn)同時也是一個應(yīng)用 非常廣泛的課題。
[0012] 當(dāng)前很多的視覺系統(tǒng)都是功能和知識緊密聯(lián)系,以實現(xiàn)特定功能為導(dǎo)向?;诠?能和知識相分離的視覺系統(tǒng)在開放性和可擴展性上都會有極大的增強,便于功能擴充和多 信息融合(例如,與激光、紅外、聽覺、嗅覺、觸覺的多信息融合)。人類的視覺信息處理是 由視網(wǎng)膜、外側(cè)膝狀體和視皮層構(gòu)成的三個基本層次。另外,在大腦皮層內(nèi)的視覺信息是按 視皮層簡單細胞一復(fù)雜細胞一超復(fù)雜細胞一更高級的超復(fù)雜細胞這樣的序列,有簡單到復(fù) 雜,由低級到高級、分塊進行處理。盡管各國學(xué)者為研制基于注意機制的視覺系統(tǒng)進行了長 期不懈的努力,但究竟通過什么途徑才能實現(xiàn)基于注意機制的視覺系統(tǒng)?
[0013] 隨著機器人技術(shù)的發(fā)展,機器人視覺系統(tǒng)的好壞將直接影響到機器人對外界知識 的獲取和學(xué)習(xí)的效率。視覺系統(tǒng)的發(fā)展直接關(guān)乎到機器人大腦思維的發(fā)展,而機器人最高 的發(fā)展境界也是使得機器人的思維可以與人并駕齊驅(qū)甚至高于人類的必經(jīng)階段。當(dāng)前國內(nèi) 的機器人視覺系統(tǒng)很大一部分是直接采用國外的視覺框架或視覺系統(tǒng),因此有必要研發(fā)出 有自己技術(shù)的視覺系統(tǒng),而不只是單對視覺系統(tǒng)中的某類算法或技術(shù)進行研究,更需要在 一個更高的層次上提出一個更為全面的視覺框架、設(shè)計一個更為智能的視覺系統(tǒng)。一個更 為智能的視覺系統(tǒng)的產(chǎn)生,不僅可以提高機器人的知識獲取能力、對環(huán)境的學(xué)習(xí)和交互能 力,同時也可廣泛應(yīng)用于虛擬現(xiàn)實、增強現(xiàn)實、智能視頻監(jiān)控、道路交通、航空航天等社會的 各個方面。
[0014] 目前提出的基于注意機制的視覺系統(tǒng)還很不成熟,現(xiàn)在主要是用于圖像處理、模 式識別、視頻監(jiān)控等方面,所取得的成果離人們期望的目標(biāo)還有很大的距離。
【發(fā)明內(nèi)容】
[0015] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種基于注意機制的機器人 視覺處理方法。
[0016] 本發(fā)明的目的通過以下的技術(shù)方案實現(xiàn):
[0017] 一種基于注意機制的機器人視覺處理方法,包含以下順序的步驟:
[0018] SI.圖像預(yù)處理:對圖像進行基本處理,包括顏色空間轉(zhuǎn)換、邊緣提取、圖像變換 和圖像閾值化;
[0019] S2.特征提取:對經(jīng)過預(yù)處理的圖像,提取其膚色、顏色、紋理、運動和空間坐標(biāo)五 類特征信息;
[0020] S3.仲裁決策:對于特征提取層獲得的信息,按照一定的仲裁決策策略,有選擇地 分發(fā)給需要該特征信息上層功能應(yīng)用子系統(tǒng);
[0021] S4.功能應(yīng)用:經(jīng)過仲裁決策后遞交過來的特征信息,進行相應(yīng)的操作實現(xiàn)功能 應(yīng)用,即機器人視覺應(yīng)用的直接實現(xiàn)層,包括人臉檢測、顏色識別、運動檢測與跟蹤、手勢交 互、注意機制五個部分。
[0022] 步驟Sl中,所述的圖像變換包括圖像的基本放縮、旋轉(zhuǎn)、直方圖均衡化、仿射變 換。
[0023] 步驟S4中,所述的人臉檢測是采用基于Haar - Like特征和AdaBoost算法的人臉 檢測方法,包含以下步驟:
[0024] A、首先用積分圖像的新灰度圖像來表示圖像;
[0025] B、然后使用AdaBoost統(tǒng)計學(xué)習(xí)算法篩選出最能代表人臉特征的矩形特征,并用 這些矩形特征組合成一個用于人臉檢測的強分類器;
[0026] C、最后把前面得到的多個強分類器按照一定規(guī)則組成一個Casecade結(jié)構(gòu)的層疊 分類器。
[0027] 步驟S4的步驟B中,所述的用于人臉檢測的AdaBoost統(tǒng)計學(xué)習(xí)算法具體為:
[0028] A、初始訓(xùn)練樣本集:(X1, y),(x2, y2),. . .,(xN, yN),gj (Xi)代表第i個訓(xùn)練圖像的 第j個Haar - Like特征,Xi e X表示輸入的訓(xùn)練樣本,yi e Y = {-1,1}分別表示真假樣 本;
[0029] B、初始化權(quán)重wt,i;
[0030] C、對于t輪訓(xùn)練for t = 1,2,3,…,進行如下處理:
[0031] (1)所有樣本權(quán)重歸一化:
【權(quán)利要求】
1. 一種基于注意機制的機器人視覺處理方法,其特征在于,包含以下順序的步驟:
51. 圖像預(yù)處理:對圖像進行基本處理,包括顏色空間轉(zhuǎn)換、邊緣提取、圖像變換和圖 像閾值化;
52. 特征提取:對經(jīng)過預(yù)處理的圖像,提取其膚色、顏色、紋理、運動和空間坐標(biāo)五類特 征信息;
53. 仲裁決策:對于特征提取層獲得的信息,按照一定的仲裁決策策略,有選擇地分發(fā) 給需要該特征信息上層功能應(yīng)用子系統(tǒng);
54. 功能應(yīng)用:經(jīng)過仲裁決策后遞交過來的特征信息,進行相應(yīng)的操作實現(xiàn)功能應(yīng)用, 即機器人視覺應(yīng)用的直接實現(xiàn)層,包括人臉檢測、顏色識別、運動檢測與跟蹤、手勢交互、注 意機制五個部分。
2. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟Sl 中,所述的圖像變換包括圖像的基本放縮、旋轉(zhuǎn)、直方圖均衡化、仿射變換。
3. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟S4 中,所述的人臉檢測是采用基于Haar-Like特征和AdaBoost算法的人臉檢測方法,包含以 下步驟: A、 首先用積分圖像的新灰度圖像來表示圖像; B、 然后使用AdaBoost統(tǒng)計學(xué)習(xí)算法篩選出最能代表人臉特征的矩形特征,并用這些 矩形特征組合成一個用于人臉檢測的強分類器; C、 最后把前面得到的多個強分類器按照一定規(guī)則組成一個Casecade結(jié)構(gòu)的層疊分類 器。
4. 根據(jù)權(quán)利要求3所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟S4 的步驟B中,所述的用于人臉檢測的AdaBoost統(tǒng)計學(xué)習(xí)算法具體為: A、 初始訓(xùn)練樣本集:(X1,Y1),(x2,y2),. . .,(xN,yN),gj(Xi)代表第i個訓(xùn)練圖像的第j個 Haar-Like特征,XieX表示輸入的訓(xùn)練樣本,yieY= {-1,1}分別表示真假樣本; B、 初始化權(quán)重wt;i ; C、 對于t輪訓(xùn)練fort=l,2,3,…,進行如下處理: (1) 所有樣本權(quán)重歸一化:
N為樣本的數(shù)目 (2) 對于每個樣本中第j個Haar-Like特征,得到一個簡單分類器Ilj,也就是確定閾 N 值Θj和偏置Pj,使誤差f=Z (X;)-兄+1達到最小,而
式中,偏置Pj只有± 1兩種情況; (3) 確定的簡單分類器中,找出具有最小誤差εt的的弱分類器ht ; ⑷對所有的樣本權(quán)值進行更新:% π/ =if,jiS其中βt =εy(l-εt),如果Xi 被ht正確分類,則ei= 0,否則ei=I; D、最后得到強分類器:
,其中αt = 1η(1/βt)。
5. 根據(jù)權(quán)利要求I所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟S4 中,所述的顏色識別包括顏色特征訓(xùn)練和顏色特征識別兩部分: A、 顏色特征訓(xùn)練: (1) 提取樣本像素點,每一次提出的必須是被指定為同一種色彩特征的樣本點; (2) 去噪: . .p 丨錢':木點到所Y『樣木點屮心的Η·:離 tηπι| 對母1 像素^右倆足,拎>),Aj 判定為噪點,并從所選樣本像素集中刪除; (3) 求取剩下的樣本像素集中所有點的外接球,其中球心為剩下所有樣本點的中心,半 徑為外接球的半徑; 對于多個顏色特征,重復(fù)以上過程,最后將訓(xùn)練好的特征量保存到特征庫中; B、 顏色特征識別: (1) 讀取特征庫中所有已經(jīng)訓(xùn)練好的顏色特征; (2) 對圖像中的每個像素:如果該像素點,存在于某一個顏色特征所代表的球形區(qū)域 內(nèi),則該點的顏色值改寫成這個顏色特征中的顏色,即特征球的球心。
6. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟S4 中,所述的運動檢測與跟蹤,是采用混合高斯模型進行運動檢測以及使用基于Harris角點 檢測的金字塔Lucas-Kanade光流檢測物體運動方向和運動速度。
7. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,所述的 采用混合高斯模型進行運動檢測,具體包含以下步驟: (1) 混合高斯模型的初始化:取一段時間內(nèi)的視頻序列圖像中的每個像素的平均灰度 μC1及方差σ〗,用和0?2來初始化混合高斯模型中K個高斯分布的參數(shù)
ωt = 1/Κ,μi= 255X(i/K),i=I, 2, 3,. . . ,K 其中,參數(shù)ωt = 1/Κ,K是高斯分布的參數(shù)個數(shù); (2) 混合高斯模型的背景更新:在獲得新的像素值It后,將當(dāng)前像素值與混合高斯模 型中K個高斯分布分別匹配,若滿足下式,則稱像素值與該高斯分布匹配: ωt = 1/Κ,μi= 255X(i/K),i=I, 2, 3,. . ,K; 如匹配則按照下式,則進行高斯參數(shù)的更新:it-y^ 〇ισi;t-i 其中,μ為第i個高斯函數(shù)的均值,D1為用戶定義的參數(shù),Oi^1為第i個高斯函 數(shù)在第t-Ι時刻的標(biāo)準(zhǔn)差;
其中,P(0 <P< 1)為學(xué)習(xí)率,P越大,背景更新速度越快; 如果It與任何高斯分布都不匹配,則權(quán)值最小的高斯分布將被新的高斯分布更新,新 的高斯分布的均值為It,初始化一個較大的標(biāo)準(zhǔn)差σCl和一個較小的權(quán)值ωο;余下的高斯 分布保持相同的權(quán)值,但它們的均值按下式遞減: wi,t= (1-P) 該像素點的高斯混合模型描述了It在時間域上的概率分布,為確定像素的混合高斯 模型中哪些高斯成分是由背景產(chǎn)生,根據(jù)每個高斯分布的權(quán)重與其標(biāo)準(zhǔn)差的比進行降序排 列,取前B個高斯分布作為像素的背景模型:
為預(yù)設(shè)的閾值; (3)前景檢測:如像素值It不滿足式子IIt-μinISD1σW1,則認為該像素為前景點。
8. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟 S4中,所述的手勢交互包括手區(qū)域的分割、手勢特征的提取、手勢的分類這三個過程,具體 為: (1) 在手的區(qū)域分割的過程中,使用改進的RCE神經(jīng)網(wǎng)絡(luò)和區(qū)域標(biāo)記算法提取視覺圖 像中手的區(qū)域; (2) 在手勢特征提取過程中,利用數(shù)學(xué)形態(tài)學(xué)、SUSAN算法、改進OPTA算法提取出手掌 心和邊緣圖像,再沿Freeman鏈碼算法順序計算出手勢邊緣到掌心的距離,作為手勢的特 征向量; (3) 在手勢分類過程中,利用上一個步驟得出的邊緣到掌心的距離作為RBF神經(jīng)網(wǎng)絡(luò) 的輸入數(shù)據(jù)進行訓(xùn)練,輸出數(shù)據(jù)為已定義好的手勢中的某一個。
9. 根據(jù)權(quán)利要求1所述的基于注意機制的機器人視覺處理方法,其特征在于,步驟S4 中,所述的注意機制,具體為對每個特征的標(biāo)識物體Ci,定義一個三元組aiDq= (Pi,Di,SiX 其中Pi表示是否是人相關(guān)的特征,如果為〇,則表示不是人相關(guān)的特征,為1則表示是人臉 或手勢A表示物體Ci離攝像機坐標(biāo)系原點的距離A表示物體Ci在圖像中所占的面積; 選擇性注意控制策略的算法如下: (1)假定共有N個特征標(biāo)識物體,對每個Ci計算其被選中的概率pr〇i
(2) 對于同一個物體可能同時存在多個特征標(biāo)識,取其中pr〇i最大的,并排除該物體的 其他特征標(biāo)識的概率pro; (3) 將所有的概率pr〇i進行降序排列,將概率最大的作為注意窗口的位置; (4) 觸發(fā)注意窗口的相關(guān)操作: 設(shè)定一個衰退因子σ,〇〈σ〈1,對已經(jīng)在注意的物體被選中的概率坪^進行衰退,沒經(jīng) 過一幀都進行概率的更新: prom =σXprom。
【文檔編號】G06K9/62GK104463191SQ201410606526
【公開日】2015年3月25日 申請日期:2014年10月30日 優(yōu)先權(quán)日:2014年10月30日
【發(fā)明者】肖南峰 申請人:華南理工大學(xué)