本發(fā)明涉及智能機(jī)器人領(lǐng)域,尤其涉及一種應(yīng)用于智能機(jī)器人的物體識(shí)別方法及系統(tǒng)。
背景技術(shù):
::隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計(jì)算機(jī)技術(shù)以及人工智能技術(shù)的引入,機(jī)器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴(kuò)展到了醫(yī)療、保健、家庭、娛樂以及服務(wù)行業(yè)等領(lǐng)域。而人們對(duì)于機(jī)器人的要求也從簡單重復(fù)的機(jī)械動(dòng)作提升為具有擬人問答、自主性及與其他機(jī)器人進(jìn)行交互的智能機(jī)器人,人機(jī)交互也就成為決定智能機(jī)器人發(fā)展的重要因素。物體識(shí)別是機(jī)器人視覺領(lǐng)域的核心,由于形狀特征反映出圖像中物體最直接的視覺特征,大部分物體可以通過分辨其形狀來進(jìn)行判別,因此在物體識(shí)別中,形狀特征的正確提取非常重要。然而,現(xiàn)有的機(jī)器人在進(jìn)行物體識(shí)別時(shí),由于背景圖像中除了包含目標(biāo)對(duì)象以外還包含許多其他物體,因此在提取形狀特征時(shí)會(huì)錯(cuò)誤地將其他物體的特征也提取出來,這就嚴(yán)重影響了物體識(shí)別的準(zhǔn)確度。因此,亟需提供一種能夠準(zhǔn)確識(shí)別物體,提高智能機(jī)器人的智能性和擬人性的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題之一是需要提供一種能夠準(zhǔn)確識(shí)別物體,提高智能機(jī)器人的智能性和擬人性的解決方案。為了解決上述技術(shù)問題,本申請(qǐng)的實(shí)施例首先提供了一種應(yīng)用于智能機(jī)器人的物體識(shí)別方法,所述智能機(jī)器人安裝有機(jī)器人操作系統(tǒng),該方法包括:獲取并解析多模態(tài)輸入數(shù)據(jù),所述多模態(tài)輸入數(shù)據(jù)包括待識(shí)別物體的信息;從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息,以生成物體識(shí)別指令,其中所述指示多模態(tài)信息為指示待識(shí)別物體的輪廓或區(qū)域的信息;響應(yīng)該物體識(shí)別指令對(duì)目標(biāo)對(duì)象進(jìn)行識(shí)別,獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)并進(jìn)行多模態(tài)輸出。優(yōu)選地,所述指示多模態(tài)信息包括表示圈定待識(shí)別物體輪廓或區(qū)域的標(biāo)示框、指示待識(shí)別物體輪廓或區(qū)域的自定義標(biāo)示物和預(yù)定動(dòng)作的任一信息。優(yōu)選地,所述與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)包括與識(shí)別出的物體相關(guān)的知識(shí)性數(shù)據(jù)、娛樂性數(shù)據(jù)、歷史記錄數(shù)據(jù)中的至少之一。優(yōu)選地,該方法還包括:在物體識(shí)別失敗時(shí),輸出詢問物體名稱及所需反饋的信息,根據(jù)獲取的反饋信息創(chuàng)建與該物體相關(guān)的反饋輸出數(shù)據(jù)。優(yōu)選地,若存在多個(gè)與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù),則根據(jù)用戶選擇的反饋輸出數(shù)據(jù)進(jìn)行多模態(tài)輸出。另外,本申請(qǐng)的實(shí)施例還提供了一種應(yīng)用于智能機(jī)器人的物體識(shí)別裝置,所述智能機(jī)器人安裝有機(jī)器人操作系統(tǒng),該裝置包括:多模態(tài)數(shù)據(jù)解析模塊,其獲取并解析多模態(tài)輸入數(shù)據(jù),所述多模態(tài)輸入數(shù)據(jù)包括待識(shí)別物體的信息;指示信息獲取模塊,其從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息,以生成物體識(shí)別指令,其中,所述指示多模態(tài)信息為指示待識(shí)別物體的輪廓或區(qū)域的信息;多模態(tài)輸出模塊,其響應(yīng)該物體識(shí)別指令對(duì)目標(biāo)對(duì)象進(jìn)行識(shí)別,獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)并進(jìn)行多模態(tài)輸出。優(yōu)選地,所述指示多模態(tài)信息包括表示圈定待識(shí)別物體輪廓或區(qū)域的標(biāo)示框、指示待識(shí)別物體輪廓或區(qū)域的自定義標(biāo)示物和預(yù)定動(dòng)作的任一信息。優(yōu)選地,所述與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)包括與識(shí)別出的物體相關(guān)的知識(shí)性數(shù)據(jù)、娛樂性數(shù)據(jù)、歷史記錄數(shù)據(jù)中的至少之一。優(yōu)選地,該裝置還包括:反饋輸出數(shù)據(jù)創(chuàng)建模塊,其在物體識(shí)別失敗時(shí),輸出詢問物體名稱及所需反饋的信息,根據(jù)獲取的反饋信息創(chuàng)建與該物體相關(guān)的反饋輸出數(shù)據(jù)。優(yōu)選地,所述多模態(tài)輸出模塊,其進(jìn)一步在存在多個(gè)與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)時(shí),則根據(jù)用戶選擇的反饋輸出數(shù)據(jù)進(jìn)行多模態(tài)輸出。與現(xiàn)有技術(shù)相比,上述方案中的一個(gè)或多個(gè)實(shí)施例可以具有如下優(yōu)點(diǎn)或有益效果:本發(fā)明實(shí)施例通過使機(jī)器人獲取并解析包含待識(shí)別物體信息的多模態(tài)輸入數(shù)據(jù),從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息以生成物體識(shí)別指令,然后響應(yīng)該物體識(shí)別指令對(duì)目標(biāo)對(duì)象進(jìn)行識(shí)別,獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)并進(jìn)行多模態(tài)輸出,能夠在提取物體形狀特征時(shí)簡化提取步驟,使提取出的物體形狀特征更加準(zhǔn)確。而且,在識(shí)別出物體后還可以根據(jù)物體信息從各種角度向用戶輸出多模態(tài)數(shù)據(jù)與用戶進(jìn)行交互,提高了機(jī)器人的智能性和用戶的體驗(yàn)性。本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明的技術(shù)方案而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)和/或流程來實(shí)現(xiàn)和獲得。附圖說明附圖用來提供對(duì)本申請(qǐng)的技術(shù)方案或現(xiàn)有技術(shù)的進(jìn)一步理解,并且構(gòu)成說明書的一部分。其中,表達(dá)本申請(qǐng)實(shí)施例的附圖與本申請(qǐng)的實(shí)施例一起用于解釋本申請(qǐng)的技術(shù)方案,但并不構(gòu)成對(duì)本申請(qǐng)技術(shù)方案的限制。圖1為根據(jù)本發(fā)明第一實(shí)施例的應(yīng)用于智能機(jī)器人的物體識(shí)別方法的流程示意圖。圖2為圖1所示實(shí)施例中的步驟S120的具體流程示意圖。圖3(A)~(F)為根據(jù)本發(fā)明實(shí)施例的多種自定義標(biāo)示物的示意圖。圖4為根據(jù)本發(fā)明實(shí)施例的指示待識(shí)別物體的第一種形式、即標(biāo)示框的示意圖。圖5為根據(jù)本發(fā)明實(shí)施例的指示待識(shí)別物體的第二種形式、即用標(biāo)示物來指出物體的示意圖。圖6為根據(jù)本發(fā)明實(shí)施例的指示待識(shí)別物體的第三種形式、即設(shè)定動(dòng)作來指出物體的示意圖。圖7為根據(jù)本發(fā)明第二實(shí)施例的應(yīng)用于智能機(jī)器人的物體識(shí)別裝置300的示例的結(jié)構(gòu)框圖。具體實(shí)施方式以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對(duì)本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成相應(yīng)技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。本申請(qǐng)實(shí)施例以及實(shí)施例中的各個(gè)特征,在不相沖突前提下可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。另外,附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。隨著智能機(jī)器人產(chǎn)品的普及,越來越多的家庭和商家都需要機(jī)器人為其服務(wù)?,F(xiàn)有技術(shù)中,大多數(shù)機(jī)器人在進(jìn)行物體識(shí)別時(shí),一般需要執(zhí)行如下處理:圖像預(yù)處理、特征提取、特征選擇、匹配和定位,而其中的特征提取部分是最關(guān)鍵的一步也是較難以控制的一步,通常特征提取步驟所要提取的內(nèi)容是物體形狀的特征。然而,由于機(jī)器人圖像處理系統(tǒng)的一些局限性,導(dǎo)致在進(jìn)行物體形狀特征的提取操作時(shí),提取到的特征數(shù)據(jù)準(zhǔn)確度較低,導(dǎo)致機(jī)器人進(jìn)行物體識(shí)別時(shí)的成功率也大大下降,進(jìn)而降低了用戶的體驗(yàn)性。本發(fā)明實(shí)施例提供了解決上述問題的解決方案。在機(jī)器人識(shí)別物體之前,對(duì)機(jī)器人采集的圖像中的待識(shí)別物體通過標(biāo)示框的方式進(jìn)行輪廓或區(qū)域的指示,或者預(yù)先采用自定義標(biāo)示物或預(yù)設(shè)動(dòng)作對(duì)待識(shí)別物體輪廓或區(qū)域進(jìn)行指示,而至采集到的圖像中已包含自定義標(biāo)示物或預(yù)設(shè)動(dòng)作,在物體識(shí)別過程中,機(jī)器人先將這些與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息從圖像中提取出來,然后對(duì)明確指示輪廓或區(qū)域的物體進(jìn)行識(shí)別。如此,能夠提高物體形狀特征提取的準(zhǔn)確率,進(jìn)而能夠提高物體識(shí)別的準(zhǔn)確率。另一方面,在本發(fā)明的實(shí)施例中,機(jī)器人在識(shí)別物體后,還根據(jù)物體識(shí)別結(jié)果生成反饋輸出數(shù)據(jù),然后向用戶進(jìn)行多模態(tài)輸出。其中的反饋輸出數(shù)據(jù)可以包括與識(shí)別出的物體相關(guān)的知識(shí)性數(shù)據(jù)、娛樂性數(shù)據(jù)、歷史記錄數(shù)據(jù)中的至少之一。例如,用戶用手摸了摸桌子,機(jī)器人識(shí)別出桌子后,可能會(huì)發(fā)出桌子的英文讀音“table”,或者會(huì)播放與桌子相關(guān)的音樂,甚至還可以告訴用戶上一次誰摸過這個(gè)桌子。如此,不但提高了物體識(shí)別的準(zhǔn)確性,還提高了趣味性。不可避免的,由于某些因素的影響,例如圖像中的物體之間出現(xiàn)重疊、或者采集的圖像數(shù)據(jù)模糊之類的因素,導(dǎo)致物體識(shí)別失敗,但是為了提高用戶的使用興趣以及為了實(shí)現(xiàn)下一次的對(duì)該物體的識(shí)別,機(jī)器人在物體識(shí)別失敗時(shí),向用戶輸出詢問物體名稱及所需反饋的信息,然后根據(jù)用戶的反饋信息創(chuàng)建與該物體相關(guān)的反饋輸出數(shù)據(jù)。另外,在存在多個(gè)與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)時(shí),則可以向用戶發(fā)出選擇請(qǐng)求的信息,然后根據(jù)用戶選擇的反饋輸出數(shù)據(jù)進(jìn)行多模態(tài)輸出。這樣能夠有針對(duì)性地向用戶輸出其感興趣的多模態(tài)輸出,提高用戶的體驗(yàn)度。第一實(shí)施例圖1為涉及本發(fā)明的應(yīng)用于智能機(jī)器人的物體識(shí)別方法的示例一的流程示意圖。本實(shí)施例的機(jī)器人視覺系統(tǒng)的硬件組成部分可以包括攝像頭、視頻解碼器、處理模塊和外部顯示器,在該智能機(jī)器人的處理模塊優(yōu)選安裝有機(jī)器人操作系統(tǒng)。下面參考圖1來說明該方法的各個(gè)步驟。在步驟S110中,智能機(jī)器人獲取并解析多模態(tài)輸入數(shù)據(jù),其中的多模態(tài)輸入數(shù)據(jù)包括待識(shí)別物體的信息。由于本例是對(duì)物體進(jìn)行識(shí)別,因此多模態(tài)輸入數(shù)據(jù)至少要包括圖像類數(shù)據(jù)或由多幀圖像數(shù)據(jù)構(gòu)成的視頻類數(shù)據(jù)。多模態(tài)輸入數(shù)據(jù)的獲取來源可以是來自于用戶輸入的圖像數(shù)據(jù)或視頻數(shù)據(jù)、或者這些數(shù)據(jù)和其他數(shù)據(jù)(例如,文本數(shù)據(jù)、音頻數(shù)據(jù)或程序指令)的組合數(shù)據(jù),也可以是該智能機(jī)器人調(diào)用自身的數(shù)據(jù)采集設(shè)備,例如機(jī)器人啟動(dòng)調(diào)用攝像頭、麥克風(fēng)等設(shè)備采集來的圖像數(shù)據(jù)或者視頻數(shù)據(jù)、或者這些數(shù)據(jù)和其他數(shù)據(jù)的組合數(shù)據(jù)等。而且,在來自用戶輸入的或機(jī)器人采集得到的圖像中要包含待識(shí)別物體(也稱“目標(biāo)對(duì)象”)的圖像信息。隨后,對(duì)接收到的多模態(tài)輸入數(shù)據(jù)進(jìn)行解析。具體來說,主要是根據(jù)數(shù)據(jù)類型特征從多模態(tài)輸入數(shù)據(jù)中將圖像數(shù)據(jù)或視頻數(shù)據(jù)從多種類型數(shù)據(jù)中分離出來,然后對(duì)提取出到的圖像數(shù)據(jù)或視頻數(shù)據(jù)進(jìn)行預(yù)處理。其中,針對(duì)圖像的預(yù)處理主要包括濾波等去噪處理、幾何畸變校正等處理。通過圖像預(yù)處理,可以減少后續(xù)圖像處理的復(fù)雜度,提高處理效率。而對(duì)于視頻圖像數(shù)據(jù)來說,除了針對(duì)每幀圖像也進(jìn)行去噪處理、灰度圖像轉(zhuǎn)換等處理,還需要檢測圖像中存在的移動(dòng)的物體。通常,移動(dòng)物體檢測算法依照目標(biāo)與攝像頭之間的關(guān)系可以分為靜態(tài)背景下的運(yùn)動(dòng)檢測和動(dòng)態(tài)背景下的運(yùn)動(dòng)檢測,所謂靜態(tài)背景下的運(yùn)動(dòng)檢測就是攝像頭在整個(gè)攝像過程中不發(fā)生移動(dòng),只有被攝像目標(biāo)在攝像機(jī)的視場內(nèi)運(yùn)動(dòng)。由于本例中的機(jī)器人的攝像頭一般不發(fā)生較大移動(dòng),因此,在檢測圖像中的移動(dòng)的物體時(shí),采用靜態(tài)背景下運(yùn)動(dòng)目標(biāo)檢測,例如幀間差分法、背景差分法和光流法等。通過上面任一算法對(duì)視頻數(shù)據(jù)的連續(xù)兩幀圖像進(jìn)行檢測,能夠得到圖像中是否存在移動(dòng)的物體。需要說明的是,該移動(dòng)物體檢測主要是為了檢測出圖像中是否存在與指示待識(shí)別物體輪廓或區(qū)域的預(yù)定動(dòng)作的信息,例如,在用戶拿著待識(shí)別物體抖動(dòng)或晃動(dòng)時(shí),機(jī)器人拍攝的圖像中沒有包括自定義標(biāo)示物,如人的手部,通過檢測采集到的相鄰兩幅圖像的移動(dòng)物體,可以檢測出預(yù)定動(dòng)作,為后面執(zhí)行步驟S120做好準(zhǔn)備。在步驟S120中,從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息,以生成物體識(shí)別指令,其中指示多模態(tài)信息為指示待識(shí)別物體的輪廓或區(qū)域的信息。在現(xiàn)有技術(shù)中,現(xiàn)有物體識(shí)別算法會(huì)將圖像數(shù)據(jù)中涉及的所有物體都識(shí)別出來,例如,通過窗口掃描的方式,對(duì)圖片進(jìn)行幾個(gè)設(shè)定級(jí)別的縮放處理來重復(fù)進(jìn)行識(shí)別,這種方式計(jì)算量非常大,增加了機(jī)器人操作系統(tǒng)的數(shù)據(jù)處理負(fù)擔(dān),降低處理速度,而且,識(shí)別出來的多個(gè)物體往往都并不是用戶所感興趣的物體,導(dǎo)致浪費(fèi)了大量系統(tǒng)處理開銷。因此,在本申請(qǐng)的一個(gè)例子中,在機(jī)器人執(zhí)行物體識(shí)別之前,可以預(yù)先讓用戶對(duì)攝像得到的圖像進(jìn)行目標(biāo)對(duì)象的圈定,例如,機(jī)器人將采集到的圖像顯示在觸屏顯示器上,用戶通過觸控筆或手指等對(duì)圖像中的待識(shí)別物體進(jìn)行標(biāo)定,標(biāo)定的圖形可以是圓形、矩形等標(biāo)定框(參見圖4)。或者,在其他的例子中,用戶通過自定義標(biāo)示物或預(yù)定動(dòng)作來指示場景中的目標(biāo)對(duì)象,則機(jī)器人所采集的圖像中會(huì)包括指示該待識(shí)別物體的輪廓或區(qū)域的信息的自定義標(biāo)示物(參見圖5)和預(yù)定動(dòng)作(參見圖6)的任一信息。容易理解,同樣的圖像,不同的用戶會(huì)標(biāo)定不同的目標(biāo)物體,這既與人的觀察視角、關(guān)注點(diǎn)等物理?xiàng)l件有關(guān),也與人的性格、經(jīng)歷等有關(guān)。通過對(duì)目標(biāo)對(duì)象預(yù)先進(jìn)行標(biāo)定,能夠精準(zhǔn)識(shí)別出用戶感興趣的物體,進(jìn)而提高用戶體驗(yàn)。圖2為圖1所示實(shí)施例中的步驟S120的具體流程示意圖。下面參見圖2,詳細(xì)說明從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息(標(biāo)示框、自定義標(biāo)示物和預(yù)定動(dòng)作這三種)的具體流程。如圖2所示,該步驟S120具體包括如下子步驟。在子步驟S1201中,先根據(jù)解析結(jié)果判斷是否存在標(biāo)示框。標(biāo)示框可以是圓形、矩形或三角形等形狀的框體,在本例中,優(yōu)選為矩形框。以標(biāo)示框?yàn)榫匦慰驗(yàn)槔?,可以采用多邊形檢測,通過約束條件尋找解析結(jié)果中是否存在矩形。具體來說,在處理的過程中,先將預(yù)處理后的圖像進(jìn)行灰度圖像轉(zhuǎn)換和濾波,然后在不同閾值下進(jìn)行二值化處理,然后進(jìn)行多邊形逼近,如果存在凸四邊形并且該凸四邊形的面積在預(yù)設(shè)范圍內(nèi),則檢測該凸四邊形的角度是否為直角,如果是直角則認(rèn)為該圖像中存在矩形框,進(jìn)而確定存在標(biāo)示框。另外,通過檢測線段之間夾角的方式也可以檢測圖像中存在的矩形框,不再贅述。關(guān)于其他形狀的框體,也可以根據(jù)形狀所具備的特征來進(jìn)行檢測。如圖2所示,在判斷圖像中存在標(biāo)示框時(shí),則執(zhí)行步驟S1204,生成對(duì)應(yīng)的物體識(shí)別指令,否則執(zhí)行步驟S1202。在子步驟S1202中,根據(jù)解析結(jié)果判斷是否存在與設(shè)定動(dòng)作相關(guān)的數(shù)據(jù)。本例中的設(shè)定動(dòng)作可以包括拿著被識(shí)別物體進(jìn)行抖動(dòng)、揮動(dòng)的動(dòng)作,或者如圖6所示的用自定義標(biāo)示物(手部)框選出待識(shí)別物體的動(dòng)作。在識(shí)別是否存在設(shè)定動(dòng)作的過程中,首先根據(jù)解析結(jié)果判斷是否存在抖動(dòng)、揮動(dòng)等動(dòng)作,具體可以根據(jù)在步驟S110中檢測圖像中是否存在移動(dòng)的物體的結(jié)果來判斷,若解析結(jié)果中判斷圖像中存在移動(dòng)的物體,則認(rèn)為存在設(shè)定動(dòng)作,執(zhí)行步驟S1204,生成對(duì)應(yīng)的物體識(shí)別指令,否則對(duì)圖像進(jìn)行進(jìn)一步解算,判斷是否存在用自定義標(biāo)示物框選待識(shí)別物體的動(dòng)作。在判斷是否存在自定義標(biāo)示物框選物體的動(dòng)作時(shí),先判斷是否存在自定義標(biāo)定物,然后解析自定義標(biāo)定物構(gòu)成的形狀是否為與矩形、圓形、三角形等形狀相同或類似的形狀。自定義標(biāo)定物可以為圖3(A)~(F)中的手部、筆、棒棒糖、遙控器、手套、手機(jī)等具備指示作用的物體,除此之外,還可以根據(jù)需要選擇其他物體作為自定義標(biāo)示物,此處不做限定。在進(jìn)行自定義標(biāo)定物識(shí)別時(shí),可以采用現(xiàn)有技術(shù)來實(shí)現(xiàn)。概況來說,可以先對(duì)圖像進(jìn)行特征提取和分類,然后將提取和分類的結(jié)果與預(yù)設(shè)的自定義標(biāo)示物的特征進(jìn)行匹配來判斷圖像中是否存在自定義標(biāo)定物。在判斷存在自定義標(biāo)定物之后,解析自定義標(biāo)定物構(gòu)成的形狀,具體可以參照子步驟S1201來進(jìn)行解算。若判斷自定義標(biāo)定物構(gòu)成的形狀不是設(shè)定形狀,則認(rèn)為圖像中不存在與設(shè)定動(dòng)作相關(guān)的數(shù)據(jù),則執(zhí)行子步驟S1203,否則執(zhí)行子步驟S1204生成對(duì)應(yīng)的物體識(shí)別指令。在子步驟S1203中,根據(jù)解析結(jié)果判斷是否存在自定義標(biāo)示物。預(yù)先存儲(chǔ)了各種自定義標(biāo)示物的圖像特征,例如圖像的形狀特征、顏色特征、圖像紋理特征等,提取解析結(jié)果中的圖像特征,然后分別將該提取的圖像特征與每個(gè)自定義標(biāo)示物的圖像特征進(jìn)行相關(guān)的參數(shù)描述,最后把兩幅圖所描述的相關(guān)參數(shù)進(jìn)行特征匹配。與以手部作為自定義標(biāo)示物的例子,在檢測是否存在手部時(shí),可以采用基于膚色的人手候選區(qū)域檢測、基于Hu矩的完全手部的檢測等識(shí)別手部的方法。對(duì)于其他自定義標(biāo)示物,可以根據(jù)這些自定義標(biāo)示物的圖像特征,判斷采集的圖像中是否與自定義標(biāo)定物匹配的物體。若判斷為存在自定義標(biāo)示物,則執(zhí)行步驟S1204,否則,采用其他物體識(shí)別方法進(jìn)行目標(biāo)對(duì)象識(shí)別,或者結(jié)束操作。需要說明的是,在執(zhí)行子步驟S1202時(shí),在判斷是否存在自定義標(biāo)示物框選物體的動(dòng)作時(shí),若判斷存在自定義標(biāo)示物而不存在相應(yīng)動(dòng)作時(shí),由于已經(jīng)判斷存在自定義標(biāo)示物了,為了減少系統(tǒng)處理流程,則不執(zhí)行該子步驟S1203,直接執(zhí)行步驟S1204。在子步驟S1204中,生成物體識(shí)別指令。具體地,根據(jù)檢測得到的不同的指示多模態(tài)信息(標(biāo)示框、自定義標(biāo)示物和預(yù)定動(dòng)作)生成不同的物體識(shí)別指令。例如,若檢測到標(biāo)識(shí)框,則生成識(shí)別標(biāo)示框中的物體的物體識(shí)別指令,若檢測出預(yù)定動(dòng)作時(shí),則生成識(shí)別具備移動(dòng)特征的物體或框選出的物體的物體識(shí)別指令,若檢測出自定義標(biāo)示物時(shí),則生成在自定義標(biāo)示物設(shè)定范圍內(nèi)或所指示的物體的物體識(shí)別指令。最后,在步驟S130中,響應(yīng)該物體識(shí)別指令對(duì)目標(biāo)對(duì)象進(jìn)行識(shí)別,獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)并進(jìn)行多模態(tài)輸出。在一個(gè)例子中,根據(jù)物體識(shí)別指令提取出標(biāo)示框中的圖片的特征向量,具備移動(dòng)特征的物體或框選出的物體的圖片的特征向量,或者在自定義標(biāo)示物設(shè)定范圍內(nèi)或所指示的物體的圖片的特征向量,然后采用SVM算法對(duì)物體進(jìn)行分類識(shí)別,即特征向量分類。在識(shí)別出物體后,從數(shù)據(jù)庫中獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù),這些反饋輸出數(shù)據(jù)包括與識(shí)別出的物體相關(guān)的知識(shí)性數(shù)據(jù)(例如一幅畫的介紹或畫家簡介)、娛樂性數(shù)據(jù)(例如與“flower”相關(guān)的英文歌曲)、歷史記錄數(shù)據(jù)(例如之前哪個(gè)人用過該桌子)中的至少之一。在某些情況下對(duì)應(yīng)一個(gè)物體可能會(huì)包括多個(gè)反饋輸出數(shù)據(jù),若存在多個(gè)與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù),則可以向用戶發(fā)出請(qǐng)求,讓用戶選擇一項(xiàng)感興趣的反饋輸出數(shù)據(jù),然后根據(jù)用戶選擇的反饋輸出數(shù)據(jù)進(jìn)行多模態(tài)輸出。在進(jìn)行多模態(tài)輸出時(shí),機(jī)器人解析反饋輸出數(shù)據(jù),生成對(duì)應(yīng)的語音信息或圖像信息展現(xiàn)給用戶從而進(jìn)行交互。需要說明的是,針對(duì)單個(gè)物體實(shí)例而言,通常由于圖像采集過程中光照條件、拍攝視角、距離的不同、物體自身的非剛體形變以及其他物體的部分遮擋,使得物體實(shí)例的表觀特征產(chǎn)生很大的變化,給物體識(shí)別帶來了極大的困難,容易導(dǎo)致物體識(shí)別失敗。在此情況下,機(jī)器人可以輸出詢問物體名稱及所需反饋的信息,根據(jù)獲取的反饋信息創(chuàng)建與該物體相關(guān)的反饋輸出數(shù)據(jù)。具體地,在物體識(shí)別失敗時(shí),向用戶發(fā)出“該物體是什么?與它相關(guān)的反饋信息有哪些”的問詢信息,用戶可以發(fā)出語音信息告知機(jī)器人,或者向機(jī)器人傳輸相應(yīng)的文本內(nèi)容,機(jī)器人在獲取用戶反饋的數(shù)據(jù)后,記錄該物體的名稱以及相應(yīng)的反饋輸出數(shù)據(jù),供下一次物體識(shí)別時(shí)使用。本發(fā)明實(shí)施例能夠在提取物體形狀特征時(shí)簡化提取步驟,使提取出的物體形狀特征更加準(zhǔn)確。而且,在識(shí)別出物體后還可以根據(jù)物體信息從各種角度向用戶輸出多模態(tài)數(shù)據(jù)與用戶進(jìn)行交互,提高了機(jī)器人的智能性和用戶的體驗(yàn)性。第二實(shí)施例圖7為本申請(qǐng)實(shí)施例的應(yīng)用于智能機(jī)器人的物體識(shí)別裝置300的結(jié)構(gòu)框圖。本實(shí)施例的機(jī)器人視覺系統(tǒng)的硬件組成部分可以包括攝像頭、視頻解碼器、處理模塊和外部顯示器,在該智能機(jī)器人的處理模塊優(yōu)選安裝有機(jī)器人操作系統(tǒng)。如圖7所示,本申請(qǐng)實(shí)施例的物體識(shí)別裝置300主要包括:多模態(tài)數(shù)據(jù)解析模塊310、指示信息獲取模塊320、多模態(tài)輸出模塊330和反饋輸出數(shù)據(jù)創(chuàng)建模塊340。多模態(tài)數(shù)據(jù)解析模塊310,其獲取并解析多模態(tài)輸入數(shù)據(jù),所述多模態(tài)輸入數(shù)據(jù)包括待識(shí)別物體的信息。指示信息獲取模塊320,其從解析結(jié)果中獲取與物體識(shí)別關(guān)聯(lián)的指示多模態(tài)信息,以生成物體識(shí)別指令,其中,所述指示多模態(tài)信息為指示待識(shí)別物體的輪廓或區(qū)域的信息。具體來說,所述指示多模態(tài)信息包括表示圈定待識(shí)別物體輪廓或區(qū)域的標(biāo)示框、指示待識(shí)別物體輪廓或區(qū)域的自定義標(biāo)示物和預(yù)定動(dòng)作的任一信息。多模態(tài)輸出模塊330,其響應(yīng)該物體識(shí)別指令對(duì)目標(biāo)對(duì)象進(jìn)行識(shí)別,獲取與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)并進(jìn)行多模態(tài)輸出。所述與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)包括與識(shí)別出的物體相關(guān)的知識(shí)性數(shù)據(jù)、娛樂性數(shù)據(jù)、歷史記錄數(shù)據(jù)中的至少之一。所述多模態(tài)輸出模塊330,其進(jìn)一步在存在多個(gè)與識(shí)別結(jié)果關(guān)聯(lián)的反饋輸出數(shù)據(jù)時(shí),則根據(jù)用戶選擇的反饋輸出數(shù)據(jù)進(jìn)行多模態(tài)輸出。反饋輸出數(shù)據(jù)創(chuàng)建模塊340,其在物體識(shí)別失敗時(shí),輸出詢問物體名稱及所需反饋的信息,根據(jù)獲取的反饋信息創(chuàng)建與該物體相關(guān)的反饋輸出數(shù)據(jù)。通過合理設(shè)置,本實(shí)施例的物體識(shí)別裝置300可以執(zhí)行第一實(shí)施例的各個(gè)步驟,此處不再贅述。由于本發(fā)明的方法描述的是在計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn)的。該計(jì)算機(jī)系統(tǒng)例如可以設(shè)置在機(jī)器人的控制核心處理器中。例如,本文所述的方法可以實(shí)現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機(jī)器人操作系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實(shí)現(xiàn)為存儲(chǔ)在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中的程序指令集合。當(dāng)以這種方式實(shí)現(xiàn)時(shí),該計(jì)算機(jī)程序包括一組指令,當(dāng)該組指令由計(jì)算機(jī)運(yùn)行時(shí)其促使計(jì)算機(jī)執(zhí)行能實(shí)施上述功能的方法??删幊踢壿嬁梢詴簳r(shí)或永久地安裝在非暫時(shí)性有形計(jì)算機(jī)可讀介質(zhì)中,例如只讀存儲(chǔ)器芯片、計(jì)算機(jī)存儲(chǔ)器、磁盤或其他存儲(chǔ)介質(zhì)。除了以軟件來實(shí)現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設(shè)備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯,或者包括它們?nèi)我饨M合的任何其他設(shè)備來體現(xiàn)。所有此類實(shí)施例旨在落入本發(fā)明的范圍之內(nèi)。應(yīng)該理解的是,本發(fā)明所公開的實(shí)施例不限于這里所公開的特定結(jié)構(gòu)、處理步驟或材料,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實(shí)施例的目的,而并不意味著限制。說明書中提到的“一個(gè)實(shí)施例”或“實(shí)施例”意指結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,說明書通篇各個(gè)地方出現(xiàn)的短語“一個(gè)實(shí)施例”或“實(shí)施例”并不一定均指同一個(gè)實(shí)施例。雖然本發(fā)明所公開的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬
技術(shù)領(lǐng)域:
:內(nèi)的技術(shù)人員,在不脫離本發(fā)明所公開的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3