本發(fā)明涉及機器人技術(shù)領(lǐng)域,具體地說,涉及一種用于智能機器人的人機交互方法及裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計算機技術(shù)以及人工智能技術(shù)的引入,機器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴展到了醫(yī)療、保健、家庭、娛樂以及服務(wù)行業(yè)等領(lǐng)域。而人們對于機器人的要求也從簡單重復(fù)的機械動作提升為具有擬人問答、自主性及與其他機器人進行交互的智能機器人,人機交互也就成為決定智能機器人發(fā)展的重要因素。因此如何提高智能機器人的人機交互水平成為人們越來越關(guān)注的問題。
技術(shù)實現(xiàn)要素:
為解決上述問題,本發(fā)明提供了一種用于智能機器人的人機交互方法,其包括:
交互信息獲取步驟,獲取用戶輸入的多模態(tài)交互信息;
字符識別步驟,對所述多模態(tài)交互信息進行解析,根據(jù)解析結(jié)果進行視覺采集,并對視覺采集到的圖像進行光學(xué)字符識別,得到光學(xué)字符識別結(jié)果;
反饋信息生成步驟,根據(jù)所述光學(xué)字符識別結(jié)果生成多模態(tài)反饋信息并輸出。
根據(jù)本發(fā)明的一個實施例,在所述反饋信息生成步驟中,根據(jù)所述解析結(jié)果生成用戶意圖信息,并根據(jù)所述光學(xué)字符識別結(jié)果和用戶意圖信息,生成所述多模態(tài)反饋信息。
根據(jù)本發(fā)明的一個實施例,在所述反饋信息生成步驟中,根據(jù)所述光學(xué)字符識別結(jié)果生成相應(yīng)的反饋信息,并判斷該反饋信息是否正常,如果該反饋信息正常,則利用利用tts引擎朗讀該反饋信息。
根據(jù)本發(fā)明的一個實施例,如果所述光學(xué)字符識別結(jié)果正常,則將所述光學(xué)字符識別結(jié)果發(fā)送云端服務(wù)器以由所述云端服務(wù)器根據(jù)所述光學(xué)字符識別結(jié)果進行商品檢索,并根據(jù)所述云端服務(wù)器發(fā)送來的商品檢索結(jié)果生成所述多模態(tài)反饋信息。
根據(jù)本發(fā)明的一個實施例,所述方法還包括:
在對所述多模態(tài)交互信息進行解析時,獲取多模態(tài)交互信息中的識別意圖,并開啟光學(xué)字符識別應(yīng)用,所述光學(xué)字符識別應(yīng)用運行在機器人操作系統(tǒng)中,所述機器人操作系統(tǒng)裝載于所述智能機器人上。
本發(fā)明還提供了一種用于智能機器人的人機交互裝置,其包括:
交互信息獲取模塊,其用于獲取用戶輸入的多模態(tài)交互信息;
字符識別模塊,其用于對所述多模態(tài)交互信息進行解析,根據(jù)解析結(jié)果進行視覺采集,并對視覺采集到的圖像進行光學(xué)字符識別,得到光學(xué)字符識別結(jié)果;
反饋信息生成模塊,其用于根據(jù)所述光學(xué)字符識別結(jié)果生成多模態(tài)反饋信息并輸出。
根據(jù)本發(fā)明的一個實施例,所述反饋信息生成模塊配置為根據(jù)所述解析結(jié)果生成用戶意圖信息,并根據(jù)所述光學(xué)字符識別結(jié)果和用戶意圖信息,生成所述多模態(tài)反饋信息。
根據(jù)本發(fā)明的一個實施例,所述反饋信息生成模塊配置為根據(jù)所述光學(xué)字符識別結(jié)果生成相應(yīng)的反饋信息,并判斷該反饋信息是否正常,如果該反饋信息正常,則利用利用tts引擎朗讀該反饋信息。
根據(jù)本發(fā)明的一個實施例,如果所述光學(xué)字符識別結(jié)果正常,所述字符識別模塊則配置為將所述光學(xué)字符識別結(jié)果發(fā)送云端服務(wù)器以由所述云端服務(wù)器根據(jù)所述光學(xué)字符識別結(jié)果進行商品檢索,所述反饋信息生成模塊配置為根據(jù)所述云端服務(wù)器發(fā)送來的商品檢索結(jié)果生成所述多模態(tài)反饋信息。
根據(jù)本發(fā)明的一個實施例,所述裝置在對所述多模態(tài)交互信息進行解析時,獲取多模態(tài)交互信息中的識別意圖,并開啟光學(xué)字符識別應(yīng)用,所述光學(xué)字符識別應(yīng)用運行在機器人操作系統(tǒng)中,所述機器人操作系統(tǒng)裝載于所述智能機器人上。
本發(fā)明所提供的用于智能機器人的人機交互方法及裝置使得智能機器人能夠通過主動識別圖像中的字符信息來獲取到該圖像中對應(yīng)物體的相關(guān)信息,從而實現(xiàn)了通過圖像中的字符信息來對物體進行識別的功能。相較于現(xiàn)有的人機交互方法,本方法使得智能機器人更加智能化和人性化,從而提高了智能機器人的用戶體驗。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要的附圖做簡單的介紹:
圖1是根據(jù)本發(fā)明一個實施例的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖;
圖2是根據(jù)發(fā)明另一個實施例的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖;
圖3是根據(jù)發(fā)明再一個實施例的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖;
圖4是根據(jù)發(fā)明一個實施例的用于智能機器人的人機交互裝置的結(jié)構(gòu)示意圖。
具體實施方式
以下將結(jié)合附圖及實施例來詳細說明本發(fā)明的實施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達成技術(shù)效果的實現(xiàn)過程能充分理解并據(jù)以實施。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實施例以及各實施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護范圍之內(nèi)。
同時,在以下說明中,出于解釋的目的而闡述了許多具體細節(jié),以提供對本發(fā)明實施例的徹底理解。然而,對本領(lǐng)域的技術(shù)人員來說顯而易見的是,本發(fā)明可以不用這里的具體細節(jié)或者所描述的特定方式來實施。
另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
現(xiàn)有的人機交互方法只是集中在用戶與智能機器人的問答方面,在此過程中,智能機器人所做的工作主要是根據(jù)用戶所輸入的交互信息檢索生成相應(yīng)的答案來輸出,從而形成一問一答的交互過程。顯然這種人機交互方法使得智能機器人顯得過于呆板,人們對于智能機器人的感受也只會停留在智能機器人仍是一臺機器的水平上。
針對現(xiàn)有技術(shù)中所存在的上述問題,本發(fā)明提供了一種新的用于智能機器人的人機交互方法,該方法能夠主動識別圖像中的字符信息來獲取到該圖像中對應(yīng)物體的相關(guān)信息,從而實現(xiàn)了通過圖像中的字符信息來對物體進行識別的功能。
為了更加清楚地闡述本發(fā)明所提供的用于智能機器人的人機交互方法的實現(xiàn)原理、實現(xiàn)流程以及優(yōu)點,以下分別結(jié)合不同的實施例來對該方法作進一步地說明。
實施例一:
圖1示出了本實施例所提供的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖。
如圖1所示,本實施例所提供的人機交互方法首先在步驟s101中獲取用戶輸入的多模態(tài)交互信息。本實施例中,該方法在步驟s101中所獲取到的多模態(tài)交互信息中優(yōu)選地包括語音信息。當(dāng)然,在本發(fā)明的其他實施例中,根據(jù)實際需要,該方法在步驟s101中所獲取到的多模態(tài)交互信息中還可以包含其他合理信息,本發(fā)明不限于此。例如,該方法所獲取到的多模態(tài)交互信息中還可以包含機器人采集的由用戶發(fā)出的文本信息、手勢信息和/或肢體動作信息,以及機器人檢測到的傳感信息等。
在獲取到多模態(tài)交互信息后,該方法會在步驟s102中對上述步驟s101中所獲取到的多模態(tài)交互信息進行解析,并根據(jù)解析結(jié)果進行視覺采集,這樣便可以得到相應(yīng)的視覺圖像。在得到視覺圖像后,該方法會進一步在步驟s103中對步驟s102中采集得到視覺圖像進行光學(xué)字符識別,從而得到光學(xué)字符識別結(jié)果。
具體地,本實施例中,該方法在步驟s102中對步驟s101中所獲取到的多模態(tài)交互信息進行解析時,還會獲取到上述多模態(tài)交互信息中的識別意圖。這樣該方法也就會根據(jù)該識別意圖來開啟光學(xué)字符識別應(yīng)用。需要指出的是,本實施例中,光學(xué)字符識別應(yīng)用優(yōu)選地運行在機器人操作系統(tǒng)中,而機器人操作系統(tǒng)則優(yōu)選地裝載于智能機器人上。
光學(xué)字符識別(opticalcharacterrecognition,簡稱ocr)是對文本資料圖像文件進行分析處理,獲取文字及版面信息的過程。由于拍攝角度、光線和字符印刷質(zhì)量的影響,該方法在步驟s102在所獲取到的視覺圖像中的字符很可能存在字型畸變的問題,并且交連、污點以及噪聲等干擾也會影響字符識別的效果,因此本實施例中所提供的方法在對步驟s102中所采集到的視覺圖像進行光學(xué)字符識別的過程中,首先會對上述視覺圖像進行預(yù)處理。通過對視覺圖像進行預(yù)處理,該方法能夠有效突出視覺圖像中的應(yīng)用信息,去除冗余干擾信息,有利用提取字符圖片中的重要特征信息,從而提供字符識別質(zhì)量。
具體地,本實施例中,該方法通過對步驟s102中所采集得到視覺圖像進行灰度化、噪聲去除、二值化及光照補償、傾斜校正、字符分割與歸一化等操作來對上述視覺圖像進行預(yù)處理。當(dāng)然,在本方發(fā)明的其他實施例中,該方法還可以采用其他合理方式來對視覺圖像進行預(yù)處理,本發(fā)明不限于此。
在完成對視覺圖像的預(yù)處理后,該方法會利用模板匹配的方式來識別出預(yù)處理后的視覺圖像中所包含的字符。本實施例中,該方法優(yōu)選地采用基于特征的模板匹配方法來對視覺圖像進行字符識別?;谔卣鞯哪0迤ヅ浞椒ㄊ轻槍ψ址赜械狞c、線、面特征進行量化并利用這些特征與模板對比后匹配。其中,匹配針對的特征有點特征、邊緣特征、紋理特征、形狀特征以及空間特征等?;谔卣鞯哪0迤ヅ浞ㄋ崛〉奶卣魇墙⒃趫D像降低維度的基礎(chǔ)上的,因此其算法的計算量較低,這也就有效提高了算法的處理速度。
需要指出的是,在本發(fā)明的其他實施例中,該方法還可以采用其他合理方式來根據(jù)預(yù)處理后的視覺圖像得到光學(xué)字符識別結(jié)果,本發(fā)明不限于此。例如,在本發(fā)明的一個實施例中,該方法還可以采用基于灰度的模板匹配法來對預(yù)處理后的視覺圖像進行光學(xué)字符識別。
基于灰度的模板匹配法是將樣本圖像視為二維信號,從統(tǒng)計學(xué)角度,使用統(tǒng)計相關(guān)的方法確定各信號的匹配程度。其中,基于灰度的模板匹配法所使用的統(tǒng)計特征包括統(tǒng)計均值、方差、協(xié)方差矩陣、本征向量等,利用統(tǒng)計特征,該方法能夠確定出待識別字符與模板間的吻合度,從而得到最終的字符識別結(jié)果。
如圖1所示,在得到光學(xué)字符識別結(jié)果后,該方法會在步驟s104中根據(jù)步驟s103中所得到的光學(xué)字符識別結(jié)果生成相應(yīng)的多模態(tài)反饋信息并輸出。
例如,用戶在手掌上放置了一瓶花生醬,并對智能機器人說“你看看我手上是什么”。該方法在步驟s101中也就可以獲取到用戶所說的上述語音信息,通過對上述語音信息進行識別,該方法會確定出此時需要對用戶手上的物體進行識別,因此該方法會在步驟s103中進行視覺采集并對采集到的視覺圖像進行光學(xué)字符識別,從而得到諸如“老干媽、花生醬”的字符信息。該方法在步驟s104中也就可以根據(jù)上述字符信息來生成并輸出諸如“這是老干媽牌花生醬”的語音信息。
實施例二:
圖2示出了本實施例所提供的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖。
如圖2所示,本實施例所提供的人機交互方法首先在步驟s201中獲取用戶輸入的多模態(tài)交互信息。在獲取到多模態(tài)交互信息后,該方法會在步驟s202中對上述步驟s201中所獲取到的多模態(tài)交互信息進行解析,并根據(jù)解析結(jié)果進行視覺采集,這樣便可以得到相應(yīng)的視覺圖像。在得到視覺圖像后,該方法會進一步在步驟s203中對步驟s202中采集得到視覺圖像進行光學(xué)字符識別,從而得到光學(xué)字符識別結(jié)果。在得到光學(xué)字符識別結(jié)果后,該方法會在步驟s204中根據(jù)上述光學(xué)字符識別結(jié)果生成相應(yīng)的反饋信息。
需要指出的是,本實施例中,該方法實現(xiàn)上述步驟s201至步驟s204的具體原理以及過程與上述實施例一中步驟s101至步驟s104所闡述的內(nèi)容類似,故在此不再對步驟s201至步驟s204的相關(guān)內(nèi)容進行贅述。
如圖2所示,本實施例中,在生成反饋信息后,該方法還會在步驟s205中判斷上述步驟s204中所生成的反饋信息是否正常。其中,如果上述步驟s204中所生成的反饋信息正常,那么該方法則會在步驟s206中利用tts引擎朗讀上述反饋信息。
需要指出的是,本實施例中,該方法還能夠根據(jù)對多模態(tài)交互信息進行解析所得到的解析結(jié)果來生成用戶意圖信息,在得到用戶意圖信息后,該方法會結(jié)合用戶意圖信息來根據(jù)光學(xué)字符識別結(jié)果生成相應(yīng)的多模態(tài)反饋信息并輸出。
例如,用戶向智能機器人輸入了諸如“幫我從冰箱貼上看看我需要買什么水果”的語音信息,該方法通過對上述語音信息進行解析,能夠得到諸如“查看代賣水果”的用于意圖信息,而該方法通過光學(xué)字符識別而得到的冰箱貼上所寫有的字符包括“大米、蘋果、鹽”,那么此時該方法最終也就可以根據(jù)上述用戶意圖信息和光學(xué)字符識別結(jié)果生成并輸出“你需要買點蘋果”的語音信息。
實施例三:
圖3示出了本實施例所提供的用于智能機器人的人機交互方法的實現(xiàn)流程示意圖。
如圖3所示,本實施例所提供的人機交互方法首先在步驟s301中獲取用戶輸入的多模態(tài)交互信息。在獲取到多模態(tài)交互信息后,該方法會在步驟s302中對上述步驟s301中所獲取到的多模態(tài)交互信息進行解析,并根據(jù)解析結(jié)果進行視覺采集,這樣便可以得到相應(yīng)的視覺圖像。在得到視覺圖像后,該方法會進一步在步驟s303中對步驟s302中采集得到視覺圖像進行光學(xué)字符識別,從而得到光學(xué)字符識別結(jié)果。
需要指出的是,本實施例中,該方法實現(xiàn)上述步驟s301至步驟s303的具體原理以及過程與上述實施例一中步驟s101至步驟s103所闡述的內(nèi)容類似,故在此不再對步驟s301至步驟s303的相關(guān)內(nèi)容進行贅述。
如圖3所示,本實施例中,在得到光學(xué)字符識別結(jié)果后,該方法會在步驟s304中判斷步驟s303中所得到的光學(xué)字符識別結(jié)果是否正常。其中,如果步驟s303中所得到的光學(xué)字符識別結(jié)果正常,那么此時該方法則會將步驟s305中所得到的光學(xué)字符識別結(jié)果傳輸至云端服務(wù)器。云端服務(wù)器在得到上述光學(xué)字符識別結(jié)果后,會根據(jù)該光學(xué)字符識別結(jié)果來進行商品檢索,從而得到對應(yīng)的商品檢索結(jié)果。并且,云端服務(wù)器還會將檢索得到的商品檢索結(jié)果反饋給智能機器人。
本實施例中,該方法在步驟s306中接收到云端服務(wù)器反饋來的商品檢索結(jié)果后,會根據(jù)該商品檢索結(jié)果來生成相應(yīng)的多模態(tài)反饋信息并輸出。而如果云端服務(wù)器無法檢索到合適的結(jié)果,那么云端服務(wù)器則會生成相應(yīng)的指示信息,而該方法則可以根據(jù)云端服務(wù)器所發(fā)送來的上述指示信息生成并輸出相應(yīng)的表征識別失敗的反饋信息。
例如,該方法所得到字符識別結(jié)果中包含“老干媽、花生”的字符,云端服務(wù)器根據(jù)上述字符識別結(jié)果來商品檢索,從而得到了匹配度最高的物品名稱(例如老干媽牌花生醬),那么此時該方法也就會根據(jù)云端服務(wù)器所檢索得到的上述商品檢索結(jié)果來生成并輸出諸如“這是老干媽牌花生醬,很好吃呢”的語音信息。
而如果步驟s303中所得到的光學(xué)字符識別結(jié)果異常,那么此時該方法則會生成并輸出相應(yīng)的光學(xué)字符識別失敗指示信息,以提示用戶此次識別過程失敗。
例如,如果該方法在步驟s303中所得到的光學(xué)字符識別結(jié)果為亂碼,此時該方法則會根據(jù)該光學(xué)字符識別結(jié)果生成并輸出諸如“哎呀,我看不清”或是“我不知道這是什么”的語音反饋信息。
再例如,如果該方法在步驟s303中在預(yù)設(shè)時長內(nèi)無法生成相應(yīng)的光學(xué)字符識別結(jié)果,那么該方法同樣也會生成并輸出表征此次識別過程失敗的反饋信息。同樣,智能機器人的識別目標(biāo)為一張白紙,而白紙上并未寫有相關(guān)字符,那么此時該方法在步驟s303中所得到的光學(xué)字符識別結(jié)果為空,此時該方法也會生成并輸出表征此次識別過程失敗的反饋信息。
從上述描述中可以看出,本發(fā)明所提供的用于智能機器人的人機交互方法及裝置使得智能機器人能夠通過主動識別圖像中的字符信息來獲取到該圖像中對應(yīng)物體的相關(guān)信息,從而實現(xiàn)了通過圖像中的字符信息來對物體進行識別的功能。相較于現(xiàn)有的人機交互方法,本方法使得智能機器人更加智能化和人性化,從而提高了智能機器人的用戶體驗。
本發(fā)明還提供了一種用于智能機器人的人機交互裝置,其中,圖4示出了本實施例中該裝置的結(jié)構(gòu)示意圖。
如圖4所示,本實施例所提供的用于智能機器人的人機交互裝置優(yōu)選地包括:交互信息獲取模塊401、字符識別模塊402以及反饋信息生成模塊403。其中,交互信息獲取模塊401用于獲取用戶輸入的多模態(tài)交互信息。其中,本實施例中,交互信息獲取模塊401所獲取到的多模態(tài)交互信息中優(yōu)選地包括語音信息。當(dāng)然,在本發(fā)明的其他實施例中,交互信息獲取模塊401所獲取到的多模態(tài)交互信息中還可以包含其他合理形式的交互信息,本發(fā)明不限于此。
字符識別模塊402與交互信息獲取模塊401連接,其能對交互信息獲取模塊401所獲取到的多模態(tài)交互信息進行解析,并根據(jù)解析結(jié)果來進行視覺采集。在得到相關(guān)視覺圖像后,字符識別模塊402則會對視覺圖像進行光學(xué)字符識別,從而得到相應(yīng)的光學(xué)字符識別結(jié)果。
本實施例中,字符識別模塊402會將自身生成的光學(xué)字符識別結(jié)果傳輸至與之連接的反饋信息生成模塊403,以由反饋信息生成模塊403來根據(jù)上述光學(xué)字符識別結(jié)果來生成相應(yīng)的多模態(tài)反饋信息并輸出。
需要指出的是,在本發(fā)明的不同實施例中,上述交互信息獲取模塊401、字符識別模塊402以及反饋信息生成模塊403實現(xiàn)其各自功能的具體原理以及過程既可以與上述實施例一中步驟s101至步驟s104所闡述的內(nèi)容相同,也可以與上述實施例二中步驟s201至步驟s206所闡述的內(nèi)容相同,還可以與上述實施例三中步驟s301至步驟s306所闡述的內(nèi)容相同,抑或是采用其他合理的實現(xiàn)方式來實現(xiàn),本發(fā)明不限于此。
應(yīng)該理解的是,本發(fā)明所公開的實施例不限于這里所公開的特定結(jié)構(gòu)或處理步驟,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實施例的目的,而并不意味著限制。
說明書中提到的“一個實施例”或“實施例”意指結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
雖然上述示例用于說明本發(fā)明在一個或多個應(yīng)用中的原理,但對于本領(lǐng)域的技術(shù)人員來說,在不背離本發(fā)明的原理和思想的情況下,明顯可以在形式上、用法及實施的細節(jié)上作各種修改而不用付出創(chuàng)造性勞動。因此,本發(fā)明由所附的權(quán)利要求書來限定。