本發(fā)明涉及智能機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種基于多模態(tài)的智能機(jī)器人交互方法和智能機(jī)器人。
背景技術(shù):
隨著社會(huì)的進(jìn)步,機(jī)器人不僅在工業(yè)、醫(yī)學(xué)、農(nóng)業(yè)或者軍事上應(yīng)用廣泛,更是在生活上開始慢慢地融入人類的社交。常見社交上的機(jī)器人應(yīng)用于活動(dòng)現(xiàn)場(chǎng)或者家庭,特別是在活動(dòng)現(xiàn)場(chǎng),機(jī)器人的交互往往能吸引群眾的關(guān)注和興趣。
目前,市面上的機(jī)器人多數(shù)都只是提供簡(jiǎn)單的人機(jī)交互,并未存儲(chǔ)有與用戶相關(guān)的用戶知識(shí)圖譜,因而無法根據(jù)用戶的信息輸入來修改用戶知識(shí)圖譜中的用戶信息,因此無法表現(xiàn)出多樣性的反饋。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于多模態(tài)的智能機(jī)器人交互方法和智能機(jī)器人以使得機(jī)器人能夠通過圖像識(shí)別和語音識(shí)別捕獲大量用戶信息,從而在交互過程中,使得機(jī)器人的反饋更加貼近用戶的實(shí)時(shí)狀態(tài)。
本發(fā)明為了解決上述技術(shù)問題,采用的技術(shù)方案是:一種基于多模態(tài)的智能機(jī)器人交互方法,包括:
步驟S1:?jiǎn)?dòng)人臉識(shí)別和/或聲紋識(shí)別,調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜;
步驟S2:獲取所述用戶的用戶參數(shù),根據(jù)所述用戶參數(shù)來實(shí)時(shí)更新所述用戶知識(shí)圖譜;
步驟S3:根據(jù)更新后的所述用戶知識(shí)圖譜,修改機(jī)器人的參數(shù)設(shè)置;以及
步驟S4:所述機(jī)器人根據(jù)修改后的所述參數(shù)設(shè)置與所述用戶進(jìn)行人機(jī)交互。
優(yōu)選地,還包括:
步驟S5:在所述人機(jī)交互過程中,所述機(jī)器人根據(jù)實(shí)時(shí)捕獲的所述用戶的用戶當(dāng)前狀態(tài)信息進(jìn)行反饋。
優(yōu)選地,所述步驟S1包括:
啟動(dòng)人臉識(shí)別和/或聲紋識(shí)別,獲取用戶照片和/或聲紋;
將所述用戶照片和/或聲紋與用戶信息庫進(jìn)行匹配;以及
根據(jù)匹配結(jié)果,調(diào)取所述用戶的所述用戶知識(shí)圖譜。
優(yōu)選地,所述用戶參數(shù)包括所述用戶的用戶表情,在所述步驟S2中根據(jù)所述用戶表情來實(shí)時(shí)更新所述用戶知識(shí)圖譜中的心情值,所述步驟S3中,利用所述心情值來修正所述機(jī)器人的說話語氣算法。
優(yōu)選地,通過表情識(shí)別單元識(shí)別用戶照片來獲取所述用戶表情。
優(yōu)選地,通過多模態(tài)轉(zhuǎn)換單元和表情推測(cè)單元將所述用戶的多模態(tài)輸入信息轉(zhuǎn)換為文字信息來推測(cè)所述用戶表情。
優(yōu)選地,所述用戶參數(shù)包括所述用戶的當(dāng)前場(chǎng)景,所述步驟S2中根據(jù)所述當(dāng)前場(chǎng)景來實(shí)時(shí)更新所述用戶知識(shí)圖譜中的用戶狀態(tài),所述步驟S3中,利用所述用戶狀態(tài)來修正所述機(jī)器人的問候算法。
本發(fā)明還提供一種智能機(jī)器人,包括:
識(shí)別模塊,用于啟動(dòng)人臉識(shí)別和/或聲紋識(shí)別,調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜;
用戶參數(shù)獲取模塊,用于獲取所述用戶的用戶參數(shù);
更新模塊,用于根據(jù)所述用戶參數(shù)來實(shí)時(shí)更新所述用戶知識(shí)圖譜;
修正模塊,用于根據(jù)更新后的所述用戶知識(shí)圖譜,修改機(jī)器人的參數(shù)設(shè)置;以及
交互模塊,用于所述機(jī)器人根據(jù)修改后的所述參數(shù)設(shè)置與所述用戶進(jìn)行人機(jī)交互。
優(yōu)選地,在所述人機(jī)交互過程中,所述交互模塊還根據(jù)實(shí)時(shí)捕獲的所述用戶的用戶當(dāng)前狀態(tài)信息進(jìn)行反饋。
優(yōu)選地,所述識(shí)別模塊包括:
攝像頭,用于獲取用戶照片;
聲紋識(shí)別單元,用于獲取用戶的聲紋;
用戶信息庫,用于存儲(chǔ)所述用戶的所述用戶知識(shí)圖譜;以及
匹配單元,用于將所述用戶照片與實(shí)時(shí)用戶信息庫進(jìn)行匹配,并根據(jù)匹配結(jié)果,調(diào)取所述用戶的所述用戶知識(shí)圖譜。
優(yōu)選地,所述用戶參數(shù)包括所述用戶的用戶表情,所述更新模塊根據(jù)所述用戶表情來實(shí)時(shí)更新所述用戶知識(shí)圖譜的心情值,所述修正模塊利用所述心情值來修正所述機(jī)器人的說話語氣算法。
優(yōu)選地,所述用戶參數(shù)獲取模塊包括表情識(shí)別單元,通過所述表情識(shí)別單元識(shí)別用戶照片來獲取所述用戶表情。
優(yōu)選地,所述用戶參數(shù)獲取模塊包括多模態(tài)轉(zhuǎn)換單元和表情推測(cè)單元,通過所述多模態(tài)轉(zhuǎn)換單元將所述用戶的多模態(tài)輸入信息轉(zhuǎn)換為文字信息,通過所述表情推測(cè)單元來根據(jù)所述文字信息來推測(cè)所述用戶表情。
優(yōu)選地,所述用戶參數(shù)包括所述用戶的當(dāng)前場(chǎng)景,所述用戶參數(shù)獲取模塊包括用于識(shí)別所述當(dāng)前場(chǎng)景的場(chǎng)景識(shí)別單元,所述更新模塊根據(jù)所述當(dāng)前場(chǎng)景來實(shí)時(shí)更新所述用戶知識(shí)圖譜的用戶狀態(tài),所述修正模塊利用所述用戶狀態(tài)來修正所述機(jī)器人的問候算法。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:本發(fā)明提供的基于多模態(tài)的智能機(jī)器人交互方法,通過人臉識(shí)別和/或聲紋識(shí)別調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜,再通過表情識(shí)別、場(chǎng)景識(shí)別和語音識(shí)別來獲取用戶參數(shù),根據(jù)用戶參數(shù)來實(shí)時(shí)更新用戶知識(shí)圖譜,進(jìn)而修改機(jī)器人的參數(shù)設(shè)置,使得機(jī)器人根據(jù)修改后的參數(shù)設(shè)置于用戶進(jìn)行人機(jī)交互;在之后的人機(jī)交互中,機(jī)器人還可以根據(jù)用戶的用戶當(dāng)前狀態(tài)信息進(jìn)行推理和反饋,由此,能夠大大促進(jìn)人機(jī)交互過程中的趣味性,機(jī)器人的用戶知識(shí)圖譜不單是制造商提前設(shè)定的,而是能夠在與用戶的交流過程中,有意識(shí)地去記錄并體現(xiàn)在反饋中,而在交互過程中,使得機(jī)器人的反饋更加貼近用戶的實(shí)時(shí)狀態(tài)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明一實(shí)施例提供的基于多模態(tài)的智能機(jī)器人交互方法的流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明一實(shí)施例提供的基于多模態(tài)的智能機(jī)器人交互方法的流程圖。如圖1所示,基于多模態(tài)的智能機(jī)器人交互方法包括以下步驟:
步驟S1:?jiǎn)?dòng)人臉識(shí)別和/或聲紋識(shí)別,調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜。
具體地,在本發(fā)明一實(shí)施例中,機(jī)器人首先使用自帶的攝像頭或語音識(shí)別單元,捕獲當(dāng)前使用用戶的照片或聲音,根據(jù)用戶的照片或聲音,從用戶信息庫調(diào)取與用戶相匹配的用戶知識(shí)圖譜,該用戶知識(shí)圖譜存儲(chǔ)有與該用戶對(duì)應(yīng)的參數(shù)設(shè)置,例如,用戶偏好的音樂、喜歡的語調(diào)等。
具體地,在本發(fā)明一實(shí)施例中,步驟S1包括以下步驟:
步驟S11:?jiǎn)?dòng)人臉識(shí)別和/或聲紋識(shí)別,獲取用戶照片和/或聲紋;
步驟S12:將所述用戶照片和/或聲紋與用戶信息庫進(jìn)行匹配;
步驟S13:根據(jù)匹配結(jié)果,調(diào)取所述用戶的所述用戶知識(shí)圖譜。
步驟S2:獲取所述用戶的用戶參數(shù),根據(jù)所述用戶參數(shù)來實(shí)時(shí)更新所述用戶知識(shí)圖譜。
具體地,在本發(fā)明一實(shí)施例中,在調(diào)取了與用戶對(duì)應(yīng)的用戶知識(shí)圖譜后,進(jìn)一步來獲取與用戶當(dāng)前信息相關(guān)的用戶參數(shù),例如,用戶是何種表情、說話的語氣如何、處于什么樣的環(huán)境中等,根據(jù)獲取的用戶參數(shù)來實(shí)時(shí)更新用戶知識(shí)圖譜中的相關(guān)信息。
步驟S3:根據(jù)更新后的所述用戶知識(shí)圖譜,修改機(jī)器人的參數(shù)設(shè)置。
具體地,在本發(fā)明一實(shí)施例中,在用戶知識(shí)圖譜被更新后,利用更新后的用戶知識(shí)圖譜去修改機(jī)器人的參數(shù)設(shè)置,這樣機(jī)器人就可以利用與用戶當(dāng)前信息相關(guān)的內(nèi)容來提供更具有針對(duì)性的反饋,而不是根據(jù)制造商提前設(shè)置后的參數(shù)進(jìn)行千篇一律的反饋。由此,大大提高了人機(jī)交互的趣味性。
進(jìn)一步地,所述用戶參數(shù)包括所述用戶的用戶表情,在所述步驟S2中根據(jù)所述用戶表情來實(shí)時(shí)更新所述用戶知識(shí)圖譜中的心情值,所述步驟S3中,利用所述心情值來修正所述機(jī)器人的說話語氣算法。其中,可以通過表情識(shí)別單元識(shí)別用戶照片來推測(cè)所述用戶表情;還可以通過多模態(tài)轉(zhuǎn)換單元和表情推測(cè)單元將所述用戶的多模態(tài)輸入信息轉(zhuǎn)換為文字信息來推測(cè)所述用戶表情,多模態(tài)輸入包括但不限于,視頻、人臉、表情、場(chǎng)景、聲紋、指紋、虹膜瞳孔、光感等信息。具體地,在捕獲用戶照片的同時(shí),機(jī)器人還能識(shí)別到用戶的表情,實(shí)時(shí)更新用戶知識(shí)圖譜中的心情值,并通過對(duì)心情值的讀取,作為用戶參數(shù),加入到機(jī)器人說話語氣的算法中;同時(shí),通過對(duì)心情的推理,在交互中過程體現(xiàn)出多樣性,比如主人表情為難過,機(jī)器人的反饋會(huì)更加偏向安慰,隨機(jī)播放的音樂,會(huì)偏向輕柔的風(fēng)格。在人際交互的過程中,用戶的多模態(tài)輸入信息也能實(shí)時(shí)影響用戶知識(shí)圖譜,比如,用戶說,我好高興啊,知識(shí)圖譜就會(huì)實(shí)時(shí)更新當(dāng)前是的心情值;而知識(shí)圖譜的實(shí)時(shí)更新,也會(huì)實(shí)時(shí)影響到接下來的人機(jī)交互。
進(jìn)一步地,所述用戶參數(shù)包括所述用戶的當(dāng)前場(chǎng)景,所述步驟S2中根據(jù)所述當(dāng)前場(chǎng)景來實(shí)時(shí)更新所述用戶知識(shí)圖譜中的用戶狀態(tài),所述步驟S3中,利用所述用戶狀態(tài)來修正所述機(jī)器人的問候算法。在捕獲用戶照片的同時(shí),機(jī)器人還能識(shí)別到用戶當(dāng)前的場(chǎng)景,比如室內(nèi),戶外,餐廳等,實(shí)時(shí)更新用戶知識(shí)圖譜中的狀態(tài),并通過對(duì)狀態(tài)的讀取,作為用戶參數(shù),加入到機(jī)器人問候的輸出算法中;比如在工作場(chǎng)景,機(jī)器人會(huì)對(duì)主人主動(dòng)提出關(guān)懷。
步驟S4:所述機(jī)器人根據(jù)修改后的所述參數(shù)設(shè)置與所述用戶進(jìn)行人機(jī)交互。
步驟S5:在所述人機(jī)交互過程中,所述機(jī)器人根據(jù)實(shí)時(shí)捕獲的所述用戶的用戶當(dāng)前狀態(tài)信息進(jìn)行反饋。
具體地,用戶當(dāng)前狀態(tài)信息包括但不限于語言信息、表情、語氣、穿著、姿態(tài)等。在與用戶的交互過程中,機(jī)器人實(shí)時(shí)捕獲用戶包括姓名,愛好,天氣等的信息,存儲(chǔ)在私有的用戶知識(shí)圖譜中,并形成一些推理,體現(xiàn)在反饋中。比如,用戶先說“我最喜歡打籃球”,后面又說“我最喜歡踢足球”,機(jī)器人就會(huì)反饋“不是最喜歡打籃球嗎?”。也就是說,并不是只能在最初攝像頭開啟的時(shí)候捕獲用戶參數(shù),在交互的過程中,也是能夠?qū)崟r(shí)捕獲一些語言信息的,根據(jù)這些用戶當(dāng)前狀態(tài)信息,結(jié)合用戶知識(shí)圖譜中的相關(guān)信息,機(jī)器人可以呈現(xiàn)多樣性的反饋。
本發(fā)明提供的基于多模態(tài)的智能機(jī)器人交互方法,通過人臉識(shí)別或聲紋識(shí)別調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜,再通過表情識(shí)別、場(chǎng)景識(shí)別和語音識(shí)別來獲取用戶參數(shù),根據(jù)用戶參數(shù)來實(shí)時(shí)更新用戶知識(shí)圖譜,進(jìn)而修改機(jī)器人的參數(shù)設(shè)置,使得機(jī)器人根據(jù)修改后的參數(shù)設(shè)置于用戶進(jìn)行人機(jī)交互;由此,能夠大大促進(jìn)人機(jī)交互過程中的趣味性,機(jī)器人的用戶知識(shí)圖譜不單是制造商提前設(shè)定的,而是能夠在與用戶的交流過程中,有意識(shí)地去記錄并體現(xiàn)在反饋中,而在交互過程中,使得機(jī)器人的反饋更加貼近用戶的實(shí)時(shí)狀態(tài)。
本發(fā)明一實(shí)施例還提供的一種智能機(jī)器人。本發(fā)明提供的智能機(jī)器人包括:
識(shí)別模塊,用于啟動(dòng)人臉識(shí)別和/或聲紋識(shí)別,調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜;
用戶參數(shù)獲取模塊,用于獲取所述用戶的用戶參數(shù);
更新模塊,用于根據(jù)所述用戶參數(shù)來實(shí)時(shí)更新所述用戶知識(shí)圖譜;
修正模塊,用于根據(jù)更新后的所述用戶知識(shí)圖譜,修改機(jī)器人的參數(shù)設(shè)置;以及
交互模塊,用于所述機(jī)器人根據(jù)修改后的所述參數(shù)設(shè)置與所述用戶進(jìn)行人機(jī)交互。在所述人機(jī)交互過程中,所述交互模塊還根據(jù)實(shí)時(shí)捕獲的所述用戶的用戶當(dāng)前狀態(tài)信息進(jìn)行反饋。
進(jìn)一步地,所述識(shí)別模塊包括:
攝像頭,用于獲取用戶照片;
聲紋識(shí)別單元,用于獲取用戶的聲紋;
用戶信息庫,用于存儲(chǔ)所述用戶的所述用戶知識(shí)圖譜;以及
匹配單元,用于將所述用戶照片與實(shí)時(shí)用戶信息庫進(jìn)行匹配,并根據(jù)匹配結(jié)果,調(diào)取所述用戶的所述用戶知識(shí)圖譜。
進(jìn)一步地,所述用戶參數(shù)包括所述用戶的用戶表情,所述更新模塊根據(jù)所述用戶表情來實(shí)時(shí)更新所述用戶知識(shí)圖譜的心情值,所述修正模塊利用所述心情值來修正所述機(jī)器人的說話語氣算法。其中,所述用戶參數(shù)獲取模塊包括表情識(shí)別單元,通過所述表情識(shí)別單元識(shí)別用戶照片來獲取所述用戶表情;所述用戶參數(shù)獲取模塊還包括多模態(tài)轉(zhuǎn)換單元和表情推測(cè)單元,通過所述多模態(tài)轉(zhuǎn)換單元將所述用戶的多模態(tài)輸入信息轉(zhuǎn)換為文字信息,通過所述表情推測(cè)單元來根據(jù)所述文字信息來推測(cè)所述用戶表情。
進(jìn)一步地,所述用戶參數(shù)包括所述用戶的當(dāng)前場(chǎng)景,所述用戶參數(shù)獲取模塊包括用于識(shí)別所述當(dāng)前場(chǎng)景的場(chǎng)景識(shí)別單元,所述更新模塊根據(jù)所述當(dāng)前場(chǎng)景來實(shí)時(shí)更新所述用戶知識(shí)圖譜的用戶狀態(tài),所述修正模塊利用所述用戶狀態(tài)來修正所述機(jī)器人的問候算法。
有利地,本發(fā)明提供的智能機(jī)器人,通過人臉識(shí)別或聲紋識(shí)別調(diào)取與用戶對(duì)應(yīng)的用戶知識(shí)圖譜,再通過表情識(shí)別、場(chǎng)景識(shí)別和語音識(shí)別來獲取用戶參數(shù),根據(jù)用戶參數(shù)來實(shí)時(shí)更新用戶知識(shí)圖譜,進(jìn)而修改機(jī)器人的參數(shù)設(shè)置,使得機(jī)器人根據(jù)修改后的參數(shù)設(shè)置于用戶進(jìn)行人機(jī)交互;由此,能夠大大促進(jìn)人機(jī)交互過程中的趣味性,機(jī)器人的用戶知識(shí)圖譜不單是制造商提前設(shè)定的,而是能夠在與用戶的交流過程中,有意識(shí)地去記錄并體現(xiàn)在反饋中,而在交互過程中,使得機(jī)器人的反饋更加貼近用戶的實(shí)時(shí)狀態(tài)。
以上所揭露的僅為本發(fā)明一種較佳實(shí)施例而已,當(dāng)然不能以此來限定本發(fā)明之權(quán)利范圍,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分流程,并依本發(fā)明權(quán)利要求所作的等同變化,仍屬于發(fā)明所涵蓋的范圍。