本發(fā)明涉及人工智能領(lǐng)域,具體地說,涉及一種多模態(tài)虛擬機(jī)器人交互方法和系統(tǒng)。
背景技術(shù):
機(jī)器人聊天交互系統(tǒng)的開發(fā)致力于模仿人類對(duì)話。早期廣為人知的聊天機(jī)器人應(yīng)用程序包括小i聊天機(jī)器人、蘋果手機(jī)上的siri聊天機(jī)器人等處理所接收到的輸入(包括文本或語音)并進(jìn)行響應(yīng),以試圖在上下文之間模仿人類響應(yīng)。
然而,要想使虛擬機(jī)器人具備人類的某些特性甚至是完全模仿人類對(duì)話,豐富用戶的交互體驗(yàn),現(xiàn)有的這些智能機(jī)器人遠(yuǎn)遠(yuǎn)達(dá)不到要求。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問題,本發(fā)明提供了一種多模態(tài)虛擬機(jī)器人交互方法,所述方法包括以下步驟:
啟用虛擬機(jī)器人,以將所述虛擬機(jī)器人的形象在預(yù)設(shè)顯示區(qū)域中顯示,所述虛擬機(jī)器人具備設(shè)定性格和背景故事;
獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令;
調(diào)用機(jī)器人能力接口對(duì)所述單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取所述交互指令的意圖;
根據(jù)當(dāng)前應(yīng)用場景和所述設(shè)定性格來篩選生成與所述設(shè)定性格和所述背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù);
通過所述虛擬機(jī)器人的形象輸出所述多模態(tài)應(yīng)答數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,觸發(fā)啟用虛擬機(jī)器人的事件的條件包括:
檢測到有特定的生物特征輸入;
或,裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng);
或,該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,調(diào)用機(jī)器人能力接口對(duì)所述單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取所述交互指令的意圖的步驟包括:
調(diào)用與所述設(shè)定背景故事和所述設(shè)定性格相適應(yīng)的語音識(shí)別、視覺識(shí)別、語義理解、情感計(jì)算、認(rèn)知計(jì)算、表情控制、動(dòng)作控制接口。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在篩選生成與所述設(shè)定性格和所述背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)的步驟中,進(jìn)一步包括:
判斷所述單模態(tài)和/或多模態(tài)交互指令與所述設(shè)定性格是否相符;
當(dāng)所述交互指令的意圖指向與所述設(shè)定性格指向不符,輸出表征拒絕的應(yīng)答數(shù)據(jù),所述應(yīng)答數(shù)據(jù)可為多模態(tài)應(yīng)答數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述單模態(tài)和/或多模態(tài)交互指令包括娛樂、陪伴、助手應(yīng)用場景下發(fā)出的交互指令。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,虛擬機(jī)器人的存在形態(tài)并不限定如下方式中的任一項(xiàng):
系統(tǒng)服務(wù)、平臺(tái)功能、應(yīng)用中功能、單獨(dú)的應(yīng)用、文本機(jī)器人匹配虛擬形象。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有可執(zhí)行以上任一項(xiàng)所述的方法步驟的程序代碼。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種多模態(tài)虛擬機(jī)器人交互裝置,所述裝置包括:
啟動(dòng)顯示單元,其用于啟用虛擬機(jī)器人,以將所述虛擬機(jī)器人的形象在預(yù)設(shè)顯示區(qū)域中顯示,所述虛擬機(jī)器人具備設(shè)定性格和背景故事;
獲取單元,其用于獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令;
調(diào)用單元,其用于調(diào)用機(jī)器人能力接口對(duì)所述單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取所述交互指令的意圖;
生成單元,其用于根據(jù)當(dāng)前應(yīng)用場景和所述設(shè)定性格來篩選生成與所述設(shè)定性格和所述背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù);
輸出單元,其用于通過所述虛擬機(jī)器人的形象輸出所述多模態(tài)應(yīng)答數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述啟動(dòng)顯示單元包括:
檢測子單元,其用于檢測特定的生物特征輸入,或,裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng);
或,該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng);
顯示子單元,其用于將所述虛擬機(jī)器人的形象在預(yù)設(shè)顯示區(qū)域中顯示。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述裝置包括:
與所述設(shè)定背景故事和所述設(shè)定性格相適應(yīng)的語音識(shí)別子單元、視覺識(shí)別子單元、語義理解子單元、情感計(jì)算子單元、認(rèn)知計(jì)算子單元、表情控制子單元、動(dòng)作控制子單元。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述生成單元進(jìn)一步包括:
判斷子單元,其用于判斷所述單模態(tài)和/或多模態(tài)交互指令與所述設(shè)定性格是否相符;
拒絕子單元,其用于當(dāng)所述交互指令的意圖指向與所述設(shè)定性格指向不符,輸出表征拒絕的應(yīng)答數(shù)據(jù),所述應(yīng)答數(shù)據(jù)可為多模態(tài)應(yīng)答數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述裝置包含場景選擇單元,其用于選擇應(yīng)用場景,其中,應(yīng)用場景包含娛樂應(yīng)用場景、陪伴應(yīng)用場景以及助手應(yīng)用場景。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述裝置包含支持所述虛擬機(jī)器人的存在形態(tài)并不限定如下方式中的任一項(xiàng)進(jìn)行多模態(tài)交互的組件:
系統(tǒng)服務(wù)、平臺(tái)功能、應(yīng)用中功能、單獨(dú)的應(yīng)用、文本機(jī)器人匹配虛擬形象。
根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種多模態(tài)虛擬機(jī)器人交互系統(tǒng),所述系統(tǒng)包括:
目標(biāo)硬件設(shè)備,用于顯示具備設(shè)定背景故事和設(shè)定性格的虛擬機(jī)器人形象,并具有接收用戶發(fā)送的的單模態(tài)和/或多模態(tài)交互指令的能力以及輸出多模態(tài)應(yīng)答數(shù)據(jù)的能力;
云端服務(wù)器,其與所述目標(biāo)硬件設(shè)備進(jìn)行通信,并提供多模態(tài)機(jī)器人能力接口,用于執(zhí)行以下步驟:
調(diào)用機(jī)器人能力接口對(duì)所述單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取所述交互指令的意圖;
根據(jù)當(dāng)前應(yīng)用場景和所述設(shè)定性格來篩選生成與所述設(shè)定性格和所述背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述系統(tǒng)目標(biāo)硬件設(shè)備包括:
生物特征檢測模塊,其用于檢測是否有特定的生物特征輸入;
或,裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng);
或,該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng)。
本發(fā)明采用具有設(shè)定背景故事以及性格屬性的虛擬機(jī)器人進(jìn)行對(duì)話交互可以使得虛擬機(jī)器人的形象更加豐滿,更加貼近于真實(shí)的人類,豐富了用戶的交互體驗(yàn),使得用戶看起來是在與人對(duì)話,而不是機(jī)器,增強(qiáng)了用戶的想象空間。并且,本發(fā)明的虛擬機(jī)器人還具備根據(jù)已經(jīng)設(shè)定的性格屬性和設(shè)定背景故事來篩選生成多模態(tài)應(yīng)答數(shù)據(jù)的功能,使得虛擬機(jī)器人對(duì)交互內(nèi)容具備了一定的選擇性與主動(dòng)性。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
附圖說明
附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
圖1顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例采用虛擬機(jī)器人進(jìn)行多模態(tài)交互的示意圖;
圖2顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的結(jié)構(gòu)框圖;
圖3顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的系統(tǒng)模塊框圖;
圖4顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的系統(tǒng)的機(jī)器人能力接口圖;
圖5顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互方法的模塊工作流程圖;
圖6顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的設(shè)定性格與背景故事之間的關(guān)系示意圖;
圖7顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的流程圖;
圖8顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的詳細(xì)流程圖;
圖9顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的另一流程圖;以及
圖10進(jìn)一步詳細(xì)地顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例在用戶、安裝了虛擬機(jī)器人的目標(biāo)硬件設(shè)備以及云端服務(wù)器三方之間進(jìn)行通信的流程圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步地詳細(xì)說明。
圖1顯示了根據(jù)本發(fā)明的采用虛擬機(jī)器人進(jìn)行多模態(tài)交互的示意圖。為表述清晰,需要在實(shí)施例前進(jìn)行如下說明:
所述虛擬機(jī)器人為多模態(tài)交互機(jī)器人,使得多模態(tài)交互機(jī)器人成為交互過程中的一員,用戶與該多模態(tài)交互機(jī)器人進(jìn)行問答、聊天、游戲。所述虛擬形象為所述多模態(tài)交互機(jī)器人的載體,對(duì)所述多模態(tài)交互機(jī)器人的多模態(tài)輸出進(jìn)行表現(xiàn)。虛擬機(jī)器人(以虛擬形象為載體)為:所述多模態(tài)交互機(jī)器人與虛擬形象為載體的共同體,即:以確定的ui形象設(shè)計(jì)為載體;基于多模態(tài)人機(jī)交互,具有語義、情感、認(rèn)知等ai能力;使用戶享受流暢體驗(yàn)的個(gè)性化及智能化的服務(wù)機(jī)器人。在本實(shí)施例中,所述虛擬機(jī)器人包括:3d高模動(dòng)畫的虛擬機(jī)器人形象。
所述云端服務(wù)器為,提供所述多模態(tài)交互機(jī)器人對(duì)用戶的交互需求進(jìn)行解析(語音識(shí)別、視覺識(shí)別、語義理解、情感計(jì)算、認(rèn)知計(jì)算、表情控制、動(dòng)作控制)的處理能力的終端,實(shí)現(xiàn)與用戶的交互。
如圖1所示,包含用戶101、目標(biāo)硬件設(shè)備102、虛擬機(jī)器人103以及云端服務(wù)器104。
其中,用戶101可以為單個(gè)的人、單個(gè)的虛擬機(jī)器人以及單個(gè)的實(shí)體機(jī)器人。這些對(duì)象都可以與虛擬機(jī)器人103進(jìn)行交互。另外,目標(biāo)硬件設(shè)備102包括顯示區(qū)域1021以及硬件設(shè)備1022。顯示區(qū)域1021用于顯示虛擬機(jī)器人103的形象,硬件設(shè)備1022與云端服務(wù)器104配合使用,用于多模態(tài)交互過程中的指令分析以及數(shù)據(jù)處理,所述硬件設(shè)備1022可嵌入智能機(jī)器人操作系統(tǒng)。由于虛擬機(jī)器人103的形象需要屏顯載體來呈現(xiàn)。因此,顯示區(qū)域1021包括:pc屏、投影儀、電視機(jī)、多媒體顯示屏、全息投影、vr以及ar。一般來說,選用有主機(jī)的pc端來作為硬件設(shè)備1022。在圖1中顯示區(qū)域1021選用的是pc屏。
圖1中展示的用戶101與虛擬機(jī)器人103進(jìn)行的多模態(tài)交互的過程可以為:
首先,用戶101有意愿發(fā)起交互,在交互之前首先需要喚醒虛擬機(jī)器人103,而喚醒虛擬機(jī)器人的手段可以為聲紋、虹膜等生物特征、觸摸、按鍵、遙控器以及特定肢體動(dòng)作、手勢等。另外,虛擬機(jī)器人103也可以在裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng)時(shí)一起啟動(dòng),或,該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng)。在喚醒虛擬機(jī)器人103后,虛擬機(jī)器人103的形象會(huì)在顯示區(qū)域1021中顯示,喚醒的虛擬機(jī)器人103具備設(shè)定性格和背景故事。
在此需要說明的是,虛擬機(jī)器人103的形象不限于一種固定的形象裝扮,虛擬機(jī)器人103的形象一般為3d高模動(dòng)畫形象,這些形象可以具備與設(shè)定性格與背景故事搭配,尤其是當(dāng)前虛擬機(jī)器人所在場景下的的多種衣服以及配飾裝扮。用戶101可以選擇提供的虛擬機(jī)器人103的裝扮。虛擬機(jī)器人103的裝扮可以按職業(yè)以及場合進(jìn)行分類。以上裝扮均可以從在云端服務(wù)器104處調(diào)用,也可以存儲(chǔ)在pc102上從pc102上調(diào)用,但是,pc102一般存儲(chǔ)占空間小的虛擬機(jī)器人形象數(shù)據(jù),大部分的數(shù)據(jù)還是存儲(chǔ)在云端服務(wù)器104中。另外,由于虛擬機(jī)器人103具備設(shè)定的性格以及背景故事,所以本發(fā)明提供的虛擬機(jī)器人103更加貼近于人類。
接著,被喚醒成功的虛擬機(jī)器人103等待用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令,用戶101發(fā)出交互指令后,pc102會(huì)獲取這些指令,一般來說,pc102可以通過其上安裝的話筒收集用戶發(fā)送的音頻信息、通過攝像頭收集用戶的圖像以及視頻信息以及通過觸摸裝置收集用戶的觸摸信息。
在獲取了用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令后,虛擬機(jī)器人103會(huì)調(diào)用機(jī)器人能力接口對(duì)獲取到的用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取以上交互指令的意圖。機(jī)器人能力接口可以包含與所述設(shè)定背景故事和所述設(shè)定性格相適應(yīng)的語音識(shí)別、視覺識(shí)別、語義理解、情感計(jì)算、認(rèn)知計(jì)算、表情控制以及動(dòng)作控制接口。
然后,虛擬機(jī)器人103會(huì)配合云端服務(wù)器104根據(jù)當(dāng)前應(yīng)用場景和設(shè)定性格來篩選生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。其中,應(yīng)用場景一般包含娛樂應(yīng)用場景、陪伴應(yīng)用場景以及助手應(yīng)用場景,用戶101可以根據(jù)需要,選擇與虛擬機(jī)器人103進(jìn)行交互的應(yīng)用場景。由于虛擬機(jī)器人103具備設(shè)定的性格以及設(shè)定的背景故事,所以,虛擬機(jī)器人103會(huì)根據(jù)自己的預(yù)設(shè)性格以及預(yù)設(shè)背景故事來生成相應(yīng)的多模態(tài)應(yīng)答數(shù)據(jù)。虛擬機(jī)器人103會(huì)有自主性以及選擇性,對(duì)于不符合自己預(yù)設(shè)性格和預(yù)設(shè)背景故事的用戶101交互指令,虛擬機(jī)器人103會(huì)輸出表征拒絕的應(yīng)答數(shù)據(jù),這些應(yīng)答數(shù)據(jù)可以是單模態(tài)應(yīng)答數(shù)據(jù),也可以是多模態(tài)應(yīng)答數(shù)據(jù)。
最后,將以上步驟產(chǎn)生的多模態(tài)應(yīng)答數(shù)據(jù)通過虛擬機(jī)器人103的形象輸出。pc102屏幕上的虛擬機(jī)器人103的形象可以通過面部的表情,嘴型以及肢體動(dòng)作來輸出多模態(tài)應(yīng)答數(shù)據(jù)。虛擬機(jī)器人103由于具備了多模態(tài)輸出的功能,所以使得交互更加多樣。
以上交互步驟簡單來說就是,首先啟用虛擬機(jī)器人103,以將虛擬機(jī)器人103的形象在預(yù)設(shè)顯示區(qū)域中顯示,虛擬機(jī)器人103具備設(shè)定性格和背景故事。接著,虛擬機(jī)器人103獲取用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令。然后,調(diào)用機(jī)器人能力接口對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。然后,根據(jù)當(dāng)前應(yīng)用場景和設(shè)定性格來篩選生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。最后通過虛擬機(jī)器人103的形象輸出多模態(tài)應(yīng)答數(shù)據(jù)。
所述場景為
在本發(fā)明中,目標(biāo)硬件設(shè)備102事實(shí)上是用做了虛擬機(jī)器人103的顯示載體以及交互對(duì)話內(nèi)容的顯示載體。云端服務(wù)器104為虛擬機(jī)器人數(shù)據(jù)的載體。下面舉一個(gè)例子說明虛擬機(jī)器人103以及用戶101的交互對(duì)話過程。在娛樂應(yīng)用場景下,虛擬機(jī)器人的背景故事被賦予是具備淵博學(xué)識(shí)、良好情商的現(xiàn)代女性,其具性格為知性優(yōu)雅的虛擬機(jī)器人103可以與用戶101這樣展開聊天。
虛擬機(jī)器人103說:嗨(微笑),有什么需要幫忙的嗎(打招呼)?
用戶101說:有的,我想唱歌。
虛擬機(jī)器人103說:好啊,您想唱什么歌呢(微笑)?
用戶101說:這個(gè)我一時(shí)間也想不起來,最近有什么好聽的歌曲嗎?
虛擬機(jī)器人103說:是這樣啊(微笑),那你是喜歡華語歌還是英語歌或者是其他的外語歌(疑問)?
用戶101說:華語歌吧。
虛擬機(jī)器人103說:好的(感興趣),我明白了,那您是喜歡什么風(fēng)格的歌曲呢(疑問)?
用戶101說:歡快勁爆的,比如蕭敬騰的《王妃》,這樣吧,咱們一起隨著這首歌跳一支性感的舞吧。
當(dāng)所述虛擬機(jī)器人的的性格設(shè)定為積極、知性、溫婉時(shí),用戶的意圖指向了性感、妖嬈的性格,與所述該虛擬機(jī)器人的設(shè)定性格指向不符,輸出表征拒絕的應(yīng)答數(shù)據(jù),即:
虛擬機(jī)器人103說:對(duì)不起(遺憾),我不會(huì)跳這樣的舞蹈哦。
在以上對(duì)話中,虛擬機(jī)器人103會(huì)在做出應(yīng)答以及等待對(duì)方做出應(yīng)答時(shí)改變自己的情緒。以上問答里括號(hào)內(nèi)的內(nèi)容為虛擬機(jī)器人103做出的表情上的應(yīng)答。除了表情上的應(yīng)答,虛擬機(jī)器人103還可以通過降低語調(diào)以及升高語調(diào)的方式來表達(dá)虛擬機(jī)器人當(dāng)時(shí)的情緒。除了表情以及語調(diào)上的應(yīng)答,虛擬機(jī)器人103還可以通過肢體上的動(dòng)作來表達(dá)自己的情緒,比如點(diǎn)頭、揮手、坐下、站立、走路、跑步等一系列動(dòng)作。
虛擬機(jī)器人103可以通過判斷交互對(duì)象的情緒變化,根據(jù)交互對(duì)象的情緒變化來做出對(duì)應(yīng)的表情、語調(diào)以及肢體上的變化。虛擬機(jī)器人103還可以在程序卡頓或者網(wǎng)絡(luò)出現(xiàn)問題的時(shí)候以跳舞或者其他表演形式彌補(bǔ)程序卡頓以及網(wǎng)絡(luò)問題所帶來的交互過程不流暢的缺陷。此外,對(duì)于輕微缺失某些識(shí)別能力的用戶,這種交互輸出也可以提高他們的對(duì)話交互能力。
最重要的是,虛擬機(jī)器人103由于具備預(yù)設(shè)的性格以及預(yù)設(shè)的背景故事,所以,虛擬機(jī)器人103會(huì)拒絕輸出與自己性格不符合的多模態(tài)應(yīng)答數(shù)據(jù)。這樣一來,虛擬機(jī)器人103在交互的感覺上就更加接近人類,使得交互的內(nèi)容更加豐富和有趣。
圖2顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的結(jié)構(gòu)框圖。如圖2所示,包含用戶101、目標(biāo)硬件設(shè)備102以及云端服務(wù)器104。其中,用戶101包含三種不同的類型,分別是人、虛擬機(jī)器人以及實(shí)體機(jī)器人。目標(biāo)硬件設(shè)備102包含喚醒檢測模塊201、輸入獲取模塊202以及顯示區(qū)域1021。
需要說明的是,喚醒檢測模塊201用于喚醒并啟動(dòng)虛擬機(jī)器人103,喚醒檢測單元201檢測到有特定的生物特征輸入時(shí)便會(huì)啟動(dòng)虛擬機(jī)器人103。一般來說,生物特征輸入包含用戶的觸摸動(dòng)作,即用戶通過手指觸摸目標(biāo)硬件設(shè)備102特定位置上的觸摸區(qū)域,虛擬機(jī)器人103便會(huì)被喚醒繼而被啟動(dòng)。另外,喚醒檢測模塊201可以在某些特定的條件下去除,這里提到的某些特定的條件可以是虛擬機(jī)器人103隨裝載有虛擬機(jī)器人程序包的硬件啟動(dòng)時(shí)一起啟動(dòng),此時(shí),目標(biāo)硬件設(shè)備102便不需要裝載有喚醒檢測模塊201。喚醒虛擬機(jī)器人的條件,包括但不限于如下方式:
有特定的生物特征輸入;
或
裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng);
或該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng)。
在目標(biāo)硬件設(shè)備102中還包含輸入獲取模塊202,輸入獲取模塊202用于獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令。輸入獲取模塊202可以包含鍵盤、麥克風(fēng)以及攝像頭。其中,鍵盤可以獲取用戶101輸入的文本信息,麥克風(fēng)可以獲取用戶101輸入的音頻信息,攝像頭可以獲取用戶101輸入的圖像以及視頻信息。其他可以獲取用戶101的交互指令的設(shè)備也可以運(yùn)用到本發(fā)明的交互中,本發(fā)明不限于此。
圖3顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的系統(tǒng)模塊框圖。如圖3所示,包括喚醒檢測模塊201、輸入獲取???02、輸入解析模塊203、篩選處理模塊204以及數(shù)據(jù)輸出模塊205。其中,安裝了虛擬機(jī)器人103的目標(biāo)硬件設(shè)備102包含喚醒檢測模塊201、輸入獲取???02、輸入解析模塊203、篩選處理模塊204以及數(shù)據(jù)輸出模塊205。云端服務(wù)器104包含輸入解析模塊203以及篩選處理模塊204。
在本發(fā)明提供的多模態(tài)虛擬機(jī)器人交互系統(tǒng)中,安裝了虛擬機(jī)器人103的目標(biāo)硬件設(shè)備102以及云端服務(wù)器104之間會(huì)建立通信,協(xié)同完成解析以及篩選處理用戶101發(fā)送的單模態(tài)和/或多模態(tài)回復(fù)數(shù)據(jù)的任務(wù)。因此,安裝了虛擬機(jī)器人103的目標(biāo)硬件設(shè)備102以及云端服務(wù)器104中均包含輸入解析模塊203以及篩選處理模塊204。
如圖3所示,本發(fā)明提供的多模態(tài)虛擬機(jī)器人交互系統(tǒng)包含喚醒檢測模塊201,其用于接收用戶101發(fā)送的啟動(dòng)虛擬機(jī)器人103的啟動(dòng)信息,并喚醒虛擬機(jī)器人103。一般來說,喚醒檢測模塊201能夠檢測特定的生物特征的輸入,并根據(jù)這些生物特征包含的特定信息喚醒虛擬機(jī)器人103,這些生物特征可以是用戶101的指紋信息、聲紋信息,也可以是其他預(yù)先設(shè)定的生物特征。
但是,喚醒虛擬機(jī)器人103除了通過喚醒檢測模塊201喚醒以外,虛擬機(jī)器人103還可以隨著裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng);或該硬件裝載的指定系統(tǒng)、應(yīng)用、指定功能被啟動(dòng)時(shí)同時(shí)啟動(dòng)。這種方式可以節(jié)約交互系統(tǒng)的硬件放置空間,但是用戶101無法控制虛擬機(jī)器人103啟動(dòng)的時(shí)機(jī)。交互系統(tǒng)的設(shè)計(jì)者可以根據(jù)實(shí)際情況選擇合適的虛擬機(jī)器人103的喚醒方式。另外,需要說明的是,喚醒虛擬機(jī)器人103的方式不僅限于上文提到的兩種喚醒方式,其他可以喚醒虛擬機(jī)器人103的方式亦可以運(yùn)用到本發(fā)明提供的交互系統(tǒng)中,本發(fā)明不限于此。
另外,交互系統(tǒng)還包含輸入獲取模塊202,輸入獲取模塊202用于獲取用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令。這些交互指令可以包含用戶101輸入的文本信息、音頻信息、圖像信息以及視頻信息。為了采集以上提到的用戶101發(fā)送的多模態(tài)信息,輸入獲取模塊202配備有文本采集單元2021、音頻采集單元2022、圖像采集單元2023以及視頻采集單元2024。其中,文本采集單元2021可以為一切實(shí)體以及虛擬鍵盤。音頻采集單元2022可以為麥克風(fēng)、話筒以及其他可以采集用戶101音頻信息的裝置。
圖像采集單元2023以及視頻采集單元2024可以為攝像頭,攝像頭可以間隔一段時(shí)間拍攝一張用戶101的圖像信息,然后選擇合適的用戶101的圖像信息。間隔時(shí)間可以是1分鐘,也可以是其他任意時(shí)間,間隔時(shí)間參數(shù)在設(shè)計(jì)交互系統(tǒng)的時(shí)候被設(shè)定好,可以在后續(xù)使用時(shí)進(jìn)行修改。
另外,用戶輸入多模態(tài)信息設(shè)備的例子還包括鍵盤、光標(biāo)控制設(shè)備(鼠標(biāo))、用于語音操作的麥克風(fēng)、掃描儀、觸摸功能(例如用以檢測物理觸摸的電容型傳感器)、攝像頭(采用可見或不可見波長檢測不涉及觸摸的動(dòng)作)等等。
交互系統(tǒng)還包含輸入解析模塊203,其用于調(diào)用機(jī)器人能力接口對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。一般來說,目標(biāo)硬件設(shè)備102中包含的輸入解析模塊203與云端服務(wù)器104建立通信關(guān)系,向云端服務(wù)器104發(fā)送調(diào)用機(jī)器人能力接口的信息。云端服務(wù)器104提供機(jī)器人能力對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,然后根據(jù)解析的結(jié)果獲取交互指令的意圖,根據(jù)交互指令的意圖來指導(dǎo)應(yīng)答數(shù)據(jù)的生成。
另外,交互系統(tǒng)還包含篩選處理模塊204,其用于根據(jù)當(dāng)前應(yīng)用場景和設(shè)定性格來篩選生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。需要說明的是,在交互開始之前,用戶101可以選擇交互應(yīng)用場景,本發(fā)明中,交互應(yīng)用場景包含娛樂應(yīng)用場景、陪伴應(yīng)用場景以及助手應(yīng)用場景,當(dāng)應(yīng)用場景選擇完成后,交互正式開始,用戶101可以在應(yīng)用場景下與虛擬機(jī)器人103展開交互,虛擬機(jī)器人103會(huì)根據(jù)當(dāng)前的應(yīng)用場景和設(shè)定性格來篩選生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。當(dāng)用戶101的交互指令與虛擬機(jī)器人103設(shè)定的性格和背景故事不相符時(shí),虛擬機(jī)器人103會(huì)輸出表征拒絕的多模態(tài)應(yīng)答數(shù)據(jù),比如,“對(duì)不起,我不會(huì)這樣的哦”“我來給你讀一篇紅樓夢選段吧”。
最后,交互系統(tǒng)還包含數(shù)據(jù)輸出模塊205,其用于通過虛擬機(jī)器人的形象輸出多模態(tài)應(yīng)答數(shù)據(jù)。多模態(tài)應(yīng)答數(shù)據(jù)包含文本應(yīng)答數(shù)據(jù)、音頻應(yīng)答數(shù)據(jù)、圖像應(yīng)答數(shù)據(jù)以及視頻應(yīng)答數(shù)據(jù)。虛擬機(jī)器人103的形象會(huì)通過面部表情、語調(diào)以及肢體動(dòng)作等輸出多模態(tài)應(yīng)答數(shù)據(jù)。輸出設(shè)備例如包括顯示屏、揚(yáng)聲器、觸覺響應(yīng)設(shè)備等等。移動(dòng)設(shè)備的通信能力包括有線和無線通信。例如包括:一個(gè)或多個(gè)wi-fi天線、gps天線、蜂窩天線、nfc天線、藍(lán)牙天線。
圖4顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互的系統(tǒng)的機(jī)器人能力接口圖。如圖4所示,機(jī)器人能力接口包含語音識(shí)別能力接口、視覺識(shí)別能力接口、語義理解能力接口、情感計(jì)算能力接口、認(rèn)知計(jì)算能力接口、認(rèn)知控制能力接口以及表情控制能力接口。交互系統(tǒng)會(huì)在獲取到用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令后調(diào)用以上機(jī)器人能力接口,對(duì)獲取到的交互指令進(jìn)行解析,獲取交互指令的意圖。
其中,語音識(shí)別能力接口用于識(shí)別用戶101發(fā)送的音頻交互指令,對(duì)音頻交互指令首先進(jìn)行識(shí)別,識(shí)別音頻交互指令的語言,當(dāng)確認(rèn)交互指令所屬的語言類別后,對(duì)交互指令進(jìn)行文字識(shí)別,識(shí)別交互指令的文字信息。之后,送入語義理解能力接口,利用語義理解能力接口識(shí)別交互指令包含的語義信息,解析用戶101發(fā)送的交互指令的意圖。視覺識(shí)別能力接口可以用來識(shí)別交互對(duì)象的身份以及識(shí)別用戶的表情以及肢體動(dòng)作信息,配合語音識(shí)別能力接口共同來解析用戶101發(fā)送的交互指令的意圖。
另外,情感計(jì)算能力接口用來識(shí)別以及分析用戶101在交互時(shí)的情緒狀態(tài),根據(jù)用戶101的情緒狀態(tài)配合之前的語音識(shí)別能力接口、視覺識(shí)別能力接口以及語義理解能力接口來解析交互指令的意圖。認(rèn)知計(jì)算能力接口以及認(rèn)知控制能力接口用來執(zhí)行涉及到虛擬機(jī)器人認(rèn)知方面的任務(wù)。
以上機(jī)器人能力接口既可以在解析交互指令意圖時(shí)被調(diào)用,也可以在生成應(yīng)答數(shù)據(jù)時(shí)被調(diào)用,用來篩選以及生成單模態(tài)和/或多模態(tài)應(yīng)答數(shù)據(jù)。
圖5顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的多模態(tài)虛擬機(jī)器人交互方法的模塊工作流程圖。如圖5所示,交互系統(tǒng)包含喚醒檢測模塊201、輸入獲取模塊202、輸入解析模塊203、篩選處理模塊204以及數(shù)據(jù)輸出模塊205。其中,喚醒檢測模塊201包含喚醒單元;輸入獲取模塊202包含音頻采集單元、文本采集單元、圖像采集單元以及視頻采集單元。輸入解析模塊203包含語音識(shí)別能力、視覺識(shí)別能力、語義理解能力、情感計(jì)算能力、認(rèn)知計(jì)算能力、表情控制能力以及認(rèn)知控制能力。篩選處理模塊204包含篩選單元以及處理單元。
首先,喚醒檢測模塊201中的喚醒單元接收到用戶101發(fā)送的特定生物信息輸入時(shí)啟動(dòng)虛擬機(jī)器人103,然后輸入獲取模塊202中的音頻采集單元、文本采集單元、圖像采集單元以及視頻采集單元獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令。輸入解析模塊203調(diào)用語音識(shí)別能力、視覺識(shí)別能力、語義理解能力、情感計(jì)算能力、認(rèn)知計(jì)算能力、表情控制能力以及認(rèn)知控制能力對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。篩選處理模塊204中的篩選單元根據(jù)當(dāng)前應(yīng)用場景和設(shè)定性格來篩選與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù),處理單元生成需要輸出的多模態(tài)應(yīng)答數(shù)據(jù)。最后,數(shù)據(jù)輸出模塊205通過虛擬機(jī)器人的形象輸出多模態(tài)應(yīng)答數(shù)據(jù)。
圖6顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的設(shè)定性格與背景故事之間的關(guān)系示意圖。如圖6所示,背景故事a、背景故事b、背景故事c、背景故事d、背景故事e、以及背景故事f可與預(yù)設(shè)性格相關(guān)聯(lián),每一個(gè)背景故事都會(huì)影響虛擬機(jī)器人103的預(yù)設(shè)性格。在每次交互結(jié)束后,虛擬機(jī)器人103均會(huì)記錄下交互的全部過程,這些交互的過程也會(huì)在一定程度上影響虛擬機(jī)器人103的性格。
以上方式并不局限,需要說明的是:
所述虛擬機(jī)器人103可擁有獨(dú)立、持久、穩(wěn)定的性格限定,并關(guān)聯(lián)固定的背景故事及身份設(shè)定,所述虛擬機(jī)器人在完善的設(shè)定下進(jìn)行人機(jī)交互,使得本發(fā)明的虛擬機(jī)器人103更加貼近人類,在交互過程中帶給用戶101的交互體驗(yàn)更加舒適。
圖7顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的流程圖。如圖7所示,在步驟s701中,首先啟用虛擬機(jī)器人103,以將虛擬機(jī)器人103的形象在預(yù)設(shè)顯示區(qū)域中顯示,虛擬機(jī)器人103具備設(shè)定性格和背景故事。接著,在步驟s702中,獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令。然后,在步驟s703中,調(diào)用機(jī)器人能力接口對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。接著,在步驟s704中,根據(jù)當(dāng)前應(yīng)用場景和設(shè)定性格來篩選生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。最后,在步驟s705中,通過虛擬機(jī)器人的形象輸出多模態(tài)應(yīng)答數(shù)據(jù)。
圖8顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的詳細(xì)流程圖。如圖所示,在步驟s801中,目標(biāo)硬件設(shè)備102檢測到有特定的生物特征輸入,或,裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng),或,裝載有虛擬機(jī)器人程序包的硬件被啟動(dòng)時(shí),虛擬機(jī)器人103被喚醒,接著,在步驟s802中,虛擬機(jī)器人103被喚醒之后,虛擬機(jī)器人103的形象顯示在預(yù)設(shè)區(qū)域內(nèi),被顯示的虛擬機(jī)器人形象具備設(shè)定的性格和背景故事。此時(shí),交互前的準(zhǔn)備工作結(jié)束,交互正式開始。接著,在步驟s803中,虛擬機(jī)器人103獲取用戶101發(fā)送的單模態(tài)和/或多模態(tài)交互指令,然后將交互指令傳送至下一環(huán)節(jié),在步驟s804中,虛擬機(jī)器人103調(diào)用與預(yù)設(shè)背景故事和設(shè)定性格相適應(yīng)的語音識(shí)別、視覺識(shí)別、語義理解、情感計(jì)算、認(rèn)知計(jì)算、表情控制以及動(dòng)作控制能力接口對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。
然后,在步驟s805中,虛擬機(jī)器人103會(huì)判斷以上交互指令與設(shè)定性格是否相符,當(dāng)交互指令的指向與設(shè)定性格指向不符,則輸出表征拒絕的應(yīng)答數(shù)據(jù),這里的應(yīng)答數(shù)據(jù)可以是多模態(tài)應(yīng)答數(shù)據(jù)。接著,在步驟s806中,當(dāng)交互指令意圖與設(shè)定性格相符,則生成與設(shè)定性格和背景故事相關(guān)聯(lián)的多模態(tài)應(yīng)答數(shù)據(jù)。最后,在步驟s807中,通過虛擬機(jī)器人103的形象輸出多模態(tài)應(yīng)答數(shù)據(jù)。
圖9顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例進(jìn)行多模態(tài)交互的另一流程圖。如圖所示,在步驟s901中,目標(biāo)硬件設(shè)備102向云端服務(wù)器104發(fā)出交互內(nèi)容。之后,目標(biāo)硬件設(shè)備102一直處于等待云端服務(wù)器104完成云端服務(wù)器104部分任務(wù)的狀態(tài)。在等待的過程中,目標(biāo)硬件設(shè)備102會(huì)對(duì)返回?cái)?shù)據(jù)所花費(fèi)的時(shí)間進(jìn)行計(jì)時(shí)操作。如果長時(shí)間未得到返回?cái)?shù)據(jù),比如,超過了預(yù)定的時(shí)間長度5s,則目標(biāo)硬件設(shè)備102會(huì)選擇進(jìn)行本地回復(fù),生成本地常用應(yīng)答數(shù)據(jù)。然后由虛擬機(jī)器人形象輸出與本地常用應(yīng)答配合的動(dòng)畫,并調(diào)用語音播放設(shè)備播放語音。
圖10進(jìn)一步詳細(xì)地顯示了根據(jù)本發(fā)明的一個(gè)實(shí)施例在用戶101、安裝了虛擬機(jī)器人103的目標(biāo)硬件設(shè)備102以及云端服務(wù)器104三方之間進(jìn)行通信的流程圖。
如圖10所示,在交互開始之初,用戶101啟用虛擬機(jī)器人103,目標(biāo)硬件設(shè)備102的顯示區(qū)域1021上顯示出虛擬機(jī)器人103的形象,用戶101啟動(dòng)的虛擬機(jī)器人103具備設(shè)定的性格和背景故事,用戶101選擇應(yīng)用場景。此時(shí),交互即將開始。
交互開始之后,虛擬機(jī)器人103獲取用戶發(fā)送的單模態(tài)和/或多模態(tài)交互指令,然后,目標(biāo)硬件設(shè)備102上的虛擬機(jī)器人103調(diào)用機(jī)器人能力接口對(duì)單模態(tài)和/或多模態(tài)交互指令進(jìn)行解析,獲取交互指令的意圖。接著,虛擬機(jī)器人103根據(jù)當(dāng)前用戶101選擇的應(yīng)用場景和設(shè)定的性格來篩選預(yù)生成與設(shè)定性格和背景故事相關(guān)的多模態(tài)應(yīng)答數(shù)據(jù)。如果交互指令不符合虛擬機(jī)器人103的設(shè)定性格,虛擬機(jī)器人103會(huì)輸出表征拒絕的多模態(tài)應(yīng)答數(shù)據(jù)。最后,虛擬機(jī)器人103通過虛擬形象輸出生成的多模態(tài)輸出數(shù)據(jù)。
應(yīng)該理解的是,本發(fā)明所公開的實(shí)施例不限于這里所公開的特定結(jié)構(gòu)、處理步驟或材料,而應(yīng)當(dāng)延伸到相關(guān)領(lǐng)域的普通技術(shù)人員所理解的這些特征的等同替代。還應(yīng)當(dāng)理解的是,在此使用的術(shù)語僅用于描述特定實(shí)施例的目的,而并不意味著限制。
說明書中提到的“一個(gè)實(shí)施例”或“實(shí)施例”意指結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,說明書通篇各個(gè)地方出現(xiàn)的短語“一個(gè)實(shí)施例”或“實(shí)施例”并不一定均指同一個(gè)實(shí)施例。
雖然本發(fā)明所公開的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所公開的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專利保護(hù)范圍,仍須以所附的權(quán)利要求書所界定的范圍為準(zhǔn)。