本發(fā)明涉及機(jī)器人領(lǐng)域,具體說(shuō)涉及一種用于智能機(jī)器人的語(yǔ)音交互輸出方法及機(jī)器人。
背景技術(shù):
隨著機(jī)器人技術(shù)的不斷發(fā)展,智能機(jī)器人越來(lái)越多的被應(yīng)用與人類的家庭生活中。隨著智能機(jī)器人在人類的家庭生活中的應(yīng)用不斷深入,對(duì)智能機(jī)器人的擬人化水平的要求也不斷提高。
當(dāng)前,很多智能機(jī)器人具備了語(yǔ)音功能,可以與用戶進(jìn)行語(yǔ)音交互。但是,在現(xiàn)有技術(shù)中,智能機(jī)器人的語(yǔ)音輸出通常是具體語(yǔ)義的直接體現(xiàn),其并不能很好的適應(yīng)于人類的語(yǔ)音交互習(xí)慣。這就導(dǎo)致雖然機(jī)器人通過(guò)語(yǔ)音對(duì)用戶做出了正確的交互回應(yīng),但是用戶體驗(yàn)仍然不好。
因此,為了進(jìn)一步提高智能機(jī)器人的擬人化水平,提升用戶體驗(yàn),需要一種用于智能機(jī)器人的語(yǔ)音交互輸出方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種用于智能機(jī)器人的語(yǔ)音交互輸出方法,所述方法包括:
接收來(lái)自用戶的多模態(tài)交互輸入信息,識(shí)別當(dāng)前的用戶;
獲取所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù),所述語(yǔ)音輸出參數(shù)為根據(jù)所述用戶的說(shuō)話習(xí)慣生成;
結(jié)合所述語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。
在一實(shí)施例中,獲取當(dāng)前的所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù),其中,當(dāng)不存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí):
基于默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù)開(kāi)始與所述用戶的語(yǔ)音交互;
在所述語(yǔ)音交互的過(guò)程中根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)并基于調(diào)節(jié)后的語(yǔ)音輸出參數(shù)進(jìn)行下一步的語(yǔ)音交互。
在一實(shí)施例中,根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù),其中:
解析所述用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間;
調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。
在一實(shí)施例中,調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致,其中,多次逐步調(diào)節(jié)語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。
在一實(shí)施例中,所述方法還包括:
將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。
在一實(shí)施例中,所述語(yǔ)音輸出參數(shù)包括語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。
本發(fā)明還提出了一種智能機(jī)器人,所述機(jī)器人包括:
用戶識(shí)別模塊,其配置為接收來(lái)自用戶的多模態(tài)交互輸入信息,識(shí)別當(dāng)前的用戶;
語(yǔ)音輸出參數(shù)獲取模塊,其配置為獲取并輸出所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù),所述語(yǔ)音輸出參數(shù)為根據(jù)所述用戶的說(shuō)話習(xí)慣生成;
語(yǔ)音輸出模塊,其配置為結(jié)合所述語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。
在一實(shí)施例中,所述語(yǔ)音輸出參數(shù)獲取模塊包含:
語(yǔ)音輸出參數(shù)確認(rèn)模塊,其配置為確認(rèn)當(dāng)前是否存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù);
語(yǔ)音輸出參數(shù)調(diào)用模塊,其配置為當(dāng)不存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù);
語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊,其配置為根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)所述語(yǔ)音輸出參數(shù)并輸出調(diào)節(jié)后的所述語(yǔ)音輸出參數(shù)。
在一實(shí)施例中,所述語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊配置為:
解析所述用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間;
調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。
在一實(shí)施例中,所述語(yǔ)音輸出參數(shù)獲取模塊還包含:
語(yǔ)音輸出參數(shù)保存模塊,其配置為將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。
根據(jù)本發(fā)明的方法,可以使得機(jī)器人的語(yǔ)音輸出符合用戶語(yǔ)音交談習(xí)慣的,不僅便于用戶理解,而且大大增強(qiáng)了用戶親切感。根據(jù)本發(fā)明的方法,機(jī)器人的擬人度被大大提高,機(jī)器人的用戶體驗(yàn)得到有效提升。
本發(fā)明的其它特征或優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述。并且,本發(fā)明的部分特征或優(yōu)點(diǎn)將通過(guò)說(shuō)明書(shū)而變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的步驟來(lái)實(shí)現(xiàn)或獲得。
附圖說(shuō)明
附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
圖1~圖3是根據(jù)本發(fā)明實(shí)施例的方法流程圖;
圖4是根據(jù)本發(fā)明一實(shí)施例的方法部分流程圖
圖5和圖6是根據(jù)本發(fā)明實(shí)施例的機(jī)器人系統(tǒng)結(jié)構(gòu)框圖。
具體實(shí)施方式
以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式,借此本發(fā)明的實(shí)施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程并依據(jù)上述實(shí)現(xiàn)過(guò)程具體實(shí)施本發(fā)明。需要說(shuō)明的是,只要不構(gòu)成沖突,本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
隨著機(jī)器人技術(shù)的不斷發(fā)展,智能機(jī)器人越來(lái)越多的被應(yīng)用與人類的家庭生活中。隨著智能機(jī)器人在人類的家庭生活中的應(yīng)用不斷深入,對(duì)智能機(jī)器人的擬人化水平的要求也不斷提高。
當(dāng)前,很多智能機(jī)器人具備了語(yǔ)音功能,可以與用戶進(jìn)行語(yǔ)音交互。但是,在現(xiàn)有技術(shù)中,智能機(jī)器人的語(yǔ)音輸出通常是具體語(yǔ)義的直接體現(xiàn),其并不能很好的適應(yīng)于人類的語(yǔ)音交互習(xí)慣。這就導(dǎo)致雖然機(jī)器人通過(guò)語(yǔ)音對(duì)用戶做出了正確的交互回應(yīng),但是用戶體驗(yàn)仍然不好。
因此,為了進(jìn)一步提高智能機(jī)器人的擬人化水平,提升用戶體驗(yàn),本發(fā)明提出了一種用于智能機(jī)器人的語(yǔ)音交互輸出方法。在本發(fā)明的方法中,通過(guò)分析人類的語(yǔ)音交互習(xí)慣歸納人類語(yǔ)音輸出的特征,并盡量使得機(jī)器人的語(yǔ)音輸出具備人類語(yǔ)音輸出的特征,從而提高機(jī)器人的擬人化水平,提升用戶體驗(yàn)。進(jìn)一步的,由于不同人具備不同的語(yǔ)音輸出特征,而人類在理解語(yǔ)音輸入時(shí)比較容易理解和自己語(yǔ)音輸出特征類似的語(yǔ)音輸出,因此在本發(fā)明的方法中,盡量使得機(jī)器人的語(yǔ)音輸出特征與當(dāng)前交互對(duì)象的語(yǔ)音輸出特征匹配,從而進(jìn)一步提高用戶體驗(yàn)。
接下來(lái)基于附圖詳細(xì)描述本發(fā)明實(shí)施例的具體執(zhí)行過(guò)程。附圖的流程圖中示出的步驟可以在包含諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
如圖1所示,在一實(shí)施例中,機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S110);根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S120);然后根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(語(yǔ)音輸出特征)(步驟S130);然后結(jié)合獲取到的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理生成并輸出包含上述語(yǔ)音輸出特征的語(yǔ)音輸出(步驟S140)。
在步驟S130中,獲取的語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音輸出特征相匹配。進(jìn)一步的,該語(yǔ)音輸出參數(shù)是根據(jù)用戶的說(shuō)話習(xí)慣生成的。具體的,在一實(shí)施例中,根據(jù)用戶的說(shuō)話習(xí)慣預(yù)先生成對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(針對(duì)不同的用戶生成多個(gè)不同的語(yǔ)音輸出參數(shù)),然后在交互過(guò)程中根據(jù)用戶身份調(diào)用對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。
進(jìn)一步的,在人類的日常語(yǔ)音交流中,語(yǔ)音輸出的特征包含語(yǔ)種(其包含語(yǔ)系歸屬、方言的劃分)、口音、語(yǔ)速以及對(duì)話等待時(shí)間等等。按照程序執(zhí)行的習(xí)慣,從邏輯上可以將人類語(yǔ)音輸出過(guò)程簡(jiǎn)單歸納為:
確定自身想要表達(dá)的意思;
結(jié)合自身的語(yǔ)種(語(yǔ)系、方言)設(shè)定將想要表達(dá)的意思轉(zhuǎn)化為具體的語(yǔ)言;
以自身習(xí)慣的語(yǔ)速輸出(說(shuō)出)具體的語(yǔ)言并在輸出(說(shuō)出)的同時(shí)對(duì)輸出(說(shuō)出)的語(yǔ)言進(jìn)行口音修正;
在與交互對(duì)象的語(yǔ)音交互過(guò)程中,在兩組語(yǔ)言輸出的間歇使用自身習(xí)慣的對(duì)話等待時(shí)間(對(duì)方說(shuō)話后等待對(duì)話等待時(shí)間后作出回應(yīng),或,自己說(shuō)話時(shí)如果需要連續(xù)說(shuō)出多組內(nèi)容,在兩組內(nèi)容間等待對(duì)話等待時(shí)間)。
基于上述流程的分析,在一實(shí)施例中,將機(jī)器人對(duì)話輸出的過(guò)程劃分為:
確定語(yǔ)音內(nèi)容;
基于語(yǔ)音輸出參數(shù)對(duì)語(yǔ)音內(nèi)容進(jìn)行交互數(shù)據(jù)處理生成語(yǔ)音輸出。
其中,確定想要表達(dá)的意思并結(jié)合語(yǔ)種設(shè)定將想要表達(dá)的意思轉(zhuǎn)化為具體的語(yǔ)言屬于確定語(yǔ)音內(nèi)容的過(guò)程。因此在一實(shí)施例中,語(yǔ)音輸出參數(shù)包括口音、語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。進(jìn)一步的,由于口音包含的語(yǔ)音細(xì)節(jié)太多且在實(shí)際環(huán)境中口音的種類復(fù)雜多變,其很難具體分析并量化確定。因此,在一實(shí)施例中,語(yǔ)音輸出參數(shù)包括語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。
如圖2所示,在一實(shí)施例中,機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S210);根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S220);然后根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)速參數(shù)以及對(duì)話等待時(shí)間(步驟S230);確定語(yǔ)音輸出的具體內(nèi)容(步驟S240);按照對(duì)應(yīng)當(dāng)前用戶的語(yǔ)速參數(shù)以及對(duì)話等待時(shí)間確定步驟S240確定的語(yǔ)音輸出內(nèi)容的輸出語(yǔ)速以及輸出時(shí)機(jī)從而完成語(yǔ)音輸出(步驟S250)。
這樣,根據(jù)圖2所示的實(shí)施例,機(jī)器人“說(shuō)話”的語(yǔ)速以及對(duì)話等待時(shí)間就可以符合當(dāng)前用的說(shuō)話習(xí)慣,不僅便于用戶理解對(duì)話內(nèi)容,而且增強(qiáng)了用戶的親切感,從而大大提高了機(jī)器人的用戶體驗(yàn)。
在圖1以及圖2所示的實(shí)施例中,關(guān)鍵步驟之一在于機(jī)器人必須調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量)。在一實(shí)施例中,機(jī)器人的內(nèi)部存儲(chǔ)系統(tǒng)或者機(jī)器人的云端服務(wù)器中預(yù)先存儲(chǔ)有多個(gè)不同用戶的語(yǔ)音輸出參數(shù)。當(dāng)機(jī)器人識(shí)別用戶身份后,基于用戶身份從已保存的語(yǔ)音輸出參數(shù)調(diào)出對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。
但是,在實(shí)際應(yīng)用環(huán)境中,不可能預(yù)知機(jī)器人將要面對(duì)的所有用戶,也就不能在存儲(chǔ)系統(tǒng)/云端中預(yù)存所有機(jī)器人將要面對(duì)的用戶的語(yǔ)音輸出參數(shù)。進(jìn)一步的,在某些情況下,機(jī)器人剛投入使用時(shí)其內(nèi)部存儲(chǔ)為初始狀態(tài),并未預(yù)存任何用戶數(shù)據(jù)?;蛘撸谀承?yīng)用環(huán)境中,機(jī)器人無(wú)法聯(lián)網(wǎng)獲取云端數(shù)據(jù)。
在交互過(guò)程中,上述種種情況最終會(huì)導(dǎo)致機(jī)器人無(wú)法調(diào)出與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。針對(duì)這種情況,在本發(fā)明一實(shí)施例中,機(jī)器人在無(wú)法調(diào)用與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(不存在與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)或調(diào)用過(guò)程出現(xiàn)錯(cuò)誤無(wú)法調(diào)用)時(shí),采用現(xiàn)有的(可以調(diào)用)語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出,并在在交互過(guò)程中根據(jù)用戶的語(yǔ)音輸入調(diào)整當(dāng)前采用的語(yǔ)音輸出參數(shù),最后根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行下一步的語(yǔ)音交互,從而使得機(jī)器人最終的語(yǔ)音輸出的語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音對(duì)話習(xí)慣匹配。
具體的,如圖3所示,在一實(shí)施例中,機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S310);根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S320);然后確認(rèn)是否存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(步驟S330);當(dāng)存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)時(shí)根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(步驟S351);然后結(jié)合獲取到的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理生成并輸出包含上述語(yǔ)音輸出特征的語(yǔ)音輸出(步驟S352)。
當(dāng)不存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(或者無(wú)法調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù))時(shí),機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù)(步驟S340),根據(jù)可用的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S341),從而開(kāi)始與用戶的語(yǔ)音交互。在與用戶的語(yǔ)音交互過(guò)程中,機(jī)器人根據(jù)用戶的語(yǔ)音輸入調(diào)整機(jī)器人當(dāng)前采用的語(yǔ)音輸出參數(shù)(步驟S342),并根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S343)從而使得機(jī)器人的語(yǔ)音輸出與用戶的說(shuō)話習(xí)慣匹配。
進(jìn)一步的,在一實(shí)施例中,在步驟S340中,機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù),具體的,在一實(shí)施例中,機(jī)器人調(diào)用默認(rèn)的(預(yù)設(shè)的)語(yǔ)音輸出參數(shù)?;蛘撸诹硪粚?shí)施例中,機(jī)器人根據(jù)交互記錄,調(diào)用上一次語(yǔ)音對(duì)話被采用的語(yǔ)音輸出參數(shù)。
進(jìn)一步的,在一實(shí)施例中,機(jī)器人在根據(jù)用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)的過(guò)程中:
解析用戶的語(yǔ)音輸入以獲取用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間;
調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與用戶一致。
具體的,如圖4所示,當(dāng)不存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(或者無(wú)法調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù))時(shí),機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù)(步驟S410),根據(jù)可用的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S411),從而開(kāi)始與用戶的語(yǔ)音交互。在與用戶的語(yǔ)音交互過(guò)程中,機(jī)器人接收用戶的語(yǔ)音輸入(步驟S420),獲取用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間(步驟S421)。
進(jìn)一步的,考慮到有時(shí)并不能僅僅通過(guò)一輪語(yǔ)音對(duì)話就能完全獲取用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間,因此在本實(shí)施例中執(zhí)行步驟S422,判斷是否獲取到完整的用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間,如果沒(méi)有則繼續(xù)基于當(dāng)前的語(yǔ)音輸出參數(shù)進(jìn)行下一輪的語(yǔ)音輸出(返回步驟S411)。
如果已經(jīng)獲取到完整的用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間,則根據(jù)用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)(步驟S430)并根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行新一輪的語(yǔ)音輸出(步驟S440),使得語(yǔ)音輸出的語(yǔ)速和對(duì)話等待時(shí)間與用戶一致,從而使得機(jī)器人的語(yǔ)音輸出與用戶的說(shuō)話習(xí)慣匹配。
進(jìn)一步的,在通常的語(yǔ)音交談中,如果一方突然改變語(yǔ)音輸出特點(diǎn)(口音、語(yǔ)速或?qū)υ挼却龝r(shí)間)或造成另一方的不適(對(duì)方剛剛適應(yīng)你的語(yǔ)音輸出特點(diǎn),突然轉(zhuǎn)變會(huì)導(dǎo)致對(duì)方不習(xí)慣)。因此,在本發(fā)明一實(shí)施例中,在機(jī)器人根據(jù)用戶語(yǔ)音輸入調(diào)整當(dāng)前的語(yǔ)音輸出參數(shù)時(shí),再用了逐步調(diào)整的策略。即,將對(duì)語(yǔ)音輸出參數(shù)的調(diào)整分為多步,每步只對(duì)語(yǔ)音輸出參數(shù)的值做小范圍調(diào)整,根據(jù)小范圍調(diào)整后的語(yǔ)音輸出參數(shù)輸出下一輪的語(yǔ)音輸出,不斷在上一輪語(yǔ)音輸出的語(yǔ)音輸出參數(shù)的基礎(chǔ)上做小范圍調(diào)整直到語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音輸入匹配。
這樣,新輸出的語(yǔ)音輸出與上一輪的語(yǔ)音輸出在語(yǔ)音輸出參數(shù)上的差別維持在一個(gè)較小的范圍內(nèi)。這樣就能消除由于語(yǔ)音輸出參數(shù)的突然轉(zhuǎn)變而造成的用戶的不適感。具體的,在一實(shí)施例中,多次逐步調(diào)節(jié)語(yǔ)音輸出參數(shù)使得語(yǔ)速和/或?qū)υ挼却龝r(shí)間與用戶一致。
進(jìn)一步的,為了使得下一次和相同用戶進(jìn)行語(yǔ)音交互時(shí)不需要再次進(jìn)行語(yǔ)音輸出參數(shù)的獲取,在一實(shí)施例中,在步驟S440之后,將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(步驟S450)。
綜上,根據(jù)本發(fā)明的方法,可以使得機(jī)器人的語(yǔ)音輸出符合用戶語(yǔ)音交談習(xí)慣的,不僅便于用戶理解,而且大大增強(qiáng)了用戶親切感。根據(jù)本發(fā)明的方法,機(jī)器人的擬人度被大大提高,機(jī)器人的用戶體驗(yàn)得到有效提升。
基于本發(fā)明的方法,本發(fā)明還提出了一種符合用戶語(yǔ)音交談習(xí)慣的機(jī)器人。如圖5所示,在一實(shí)施例中,機(jī)器人包含:
用戶識(shí)別模塊510,其配置為接收來(lái)自用戶的多模態(tài)交互輸入信息,識(shí)別當(dāng)前的用戶;
語(yǔ)音輸出參數(shù)獲取模塊520,其配置為獲取并輸出當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù),具體的,語(yǔ)音輸出參數(shù)為根據(jù)用戶的說(shuō)話習(xí)慣生成;
語(yǔ)音輸出模塊530,其配置為結(jié)合語(yǔ)音輸出參數(shù)獲取模塊520輸出的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。
這樣,語(yǔ)音輸出模塊530最終輸出的語(yǔ)音輸出就是與用戶的說(shuō)話習(xí)慣相匹配的,不僅便于用戶理解,而且可以有效提高用戶的親切感。相較于現(xiàn)有技術(shù),本發(fā)明的機(jī)器人的擬人化水平得到有效提高,機(jī)器人的用戶體驗(yàn)被大大提升。
進(jìn)一步的,在一實(shí)施例中,如圖6所示,用戶識(shí)別模塊610配置為接收來(lái)自用戶的多模態(tài)交互輸入信息,識(shí)別當(dāng)前的用戶。
語(yǔ)音輸出參數(shù)獲取模塊620包含語(yǔ)音輸出參數(shù)確認(rèn)模塊621、語(yǔ)音輸出參數(shù)調(diào)用模塊622以及語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623。其中:
語(yǔ)音輸出參數(shù)確認(rèn)模塊621,其配置為確認(rèn)當(dāng)前是否存在與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù);
語(yǔ)音輸出參數(shù)調(diào)用模塊622,其配置為當(dāng)不存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù)(當(dāng)存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù));
語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623,其配置為根據(jù)用戶的語(yǔ)音輸入調(diào)節(jié)語(yǔ)音輸出參數(shù)調(diào)用模塊622調(diào)出的語(yǔ)音輸出參數(shù)并輸出調(diào)節(jié)后的語(yǔ)音輸出參數(shù)(進(jìn)一步的,當(dāng)存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)、語(yǔ)音交互剛剛開(kāi)始不存在用戶語(yǔ)音輸入或者用戶的語(yǔ)音輸入數(shù)據(jù)量不足時(shí)語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623不對(duì)調(diào)節(jié)語(yǔ)音輸出參數(shù)調(diào)用模塊622調(diào)出的語(yǔ)音輸出參數(shù)進(jìn)行調(diào)整而是直接輸出)。
語(yǔ)音輸出模塊630配置為結(jié)合語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623輸出的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。
這樣,在機(jī)器人與沒(méi)有對(duì)應(yīng)的語(yǔ)音輸出參數(shù)的用戶進(jìn)行語(yǔ)音交互時(shí)也能夠輸出與用戶談話習(xí)慣匹配的語(yǔ)音輸出,從而保證了機(jī)器人的用戶體驗(yàn)。
具體的,在一實(shí)施例中,語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623配置為:
解析用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間;
調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出模塊630最終的語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與當(dāng)前用戶一致。
進(jìn)一步的,在一實(shí)施例中,語(yǔ)音輸出參數(shù)獲取模塊620還包含:
語(yǔ)音輸出參數(shù)保存模塊624,其配置為將語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。
綜上,本發(fā)明的機(jī)器人可以輸出與用戶的說(shuō)話習(xí)慣相匹配的語(yǔ)音輸出,不僅便于用戶理解,而且可以有效提高用戶的親切感。相較于現(xiàn)有技術(shù),本發(fā)明的機(jī)器人的擬人化水平得到有效提高,機(jī)器人的用戶體驗(yàn)被大大提升。
雖然本發(fā)明所公開(kāi)的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實(shí)施例。在不背離本發(fā)明實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變或變形,但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。