一種用于智能機(jī)器人的語(yǔ)音交互輸出方法及機(jī)器人與流程

文檔序號(hào)：12128581閱讀：261來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及機(jī)器人領(lǐng)域，具體說(shuō)涉及一種用于智能機(jī)器人的語(yǔ)音交互輸出方法及機(jī)器人。

背景技術(shù)：

隨著機(jī)器人技術(shù)的不斷發(fā)展，智能機(jī)器人越來(lái)越多的被應(yīng)用與人類的家庭生活中。隨著智能機(jī)器人在人類的家庭生活中的應(yīng)用不斷深入，對(duì)智能機(jī)器人的擬人化水平的要求也不斷提高。

當(dāng)前，很多智能機(jī)器人具備了語(yǔ)音功能，可以與用戶進(jìn)行語(yǔ)音交互。但是，在現(xiàn)有技術(shù)中，智能機(jī)器人的語(yǔ)音輸出通常是具體語(yǔ)義的直接體現(xiàn)，其并不能很好的適應(yīng)于人類的語(yǔ)音交互習(xí)慣。這就導(dǎo)致雖然機(jī)器人通過(guò)語(yǔ)音對(duì)用戶做出了正確的交互回應(yīng)，但是用戶體驗(yàn)仍然不好。

因此，為了進(jìn)一步提高智能機(jī)器人的擬人化水平，提升用戶體驗(yàn)，需要一種用于智能機(jī)器人的語(yǔ)音交互輸出方法。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明提供了一種用于智能機(jī)器人的語(yǔ)音交互輸出方法，所述方法包括：

接收來(lái)自用戶的多模態(tài)交互輸入信息，識(shí)別當(dāng)前的用戶；

獲取所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)，所述語(yǔ)音輸出參數(shù)為根據(jù)所述用戶的說(shuō)話習(xí)慣生成；

結(jié)合所述語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。

在一實(shí)施例中，獲取當(dāng)前的所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)，其中，當(dāng)不存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)：

基于默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù)開(kāi)始與所述用戶的語(yǔ)音交互；

在所述語(yǔ)音交互的過(guò)程中根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)并基于調(diào)節(jié)后的語(yǔ)音輸出參數(shù)進(jìn)行下一步的語(yǔ)音交互。

在一實(shí)施例中，根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)，其中：

解析所述用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間；

調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。

在一實(shí)施例中，調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致，其中，多次逐步調(diào)節(jié)語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。

在一實(shí)施例中，所述方法還包括：

將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。

在一實(shí)施例中，所述語(yǔ)音輸出參數(shù)包括語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。

本發(fā)明還提出了一種智能機(jī)器人，所述機(jī)器人包括：

用戶識(shí)別模塊，其配置為接收來(lái)自用戶的多模態(tài)交互輸入信息，識(shí)別當(dāng)前的用戶；

語(yǔ)音輸出參數(shù)獲取模塊，其配置為獲取并輸出所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)，所述語(yǔ)音輸出參數(shù)為根據(jù)所述用戶的說(shuō)話習(xí)慣生成；

語(yǔ)音輸出模塊，其配置為結(jié)合所述語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。

在一實(shí)施例中，所述語(yǔ)音輸出參數(shù)獲取模塊包含：

語(yǔ)音輸出參數(shù)確認(rèn)模塊，其配置為確認(rèn)當(dāng)前是否存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)；

語(yǔ)音輸出參數(shù)調(diào)用模塊，其配置為當(dāng)不存在與所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù)；

語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊，其配置為根據(jù)所述用戶的語(yǔ)音輸入調(diào)節(jié)所述語(yǔ)音輸出參數(shù)并輸出調(diào)節(jié)后的所述語(yǔ)音輸出參數(shù)。

在一實(shí)施例中，所述語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊配置為：

解析所述用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間；

調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與所述用戶一致。

在一實(shí)施例中，所述語(yǔ)音輸出參數(shù)獲取模塊還包含：

語(yǔ)音輸出參數(shù)保存模塊，其配置為將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為所述用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。

根據(jù)本發(fā)明的方法，可以使得機(jī)器人的語(yǔ)音輸出符合用戶語(yǔ)音交談習(xí)慣的，不僅便于用戶理解，而且大大增強(qiáng)了用戶親切感。根據(jù)本發(fā)明的方法，機(jī)器人的擬人度被大大提高，機(jī)器人的用戶體驗(yàn)得到有效提升。

本發(fā)明的其它特征或優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述。并且，本發(fā)明的部分特征或優(yōu)點(diǎn)將通過(guò)說(shuō)明書(shū)而變得顯而易見(jiàn)，或者通過(guò)實(shí)施本發(fā)明而被了解。本發(fā)明的目的和部分優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的步驟來(lái)實(shí)現(xiàn)或獲得。

附圖說(shuō)明

附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，并且構(gòu)成說(shuō)明書(shū)的一部分，與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中：

圖1～圖3是根據(jù)本發(fā)明實(shí)施例的方法流程圖；

圖4是根據(jù)本發(fā)明一實(shí)施例的方法部分流程圖

圖5和圖6是根據(jù)本發(fā)明實(shí)施例的機(jī)器人系統(tǒng)結(jié)構(gòu)框圖。

具體實(shí)施方式

以下將結(jié)合附圖及實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式，借此本發(fā)明的實(shí)施人員可以充分理解本發(fā)明如何應(yīng)用技術(shù)手段來(lái)解決技術(shù)問(wèn)題，并達(dá)成技術(shù)效果的實(shí)現(xiàn)過(guò)程并依據(jù)上述實(shí)現(xiàn)過(guò)程具體實(shí)施本發(fā)明。需要說(shuō)明的是，只要不構(gòu)成沖突，本發(fā)明中的各個(gè)實(shí)施例以及各實(shí)施例中的各個(gè)特征可以相互結(jié)合，所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。

因此，為了進(jìn)一步提高智能機(jī)器人的擬人化水平，提升用戶體驗(yàn)，本發(fā)明提出了一種用于智能機(jī)器人的語(yǔ)音交互輸出方法。在本發(fā)明的方法中，通過(guò)分析人類的語(yǔ)音交互習(xí)慣歸納人類語(yǔ)音輸出的特征，并盡量使得機(jī)器人的語(yǔ)音輸出具備人類語(yǔ)音輸出的特征，從而提高機(jī)器人的擬人化水平，提升用戶體驗(yàn)。進(jìn)一步的，由于不同人具備不同的語(yǔ)音輸出特征，而人類在理解語(yǔ)音輸入時(shí)比較容易理解和自己語(yǔ)音輸出特征類似的語(yǔ)音輸出，因此在本發(fā)明的方法中，盡量使得機(jī)器人的語(yǔ)音輸出特征與當(dāng)前交互對(duì)象的語(yǔ)音輸出特征匹配，從而進(jìn)一步提高用戶體驗(yàn)。

接下來(lái)基于附圖詳細(xì)描述本發(fā)明實(shí)施例的具體執(zhí)行過(guò)程。附圖的流程圖中示出的步驟可以在包含諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行。雖然在流程圖中示出了各步驟的邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

如圖1所示，在一實(shí)施例中，機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S110)；根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S120)；然后根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(語(yǔ)音輸出特征)(步驟S130)；然后結(jié)合獲取到的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理生成并輸出包含上述語(yǔ)音輸出特征的語(yǔ)音輸出(步驟S140)。

在步驟S130中，獲取的語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音輸出特征相匹配。進(jìn)一步的，該語(yǔ)音輸出參數(shù)是根據(jù)用戶的說(shuō)話習(xí)慣生成的。具體的，在一實(shí)施例中，根據(jù)用戶的說(shuō)話習(xí)慣預(yù)先生成對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(針對(duì)不同的用戶生成多個(gè)不同的語(yǔ)音輸出參數(shù))，然后在交互過(guò)程中根據(jù)用戶身份調(diào)用對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。

進(jìn)一步的，在人類的日常語(yǔ)音交流中，語(yǔ)音輸出的特征包含語(yǔ)種(其包含語(yǔ)系歸屬、方言的劃分)、口音、語(yǔ)速以及對(duì)話等待時(shí)間等等。按照程序執(zhí)行的習(xí)慣，從邏輯上可以將人類語(yǔ)音輸出過(guò)程簡(jiǎn)單歸納為：

確定自身想要表達(dá)的意思；

結(jié)合自身的語(yǔ)種(語(yǔ)系、方言)設(shè)定將想要表達(dá)的意思轉(zhuǎn)化為具體的語(yǔ)言；

以自身習(xí)慣的語(yǔ)速輸出(說(shuō)出)具體的語(yǔ)言并在輸出(說(shuō)出)的同時(shí)對(duì)輸出(說(shuō)出)的語(yǔ)言進(jìn)行口音修正；

在與交互對(duì)象的語(yǔ)音交互過(guò)程中，在兩組語(yǔ)言輸出的間歇使用自身習(xí)慣的對(duì)話等待時(shí)間(對(duì)方說(shuō)話后等待對(duì)話等待時(shí)間后作出回應(yīng)，或，自己說(shuō)話時(shí)如果需要連續(xù)說(shuō)出多組內(nèi)容，在兩組內(nèi)容間等待對(duì)話等待時(shí)間)。

基于上述流程的分析，在一實(shí)施例中，將機(jī)器人對(duì)話輸出的過(guò)程劃分為：

確定語(yǔ)音內(nèi)容；

基于語(yǔ)音輸出參數(shù)對(duì)語(yǔ)音內(nèi)容進(jìn)行交互數(shù)據(jù)處理生成語(yǔ)音輸出。

其中，確定想要表達(dá)的意思并結(jié)合語(yǔ)種設(shè)定將想要表達(dá)的意思轉(zhuǎn)化為具體的語(yǔ)言屬于確定語(yǔ)音內(nèi)容的過(guò)程。因此在一實(shí)施例中，語(yǔ)音輸出參數(shù)包括口音、語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。進(jìn)一步的，由于口音包含的語(yǔ)音細(xì)節(jié)太多且在實(shí)際環(huán)境中口音的種類復(fù)雜多變，其很難具體分析并量化確定。因此，在一實(shí)施例中，語(yǔ)音輸出參數(shù)包括語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量。

如圖2所示，在一實(shí)施例中，機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S210)；根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S220)；然后根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)速參數(shù)以及對(duì)話等待時(shí)間(步驟S230)；確定語(yǔ)音輸出的具體內(nèi)容(步驟S240)；按照對(duì)應(yīng)當(dāng)前用戶的語(yǔ)速參數(shù)以及對(duì)話等待時(shí)間確定步驟S240確定的語(yǔ)音輸出內(nèi)容的輸出語(yǔ)速以及輸出時(shí)機(jī)從而完成語(yǔ)音輸出(步驟S250)。

這樣，根據(jù)圖2所示的實(shí)施例，機(jī)器人“說(shuō)話”的語(yǔ)速以及對(duì)話等待時(shí)間就可以符合當(dāng)前用的說(shuō)話習(xí)慣，不僅便于用戶理解對(duì)話內(nèi)容，而且增強(qiáng)了用戶的親切感，從而大大提高了機(jī)器人的用戶體驗(yàn)。

在圖1以及圖2所示的實(shí)施例中，關(guān)鍵步驟之一在于機(jī)器人必須調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(語(yǔ)速參量和/或?qū)υ挼却龝r(shí)間參量)。在一實(shí)施例中，機(jī)器人的內(nèi)部存儲(chǔ)系統(tǒng)或者機(jī)器人的云端服務(wù)器中預(yù)先存儲(chǔ)有多個(gè)不同用戶的語(yǔ)音輸出參數(shù)。當(dāng)機(jī)器人識(shí)別用戶身份后，基于用戶身份從已保存的語(yǔ)音輸出參數(shù)調(diào)出對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。

但是，在實(shí)際應(yīng)用環(huán)境中，不可能預(yù)知機(jī)器人將要面對(duì)的所有用戶，也就不能在存儲(chǔ)系統(tǒng)/云端中預(yù)存所有機(jī)器人將要面對(duì)的用戶的語(yǔ)音輸出參數(shù)。進(jìn)一步的，在某些情況下，機(jī)器人剛投入使用時(shí)其內(nèi)部存儲(chǔ)為初始狀態(tài)，并未預(yù)存任何用戶數(shù)據(jù)?；蛘撸谀承?yīng)用環(huán)境中，機(jī)器人無(wú)法聯(lián)網(wǎng)獲取云端數(shù)據(jù)。

在交互過(guò)程中，上述種種情況最終會(huì)導(dǎo)致機(jī)器人無(wú)法調(diào)出與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。針對(duì)這種情況，在本發(fā)明一實(shí)施例中，機(jī)器人在無(wú)法調(diào)用與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(不存在與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)或調(diào)用過(guò)程出現(xiàn)錯(cuò)誤無(wú)法調(diào)用)時(shí)，采用現(xiàn)有的(可以調(diào)用)語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出，并在在交互過(guò)程中根據(jù)用戶的語(yǔ)音輸入調(diào)整當(dāng)前采用的語(yǔ)音輸出參數(shù)，最后根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行下一步的語(yǔ)音交互，從而使得機(jī)器人最終的語(yǔ)音輸出的語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音對(duì)話習(xí)慣匹配。

具體的，如圖3所示，在一實(shí)施例中，機(jī)器人首先接收來(lái)自用戶的多模態(tài)交互輸入信息(步驟S310)；根據(jù)接收到的多模態(tài)交互輸入信息識(shí)別當(dāng)前的用戶(步驟S320)；然后確認(rèn)是否存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(步驟S330)；當(dāng)存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)時(shí)根據(jù)用戶身份獲取對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(步驟S351)；然后結(jié)合獲取到的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理生成并輸出包含上述語(yǔ)音輸出特征的語(yǔ)音輸出(步驟S352)。

當(dāng)不存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(或者無(wú)法調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù))時(shí)，機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù)(步驟S340)，根據(jù)可用的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S341)，從而開(kāi)始與用戶的語(yǔ)音交互。在與用戶的語(yǔ)音交互過(guò)程中，機(jī)器人根據(jù)用戶的語(yǔ)音輸入調(diào)整機(jī)器人當(dāng)前采用的語(yǔ)音輸出參數(shù)(步驟S342)，并根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S343)從而使得機(jī)器人的語(yǔ)音輸出與用戶的說(shuō)話習(xí)慣匹配。

進(jìn)一步的，在一實(shí)施例中，在步驟S340中，機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù)，具體的，在一實(shí)施例中，機(jī)器人調(diào)用默認(rèn)的(預(yù)設(shè)的)語(yǔ)音輸出參數(shù)?；蛘撸诹硪粚?shí)施例中，機(jī)器人根據(jù)交互記錄，調(diào)用上一次語(yǔ)音對(duì)話被采用的語(yǔ)音輸出參數(shù)。

進(jìn)一步的，在一實(shí)施例中，機(jī)器人在根據(jù)用戶的語(yǔ)音輸入調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)的過(guò)程中：

解析用戶的語(yǔ)音輸入以獲取用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間；

調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與用戶一致。

具體的，如圖4所示，當(dāng)不存在對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù)(或者無(wú)法調(diào)用對(duì)應(yīng)當(dāng)前用戶的語(yǔ)音輸出參數(shù))時(shí)，機(jī)器人調(diào)用可用的語(yǔ)音輸出參數(shù)(步驟S410)，根據(jù)可用的語(yǔ)音輸出參數(shù)進(jìn)行語(yǔ)音輸出(步驟S411)，從而開(kāi)始與用戶的語(yǔ)音交互。在與用戶的語(yǔ)音交互過(guò)程中，機(jī)器人接收用戶的語(yǔ)音輸入(步驟S420)，獲取用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間(步驟S421)。

進(jìn)一步的，考慮到有時(shí)并不能僅僅通過(guò)一輪語(yǔ)音對(duì)話就能完全獲取用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間，因此在本實(shí)施例中執(zhí)行步驟S422，判斷是否獲取到完整的用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間，如果沒(méi)有則繼續(xù)基于當(dāng)前的語(yǔ)音輸出參數(shù)進(jìn)行下一輪的語(yǔ)音輸出(返回步驟S411)。

如果已經(jīng)獲取到完整的用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間，則根據(jù)用戶語(yǔ)音輸入的語(yǔ)速以及對(duì)話等待時(shí)間調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)(步驟S430)并根據(jù)調(diào)整后的語(yǔ)音輸出參數(shù)進(jìn)行新一輪的語(yǔ)音輸出(步驟S440)，使得語(yǔ)音輸出的語(yǔ)速和對(duì)話等待時(shí)間與用戶一致，從而使得機(jī)器人的語(yǔ)音輸出與用戶的說(shuō)話習(xí)慣匹配。

進(jìn)一步的，在通常的語(yǔ)音交談中，如果一方突然改變語(yǔ)音輸出特點(diǎn)(口音、語(yǔ)速或?qū)υ挼却龝r(shí)間)或造成另一方的不適(對(duì)方剛剛適應(yīng)你的語(yǔ)音輸出特點(diǎn)，突然轉(zhuǎn)變會(huì)導(dǎo)致對(duì)方不習(xí)慣)。因此，在本發(fā)明一實(shí)施例中，在機(jī)器人根據(jù)用戶語(yǔ)音輸入調(diào)整當(dāng)前的語(yǔ)音輸出參數(shù)時(shí)，再用了逐步調(diào)整的策略。即，將對(duì)語(yǔ)音輸出參數(shù)的調(diào)整分為多步，每步只對(duì)語(yǔ)音輸出參數(shù)的值做小范圍調(diào)整，根據(jù)小范圍調(diào)整后的語(yǔ)音輸出參數(shù)輸出下一輪的語(yǔ)音輸出，不斷在上一輪語(yǔ)音輸出的語(yǔ)音輸出參數(shù)的基礎(chǔ)上做小范圍調(diào)整直到語(yǔ)音輸出參數(shù)與用戶的語(yǔ)音輸入匹配。

這樣，新輸出的語(yǔ)音輸出與上一輪的語(yǔ)音輸出在語(yǔ)音輸出參數(shù)上的差別維持在一個(gè)較小的范圍內(nèi)。這樣就能消除由于語(yǔ)音輸出參數(shù)的突然轉(zhuǎn)變而造成的用戶的不適感。具體的，在一實(shí)施例中，多次逐步調(diào)節(jié)語(yǔ)音輸出參數(shù)使得語(yǔ)速和/或?qū)υ挼却龝r(shí)間與用戶一致。

進(jìn)一步的，為了使得下一次和相同用戶進(jìn)行語(yǔ)音交互時(shí)不需要再次進(jìn)行語(yǔ)音輸出參數(shù)的獲取，在一實(shí)施例中，在步驟S440之后，將最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)(步驟S450)。

綜上，根據(jù)本發(fā)明的方法，可以使得機(jī)器人的語(yǔ)音輸出符合用戶語(yǔ)音交談習(xí)慣的，不僅便于用戶理解，而且大大增強(qiáng)了用戶親切感。根據(jù)本發(fā)明的方法，機(jī)器人的擬人度被大大提高，機(jī)器人的用戶體驗(yàn)得到有效提升。

基于本發(fā)明的方法，本發(fā)明還提出了一種符合用戶語(yǔ)音交談習(xí)慣的機(jī)器人。如圖5所示，在一實(shí)施例中，機(jī)器人包含：

用戶識(shí)別模塊510，其配置為接收來(lái)自用戶的多模態(tài)交互輸入信息，識(shí)別當(dāng)前的用戶；

語(yǔ)音輸出參數(shù)獲取模塊520，其配置為獲取并輸出當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)，具體的，語(yǔ)音輸出參數(shù)為根據(jù)用戶的說(shuō)話習(xí)慣生成；

語(yǔ)音輸出模塊530，其配置為結(jié)合語(yǔ)音輸出參數(shù)獲取模塊520輸出的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。

這樣，語(yǔ)音輸出模塊530最終輸出的語(yǔ)音輸出就是與用戶的說(shuō)話習(xí)慣相匹配的，不僅便于用戶理解，而且可以有效提高用戶的親切感。相較于現(xiàn)有技術(shù)，本發(fā)明的機(jī)器人的擬人化水平得到有效提高，機(jī)器人的用戶體驗(yàn)被大大提升。

進(jìn)一步的，在一實(shí)施例中，如圖6所示，用戶識(shí)別模塊610配置為接收來(lái)自用戶的多模態(tài)交互輸入信息，識(shí)別當(dāng)前的用戶。

語(yǔ)音輸出參數(shù)獲取模塊620包含語(yǔ)音輸出參數(shù)確認(rèn)模塊621、語(yǔ)音輸出參數(shù)調(diào)用模塊622以及語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623。其中：

語(yǔ)音輸出參數(shù)確認(rèn)模塊621，其配置為確認(rèn)當(dāng)前是否存在與當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)；

語(yǔ)音輸出參數(shù)調(diào)用模塊622，其配置為當(dāng)不存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用默認(rèn)設(shè)置的語(yǔ)音輸出參數(shù)或上一次對(duì)話被采用的語(yǔ)音輸出參數(shù)(當(dāng)存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)調(diào)用與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù))；

語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623，其配置為根據(jù)用戶的語(yǔ)音輸入調(diào)節(jié)語(yǔ)音輸出參數(shù)調(diào)用模塊622調(diào)出的語(yǔ)音輸出參數(shù)并輸出調(diào)節(jié)后的語(yǔ)音輸出參數(shù)(進(jìn)一步的，當(dāng)存在與用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)時(shí)、語(yǔ)音交互剛剛開(kāi)始不存在用戶語(yǔ)音輸入或者用戶的語(yǔ)音輸入數(shù)據(jù)量不足時(shí)語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623不對(duì)調(diào)節(jié)語(yǔ)音輸出參數(shù)調(diào)用模塊622調(diào)出的語(yǔ)音輸出參數(shù)進(jìn)行調(diào)整而是直接輸出)。

語(yǔ)音輸出模塊630配置為結(jié)合語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623輸出的語(yǔ)音輸出參數(shù)進(jìn)行交互數(shù)據(jù)處理以生成語(yǔ)音輸出。

這樣，在機(jī)器人與沒(méi)有對(duì)應(yīng)的語(yǔ)音輸出參數(shù)的用戶進(jìn)行語(yǔ)音交互時(shí)也能夠輸出與用戶談話習(xí)慣匹配的語(yǔ)音輸出，從而保證了機(jī)器人的用戶體驗(yàn)。

具體的，在一實(shí)施例中，語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623配置為：

解析用戶的語(yǔ)音輸入以獲取所述用戶的語(yǔ)速和/或?qū)υ挼却龝r(shí)間；

調(diào)節(jié)當(dāng)前的語(yǔ)音輸出參數(shù)使得語(yǔ)音輸出模塊630最終的語(yǔ)音輸出的語(yǔ)速和/或?qū)υ挼却龝r(shí)間與當(dāng)前用戶一致。

進(jìn)一步的，在一實(shí)施例中，語(yǔ)音輸出參數(shù)獲取模塊620還包含：

語(yǔ)音輸出參數(shù)保存模塊624，其配置為將語(yǔ)音輸出參數(shù)調(diào)節(jié)模塊623最終調(diào)節(jié)完畢的語(yǔ)音輸出參數(shù)保存為當(dāng)前用戶對(duì)應(yīng)的語(yǔ)音輸出參數(shù)。

綜上，本發(fā)明的機(jī)器人可以輸出與用戶的說(shuō)話習(xí)慣相匹配的語(yǔ)音輸出，不僅便于用戶理解，而且可以有效提高用戶的親切感。相較于現(xiàn)有技術(shù)，本發(fā)明的機(jī)器人的擬人化水平得到有效提高，機(jī)器人的用戶體驗(yàn)被大大提升。

雖然本發(fā)明所公開(kāi)的實(shí)施方式如上，但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式，并非用以限定本發(fā)明。本發(fā)明所述的方法還可有其他多種實(shí)施例。在不背離本發(fā)明實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變或變形，但這些相應(yīng)的改變或變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3