本發(fā)明涉及智能機器人領域,具體地說,涉及一種面向機器人的多模態(tài)情感數(shù)據(jù)交互方法及裝置。
背景技術:
人類不僅具有理性思維和邏輯推理能力,更是一種具有極強情感因子的群體。過去的人機交互模式,究其本質(zhì)更多的是反映理性思維的程序操控?,F(xiàn)在隨著信息科技的發(fā)展,人機交互所面對的最大困境就是如何讓計算機不僅有智商,而且還具備“情感”與人類交互的情感。
未來人工智能的發(fā)展方向是機器人與人之間的感情化交互,強調(diào)情感計算。智能化的機器人在滿足人類需求的同時,還應讓用戶對其產(chǎn)生一種情感上的信任和依賴。
然而,當前市場上大多數(shù)的文本到語音轉(zhuǎn)換TTS技術在發(fā)聲效果、情感表達等方面都非常平淡,毫無情感可言,極大地影響了人機對話的體驗效果。
為提升文本到語音轉(zhuǎn)換TTS的情感表達能力,需要提供一種能夠讓人與機器人之間的對話可以體驗到類似真人般的對話效果的技術方案。
技術實現(xiàn)要素:
本發(fā)明的目的在于,提供一種面向智能機器人的多模態(tài)情感交互方法和裝置來解決上述技術問題。在本發(fā)明的面向智能機器人的多模態(tài)情感交互方法中,其包括以下步驟:
接收多模態(tài)交互輸入信息并進行解析,以獲取用戶輸入的意圖參量和用戶情緒參量;
結(jié)合所述意圖參量和所述情緒參量生成對應于多模態(tài)交互輸入信息的文本回復信息,并結(jié)合所述文本回復信息、上下文交互數(shù)據(jù)及用戶情緒參量生成語音情感參量;
根據(jù)所述回復文本信息及語音情感參量合成語音信息并進行輸出。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感交互方法,優(yōu)選的是,所述語音情感參量包括,
所述回復文本信息的語義參量、句式參量、當前交互的情緒參量以及對當前用戶的情感參量。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感交互方法,優(yōu)選的是,所述方法包括:
結(jié)合用戶情緒參量來生成當前交互的情緒參量;
基于上下文交互數(shù)據(jù)來生成對當前用戶的情感參量;
通過獲取所述回復文本信息的重點詞匯生成所述回復文本信息的語義參量。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感交互方法,優(yōu)選的是,所述方法包括:
在接收多模態(tài)交互輸入信息并進行解析的步驟中,通過采用情感詞典、情感歸類、機器學習的情感計算方式來生成用戶輸入的情緒參量。
根據(jù)本發(fā)明的另一個方面,還提供了一種面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置。所述裝置包括:
接收解析單元,其用以接收多模態(tài)交互輸入信息并進行解析,以獲取用戶輸入的意圖參量和情緒參量;
文本回復生成單元,其用以結(jié)合所述意圖參量和所述情緒參量生成對應于多模態(tài)交互輸入信息的文本回復信息,并結(jié)合所述文本回復信息、上下文交互數(shù)據(jù)及用戶情緒參量生成語音情感參量;
情感輸出合成單元,其用以根據(jù)所述回復文本信息及語音情感參量合成語音信息并進行輸出。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置,優(yōu)選的是,在情感輸出合成單元中,所述語音情感參量包括,
所述回復文本信息的語義參量、句式參量、當前交互的情緒參量以及對當前用戶的情感參量。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置,優(yōu)選的是,在所述裝置的文本回復生成單元中,還包括以下單元:
用以結(jié)合用戶情緒參量來生成當前交互的情緒參量的單元;
用以基于上下文交互數(shù)據(jù)來生成對當前用戶的情感參量的單元;
用以通過獲取所述回復文本信息的重點詞匯生成所述回復文本信息的語義參量的單元。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置,優(yōu)選的是,在所述裝置的接收解析單元中,當接收多模態(tài)交互輸入信息并進行解析時,通過采用情感詞典、情感歸類、機器學習的情感計算方式來生成用戶輸入的情緒參量。
通過實施本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互方法,智能機器人同用戶進行交互時,輸出的TTS語音在不同情感狀態(tài)下的發(fā)聲效果不同,這大大提升了機器人的情感表達能力,使得機器人的智能程度也大為提高。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在說明書、權利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
附圖說明
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例共同用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1顯示了根據(jù)本發(fā)明一個實施例的進行多模態(tài)情感輸出方法的總體流程圖;
圖2顯示了根據(jù)本發(fā)明一個實施例的回復文本信息中的各個參量組成部分的示意圖;
圖3顯示了根據(jù)本發(fā)明一個實施例如何產(chǎn)生回復文本信息中的各個參量的方法流程圖;以及
圖4顯示了根據(jù)本發(fā)明一個實施例的多模態(tài)情感輸出裝置的結(jié)構(gòu)框圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,以下結(jié)合附圖對本發(fā)明實施例作進一步地詳細說明。
如圖1所示,其中顯示了根據(jù)本發(fā)明原理面向智能機器人的進行多模態(tài)情感交互輸出方法的流程圖。
該方法開始于步驟S101,進行系統(tǒng)初始化工作,準備接收用戶的多模態(tài)輸入信息。接下來,在步驟S102中,機器人接收多模態(tài)交互輸入信息并進行解析,以獲取用戶輸入的意圖參量和用戶情緒參量。其中,用戶的多模態(tài)輸入信息例如包括通過語音表達的信息、文本輸入的語句、通過表情或者特定動作表達的信息等。機器人通過多個方面的輸入通道獲取上述信息后,在系統(tǒng)內(nèi)部通過解析從而獲得用戶輸入的意圖參量和用戶情緒參量。在獲得這些參量時,除了進行語義理解獲得用戶基本的意圖之外,還需要進行情感分析和計算以獲得用戶當前的情緒狀態(tài)。
例如,可以通過句法分析對用戶輸入的語句進行理解,得到用戶的意圖,即行為+數(shù)據(jù)。比如用戶問“明天北京天氣怎么樣”,那么系統(tǒng)可能會計算出用戶的意圖為:用戶行為-》“天氣查詢”,城市:北京,時間:明天。
針對用戶的多模態(tài)輸入為文本輸入語句時,要獲取用戶當前的情緒狀態(tài),還需要系統(tǒng)結(jié)合上下文以及歷史交互數(shù)據(jù)進行判斷。例如,用戶輸入“明天北京天氣怎么樣”之前可能已經(jīng)在抱怨北京的天氣糟糕,那么可以分析出用戶當前的情緒狀態(tài)有可能是不太愿意去北京,是一種不高興的情緒狀態(tài)。
在本發(fā)明中,上下文交互數(shù)據(jù)來自于聊天模塊前幾輪對話的結(jié)果,部分地代表了用戶當前所處場景的狀態(tài)。由于在生成文本回復信息時考慮了用戶的情緒參量,因此機器人產(chǎn)生的語音情感參量會受到用戶的情緒影響。例如,用戶在不高興的情緒狀態(tài)下,說“昨晚的球賽太糟糕了,***踢得真差!”機器人通過語義理解能夠基本判斷出用戶的情緒可能是失望的、也可能是氣憤的。那么,在這種情況下,系統(tǒng)可以進一步通過情感計算分析,例如通過采用情感詞典、情感歸類、機器學習等相關算法計算出用戶的當前情緒,并結(jié)合上下文、歷史交互等情況判斷出用戶當前的情感狀態(tài)。
因此,在上述接收多模態(tài)交互輸入信息并進行解析的步驟中,一般通過采用情感詞典、情感歸類、機器學習的情感計算方式來生成用戶輸入的情緒參量。
當然,如果通過語義理解便能準確地判斷出用戶的情緒狀態(tài)的話,系統(tǒng)可以省去進一步進行情感計算的步驟,而直接根據(jù)當前通過語義理解獲得的情緒參量和上下文交互數(shù)據(jù)得到要輸出的語音情感參量。
接下來,在步驟S103中,系統(tǒng)結(jié)合所獲得的意圖參量和情緒參量生成對應于多模態(tài)交互輸入信息的文本回復信息,并結(jié)合文本回復信息、上下文交互數(shù)據(jù)及用戶情緒參量生成語音情感參量。其中,語音情感參量包括回復文本信息的語義參量、句式參量、當前交互的情緒參量以及對當前用戶的情感參量。
對當前用戶的情感參量表示機器人與該特定用戶的親疏關系。如果一個用戶與該機器人交互的時間很長,而且對其進行過深層次的訓練,使其學習并了解到用戶的很多行為、生活習慣,那么機器人可以設定該用戶具有情感級別最高的情感參量。在生成語音情感參量時,考慮對用戶的情感參量可以使得用戶與機器人之間的關系更為緊密,從而使用戶對機器人的依附度更高。而如果一個用戶相對于該機器人為陌生的,那么在初始階段,機器人設定該用戶具有情感級別最低的情感參量,輸出語音時,可以選擇禮貌的聲音進行輸出。由于機器人同用戶均不熟悉,那么在對話過程中,機器人會隨交互的輪數(shù)將情感級別提高,輸出語音時,會選擇更親切的聲音進行輸出,從而使得用戶能夠感覺到機器人與用戶越來越親密的體驗,進一步提高用戶使用機器人進行交互的興趣。
在本發(fā)明中,語義參量主要用以幫助機器人找出輸出語句中的重點詞匯,在對重點詞匯發(fā)聲時例如可以通過重音或升調(diào)等音調(diào)來輸出。句式參量體現(xiàn)出機器人說話的風格,這些句式參量在特定情況下可以是隨用戶以及用戶的情緒而變化的,不同句式在進行語音輸出的語調(diào)不同,例如陳述句“你吃飯了吧”和疑問句“你吃飯了么?”,輸出疑問句時,尾音應該上揚。當前交互的情緒參量是在以上步驟中通過情感計算或其他語義解析方法獲得的。機器人輸出的語音情感參量不一定需要保持與用戶當前交互的情緒參量一致。在某些情況下,機器人的說話語氣可能還與用戶的相反,例如在天氣查詢結(jié)果為“北京天氣晴朗,空氣優(yōu)”的時候,機器人可以以興奮或者愉悅的情緒進行表達,從而調(diào)動起用戶積極的情緒來。
在本發(fā)明中,情感文本轉(zhuǎn)語音輸出TTS模塊結(jié)合輸入的內(nèi)容例如待回復的文本信息以及參數(shù),可以合成出非常自然并帶有情感風格的情感TTS。例如,在步驟S104中,根據(jù)回復文本信息及語音情感參量合成語音信息并進行輸出。
最后,本方法結(jié)束于步驟S105。系統(tǒng)或者退出該情感輸出例程,調(diào)用之前保存的應用環(huán)境參數(shù)對場景進行恢復,也可以返回到初始步驟繼續(xù)進行下一個用戶情感輸入的處理。
本發(fā)明的有利之處在于,新的情感TTS模塊與整個交互過程不再割裂,當前的TTS只根據(jù)當前輸出的文本進行語音合成,并且合成是不帶情感風格的,只是一個單純平淡的機械聲音。而新的情感TTS模塊會結(jié)合整個交互過程中的語義理解過程、情感計算過程、上下文交互過程、多模態(tài)交互過程等進行情感TTS的合成,使TTS不僅具有了情感,而且是結(jié)合到整個上下文的交互場景中,因此更加自然、更具情感、更顯真實。
如圖2所示,其中顯示了本發(fā)明一個實施例的回復文本信息中的各個參量組成部分的示意圖。在圖中,可以看出語音情感參量包括,回復文本信息的語義參量、句式參量、當前交互的情緒參量以及對當前用戶的情感參量。
其中,一種實施方式中,機器人在進行回復文本信息生成時,首先要確定要生成的文本回復信息的句式,因此句式參量的獲取,可以在生成回復文本信息之前即可獲取,而其他三個參量的獲取方式如圖3所示。
在該方法中,主要包括以下步驟:
結(jié)合用戶情緒參量來生成當前交互的情緒參量;
基于上下文交互數(shù)據(jù)來生成對當前用戶的情感參量;
通過獲取所述回復文本信息的重點詞匯生成所述回復文本信息的語義參量。
由于本發(fā)明的方法描述的是在計算機系統(tǒng)中實現(xiàn)的。該計算機系統(tǒng)例如可以設置在機器人的控制核心處理器中。例如,本文所述的方法可以實現(xiàn)為能以控制邏輯來執(zhí)行的軟件,其由機器人控制系統(tǒng)中的CPU來執(zhí)行。本文所述的功能可以實現(xiàn)為存儲在非暫時性有形計算機可讀介質(zhì)中的程序指令集合。當以這種方式實現(xiàn)時,該計算機程序包括一組指令,當該組指令由計算機運行時其促使計算機執(zhí)行能實施上述功能的方法??删幊踢壿嬁梢詴簳r或永久地安裝在非暫時性有形計算機可讀介質(zhì)中,例如只讀存儲器芯片、計算機存儲器、磁盤或其他存儲介質(zhì)。除了以軟件來實現(xiàn)之外,本文所述的邏輯可利用分立部件、集成電路、與可編程邏輯設備(諸如,現(xiàn)場可編程門陣列(FPGA)或微處理器)結(jié)合使用的可編程邏輯,或者包括它們?nèi)我饨M合的任何其他設備來體現(xiàn)。所有此類實施例旨在落入本發(fā)明的范圍之內(nèi)。
因此,根據(jù)本發(fā)明的另一個方面,還提供了一種面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置。如圖4所示,多模態(tài)情感數(shù)據(jù)交互裝置400包括以下單元。
接收解析單元401用以接收多模態(tài)交互輸入信息并進行解析,以獲取用戶輸入的意圖參量和情緒參量。
文本回復生成單元402用以結(jié)合所述意圖參量和所述情緒參量生成對應于多模態(tài)交互輸入信息的文本回復信息,并結(jié)合所述文本回復信息、上下文交互數(shù)據(jù)及用戶情緒參量生成語音情感參量;
情感輸出合成單元403用以根據(jù)所述回復文本信息及語音情感參量合成語音信息并進行輸出。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置400,優(yōu)選的是,在情感輸出合成單元403中,所述語音情感參量包括:所述回復文本信息的語義參量、句式參量、當前交互的情緒參量以及對當前用戶的情感參量。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置400,優(yōu)選的是,在所述裝置的文本回復生成單元402中,還包括以下單元:
用以結(jié)合用戶情緒參量來生成當前交互的情緒參量的單元;
用以基于上下文交互數(shù)據(jù)來生成對當前用戶的情感參量的單元;
用以通過獲取所述回復文本信息的重點詞匯生成所述回復文本信息的語義參量的單元。
根據(jù)本發(fā)明的面向智能機器人的多模態(tài)情感數(shù)據(jù)交互裝置400,優(yōu)選的是,在所述裝置的接收解析單元401中,當接收多模態(tài)交互輸入信息并進行解析時,通過采用情感詞典、情感歸類、機器學習的情感計算方式來生成用戶輸入的情緒參量。
應該理解的是,本發(fā)明所公開的實施例不限于這里所公開的特定結(jié)構(gòu)、處理步驟或材料,而應當延伸到相關領域的普通技術人員所理解的這些特征的等同替代。還應當理解的是,在此使用的術語僅用于描述特定實施例的目的,而并不意味著限制。
說明書中提到的“一個實施例”或“實施例”意指結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個實施例中。因此,說明書通篇各個地方出現(xiàn)的短語“一個實施例”或“實施例”并不一定均指同一個實施例。
雖然本發(fā)明所公開的實施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術領域內(nèi)的技術人員,在不脫離本發(fā)明所公開的精神和范圍的前提下,可以在實施的形式上及細節(jié)上作任何的修改與變化,但本發(fā)明的專利保護范圍,仍須以所附的權利要求書所界定的范圍為準。