專利名稱:會(huì)話數(shù)據(jù)開采的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及面向話音的系統(tǒng),具體地涉及一種便利數(shù)據(jù)開采的面向聲學(xué)的方法和設(shè)備以及一種用于加工話音系統(tǒng)的響應(yīng)成為話音系統(tǒng)用戶的聲學(xué)鑒定狀態(tài)的面向聲學(xué)的方法和設(shè)備。
數(shù)據(jù)開采是近來日益普及的一種跨學(xué)科領(lǐng)域。它指的是使用各種以無監(jiān)督方式或極小監(jiān)督方式從數(shù)據(jù)中提取信息的方法?!盁o監(jiān)督”指的是其中不存在事先標(biāo)注的技術(shù);允許其自己推導(dǎo)出各個(gè)類。聲音是簇集的,并由人明白推導(dǎo)出那些類。在交易、風(fēng)險(xiǎn)和欺詐管理中使用數(shù)據(jù)開采。
在數(shù)據(jù)開采(data mining)領(lǐng)域中,普遍認(rèn)同更多數(shù)據(jù)更好。從而,從事數(shù)據(jù)開采的公司頻繁地編輯或獲取用戶數(shù)據(jù)庫。這些數(shù)據(jù)庫可基于郵購史、過去顧客史、信用史等。預(yù)計(jì)顧客的電子商務(wù)以及其互聯(lián)網(wǎng)習(xí)性很快地也會(huì)提供一種顧客數(shù)據(jù)庫基礎(chǔ)??梢詮膶?duì)交易或事件的人工或自動(dòng)編碼處理中得到所存儲(chǔ)信息的特性。交易的一個(gè)例子可以是某給定人在某些條件下在某給定價(jià)格下購買某給定產(chǎn)品,或者,某給定人對(duì)某郵寄目錄作出響應(yīng)。事件的一個(gè)例子可包括某人在某日出交通事件,或者某家庭在上個(gè)月搬入。
傳統(tǒng)上把數(shù)據(jù)開采所運(yùn)算的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉庫里。一旦確定出商務(wù)對(duì)象,檢查該數(shù)據(jù)倉庫以選擇有關(guān)特征,評(píng)估數(shù)據(jù)的品質(zhì),并把數(shù)據(jù)轉(zhuǎn)換到適用于預(yù)定分析的分析模型中。接著可施加諸如預(yù)測(cè)建模、數(shù)據(jù)庫分段、連接分析和偏差檢測(cè)之類的技術(shù),以便輸出目標(biāo)、進(jìn)行預(yù)報(bào)和檢查,在確認(rèn)后,可以導(dǎo)出結(jié)果模型。
當(dāng)前,常常在電話上通過話務(wù)員或交互式話音響應(yīng)(IVR)系統(tǒng)進(jìn)行各種各樣的交易。大家知道,作為這種交易中的通信方式的話音攜帶著有關(guān)用戶的各種屬性的信息,諸如性別、年齡、母語、口音、方言、社會(huì)經(jīng)濟(jì)條件、教育程度和情緒狀態(tài)。這些參數(shù)中的一個(gè)或多個(gè)對(duì)于參與數(shù)據(jù)開采的各個(gè)人可能是有用的。目前,這些交易中所含有的數(shù)據(jù)上所發(fā)現(xiàn)的不可多得的內(nèi)容或者全都丟失給數(shù)據(jù)開采者,或者為了有效地應(yīng)用必須進(jìn)行人工檢索。
從而,現(xiàn)有技術(shù)需要一種用于收集數(shù)據(jù)倉庫中的和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)的方法,其可有效地和自動(dòng)地使用利用話音系統(tǒng)(例如電話、商亭等)的交易中所得到的數(shù)據(jù)。還要求該方法實(shí)現(xiàn)成實(shí)時(shí)的、帶有或不帶有數(shù)據(jù)倉庫存儲(chǔ)的,以允許由諸如交互式話音響應(yīng)系統(tǒng)等的話音系統(tǒng)進(jìn)行“飛行中”的修改。
解決現(xiàn)有技術(shù)中所確定的需求的本發(fā)明提供一種方法,用于收集數(shù)據(jù)倉庫中和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)。該方法包括步驟和話音系統(tǒng)用戶進(jìn)行會(huì)話,捕獲語音波形,數(shù)字化該語音波形,從數(shù)字化的語音波形中提取至少一個(gè)聲學(xué)特征,以及在數(shù)據(jù)倉庫中存儲(chǔ)和聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)??赏ㄟ^話務(wù)員和話音允許機(jī)系統(tǒng)中的至少一種進(jìn)行和話音系統(tǒng)用戶的會(huì)話。所捕獲的語音波形是和會(huì)話期間話音系統(tǒng)用戶說出的發(fā)音相關(guān)的。語音波形的數(shù)字化提供數(shù)字化語音波形。從數(shù)字化波形中提取至少一個(gè)聲學(xué)特征,并且和至少一個(gè)諸如用戶性別、年齡、口音、母語、方言、社會(huì)經(jīng)濟(jì)類別、教育程度和情緒狀態(tài)的用戶屬性相關(guān)。存儲(chǔ)在數(shù)據(jù)倉庫里的該屬性數(shù)據(jù)對(duì)應(yīng)于聲學(xué)特征,該聲學(xué)特征和至少一個(gè)用戶屬性相關(guān)并且和至少一個(gè)標(biāo)識(shí)標(biāo)記一起存儲(chǔ)。在數(shù)據(jù)倉庫中以便利隨后的數(shù)據(jù)開采的形式存儲(chǔ)該數(shù)據(jù)。
本發(fā)明還提供一種把話音系統(tǒng)響應(yīng)加工成話音系統(tǒng)用戶的聲學(xué)鑒定狀態(tài)的方法。該方法包括通過該話音系統(tǒng)和話音系統(tǒng)用戶進(jìn)行對(duì)話的步驟。該方法還包括如前面所討論的捕獲語音波形并數(shù)字化該語音波形的步驟。此外,還如上述那樣,該方法包括從數(shù)字化語音波形提取聲學(xué)特征的步驟。最后,該方法包括根據(jù)至少一個(gè)用戶屬性修改該話音系統(tǒng)的行為的步驟,其中所述至少一個(gè)用戶屬性和至少一個(gè)聲學(xué)特征相關(guān)。
本發(fā)明還包括一種可由機(jī)器讀的程序存儲(chǔ)部件,其有形地嵌有可由該機(jī)器執(zhí)行的用于實(shí)現(xiàn)上述方法之一的指令程序。
本發(fā)明還提供一種設(shè)備,用于收集和用戶的話音相關(guān)的數(shù)據(jù)。該設(shè)備包括一個(gè)對(duì)話管理單元,一個(gè)聲頻捕獲模塊,一個(gè)聲學(xué)前端,一個(gè)處理模塊以及一個(gè)數(shù)據(jù)倉庫。該對(duì)話管理單元進(jìn)行與用戶的會(huì)話。該聲頻捕獲模塊和該對(duì)話管理單元相連接,并捕獲與會(huì)話期間由用戶說出的發(fā)音相關(guān)的語音波形。
該聲學(xué)前端和該聲頻捕獲模塊相連接,并配置成接收及數(shù)字化該語音波形以提供數(shù)字化語音波形,而且配置成從數(shù)字化語音波形中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征。該至少一個(gè)用戶屬性可包括上面對(duì)各方法討論的至少一個(gè)用戶屬性。
該處理模塊和該聲學(xué)前端相連并分析至少一個(gè)聲學(xué)特征以確定至少一個(gè)用戶屬性。該數(shù)據(jù)倉庫和該處理模塊相連,并以隨后的數(shù)據(jù)開采的格式存儲(chǔ)該至少一個(gè)用戶屬性。
本發(fā)明還提供一種用于和用戶交互的可實(shí)時(shí)修改的話音系統(tǒng)。該系統(tǒng)包括一個(gè)上述討論類型的對(duì)話管理單元,一個(gè)上述討論類型的聲頻捕獲模塊以及一個(gè)上述討論類型的聲學(xué)前端。此外,該話音系統(tǒng)還包括一個(gè)上述討論類型的處理模塊。該處理模型配置成根據(jù)該至少一個(gè)用戶屬性來修改該話音系統(tǒng)的行為。
為了更好理解本發(fā)明以及它的其它和更多的優(yōu)點(diǎn),請(qǐng)?jiān)诮Y(jié)合各附圖下參閱下述說明,而在附屬權(quán)利要求書中指出本發(fā)明的范圍。
圖1是依據(jù)本發(fā)明的用于收集和用戶的話音相關(guān)的數(shù)據(jù)的設(shè)備圖;圖2是依據(jù)本發(fā)明的用于和用戶交互的可實(shí)時(shí)修改的話音系統(tǒng)圖;圖3是依據(jù)本發(fā)明的用于在數(shù)據(jù)倉庫中收集和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)的方法的流程圖;圖4描述圖3中所示方法的某些細(xì)節(jié),它們也可應(yīng)用于圖5;圖5是依據(jù)本發(fā)明的用于把話音系統(tǒng)響應(yīng)加工成話音系統(tǒng)用戶的聲學(xué)鑒定狀態(tài)的方法的流程圖;以及圖6描述圖5方法的某些細(xì)節(jié)。
現(xiàn)參照?qǐng)D1,其描述依據(jù)本發(fā)明的用于收集和用戶的話音相關(guān)的數(shù)據(jù)的設(shè)備。該設(shè)備概括地用100標(biāo)示。該設(shè)備包括一個(gè)與用戶104進(jìn)行會(huì)話的對(duì)話管理單元102。設(shè)備100還包括一個(gè)和對(duì)話管理單元102連接的并在會(huì)話期間捕獲與用戶104說出的發(fā)音相關(guān)的語音波形的聲頻捕獲模塊106。如本文中所使用的那樣,應(yīng)把會(huì)話廣義地理解成包括第一人和/或者第二人、或者一個(gè)機(jī)器或者第二人與機(jī)器的組合之間的任何交互,該會(huì)話包括至少一些語音。
設(shè)備100還包括一個(gè)聲學(xué)前端108,前端108和聲頻捕獲模塊106相連并被配置成接收及數(shù)字化該語音波形,從而提供數(shù)字化語音波形。此外,聲學(xué)前端108還配置成從該數(shù)字化語音波形提取至少一個(gè)和用戶104的至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征。該至少一個(gè)用戶屬性可包括下述中的至少一個(gè)用戶的性別、用戶的年齡、用戶的口音、用戶的母語、用戶的方言、用戶的社會(huì)經(jīng)濟(jì)類別、用戶的教育水平以及用戶的情緒狀態(tài)。對(duì)話管理單元102可使用從聲學(xué)前端108得到的諸如MEL逆譜的聲學(xué)特征,從而若需要時(shí)二者之間可以有直接連接。
設(shè)備100還包括一個(gè)和聲學(xué)前端108連接的處理模塊110,其分析該至少一個(gè)聲學(xué)特征以確定至少一個(gè)用戶屬性。此外,設(shè)備100還包括一個(gè)和處理模塊110連接的數(shù)據(jù)倉庫112,其在隨后的數(shù)據(jù)開采的形式下存儲(chǔ)該至少一個(gè)用戶屬性以及至少一個(gè)標(biāo)識(shí)標(biāo)記。在本文的其它處討論標(biāo)識(shí)標(biāo)記。
用戶的性別可以通過對(duì)用戶話音音調(diào)分類或者通過對(duì)特征組的簡單聚類得到確定。在后一種方法中,建立和一種給定性別的大量說話人相關(guān)的話音聲紋,然后借助這二組模型進(jìn)行說話人的分類。以類似于性別分類的方式通過年齡組的分類可以確定用戶的年齡。盡管可靠性有限,可以以這種方式區(qū)分各種年齡類別,例如,兒童、青少年、成人和老年人。
從聲學(xué)特征中確定口音在技術(shù)上是周知的。例如,Lincoln等于1998年國際口語處理年會(huì)[以下稱為ICSLP’98],Sidney,Australia提出的論文“A Comparison of Two Unsupervised Approaches to AccentIdentification”敘述了各種有用的技術(shù)??梢砸曰旧系韧诳谝舴诸惖姆绞酱_定用戶的母語??梢栽鎏碚f話人的母語的有關(guān)元數(shù)據(jù)以定義每種口音/母語模型。
即,在創(chuàng)造用于各種母語的模型時(shí),可以使用一個(gè)或多個(gè)以該語言作為他們的母語的說話人。在ICSLP”98上由Matrouf等提出的論文“Language Identification Incorporating Lexical Information”中討論了各種語言識(shí)別的技術(shù)。
可以從口音以及某給定方言中的專用的關(guān)鍵字或習(xí)語的使用確定用戶的方言。例如,在法語中,為數(shù)字90選用“nonante”而不是選用“Quatre Vingt Dix”可以標(biāo)明該說話人為比利時(shí)或瑞士血統(tǒng),而不是法國人或加拿大人。進(jìn)而,隨后為數(shù)字80選用“qutre-vingt”而不選用“octante”或“Huitante”可標(biāo)明該人是比利時(shí)人而不是瑞士人,在美式英語中選用“grocery sack”而不選用“grocery bag”可標(biāo)識(shí)某個(gè)人來自于中西部而不是來自于中大西洋部。美語中中西部和中大西洋部不同的另一個(gè)例子是,在中西部對(duì)軟飲料選用“pop”,而在中大西洋部為該相應(yīng)的軟飲料選用“soda”。在國際環(huán)境下,使用“holiday”以代替“vacation”可標(biāo)明某人為英國而不是美國血統(tǒng)。本段中所討論的操作可利用后面討論的語音識(shí)別器126實(shí)現(xiàn)。
用戶的社會(huì)經(jīng)濟(jì)分類可包括諸如用戶的種族背景、用戶的人種背景及用戶的經(jīng)濟(jì)類型等因素,例如,蘭領(lǐng)、白領(lǐng)-中產(chǎn)階級(jí)或富人??梢酝ㄟ^訓(xùn)練時(shí)刻帶注釋的口音和方言以及通過檢查用戶用詞選擇對(duì)此作出確定,盡管其可靠性只是中等的,確信這些技術(shù)可充分了解用戶背景,從而對(duì)數(shù)據(jù)開采是有用的。
以類似于社會(huì)經(jīng)濟(jì)分類的方式,可通過詞的選擇以及口音確定用戶的教育等級(jí);同樣只能期待局部可靠性,但對(duì)于數(shù)據(jù)開采目的是足夠的。
從聲學(xué)特征中確定用戶的情緒狀態(tài)在技術(shù)上是周知的??梢宰R(shí)別的情緒類型包括激怒、忍怒、驚慌、恐懼、焦急、悲哀、得意、失望、高興、感興趣、厭煩、害羞、輕視、慌亂、厭惡和傲慢。下述在ICSLP’98上提交的論文都描述了從有關(guān)的聲學(xué)特征中確定情緒狀態(tài)的示例方法Pereira和Watson的“Some Acoustic Characteristics of Emotion”,Amir和Ron的“Towards an Automatic Classification of Emotions in Speech”,以及Whiteside的“Simulated EmotionsAn Acoustic study of Voice andPerturbation Measures.”聲頻捕獲模塊106可包括例如模數(shù)轉(zhuǎn)換器板、交互話音響應(yīng)系統(tǒng)和麥克風(fēng)中的至少一個(gè)。對(duì)話管理單元102可包括一個(gè)電話交互話音響應(yīng)系統(tǒng),例如用于實(shí)現(xiàn)聲頻捕獲的同一系統(tǒng)。備擇地,對(duì)話管理單元可以簡單電是一個(gè)對(duì)話務(wù)員的聲學(xué)接口。對(duì)話管理單元102可包括自然語言理解(NLO)、自然語言生成(NLG)、有限狀態(tài)語法(FSG)和/或用于代替或輔助話務(wù)員的對(duì)用戶進(jìn)行機(jī)器提示的文本至語音的合成(TTS)。處理模塊110可在IVR的處理器部分中實(shí)現(xiàn),或者可由一個(gè)單獨(dú)的帶有適當(dāng)軟件的用計(jì)算機(jī)實(shí)現(xiàn)。另外,可以利用諸如專用集成電路(ASIC)的專用電路實(shí)現(xiàn)處理模塊,或者用采用分離元件的或采用分離及集成元件組合的專用電路實(shí)現(xiàn)。
處理模塊110可包括一個(gè)情緒狀態(tài)分類器114。分類器114可進(jìn)而包括一個(gè)情緒狀態(tài)分類模塊116以及一個(gè)情緒狀態(tài)原型數(shù)據(jù)庫118。
處理模塊110還包括一個(gè)說話人聚類器及分類器120。部件120還可包括一個(gè)說話人聚類及分類模塊122和一個(gè)說話人類別數(shù)據(jù)庫124。
處理模塊110還可包括一個(gè)語音識(shí)別器126,后者進(jìn)而可包括一個(gè)語音識(shí)別模塊128和一個(gè)語音原型、語言模型及語法數(shù)據(jù)庫130。語音識(shí)別器126可以是對(duì)話管理單元102的一部分,或者,例如是處理模塊的實(shí)現(xiàn)內(nèi)的一個(gè)獨(dú)立部件。此外,處理模塊110可包括一個(gè)口音識(shí)別器132,后者進(jìn)而包括一個(gè)口音識(shí)別模塊134和一個(gè)口音數(shù)據(jù)庫136。
處理模塊110可包括部件114、120、126和132中的任一部件;可包括所有這些部件或它們的任何組合。
設(shè)備100還可包括一個(gè)后處理器138,其和數(shù)據(jù)倉庫112連接并且配置成譯出用戶的發(fā)音并對(duì)用戶發(fā)音進(jìn)行關(guān)鍵字識(shí)別。盡管在圖1中是按一個(gè)獨(dú)立物示出的,后處理器可以是處理模塊110的一部分或者是處理模塊110的任何子部件。例如,它可實(shí)現(xiàn)成是語音識(shí)別器126的一部分??梢园磳S秒娐坊驇в羞m當(dāng)軟件模塊組的通用計(jì)算機(jī)上的一部分,把后處理器138實(shí)現(xiàn)成IVR的處理器部分。后處理器138可使用語音識(shí)別器126。后處理器138還可包括一個(gè)語義模塊(未示出)以解釋短語的含義。語音識(shí)別器126可使用該語義模塊以指示某列表中某些譯碼侯選物是無意義的并應(yīng)丟棄/或用有意義的候選物代替。
聲學(xué)前端108如技術(shù)上周知可以典型地是一個(gè)八維加能量前端。但應(yīng)理解,可采用13、24或任何其它數(shù)量的維數(shù)。例如可以在帶有10ms重疊的25ms的幀組上計(jì)算MEL逆譜以及三角(deleta)參數(shù)和雙三角參數(shù),即,一次和二次微商。如圖1中所示,可把這些聲學(xué)特征提供給說話人聚類器及分類器120、語音識(shí)別器126和口音識(shí)別器132。
可以由聲學(xué)前端108提取其它類型的聲學(xué)特征。可把它們標(biāo)示成情緒狀態(tài)特征,例如平均運(yùn)行音調(diào)(pitch)、運(yùn)行音調(diào)方差、音調(diào)跳動(dòng)、運(yùn)行能量方差、語音速率、擺振(shimmer)、基頻以及基頻中的偏差。音調(diào)跳動(dòng)指的是音調(diào)的一階導(dǎo)數(shù)中符號(hào)的改變次數(shù)。擺振是能量跳動(dòng)??砂堰@些特征從聲學(xué)前端108提供到情緒狀態(tài)分類器114。上述包括MEL逆譜和情緒狀態(tài)特征在內(nèi)的聲學(xué)特征可看成是原始的即未處理的特征。
可通過IVR等譯出用戶詢問??墒紫壤缭谡f話人聚類器和分類器120中,通過和文本無關(guān)的說話人分類系統(tǒng)處理語音特征。這允許根據(jù)其話音的聲學(xué)類似性對(duì)說話人分類。在1996年2月2日提交的美國專利申請(qǐng)S.N.60/011,058,1997年1月28日提交的美國專利申請(qǐng)S.N.08/787,031(現(xiàn)為1999年4月20日頒布的美國專利5,895,447),1997年1月28日提交的美國專利申請(qǐng)S.N.08/788,471以及1997年1月28日提交的美國專利申請(qǐng)S.N.08/787,029中公開這樣的系統(tǒng)的實(shí)現(xiàn)和使用,所有這些專利申請(qǐng)都共同轉(zhuǎn)讓給國際商用機(jī)器公司,這些公開都特意與本文相結(jié)合供用于各種參考。對(duì)說話人的分類可以是受監(jiān)視的或不受監(jiān)視的。在受監(jiān)視的情況下,根據(jù)外部信息事先決定類別。典型地,這種分類可區(qū)分男與女、成人與兒童、母語說話人與非母語說話人等等。該分類處理的標(biāo)示構(gòu)成處理過的特征。該處理的結(jié)果可提供給情緒狀態(tài)分類器114,并且可與訓(xùn)練期間用于根據(jù)對(duì)某給定類觀測(cè)到的均值把情緒狀態(tài)特征歸一化成中性情緒狀態(tài)。該歸一化情緒狀態(tài)特征由輸出情緒狀態(tài)估計(jì)的情緒狀態(tài)分類器114使用。該輸出也被當(dāng)成是處理過的特征的一部分。概言之,情緒狀態(tài)分類器114可根據(jù)語音聚類器及分類器120生成的每個(gè)類歸一化情緒狀態(tài)特征??砂慈缦職w一化一個(gè)特征。令Xo為額定頻率。并令Xi為測(cè)出頻率·歸一化特征則由Xi減Xo給出。該量可為正、為負(fù)或?yàn)榱悖ǔJ菬o量綱的。
語音識(shí)別器126可改錄來自用戶的詢問。這可以是與說話人無關(guān)的或者與類別相關(guān)的大詞匯量連續(xù)語音識(shí)別,或者,系統(tǒng)可簡單到是一個(gè)關(guān)鍵字識(shí)別器以檢測(cè)出(例如)危害等。這類系統(tǒng)是技術(shù)中周知的。輸出可以是完整的句子,但也可得到精細(xì)顆粒;例如,各識(shí)別出的詞的時(shí)間校準(zhǔn)。該帶時(shí)間印記的改錄也可當(dāng)作一部分處理過的特征,在后面根據(jù)本發(fā)明的方法會(huì)進(jìn)一步作出說明。這樣,可以譯出并存儲(chǔ)事務(wù)的每個(gè)階段中的會(huì)話。如圖1中所示,適當(dāng)?shù)臄?shù)據(jù)從說話人聚類器及分類器120傳送到情緒狀態(tài)分類器114和語音識(shí)別器126。如所提及,有可能利用用戶104的輸入語音進(jìn)行口音、方言及語言識(shí)別??筛鶕?jù)具有要識(shí)別的不同口音的幾個(gè)說話人的語音訓(xùn)練連續(xù)語音識(shí)別器。每個(gè)訓(xùn)練說話人還帶有一個(gè)口音向量,該向量的各個(gè)維代表與每個(gè)lefeme的每個(gè)狀態(tài)有關(guān)的最有可能的混合構(gòu)件??梢愿鶕?jù)這些口音向量之間的距離對(duì)說話人聚類,并且例如可通過說話人成員組的口音標(biāo)識(shí)各聚類器??梢酝ㄟ^從用戶的語音中提取口音向量并進(jìn)行分類實(shí)現(xiàn)口音識(shí)別。如所述,可以根據(jù)用戶104使用的詞匯和詞序列估計(jì)方言、社會(huì)經(jīng)濟(jì)類別等。通過專家語言知識(shí)可以編輯要檢測(cè)的適當(dāng)關(guān)鍵字、句子或語法錯(cuò)誤??谝?、社會(huì)經(jīng)濟(jì)背景、性別、年齡等是一部分處理過的特征。如圖1中所示,任何用實(shí)箭頭指示的處理過的特征可存儲(chǔ)在數(shù)據(jù)倉庫112中。此外,在數(shù)據(jù)倉庫112中還可存儲(chǔ)用虛線指示的原始特征。
在完成事務(wù)后,可在數(shù)據(jù)倉庫112中存儲(chǔ)任何處理過的或原始的特征,并把它們和其它已收集的數(shù)據(jù)關(guān)聯(lián)起來。然后施加傳統(tǒng)的數(shù)據(jù)開采技術(shù)。這樣的技術(shù)是已知的,例如在Alex Berson和Stephen J.Smith所著的由McGraw Hill出版社于1977年出版的“Data warehousing,Data Mining and OAAP”一書中以及在Cabena等著的由Prentice Hall出版社于1998年出版的“Discovering Date Mining”一書中所描述的。對(duì)于給定的商用目的,例如目標(biāo)營銷(target marketing),通過應(yīng)用適當(dāng)?shù)拈_采方法可自動(dòng)地得到預(yù)測(cè)模型或分類器。數(shù)據(jù)倉庫112中存儲(chǔ)的所有數(shù)據(jù)可以以一種便利隨后的數(shù)據(jù)開采的格式存儲(chǔ)。業(yè)內(nèi)人士知道用于要被開采的數(shù)據(jù)的各種適當(dāng)格式,例如上述二本參考書籍中所描述。商用目的例如可包括檢查對(duì)提出購買某給定產(chǎn)品或服務(wù)敏感的用戶,檢查對(duì)自動(dòng)系統(tǒng)存在問題從而應(yīng)轉(zhuǎn)到話務(wù)員的用戶,以及檢查對(duì)服務(wù)生氣并應(yīng)轉(zhuǎn)到上級(jí)主管的用戶。用戶104可以是使用設(shè)備100的某商業(yè)顧客,或者可以是其它類型機(jī)構(gòu),例如非贏利機(jī)構(gòu)、政府部門等的客戶。
通過各種模型可以提取各種特征并且可動(dòng)態(tài)地回送決策。后面會(huì)對(duì)此進(jìn)一步討論。
現(xiàn)參照?qǐng)D2,其描述依據(jù)本發(fā)明的并概括地用200表示的一個(gè)用于和用戶交互的可實(shí)時(shí)修改的話音系統(tǒng)。圖2中類似于圖1中的部件的各部件用遞增了100的相似參考數(shù)表示。系統(tǒng)200可包括一個(gè)與前面的討論類似的對(duì)話管理單元202。具體地,如圖2中所建議,單元202可以是一個(gè)話務(wù)員或管理人員、IVR或者話音用戶接口(VUI)。系統(tǒng)200還可包括一個(gè)和上述討論類似的聲頻捕獲模塊206以及一個(gè)亦和上述討論類似的聲學(xué)前端208。和設(shè)備100一樣,單元202在需要時(shí)可和聲學(xué)前端208直接連接,以便使用由前端208確定的MEL逆譜或其它聲學(xué)特征。此外,系統(tǒng)200包括一個(gè)與上述討論類似的但具有一些現(xiàn)要說明的附加特性的處理模塊210。處理模塊210可包括一個(gè)實(shí)行用戶204的動(dòng)態(tài)分類的動(dòng)態(tài)分類模塊240。從而,處理模塊210配置成根據(jù)至少一個(gè)用戶屬性修改話音系統(tǒng)200的行為,所述至少一個(gè)用戶屬性是根據(jù)從用戶的語音中提取的至少一個(gè)聲學(xué)特征確定的。系統(tǒng)200還包括一個(gè)商用邏輯單元242,后者和對(duì)話管理單元202、動(dòng)態(tài)分類模塊240連接并供選擇地和聲學(xué)前端208連接。該商用邏輯單元可按IVR或VUI的處理部分實(shí)現(xiàn),可以是適當(dāng)編程的通用計(jì)算機(jī)的一部分,或者可以是專用電路。目前認(rèn)為處理模塊110、210(包括模塊240)最好按通用計(jì)算機(jī)實(shí)現(xiàn)并且商用邏輯242最好在交互話音響應(yīng)系統(tǒng)中的處理器部分中實(shí)現(xiàn)。如粗線244所建議那樣,動(dòng)態(tài)分類模塊可配置成向商用邏輯單元242和對(duì)話管理單元202提供反饋,該反饋可以是實(shí)時(shí)反饋。
可以如所示選用地設(shè)置數(shù)據(jù)倉庫212和后處理器238,它們可按上面對(duì)數(shù)據(jù)收集設(shè)備100討論的那樣運(yùn)行。然而,要強(qiáng)調(diào)的是,在本發(fā)明的可實(shí)時(shí)修改的話音系統(tǒng)200中,數(shù)據(jù)倉庫是選用的,并且若需要該系統(tǒng)在可局限于由線244指示的對(duì)部件240、242、202所討論的實(shí)時(shí)反饋上。
通過如和對(duì)話管理單元202連接的反饋線244所示那樣提示話務(wù)員,處理模塊210可以修改,至少部分地,系統(tǒng)200的行為。例如,當(dāng)檢測(cè)到用戶204的生氣情緒狀態(tài)時(shí)可以警告話務(wù)員并提醒對(duì)用戶204使用緩和的詞組,或把該用戶轉(zhuǎn)到更高層的管理人員。另外,處理模塊210可修改系統(tǒng)200的商用邏輯242。例如當(dāng)處理模塊210和商用邏輯單元242都是IVR系統(tǒng)的一部分時(shí),這是可做到的。后面會(huì)進(jìn)一步討論商用邏輯的修改例子,其中可包括根據(jù)系統(tǒng)200檢測(cè)到的用戶屬性修改對(duì)用戶204的營銷報(bào)價(jià)。
如所述,處理模塊210及其各子部件以和圖1的處理模塊110基本相同的方式運(yùn)行。然而要注意到由圖2中的虛線和箭頭示出的語音識(shí)別模塊228的輸出對(duì)商用邏輯242的反饋的選項(xiàng)。
應(yīng)注意在本申請(qǐng)中,包括說明書和各附圖中,術(shù)語“心情”被認(rèn)為是等同于術(shù)語“情緒狀態(tài)”。
現(xiàn)轉(zhuǎn)到圖3,其中描述用于在數(shù)據(jù)倉庫中收集和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)的一種方法的流程圖。在框302處啟動(dòng)后,該方法包括按照框304經(jīng)過話務(wù)員和話音操縱機(jī)器系統(tǒng)中的至少一種和該話音系統(tǒng)的用戶進(jìn)行會(huì)話的步驟。按照框306,該方法還包括捕獲語音波形,該波形是和會(huì)話期間話音系統(tǒng)用戶說出的發(fā)音相關(guān)的。按照框308,該方法還包括數(shù)字化該語音波形以提供數(shù)字化語音波形的步驟。按照框310,該方法還包括從數(shù)字化語音波形提供至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征的步驟。該至少一個(gè)聲學(xué)特征可以是上面討論的任何特征,例如MEL逆譜或任一種情緒狀態(tài)特征。用戶屬性可包括上面討論的任何用戶屬性,即,性別、年齡、口音和其余上述屬性。最后,按照框316該方法可包括在數(shù)據(jù)倉庫中以利于隨后的數(shù)據(jù)開采的形式存儲(chǔ)和聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)以及至少一個(gè)標(biāo)識(shí)標(biāo)記的步驟,其中所述聲學(xué)特征和至少一個(gè)用戶屬性相關(guān)。可以使用任何所需類型的標(biāo)識(shí)標(biāo)記;該術(shù)語是廣泛理解的。例如,該標(biāo)識(shí)標(biāo)記可以是時(shí)間印記,其對(duì)應(yīng)于某給定時(shí)間進(jìn)行的某會(huì)話的各種特性,從而標(biāo)識(shí)該給定的事務(wù);該標(biāo)識(shí)標(biāo)記可以是標(biāo)識(shí)號(hào)或姓名等,以標(biāo)識(shí)該用戶;或者,該標(biāo)識(shí)標(biāo)記可以是任何其它與用于數(shù)據(jù)開采過程中的屬性數(shù)據(jù)相關(guān)的信息條目。
如判定框320所示,可以為多次附加的會(huì)話重復(fù)框304、306、308、310和316中的上述各步驟,以提供包括屬性數(shù)據(jù)和標(biāo)識(shí)標(biāo)記的存儲(chǔ)數(shù)據(jù)的集合。這可重復(fù)多次直至對(duì)數(shù)據(jù)開采存在充分的數(shù)據(jù)。接著,如框322中所示,可開采該存儲(chǔ)數(shù)據(jù)集合以提供所需的信息,例如用于修改該話音系統(tǒng)的基礎(chǔ)商用邏輯的信息。
如所述,按照框316,存儲(chǔ)步驟可包括在其中所存儲(chǔ)的至少一個(gè)標(biāo)識(shí)標(biāo)記是時(shí)間印記。收集的數(shù)據(jù)越多,可建立的各種模型越好。數(shù)據(jù)收集可以注釋,這可能通過使用已經(jīng)訓(xùn)練過的用于識(shí)別各條目的現(xiàn)有分類器組或者僅通過估計(jì)所需條目的翻譯器的注解。也可使用這二種技術(shù)的組合,上面討論的多次附加會(huì)話最好是和多個(gè)不同的用戶進(jìn)行的,從而可具有來自大量說話人的數(shù)據(jù)。
按照框310的提取步驟可包括提取基頻、基頻中的偏差、平均運(yùn)行音調(diào)、運(yùn)行音調(diào)方差、音調(diào)跳動(dòng)、運(yùn)行能量方差、語音速率以及擺振中的至少一個(gè),以作為和用戶的情緒狀態(tài)相關(guān)的至少一個(gè)情緒狀態(tài)特征。
按照框312,可以歸一化提取出的特征,當(dāng)這些特征是情緒狀態(tài)的指示時(shí)相信這是特別有用的。前面已根據(jù)本發(fā)明的設(shè)備對(duì)此做了討論。
按照框314,方法300還可包括處理至少一個(gè)聲學(xué)特征以確定至少一個(gè)用戶屬性的附加步驟。在該情況下,得到處理過的各特征,及屬性數(shù)據(jù)可以是屬性值本身,例如,情緒狀態(tài)的某個(gè)值。這不同于只存儲(chǔ)原始數(shù)據(jù)的方法,在該情況下屬性數(shù)據(jù)可簡單地是各原始特征,即,上面討論的MEL逆譜或情緒狀態(tài)特征。從而,概言之,在框316中可存儲(chǔ)原始聲學(xué)特征(例如,波形、MEL逆譜、情緒狀態(tài)特征)和處理過的聲學(xué)特征(例如情緒狀態(tài)的值(高興、悲傷、迷惑)、會(huì)話翻譯)中的一種或者原始及處理過的聲學(xué)特征二者。
參照框318,在按照框314執(zhí)行處理步驟中所使用的處理模塊可在每次把附加屬性存儲(chǔ)到數(shù)據(jù)倉庫中時(shí)自動(dòng)地得到改進(jìn)。即,可以利用每條新數(shù)據(jù)改進(jìn)上面根據(jù)本發(fā)明的設(shè)備所討論的聚類、分類和識(shí)別功能。
現(xiàn)參照?qǐng)D4,其中示出一些選用的子步驟,最好把它們和圖3中示出連帶在一起地執(zhí)行。具體地,若需要,圖3中的框310可包括至少提取MEL逆譜,如圖4中的框310’內(nèi)所示。在這種情況下,該方法還可包括下述步驟根據(jù)MEL逆譜識(shí)別用戶的語音(框314A),翻譯語音(框314B)以及確定語音(框314C)??梢詾樵~的選擇和詞匯集中的至少一個(gè)確定語音,以便確定用戶的教育水平、用戶的社會(huì)經(jīng)濟(jì)類別及用戶的方言之中的至少一個(gè)。根據(jù)需要還可確定和詞的選擇以及詞匯集相關(guān)的其它用戶屬性。在另一種意義上,可把步驟314A、314B和314C當(dāng)成是圖3的處理框314的子步驟。
回到圖3,該流程的結(jié)束可由框324表示。
現(xiàn)參照?qǐng)D5,其中描述代表一種依據(jù)本發(fā)明的用于把話音系統(tǒng)響應(yīng)加工成話音系統(tǒng)用戶的聲學(xué)確定狀態(tài)的方法的流程圖400。在從框402開始后,按照框404,該方法包括通過該話音系統(tǒng)和話音系統(tǒng)用戶進(jìn)行會(huì)話的步驟。按照框406,該方法還包括捕獲與會(huì)話期間該話音系統(tǒng)用戶說的發(fā)音相關(guān)的語音波形的步驟。此外,按照框408,該方法包括數(shù)字化語音波形的步驟以提供數(shù)字化語音波形的步驟。而且,按照框410,該方法包括從該數(shù)字化語音波形提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征的步驟。該至少一個(gè)用戶屬性可包括上面討論的任何用戶屬性??梢岳斫饪?02-410類似于圖3中的框302-310。
最后,按照框415,該方法可包括根據(jù)該至少一個(gè)用戶屬性修改該話音系統(tǒng)的行為。與不帶有修改的話音系統(tǒng)的預(yù)定響應(yīng)相比,話音系統(tǒng)行為的修改可包括實(shí)時(shí)改變?cè)捯粝到y(tǒng)的商用邏輯和實(shí)時(shí)修改話音系統(tǒng)響應(yīng)中的至少一種。應(yīng)參照上面對(duì)本發(fā)明的設(shè)備的討論。例如,話音系統(tǒng)響應(yīng)的實(shí)時(shí)修改可把煩惱用戶轉(zhuǎn)給話務(wù)員。
按照框410的提取步驟可包括提取任何上述的情緒狀態(tài)特征,或者提取前面討論的任何其它特征。按照框412,該方法可選用地包括歸一化聲學(xué)特征的附加步驟,具體地當(dāng)聲學(xué)特征是情緒狀態(tài)特征的情況下。依據(jù)框416,該方法可選用地包括在數(shù)據(jù)倉庫中存儲(chǔ)對(duì)應(yīng)于聲學(xué)特征的屬性數(shù)據(jù)以及至少一個(gè)標(biāo)識(shí)標(biāo)記的附加步驟,其中所述聲學(xué)特征和至少一個(gè)用戶屬性相關(guān)。該存儲(chǔ)可以用有利于隨后的數(shù)據(jù)開采的形式,并且可包括原始狀態(tài)或處理過狀態(tài)中的一種狀態(tài)。該步驟基本上類似于上面對(duì)由流程圖300所代表的方法中的有關(guān)討論。應(yīng)理解,按照框414,可利用一個(gè)處理模塊處理特征以確定所需的屬性。在該情況下,屬性數(shù)據(jù)可以是屬性本身;當(dāng)未進(jìn)行處理時(shí),屬性數(shù)據(jù)可以是原始聲學(xué)特征。盡管圖5中描述的方法可限制成修改話音系統(tǒng)的行為,若需要也可進(jìn)行框418的改進(jìn)步驟、由判定框420控制的重復(fù)以及數(shù)據(jù)開采步驟(即,如圖3中描述的方法那樣)。框424表示該方法的結(jié)束。
如流程圖300所代表的方法那樣,流程圖400所代表的方法可根據(jù)對(duì)用戶語音的翻譯確定某些用戶屬性。從而,在框410的提取步驟中,可包括至少M(fèi)EL逆譜的提取。重新參照?qǐng)D4,這是在框410’中實(shí)現(xiàn)的。其它的步驟可包括基于MEL逆譜對(duì)用戶語音的識(shí)別(框414A);對(duì)語音的翻譯(框414B);以及為詞的選擇和詞匯集中的至少一個(gè)檢查語音(框414C),從而確定用戶的教育水平、用戶的社會(huì)經(jīng)濟(jì)類別和用戶的方言中的至少一種。如前面那樣,可確定其它與詞選擇的詞匯集相關(guān)的用戶屬性。
現(xiàn)參照?qǐng)D6,其中描述和流程圖400的方法的某些方面相關(guān)的某些細(xì)節(jié)。具體地,在依據(jù)流程圖400的方法的某些實(shí)施例中,按照?qǐng)D6中的框414D,處理步驟414可包括檢查情緒狀態(tài)特征以確定用戶的情緒狀態(tài)。此外,按照?qǐng)D6中的框415A,行為修改框415可包括采取行動(dòng)以響應(yīng)于先前確定的情緒狀態(tài)。這樣,可以檢查情緒狀態(tài)特征以判定用戶是否為快活(即高興)的情緒狀態(tài)還是處于厭惡、輕視、害怕和生氣的情緒狀態(tài)中的至少一種狀態(tài)下。當(dāng)發(fā)現(xiàn)用戶處于快活情緒狀態(tài)時(shí),如框415A中采取的動(dòng)作那樣,可向他或她提出至少一種產(chǎn)品或服務(wù)。替代地,當(dāng)發(fā)現(xiàn)用戶處于快活情緒狀態(tài)時(shí),可對(duì)該用戶進(jìn)行營銷研究,以作為框415A中采取的動(dòng)作。
仍參照?qǐng)D6,在利用情緒狀態(tài)特征判定情緒狀態(tài)的情況下,按照框426可以確定不同于情緒狀態(tài)特征的特征以判定情緒狀態(tài)之外的屬性,并且接著按照框428在框415A中采取的動(dòng)作可改變成響應(yīng)于與情緒狀態(tài)不同的屬性。例如,當(dāng)向快活的用戶提出產(chǎn)品和服務(wù)中的至少一個(gè)時(shí),可根據(jù)至少一個(gè)不同于情緒狀態(tài)的用戶屬性而修改提出的產(chǎn)品或服務(wù)。替代地,當(dāng)該快活的用戶受到營銷研究時(shí),可修改該營銷研究以響應(yīng)于至少一個(gè)不同于情緒狀態(tài)的用戶屬性。例如,假定要向一個(gè)愉快的用戶提出產(chǎn)品和服務(wù)中的一種,可檢查語言類型以判定用戶來自釣鱸魚很流行的美國南部的農(nóng)區(qū)地區(qū),此外若需要還可檢查音調(diào)以判斷定其為男性。然后可對(duì)該人提議提供釣鱸魚的設(shè)備及錄像帶?;蛘撸俣ò岩M(jìn)行營銷研究的快活的對(duì)象判定成來自富有的城市地區(qū)并受過良好教育的中年女性。該營銷研究可修改成向她詢問其對(duì)高級(jí)化妝品、時(shí)裝購買愛好或時(shí)髦度假勝地。
如所述,可以檢查情緒狀態(tài)特征以判定用戶是否處于厭惡、輕視、害怕和生氣的情緒狀態(tài)之中的一種狀態(tài)下。若利用IVR系統(tǒng)進(jìn)行該方法,并且檢測(cè)出這樣的情緒狀態(tài),則框415A應(yīng)構(gòu)造成響應(yīng)于用戶的這種被檢測(cè)出的情緒狀態(tài)把該用戶從IVR切換到話務(wù)員上。替代地,在采用混合式交互話音響應(yīng)系統(tǒng)的情況下,若檢測(cè)出類似的情緒狀態(tài),在框415A中采取的行動(dòng)應(yīng)把該用戶從低層話務(wù)員切換到高層管理人員上以響應(yīng)于用戶的這種情緒狀態(tài)。
另外,可以檢查情緒狀態(tài)特征以判定用戶是否處于迷惑情緒狀態(tài)。這可以利用技術(shù)上已知的方法,例如上面討論的ICSLP’98中敘述的方法來達(dá)到。例如可通過推遲對(duì)問題的回答、結(jié)結(jié)巴巴、重復(fù)、不說話等表現(xiàn)出迷惑。這樣,語音識(shí)別和翻譯是有價(jià)值的。當(dāng)檢測(cè)出迷惑情緒狀態(tài)時(shí),框415A中采取的行動(dòng)應(yīng)響應(yīng)于該迷惑情緒狀態(tài)把用戶從基本上自動(dòng)的IVR系統(tǒng)轉(zhuǎn)到話務(wù)員上。
本發(fā)明還包括一種可由機(jī)器讀的程序存儲(chǔ)部件,其有形地嵌有可由該機(jī)器執(zhí)行的指令程序,用于實(shí)現(xiàn)本文中公開的任何方法的各方法步驟或者這些方法的任何步驟子集。例如,在由通用計(jì)算機(jī)或IVR系統(tǒng)的處理器部分常規(guī)地執(zhí)行各方法步驟的某子集的場(chǎng)合,可在軟盤、CD-ROM等上寫入適當(dāng)?shù)某绦蛑噶?。在流程圖300中示出的方法里,這些方法步驟應(yīng)包括讀出對(duì)應(yīng)于語音波形的數(shù)字?jǐn)?shù)據(jù),其中所述語音波形和在話音系統(tǒng)用戶與話務(wù)員及話音操縱機(jī)器系統(tǒng)之中的至少一個(gè)會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān)。用于附加步驟的程序指令應(yīng)包括實(shí)現(xiàn)框310和316中所描述的任務(wù)或者所需的任何其它框的任務(wù)的指令。
類似地,對(duì)于流程圖400中描述的方法,要通過程序指令執(zhí)行的第一步驟應(yīng)包括讀出和語音波形對(duì)應(yīng)的數(shù)字?jǐn)?shù)據(jù),其中所述語音波形和在話音系統(tǒng)用戶與話務(wù)員及話音操縱機(jī)器系統(tǒng)之中的至少一個(gè)會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān)。在該程序指令組中帶有的附加方法步驟應(yīng)該例如是框410和框415中的方法步驟,如前面所述,或者,實(shí)際上是本文中討論的任何其他方法步驟。
應(yīng)該理解,可以通過本發(fā)明的模型提取特征并動(dòng)態(tài)地回送決策。除了已經(jīng)敘述的這些例子之外,當(dāng)諸如顧客的用戶害怕地說話時(shí),話務(wù)員可出于各種原因,例如保證交易不是強(qiáng)迫的,可以偵聽通話。此外,可以檢測(cè)出用戶(或者,操作員)的氣憤,除了修改自動(dòng)式或混合式IVR系統(tǒng)的響應(yīng)之外,其還可用于質(zhì)量控制,例如用作估評(píng)和訓(xùn)練顧客服務(wù)機(jī)構(gòu)的手段。
本發(fā)明可擴(kuò)充到聲信息之外的別的信息。例如,可包括伴有或不伴有聲頻數(shù)據(jù)的視頻信息。從而,要求進(jìn)行會(huì)話的方法步驟應(yīng)替代地進(jìn)行視頻交易。視頻信息可幫助識(shí)別或分類用戶屬性??梢宰匀坏赝ㄟ^可視電話、商亭中的攝象機(jī)、計(jì)算機(jī)上的攝象機(jī)等收集這樣的數(shù)據(jù)。諸如微笑、大笑、哭等的屬性和情緒狀態(tài)可得到識(shí)別。此外,可以標(biāo)記和某些可視覺確定的用戶屬性或情緒狀態(tài)相對(duì)應(yīng)的話音部分。這應(yīng)能建立一個(gè)訓(xùn)練數(shù)據(jù)庫,該數(shù)據(jù)庫對(duì)于建立用于只通過聲學(xué)數(shù)據(jù)識(shí)別用戶屬性的各種自動(dòng)技術(shù)應(yīng)是有用的。從而,可以在只從視覺確定的用戶屬性、只從聲學(xué)確定的用戶屬性或二者上進(jìn)行數(shù)據(jù)開采。
可以根據(jù)共同的人類經(jīng)驗(yàn)從外觀上確定用戶屬性,即,紅臉意味憤怒或窘迫,微笑意味高興或快活的心情,淚水意味著悲傷。此外,可以和視頻及聲學(xué)數(shù)據(jù)一起得到適當(dāng)?shù)纳锝y(tǒng)計(jì)數(shù)據(jù)。另外,同時(shí)可得到多于一個(gè)人的數(shù)據(jù)。例如可同時(shí)監(jiān)視父母和孩子,或者,也可同時(shí)監(jiān)視尋找房子或汽車的一對(duì)夫婦??梢詸z測(cè)到對(duì)一大堆食品高興的孩子,同時(shí)還檢測(cè)出對(duì)這樣的選擇不悅的父母。當(dāng)太太選擇購買昂貴的珠寶時(shí),丈夫可能是生氣的,而妻子是高興的。替代地,當(dāng)丈夫的選擇是購買昂貴的一組高爾夫球棍時(shí),丈夫是高興的而他的妻子不高興。
如所述,可以使用時(shí)間印記,作為一種和用戶屬性數(shù)據(jù)一起存儲(chǔ)的標(biāo)記。這允許研究在一天的不同時(shí)刻人們?nèi)绾雾憫?yīng),或者觀察人們?cè)谌松牟煌A段的演變,例如從兒童長大成青少年然后是成人,或者人們變老時(shí)對(duì)成年時(shí)的興趣的改變。還可跟蹤和繪出親屬間的相似性。另外,可被跟蹤的一個(gè)用戶屬性是疲勞。這樣的系統(tǒng)例如可安裝在汽車、火車、飛機(jī)或長途載重車?yán)镆员O(jiān)視操作員的疲勞,并提示操作員換班并休息,或者大聲放音樂以使操作員保持清醒。Zadrozny和Kanevsky的標(biāo)題為“防止睡覺的汽車上對(duì)話系統(tǒng)”的共同轉(zhuǎn)讓的美國專利申請(qǐng)09/078,807(1998年5月4日提交)特意作為本文的參考資料。
應(yīng)注意本文中討論的話音系統(tǒng)可包括對(duì)計(jì)算機(jī)等通話的電話系統(tǒng)、公用電話亭。術(shù)語“聲學(xué)特征”是廣義理解的,并且如所討論那樣可包括原始特征或處理過的特征,或者二者。例如,當(dāng)聲學(xué)特征是MEL逆譜時(shí),一些處理過的特征可包括關(guān)鍵詞、句子部分等。某些關(guān)鍵字例如可以是不能接收的臟詞,應(yīng)把它們?nèi)サ?,并?dǎo)致召來管理人員,或?qū)е聦?duì)雇員的處分。還應(yīng)強(qiáng)調(diào),在用于進(jìn)行話音系統(tǒng)的實(shí)時(shí)修改的設(shè)備和方法中,在數(shù)據(jù)倉庫里存儲(chǔ)帶有標(biāo)記的屬性是供選用的,不是必須進(jìn)行的。
當(dāng)訓(xùn)練模型時(shí),話務(wù)員在對(duì)不同的用戶屬性作出受教育的猜測(cè)時(shí)可注釋數(shù)據(jù)。替代地,可以利用一組已訓(xùn)練過的現(xiàn)有分類器自動(dòng)地完成注釋。也可采用這兩種技術(shù)的組合。所存儲(chǔ)的標(biāo)記除了本文中討論的時(shí)間印記和其它項(xiàng)目之外可包括交易事件或結(jié)果,或者任何其它有用信息。流程圖400描述的方法也可用于借助話務(wù)員的現(xiàn)場(chǎng)會(huì)話,以人工地改變由話務(wù)員使用的商用邏輯,或者當(dāng)注意生氣和其它不希望的情況時(shí)自動(dòng)地召來管理人員。
盡管說明了目前認(rèn)為是本發(fā)明的各種優(yōu)選實(shí)施例,業(yè)內(nèi)人士可意識(shí)到可在不背離本發(fā)明的實(shí)質(zhì)的情況下對(duì)本發(fā)明作出各種改變和修改,并且本發(fā)明的范圍內(nèi)的所有這樣的改變和修改是受到權(quán)利保護(hù)的。
權(quán)利要求
1.一種用于在數(shù)據(jù)倉庫中收集和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)的方法,所述方法包括步驟(a)通過話務(wù)員和話音操縱機(jī)器系統(tǒng)中的至少一個(gè)進(jìn)行與話音系統(tǒng)用戶的會(huì)話;(b)捕獲與所述會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān)的語音波形;(c)數(shù)字化所述語音波形以提供數(shù)字化語音波形;(d)從所述數(shù)字化語音波形中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(d-1)用戶的性別;(d-2)用戶的年齡;(d-3)用戶的口音;(d-4)用戶的母語;(d-5)用戶的方言;(d-6)用戶的社會(huì)經(jīng)濟(jì)類別;(d-7)用戶的教育水平;以及(d-8)用戶的情緒狀態(tài);以及(e)在數(shù)據(jù)倉庫中以利于隨后對(duì)其進(jìn)行數(shù)據(jù)開采的形式存儲(chǔ)和所述聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)以及至少一個(gè)標(biāo)識(shí)標(biāo)記,其中所述聲學(xué)特征和所述至少一個(gè)用戶屬性相關(guān)。
2.權(quán)利要求1的方法,還包括下述附加的步驟(f)為多次與其它用戶的其它會(huì)話重復(fù)步驟(a)-(e),以提供包括屬性數(shù)據(jù)和標(biāo)識(shí)標(biāo)記的存儲(chǔ)數(shù)據(jù)的集合;以及(g)開采存儲(chǔ)數(shù)據(jù)集合,以提供用于修改話音系統(tǒng)的基礎(chǔ)商用邏輯的信息。
3.權(quán)利要求1的方法,其中步驟(e)包括存儲(chǔ)包含時(shí)間印記的至少一個(gè)標(biāo)識(shí)標(biāo)記。
4.權(quán)利要求1的方法,其中步驟(d)包括提取基頻、基頻中的偏差、平均運(yùn)行音調(diào)、運(yùn)行音調(diào)方差、音調(diào)跳動(dòng)、運(yùn)行能量方差、語音速率以及擺振中的至少一個(gè),以作為和用戶的情緒狀態(tài)相關(guān)的至少一個(gè)情緒狀態(tài)特征。
5.權(quán)利要求4的方法,還包括歸一化所述至少一個(gè)情緒狀態(tài)特征的附加步驟。
6.權(quán)利要求1的方法,還包括處理所述至少一個(gè)聲學(xué)特征以確定所述至少一個(gè)用戶屬性的附加步驟,其中步驟(e)中的所述屬性數(shù)據(jù)至少包括所述用戶屬性的一個(gè)值。
7.權(quán)利要求6的方法,還包括響應(yīng)在數(shù)據(jù)倉庫中存儲(chǔ)附加的屬性自動(dòng)改進(jìn)所述處理步驟的附加步驟。
8.權(quán)利要求1的方法,其中步驟(e)包括把所述屬性數(shù)據(jù)存儲(chǔ)為至少一個(gè)實(shí)質(zhì)上原始的聲學(xué)特征。
9.權(quán)利要求1的方法,其中步驟(d)包括至少提取MEL逆譜,其中還包括基于所述MEL逆譜識(shí)別用戶的語音、翻譯所述語音以及從詞選擇和詞匯集中之一檢查所述語音以確定用戶的教育水平、用戶的社會(huì)經(jīng)濟(jì)類別及用戶的方言中的至少一個(gè)附加步驟。
10.一種用于把話音系統(tǒng)響應(yīng)加工成從聲學(xué)上確定的話音系統(tǒng)用戶的狀態(tài)的方法,所述方法包括步驟(a)通過話音系統(tǒng)和該話音系統(tǒng)用戶進(jìn)行會(huì)話;(b)捕獲與所述會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān)的語音波形;(c)數(shù)字化所述語音波形以提供數(shù)字化語音波形;(d)從所述數(shù)字化語音波形中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(d-1)用戶的性別;(d-2)用戶的年齡;(d-3)用戶的口音;(d-4)用戶的母語;(d-5)用戶的方言;(d-6)用戶的社會(huì)經(jīng)濟(jì)類別;(d-7)用戶的教育水平;以及(d-8)用戶的情緒狀態(tài);以及(e)根據(jù)所述至少一個(gè)用戶屬性修改該話音系統(tǒng)的行為。
11.權(quán)利要求10的方法,其中步驟(e)中的所述修改至少包括下述之一實(shí)時(shí)改變?cè)捯粝到y(tǒng)的商用邏輯;以及和不帶有所述修改的話音系統(tǒng)的期待響應(yīng)相對(duì)比,實(shí)時(shí)地修改話音系統(tǒng)響應(yīng)。
12.權(quán)利要求10的方法,其中步驟(d)包括提取基頻、基頻中的偏差、平均運(yùn)行音調(diào)、運(yùn)行音調(diào)方差、音調(diào)跳動(dòng)、運(yùn)行能量方差、語音速率以及擺振中的至少一個(gè),以作為和用戶的情緒狀態(tài)相關(guān)的至少一個(gè)情緒狀態(tài)的特征。
13.權(quán)利要求12的方法,還包括歸一化所述至少一個(gè)情緒狀態(tài)特征的附加步驟。
14.權(quán)利要求10的方法,其中步驟(d)包括至少提取MEL逆譜,其中還包括基于所述MEL逆譜識(shí)別用戶的語音、翻譯所述語音以及從詞選擇和詞匯集中之一檢查所述語音以確定用戶的教育水平、用戶的社會(huì)經(jīng)濟(jì)類別及用戶的方言中的至少一個(gè)附加步驟。
15.權(quán)利要求12的方法,還包括檢查所述至少一個(gè)情緒狀態(tài)特征以判定該用戶是否處于快活情緒狀態(tài)的附加步驟;其中步驟(e)包括響應(yīng)于所述快活情緒狀態(tài)向該用戶至少提出一種產(chǎn)品和一種服務(wù)中的至少一種。
16.權(quán)利要求15的方法,還包括下述附加步驟確定至少一個(gè)和情緒狀態(tài)不同的用戶屬性;以及響應(yīng)于所述至少一個(gè)和情緒狀態(tài)不同的用戶屬性而修改所述一種產(chǎn)品和一種服務(wù)中的至少一種。
17.權(quán)利要求12的方法,還包括檢查所述至少一個(gè)情緒狀態(tài)特征以判定該用戶是否處于快活情緒狀態(tài)的附加步驟;其中步驟(e)包括響應(yīng)所述快活情緒狀態(tài)至少對(duì)該用戶進(jìn)行營銷研究。
18.權(quán)利要求17的方法,還包括下述附加步驟確定至少一個(gè)不同于情緒狀態(tài)的用戶屬性;以及響應(yīng)于所述至少一個(gè)不同于情緒狀態(tài)的用戶屬性而修改所述市場(chǎng)研究。
19.權(quán)利要求12的方法,其中所述話音系統(tǒng)實(shí)質(zhì)上是自動(dòng)交互話音響應(yīng)(IVR)系統(tǒng),該方法還包括檢查所述至少一個(gè)情緒狀態(tài)特征以判定用戶是否處于厭惡、輕視、害怕和生氣的情緒狀態(tài)中的至少一種狀態(tài)下的附加步驟;其中步驟(e)包括響應(yīng)于所述厭惡、輕視、害怕和生氣情緒狀態(tài)中的至少一種狀態(tài)至少把所述用戶從所述IVR轉(zhuǎn)到話務(wù)員上。
20.權(quán)利要求12的方法,其中所述話音系統(tǒng)是混合式交互話音響應(yīng)(IVR)系統(tǒng),該方法還包括檢查所述至少一個(gè)情緒狀態(tài)特征以判定用戶是否處于厭惡、輕視、害怕和生氣情緒狀態(tài)中的至少一種狀態(tài)下的附加步驟;其中步驟(e)包括響應(yīng)于所述厭惡、輕視、害怕和生氣情緒狀態(tài)中的至少一種狀態(tài)至少把所述用戶從低層話務(wù)員轉(zhuǎn)到高層管理人員。
21.權(quán)利要求12的方法,其中所述話音系統(tǒng)實(shí)質(zhì)上是自動(dòng)交互話音響應(yīng)(IVR)系統(tǒng),該方法還包括檢查所述至少一個(gè)情緒狀態(tài)特征以判定用戶是否處于迷惑情緒狀態(tài)下的附加步驟;其中步驟(e)包括響應(yīng)于所述迷惑情緒狀態(tài)把所述用戶從所述IVR轉(zhuǎn)到話務(wù)員。
22.權(quán)利要求10的方法,還包括附加步驟(e)在數(shù)據(jù)倉庫中以利于隨后對(duì)其進(jìn)行數(shù)據(jù)開采的形式存儲(chǔ)和所述聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)以及至少一個(gè)標(biāo)識(shí)標(biāo)記,其中所述聲學(xué)特征和所述至少一個(gè)用戶屬性相關(guān)。
23.一種用于收集和用戶的話音相關(guān)的數(shù)據(jù)的設(shè)備,所述設(shè)備包括(a)一個(gè)和用戶進(jìn)行會(huì)話的對(duì)話管理單元;(b)一個(gè)和所述對(duì)話管理單元連接并捕獲與會(huì)話期間由該用戶說出的發(fā)音相關(guān)的語音波形的聲頻捕獲模塊。(c)一個(gè)聲學(xué)前端,其和所述聲頻捕獲模塊連接并配置成接收并數(shù)字化語音波形以提供數(shù)字化語音波形;以及從數(shù)字化語音波形中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(c-1)用戶的性別;(c-2)用戶的年齡;(c-3)用戶的口音;(c-4)用戶的母語;(c-5)用戶的方言;(c-6)用戶的社會(huì)經(jīng)濟(jì)類別;(c-7)用戶的教育水平;以及(c-8)用戶的情緒狀態(tài);(d)一個(gè)和所述聲學(xué)前端連接并分析所述至少一個(gè)聲學(xué)特征以確定所述至少一個(gè)用戶屬性的處理模塊;以及(e)一個(gè)和所述處理模塊連接并以隨后在其上進(jìn)行數(shù)據(jù)開采的形式存儲(chǔ)所述至少一個(gè)用戶屬性以及至少一個(gè)標(biāo)識(shí)標(biāo)記的數(shù)據(jù)倉庫。
24.權(quán)利要求23的設(shè)備,其中所述聲頻捕獲模塊由模數(shù)轉(zhuǎn)換器板、交互話音響應(yīng)(IVR)系統(tǒng)和麥克風(fēng)中之一構(gòu)成。
25.權(quán)利要求23的設(shè)備,其中所述對(duì)話管理單元由電話交互話音響應(yīng)(IVR)系統(tǒng)構(gòu)成。
26.權(quán)利要求25的設(shè)備,其中所述處理模塊由所述IVR的處理器部分構(gòu)成。
27.權(quán)利要求23的設(shè)備,其中所述處理模塊由帶有適當(dāng)軟件的獨(dú)立通用計(jì)算機(jī)構(gòu)成。
28.權(quán)利要求23的設(shè)備,其中所述處理模塊由專用電路構(gòu)成。
29.權(quán)利要求23的設(shè)備,其中所述處理模塊包括至少一個(gè)情緒狀態(tài)分類器。
30.權(quán)利要求29的設(shè)備,其中所述處理模塊還包括至少一個(gè)說話人聚類器及分類器;一個(gè)語音識(shí)別器;以及一個(gè)口音識(shí)別器。
31.權(quán)利要求30的設(shè)備,還包括一個(gè)和所述數(shù)據(jù)倉庫連接并配置成譯出用戶的發(fā)音和在其上進(jìn)行關(guān)鍵詞確定的后處理器。
32.一種用于和用戶交互的可實(shí)時(shí)修改的話音系統(tǒng),所述系統(tǒng)包括(a)一個(gè)和用戶進(jìn)行會(huì)話的對(duì)話管理單元;(b)一個(gè)和所述對(duì)話管理單元連接并捕獲與會(huì)話期間由該用戶說出的發(fā)音相關(guān)的語音波形的聲頻捕獲模塊。(c)一個(gè)聲學(xué)前端,其和所述聲頻捕獲模塊連接并配置成接收并數(shù)字化語音波形以提供數(shù)字化語音波形;以及從數(shù)字化語音波形提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(c-1)用戶的性別;(c-2)用戶的年齡;(c-3)用戶的口音;(c-4)用戶的母語;(c-5)用戶的方言;(c-6)用戶的社會(huì)經(jīng)濟(jì)類別;(c-7)用戶的教育水平;以及(c-8)用戶的情緒狀態(tài);以及(d)一個(gè)和所述聲學(xué)前端連接并分析所述至少一個(gè)聲學(xué)特征以確定所述至少一個(gè)用戶屬性的處理模塊;其中所述處理模塊配置成根據(jù)所述至少一個(gè)用戶屬性修改該話音系統(tǒng)的行為。
33.權(quán)利要求32的系統(tǒng),其中所述處理模塊通過提示話務(wù)員至少部分地修改該話音系統(tǒng)的行為。
34.權(quán)利要求32的系統(tǒng),其中所述處理模塊由交互話音響應(yīng)(IVR)系統(tǒng)的處理器部分構(gòu)成,并且其中所述處理器模塊通過修改IVR的商用邏輯至少部分地修改,該話音系統(tǒng)的行為。
35.權(quán)利要求32的系統(tǒng),其中所述聲頻捕獲模塊由模數(shù)轉(zhuǎn)換器板、交互話音響應(yīng)(IVR)系統(tǒng)和麥克風(fēng)中之一構(gòu)成。
36.權(quán)利要求32的系統(tǒng),其中所述對(duì)話管理單元由電話交互話音響應(yīng)(IVR)系統(tǒng)構(gòu)成。
37.權(quán)利要求36的系統(tǒng),其中所述處理模塊由所述IVR的處理器部分構(gòu)成。
38.權(quán)利要求32的系統(tǒng),其中所述處理模塊由帶有適當(dāng)軟件的獨(dú)立通用計(jì)算機(jī)構(gòu)成。
39.權(quán)利要求32的系統(tǒng),其中所述處理模塊由專用電路構(gòu)成。
40.權(quán)利要求32的系統(tǒng),其中所述處理模塊包括至少一個(gè)情緒狀態(tài)分類器。
41.權(quán)利要求40的系統(tǒng),其中所述處理模塊至少還包括一個(gè)說話人聚類器及分類器,一個(gè)語音識(shí)別器;以及一個(gè)口音識(shí)別器。
42.權(quán)利要求41的系統(tǒng),還包括一個(gè)和所述數(shù)據(jù)倉庫連接并配置成譯出用戶的發(fā)音和在其上進(jìn)行關(guān)鍵詞確定的后處理器。
43.一種可由機(jī)器讀的程序存儲(chǔ)部件,其有形地嵌有可由該機(jī)器執(zhí)行的指令程序,以實(shí)現(xiàn)在數(shù)據(jù)倉庫中收集和話音系統(tǒng)用戶的話音相關(guān)的方法步驟,所述方法步驟組包括,(a)讀出對(duì)應(yīng)于語音波形的數(shù)字?jǐn)?shù)據(jù),其中所述語音波形和在話音系統(tǒng)用戶與話務(wù)員及話音操縱機(jī)器系統(tǒng)之中的至少一個(gè)會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān);(b)從所述數(shù)字?jǐn)?shù)據(jù)中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(b-1)用戶的性別;(b-2)用戶的年齡;(b-3)用戶的口音;(b-4)用戶的母語;(b-5)用戶的方言;(b-6)用戶的社會(huì)經(jīng)濟(jì)類別;(b-7)用戶的教育水平;以及(b-8)用戶的情緒狀態(tài);以及(c)在數(shù)據(jù)倉庫中以利于隨后對(duì)其進(jìn)行數(shù)據(jù)開采的形式存儲(chǔ)和所述聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)以及至少一個(gè)標(biāo)識(shí)標(biāo)記,其中所述聲學(xué)特征和所述至少一個(gè)用戶屬性相關(guān)。
44.一種可由機(jī)器讀的程序存儲(chǔ)部件,其有形地嵌有可由該機(jī)器執(zhí)行的指令程序,以實(shí)現(xiàn)用于把話音系統(tǒng)響應(yīng)加工成由聲學(xué)確定的話音系統(tǒng)用戶的狀態(tài)的方法步驟,所述方法步驟組包括(a)讀出對(duì)應(yīng)于語音波形的數(shù)字?jǐn)?shù)據(jù),其中所述語音波形和在話音系統(tǒng)用戶與話務(wù)員及話音操縱機(jī)器系統(tǒng)之中的至少一個(gè)會(huì)話期間由該話音系統(tǒng)用戶說出的發(fā)音相關(guān);(b)從所述數(shù)字?jǐn)?shù)據(jù)中提取至少一個(gè)和至少一個(gè)用戶屬性相關(guān)的聲學(xué)特征,所述至少一個(gè)用戶屬性包括下述中的至少一個(gè)(b-1)用戶的性別;(b-2)用戶的年齡;(b-3)用戶的口音;(b-4)用戶的母語;(b-5)用戶的方言;(b-6)用戶的社會(huì)經(jīng)濟(jì)類別;(b-7)用戶的教育水平;以及(b-8)用戶的情緒狀態(tài);以及(c)根據(jù)所述至少一個(gè)用戶屬性修改話音系統(tǒng)的行為。
全文摘要
一種用于收集和話音系統(tǒng)用戶的話音相關(guān)的數(shù)據(jù)的方法包括:和用戶進(jìn)行對(duì)話,捕獲并數(shù)字化用戶的語音波形,從數(shù)字化語音波形中提取至少一個(gè)聲學(xué)特征以及在數(shù)據(jù)倉庫中以利用隨后的數(shù)據(jù)開采的形式存儲(chǔ)與聲學(xué)特征對(duì)應(yīng)的屬性數(shù)據(jù)以及標(biāo)識(shí)標(biāo)記。在該方法的一種替代形式中,在帶有或不帶有存儲(chǔ)用于隨后的數(shù)據(jù)開采的數(shù)據(jù)下,可利用用戶屬性實(shí)時(shí)修改話音系統(tǒng)的行為。
文檔編號(hào)H04M3/50GK1283843SQ0012270
公開日2001年2月14日 申請(qǐng)日期2000年8月8日 優(yōu)先權(quán)日1999年8月10日
發(fā)明者第米垂·卡那威斯基, 斯第芬·荷曼·梅斯, 杰弗里·斯考特·瑣倫森 申請(qǐng)人:國際商業(yè)機(jī)器公司