用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供調(diào)節(jié)語音系統(tǒng)的方法和系統(tǒng)。在一個例子中,一種方法包括:利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果;評估模型結(jié)果的頻率;并基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
【專利說明】用于語音系統(tǒng)的調(diào)節(jié)方法和系統(tǒng)
[0001]相關(guān)申請的交叉引用
[0002]本申請要求2012年11月13日提交的美國臨時申請N0.61/725802的權(quán)利,其全部內(nèi)容在此被參考引入。
【技術(shù)領(lǐng)域】
[0003]【技術(shù)領(lǐng)域】總體涉及語音系統(tǒng),并且更具體涉及基于由用戶交互和/或例如車輛的一個或多個系統(tǒng)確定的數(shù)據(jù)調(diào)節(jié)語音系統(tǒng)的組件的方法和系統(tǒng)。
【背景技術(shù)】
[0004]車輛語音系統(tǒng)對車輛的乘客發(fā)出的語音執(zhí)行語音識別。發(fā)出的語音典型地包括控制車輛或其它可被車輛訪問的系統(tǒng)的一個或多個特征的命令。語音系統(tǒng)利用通用的識別技術(shù)使得車輛上任何乘客發(fā)出的語音都能夠被識別。語音對話系統(tǒng)基于這些命令管理與車輛的用戶之間的對話。該對話典型地對所有用戶通用。
[0005]因此,需要提供一種系統(tǒng)和方法,根據(jù)車輛的乘客和/或車輛的情境環(huán)境和/或乘客對車輛語音系統(tǒng)進(jìn)行調(diào)節(jié)。進(jìn)一步,從隨后的詳細(xì)描述和所附的權(quán)利要求,并結(jié)合相應(yīng)的附圖和前述的【技術(shù)領(lǐng)域】和【背景技術(shù)】,本發(fā)明的其它所需特征和特性將變得清楚。
【發(fā)明內(nèi)容】
[0006]提供了用于調(diào)節(jié)語音系統(tǒng)的方法和系統(tǒng)。在一個例子中,一種方法包括:利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果;評估模型結(jié)果的頻率;以及基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
[0007]在另一個例子中,第一模塊,其利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果。第二模塊,其評估模型結(jié)果的頻率。第三模塊,其基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
[0008]進(jìn)一步的,本發(fā)明包括下列技術(shù)方案。
[0009]1.一種調(diào)節(jié)語音系統(tǒng)的方法,包括:
[0010]利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果;
[0011]評估模型結(jié)果的頻率;以及
[0012]基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
[0013]2.如方案I所述的方法,其中處理口頭命令包括:
[0014]使用具有第一模型類型的第一語音模型處理口頭命令以獲得第一結(jié)果;
[0015]使用具有第二模型類型的第二語音模型處理口頭命令以獲得第二結(jié)果;
[0016]使用具有第三模型類型的第三語音模型處理第一結(jié)果和第二結(jié)果以獲得第三結(jié)果O
[0017]3.如方案2所述的方法,進(jìn)一步包括:[0018]基于第三結(jié)果選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個;以及
[0019]基于所述選擇更新系統(tǒng)模型。
[0020]4.如方案3所述的方法,進(jìn)一步包括確定第三結(jié)果的頻率;并且其中選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個是基于所述頻率的。
[0021]5.如方案I所述的方法,其中處理口頭命令包括使用具有至少三種不同模型類型的至少三個語音模型對口頭命令進(jìn)行處理。
[0022]6.如方案5所述的方法,其中第一語音模型是識別固定命令列表的固定語言模型類型。
[0023]7.如方案5所述的方法,其中第二語音模型是識別短語的大范圍模型類型。
[0024]8.如方案5所述的方法,其中第三語音模型是仲裁模型類型,其對來自其它模型的結(jié)果進(jìn)行仲裁。
[0025]9.如方案5所述的方法,其中第一模型是有限狀態(tài)語法模型類型,第二模型是統(tǒng)計語言模型類型,且第三模型是結(jié)構(gòu)方程模型類型。
[0026]10.如方案I所述的方法,其中選擇性地更新一個或多個模型包括基于所述評估選擇性地更新一個或多個模型以包括或排除所述口頭命令。
[0027]11.如方案I所述的方法,其中選擇性地更新一個或多個模型包括基于所述評估選擇性地更新模型內(nèi)的權(quán)重或概率中的至少一個。
[0028]12.一種調(diào)節(jié)語音系統(tǒng)的系統(tǒng),包括:
[0029]第一模塊,利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得豐吳型結(jié)果;
[0030]第二模塊,評估模型結(jié)果的頻率;和
[0031]第三模塊,基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
[0032]13.如方案12所述的系統(tǒng),其中第一模塊使用具有第一模型類型的第一語音模型處理口頭命令以獲得第一結(jié)果,使用具有第二模型類型的第二語音模型處理口頭命令以獲得第二結(jié)果,以及使用具有第三模型類型的第三語音模型處理第一結(jié)果和第二結(jié)果以獲得第三結(jié)果。
[0033]14.如方案12所述的系統(tǒng),其中第二模塊基于第三結(jié)果選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個,并且其中第三模塊基于所述選擇更新系統(tǒng)模型。
[0034]15.如方案14所述的方法,其中第二模塊確定第三結(jié)果的頻率,并且基于所述頻率選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個。
[0035]16.如方案12所述的系統(tǒng),其中第一模塊通過使用具有至少三個不同語音模型的至少三個語音模型對口頭命令進(jìn)行處理而對口頭命令進(jìn)行處理。
[0036]17.如方案16所述的系統(tǒng),其中第一語音模型是識別固定命令列表的固定語言模型類型。
[0037]18.如方案16所述的系統(tǒng),其中第二語音模型是識別短語的大范圍模型類型。
[0038]19.如方案16所述的系統(tǒng),其中第三語音模型是仲裁模型類型,其對來自其它模型的結(jié)果進(jìn)行仲裁。
[0039]20.如方案12所述的系統(tǒng),其中第三模塊基于所述評估選擇性地更新一個或多個模型以包括或排除所述口頭命令。
[0040]21.如方案12所述的系統(tǒng),其中第三模塊基于所述評估選擇性地更新一個或多個模型的權(quán)重或概率中的至少一個。
【專利附圖】
【附圖說明】
[0041]接下來將結(jié)合附圖描述示例性實施例,附圖中相同的數(shù)字代表了相同的元件,且其中:
[0042]圖1為車輛的功能性框圖,其包括根據(jù)各種示例性實施例的語音系統(tǒng);
[0043]圖2至6為數(shù)據(jù)流圖,其示出了根據(jù)各種示例性實施例的語音系統(tǒng)的調(diào)節(jié)模塊;和
[0044]圖7至10為序列圖,示出了根據(jù)各種示例性實施例的可以被語音系統(tǒng)所執(zhí)行的調(diào)節(jié)方法。
【具體實施方式】
[0045]接下來的詳細(xì)描述本質(zhì)上僅僅是示例性的,并不用于限制其應(yīng)用和使用。進(jìn)一步,不應(yīng)受限于前述【技術(shù)領(lǐng)域】、【背景技術(shù)】、
【發(fā)明內(nèi)容】
或者下面的詳細(xì)描述中所給出的任何明示或暗示的原理。如在此所用,術(shù)語模塊指的是執(zhí)行一個或多個軟件或固件程序的專用集成電路(ASIC)、電子電路、處理器(共有、專用或成組的)和存儲器,組合邏輯電路,和/或其它提供所述功能的適用組件。
[0046]首先參照圖1,根據(jù)本公開的示例性實施例,示出了一個位于車輛12內(nèi)的語音系統(tǒng)10。語音系統(tǒng)10通過人機(jī)接口模塊(HMI) 14為一個或多個車輛系統(tǒng)提供語音識別和對話。這種車輛系統(tǒng)可以包括,例如但不限于,電話系統(tǒng)16、導(dǎo)航系統(tǒng)18、媒體系統(tǒng)20,信息通訊系統(tǒng)22,網(wǎng)絡(luò)系統(tǒng)24,或任何其它可以包括基于語音的應(yīng)用程序的車輛系統(tǒng)。應(yīng)當(dāng)認(rèn)識至IJ,語音系統(tǒng)10的一個或多個實施例可以應(yīng)用于其它帶有基于語音的應(yīng)用程序的非車輛系統(tǒng),因此,并不限于現(xiàn)有的車輛例子。為了舉例,語音系統(tǒng)10將在車輛例子的上下文中進(jìn)行介紹。
[0047]語音系統(tǒng)10通過HMI模塊14和通信總線和/或其它通信裝置28 (例如,有線、短程無線或遠(yuǎn)程無線)與多個車輛系統(tǒng)16-24和/或其它車輛系統(tǒng)26進(jìn)行通信。所述通信總線可以是,例如但不限于,CAN總線。
[0048]一般來說,語音系統(tǒng)10包括調(diào)節(jié)模塊30,和自動語音識別(ASR)模塊32,和對話管理模塊34。應(yīng)當(dāng)理解,ASR模塊32和對話管理模塊34可以被設(shè)置成單獨(dú)的系統(tǒng)和/或如所示的組合系統(tǒng)。進(jìn)一步能夠理解,語音系統(tǒng)10的模塊可以全部設(shè)置在車輛12上,或者部分在車輛12上、部分在遠(yuǎn)程系統(tǒng),例如遠(yuǎn)程服務(wù)器(未示出)上。
[0049]ASR模塊32接收和處理來自HMI模塊14的語音。從語音中識別出的一些命令(例如,基于置信閾值)被發(fā)送給對話管理模塊34。對話管理模塊34基于所述命令管理交互序列和提示。調(diào)節(jié)模塊30記錄由車輛乘客(例如,通過HMI模塊14)產(chǎn)生的各種語音數(shù)據(jù)和交互數(shù)據(jù),記錄來自各種車輛系統(tǒng)16-24的數(shù)據(jù),和/或記錄來自各種其它車輛系統(tǒng)26 (例如,不包括語音應(yīng)用程序的車輛系統(tǒng))的數(shù)據(jù)。調(diào)節(jié)模塊30對記錄的數(shù)據(jù)執(zhí)行一種或多種學(xué)習(xí)算法,并基于該學(xué)習(xí)算法調(diào)節(jié)語音系統(tǒng)10的一個或多個組件。在各種實施例中,調(diào)節(jié)模塊30調(diào)節(jié)語音系統(tǒng)10的ASR模塊32所使用的語言模型。在各種其它實施例中,調(diào)節(jié)模塊30調(diào)節(jié)語音系統(tǒng)10的對話管理模塊34所使用的提示和交互序列。
[0050]如圖所示,調(diào)節(jié)模塊30被包括在語音系統(tǒng)10中。應(yīng)當(dāng)理解,在替代性實施例中,調(diào)節(jié)模塊30可以被設(shè)置為,例如,在HMI模塊14中或作為與語音系統(tǒng)10通信的孤立的應(yīng)用程序。因此,本公開并不限于現(xiàn)有的例子。
[0051]現(xiàn)在參照圖2,數(shù)據(jù)流圖示出了根據(jù)各種實施例的調(diào)節(jié)模塊30。應(yīng)當(dāng)理解,根據(jù)本公開,調(diào)節(jié)模塊30的各種實施例可以包括任意數(shù)量的子模塊。例如,圖2中所示的子模塊可以被組合和/或進(jìn)一步分割成語音系統(tǒng)10(圖1)中類似的調(diào)節(jié)部分。
[0052]在各種示例性實施例中,調(diào)節(jié)模塊30包括數(shù)據(jù)記錄模塊36,數(shù)據(jù)分析模塊38,系統(tǒng)更新模塊40,記錄數(shù)據(jù)數(shù)據(jù)庫42,和系統(tǒng)數(shù)據(jù)數(shù)據(jù)庫44。數(shù)據(jù)庫42、44可以臨時或永久地存儲系統(tǒng)10的數(shù)據(jù)。
[0053]數(shù)據(jù)記錄模塊36將來自車輛12的各種源(例如,車輛系統(tǒng)16-24和/或其它車輛系統(tǒng)26)的數(shù)據(jù)記錄至記錄數(shù)據(jù)數(shù)據(jù)庫42中。數(shù)據(jù)可以包括,例如但不限于,車輛數(shù)據(jù)46,車輛情境數(shù)據(jù)48,語音系統(tǒng)數(shù)據(jù)50,和用戶交互數(shù)據(jù)52。車輛數(shù)據(jù)46可以包括,例如,速度數(shù)據(jù),周圍噪聲水平數(shù)據(jù),乘客數(shù)據(jù)(例如,在車輛12中檢測出的乘客的數(shù)量),車輛系統(tǒng)數(shù)據(jù)(例如,啟動的車輛系統(tǒng)的數(shù)量)等。車輛情境數(shù)據(jù)48可以包括,例如,車輛位置數(shù)據(jù),道路類型數(shù)據(jù),天氣數(shù)據(jù),交通數(shù)據(jù)等。語音系統(tǒng)數(shù)據(jù)50可以包括,例如,口頭命令數(shù)據(jù)(例如,與車輛12的乘客口頭發(fā)出的命令有關(guān)的數(shù)據(jù)),和性能數(shù)據(jù)(例如,與口頭命令的識別性能有關(guān)的數(shù)據(jù))。用戶交互數(shù)據(jù)52可以包括,例如,交互序列數(shù)據(jù),用戶請求的頻率數(shù)據(jù),和來自其它HMI形式的數(shù)據(jù),例如觸摸屏手勢交互數(shù)據(jù)或顯示數(shù)據(jù)。
[0054]數(shù)據(jù)分析模塊38從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取記錄數(shù)據(jù)并對記錄數(shù)據(jù)進(jìn)行分析以確定是否調(diào)節(jié)語音系統(tǒng)10所用的一個或多個語言模型,是否調(diào)節(jié)語音系統(tǒng)10給出的提示,和/或是否調(diào)節(jié)語音系統(tǒng)10提供的交互序列或?qū)υ?。如果確定應(yīng)該對語言模型、提示、和交互序列中的一個或多個進(jìn)行調(diào)節(jié),將生成建議的更新作為更新后的語言模型54、或作為更新后的用戶配置文件56,其包括了更新后的提示和/或更新后的交互序列。
[0055]系統(tǒng)更新模塊40接收更新后語言模型54和更新后的用戶配置文件56作為輸入。系統(tǒng)更新模塊40基于所接收的輸入存儲或更新來自系統(tǒng)數(shù)據(jù)數(shù)據(jù)庫44的語言模型,提示,和/或交互序列。例如,如果接收到了更新后的語言模型54,則更新后的語言模型54可以與原始模型進(jìn)行組合以形成更加健全的語言模型,例如,對于較短歷史分布(一元文法)使用較小的語言模型(即更新后的語言模型54),而對于調(diào)整后的較高歷史分布(三元文法)使用更詳細(xì)的語言模型(即保存的語言模型)。在另一個例子中,包括提示和/或交互序列的用戶配置文件56可以被存儲用于特定用戶。
[0056]現(xiàn)在參照圖3-6,數(shù)據(jù)流圖示出了圖2中根據(jù)各種實施例的數(shù)據(jù)分析模塊38。應(yīng)當(dāng)理解,根據(jù)現(xiàn)有的公開,數(shù)據(jù)分析模塊38的各種實施例可以包括任意數(shù)量的子模塊。例如,圖3-6中所示的子模塊可以被組合和/或進(jìn)一步劃分以類似地分析記錄的數(shù)據(jù)并調(diào)節(jié)語音系統(tǒng)10的部分。數(shù)據(jù)分析模塊38的輸入可以從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取和/或直接從HMI模塊14和/或一個或多個車輛系統(tǒng)16-26接收得到的。在各種實施例中,數(shù)據(jù)分析模塊38包括用戶特征調(diào)節(jié)模塊62、用戶能力調(diào)節(jié)模塊64、情境數(shù)據(jù)調(diào)節(jié)模塊66、和/或系統(tǒng)模型調(diào)節(jié)模塊68。應(yīng)當(dāng)理解,數(shù)據(jù)分析模塊38可只包括所示模塊中的一個,或可包括所示模塊的任意組合,且其不限于現(xiàn)有的例子。
[0057]用戶特征調(diào)節(jié)模塊62從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取記錄的數(shù)據(jù)。在各種實施例中,記錄的數(shù)據(jù)包括用戶發(fā)出的口頭命令70,和口頭命令70的特性72。用戶特征調(diào)節(jié)模塊62分析命令70的各種特征。特征可以包括,例如但不限于,冗長性、相關(guān)講話、信息分布、用戶人口統(tǒng)計、交流的音調(diào)(例如,禮貌用語),年齡和性別。在各種實施例中,用戶特征調(diào)節(jié)模塊62追蹤命令70與特定特征相關(guān)聯(lián)的頻率。一旦命令70以一定的頻率與特定特征相關(guān)聯(lián),用戶特征調(diào)節(jié)模塊62基于命令70的特征確定語言模型74或通過基于特征組合若干語言模型(帶或不帶權(quán)重)以生成新的語言模型74。
[0058]在各種實施例中,如圖4所示,用戶特征調(diào)節(jié)模塊62包括一個或多個特征檢測模塊IOOa-1OOn和語言模型選擇和合并模塊102。每個特征檢測模塊100對命令70進(jìn)行分析以得到一個或多個特征105a-105n。在各種示例性實施例中,特征檢測模塊IOOa-1OOn基于特定命令70是否與特定的特征相關(guān)聯(lián)和/或是否落入特定特征的特定范圍而輸出一個或多個特征105a-105n。語言模型選擇和合并模塊102基于所檢測的特征105a_105n確定語言模型74。在各種實施例中,語言模型選擇和合并模塊102由預(yù)存儲的模型或模型的加權(quán)組合確定合適的語言模型74。
[0059]在各種實施例中,特征檢測模塊IOOa-1OOn可以是冗長性檢測模塊,禮貌性檢測模塊,信息分布檢測模塊,區(qū)域分布檢測模塊,正式等級檢測模塊,年齡檢測模塊,方言檢測模塊,和/或性別檢測模塊。冗長性檢測模塊,例如,分析命令70并估計語音中修飾詞和非功能性詞的比例,并將其與已知的冗長性分布進(jìn)行比較。禮貌性檢測模塊,例如,分析命令70并提取所有的禮貌等級指示詞。然后使用不同指示詞之間的加權(quán)和和相互關(guān)系以檢測禮貌等級。信息分布檢測模塊,例如,分析命令70以檢測所需信息片斷的位置和數(shù)量(也稱為槽信息)?;谠撔畔ⅲ畔⒎植紮z測模塊可以檢測出用戶趨于將該信息作為單獨(dú)的語音說出和用戶一段接一段的說。
[0060]區(qū)域分布檢測模塊,例如,分析命令70并基于與用戶歷史行為的比較來檢測區(qū)域。正式等級檢測模塊,例如,分析命令70并提取出詞匯。每個正式等級的詞匯是進(jìn)行檢測的空間基礎(chǔ)??梢酝ㄟ^使用歸一化的距離量度來確定等級。年齡檢測模塊,例如,分析命令的語音并使用高斯混合模型(GMM)以將語音與各年齡或年齡組的參考模型進(jìn)行比較。
[0061]方言檢測模塊例如分析命令70并提取聲學(xué)特征。使用例如錨模型技術(shù),產(chǎn)生標(biāo)記并測量距離。性別檢測模塊例如分析命令70,提取聲學(xué)特征并估計各性別的GMM分布。通過將GMM變換成超級向量(SV),估計距離并進(jìn)行決策。應(yīng)當(dāng)理解,各檢測模塊IOOa-1OOn也可以執(zhí)行其它方法和技術(shù)。因此,本公開并不限于現(xiàn)有的例子。
[0062]重新參照圖3,用戶能力調(diào)節(jié)模塊64從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取記錄的數(shù)據(jù)。在各種實施例中,記錄的數(shù)據(jù)包括用戶發(fā)出的口頭命令76和口頭命令76的特性78。用戶能力調(diào)節(jié)模塊64基于命令76的特性78分析命令76。在各種實施例中,特性78可以一般地包括任務(wù)完成結(jié)果和重復(fù)用戶和/或系統(tǒng)的錯誤的參數(shù)和測量結(jié)果。例如,參數(shù)和測量結(jié)果可以是關(guān)于,但不限于,任務(wù)完成率和時間,暫停事件,響應(yīng)時間,確認(rèn)和解疑周期,幫助請求和偏離有效和成功的交互序列的所有事件。
[0063]用戶能力調(diào)節(jié)模塊64分析命令76以識別模式。用戶能力調(diào)節(jié)模塊64基于所識別的模式為提示80提供建議的調(diào)整和/或為交互序列82提供調(diào)整。建議的調(diào)整可以作為用戶配置文件56的一部分被提供(圖2)。例如,用戶配置文件56中的提示80可以被更新,以在識別出用戶或語音系統(tǒng)的重復(fù)錯誤后,包含更多的幫助和更窄的回答空間;并且在確定了用戶或系統(tǒng)學(xué)習(xí)了最優(yōu)交互行為后,用戶配置文件56中的提示80可以被恢復(fù)成原始提示。在各種實施例中,用戶配置文件56的交互序列82可以被調(diào)節(jié)以為識別的重復(fù)用戶錯誤提供更多的系統(tǒng)主導(dǎo),并且當(dāng)確定用戶已學(xué)習(xí)了交互模式后,可以調(diào)節(jié)交互序列82以允許更多的用戶主導(dǎo)。這種基于用戶能力提示對用戶設(shè)置進(jìn)行的調(diào)節(jié)提高了用戶能力,并建立了帶有更高的任務(wù)完成率的交互模式。
[0064]例如,用戶可能非常熟悉語音系統(tǒng),通常頻繁地使用以通過他的移動電話來啟動應(yīng)用程序。因此他慣用的方式是使用單獨(dú)的語句來表達(dá)他的要求,而很少需要在后來的對話中增加信息。當(dāng)用戶能力調(diào)節(jié)模塊64觀察到了這一點(diǎn)并學(xué)習(xí)了這種模式后,它可以決定使用最少的提示以保持對話有效并使得任務(wù)完成時間短。
[0065]在另一個例子中,相同的用戶可能更喜歡執(zhí)行搜索請求,例如查找餐館(例如,興趣點(diǎn)(Ρ0Ι搜索))?;谒囊苿与娫捊?jīng)驗,他可能形成了一種習(xí)慣,搜索大的搜索列表并在顯示器上進(jìn)行交互,徹底瀏覽選項并進(jìn)行選擇。在駕駛中的情況下顯示將會顯著的減少搜索內(nèi)容,他可能會對如何通過語音進(jìn)行選擇感到困惑。當(dāng)用戶能力調(diào)節(jié)模塊64觀察到了這一點(diǎn)并學(xué)習(xí)了這種模式后,它可以決定逐步地并在特定對話環(huán)境中使用幫助性提示來引導(dǎo)該用戶,使得隨后用戶理解如何通過選項進(jìn)行搜索。
[0066]仍然在另一個例子中,另一個用戶可能對語音不熟悉。他了解在駕駛時的優(yōu)點(diǎn)并開始通過語音提出請求,以給他聯(lián)系人列表中的某個聯(lián)系人打電話或調(diào)諧無線電臺。該用戶發(fā)音非常慢且響亮,使得系統(tǒng)難以識別大部分請求。這導(dǎo)致用于錯誤的識別聯(lián)系人或無線電臺的確認(rèn)周期。在這些錯誤恢復(fù)周期中,用戶變得急躁并且回答變得含糊。用戶能力調(diào)節(jié)模塊64觀察到了暫停事件,長響應(yīng)時間或確認(rèn)周期中冗長的用戶語音,并通過添加潛在的答案、有益的提示或?qū)⑻崾咀優(yōu)榫_的是/否答案來引導(dǎo)用戶處理這種情況。
[0067]在各種示例性實施例中,如圖5所示,用戶能力調(diào)節(jié)模塊64包括一個或多個模式檢測模塊104a-104n,一個或多個設(shè)置計算模塊106,和一個或多個用戶配置文件調(diào)節(jié)模塊108。一個或多個模式檢測模塊104a-104n分析數(shù)據(jù)以識別特定的模式107a_107n。一個或多個設(shè)置計算模塊106基于所檢測的模式107a-107n確定設(shè)置109。一個或多個用戶配置文件調(diào)節(jié)模塊108基于設(shè)置109為用戶配置文件56 (圖2)提供系統(tǒng)提示80和/或交互序列82。
[0068]模式檢測模塊104a_104n識別模式107a_107n,涉及例如,任務(wù)完成率和時間、暫停事件、用戶響應(yīng)時間、距離有效的調(diào)制語音的用戶偏離度(例如,含糊、停頓、冗長性等),導(dǎo)致確認(rèn)周期的低系統(tǒng)置信度,導(dǎo)致解疑周期的含糊的用戶語音,幫助請求和所有偏離有效和成功的交互序列的事件。當(dāng)模式檢測模塊104a識別出了與任務(wù)完成率和時間相關(guān)的模式,當(dāng)該率低于某個閾值時,設(shè)置計算模塊106產(chǎn)生設(shè)置109,其將系統(tǒng)提示變?yōu)楦行畔⒌南到y(tǒng)提示。在各種實施例中,當(dāng)模式檢測模塊104a識別出了與暫停事件、用戶響應(yīng)時間或距離有效的調(diào)制語音的用戶偏離度相關(guān)的模式時,設(shè)置計算模塊106檢查其與當(dāng)前對話步驟的關(guān)系,如果對話步驟當(dāng)前在同一步驟中,則設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示和交互序列變?yōu)楦〉牟襟E,其帶有接近的系統(tǒng)問題使得用戶輕松了解如何給出答案(例如,由于可能的回答空間是狹窄的)。
[0069]當(dāng)模式檢測模塊104a識別到與導(dǎo)致確認(rèn)周期的低系統(tǒng)置信度相關(guān)的模式時,設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示變?yōu)楦行畔⒌南到y(tǒng)提示,以使得用戶知道如何回答。當(dāng)模式檢測模塊104a識別到與導(dǎo)致解疑周期的含糊用戶語音相關(guān)的模式時,設(shè)置計算模塊106產(chǎn)生設(shè)置109以將提示變?yōu)橄到y(tǒng)提示,其告訴用戶如何在其答案中包含足夠的信息以使得其答案不含糊。在各種實施例中,當(dāng)模式檢測模塊104a識別到與幫助請求相關(guān)的模式時,設(shè)置計算模塊106產(chǎn)生設(shè)置109以將系統(tǒng)提示變?yōu)楦行畔⒌奶崾?。這種模式檢測可以通過收集與系統(tǒng)的識別混淆相關(guān)的用戶數(shù)據(jù)來完成,該系統(tǒng)的識別混亂由例如用戶拒絕或修正的確認(rèn)或解疑請求來檢測。在這種情況下,數(shù)據(jù)被存儲在混淆矩陣中,其隨著時間顯示重復(fù)的混淆。
[0070]對于上述所有列出的識別模式,一旦模式檢測模塊104a_104n確定了用戶的行為變得更加有效和/或易于識別,設(shè)置計算模塊106產(chǎn)生設(shè)置109將語音系統(tǒng)提示和/或交互序列恢復(fù)為原始設(shè)置,假設(shè)用戶已經(jīng)獲得了系統(tǒng)的使用經(jīng)驗。
[0071 ] 重新參照圖3,情境數(shù)據(jù)調(diào)節(jié)模塊66從記錄數(shù)據(jù)數(shù)據(jù)庫42獲取記錄的數(shù)據(jù)。在各種實施例中,記錄的數(shù)據(jù)包括車輛數(shù)據(jù)84,車輛情境數(shù)據(jù)86,和語音系統(tǒng)數(shù)據(jù)88。車輛數(shù)據(jù)84可以包括但不限于,車輛速度數(shù)據(jù),或任何其它可從通信總線28上獲得的數(shù)據(jù)。車輛情境數(shù)據(jù)86可以包括但不限于,當(dāng)前駕駛位置和時間,道路類型,交通信息,天氣,周圍噪聲水平,乘客數(shù)量,已連接用戶設(shè)備的數(shù)量,任何啟動的因特網(wǎng)或其它HMI應(yīng)用程序,任何啟動的車輛系統(tǒng)(即,氣候控制,主動巡航控制,燈光,傳動裝置,風(fēng)擋刮水器等),或任何其它可從通信總線上獲得或直接從車輛系統(tǒng)16-26獲得的數(shù)據(jù)。語音系統(tǒng)數(shù)據(jù)88可以包括但不限于,用戶發(fā)出的語音,語音特性,和/或由語音系統(tǒng)10識別的其它語音特性。
[0072]當(dāng)使用語音系統(tǒng)10時,情境數(shù)據(jù)調(diào)節(jié)模塊66分析所記錄的數(shù)據(jù)并且檢測在用戶正在使用系統(tǒng)的情境和用戶交互行為之間的重復(fù)的模式。情境數(shù)據(jù)調(diào)節(jié)模塊66基于模式為用戶任務(wù)偏好90、自然語g命令偏好92、和/或交互序列偏好94提供更新。在各種實施例中,所建議的調(diào)整被作為用戶配置文件56(圖2)的一部分提供。
[0073]例如,交通數(shù)據(jù)提供了關(guān)于駕駛員正在行駛的路徑上的交通堵塞的信息。此外,來自CAN總線的速度數(shù)據(jù)提示駕駛員正處于交通堵塞中,并且安全系統(tǒng)(座椅安全帶設(shè)置)提示他是獨(dú)自在車中。通過評估記錄的數(shù)據(jù),模式檢測模塊IlOa檢測出用戶在這時打了很多電話或發(fā)了郵件,SMS,或更新了他的日歷。用戶配置文件56(圖2)被更新以識別這樣的時刻并在這些情況下為這些類型的請求提供識別便利和以更高的精確度執(zhí)行。
[0074]在另一個例子中,周末駕駛員與其他人一起駕駛。最初的導(dǎo)航請求建議了一條距離游客經(jīng)常訪問的興趣點(diǎn)(POI)較遠(yuǎn)的路徑。此外,駕駛員連接了他的iPod并請求聽某些歌。通過評估記錄的數(shù)據(jù),模式檢測模塊IlOa檢測到駕駛員請求POI以及在路上的POI的音頻路線并且在這種情況下請求從iPod收聽一些他喜歡的歌或POI的音頻路線。用戶配置文件56(圖2)被更新以識別這樣的時刻并在這些情況下為這些類型的請求提供識別便利和更高的精確度。
[0075]在各種示例性實施例中,如圖6所示,情境數(shù)據(jù)調(diào)節(jié)模塊66可以包括一個或多個模式檢測模塊IlOa-1lOn,—個或多個設(shè)置計算模塊112,和一個或多個用戶配置文件調(diào)節(jié)模塊114。模式檢測模塊IlOa-1lOn分析特定模式115a_115n的數(shù)據(jù)。模式檢測模塊llOa-llOn,例如,檢測與用戶請求或請求類型相關(guān)的情境語群。設(shè)置計算模塊112基于所檢測的模式115a-115n確定用戶配置文件設(shè)置117。用戶配置文件調(diào)節(jié)模塊114基于設(shè)置117提供用戶配置文件56 (圖2)中所用到的用戶任務(wù)偏好90、自然語言命令偏好92、和/或交互序列偏好94。
[0076]在各種實施例中,模式檢測模塊IlOa-1lOn通過確定用戶行為中的增長并確定用戶行為增長期間的情境模式來確定模式。用戶行為可以為多種類型并且指執(zhí)了特定任務(wù)類型、使用特定的詞匯/語言,發(fā)生重復(fù)錯誤或在其語音中偏向特定的信息分布(例如,在多于一個的語音中提供遞增的信息對在一個語音中給出完成任務(wù)所需的所有信息等)的頻率。一旦檢測出模式115a-115n,設(shè)置計算模塊112和用戶配置文件調(diào)節(jié)模塊114根據(jù)所識另拙的情境中的用戶行為給出設(shè)置117和用戶配置文件56(圖2),例如,根據(jù)任務(wù)偏好、詞匯偏好、提示偏好、和/或交互序列。
[0077]重新參照圖3,系統(tǒng)模型調(diào)節(jié)模塊68從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取記錄的數(shù)據(jù)。在各種實施例中,記錄的數(shù)據(jù)包括用戶發(fā)出的口頭命令96。在各種實施例中,命令96可以從記錄數(shù)據(jù)數(shù)據(jù)庫42的記錄數(shù)據(jù)(如圖所示)中獲取,或可選地從HMI模塊14(圖1)隨著用戶說出命令而實時接收。系統(tǒng)模型調(diào)節(jié)模塊68對命令96進(jìn)行評估并確定用于識別該命令的最優(yōu)模型。例如,系統(tǒng)模型調(diào)節(jié)模塊68根據(jù)至少三個語音模型對命令進(jìn)行評估并使得語音命令與三個模型中的一個相關(guān)聯(lián)。系統(tǒng)模型調(diào)節(jié)模塊68追蹤命令96與特定模型相關(guān)聯(lián)的頻率。一旦命令96以一定的頻率與特定的模型相關(guān)聯(lián),則該模型98被選中使用命令99進(jìn)行更新,通過將命令99添加至模型或從模型中去除命令99。附加地或可選地,權(quán)重或概率可與命令99相關(guān)聯(lián),權(quán)重或概率匹配命令99的觀測概率或匹配詞、短語或命令99中詞對詞的轉(zhuǎn)換的觀測概率,模型可使用該權(quán)重或概率進(jìn)行更新。
[0078]每個所用的模型都可以提供下列好處中的至少一個:所支持的短語的數(shù)量、短語的深度、處理的等待時間、識別的精確度和處理時間。所選模型的組合可以提供上述優(yōu)點(diǎn)中的至少兩個。例如,在各種實施例中,第一語言模型是一個固定模型,其包括了可識別命令的固定列表,被稱為固定列表模型116(圖10)。固定列表模型116提供改善的等待時間、改善的精確度和改善的處理時間的優(yōu)點(diǎn),且其可以被認(rèn)為是更優(yōu)的模型。這樣的模型可以包括但不限于有限態(tài)文法(FSG)。第二語言模型具有更大范圍的識別短語,被稱為大范圍模型(wider scope model) 118 (圖7)。大范圍模型118可以識別出更大范圍內(nèi)的命令,然而等待時間更長且精確度下降。這樣的模型可以包括但不限于統(tǒng)計語言模型(SLM)。第三語言模型是這兩種模型之間的組合,其可以對兩種語言模型的結(jié)果進(jìn)行仲裁,被稱為仲裁模型120(圖10)。這樣的模型可以包括但不限于,結(jié)構(gòu)方程模型(SEM)。應(yīng)當(dāng)理解,由系統(tǒng)模型調(diào)節(jié)模塊68所執(zhí)行的模型可以是任何語言模型,而不限于現(xiàn)有的例子。
[0079]應(yīng)當(dāng)理解,數(shù)據(jù)分析模塊38可以包括一個調(diào)節(jié)模塊或上述調(diào)節(jié)模塊的任意組合。在設(shè)置了多個調(diào)節(jié)模塊的情況下,一個調(diào)節(jié)模塊的輸出可以依賴于其它的調(diào)節(jié)模塊并且可以通過系統(tǒng)更新模塊40 (圖2)以某種方式進(jìn)行組合。通過以這種方式對命令進(jìn)行追蹤,并將命令從次優(yōu)選模型轉(zhuǎn)移至更優(yōu)的模型,在不犧牲系統(tǒng)靈活性的情況下利用更優(yōu)模型。因此,對命令的識別將隨著時間有所改進(jìn),大量減少重復(fù)請求或確認(rèn)周期。
[0080]現(xiàn)在參照圖7-10,并繼續(xù)參照圖1-6,序列圖示出了調(diào)節(jié)方法,其可以被根據(jù)各種示例性實施例的語音系統(tǒng)10所執(zhí)行。應(yīng)當(dāng)理解,在本公開的啟示下,方法中操作的順序并不限于圖7-10中的順序執(zhí)行,而是可以根據(jù)應(yīng)用和現(xiàn)有的公開按照一種或多種不同的順序執(zhí)行。應(yīng)當(dāng)進(jìn)一步理解,可以添加或去除本方法中的一個或多個步驟,而不改變本方法的精神。
[0081]參照圖7,序列圖示出了一個示例性的序列,其可以被執(zhí)行以根據(jù)用戶特征對語音系統(tǒng)10進(jìn)行調(diào)節(jié)。如圖所示,在200,從例如HMI模塊14(或通信總線28)接收命令,任意的情境信息和其特征,并在202通過數(shù)據(jù)記錄模塊36進(jìn)行記錄。在210,記錄的數(shù)據(jù)從記錄數(shù)據(jù)數(shù)據(jù)庫42中獲取,并在220通過一個或多個特征檢測模塊IOOa-1OOn進(jìn)行評估。然后在230,語言模型選擇和合并模塊102對識別出的特征105a-105n進(jìn)行評估以確定該特征是否以特定的頻率(例如,X次,其中X是大于I的可配置值)和置信度發(fā)生。如果特征已經(jīng)以特定的頻率發(fā)生,則與特征相關(guān)聯(lián)的語言模型74被選中并提供給系統(tǒng)更新模塊40用于在240更新。在250,系統(tǒng)更新模塊40接收語言模型74并在260使用語言模型74 (例如,通過組合兩個模型,或以某個其它方式)對當(dāng)前的語言模型進(jìn)行更新。
[0082]參照圖8,序列圖示出了一個示例性序列,其可以被執(zhí)行以基于用戶能力調(diào)節(jié)語音系統(tǒng)10。如圖所示,在310,例如,從HMI模塊14接收命令和特征數(shù)據(jù),并且在312由數(shù)據(jù)記錄模塊36進(jìn)行記錄。在320,從記錄數(shù)據(jù)數(shù)據(jù)庫42獲取記錄的數(shù)據(jù)。在330,模式檢測模塊104a-104n對記錄的數(shù)據(jù)進(jìn)行評估并編譯與用戶能力相關(guān)聯(lián)的重復(fù)模式107a_107n。在340,模式107a-107n被發(fā)送至設(shè)置計算模塊106。在350,基于模式107a_107n,設(shè)置計算模塊106為整個交互策略(例如,提示的總體冗長性等級)和/或特定的對話情況(例如,特定情境中的確認(rèn))計算推薦的系統(tǒng)交互設(shè)置109。在360,用戶系統(tǒng)交互設(shè)置109被發(fā)送至用戶配置文件調(diào)節(jié)模塊108。在370,用戶配置文件調(diào)節(jié)模塊108調(diào)節(jié)用戶配置文件的設(shè)置。在380,用戶配置文件被發(fā)送至系統(tǒng)更新模塊40。在390,系統(tǒng)更新模塊40使用調(diào)節(jié)后的用戶配置文件更新系統(tǒng)設(shè)置。
[0083]參照圖9,序列圖示出了一個示例性的序列,其可以被執(zhí)行以基于情境數(shù)據(jù)對語音系統(tǒng)10進(jìn)行調(diào)節(jié)。如圖所示,在410接收車輛數(shù)據(jù)84、情境數(shù)據(jù)86、和語音系統(tǒng)數(shù)據(jù)88,并在412由數(shù)據(jù)記錄模塊36進(jìn)行記錄。在420,從記錄數(shù)據(jù)數(shù)據(jù)庫42獲取記錄的數(shù)據(jù)。在430,模式檢測模塊IlOa-1lOn對記錄的數(shù)據(jù)進(jìn)行評估并編譯與來自其它HMI模塊14 (例如,導(dǎo)航系統(tǒng)、語群堆棧、因特網(wǎng)信息)或車輛的記錄系統(tǒng)(CAN總線),情境數(shù)據(jù),例如當(dāng)前行駛位置和時間、道路類型、交通、天氣、行駛速度、周圍噪聲水平、乘客數(shù)量、已連接的用戶設(shè)備、啟動的因特網(wǎng)或其它HMI應(yīng)用程序、啟動的車輛系統(tǒng),例如氣候控制、主動巡航控制,燈光,傳動裝置,風(fēng)擋刮水器等的數(shù)據(jù)相關(guān)聯(lián)的重復(fù)模式115a-115n。
[0084]在440,模式115a-115n被發(fā)送至設(shè)置計算模塊112。在450,基于模式115a_ 115η,設(shè)置計算模塊112為整個交互策略(例如,提示的總體冗長性等級)和/或特定的對話情況(例如,特定情境中的確認(rèn))確定推薦的系統(tǒng)交互設(shè)置117。在460,用戶系統(tǒng)交互設(shè)置被發(fā)送至用戶配置文件調(diào)節(jié)模塊114。在470,用戶配置文件調(diào)節(jié)模塊114調(diào)節(jié)用戶配置文件的設(shè)置。在480,用戶配置文件被發(fā)送至系統(tǒng)更新模塊40。在490,系統(tǒng)更新模塊40使用已調(diào)節(jié)的用戶配置文件更新系統(tǒng)設(shè)置。
[0085]參照圖10,序列圖示出了示例性的序列,其可以被執(zhí)行以基于已調(diào)節(jié)的系統(tǒng)模型調(diào)節(jié)語音系統(tǒng)10。如圖所示,在510從例如HMI模塊14接收命令,并在512由數(shù)據(jù)記錄模塊36進(jìn)行記錄。在520,從記錄數(shù)據(jù)數(shù)據(jù)庫42獲取命令。可選地,命令96在530從HMI模塊14直接接收。系統(tǒng)模型調(diào)節(jié)模塊68對命令96進(jìn)行處理以確定命令的最優(yōu)語言模型。例如,在540,由固定列表模型116對命令96進(jìn)行處理并在550將命令發(fā)送至仲裁模型120。同時或稍后,在555從記錄數(shù)據(jù)數(shù)據(jù)庫42獲取命令96并在560由大范圍模型118對命令96進(jìn)行處理??蛇x地,命令96在557直接從HMI模塊14接收,并在560由大范圍模型118對命令96進(jìn)行處理。
[0086]在570,大范圍模型118的結(jié)果被發(fā)送至仲裁模型120。在580由仲裁模型120對固定列表模型116和大范圍模型118的結(jié)果進(jìn)行處理。在590對仲裁的結(jié)果進(jìn)行評估,以確定結(jié)果是否以特定的頻率(例如,X次,其中X是大于I的可配置值)發(fā)生。在600,如果仲裁的結(jié)果已經(jīng)以特定的頻率發(fā)生,則其結(jié)果和模型被提供給系統(tǒng)更新模塊40用于更新。在610,系統(tǒng)更新模塊接收結(jié)果和模型并使用結(jié)果對系統(tǒng)模型進(jìn)行更新。
[0087]盡管在前述的詳細(xì)描述中已經(jīng)公開了至少一個示例性實施例,應(yīng)當(dāng)理解存在大量的變形。還應(yīng)當(dāng)理解這些示例性實施例只是例子,且不用于在任何方面限制本發(fā)明的范圍、應(yīng)用或配置。相反,前述的詳細(xì)描述將為本領(lǐng)域技術(shù)人員提供實現(xiàn)該示例性實施例的便捷途徑。應(yīng)當(dāng)理解可以在不脫離本發(fā)明范圍的情況下對功能和元件的設(shè)置進(jìn)行多種變形,如所附的權(quán)利要求及其法律等同中所闡明。
【權(quán)利要求】
1.一種調(diào)節(jié)語音系統(tǒng)的方法,包括: 利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果; 評估模型結(jié)果的頻率;以及 基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
2.如權(quán)利要求1所述的方法,其中處理口頭命令包括: 使用具有第一模型類型的第一語音模型處理口頭命令以獲得第一結(jié)果; 使用具有第二模型類型的第二語音模型處理口頭命令以獲得第二結(jié)果; 使用具有第三模型類型的第三語音模型處理第一結(jié)果和第二結(jié)果以獲得第三結(jié)果。
3.如權(quán)利要求2所述的方法,進(jìn)一步包括: 基于第三結(jié)果選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個;以及 基于所述選擇更新系統(tǒng)模型。
4.如權(quán)利要求3所述的方法,進(jìn)一步包括確定第三結(jié)果的頻率;并且其中選擇第一語音模型和第一結(jié)果、以及第二語音模型和第二結(jié)果中的至少一個是基于所述頻率的。
5.如權(quán)利要求1所述的方法,其中處理口頭命令包括使用具有至少三種不同模型類型的至少三個語音模型對口頭命令進(jìn)行處理。
6.如權(quán)利要求5所述的方法,其中第一語音模型是識別固定命令列表的固定語言模型類型。
7.如權(quán)利要求5所述的方法,其中第二語音模型是識別短語的大范圍模型類型。
8.如權(quán)利要求5所述的方法,其中第三語音模型是仲裁模型類型,其對來自其它模型的結(jié)果進(jìn)行仲裁。
9.如權(quán)利要求5所述的方法,其中第一模型是有限狀態(tài)語法模型類型,第二模型是統(tǒng)計語言模型類型,且第三模型是結(jié)構(gòu)方程模型類型。
10.一種調(diào)節(jié)語音系統(tǒng)的系統(tǒng),包括: 第一模塊,利用具有一種或多種模型類型的一個或多個模型處理口頭命令以獲得模型結(jié)果; 第二模塊,評估模型結(jié)果的頻率;和 第三模塊,基于該評估選擇性地更新具有一種或多種模型類型的一個或多個模型。
【文檔編號】G10L15/183GK103811002SQ201310756239
【公開日】2014年5月21日 申請日期:2013年11月13日 優(yōu)先權(quán)日:2012年11月13日
【發(fā)明者】U·溫特, R·M·赫奇特, T·J·格羅斯特, R·E·辛斯三世 申請人:通用汽車環(huán)球科技運(yùn)作有限責(zé)任公司