使用說話者檢驗的背景語音辨識助理的制作方法

文檔序號：2825810閱讀：174來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

使用說話者檢驗的背景語音辨識助理的制作方法
【專利摘要】在一個實施例中，一種方法包含在語音辨識器處接收聲輸入信號?；谒雎曒斎胄盘柖R別正在說話的用戶。接著，所述方法確定針對所述用戶先前所存儲的說話者特定信息且基于所述所辨識聲輸入信號及針對所述用戶的所述說話者特定信息而確定一組響應(yīng)。確定是否應(yīng)輸出所述響應(yīng)，且如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
【專利說明】使用說話者檢驗的背景語音辨識助理
[0001]相關(guān)申請案的交叉參考
[0002]本申請案主張2011年12月16日提出申請的針對“使用說話者檢驗的背景語音辨識助理(Background Speech Recognition Assistant Using Speaker Verification) ”的第13/329，017號美國專利申請案的優(yōu)先權(quán)，所述美國專利申請案主張2011年9月27日提出申請的針對“背景語音辨識助理(Background Speech Recognition Assistant) ”的第13/246，666號美國專利申請案的優(yōu)先權(quán)，所述美國專利申請案的內(nèi)容以全文引用的方式并入本文中。
【背景技術(shù)】
[0003]特定實施例一般來說涉及語音辨識。
[0004]語音辨識試圖經(jīng)由口頭查詢及命令而使信息存取較容易且較簡單。這些查詢歷史上通過裝置(例如智能電話)上的按鈕按下而激活。使用口頭查詢允許用戶在不鍵入查詢的情況下做出查詢。此在用戶忙碌時(例如在用戶開車或僅不想鍵入查詢時)使信息存取較容易。在接收到按鈕按下之后，語音辨識器傾聽查詢并試圖適當(dāng)?shù)刈鞒鲰憫?yīng)。即使使用按鈕按下較容易，但有時對于用戶來說，使用戶按下按鈕來激活語音辨識器是不方便的。舉例來說，用戶可能忙于其它活動，在此情況下，使用其手來執(zhí)行按鈕按下可是不可能的，例如用戶可能正在開車。
[0005]其它方法用使用激活詞來激活語音辨識器的免提方法來代替按鈕按下。舉例來說，使用觸發(fā)短語來激活語音辨識器，所述語音辨識器可在接收到觸發(fā)短語之后接著解讀查詢并提供適當(dāng)響應(yīng)。然而，用戶必須總是觸發(fā)語音辨識器。另外，從用戶觸發(fā)辨識器起，用戶通常不容許辨識或響應(yīng)中的錯誤。
[0006]在所有這些方法中，用戶決定何時發(fā)出查詢或命令?？隙ǖ丶せ钫Z音辨識器且接著用戶預(yù)期響應(yīng)。由于用戶預(yù)期響應(yīng)，因此可能不容許語音辨識中的錯誤。此外，由于語音辨識器在激活之后僅傾聽內(nèi)容，因此語音辨識器將忽略對話中的特定語境及重點。
[0007]另外，即使在向用戶輸出響應(yīng)時，所述響應(yīng)也是通用響應(yīng)。舉例來說，語音辨識器可使用所辨識的關(guān)鍵字來執(zhí)行網(wǎng)絡(luò)搜索。此關(guān)鍵字搜索將被輸出到正在說話的任何用戶。

【發(fā)明內(nèi)容】

[0008]在一個實施例中，一種方法包含在語音辨識器處接收聲輸入信號?；谒雎曒斎胄盘柖R別正在說話的用戶。接著，所述方法確定針對所述用戶先前所存儲的說話者特定信息且基于所述所辨識聲輸入信號及針對所述用戶的所述說話者特定信息而確定一組響應(yīng)。確定是否應(yīng)輸出所述響應(yīng)，且如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
[0009]在一個實施例中，一種方法包含:基于使用第一語音辨識算法辨識聲輸入信號及將所述聲輸入信號的部分分類到多個類別中的一類別中而從第一級辨識器接收信號，所述第一級辨識器經(jīng)配置而以始終接通模式辨識所述聲輸入信號；由計算裝置在接收到所述信號后即刻激活第二級辨識器以辨識所述聲輸入信號，所述第二級辨識器經(jīng)配置以使用第二語音辨識算法；基于所述聲輸入信號而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；基于所述說話者特定信息而確定對所述所辨識聲輸入信號的響應(yīng)；基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
[0010]在一個實施例中，一種系統(tǒng)包含:第一級辨識器，其經(jīng)配置而以始終接通模式使用第一語音辨識算法來辨識聲輸入信號，所述第一級辨識器經(jīng)配置以:接收聲輸入信號；基于所述聲輸入信號而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；使用第一語音辨識算法將所述聲輸入信號的部分分類到不同類別中；基于對類別的選擇而確定應(yīng)觸發(fā)第二級辨識器，所述選擇是基于正以所述選定類別分類的經(jīng)分類部分及所述說話者特定信息；及第二級辨識器，其經(jīng)配置以:從所述第一級辨識器接收用以激活所述第二級辨識器的信號；在接收到所述信號后即刻激活所述第二級辨識器以辨識所述聲輸入信號，所述第二級辨識器經(jīng)配置以使用不同于所述第一語音辨識算法的第二語音辨識算法來辨識所述聲輸入信號；使用所述說話者特定信息來確定對所述所辨識聲輸入信號的響應(yīng)；基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
[0011]以下詳細(xì)說明及附圖提供對本發(fā)明的性質(zhì)及優(yōu)點的較好理解。
【專利附圖】

【附圖說明】
[0012]圖1A描繪根據(jù)一個實施例的語音辨識系統(tǒng)的實例系統(tǒng)。
[0013]圖1B描繪根據(jù)一個實施例的用于提供兩級語音辨識器的實例系統(tǒng)。
[0014]圖2描繪根據(jù)一個實施例的級I辨識器的較詳細(xì)實例。
[0015]圖3描繪根據(jù)一個實施例的級2辨識器的較詳細(xì)實例。
[0016]圖4描繪根據(jù)一個實施例的用于使用兩個級來執(zhí)行語音辨識的方法的簡化流程圖。
[0017]圖5描繪根據(jù)一個實施例的用于在級2辨識器處處理聲輸入信號的方法的簡化流程圖。
[0018]圖6描繪根據(jù)一個實施例的用于在單個裝置中操作級I辨識器及級2辨識器的方法的簡化流程圖。
[0019]圖7展示根據(jù)一個實施例的包含級I辨識器及級2辨識器兩者的裝置的實例。
[0020]圖8展示根據(jù)一個實施例的用于使用兩個不同裝置來執(zhí)行語音辨識的系統(tǒng)。
【具體實施方式】
[0021]本文中描述背景語音辨識器的技術(shù)。出于闡釋的目的，在以下說明中，陳述眾多實例及特定細(xì)節(jié)以便提供對本發(fā)明的實施例的徹底理解。如由權(quán)利要求書所定義，特定實施例可單獨地或連同下文所描述的其它特征一起包含這些實例中的特征中的一些或全部特征，且可進(jìn)一步包含本文中所描述的特征及概念的修改形式及等效物。
[0022]圖1A描繪根據(jù)一個實施例的語音辨識系統(tǒng)的實例系統(tǒng)100。系統(tǒng)100包含“始終接通”且傾聽所接收到的聲輸入信號的語音辨識器101。因此，語音辨識器101在后臺中工作。語音辨識器101不傾聽用以接通的觸發(fā)短語。而是，語音辨識器101從日常對話收集真實含義及意圖。由于語音辨識器101始終接通及傾聽，因此可依據(jù)在語音辨識器101必須基于觸發(fā)而激活的情況下通常不可辨識的短語而確定含義及意圖。在另一實施例中，語音辨識器101通過觸發(fā)短語而接通。傾聽將在語音辨識器101被接通時開始。
[0023]說話者檢驗管理器106檢驗?zāi)囊挥脩粽谡f話。舉例來說，各個用戶可能在不同時間說話，例如在家庭中，父親、母親、兒子及女兒可一起說話或在不同時間說話。說話者檢驗管理器106包含用以識別哪一說話者當(dāng)前正在說話的算法。舉例來說，說話者檢驗管理器106可使用用于確定說話者的文本無關(guān)算法。在此算法中，用戶可在允許說話者檢驗管理器106 了解每一用戶的語音的簽名的訓(xùn)練過程中訓(xùn)練說話者檢驗管理器106。所屬領(lǐng)域的技術(shù)人員將了解如何訓(xùn)練說話者檢驗管理器106來辨識用戶的語音。在訓(xùn)練之后，當(dāng)語音辨識器101處于始終接通模式中時，說話者檢驗管理器106確定誰正在說話。使用文本無關(guān)算法允許說話者檢驗管理器106在以始終接通模式操作時識別誰正在說話，此不需要用戶觸發(fā)語音辨識器101。
[0024]另外，文本相關(guān)方法可用于檢驗說話者。舉例來說，語音辨識器101并非始終接通，而是由接通語音辨識器101的觸發(fā)詞觸發(fā)，且語音辨識器101開始傾聽。接著可執(zhí)行檢驗用戶的文本相關(guān)方法。舉例來說，用戶可能已訓(xùn)練語音辨識器101辨識觸發(fā)詞。接著，語音辨識器101可基于針對觸發(fā)詞的先前訓(xùn)練而檢驗用戶。此外，用戶可在說出觸發(fā)短語之后說出額外詞，且所述詞用于識別說話者。
[0025]在另一實施例中，在初始檢驗之后，可隨著發(fā)生可為文本無關(guān)或文本相關(guān)的額外檢驗。舉例來說，隨著用戶繼續(xù)說話，說話者檢驗可正在運行以證實同一用戶正在說話。舉例來說，接收觸發(fā)短語且接著周期性地執(zhí)行說話者檢驗。當(dāng)認(rèn)為必須有較高安全性時(例如在登錄網(wǎng)站、賬戶、資金轉(zhuǎn)移、購物或其它安全情形時)，可執(zhí)行第二說話者檢驗。此外，由于代替登錄而執(zhí)行了第二說話者檢驗，因此在安全情形中可不需要手動登錄。
[0026]存儲裝置108包含針對不同用戶的說話者特定信息110。舉例來說，說話者特定信息110-1與用戶#1相關(guān)聯(lián)且說話者特定信息110-n與用戶#n相關(guān)聯(lián)。說話者特定信息110可針對任何數(shù)目個用戶而存儲于存儲裝置108中。每一說話者特定信息110可包含所述用戶所特有的信息。在一個實例中，說話者特定信息110基于針對所述用戶先前所辨識的語音，例如針對所述用戶之前可能已辨識詞“英式足球”或“度假”。此外，在另一實例中，信息可包含用戶偏好，例如一個用戶喜歡滑板運動且另一用戶喜歡英式足球。此信息可在確定對所辨識語音的響應(yīng)時使用。舉例來說，如果用戶更有可能喜歡英式足球，那么可在辨識語音時輸出與英式足球有關(guān)的廣告。在一個實例中，如果正討論度假，那么在識別用戶且確定用戶喜歡英式足球的情況下，可作為對將執(zhí)行的活動的建議而輸出在進(jìn)行度假時發(fā)生的英式足球比賽。然而，如果說話的用戶喜歡滑板運動，那么可作為響應(yīng)輸出滑板運動賽事。因此，語音辨識器101可使用說話者特定信息110而提供較個人化響應(yīng)。
[0027]語音辨識器101可在后臺中確定可能響應(yīng),但可能直到確定適合輸出響應(yīng)才輸出所述響應(yīng)。響應(yīng)可基于聲輸入信號的類別及解釋而使用各種方法來確定。舉例來說，可執(zhí)行搜索以確定響應(yīng)，可針對適當(dāng)響應(yīng)而搜索數(shù)據(jù)庫等。語音辨識器101可對依據(jù)短語的所辨識含義而確定的響應(yīng)進(jìn)行排序。響應(yīng)的排序及類型(例如屏幕上的短暫顯示、屏幕上的持久顯示、口頭響應(yīng)等)可基于例如說話者特定信息110、相關(guān)性、緊迫性及/或重要性的準(zhǔn)貝U。與英式足球相關(guān)聯(lián)的響應(yīng)可排序較高。當(dāng)響應(yīng)接收指示可輸出響應(yīng)的值的排序時，此時語音辨識器101可輸出響應(yīng)。由于用戶并沒有特定地調(diào)用語音辨識器101來尋求響應(yīng)，因此語音辨識中的錯誤可不被視為是重大的。舉例來說，語音辨識器101可在輸出響應(yīng)之前對所述響應(yīng)進(jìn)行評估。如果不認(rèn)為所述響應(yīng)是可接受的，那么可不輸出所述響應(yīng)。由于用戶并沒有尋求響應(yīng)，因此用戶將不知道其中具有錯誤的響應(yīng)未被提供。然而，如果用戶已尋求特定響應(yīng)，那么將出現(xiàn)于響應(yīng)中的錯誤將是不可接受的。在此情形中，用戶并沒有尋求響應(yīng)。
[0028]在另一實施例中，可在不具有任何說話者檢驗的情況下執(zhí)行分類。在此情形中，確定一般響應(yīng)。然而，當(dāng)接收到觸發(fā)短語時，使用說話者特定信息110來調(diào)整響應(yīng)。在另一實例中，直到接收到觸發(fā)短語才執(zhí)行分類。
[0029]輸出響應(yīng)的不同方法可基于所確定的排序。舉例來說，具有較高排序得分的響應(yīng)可使用較多侵入性輸出方法。舉例來說，如果在排序中存在高級緊迫性，那么可使用口頭輸出。然而，如果緊迫性較低，那么可使用較少侵入性方法，例如在屏幕的拐角中顯示圖片或廣告。顯示圖片或廣告的時間長度可通過重要性而確定。語音辨識器101是助理，其在未被請求的情況下始終接通以提供幫助及解決方案，但足夠智能以僅在因緊迫性等而確定為適當(dāng)時侵入。
[0030]輸出響應(yīng)的方法可基于說話者特定信息110而改變。舉例來說，一些用戶可傾向于在個人計算機(jī)上輸出響應(yīng)。其它用戶可傾向于發(fā)送文本消息。這些偏好在確定輸出響應(yīng)的方法時被納入考慮。
[0031]在一個實例中，第一用戶可能正與第二用戶討論是否購置微波爐。所述對話可能正討論將購置什么瓦數(shù)或樣式(例如，不銹鋼)。語音辨識器101可位于移動裝置(例如蜂窩式電話或平板計算機(jī))中且未被第一用戶或第二用戶觸發(fā)。語音辨識器101可不立即輸出響應(yīng)。而是，語音辨識器101傾聽對話以導(dǎo)出額外含義。當(dāng)語音辨識器101將所述討論分類為“購物”討論時，其可辨識出正期待購買微波爐，語音辨識器101可確定響應(yīng)是適當(dāng)?shù)?。說話者特定信息110可用于確定用戶先前正關(guān)于廚房中的其它電器而討論不銹鋼。在此情形中，接著確定用戶期待購置期待購買的某一瓦數(shù)的不銹鋼微波爐。不銹鋼微波爐將匹配廚房中的其它電器?？蓪σ恍╉憫?yīng)進(jìn)行排序。舉例來說，商店的促銷可為一個響應(yīng)。此響應(yīng)因相關(guān)性(促銷是針對微波爐的)以及緊迫性(促銷是限時優(yōu)惠及/或語音辨識器101聽出討論中的緊迫感，因為其識別出了現(xiàn)有微波爐已壞掉)而被賦予高得分。因此，可獲得商店的促銷的侵入性口頭輸出響應(yīng)可被輸出且提示用戶正查找的物項僅促銷24小時。
[0032]圖1B描繪根據(jù)一個實施例的用于提供兩級語音辨識器的實例系統(tǒng)100。兩級語音辨識器可執(zhí)行語音辨識器101的功能。此外，盡管描述兩個級，但兩個級的功能可組合到一個級或任何數(shù)目個級中。系統(tǒng)100包含級I辨識器102及級2辨識器104。級I辨識器102及級2辨識器104可位于相同裝置中或位于不同裝置中。舉例來說，級I辨識器102及級2辨識器104可位于移動裝置中，例如智能電話、平板計算機(jī)、膝上型計算機(jī)、手持式游戲裝置、玩具、車內(nèi)裝置或其它消費型電子器件。另外，級I辨識器102可位于第一裝置(例如客戶端裝置)上，且級2辨識器104可位于第二裝置(例如服務(wù)器)上。在此實例中，級I辨識器102可經(jīng)由網(wǎng)絡(luò)與級2辨識器104通信。
[0033]級I辨識器102可為“始終接通”且傾聽所接收到的聲輸入信號的語音辨識裝置。始終接通可意指級I辨識器不需要被觸發(fā)(例如，通過按鈕按下或觸發(fā)短語)以開始語音辨識。始終接通語音辨識器的實例包含于2010年7月6日提出申請的標(biāo)題為“用于免提語音控制及語音搜索的系統(tǒng)及方法(Systems and Methods for Hands-free Voice Controland Voice Search) ”的第12/831，051號美國專利申請案(其主張2009年7月6日提出申請的第61/223，172號美國專利申請案的優(yōu)先權(quán)的權(quán)益)中，且包含于2011年8月24日提出申請的標(biāo)題為“減少語音辨識系統(tǒng)中的主動錯誤信息(Reducing False Positives inSpeech Recognition Systems) ”的第12/831，051號美國專利申請案中，出于所有目的,所有美國專利申請案以全文引用的方式并入。舉例來說，可分析級I辨識器102接收到的任何聲輸入信號。在一個實施例中，級I辨識器102不同于級2辨識器104。舉例來說，級I辨識器102可為使用比級2辨識器104少的功率的低功率辨識器。由于級I辨識器102所使用的語音辨識算法可使用較小存儲器及較少計算機(jī)處理器單元(CPU)循環(huán)，因此可使用較低功率。舉例來說，級I辨識器102可能夠在音頻前端(例如，麥克風(fēng))接通而CPU處理器正以較低時鐘速度運行或接通達(dá)短期突發(fā)而主要處于休眠的情況下運行。
[0034]級I辨識器102的語音辨識算法可將所辨識的關(guān)鍵字分類到預(yù)定義類別中。預(yù)定義類別可為描述不同所感興趣領(lǐng)域的主題，例如旅行、購物、娛樂、研究、飲食或電子器件。每一類別可與一組有限關(guān)鍵字相關(guān)聯(lián)。在一個實施例中，級I辨識器102可查找關(guān)鍵字的有限詞匯量。如果檢測到針對特定類別的一定數(shù)目個關(guān)鍵字，那么可確定與正討論的類別相關(guān)聯(lián)的主題。除若干個關(guān)鍵字之外，還可使用關(guān)鍵字彼此之間的關(guān)系，即，搜索文法及/或語言模型。級I辨識器102將所辨識關(guān)鍵字分類到多個類別中，且在一個類別具有以其分類的足夠關(guān)鍵字時，此時級I辨識器102可觸發(fā)級2辨識器104。還可使用下文將描述的其它準(zhǔn)則。
[0035]級I辨識器102可耦合到說話者檢驗管理器106及存儲裝置108以確定說話者特定信息110。說話者特定信息可用于將所辨識的關(guān)鍵字分類到預(yù)定義類別中。舉例來說，預(yù)定義類別可基于用戶的偏好針對每一用戶而不同。舉例來說，一些用戶可能喜歡旅行且其它用戶可能喜歡電子器件。
[0036]此外，可基于說話者特定信息110-1而執(zhí)行類別的確定。舉例來說，類別可與用戶相關(guān)聯(lián)。因此，如果類別與說話者特定信息110-1相關(guān)聯(lián)，那么觸發(fā)接通更有可能較適當(dāng)。舉例來說，如果用戶正談?wù)撚⑹阶闱?，且說話者特定信息110指示用戶喜歡英式足球，那么更有可能應(yīng)觸發(fā)語音辨識器101以確定響應(yīng)。然而，如果用戶正談?wù)摶暹\動且對滑板運動不感興趣，那么語音辨識器101可不被觸發(fā)接通。
[0037]與級I辨識器102相比，級2辨識器104可為較準(zhǔn)確語音辨識系統(tǒng)。舉例來說，級2辨識器104可使用比級I辨識器102多的功率。此外，級2辨識器104使用較準(zhǔn)確語音辨識算法。舉例來說，級2辨識器104可需要大存儲器及CPU循環(huán)占用面積以執(zhí)行語音辨識。在一個實例中，級2辨識器104可使用大詞匯量連續(xù)語音辨識(LVCSR)技術(shù)來描述特定主題(語言模型)的語言且將聲輸入信號轉(zhuǎn)換成可能詞格子，所述可能詞格子接著被使用統(tǒng)計剖析器準(zhǔn)確地剖析以提取含義。級I辨識器102或級2辨識器104可決定保存來自先前討論的信息以較好地分類、解決問題及提供幫助。
[0038]在一個實施例中，語音辨識算法之間可能存在一些差異。舉例來說，級I辨識器102是基于關(guān)鍵字的辨識器，而級2辨識器104可辨識所有詞。級I辨識器102可具有不如級2辨識器104復(fù)雜的搜索文法，例如較低混亂及較低數(shù)目個詞。級I辨識器102可具有不如級2辨識器104復(fù)雜的語言模型(例如，詞的數(shù)目，雙字母組對三字母組)。級I辨識器102可在搜索中刪除比級2辨識器104多的作用狀態(tài)。級I辨識器102剖析可為較簡單的或不存在的，而級2辨識器104具有穩(wěn)健統(tǒng)計剖析器。級I辨識器102可需要用以存儲表示的較少只讀存儲器(ROM)及用以對照其給輸入聲評分的較少隨機(jī)存取存儲器(RAM)/每秒百萬指令(mips)。級I辨識器102可為不如級2辨識器104準(zhǔn)確的辨識器且可使用比級2辨識器104簡單的語音特征。級I辨識器102可使用比級2辨識器104小/簡單的聲模型。
[0039]級2辨識器104可輸出對所檢測含義的響應(yīng)。舉例來說，當(dāng)依據(jù)聲輸入信號確定含義時，級2辨識器104可確定適當(dāng)響應(yīng)。所述響應(yīng)可包含多種感官互動，包含音頻、視覺、觸覺或嗅覺響應(yīng)。在一個實例中，輸出可為對用戶進(jìn)行的討論提供所建議答案的音頻響應(yīng)。還可提供增強(qiáng)用戶活動的其它響應(yīng)，例如在用戶正于計算機(jī)或電視指南上執(zhí)行搜索時，可基于依據(jù)背景對話的所存儲信息或在正進(jìn)行搜索時當(dāng)下所說出信息而提供較集中搜索結(jié)果。舉例來說，在依據(jù)文本輸入(例如“壞小子電影”)而進(jìn)行電影的搜索時，用戶可能說出像“我認(rèn)為它是一部翻拍電影，可能是海角什么的或其它...”這樣的話。另一實例，如果檢測到用戶正在討論旅行，那么可在指南的頂部處顯示電視指南上的關(guān)于旅行的一些電視節(jié)目。
[0040]級2辨識器104還可耦合到說話者檢驗管理器106及存儲裝置108，其中響應(yīng)是基于說話者特定信息110而確定。用于確定響應(yīng)的算法可基于用戶而不同。此外，考慮說話者特定信息110而確定的響應(yīng)將提供較集中搜索結(jié)果。
[0041]響應(yīng)的排序及類型還可基于說話者特定信息110。舉例來說，排序可基于說話者特定信息110中的用戶的偏好而受影響。舉例來說，基于用戶較喜歡英式足球的偏好，關(guān)于英式足球的響應(yīng)的排序可高于關(guān)于滑板運動的響應(yīng)。
[0042]圖2描繪根據(jù)一個實施例的級I辨識器102的較詳細(xì)實例。語音辨識器202接收聲輸入信號。舉例來說，聲輸入信號可為由裝置的音頻前端檢測到的對話。語音辨識器202辨識一些關(guān)鍵字。語音辨識器202所使用的文法可是有限的且少于級2辨識器104所使用的文法。
[0043]類別管理器204可將所辨識關(guān)鍵字分類到類別206中。每一類別206可與一個類目或主題相關(guān)聯(lián)。類別206可以是預(yù)定義的且可在若干個所辨識關(guān)鍵字滿足特定準(zhǔn)則時選擇類別206。舉例來說，語音辨識器202可識別高頻率短語。這些短語可唯一地且穩(wěn)健地識別主題。除時間次序及距離之外，短語的頻率也可用于確定是否選擇類別206。這些準(zhǔn)則可以用用于確定是否觸發(fā)類別206的類別特定文法而定義。一旦檢測到彼此具有預(yù)期關(guān)系的充分?jǐn)?shù)目個短語，便可確定存在正討論特定主題的必然性的高可能性并且選擇類別206。
[0044]類別206可基于說話者特定信息110而確定。舉例來說，一旦識別用戶，便可從說話者特定信息110檢索類別206。每一用戶可與不同類別206相關(guān)聯(lián)。在其它實施例中，類別206可基于說話者特定信息110而增強(qiáng)。舉例來說，可基于所識別的用戶而使用不同類別206或類別206中的關(guān)鍵字。
[0045]當(dāng)選擇類別206時，使用級2通知管理器208觸發(fā)級2辨識器104。圖3描繪根據(jù)一個實施例的級2辨識器104的較詳細(xì)實例。在觸發(fā)級2辨識器104時，語音辨識器502接收聲輸入信號。用于辨識聲輸入信號中的術(shù)語的語音辨識算法可比級I辨識器102所使用的語音辨識算法準(zhǔn)確。
[0046]所接收到的類別206也可用于執(zhí)行語音辨識。舉例來說，可選擇詞的詞匯的子集來執(zhí)行辨識。
[0047]可以多種方式確定響應(yīng)。舉例來說，所辨識句子的含義可用于搜索可能響應(yīng)。還可使用其它較多地基于所感知意圖而非實際上所說的內(nèi)容的方法。還可基于所述類別而縮窄可能響應(yīng)。舉例來說，當(dāng)類別為旅行時，將所確定的響應(yīng)縮窄到僅與旅行相關(guān)聯(lián)的響應(yīng)。對于多級辨識過程，與較多地集中于含義的級2辨識器104相反，分類技術(shù)準(zhǔn)許級I辨識器102集中于較簡單且較容易的分類任務(wù)。舉例來說，級I處的“分類”可使用嵌入式較低功率始終接通系統(tǒng)，因此較高功率辨識器僅需要在必要時被調(diào)用。
[0048]響應(yīng)排序管理器304基于排序算法306而對可能響應(yīng)進(jìn)行排序。所述排序可用于確定如何作出響應(yīng)。舉例來說，較高排序可指示響應(yīng)應(yīng)為較明顯且較具侵入性的，例如輸出音頻響應(yīng)。然而，較低排序可指示較微妙響應(yīng)，例如在接口上的顯示器上顯示消息。
[0049]響應(yīng)排序管理器304可使用說話者特定信息110來確定響應(yīng)。舉例來說，排序算法306可基于用戶的偏好而不同地加權(quán)。在一個實例中，包含用戶所偏好的內(nèi)容的一些響應(yīng)可排序較高。
[0050]在一個實施例中，排序算法306可基于例如說話者特定信息110、相關(guān)性、緊迫性及/或重要性的準(zhǔn)則而對響應(yīng)進(jìn)行排序。相關(guān)性可為所述響應(yīng)與所檢測含義的相關(guān)程度如何。緊迫性為例如在用戶確實希望做某事時所需的響應(yīng)的緊迫程度如何，或為可在響應(yīng)期滿時提供的優(yōu)惠。重要性可定義所述響應(yīng)對于用戶可是多么重要；舉例來說，如果用戶之間的對話較長或已依據(jù)早期所說的某事而重復(fù)請求，那么可確定重要性。還可使用其它準(zhǔn)則，例如依據(jù)對話所推斷出的信息。舉例來說，信息的重要性可影響顯示大小及時序。
[0051]可對多個響應(yīng)進(jìn)行排序。在一個實例中，響應(yīng)管理器308可輸出最高排序的響應(yīng)。在其它實施例中，可同時或按次序輸出多個響應(yīng)。此外，響應(yīng)可不基于排序而輸出，例如在沒有響應(yīng)經(jīng)確定具有足以被輸出的高得分的情況下。由于用戶可能尚未觸發(fā)級I辨識器102或級2辨識器104，因此用戶不預(yù)期響應(yīng)，且因此，可僅在確定適當(dāng)排序時輸出響應(yīng)。
[0052]圖4描繪根據(jù)一個實施例的用于使用兩個級來執(zhí)行語音辨識的方法的簡化流程圖400。在402處，起始級I辨識器102。級I辨識器102可為始終接通的。
[0053]在404處，說話者檢驗管理器106識別說話者。舉例來說，說話者檢驗管理器106可為始終接通的且傾聽語音。在用戶說話時，識別不同用戶。在一個實例中，可識別多個用戶。
[0054]在406處，接著查找針對所識別說話者的說話者特定信息110。舉例來說，如果識別用戶，那么接著使用針對所述用戶的說話者特定信息110來對語音進(jìn)行分類。
[0055]在408處，級I辨識器102使用說話者特定信息110來對聲輸入信號進(jìn)行分類。舉例來說，可對聲輸入信號中所辨識的不同關(guān)鍵字進(jìn)行分類。在410處，級I辨識器102確定是否選擇類別206。舉例來說，如果將若干個關(guān)鍵字分類于類別206中，那么可確定應(yīng)觸發(fā)級2辨識器104。如果否，那么過程繼續(xù)進(jìn)行以執(zhí)行404中的分類。在412處，級I辨識器102聯(lián)系級2辨識器104以接通級2辨識器104。
[0056]圖5描繪根據(jù)一個實施例的用于在級2辨識器104處處理聲輸入信號的方法的簡化流程圖500。在502處，級2辨識器104在接收到來自級I辨識器102的觸發(fā)后即刻接通。級2辨識器104不是始終接通的且僅在由級I辨識器102觸發(fā)時接通。
[0057]在504處，級2辨識器104接收聲輸入信號。舉例來說，如果級2辨識器104與級I辨識器102位于一處，那么在級2辨識器104處可接收聲輸入信號。然而，如果級2辨識器104位于遠(yuǎn)處(例如在服務(wù)器處)，那么級I辨識器102可將聲輸入信號發(fā)送到級2辨識器 104。
[0058]在505處，級2辨識器104確定說話者特定信息110。舉例來說，級2辨識器104可接收說話者是誰的識別。接著，確定針對所述用戶的說話者特定信息110。
[0059]在506處，級2辨識器104對響應(yīng)進(jìn)行排序。舉例來說，使用如上文所描述的準(zhǔn)則(例如說話者特定信息110)來對各種響應(yīng)進(jìn)行排序。在508處，級2辨識器104確定是否應(yīng)輸出響應(yīng)。所述確定可基于所述排序。舉例來說，當(dāng)響應(yīng)接收足夠高得分時，此時輸出所述響應(yīng)。如果未確定將輸出的響應(yīng)，那么過程在506處繼續(xù)，其中響應(yīng)繼續(xù)基于所接收聲輸入信號而排序。
[0060]如果確定將輸出的響應(yīng)，那么在510處，級2辨識器104確定響應(yīng)的方法。舉例來說，可基于排序而確定不同響應(yīng)。當(dāng)響應(yīng)具有高排序時，可認(rèn)為其較重要且因此提供較具侵入性響應(yīng)，例如音頻輸出。然而，當(dāng)響應(yīng)排序較低時，此時所述響應(yīng)可為較少侵入性的，例如接口上所顯示的消息。在512處，級2辨識器104使用所確定方法來輸出響應(yīng)。
[0061]在一個實施例中，級I辨識器102及級2辨識器104可在單個裝置中操作。所述裝置可由電池供電，其中電池壽命可是重要的。在此類型的裝置中，可期望使用級I辨識器102，其使用較少功率但始終接通且觸發(fā)使用較多功率的較強(qiáng)大級2辨識器104。圖6描繪根據(jù)一個實施例的用于在單個裝置中操作級I辨識器102及級2辨識器104的方法的簡化流程圖600。在602處，在裝置上使級I辨識器102以低功率模式操作。舉例來說，裝置可處于其中級I辨識器102在后臺中操作的待機(jī)模式中。由于級I辨識器102可需要較少CPU循環(huán)，因此級I辨識器102可在裝置待機(jī)時操作。待機(jī)不同于其中裝置可被完全供電的作用模式。舉例來說，在待機(jī)模式中，將關(guān)斷屏幕燈且除麥克風(fēng)前置放大器電路及輕量級處理器(例如較低時鐘循環(huán)實施方案等)之外，將不啟用任何功能。盡管辨識保持繼續(xù)，但將所有其它功能斷電以使功率消耗最小化。可自動確定這些辨識模式及級以節(jié)約功率。舉例來說，插入式裝置可始終接通充當(dāng)單個辨識器，而電池供電的裝置可使用較低功率級I方法。此外，級I辨識器102可在裝置不處于待機(jī)模式中時操作，但作為后臺過程而操作。因此，雖然使用所述裝置，但其不使用可使裝置的性能降級的顯著CPU處理能力。
[0062]在604處，級I辨識器102確定何時激活級2辨識器104。舉例來說，可選擇類別206。在606處，級I辨識器102發(fā)送信號以喚醒裝置。舉例來說，可將裝置從待機(jī)模式喚醒到作用模式中。
[0063]在608處，使級2辨識器104以較高功率模式操作。舉例來說，級2辨識器104可需要較多CPU循環(huán)來執(zhí)行語音辨識。另外，可必須在裝置處于作用模式中時操作級2辨識器 104。
[0064]圖7展示根據(jù)一個實施例的包含級I辨識器102及級2辨識器104兩者的裝置700的實例。音頻輸入702接收聲輸入信號。處理器704及存儲器706由級I辨識器102及級2辨識器104使用。如上文所描述，與級2辨識器104相比，級I辨識器102可使用處理器704的較少CPU循環(huán)。此外，存儲器706可為隨機(jī)存取存儲器(RAM)，其中與級2辨識器104相比，級I辨識器102使用較小量的RAM。
[0065]在不同實例中，圖8展示根據(jù)一個實施例的用于使用兩個不同裝置來執(zhí)行語音辨識的系統(tǒng)800。如所展示，第一裝置802-1包含級I辨識器102且第二裝置802-2包含級2辨識器104。第一裝置802-1可為與用戶位于一處的移動裝置以在音頻輸入702處接收聲輸入信號。第一裝置802-1可經(jīng)由網(wǎng)絡(luò)808與第二裝置802-2通信。舉例來說，網(wǎng)絡(luò)804可為廣域網(wǎng)絡(luò)(WAN)或局域網(wǎng)絡(luò)(LAN)。此外，第二裝置802-2可為服務(wù)器。
[0066]級I辨識器102可使用裝置802-1的處理器804_1及存儲器806_1，且第二裝置802-2可使用第二裝置802-2的處理器804-2及存儲器806-2。在一個實施例中，第二裝置802-2可為較強(qiáng)大計算裝置，因此允許將處理卸載到在第一裝置802-1上可使用較少功率及電池壽命的較強(qiáng)大裝置。
[0067]現(xiàn)在將描述各種實例。裝置可為在用戶的家中所使用的平板計算機(jī)。所述平板計算機(jī)可處于待機(jī)模式中。第一用戶可正與第二用戶關(guān)于這個夏天其想要去哪度假進(jìn)行對話。級I辨識器102始終接通且識別第一用戶及第二用戶。級I辨識器102檢索說話者特定信息110并確定分別與第一用戶及第二用戶相關(guān)聯(lián)的英式足球及滑板運動的類別中的關(guān)鍵字。當(dāng)級I辨識器102辨識關(guān)鍵字時，可選擇類別206。舉例來說，關(guān)鍵字可辨識為“度假”且接著可辨識確認(rèn)應(yīng)確定“旅行”類別的其它關(guān)鍵字，例如“航班”及“旅行”。確定應(yīng)選擇旅行類別及應(yīng)激活級2辨識器104。
[0068]級2辨識器104接收用以激活的觸發(fā)且還可接收正進(jìn)行關(guān)于“旅行”的類別的對話且其似乎是度假的信息。此時，級2辨識器104可接手傾聽對話。級2辨識器104可能夠解讀整個句子且可能聽到句子“也許我們應(yīng)該在愛爾蘭進(jìn)行一項活動”?！奥眯小钡念悇e可用于確定響應(yīng)的內(nèi)容。舉例來說，針對第一用戶在英式足球領(lǐng)域內(nèi)且針對第二用戶在滑板運動領(lǐng)域內(nèi)搜索旅行度假內(nèi)容。此時，可確定以下響應(yīng):應(yīng)輸出愛爾蘭的圖片以及在愛爾蘭的英式足球比賽的優(yōu)惠券(或可發(fā)現(xiàn)的無論什么地方的高排序交易或特價)及滑板運動事件的通知?？蓪蹱柼m的圖片輸出到接口，例如平板計算機(jī)屏幕。此外，可在屏幕的拐角中顯示可點擊的優(yōu)惠券以提供在愛爾蘭的英式足球比賽的特殊一攬子交易。
[0069]如果響應(yīng)具有較高排序，那么輸出方法可是不同的。舉例來說，可提供將通知用戶圖片或優(yōu)惠券的口頭輸出，或可提供愛爾蘭甚至在夏天也有猛烈的暴風(fēng)雨且或許在荷蘭具有較好天氣及卓越的自行車道的情況下可以考慮例如荷蘭的另一國家的一些其它信息。如果24小時內(nèi)可獲得在愛爾蘭的英式足球比賽的特別票，那么裝置可確定其是足夠相關(guān)及緊迫的以口頭地打斷討論，并且說“打擾一下，這里有24小時內(nèi)可獲得的在愛爾蘭的英式足球比賽的特別優(yōu)惠，請看屏幕以點擊查看詳情”。
[0070]在另一實例中，用戶可正使用計算裝置來經(jīng)由因特網(wǎng)執(zhí)行搜索。舉例來說，用戶可正使用旅行網(wǎng)站搜索度假。雖然提供搜索結(jié)果，但可使用級2辨識器104的輸出來縮窄所述結(jié)果。舉例來說，可基于說話者特定信息110而縮窄來自搜索查詢的結(jié)果集合。在一個實例中，可將所返回的網(wǎng)站限制于愛爾蘭的英式足球網(wǎng)站或可提供關(guān)于荷蘭的英式足球的額外網(wǎng)站。在用戶搜索期間還可提供其它最優(yōu)化。
[0071]在另一實例中，當(dāng)查找電影以下載時，級2辨識器104可回憶說話者特定信息110中的不同概念，例如運動、演員名字或情景喜劇。接著，這些節(jié)目為移動到指南的頂部的節(jié)目。接著，用戶可通過針對已展示的特定短語提供較多輸入而使選擇更加精細(xì)化。另外，接著，可執(zhí)行語音命令。
[0072]因此，特定實施例提供使用低功率的始終接通辨識器。所述語音辨識算法可比級2辨識器算法更輕量級。不需要觸發(fā)來接通級I辨識器102。然而，級I辨識器102執(zhí)行與類別206相關(guān)聯(lián)的特定關(guān)鍵字的一般語音辨識。
[0073]級2辨識器104在不具有來自用戶的觸發(fā)的情況下被激活。而是，觸發(fā)是來自級I辨識器102。由于用戶并沒有特定地調(diào)用級2辨識器104來尋求響應(yīng)，因此級2辨識器104中的錯誤可不被視為是重大的。舉例來說，級2辨識器104可在輸出響應(yīng)之前對所述響應(yīng)進(jìn)行評估。如果不認(rèn)為所述響應(yīng)是可接受的，那么可不輸出所述響應(yīng)。因此，可容許語音辨識中的錯誤。由于用戶并沒有尋求響應(yīng)，因此用戶將不知道其中具有錯誤的響應(yīng)未被提供。然而，如果用戶已尋求特定響應(yīng)，那么將出現(xiàn)于響應(yīng)中的錯誤將是不可接受的。此外，使用用以僅在需要時接通的級2辨識器104使用較少功率且可節(jié)省裝置的電池壽命。
[0074]此外，使用說話者特定信息110的特定實施例可提供所定制且較適當(dāng)響應(yīng)，例如廣告。安全特征還可允許自動登錄到應(yīng)用，例如社交應(yīng)用。由于執(zhí)行說話者檢驗，因此還提供針對交易的所添加安全性。另外，在始終接通環(huán)境中提供特定且非一般性信息。
[0075]特定實施例可實施于非暫時性計算機(jī)可讀存儲媒體中以供由指令執(zhí)行系統(tǒng)、設(shè)備、系統(tǒng)或機(jī)器使用或連同指令執(zhí)行系統(tǒng)、設(shè)備、系統(tǒng)或機(jī)器一起使用。計算機(jī)可讀存儲媒體含有用于控制計算機(jī)系統(tǒng)的指令以執(zhí)行特定實施例所描述的方法。在由一個或一個以上計算機(jī)處理器執(zhí)行時，所述指令可操作以執(zhí)行特定實施例中所描述的操作。
[0076]除非上下文另外明確指出，否則如本文中的說明中及所附權(quán)利要求書通篇中所使用，“一(a)”、“一(an)”及“所述(the) ”包含復(fù)數(shù)參考。此外，除非上下文另外明確指出，否則如本文中的說明中及所附權(quán)利要求書通篇中所使用，“在...中”的含義包含“在...中”及“在...上”。
[0077]以上說明圖解說明本發(fā)明的各種實施例連同可如何實施本發(fā)明的方面的實例。以上實例及實施例不應(yīng)被認(rèn)為是唯一的實施例，且經(jīng)呈現(xiàn)以圖解說明如由所附權(quán)利要求書定義的本發(fā)明的靈活性及優(yōu)點。基于以上揭示內(nèi)容及所附權(quán)利要求書，可在不背離如由權(quán)利要求書定義的本發(fā)明的范圍的情況下采取其它布置、實施例、實施方案及等效物。
【權(quán)利要求】
1.一種方法，其包括: 在語音辨識器處接收聲輸入信號；基于所述聲輸入信號而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；由計算裝置基于所述所辨識聲輸入信號及針對所述用戶的所述說話者特定信息而確定一組響應(yīng)；確定是否應(yīng)輸出所述響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
2.根據(jù)權(quán)利要求1所述的方法，其中所述語音辨識器經(jīng)配置而以始終接通模式辨識所述聲輸入信號，且在不接觸計算裝置或說出用以激活所述語音辨識器的“觸發(fā)”短語的情況下輸出所述響應(yīng)。
3.根據(jù)權(quán)利要求1所述的方法，其中在用戶說出用以激活所述語音辨識器的“觸發(fā)”短語之后輸出所述響應(yīng)。
4.根據(jù)權(quán)利要求1所述的方法，其中所述語音辨識器以始終接通模式操作且在接收到觸發(fā)短語后接著識別所述用戶。
5.根據(jù)權(quán)利要求1所述的方法，其中所述說話者特定信息與來自所述用戶的語音的先前語音辨識相關(guān)聯(lián)。
6.根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括: 確定一組類別，其中所述類別是基于所述說話者特定信息而確定；將所述聲輸入信號的部分分類到不同類別中；基于與所述類別相關(guān)聯(lián)的準(zhǔn)則而選擇所述類別；及使用所述類別來確定所述組響應(yīng)。
7.根據(jù)權(quán)利要求6所述的方法，其中使用所述說話者特定信息以基于所述用戶在所述說話者特定信息中的偏好而修改所述組類別中的一類別。
8.根據(jù)權(quán)利要求7所述的方法，其中在所述類別中使用與所述說話者特定信息相關(guān)聯(lián)的一組關(guān)鍵字。
9.根據(jù)權(quán)利要求6所述的方法，其中以始終接通模式執(zhí)行對部分進(jìn)行分類，其中在接收到用以激活所述語音辨識器的觸發(fā)短語之后執(zhí)行識別正在說話的所述用戶。
10.根據(jù)權(quán)利要求6所述的方法，其中直到接收到用以激活所述語音辨識器的觸發(fā)短語才執(zhí)行對部分進(jìn)行分類。
11.根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括訓(xùn)練所述語音辨識器來辨識不同用戶的語音簽名。
12.根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括基于所述響應(yīng)而存儲針對所述用戶的說話者特定信息以供在確定額外響應(yīng)中使用。
13.根據(jù)權(quán)利要求1所述的方法，其中確定所述組響應(yīng)包括: 確定所述說話者特定信息中的用戶偏好；及使用所述用戶偏好及所述所辨識聲輸入信號來執(zhí)行搜索。
14.根據(jù)權(quán)利要求13所述的方法，其進(jìn)一步包括: 確定所述組響應(yīng)；及基于所述用戶偏好而對所述響應(yīng)進(jìn)行排序。
15.根據(jù)權(quán)利要求1所述的方法，其進(jìn)一步包括: 基于準(zhǔn)則及所述說話者特定信息而對所述組響應(yīng)進(jìn)行排序；基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng)；基于所述響應(yīng)的所述排序而確定多個輸出方法中的一輸出方法；及使用所述輸出方法來輸出所述響應(yīng)。
16.—種方法,其包括: 基于使用第一語音辨識算法辨識聲輸入信號及將所述聲輸入信號的部分分類到多個類別中的一類別中而從第一級辨識器接收信號，所述第一級辨識器經(jīng)配置而以始終接通模式辨識所述聲輸入信號；由計算裝置在接收到所述信號后即刻激活第二級辨識器以辨識所述聲輸入信號，所述第二級辨識器經(jīng)配置以使用第二語音辨識算法；基于所述聲輸入信號而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；基于所述說話者特定信息而確定對所述所辨識聲輸入信號的響應(yīng)；基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
17.根據(jù)權(quán)利要求16所述的方法，其中確定所述響應(yīng)包括: 基于所述所辨識聲輸入信號而確定多個響應(yīng)；基于包含所述說話者特定信息的準(zhǔn)則而對所述多個響應(yīng)進(jìn)行排序；及基于所述排序而選擇響應(yīng)。
18.根據(jù)權(quán)利要求16所述的方法，其中所述排序是基于所述說話者特定信息、指派給所述響應(yīng)的相關(guān)性因素、緊迫性因素及重要性因素。
19.根據(jù)權(quán)利要求16所述的方法，其進(jìn)一步包括: 基于所述排序及所述說話者特定信息而確定多個輸出方法中的一輸出方法；及基于所述輸出方法而輸出所述響應(yīng)。
20.根據(jù)權(quán)利要求16所述的方法，其中所述第一級辨識器經(jīng)觸發(fā)以接通且基于所述說話者特定信息而發(fā)送所述信號。
21.—種系統(tǒng),其包括: 第一級辨識器，其經(jīng)配置而以始終接通模式使用第一語音辨識算法來辨識聲輸入信號，所述第一級辨識器經(jīng)配置以: 接收聲輸入信號；基于所述聲輸入信號而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；使用第一語音辨識算法將所述聲輸入信號的部分分類到不同類別中；基于對類別的選擇而確定應(yīng)觸發(fā)第二級辨識器，所述選擇是基于正以所述選定類別分類的經(jīng)分類部分及所述說話者特定信息；及第二級辨識器，其經(jīng)配置以: 從所述第一級辨識器接收用以激活所述第二級辨識器的信號；在接收到所述信號后即刻激活所述第二級辨識器以辨識所述聲輸入信號，所述第二級辨識器經(jīng)配置以使用不同于所述第一語音辨識算法的第二語音辨識算法來辨識所述聲輸入信號；使用所述說話者特定信息來確定對所述所辨識聲輸入信號的響應(yīng)；基于所述響應(yīng)的排序而確定是否應(yīng)輸出所述響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
22.根據(jù)權(quán)利要求21所述的系統(tǒng)，其中所述第二級辨識器基于所述說話者特定信息而確定用以輸出所述響應(yīng)的輸出方法。
23.根據(jù)權(quán)利要求22所述的系統(tǒng)，其中所述第一級辨識器將所述聲輸入信號的部分分類到不同類別中，其中所述不同類別是基于所述說話者特定信息而確定。
24.一種方法，其包括: 接收觸發(fā)短語；基于接收到所述觸發(fā)短語而激活語音辨識器；在所述語音辨識器處接收聲輸入信號；基于所述聲輸入信號或所述觸發(fā)短語而識別正在說話的用戶；確定針對所述用戶先前所存儲的說話者特定信息；由計算裝置基于所述所辨識聲輸入信號及針對所述用戶的所述說話者特定信息而確定一組響應(yīng)；及如果確定應(yīng)輸出所述響應(yīng)，那么輸出所述響應(yīng)。
25.根據(jù)權(quán)利要求24所述的方法，其進(jìn)一步包括在接收到所述觸發(fā)短語之后檢驗誰正在說話以確定正在說話的所述所識別用戶是否仍在說話。
26.根據(jù)權(quán)利要求25所述的方法，其中周期性地執(zhí)行所述檢驗。
27.根據(jù)權(quán)利要求25所述的方法，其中在認(rèn)為需要較高安全性時發(fā)生誰正在說話的第二檢驗。
28.根據(jù)權(quán)利要求27所述的方法，其中由于執(zhí)行了所述第二檢驗，因此在安全情形中不需要手動登錄。
【文檔編號】G10L15/22GK103827963SQ201280047262
【公開日】2014年5月28日申請日期:2012年9月20日優(yōu)先權(quán)日:2011年9月27日
【發(fā)明者】托德·F·莫澤爾申請人:感官公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：托德·F·莫澤爾
技術(shù)所有人：感官公司
我是此專利的發(fā)明人

上一篇：自適應(yīng)語音可理解性處理器的制造方法
上一篇：包括改進(jìn)的連接系統(tǒng)的警報器的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音辨識相關(guān)技術(shù)

語音助理相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用說話者檢驗的背景語音辨識助理的制作方法