用戶專用的自動語音識別的制作方法

文檔序號：2825879閱讀：249來源：國知局

用戶專用的自動語音識別的制作方法
【專利摘要】描述了一種多模式聲音控制的用戶接口。該用戶接口適用于與一個或多個可能的說話者進行語音對話，并且包括廣泛傾聽模式，其不使用空間過濾，從可能的說話者接收語音輸入；和選擇性傾聽模式，其使用空間過濾將語音輸入限制到特定說話者。該用戶接口響應(yīng)于一個或多個切換提示，切換傾聽模式。
【專利說明】用戶專用的自動語音識別

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種用于計算機系統(tǒng)的用戶接口，更確切地，涉及一種使用自動語音識別的用戶專用的、多模式的、聲音控制的接口。

【背景技術(shù)】
[0002]在聲音控制的設(shè)備中，通常使用一鍵通(push-to-talk，PTT)按鈕來觸發(fā)自動語音識別(ASR)。按下PTT按鈕使得該系統(tǒng)對任何說出的詞輸入作出響應(yīng)，而不考慮是誰發(fā)出的語音。在遠距離的通話應(yīng)用例如聲控電視或計算機游戲控制臺中，PTT按鈕可以被激活詞命令所替代。另外，可能會有多個用戶潛在地想要進行聲音控制。
[0003]通常ASR系統(tǒng)配備有用于克服干擾和噪音的信號預處理器。常常使用多個麥克風，特別是對于遠距離通話接口，其中語音增強算法在空間上被操縱指向假定的說話者的方向(波束成形)。因此，來自于其它方向的干擾將被抑制。這對于所期望的說話者而言提高了 ASR性能，但是對于其他人而言降低了 ASR性能。因而，ASR性能依賴于說話者相對于麥克風陣列的空間位置，以及波束成形算法的操縱方向。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的實施例是針對采用至少一個硬件實現(xiàn)的計算機處理器的自動語音識別(ASR)系統(tǒng)的多模式聲音控制的用戶接口，以及使用這一接口相應(yīng)的方法。該用戶接口適用于與一個或多個可能的說話者進行語音對話，并且包括廣泛傾聽模式，其接收可能的說話者的語音輸入而不進行空間過濾，以及選擇性傾聽模式，其使用空間過濾將語音輸入限定為特定說話者。該用戶接口響應(yīng)于一個或多個切換提示切換傾聽模式。
[0005]廣泛傾聽模式可能使用相關(guān)聯(lián)的廣泛模式識別詞匯表，而選擇性傾聽模式使用不同的相關(guān)聯(lián)的選擇性模式識別詞匯表。該切換提示能夠包括來自于語音輸入的一個或多個模式切換詞，在語音對話中的一個或多個對話狀態(tài)，和/或來自于可能說話者的一個或多個視覺提示。選擇性傾聽模式可以使用聲學說話者位置和/或圖像處理以用于空間過濾。
[0006]在選擇性傾聽模式，對于多個被選擇的說話者的每個而言，用戶接口能夠同時并行操作。此外或可替換地，該接口可以被適應(yīng)為在兩個傾聽模式下并行操作，此時接口在廣泛傾聽模式下接收來自房間內(nèi)的任何用戶的語音輸入，與此同時在選擇性傾聽模式下接收僅僅來自于一個被選擇的說話者的語音輸入。
[0007]本發(fā)明的實施例還包括用于自動語音識別(ASR)的設(shè)備，其包括采用至少一個硬件實現(xiàn)的計算機處理器的語音控制的用戶接口。該用戶接口適用于與一個或多個可能的說話者進行語音對話。用戶選擇模塊與用戶接口進行通信，以用于基于可能的說話者的圖像處理使用空間過濾來限制用戶接口，以便僅響應(yīng)來自于一個特定說話者的聲音輸入。
[0008]空間過濾可以進一步基于多個麥克風的選擇性的波束成形。用戶接口可以進一步適用于提供視覺反饋來指示特定說話者的方向和/或特定說話者的身份。圖像處理可以包括執(zhí)行可能說話者的視覺圖像的手勢識別和/或可能說話者的面部的視覺圖像的面部識別。

【專利附圖】

【附圖說明】
[0009]圖1示出了根據(jù)本發(fā)明的實施例的用于使用語音控制的用戶接口的布置。
[0010]圖2示出了根據(jù)本發(fā)明的實施例的用于用戶專用語音控制的用戶接口的狀態(tài)圖。
[0011]圖3示出了使用聲學和內(nèi)容信息來選擇給定說話者作為活躍用戶。
[0012]圖4示出了使用視覺信息來選擇給定說話者作為活躍用戶。
[0013]圖5示出了使用視覺、聲學和內(nèi)容信息的結(jié)合來選擇給定說話者作為活躍用戶。
[0014]圖6示出了具有順序可交替的操作模式的聲音控制接口的順序布置。
[0015]圖7示出了用于具有同步并行操作模式的聲音控制接口的并行布置。

【具體實施方式】
[0016]本發(fā)明的實施例是針對用戶專用ASR，其將語音控制功能限制在一個被選擇的用戶上，而不是恰巧在附近的任意用戶。這可以基于，例如，用戶說調(diào)用用戶限制功能的特定的激活詞。之后，該系統(tǒng)可以仍然專用于所指定的用戶，直至特定對話結(jié)束或某些其它模式切換事件發(fā)生。在運行在用戶專用模式時，該系統(tǒng)不響應(yīng)來自于其它用戶(干擾說話者)的任何說出的輸入。
[0017]更確切地，本發(fā)明的實施例包括用戶專用的、多模式的、語音控制的接口，其使用自動語音識別，具有兩個不同種類的傾聽模式:(I)廣泛傾聽模式，其響應(yīng)于來自于任何方向的任何用戶的語音輸入；和(2)選擇性傾聽模式，其將語音輸入限定到特定位置上的特定說話者。該接口系統(tǒng)可以基于不同的切換提示來切換模式:對話狀態(tài)，某些激活詞，或視覺手勢。不同的傾聽模式也可以使用不同的識別詞匯表，例如，廣泛傾聽模式下的受限的詞匯表和選擇性傾聽模式下的較大的識別詞匯表。為了將語音輸入限制為特定說話者，該系統(tǒng)可以使用聲學說話者位置和/或視頻處理單元來確定說話者位置。
[0018]本發(fā)明的實施例還包括用于自動語音識別(ASR)的布置，其被專用于特定用戶，對其他任何用戶不作出響應(yīng)。使用來自于一個或多個攝像機的圖像通過圖像處理的單元檢測出潛在用戶。圖像處理根據(jù)對一個或多個用戶提示的檢測來確定并選擇專用用戶，例如，手勢識別，面部識別等等?；谠撚脩暨x擇的結(jié)果，聲學空間過濾器的操縱方向能夠被控制，并持續(xù)依賴于正在發(fā)生的視覺信息。用戶反饋(經(jīng)由GUI)可以被給出來以標識方向和/或所選擇的專用用戶的身份，例如，指示系統(tǒng)的空間操縱方向。
[0019]根據(jù)本發(fā)明的實施例，圖1示出了聲音控制的用戶接口 100布置。該聲音控制的用戶接口 100包括至少兩個不同的操作模式。有廣泛傾聽模式，其中聲音控制的用戶接口100廣泛地接收來自于房間101內(nèi)的多個說話者102的任何一個的語音輸入，而不進行任何的空間過濾。在廣泛傾聽模式中，聲音控制的用戶接口 100使用受限的廣泛模式識別詞匯表，其包括選擇性模式激活詞。當聲音控制的用戶接口 100檢測到激活詞，其進入選擇性傾聽模式，該模式使用擴展的選擇性模式的識別詞匯表，使用空間過濾將語音輸入限制為房間101內(nèi)的特定說話者102。例如，被選擇的特定說話者可以使用接著對話過程的選擇性傾聽模式中的聲音控制的用戶接口 100，來控制一個或多個設(shè)備，例如電視機105和/或計算機游戲控制臺106。
[0020]圖2示出了用于操作聲音控制的用戶接口 100的狀態(tài)圖。從圖2的左側(cè)的廣泛傾聽模式開始，最左邊的閉合圓弧示出了只要激活詞未被檢測出來并且特定說話者還沒有被標識，那么聲音控制的用戶接口 100就停留在廣泛傾聽模式中。圖2上部圓弧示出，當聲音控制的用戶接口 100檢測到激活詞已經(jīng)被說出來并且特定說話者被成功地標識時，從廣泛傾聽模式到選擇性傾聽模式的轉(zhuǎn)變就會出現(xiàn)。當在選擇性傾聽模式時，圖2最右側(cè)的閉合圓弧示出了，只要特定說話者位置已知，那么聲音控制的用戶接口 100就停留在選擇性傾聽模式中，直到和說話者的對話過程結(jié)束，或者一些其他事件將模式返回到廣泛傾聽模式，如跨越圖2中的底部圓弧所不。
[0021]在選擇性傾聽模式中執(zhí)行的對特定說話者的空間過濾可以基于內(nèi)容信息與聲學信息的組合，如圖3中所示。當激活詞在廣泛傾聽模式中被發(fā)現(xiàn)時，就會出現(xiàn)內(nèi)容信息。當由接口執(zhí)行聲學說話者定位，以便從房間中的多個麥克風選擇語音輸入，并且對麥克風信號執(zhí)行選擇性的波束成形以便語音輸入定位為特定說話者，此時會出現(xiàn)聲學信息。
[0022]如圖4中所示出的，還可以基于使用帶有空間過濾的圖像處理進入選擇性傾聽模式。一旦激活詞在廣泛傾聽模式中被檢測出來，接口使用來自于攝像機和/或視頻處理引擎的視覺圖像信息來確定看得見多少人，和他們相對于麥克風陣列的位置。該接口可以通過使用圖像處理與手勢識別一起來識別特定手勢，并結(jié)合激活詞來選擇特定說話者。使用圖像處理的實施例可以在即使沒有命令被說出的情況下跟蹤特定說話者的位置。并且如圖5中所示出的，一些實施例可以使用聲學、圖像和內(nèi)容信息的組合來執(zhí)行空間過濾。
[0023]圖6示出了在多模式聲音控制的用戶接口中的功能性框圖，其可以在傾聽模式之間順序切換。在這一布置中，響應(yīng)于在選擇性傾聽模式中特定說話者完成了與接口的語音對話，可以使用廣泛傾聽模式，從而接口可以在傾聽模式之間順序轉(zhuǎn)換。其結(jié)果是，一次只有一個用戶能夠操作該接口。在廣泛傾聽模式中，接口中的控制模塊使用模式選擇開關(guān)來選擇房間內(nèi)的單個麥克風來接收來自于房間的任何人的語音輸入。通過應(yīng)用降噪(NR)，可以使用包括了選擇性模式激活詞的受限的廣泛模式識別詞匯表(識別模型的有限集合)來執(zhí)行自動語音識別(ASR)。當ASR檢測出激活詞時，從ASR將反饋信號提供給控制模塊。然后控制模塊使用視覺信息和對話狀態(tài)信息通過時間延遲估計(TDE)和用戶特定波束成形(BF1, BF2等等)對麥克風陣列輸入進行空間過濾，來保持接口專注于所選擇的特定說話者，則該說話者被確定只要用戶對話持續(xù)，則已經(jīng)激活了選擇性傾聽模式。
[0024]圖7示出了多模式聲音控制的用戶接口下的功能性框圖，其在不同傾聽模式下操作的同時能夠并行處理用戶語音輸入。因而，該接口在廣泛傾聽模式下操作以便使用受限的廣泛模式識別詞匯表廣泛傾聽模式接收來自于房間內(nèi)的任何用戶的語音輸入，與此同時，還可以在用于一個或多個特定說話者的選擇性傾聽模式下操作以便使用擴展的選擇性傾聽模式識別詞匯表來接收語音輸入。即使當一個使用者在選擇的模式中已操作該系統(tǒng)，該接口對于其他使用者在廣泛和/或選擇性傾聽模式中是開放的。因而，另一個使用者可以開啟第二個選擇性模式實例，舉例來講，來啟動單獨的對話或參加當前已經(jīng)存在的對話(例如，用于計算機游戲)，而多個方向的感測波束可以朝向每一個說話者。這能夠支持與多個說話者的對話，例如在問答比賽-游戲應(yīng)用中。
[0025]依靠傾聽模式，可以在ASR引擎中使用不同的聲學模型，或者甚至是采用不同的ASR引擎。不管怎樣，當切換傾聽模式時，需要切換ASR語法。對于多個用戶M中的一些而言，接口可以使用N = M波束，N < M波束或N= I波束。
[0026]當設(shè)備在選擇性傾聽模式并且只傾聽特定說話者時，對于接口而言，與特定說話者通信是有用的。有一些不同的方法可以實現(xiàn)這一點。例如，視覺顯示可以示出具有用戶高亮顯示的房間場景的示意圖，以標識所選擇的特定說話者的位置?；蛘吒唵蔚?，光條顯示(light bar display)被亮度編碼以便指示選擇的特定說話者的空間方向?；蛘咛摂M人可以被用于傳送傾聽模式反饋，作為與用戶對話的一部分。
[0027]舉例來講，前述的有用的應(yīng)用可以是，在控制電視或游戲控制臺的特定背景中，基于帶有廣泛和選擇性傾聽模式的用戶專用ASR，其中潛在用戶和他們的空間位置由一個或多個攝像機的單元檢測。初始時，接口系統(tǒng)處于廣泛傾聽模式中，潛在用戶信息被提供給空間聲音活動檢測過程，其檢查活躍聲音的說話者位置。當廣泛傾聽模式檢測到了模式切換提示，例如，激活詞，此時空間聲音活動檢測過程提供關(guān)于是誰提供了那個切換提示的信息。之后，接口系統(tǒng)通過空間過濾(波束成形和/或盲源分離)切換到選擇性傾聽模式，并且將ASR專用/限定到那個用戶。用戶反饋也可以通過GUI被提供到傾聽方向，從那時開始，由一個或多個攝像機跟隨專用用戶的空間位置。依靠對話狀態(tài)或另一個切換提示，模式轉(zhuǎn)移回到廣泛傾聽模式。
[0028]本發(fā)明的實施例可以全部的或部分的由任何常規(guī)計算機程序語言例如VHDL、SystemC、Verilog、ASM等來實現(xiàn)。本發(fā)明的其它的實施例能夠作為預編程硬件元件，其它相關(guān)的元件，或者硬件和軟件部件的組合的形式實現(xiàn)。
[0029]實施例的全部或部分可以作為供計算機系統(tǒng)使用的計算機程序產(chǎn)品來實現(xiàn)。這一實現(xiàn)可以包括一系列計算機指令，該指令要么被固定在有形介質(zhì)上，例如計算機可讀介質(zhì)(例如，磁盤、⑶-ROM、ROM、或固定盤)，要么經(jīng)由調(diào)制解調(diào)器或其它接口設(shè)備(例如通過介質(zhì)連接到網(wǎng)絡(luò)的通信適配器)被發(fā)送到計算機系統(tǒng)。該介質(zhì)可以是有形介質(zhì)(例如，光的或模擬通信線)或者使用無線技術(shù)(例如，微波，紅外的或其它傳輸技術(shù))實現(xiàn)的介質(zhì)。這一系列計算機指令體現(xiàn)本文先前所描述的與系統(tǒng)有關(guān)的功能的全部或部分。本領(lǐng)域技術(shù)人員應(yīng)當理解，這些計算機指令可以被寫成多種編程語言以便能夠與許多計算機架構(gòu)或操作系統(tǒng)配合使用。進一步地，這些指令可以被存儲于任何存儲器設(shè)備中，例如半導體，磁的，光的或其它存儲器設(shè)備，還可以使用任何通信技術(shù)，例如光的，紅外的，微波，或其它傳輸技術(shù)被傳輸。可以預見，這一計算機程序產(chǎn)品可以作為帶有附帶打印的或電子文檔(例如，套裝軟件)、預裝有計算機系統(tǒng)(例如在系統(tǒng)ROM或固定盤)的可移動介質(zhì)而分發(fā)，或者從服務(wù)器或電子公告板通過網(wǎng)絡(luò)(例如，因特網(wǎng)或萬維網(wǎng))分發(fā)。當然，本發(fā)明的一些實施例可以作為軟件(例如，計算機程序產(chǎn)品)和硬件兩者的組合被實現(xiàn)。本發(fā)明的其它實施例仍然作為全部為硬件，或者全部為軟件(例如，計算機程序產(chǎn)品)而實現(xiàn)。
[0030]盡管本發(fā)明的各種示例性實施例已經(jīng)被公開，對于本領(lǐng)域技術(shù)人員而言顯而易見的是:可以做出將實現(xiàn)本發(fā)明的一些優(yōu)點的各種改變和修改，而不偏離本發(fā)明真實范圍。
【權(quán)利要求】
1.一種用于自動語音識別(ASR)的設(shè)備，包括: 采用至少一個硬件實現(xiàn)的計算機處理器的多模式聲音控制的用戶接口，其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話，并且包括: a.廣泛傾聽模式，其不使用空間過濾，從所述可能的說話者接收語音輸入；和 b.選擇性傾聽模式，其使用空間過濾，將語音輸入限制到特定說話者；其中所述用戶接口響應(yīng)于一個或多個切換提示，切換傾聽模式。
2.如權(quán)利要求1所述的設(shè)備，其中所述廣泛傾聽模式使用相關(guān)聯(lián)的廣泛模式識別詞匯表，所述選擇性傾聽模式使用不同的、相關(guān)聯(lián)的選擇性模式識別詞匯表。
3.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括來自于所述語音輸入的一個或多個模式切換詞。
4.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括在所述語音對話中的一個或多個對話狀態(tài)。
5.如權(quán)利要求1所述的設(shè)備，其中所述切換提示包括來自于所述可能的說話者的一個或多個視覺提示。
6.如權(quán)利要求1所述的設(shè)備，其中所述選擇性傾聽模式使用聲學說話者定位以用于所述空間過濾。
7.如權(quán)利要求1所述的設(shè)備，其中所述選擇性傾聽模式使用圖像處理以用于所述空間過濾。
8.如權(quán)利要求1所述的設(shè)備，其中在選擇性傾聽模式中，對于多個被選擇的說話者中的每一個而言，所述用戶接口同時并行操作。
9.如權(quán)利要求1所述的設(shè)備，其中所述接口適用于在這兩個傾聽模式中并行操作，由此，所述接口在所述廣泛傾聽模式中接收來自于房間內(nèi)任何用戶的語音輸入，與此同時在所述選擇性傾聽模式中，接收僅來自于一個被選擇說話者的語音輸入。
10.—種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品，所述產(chǎn)品包括: 用于經(jīng)由多模式聲音控制的用戶接口與一個或多個可能的說話者進行語音對話的程序代碼，所述用戶接口適用于: a.在廣泛傾聽模式中，不使用空間過濾，從所述可能的說話者接收語音輸入；以及 b.在選擇性傾聽模式中，使用空間過濾，將語音輸入限制到特定說話者；其中所述用戶接口響應(yīng)于一個或多個切換提示，切換傾聽模式。
11.一種用于自動語音識別(ASR)的設(shè)備，包括: 采用至少一個硬件實現(xiàn)的計算機處理器的聲音控制的用戶接口，其中所述用戶接口適用于與一個或多個可能的說話者進行語音對話；以及與所述用戶接口進行通信的用戶選擇模塊，所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理，使用空間過濾來限制所述用戶接口，以便僅響應(yīng)來自于一個特定說話者的語音輸入。
12.如權(quán)利要求11所述的設(shè)備，其中所述空間過濾進一步基于多個麥克風的選擇性的波束成形。
13.如權(quán)利要求11所述的設(shè)備，其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的方向。
14.如權(quán)利要求11所述的設(shè)備，其中所述用戶接口進一步適用于提供視覺反饋以指示所述特定說話者的身份。
15.如權(quán)利要求11所述的設(shè)備，其中所述圖像處理包括執(zhí)行所述可能的說話者的視覺圖像的手勢識別。
16.如權(quán)利要求11所述的設(shè)備，其中所述圖像處理包括執(zhí)行所述可能的說話者的面部的視覺圖像的面部識別。
17.—種在非暫時性計算機可讀介質(zhì)中編碼的、用于操作自動語音識別(ASR)系統(tǒng)的計算機程序產(chǎn)品，所述產(chǎn)品包括: 用于聲音控制的用戶接口的程序代碼，所述用戶接口適用于與一個或多個可能的說話者進行語音對話；以及用于與所述用戶接口進行通信的用戶選擇模塊的程序代碼，所述用戶選擇模塊用于基于對所述可能的說話者的圖像處理，使用空間過濾來限制所述用戶接口，以便僅響應(yīng)來自于一個特定說話者的語音輸入。
【文檔編號】G10L15/22GK104488025SQ201280071506
【公開日】2015年4月1日申請日期:2012年3月16日優(yōu)先權(quán)日:2012年3月16日
【發(fā)明者】T·沃爾夫, M·布克, T·豪利克, 蘇哈迪申請人:紐昂斯通訊公司

完整全部詳細技術(shù)資料下載