分布式語音識別方法

文檔序號：2834551閱讀：220來源：國知局

專利名稱：分布式語音識別方法
技術領域：
本發(fā)明涉及通過操作語音識別手段而在用戶終端上實現(xiàn)的聲音控制應用。所考慮的用戶終端是所有具有感覺聲音手段的裝置，通常為一個麥克風，能夠處理這種聲音并且通過傳送通道與一個或多個服務器相連。這些可以是，例如，用于家庭辦公應用，汽車(轎車收音機或其他車輛功能控制)，PCs或電話中的可控或遙控手段。所涉及的應用范圍基本上是用戶利用聲音命令控制一種活動，索要信息或試圖進行遠端互動。聲音命令的使用不排除在用戶終端之內(nèi)其他活動手段的存在(多模系統(tǒng))，并且信息的返回，系統(tǒng)狀態(tài)或應答也可以在視覺，聽覺，嗅覺或任何其他人類可接受的組合手段中實現(xiàn)。
一般來說，實現(xiàn)語音識別的手段包括用于獲得聽覺信號的手段，選取建模參數(shù)用于進行聲學分析的手段以及，最后，識別手段，其將這些選取的建模參數(shù)與模型相比較并且建議模型中的存儲手段盡可能與信號相關聯(lián)。可以任選地使用聲音活性檢測(VAD)手段。這些能提供與要被識別的語音相對應的序列檢測。它們在沒有聲音活性的時期之外從在輸入端的聽覺信號選取語音片段，其將隨后通過建模參數(shù)選取手段被處理。
更具體的是，本發(fā)明涉及三種語音分布手段裝載式，集中式和分布式之間的相互作用。
背景技術：
在一個裝載式語音識別模式中，用于實現(xiàn)語音識別的整個手段位于用戶終端之內(nèi)。這種識別模式的局限性明顯與裝載處理機的功率和用于存儲語音識別模型的可用內(nèi)存相關。在另一方面，這種模式允許獨立操作，沒有與服務器相連，并且在與減少處理容量成本相關的方面取得可靠的進展。
在一個集中式語音識別模式中，整個語音識別過程和識別模型都位于并且實現(xiàn)于一臺計算機上，通常將其稱為聲音服務器，可被用戶終端通達。終端簡單地將語音信號傳送至服務器。該手段常用于電信操作者提供的應用中。這樣，基礎終端能夠實現(xiàn)復雜的聲音激活的服務。許多類型的語音識別(加強的，可變的，巨大詞匯，活動詞匯，連續(xù)語音，一人或多人發(fā)言，多種語言等等)可以在一個語音識別服務器中實現(xiàn)。事實上，集中式計算機系統(tǒng)具有巨大而提高了的模型存儲容量，工作內(nèi)存空間和計算能力。
在一個分布式語音識別模式中，聲學分析手段裝載在用戶終端之內(nèi)，識別手段位于服務器。在這種分布式模式中，與建模參數(shù)選取手段相關聯(lián)的噪音過濾功能可以在音源有利的實現(xiàn)。只有被傳送的建模參數(shù)允許在傳送率中實質的增加，其尤其有利于多模應用。此外，要識別的信號能得到更好的保護以防止傳送錯誤。任選地，聲音活性檢測(VAD)也可以是裝載式的以便在語音順序排列期間只傳送建模參數(shù)，其有利于顯著減少有效傳送的持續(xù)時間。分布式語音識別還允許用于語音和數(shù)據(jù)的信號，顯著文本，圖像和影像被攜帶在相同的傳送通道上。傳送網(wǎng)絡可以是，例如，IP，GPRS，WLAN或者以太網(wǎng)絡類型。這種模式還可以讓用戶受惠于防止傳送給服務器的打包信號丟失的保護和更正程序。然而，其要求具有嚴格傳送條件的可利用的數(shù)據(jù)傳送通道。
本發(fā)明提出了一種語音識別系統(tǒng)，其包括用戶終端和服務器，結合了各種由裝載式，集中式和分布式語音識別模式所提供的功能，因而為采用聲音激活控制的多模服務的用戶提供了在效率，舒適度和人機互動方面最佳的系統(tǒng)。
專利US6487534B1公開了一種分布式語音識別系統(tǒng)，其包括用戶終端，該終端具有用于檢測聲音活動的手段，用于選取建模參數(shù)的手段和識別手段。該系統(tǒng)另外還包括一個也具有識別手段的服務器。所公開的方法包括在用戶終端實現(xiàn)第一識別階段。然后，依賴于這個第一階段的結果，在終端計算出的建模參數(shù)被送至服務器，以便這次通過服務器中的識別手段確定在后者模型中存儲的形式并且與傳送來的信號相關聯(lián)。
在所引用的文件中公開的系統(tǒng)的目標是減少服務器的負荷。然而，其結果是識別最好在用于終端中第一階段所要求的時間之后實現(xiàn)。當?shù)诙A段必須發(fā)生時，整個識別時間等于第一階段識別時間加上第二階段的時間。

發(fā)明內(nèi)容
本發(fā)明的目標之一是一種能優(yōu)化用于語音識別所要求的，以及進而用于實現(xiàn)用戶所要求的活動的時間。
根據(jù)第一方面，本發(fā)明提出了一種分布式語音識別方法，包括至少一個用戶終端和至少一個服務器，其能通過電信網(wǎng)絡彼此相聯(lián)系，根據(jù)該方法，在用戶終端，至少執(zhí)行以下步驟—獲取要識別的聽覺信號；以及—計算用于要識別的聽覺信號的建模參數(shù)；以及—力圖將一種存儲手段與建模參數(shù)相關聯(lián)；以及—獨立于力圖關聯(lián)存儲手段的步驟之外，傳送一個指示要識別的聽覺信號的信號至服務器；以及，在服務器，至少執(zhí)行以下步驟—接收由用戶終端傳送來的信號；—力圖將一種存儲手段與接收的信號相關聯(lián)。
根據(jù)本發(fā)明的一種方法允許避免在終端的處理時間和在服務器的處理時間的累積，這樣就減少了對用戶要求應答的時間。
尤其是在被識別的信號特性不確定時，為了能夠盡可能快地確定要實現(xiàn)的應答，它還允許分別充分發(fā)揮在終端和在服務器可利用的識別手段的特性。
在優(yōu)選實施例中，通過用戶終端傳送至服務器的信號是從至少要識別的聽覺信號和指示建模參數(shù)的信號中選擇的。然后，如果所接收的信號是聽覺類型的，服務器計算用于接收聽覺信號的建模參數(shù)并力圖將一種存儲形式與所接收聽覺信號的建模參數(shù)相關聯(lián)，如果所接收的信號隱含建模參數(shù)，服務器力圖將一種存儲形式與所述建模參數(shù)相關聯(lián)。
傳送信號的選擇——聽覺信號(壓縮的或其他)或者通過用于計算終端的建模參數(shù)的手段所分送的信號——可以通過應用類型進行確定，依據(jù)網(wǎng)絡狀態(tài)，或在終端和服務器各自的控制手段之間伴隨協(xié)調(diào)活動。
有利的是，為了通過從原始信號去除沒有聲音活動的時期而產(chǎn)生要識別的聽覺信號，在終端要識別信號的獲取包括施加至原始聽覺信號的聲音活性檢測。被傳送的信號因而將被從這種排除了沒有聲音活動時期的聽覺信號和指示建模參數(shù)的信號之間選擇。
在根據(jù)本發(fā)明的方法的一個實施例中，被傳送的信號從至少原始聽覺信號，在聲音檢測之后排除了沒有聲音活動時期的代表原始信號的聽覺信號以及隱含建模參數(shù)的信號中選擇。
有利的是，如果接收的信號是排除了沒有聲音活動時期的聽覺信號，服務器計算用于接收信號的建模參數(shù)并且力圖將一種存儲形式與接收的聽覺信號建模參數(shù)相關聯(lián)。當接收的信號是聽覺類型信號，但是在其上沒有進行聲音活性檢測，服務器執(zhí)行一個施加至接收的聽覺信號的聲音活性檢測從而通過從原始信號中去除沒有聲音活動時期而產(chǎn)生一個要識別的聽覺信號。然后，它計算用于要識別的聽覺信號的建模參數(shù)。最后，它力圖將一種存儲形式與建模參數(shù)關聯(lián)起來。
有利的是，當這種關聯(lián)形式存在時，在終端確定的相關聯(lián)的存儲形式被選擇。所確定的關聯(lián)存儲形式首先被選擇?；蛘咴俅危x擇根據(jù)限定的標準(例如，真實匹配的可能性)判斷出的最好的關聯(lián)存儲形式。
根據(jù)第二方面，本發(fā)明提出一種用于實現(xiàn)上述分布式語音識別方法的用戶終端。
根據(jù)第三方面，本發(fā)明提出一種用于實現(xiàn)上述分布式語音識別方法的服務器。
在一個優(yōu)選實施例中，至少一些用于在終端實現(xiàn)識別過程的手段(參數(shù)選取手段或識別手段)可以通過電信網(wǎng)絡下載。它們可以是，例如，通過服務器下載。

本發(fā)明的其它優(yōu)點和特點將通過以下描述變得更為清楚。以下說明僅僅是示例性的并且必須結合相應的附圖，該單一附圖是顯示根據(jù)本發(fā)明的用戶終端和服務器一個例子的框圖。
圖1是顯示根據(jù)本發(fā)明的用戶終端和服務器一個例子的框圖。
具體實施例方式
在單一附圖中所顯示的系統(tǒng)包括服務器1和用戶終端2，其通過具有用于傳送聲音信號的通道和用于傳送數(shù)字信號通道的網(wǎng)絡(未示出)彼此相連。
終端2包括麥克風4，其從用戶收集以聽覺信號存在的要識別的語音。終端2還包括組件5，6，7。聲音活性檢測組件VAD5提供對應于語音的順序的檢測，其被要求去識別。該組件5是設計用于快速檢測命令單詞的例子。組件6以公知手段進行聲音分析它計算建模參數(shù)，同時提供一個聲音過濾功能。
組件7運行已知類型的識別算法，例如基于帶有減少詞匯量的隱藏的Markov模式。該識別工具7可以以單聲道模式操作并且要求針對用戶聲音的起始學習階段。
終端包括一個設計來從在麥克風4輸出端的聽覺信號，代表通過聲音活性檢測手段5獲取的語音片段的信號和指示建模參數(shù)6的信號之間選擇一個聽覺信號的控制器8。
終端另外還包括一個用于通過網(wǎng)絡傳送由控制器8所選擇的信號至服務器的界面9。
服務器1包括用于接收選址至其上的信號的網(wǎng)絡界面10，和一個控制器11，其能分析所接收的信號并且隨后有選擇的將信號送至組件12，13，14之中的一個服務器處理組件。組件12是一個聲音活性檢測子，以與組件5相似的手段檢測對應于語音的片段。然而，它可以不同于組件5，并且，例如，被設計成快速檢測整個短語。它的應答時間因而可以不同于組件5。在本實施例中，它的應答時間將更慢。組件13提供了與終端中組件6相似的建模參數(shù)計算手段。然而，計算模型可以是不同的。組件14實現(xiàn)已知類型的識別算法，例如基于具有任何給定詞匯量的隱藏的Markov模型，例如大于100000單詞。這種識別工具14將輸入端的參數(shù)與代表單詞或短語的語音模型相比較，并且在考慮描述預定單詞鏈的語法模型，指示單詞發(fā)音的詞匯模型和代表發(fā)出聲音的聲學模型的情況下確定最佳關聯(lián)形式。這些模型是用于例如多聲道，能夠脫離說話者可靠識別語音。
控制器11這樣控制VAD組件12，參數(shù)計算組件13和識別工具14a/當通過網(wǎng)絡界面10接收的信號是聽覺類型并且不隱含在聲音活性檢測之后所獲得的語音片段時，聲音活性檢測組件12被作為輸入信號選址至它們的接收信號激活，然后通過組件12選取的語音片段作為輸入?yún)?shù)被分址至建模參數(shù)計算組件13，然后被該組件13選取的參數(shù)作為輸入?yún)?shù)被分址至識別工具14。
b/當通過接收界面10接收的信號隱含聲音活性檢測之后的語音片段時，建模參數(shù)計算組件13通過作為輸入信號分址至其上的接收信號而被激活，然后通過該組件13選取的參數(shù)作為輸入?yún)?shù)被分址至識別工具14。
c/當通過接收界面10接收的信號隱含建模參數(shù)時，所述參數(shù)作為輸入?yún)?shù)被分址至識別工具14。
現(xiàn)在所考慮的一種應用是，在其中用戶聲稱“叫安東尼”，其中“安東尼”出現(xiàn)在本地記錄簿中。由終端的麥克風4獲得的對應聽覺信號通過VAD組件5處理，其從中選取語音片段隨后分址至計算建模參數(shù)的組件6。這些參數(shù)隨后分址至識別工具7從而將它們與取自本地記錄簿的形式相關聯(lián)。平行的，控制器8從原始聽覺信號，在聲音活性檢測之后指示從原始聽覺信號中選取的語音片段的聽覺信號以及隱含建模參數(shù)的信號之間選擇一個要識別的信號。所選擇的信號通過傳送界面9被傳送至服務器。
在所考慮的實施例中，通過終端控制器8所選擇的信號是原始聽覺信號，它一旦被麥克風獲得就被送至服務器。
服務器接收由終端傳送的要識別的信號并且以如上所述手段處理它。
這樣，識別過程在兩端被實現(xiàn)。在時間T1，終端確定一個相關聯(lián)形式F1；在時間T2，服務器確定另一個不同于F1的相關聯(lián)形式F2。這兩個形式之一根據(jù)選擇標準被保留。選擇標準可以是，例如，如下一旦被發(fā)現(xiàn)就最快被選擇，沒有等待其他形式確定的形式。在終端的局部應用過程隨后進入下一個應用階段。
然后，用戶聲稱“檢索來自Josiane的信息”。
終端的應答不一致而在時間T1’之后導致拒絕。識別在服務器平行進行并且在時間T2’之后結束，確定了關聯(lián)形式，其將允許用戶所要求的信息被運行。
這樣，根據(jù)本發(fā)明的識別方法優(yōu)點在于結合了終端和服務器的識別系統(tǒng)。短詞可以很快被終端識別工具7確定而更加復雜的短語很快被服務器的識別工具14識別。更好應用了各自VADs的特性，更加優(yōu)化了處理時間，終端的VAD5是設計來快速檢測命令單詞的例子而服務器的VAD12被設計來快速檢測短語。
終端控制器8確定要被傳送給服務器的信號，例如作為控制標準的功能。這些標準例如可以與所考慮的應用問題相關聯(lián)，或者與在終端和在服務器的各種處理手段(各自的控制手段可以協(xié)同)的負荷量相關聯(lián)，或者又與可得到的聲音傳送通道或數(shù)據(jù)傳送通道的量相關聯(lián)。
例如，對于一些終端，所傳送的信號將系統(tǒng)成為一個隱含建模參數(shù)的信號。對于其它終端，所傳送的信號將取決于過程中的應用。
在本發(fā)明的一個實施例中，在可獲得的數(shù)據(jù)通道有問題或者所考慮的終端計算組件6有問題的情況下，控制器8被設計成傳送聽覺信號(原始的或VAD之后的)。該聽覺信號可以通過可獲得的聲音信號傳送通道被傳送。
確定最終保留形式的手段在連續(xù)應用中被利用，在通過服務器的識別組件所提供的相關形式和終端所提供的相關形式之間，可以基于各種能從一個終端變化至另一的標準而實現(xiàn)，但是也可以是從一個應用變化至另一個或者從一個給定的情況變化至另一個。
這些標準可以是，例如，優(yōu)先給出在終端實現(xiàn)的識別，或者具有最高匹配可能性的相關聯(lián)形式，又或者是最快確定的形式。這些選擇標準可以被整合，例如，在終端或服務器的控制器8，11之中。
根據(jù)本發(fā)明的服務器還能夠通過既沒有選取建模參數(shù)的手段也沒有識別手段(或者其選取和識別手段未被激活)，但是可能具有VAD的終端實現(xiàn)語音識別。
在一個實施例中，終端2的識別工具7是一種下載的可執(zhí)行程序，例如，從服務器通過傳統(tǒng)數(shù)據(jù)交換手段。
有利的是，對于終端2的給定應用，終端中的識別模型可以在連接至網(wǎng)絡的專用通話期間被下載或更新。
其它用于語音識別的軟件資源也可以從服務器1下載，例如用于建模參數(shù)計算的組件6或者聲音活性檢測器5。
可以描述的其它例子，例如，與汽車相關的應用，家務應用或多媒體應用。
如上示范性實施例所述，根據(jù)本發(fā)明的系統(tǒng)允許利用用于語音識別過程的各種資源并且實現(xiàn)在終端(例如通過下載)和在服務器的處理時間和結果的優(yōu)化。
權利要求
1.一種分布式語音識別方法，包括至少一個用戶終端和至少一個服務器，其能通過電信網(wǎng)絡彼此相聯(lián)系，根據(jù)該方法，在用戶終端，至少執(zhí)行以下步驟—獲取要識別的聽覺信號；—計算用于要識別的聽覺信號的建模參數(shù)；以及—力圖將一種存儲手段與建模參數(shù)相關聯(lián)；以及—獨立于力圖關聯(lián)存儲手段的步驟之外，傳送一個隱含要識別的聽覺信號的信號至服務器；以及，根據(jù)該方法，在服務器，至少執(zhí)行以下步驟—接收由用戶終端傳送來的信號；—力圖將一種存儲手段與接收的信號相關聯(lián)。
2.權利要求1所述的分布式語音識別方法，根據(jù)該方法，由用戶終端傳送至服務器的信號從至少要識別的聽覺信號和隱含建模參數(shù)的信號中選擇；根據(jù)該方法，如果接收的信號是聽覺類型，服務器計算用于接收聽覺信號的建模參數(shù)并且力圖將一種存儲形式與所接收的聽覺信號的建模參數(shù)相關聯(lián)；根據(jù)該方法，如果受接收的信號隱含建模參數(shù)，服務器力圖將一種存儲形式與所述建模參數(shù)相關聯(lián)。
3.權利要求1或2所述的方法，其特征在于，在終端要識別信號的獲得包括一個聲音活性檢測以便以從沒有聲音活動時期之外的原始聽覺信號中所選取的語音片段的形式產(chǎn)生要識別的聽覺信號。
4.如權利要求3所述的方法，其特征在于，傳送的信號是從至少原始聽覺信號，在聲音檢測之后選取的語音片段形式的要識別的聽覺信號以及指示建模參數(shù)的信號之間選擇的。
5.權利要求2到4任意一項所述的方法，根據(jù)該方法，當接收的信號是聽覺類型時—如果接收的聽覺信號是以聲音檢測之后所選取的語音片段形式存在，服務器計算用于接收信號的建模參數(shù)并且力圖將一種存儲形式與接收的聽覺信號的建模參數(shù)相關聯(lián)；—否則，服務器執(zhí)行一個施加至所接收的聽覺信號的聲音活性檢測以便以從沒有聲音活動時期之外的原始聽覺信號中所選取的語音片段的形式產(chǎn)生要識別的聽覺信號，然后計算用于聽覺信號的建模參數(shù)并且力圖將一種存儲形式與建模參數(shù)相關聯(lián)。
6.前述任一權利要求的方法，其特征在于，在終端被確定的相關聯(lián)的存儲形式被選擇，當這種關聯(lián)形式存在時。
7.權利要求1至5任意一項所述的方法，其特征在于，最快確定的相關聯(lián)的存儲形式被選擇。
8.權利要求1-5任意一項所述的方法，其特征在于，根據(jù)限定的標準判斷出的最好相關聯(lián)存儲形式被選擇。
9.一種用于實現(xiàn)如權利要求1-8中一個權利要求所述分布式語音識別方法的用戶終端，包括—用于獲得要識別的聽覺信號的手段；—用于計算針對聽覺信號的建模參數(shù)的手段；以及一—用于從要識別的聽覺信號和隱含已處理的建模參數(shù)的信號之間選擇要傳送至服務器的信號的控制手段；—用于將至少一種存儲形式與計算手段所計算的建模參數(shù)相關聯(lián)的識別手段。
10.如權利要求9所述的用戶終端，其特征在于，用于獲得要識別的聽覺信號的手段包括用于檢測聲音活性以便以從沒有聲音活動時期之外的原始聽覺信號中所選取的語音片段的形式產(chǎn)生要識別的聽覺信號的手段。
11.如權利要求10所述的用戶終端，其特征在于，控制手段被設計成用來從原始聽覺信號，在聲音檢測之后選取的語音片段形式的要識別的聽覺信號以及隱含已處理的建模參數(shù)的信號之間選擇選擇至少一種要傳送至服務器的信號。
12.如權利要求9至11任意一項所述的用戶終端，其特征在于，參數(shù)計算手段和識別手段的至少一部分是從服務器下載的。
13.如權利要求9至12任意一項所述的用戶終端，包括用于確定在終端和服務器各自確定的存儲形式之間所要選擇的存儲形式的手段。
14.一種實現(xiàn)如權利要求1至8之一所述分布式語音識別方法的服務器，包括—用于接收來自用戶終端并在所述終端被選擇的信號的手段；以及—用于將至少一種存儲形式與輸入端的建模參數(shù)相關聯(lián)的識別手段。
15.如權利要求14所述服務器，還包括—用于計算輸入信號的建模參數(shù)的手段；—用于控制計算手段和識別手段的控制手段以便·當通過接受手段接收的信號是聽覺類型時，通過將所選擇的信號作為輸入信號分址至計算手段而激活參數(shù)計算手段，并且將計算手段所計算的參數(shù)作為輸入?yún)?shù)分址至識別手段，并且·當通過接受手段接收的所選擇的信號隱含建模參數(shù)時，將所述隱含的參數(shù)作為輸入?yún)?shù)分址至識別手段。
16.如權利要求15所述的服務器，還包括用于檢測活性的手段，以便以從沒有聲音活動時期之外的原始聽覺信號中所選取的語音片段的形式產(chǎn)生要識別的聽覺信號，并且其特征在于，的控制手段被設計成在接收信號是聽覺類型時用來控制參數(shù)計算手段和識別手段以便·如果接收的聽覺類型信號是以聲音檢測之后語音片段的形式存在，通過將所接收的信號作為輸入信號分址至計算手段而激活參數(shù)計算手段，并且將計算手段所計算的參數(shù)作為輸入?yún)?shù)分址至識別手段；·否則，通過將所接收的信號作為輸入信號分址至服務器聲音活性檢測手段而激活它，然后將聲音活性檢測手段所選取的信號作為輸入?yún)?shù)分址至參數(shù)計算手段，然后將參數(shù)計算手段所計算的參數(shù)作為輸入?yún)?shù)分址至識別手段。
17.如權利要求14至16任意一項所述的服務器，包括用于通過終端上的電信網(wǎng)絡下載聲音識別軟件資源的手段。
18.如權利要求17所述的服務器，其特征在于，所述資源包括VAD組件，用于計算針對聽覺信號的建模參數(shù)的組件和用于將至少一種存儲形式與建模參數(shù)相關聯(lián)的識別組件中的至少一種。
19.如權利要求14至18任意一項所述服務器，包括用于確定在終端和服務器各自確定的存儲形式之間所要選擇的存儲形式的手段。
全文摘要
本發(fā)明涉及一種分布式語音識別方法，其包括能通過電信網(wǎng)絡彼此聯(lián)系的至少一個用戶終端和至少一個服務器。本發(fā)明的方法包括以下步驟在用戶終端，力圖將一種存儲手段與要被識別的信號相關聯(lián)，以及獨立于所述步驟之外，傳送一個信號至服務器，指示要被識別的信號；并且，在服務器，力圖將存儲手段與所接收的信號相關聯(lián)。
文檔編號G10L15/32GK1764946SQ200480008026
公開日2006年4月26日申請日期2004年3月8日優(yōu)先權日2003年3月25日
發(fā)明者讓·蒙內(nèi), 讓-皮埃爾·珀蒂, 帕特里克·布里薩爾申請人:法國電信

完整全部詳細技術資料下載