專利名稱:從連續(xù)語音中識別講話聲音的系統(tǒng)及其應(yīng)用方法
技術(shù)領(lǐng)域:
本發(fā)明與如下發(fā)明有關(guān),它們已轉(zhuǎn)讓給本發(fā)明的同一受讓人(1)“Neural Network and Method of Using Same(神經(jīng)網(wǎng)絡(luò)及其應(yīng)用方法)”,序列號為08/076601,申請日為1993年6月14日。
(2)“Speech-Recognition System Utilizing Neural Networks andMethod of Using Same(利用神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)及其應(yīng)用方法)”序列號為,申請日為年月日。
上述的有關(guān)發(fā)明的主題事物引用在這里作為參考。
本發(fā)明涉及語音識別系統(tǒng),特別涉及能識別連續(xù)語音的語音識別系統(tǒng)。
多年來,科學(xué)家們業(yè)已嘗試尋找一種手段來簡化人機之間的接口。對于實現(xiàn)人機接口,當(dāng)前最普遍應(yīng)用的工具是輸入裝置例如鍵盤、鼠標(biāo)、觸模屏和筆。然而,一種較簡單和較自然的人機接口也許是人類的語音。一種自動識別語音裝置將提供這樣的接口。
自動語音識別裝置的應(yīng)用包括應(yīng)用話音命令的數(shù)據(jù)庫查詢技術(shù),在制造過程中用于質(zhì)量控制的話音輸入,可使駕駛員把精力集中于路況的同時可進行撥號的話音撥號蜂窩電話機,和用于殘疾人的話音操縱假肢的裝置。
可是,自動語音識別不是一件輕而易舉的任務(wù)。一個原因是每人的語音大不相同。例如,由幾個人發(fā)聲的同一句話由于重音、講話速度、性別或年齡的不同而在聲音上有明顯不同。除了講話人的可變性之外,共同可懂度的后果、講話方式(喊/低語)和背景噪聲也是語音識別裝置所面臨的嚴重問題。
從60年代后期起,對于自動語音識別業(yè)已引進了各種方法。一些方法是基于與啟發(fā)式策略相對應(yīng)的延伸知識,而另一些方法依靠語音數(shù)據(jù)庫和學(xué)習(xí)方法,包括動態(tài)時間卷曲(dynamic time-warping簡稱為DTW)和隱性馬爾可夫模型化(HMM)。這兩種方法以及應(yīng)用延時神經(jīng)網(wǎng)絡(luò)(TDNN)將在下文論述。
動態(tài)時間卷曲技術(shù)是采用一種優(yōu)化原則來使一個未知的講出的字與一個存儲的已知字的樣板之間的誤差最小化。報告的數(shù)據(jù)表明DTW技術(shù)很強,能給出好的識別結(jié)果。然而,DTW技術(shù)的計算上很精細。據(jù)此,當(dāng)前為了現(xiàn)實世界的應(yīng)用實施DTW技術(shù)是不實際的。
隱性馬爾可夫模型化技術(shù)不是將一個未知的講出的字與一個已知字的樣板直接比較,而是用已知字的推測模型,并比較由每個模型產(chǎn)生該未知字的概率。當(dāng)發(fā)聲一個未知字時,HMM技術(shù)將檢查該字的順序(或狀態(tài)),并找出可提供最佳匹配的模型。HMM技術(shù)業(yè)已成功地用于許多商業(yè)應(yīng)用中;然而,該技術(shù)也具有很多缺點。這些缺點包括不能夠區(qū)分聲學(xué)上相似的字、對噪聲敏感和計算的精細性。
近來,神經(jīng)網(wǎng)絡(luò)業(yè)已用來解決高度非結(jié)構(gòu)的和難解決的問題,例如語音識別問題。時延神經(jīng)網(wǎng)絡(luò)是一種類型的神經(jīng)網(wǎng)絡(luò),借助于采用有限的神經(jīng)原連接來說明語音的暫時效應(yīng)。對于有限的字識別,TDNN比HMM方法顯示出略好的結(jié)果。然而,TDNN也有一些嚴重的缺點。
首先,TDNN的訓(xùn)練時間很長,達幾個星期的數(shù)量級。其次,TDNN的訓(xùn)練算法通常收斂在一個局部最小值上,這不是總體上最佳的解法。
總之,現(xiàn)在已知的自動語音識別的方法的缺點(例如,算法需要不切實際的計算量、對講話人可變性和背景噪聲的有限容差和過分的訓(xùn)練時間等)嚴重地限制了在許多可能的應(yīng)用領(lǐng)域內(nèi)語音識別裝置的可接受性和迅速擴展。據(jù)此,現(xiàn)在非常需要一種自動語音識別系統(tǒng),用以提供高度的準(zhǔn)確性、不受背景噪聲影響、無需反復(fù)訓(xùn)練或復(fù)雜計算和對講話人差異的不敏感性。
為此,本發(fā)明的一個優(yōu)點是講話聲音可從連續(xù)語音中被識別出來,識別速率對講話人的差異不敏感。
本發(fā)明的另一個優(yōu)點是講話聲音可從連續(xù)語音中被識別出來而識別速率不受背景噪聲的不利影響。
本發(fā)明的再一個優(yōu)點是提供了一種語音識別方法和系統(tǒng),這兩者都無需反復(fù)訓(xùn)練。
本發(fā)明的又一個優(yōu)點是提供了一種識別連續(xù)語音的方法和系統(tǒng),其操作都在計算復(fù)雜性上有頗大的減少。
這些優(yōu)點和其它優(yōu)點是根據(jù)本發(fā)明的優(yōu)選實施例所提供的一種從連續(xù)講話語音中識別出講話聲音的方法實現(xiàn)的。該方法中,連續(xù)講出的語音含有多個講話聲音。該方法包括以下步驟先從連續(xù)的講話語音中產(chǎn)生語音信號;然后,通過在一個瞬時抽取出與連續(xù)講話語音相對應(yīng)的多個特征,處理語音信號以形成一個特征幀,該特征幀分配給多個分類器;再有,每個分類器實施一個判別函數(shù),響應(yīng)該特征幀,產(chǎn)生一個分類器輸出信號;最后,相應(yīng)于該瞬時的講話聲音是借助于比較多個分類器的每個分類器的輸出信號而被識別出來。
在本發(fā)明的另一個實施例中,提供了一種用于從連續(xù)講話語音中識別出講話聲音的系統(tǒng)。該系統(tǒng)包括以下單元第一是多個分類器,每個分類器接收一個特征幀和實施一個判別函數(shù),響應(yīng)該特征幀,以產(chǎn)生一個輸出。該特征幀是從連續(xù)的講話語音中導(dǎo)得的。第二是一個選擇器,它響應(yīng)每個分類器的輸出,通過對多個分類器的每個分類器的輸出信號相比較,來識別出與某瞬時相對應(yīng)的講話聲音。
雖然本發(fā)明的內(nèi)容在所附的權(quán)利要求書中指明了,但結(jié)合以下附圖并參閱下文的詳細描述將會更好地理解本發(fā)明的其它特點,也會最好地理解本發(fā)明。
圖1示出一種語音識別系統(tǒng)的概括性示意圖。
圖2示出根據(jù)本發(fā)明的一個實施例的一種用于從連續(xù)語音中識別講話聲音的系統(tǒng)的方框圖。
圖3示出根據(jù)本發(fā)明的優(yōu)選實施例的一種分類器的方框圖。
圖4示出根據(jù)本發(fā)明的一種用于訓(xùn)練語音識別系統(tǒng)以便從連續(xù)語音中識別出講話聲音的方法的流程圖。
圖5示出根據(jù)本發(fā)明的優(yōu)選實施例的一種用于從連續(xù)語音中識別講話聲音的方法的流程圖。
本領(lǐng)域的普通技術(shù)人員理解,本發(fā)明的方法可以用硬件或軟件或者它們的任意組合來實施,而術(shù)語“連續(xù)語音”和“連續(xù)的講話語音”在本文的說明中可互換地使用。
圖1示出一種語音識別系統(tǒng)的概括性示意圖。圖中示出話筒2或等效裝置,用以接收語音輸入形式的音頻輸入,并將聲音轉(zhuǎn)換成為電能。語音識別系統(tǒng)6接收從話筒2來的經(jīng)過傳輸媒體4的信號,并執(zhí)行各種任務(wù),例如波形取樣、模/數(shù)(A/D)變換、特征抽取和分類。語音識別系統(tǒng)6通過總線8向計算機10提供講話聲音的識別符。計算機10執(zhí)行指令或程序,它們可以利用由語音識別系統(tǒng)6提供的數(shù)據(jù)。
本領(lǐng)域的普通技術(shù)人員理解,語音識別系統(tǒng)6可以向除了計算機以外的裝置傳送講話聲音識別符,例如通信網(wǎng)絡(luò)、數(shù)據(jù)存儲系統(tǒng)或錄制裝置可以代替計算機10。
圖2示出根據(jù)本發(fā)明的一個實施例一種用于從連續(xù)語音中識別出講話聲音的系統(tǒng)的方框圖。該系統(tǒng)包含話筒2、轉(zhuǎn)換器40、特征抽取器44、多個分類器48、50……、52和選擇器60。除話筒2之外,上述這些單元組成語音識別系統(tǒng)6(圖2)。在圖2所示的這個例子中示出了三個分類器,即分類器48、50和52。
連續(xù)語音由話筒2接收,轉(zhuǎn)換成電信號,再通過傳輸媒體4傳送到轉(zhuǎn)換器40。轉(zhuǎn)換器40執(zhí)行各種可利用該語音信號的功能。這些功能包括波形取樣和模/數(shù)(A/D)變換。轉(zhuǎn)換器40產(chǎn)生的語音信號為其輸出,經(jīng)由總線42傳送到特征抽取器44。特征抽取器44組建一個特征或測量值的集,它們含有與語音信號相同的信息,但在維數(shù)上減少了。這些特征由總線46分配給多個分類器,圖中示出多個分類器之中的三個分類器48、50和52。每個分類器通常實施一個判別式函數(shù),以便確定一個特征集是否屬于一個特定的類別。計算每個判別函數(shù)所得到的結(jié)果稱為“分類器輸出信號”傳送到選擇器60。在所給定的例子中,分類器48、50和52分別通過總線54、56和58將分類器輸出信號傳輸給選擇器60。選擇器60將分類器輸出信號相比較,選擇器60根據(jù)比較結(jié)果,在輸出端62上提供出該講話聲音的識別符。
當(dāng)用戶向話筒2講話時,系統(tǒng)的操作開始。本發(fā)明的優(yōu)選實施例中,圖2所示的系統(tǒng)被用于從連續(xù)的講話語音中識別講話聲音。連續(xù)的講話語音或連續(xù)語音是在一個人向話筒講話而在每個講話聲音之間無不自然的停頓時發(fā)生的??墒?,講話人的講話在語音的自然形式中才停頓時表明有一個停頓,例如在一句話的結(jié)尾處。鑒于這個原因,連續(xù)語音可以被認為是發(fā)生在平常談話中的“自然”語音。連續(xù)的講話語音含有至少一個講話聲音,其中,講話聲音可以是一個字、字符或音素。音素是語言聲音的最小元素,它表明在含義上的差異。一個字符含有一個或多個音素,而一個字含有一個或幾個字符。
當(dāng)用戶發(fā)聲出連續(xù)語言時,話筒2產(chǎn)生一個代表該語音的聲學(xué)波形的信號。來自話筒2的信號通常是模擬信號。該信號隨后饋送到轉(zhuǎn)換器40,以便數(shù)字化。轉(zhuǎn)換器40含有用于A/D變換的合適裝置,它對于本領(lǐng)域技術(shù)人員來說是公知的。轉(zhuǎn)換器40應(yīng)用一個A/D變換器(未示出)對話筒2來的信號取樣每秒幾千次(例如,本發(fā)明的優(yōu)選實施例根據(jù)話筒來的語音信號的頻率成分為每秒8000至14000)。每個樣值然后轉(zhuǎn)換成為一個數(shù)字字,其中,該字的長度為12至32比特之間。
本領(lǐng)域的普通技術(shù)人員理解,A/D變換器的取樣速率和字長可以變化,上文給出的數(shù)值對本發(fā)明實施例中所包括的A/D變換器的取樣速率和字長無任何限制。
轉(zhuǎn)換器40來的語音信號含有一個或多個這樣的數(shù)字字,其中,每個數(shù)字字代表在某一瞬時取出的連續(xù)語音的一個樣值。該語音信號傳送到特征抽取器44,在那里該數(shù)字字在一個時間段內(nèi)組群成為一個數(shù)據(jù)幀。在本發(fā)明的優(yōu)選實施例中,每個數(shù)據(jù)幀代表10毫秒的語音信號。然而,本領(lǐng)域的普通技術(shù)人員承認,根據(jù)許多因素例如待識別的講話聲音的持續(xù)時間,其它的數(shù)據(jù)幀持續(xù)時間也可以被采用。這些數(shù)據(jù)幀然后經(jīng)受對數(shù)倒頻譜分析,即特征抽取方法,它由特征抽取器44來執(zhí)行。
對語音信號所執(zhí)行的對數(shù)倒頻譜分析即特征抽取,產(chǎn)生該語音信號的一個代表物,它表征該時間段內(nèi)連續(xù)語音信號的相關(guān)特征。它可以被認為是一種數(shù)據(jù)縮減程序,它保留語音信號的至關(guān)重要的特性,消除了語音信號的不相關(guān)特性中的所不希望的干擾,因而易于使多個分類器作出判定處理。
對數(shù)倒頻譜分析按照如下方式來執(zhí)行。首先,將第p階(典型為p=12~14)線性預(yù)測分析用于從語音信號來的一個數(shù)字字集,以產(chǎn)生p個預(yù)測系數(shù)。然后,應(yīng)用如下遞推公式將預(yù)測系數(shù)變換為對數(shù)倒頻譜系數(shù)c(n)=a(n)+Σk=1n-1(1-k/n)a(k)c(n-k)-----(1)]]>式中,c(n)代表第n個對數(shù)倒頻譜系數(shù),a(n)代表第n個預(yù)測系數(shù),1≤n≤p,p等于對數(shù)倒頻譜系數(shù)的數(shù)目,n代表一個整數(shù)的附標(biāo),k代表一個整數(shù)的附標(biāo),a(k)代表第k個預(yù)測系數(shù),c(n-k)代表第(n-k)個對數(shù)倒頻譜系數(shù)。
對數(shù)倒頻譜系數(shù)的矢量通常按照正弦形窗口形式來加權(quán),α(n)=1+(L/2)sin(πn/L)(2)式中,1≤n≤p,給定加權(quán)的對數(shù)倒頻譜矢量C(n)的情況下,L為一個整數(shù)的常數(shù),這里C(n)=c(n)α(n) (3)這種加權(quán)通常稱為“對數(shù)倒頻譜提升”。這種提升處理的后果是平滑語音信號頻譜中的頻譜峰值。業(yè)已發(fā)現(xiàn),對數(shù)倒頻譜提升可抑制高、低對數(shù)倒頻譜系數(shù)中存在的變化,為此,明顯地改善了語音識別系統(tǒng)的性能。
對數(shù)倒頻譜分析的結(jié)果是得到一個平滑的對數(shù)頻譜,它對應(yīng)于一個時間段內(nèi)語音信號的頻率成分。據(jù)此,語音信號的重要特征就保存在該頻譜中。特征抽取器44產(chǎn)生出一個相應(yīng)的特征幀,其內(nèi)含有根據(jù)相應(yīng)的數(shù)據(jù)幀而產(chǎn)生的頻譜的數(shù)據(jù)點。特征幀然后傳送到或分配到多個分類器。
本發(fā)明的優(yōu)選實施例中,一個特征幀含有12個數(shù)據(jù)點,其中,每個數(shù)據(jù)點代表該時間段內(nèi)在一個特定頻率上經(jīng)對數(shù)倒頻譜平滑的頻譜值。數(shù)據(jù)點是32比特的數(shù)字字。本領(lǐng)域的技術(shù)人員理解,本發(fā)明對每特征幀的數(shù)據(jù)點數(shù)目或數(shù)據(jù)點的比特長度無限制;一個特征幀內(nèi)含的數(shù)據(jù)點目可以是12或任何其它的合適值,而數(shù)據(jù)點比特長度可以是32比特、16比特或任何其它的值。
分類器通常作出一個判定,亦即一個輸入碼型(input pattern)屬于哪種類別。在本發(fā)明的優(yōu)選實施例中,每種類別用一種講話聲音來標(biāo)記,而講話聲音的實例是從一個預(yù)定的講話聲音集(訓(xùn)練集)中得到的,用于確定各種類別之間的邊界,邊界使各類別的識別性能達到最大化。
每個分類器48、50、……52一收到一個特征幀,就使用一種參數(shù)決定方法,來確定特征幀是否屬于某種類別。這每個分類器利用這種方法來計算一個不同的判別函數(shù)yj(x),其中,x={x1,x2,……,xi}是一個特征幀內(nèi)含的數(shù)據(jù)點集,i是一個整數(shù)附標(biāo),j是與分類器相對應(yīng)的整數(shù)附標(biāo)。分類器一收到特征幀,就計算它們各自的判別函數(shù),并提供它們計算的結(jié)果作為分類器輸出信號。分類器輸出信號的量值通常指示一個特征幀是否屬于與判別函數(shù)相對應(yīng)的類別。在本發(fā)明的優(yōu)選實施例中,分類器輸出信號的量值與該特征值屬于相應(yīng)類別的似然率直接成正比例關(guān)系。
判別函數(shù)是由分類器計算的,其根據(jù)是利用多項式展開式,從廣意上說,是利用正交函數(shù),例如正弦、余弦、指數(shù)/對數(shù)、傅里葉變換、Legendre多項式、諸如Volterra函數(shù)或基于輻射的函數(shù)之類的基于非線性的函數(shù),或同類者,或多項式展開式和正交函數(shù)的組合。
本發(fā)明的優(yōu)選實施例利用多項式展開式,其通常的情況可由下式(4)來表示y=Σi=1nwi-1x1g1ix2g2i...xngni-----(4)]]>式中,xi代表分類器輸入,可以是諸如xi=fi(zi)之類的函數(shù),式中zj是任何隨意變量,而附標(biāo)i、j和m可以是任何整數(shù);y代表分類器的輸出,Wi-1代表第i項的系數(shù),g1i、……gni代表第i項的指數(shù),并且是整數(shù);n是分類器輸入的數(shù)目。
在圖2所示的例子中,分類器48的分類輸出信號通過總線54傳送到選擇器60;分類器50的分類器輸出信號通過總線56傳送到選擇器60;而字符分類器52的分類器輸出信號通過總線58傳送到選擇器60。
選擇器60確定出哪個分類器輸出信號具有最大量值,然后在輸出端62上產(chǎn)生對應(yīng)的講話聲音識別符一個表示物。在本發(fā)明的一個實施例中,選擇器60產(chǎn)生的表示物是按照一種計算機可讀格式編碼的數(shù)字字。然而,本領(lǐng)域的普通技術(shù)人員理解,在輸出端62上提供的表示物在形式上是可變化的,這取決于該系統(tǒng)的應(yīng)用。例如,針對上述的任何信號而言,輸出端62上可以是模擬信號或光信號。
在本發(fā)明的一個實施例中,圖2所示的系統(tǒng)由處理器(諸如一個微處理器)上運行的軟件來實施。然而,本領(lǐng)域的普通技術(shù)人員理解,可編程邏輯陣列、ASIC或其它的數(shù)字邏輯裝置也可用來實施由圖2所示系統(tǒng)所執(zhí)行的功能。
圖3示出根據(jù)本發(fā)明的優(yōu)選實施例的分類器的方框圖。分類器110是圖2所示的多個分類器之一的一種可能實施方案。分類器110含有多個計算單元,圖中示出了其中的計算單元111、113和115。分類器110還含有求和電路117。
多項式展開式由分類器110按如下方式計算。多個數(shù)據(jù)輸入x1、x2、……、xn利用總線119饋送入分類器110,然后分配到由多個計算單元111、113和115。數(shù)據(jù)輸入通常是來自特征幀的數(shù)據(jù)點。每個計算單元確定哪個數(shù)據(jù)輸入將被接收,并計算多項式展開式中的一項或多項。在計算單元計算一項之后,將該項傳送給求和電路117,以將計算單元計算的項相加,并將和值置于輸出端133上,例如,圖3示出多項式y(tǒng)=x1g11x2g21+x1g12x2g22+…xngnm計算。計算單元111計算x1g11x2g21項,再經(jīng)總線127傳送到求和電路117;計算單元113計算x1g12x2g22項,再經(jīng)總線129傳送到求和電路117;而計算單元115計算xngnm項,再經(jīng)總線131傳送到求和電路117。求和電路117從計算單元接收到各項之后將各項相加,并將多項式展開的結(jié)果y置于輸出端133上。
本領(lǐng)域的普通技術(shù)人員理解,分類器110能夠計算式(1)的多項式形式,該式具有不同于上例的分項數(shù)目,多項式的各項是由不同于上例的那些數(shù)據(jù)輸入組成的。
本發(fā)明的一個實施例中,分類器110是由處理器(諸如一個微處理器)上運行的軟件實施的。然而,本領(lǐng)域的普通技術(shù)人員理解,可編程邏輯陣列、ASIC或其它的數(shù)字邏輯裝置也可以用來實施由分類器110所執(zhí)行的功能。
圖4示出一種用于訓(xùn)練語音識別系統(tǒng)從連續(xù)語音中識別講話聲音的方法的流程圖。按照本發(fā)明的實施例所構(gòu)成的語音識別系統(tǒng)原理上具有兩種工作方式(1)訓(xùn)練方式,在這種方式下,講話聲音的實例被用來訓(xùn)練多個分類器;(2)識別方式,在這種方式下,連續(xù)語音中的講話聲音被識別出來。參看圖2,用戶通常須用該系統(tǒng)將要識別的所有講話聲音的實例來訓(xùn)練多個分類器。
在本發(fā)明的實施例中,分類器可以借助于根據(jù)式(4)的多項式展開式的形式調(diào)整判別函數(shù)的系數(shù)而被訓(xùn)練。為使判別函數(shù)有效地對輸入數(shù)據(jù)進行分類,多項式展開中每項的系數(shù)Wi-1必須確定。這可以利用如下的訓(xùn)練方法來實現(xiàn)。
在步驟140,提供出多個講話聲音實例。一個講話聲音實例含有兩個組分,第一組分是一個講話聲音樣值集,第二組分是一個相對應(yīng)的所需的分類器輸出信號。
接著,在步驟142,訓(xùn)練器將講話聲音實例的數(shù)目與判別函數(shù)中多項式系數(shù)的數(shù)目相比較。
在步驟144,作出一次檢查,以判定系數(shù)的數(shù)目是否等于講話聲音實例的數(shù)目。如果相等,則方法前進到步驟146。如果不相等,則方法前進到步驟148。
在步驟146,應(yīng)用矩陣倒置技術(shù)來求解每個多項式系數(shù)的值。
在步驟148,應(yīng)用最小平方估值技術(shù)來求解每個多項式系數(shù)的值。合適的最小平方估值技術(shù)例如包括最小平方、擴展的最小平方、偽倒置、Kalman濾波器、最大似然算法、Bayesian估值等。
在實施本發(fā)明實施例中可應(yīng)用于的分類器的過程中,人們通常選擇分類器中計算單元的數(shù)目等于或小于供給學(xué)習(xí)機的實例的數(shù)目。
圖5示出根據(jù)本發(fā)明的優(yōu)選實施例的一種用以從連續(xù)語音中識別講話聲音的方法的流程圖。在步驟150,根據(jù)連續(xù)的講話語音產(chǎn)生一個語音信號。
接著,在步驟152,從該語音信號中抽取出多個特征。這些特征對應(yīng)于在一個時間段內(nèi)的該連續(xù)的講話語音。在本發(fā)明的優(yōu)選實施例中,抽取出的特征是對數(shù)倒頻譜系數(shù)。
在步驟153,組成一個特征幀,其內(nèi)含有所抽取出的特征。該特征幀可以含有一個或多個數(shù)字字,用以代表所抽取的特征。
在步驟154,將特征幀分配給多個分類器。每個分類器實施一個判別函數(shù),以被調(diào)整來指出一個不同的講話聲音。每個分類器響應(yīng)接收特征幀,產(chǎn)生一個分類器輸出信號,以代表計算判別函數(shù)的結(jié)果。
在步驟156,比較來自分類器的分類器輸出信號,確定出講話聲音的識別符。本發(fā)明的一個實施例中,具有最大量值的分類器輸出信號指出該講話聲音的識別符。
在步驟158,作出一次檢查,以判定是否有從該連續(xù)的講話語音中得識別的另一個講話聲音。如果有要識別的另一個講話聲音,則本方法返回到步驟150。如果“否”,則本方法終結(jié)。
本文已描述了一種概念和一種用以從連續(xù)語音中識別講話聲音的方法和系統(tǒng)的幾個實施例,其中包括一個優(yōu)選實施例。
由于本文描述的本發(fā)明的幾個實施例利用了多個分類器,故它們對講話者的差異不敏感,且不會受背景噪聲的不利影響。
還可以理解,本文所述的語音識別系統(tǒng)的幾個實施例無需反復(fù)訓(xùn)練;因而,本發(fā)明的實施例需要比已知的語音識別系統(tǒng)明顯少的訓(xùn)練時間和具有明顯高的準(zhǔn)確性。
此外,本領(lǐng)域的技術(shù)人員顯而易見,對已公開的本發(fā)明可以以無數(shù)方式修改,并可以采用除了上述的優(yōu)選形式的實施例以外的許多實施例。
還可以理解,本發(fā)明的概念能以按照許多種方式來變化。例如,與這種系統(tǒng)結(jié)構(gòu)單元例如分類器的數(shù)目或選擇器的輸入數(shù)目的設(shè)計選擇是很重要的。本發(fā)明以硬件還是軟件來實現(xiàn)的設(shè)計選擇也是很重要的。這樣的設(shè)計選擇主要取決于集成電路技術(shù)、實施的類型(例如是模擬、數(shù)字、軟件等)、模具尺寸、引出腳、等等。
據(jù)此,所附的權(quán)利要求書意在覆蓋對本發(fā)明的所有修改,它們都落在本發(fā)明的精神實質(zhì)和范疇之內(nèi)。
權(quán)利要求
1.一種用以從連續(xù)的講話語音中識別講話聲音的系統(tǒng),其特征在于,該系統(tǒng)包括多個分類器,每個分類器用于接收特征幀并實施判別函數(shù),以響應(yīng)該特征幀產(chǎn)生一個輸出,其中,該特征幀是從連續(xù)的講話語音中得出的;一個選擇器,響應(yīng)于每個分類器的輸出,該選擇器通過將來自多個分類器的每個的輸出信號相比較,識別出對應(yīng)于一個時間段內(nèi)的講話聲音。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,還包括一個轉(zhuǎn)換器,用于接收連續(xù)的講話語音,并根據(jù)該連續(xù)的講話語音產(chǎn)生一個語音信號;一個特征抽取器,響應(yīng)于該語音信號,在該時間段內(nèi)抽取出與該連續(xù)的講話語音相對應(yīng)的多個特征,以產(chǎn)生該特征幀作為輸出;一個用以將特征幀分配給多個分類器的裝置。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,多個特征是從對數(shù)倒頻譜系數(shù)、預(yù)測系數(shù)和傅里葉系數(shù)組成的組中選擇出的。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,多個分類器的每個實現(xiàn)一個判別函數(shù),該判別函數(shù)被調(diào)整,以指示一個不同的講話聲音。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該判別函數(shù)基于一個多項式展開式。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,多項式展開式具有如下形式y(tǒng)=Σi=1mwi-1x1g1ix2g2i...xngni]]>式中,y代表一個應(yīng)變量;i、m和n為整數(shù);Wi-1代表第i項的系數(shù);x1、x2、……、xn代表自變量;g1i、……、gni代表展開式中第i項的指數(shù),它用于各自變量。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該特征幀含有至少一個數(shù)字字,這至少一個數(shù)字字代表多個特征中的至少一個。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,講話聲音是從字、字符和音素組成的組中選出的。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該選擇器識別出與一個時間段序列相對應(yīng)的講話聲音。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該選擇器確定具有最大量值的分類器輸出信號。
全文摘要
一種用以從連續(xù)語音中識別出講話聲音的系統(tǒng)包括多個分類器(48)~(52)和一個選擇器(60)。每個分類器實施一個基于多項式展開式的判別函數(shù)。相應(yīng)的分類器被調(diào)整,通過確定一個判別函數(shù)的多項式系數(shù),使來分類出一個特定的講話聲音。選擇器(60)利用分類器輸出(54)~(58)來識別該講話聲音。這里還提供一種應(yīng)用該系統(tǒng)的方法。
文檔編號G10L15/28GK1160450SQ95195677
公開日1997年9月24日 申請日期1995年7月14日 優(yōu)先權(quán)日1994年9月7日
發(fā)明者王俠平·T 申請人:摩托羅拉公司