專利名稱:特征抽取裝置和方法以及模式識別裝置和方法
技術領域:
本發(fā)明涉及一種特征抽取裝置和方法以及模式識別裝置和方法。特別是本發(fā)明涉及適合于在噪聲環(huán)境中進行語音識別的情況下使用的特征抽取裝置和方法以及模式識別裝置和方法。
圖1表示一種常規(guī)的模式識別裝置的示例性結(jié)構。
一個作為模式識別對象的觀測矢量輸入到特征抽取部分101。特征抽取部分101根據(jù)該觀測矢量確定表示其特征參量的特征矢量。這樣確定的特征矢量提供到一鑒別部分102。根據(jù)由特征提取部分101提供的特征矢量,鑒別部分102判別該輸入的觀測矢量屬于預定數(shù)量的類別中的哪一類別。
例如,在圖1中的模式識別裝置是語音識別裝置的情況下,每一時間單位的語音數(shù)據(jù)(在適當?shù)那闆r下,下文稱為一幀)作為一觀測矢量輸入到特征抽取部分101。特征抽取部分101按聲學原理對作為觀測矢量的語音數(shù)據(jù)進行分析,并因此抽取特征矢量作為語言的特征參數(shù)例如功率譜、倒頻譜系數(shù)或線性預測系數(shù)。該特征矢量提供到鑒別部分102。鑒別部分102將該特征矢量分類為預定數(shù)量類別中的一個類別。分類結(jié)果作為語言數(shù)據(jù)(觀測矢量)的識別結(jié)果輸出。
在鑒別部分102中在已知的用于判別一特征矢量屬于預定數(shù)量的類別中的一個類別的各種方法中,有利用Mahalanobis鑒別函數(shù),混合正態(tài)分布函數(shù)或多項式函數(shù)的方法、利用HMM方法的方法,以及利用中樞網(wǎng)絡的方法。
例如,上述語音識別技術的詳細情況公開在由L.Rabiner和BH.Juang共同著的“語音識別基本原理(Ⅰ)和(Ⅱ)”,(由Furui(NTT Advanced Technology Corp)出版的論文集,1995)。至于普遍的模式識別,例如在RDuda和P.Hart所著的“模式分類和場景分析”(John Wiley & Sons 1973)。
順便說,當進行模式識別時,作為模式識別對象的觀測矢量(輸入模式)通常包含噪聲。例如作為觀測矢量當進行語音識別時輸入的聲音包含使用人談話時的環(huán)境噪聲(例如,其它人的聲音或車輛的噪聲)。為了提供另一個實例,作為觀測矢量當進行圖像識別時輸入的圖像包含圖像的拍攝環(huán)境的噪聲(例如與氣候條件例如霧或雨相關的噪聲,或由于用于拍攝圖像的攝像機的透鏡像差)。
已知頻譜相減法是特征參量(特征矢量)抽取方法中的一種,這些抽取方法用在噪聲環(huán)境中的聲音識別。
在頻譜相減法中,將產(chǎn)生聲音之前的輸入(即在一語音段落之前的輸入)采用作為噪聲,以及計算噪聲的平均頻譜。當接著輸入聲音時,由該聲音中減去噪聲平均頻譜,通過利用其余的部分計算特征矢量作為真實聲音部分。
頻譜相減法的詳細情況例如公開在S.F.Boll的“利用頻譜相減抑制語音中的噪聲”(IEEE關于聲學、語音和信號處理的論文集,第1卷,ASSP-27,第2期,1979);以及P.Lockwood和J.Boudy的“利用非線性頻譜減法器、隱藏馬爾科夫模型的實驗及設計,汽車中的實用語音識別”(語音通信,第11卷1992)。
順便說,可認為圖1中的模式識別裝置中的特征抽取部分101實行一種處理,即將表示在觀測矢量空間中的某一點的觀測矢量變換映射到表示在圖2中所示的特征矢量空間中的對應點的特征矢量Y。
因此,特征矢量Y表示在特征矢量空間中的某一點(對應于觀測矢量a)。在圖2中,按照三維空間畫出了觀測矢量空間和特征矢量空間。
按照頻譜相減法,由觀測矢量a減去平均噪聲部分頻譜,然后計算特征矢量Y。然而,由于特征矢量Y如上所述表示特征矢量空間中的一個點,特征矢量Y不反映表示噪聲的不規(guī)則性例如離差(variance)的特性,雖然其反映噪聲的平均特性。
因此,特征矢量Y不能充分反映觀測矢量a的特征,因此難于利用這種特征矢量Y實現(xiàn)高的識別速率。
根據(jù)上述情況形成本發(fā)明,因此本發(fā)明的目的是提高識別速度。
根據(jù)本發(fā)明的第一方面,提供一種特征抽取部分,其抽取輸入數(shù)據(jù)的特征參量,包含計算裝置,用于計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
根據(jù)本發(fā)明的第二方面,提供一種特征抽取方法,用于抽取輸入數(shù)據(jù)的特征參量,包含的步驟有計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
根據(jù)本發(fā)明的第三方面,提供一種模式識別裝置,其通過將該模式分類為預定數(shù)量的類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含計算裝置,用于計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的分布特征參數(shù);以及分類裝置,用于將特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
根據(jù)本發(fā)明的第四方面,提供一種模式識別方法,用于通過將該模式分類為預定數(shù)量的類別中的一類別來識別輸入數(shù)據(jù)的模式,包含的步驟有計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù);以及將特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
根據(jù)本發(fā)明的第五個方面,提供一種模式識別裝置,其通過將該模式分類為預定數(shù)量的類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含幀形成裝置,用于按預定間隔抽取部分輸入數(shù)據(jù),以及按照一幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù);特征抽取裝置,接收由每一抽取的數(shù)據(jù)組成的一幀數(shù)據(jù),用于輸出一表示當將一幀數(shù)據(jù)進行變換映射到該一幀數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù);以及分類裝置,用于將一系列特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
根據(jù)本發(fā)明的第六方面,提供一種模式識別方法,用于通過將該模式分類為預定數(shù)量的類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含幀形成步驟,按照預定間隔抽取部分輸入數(shù)據(jù),以及按照一幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù);特征抽取步驟,接收由每一抽取的數(shù)據(jù)組成的一幀數(shù)據(jù),并輸出一表示當將一幀數(shù)據(jù)進行變換映射到該一幀數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù);以及分類步驟,將一系列特征分布系數(shù)分類為預定數(shù)量的類別中的一個類別。
在根據(jù)本發(fā)明的第五方面的特征抽取裝置中,該計算裝置計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
在根據(jù)本發(fā)明的第二方面的特征抽取方法中,計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
在根據(jù)本發(fā)明的第三方面的模式識別裝置中,計算裝置計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù),并且分類裝置將該特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
在根據(jù)本發(fā)明的第四方面的模式識別方法中,計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù);以及將該特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
在根據(jù)本發(fā)明的第五方面的模式識別裝置中,其通過將該模式分類為預定數(shù)量的類別中的一個類別來識別輸入數(shù)據(jù)的模式,按照預定的間隔抽取部分輸入數(shù)據(jù),并按照一幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù)。輸出一表示當將每一抽取數(shù)據(jù)組成的一幀數(shù)據(jù)進行變換映射到該一幀數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。然后將一系列的特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
在根據(jù)本發(fā)明的第六方面的模式識別方法中,通過將該模式分類為預定數(shù)量的類別中的一個類別來識別輸入數(shù)據(jù)的模式,按照預定間隔抽取部分輸入數(shù)據(jù),并按照一幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù)。輸出一表示當將每一抽出的數(shù)據(jù)組成的一幀數(shù)據(jù)進行變換映射到該一幀數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。然后,將一系列的特征分布參數(shù)分類為預定數(shù)量類別中的一個類別。
圖1是表示常規(guī)模式識別裝置的示例性結(jié)構的方塊示意圖;圖2表示圖1中所示的特征抽取部分101的工作過程;圖3是表示根據(jù)本發(fā)明的一實施例的語音識別裝置的示例性結(jié)構的方塊示意圖;圖4表示圖3中所示的幀形成部分的過程;圖5表示圖3中所示的特征抽取部分的過程;圖6是表示圖3中所示的特征抽取部分的示例性結(jié)構的方塊示意圖;圖7A和7B表示噪聲功率譜和真實聲音功率譜的概率密度函數(shù);圖8是表示在圖3中所示的鑒別部分的示例性結(jié)構的方塊示意圖;圖9表示HMM;以及圖10是表示圖3中所示的特征抽取部分2的另一示例性結(jié)構的方塊示意圖。
圖3表示根據(jù)本發(fā)明的一實施例的語音識別裝置的示例性結(jié)構。
作為識別對象的數(shù)字語音數(shù)據(jù)輸入到幀形成部分1。例如,如圖4中所示,幀形成部分1按預定的時間間隔(例如10毫秒)抽取部分的接收語音數(shù)據(jù)1這一操作稱為幀形成),并將作為1幀數(shù)據(jù)的每一抽取語音數(shù)據(jù)輸出。由幀形成部分1輸出的每一幀語音數(shù)據(jù)以觀測矢量a的形式提供到特征抽取部分,該觀測矢量a含有該幀包含的作為分量(components)的對應時序語音數(shù)據(jù)。
隨后,適當情況下作為第t幀語音數(shù)據(jù)的觀測矢量用a(t)來表示。
特征抽取部分2(計算裝置)按聲學原理對按照由幀抽取部分1提供的觀測矢量a形式的語音數(shù)據(jù)進行分析,以此由語音數(shù)據(jù)中抽取特征參量。例如特征抽取部分2利用付立業(yè)變換確定作為觀測矢量a的語音數(shù)據(jù)的功率譜;并計算具有作為組成部分的功率譜的對應頻率部分的特征矢量Y。計算功率譜的方法并不局限于付立業(yè)變換,利用其它方法例如濾波器組方法就可以確定功率譜。
此外,特征抽取部分2根據(jù)上面計算的特征矢量Y計算參數(shù)Z(下文稱之為特征分布參數(shù)),該參數(shù)代表當在的語音數(shù)據(jù)中包含的真實聲音作為觀測矢量a被映射變換(mapping)到特征矢量空間中時得到的特征參量空間(即特征矢量空間)中的分布,并將參數(shù)Z提供到鑒別部分3。
即,如圖5中所示,特征抽取部分2計算并輸出作為特征分布參數(shù)的一種參數(shù),該參數(shù)表示在通過將代表在觀測矢量中的某一點的某一觀測矢量a變換映射到特征矢量空間時得到的特征矢量空間中產(chǎn)生的離散狀況的分布。
雖然在圖5中觀測矢量空間和特征矢量空間都是按照三維空間表示的,觀測矢量空間和特征矢量空間的各自維數(shù)并不局限于三,甚至不必相同。
鑒別部分3(分類裝置)將由特征抽取部分2提供的每一個特征分布參數(shù)(系列參數(shù))分類為預定數(shù)量的類別的其中之一個類別,并且將作為輸入語音的識別結(jié)果的分類結(jié)果輸出。例如,鑒別部分3存儲各用于判別鑒別對象屬于與預定字數(shù)K相對應的類別中的哪一類別的鑒別函數(shù),并通過利用作為變量的,由特征抽取部分2提供的特征分布參數(shù),計算各個類別的鑒別函數(shù)的數(shù)值。具有最大函數(shù)值的類別(在這一實例中為一個字)輸出作為觀測矢量a的聲音識別結(jié)果。
接著,介紹上述裝置的工作情況。
幀形成部分1將輸入數(shù)字語音數(shù)據(jù)分幀作為識別對象。將各幀的語音數(shù)據(jù)的觀測矢量a順序提供到特征提取部分2。特征抽取部分2通過對作為由幀形成部分1提供的觀測矢量a的語音數(shù)據(jù)按聲學原理分析來確定特征矢量Y。此外,根據(jù)這樣確定的特征矢量Y,特征抽取部分2計算一代表在特征矢量空間中的分布的特征分布參數(shù),并將其提供到鑒別部分3。
通過利用由特征提取部分2提供的特征分布參數(shù),鑒別部分3計算與預定字數(shù)K相對應的各個類別的鑒別函數(shù),并將具有最大函數(shù)值的類別輸出作為聲音的識別結(jié)果。
由于作為觀測矢量a的語音數(shù)據(jù)被變換為代表如上所述的特征矢量空間(語音數(shù)據(jù)的特征參量的空間)中的分布的特征分布參數(shù),特征分布參數(shù)Z反映包含在語音數(shù)據(jù)中的噪聲的分布特性。此外由于聲音的識別是根據(jù)這樣一種特征分布參數(shù)Z,識別速率可以大為提高。
圖6表示在圖3中所示的特征抽取部分2的示例性結(jié)構。
觀測矢量a提供到功率譜分析器12。功率譜分析器12例如根據(jù)FFT(快速付立業(yè)變換)算法對觀測矢量a進行付立業(yè)變換,并因此按照特征矢量確定(抽取)作為聲音的特征參量的功率譜。這里假設,作為一幀語音數(shù)據(jù)的觀測矢量變換為由D維構成的特征矢量(即D維特征矢量)。
下面,將由第t幀的觀測矢量a(t)得到的特征矢量用y(t)來代表。此外,特征矢量y(t)中的真實聲音部分頻譜和噪聲部分頻譜分別用x(t)和u(t)來表示。在這種情況下,真實聲音成分頻譜x(t)由下式確定x(t)=y(t)-U(t)其中假設,噪聲具有不規(guī)則的特性,作為觀測矢量a(t)的語音數(shù)據(jù)是真實聲音部分和噪聲之和。
由于噪聲u(t)具有不規(guī)則的特性,u(t)是一隨機的變量,因此x(t)由于是按方程(1)確定的,也是一隨機的變量。因此,例如,如果噪聲功率譜具有如圖7A中所示的概率密度分布,則根據(jù)方程(1)真實聲音的功率譜的概率密度函數(shù)按照圖7B所示確定。真實聲音的功率譜具有某一數(shù)值的概率是通過乘以一歸一化系數(shù)得到的,該系數(shù)使得真實聲音的概率分布具有單位面積;噪聲功率譜具有某一數(shù)值的概率,是通過由輸入聲音(輸入信號)的功率譜減去真實聲音的功率譜的上述數(shù)值得到的。圖7A和7B是按照這一假設畫出的,即每一U(t),x(t)和y(t)的分量的數(shù)目為1(D=1)。
參閱圖6,由功率譜分析器12得到的特征矢量y(t)提供到開關13。開關13在語音部分檢測部分11的控制下選擇連接端13a和13b的其中之一。
語音時段檢測部分11檢測語音時段(即使用人說話持續(xù)時間)。例如檢測語音時段方法的細節(jié)公開在J.C.Junqua,B.Mark以及B.Reaves的“用于在出現(xiàn)噪聲時的字邊界檢測的實用算法”,IEEE論文集“語音和音頻處理,第2卷、第3期、1994。
可以利用其它方法來識別語音時段,例如通過在語音識別裝置中裝設適當?shù)陌存I和當使用人說話時由使用人操縱該按鍵。
語音時段檢測部分11控制開關13,使得其在一語言時段中選擇端13b而在另一時段(下文稱之為無語音時段,在適當情況下)選擇端13a。
因此,在無語音時段,開關13選擇端13a,因此,將功率譜分析器12的輸出經(jīng)過開關13提供到噪聲特性計算器14。噪聲特性計算器14根據(jù)在無語音時段中功率譜分析器12的輸出計算在語音時段中的噪聲特性。
在這一實例中,噪聲特性計算器14按照一些假設確定噪聲的平均數(shù)值(平均矢量)和離差(離差矩陣),該假設即在某一語音時段中的噪聲功率譜U(t)具有與直接在這一語音時段之前的無語音時段相同的分布,以及假設該分布是正態(tài)分布。
具體地說,假設語音時段中的第1幀為1號幀(t=1),確定100幀(由語音時段之前200幀的一幀到語音時段之前101幀的一幀)的功率譜分析器12的y(-200)到y(tǒng)(-101)輸出的平均矢量μ’和離差矩陣∑’,作為該語音時段的噪聲特性。
可以根據(jù)如下方程(2)確定平均矢量μ’和離差矩陣∑’μ′(i)=1100Σ1--200-101y(t)(i)]]>Σ′(i,j)=1100Σ1--200-101(y(t)(i)-μ′(i))(y(t)(j)-μ′(j)).....(2)]]>其中μ’(i)代表平均矢量μ’(i=1,2,…D)的第i部分,y(t)(i)代表第t幀的特征矢量的第i部分;以及∑’(i,j)代表離差矩陣∑’中的第i行第j列部(j=1,2,…D)。
這里,為了減少計算量,假設關于噪聲,該特征矢量y的各部分必須互相關。在這種情況下,按照下式(3)除離差矩陣∑’中的對角線分量以外的分量為0∑’(i,j)=0,1≠j ……(3)噪聲特性計算器14按上述方式確定平均矢量μ’和離差矩陣∑’作為噪聲特性并將它們提供到特征分布參數(shù)計算器15。
另一方面,在語音時段,開關13選擇端13b,因此,功率譜分析器12的輸出即作為包含真實聲音和噪聲的語音數(shù)據(jù)的特征矢量經(jīng)過開關13提供到特征分布參數(shù)計算器15。根據(jù)由功率譜分析器12提供的特征矢量Y和由噪聲特性計算器15提供的噪聲,特征分布參數(shù)計算器15計算代表真實聲音的功率譜的分布(估值的分布)。
即,按照假設,即真實聲音的功率譜為正態(tài)分布,特征分布參數(shù)計算器15根據(jù)如下公式計算該分布的平均矢量3和離差4,該公式為E(t)(i)-E[x(t)(i)]-E[y(t)(i)-u(t)(i)]-∫0y(t)(i)(y(t)(i)-u(t)(i))P(u(t)(i))∫0y(t)(i)P(u(t)(i)du(t)(i))du(t)(i)]]>-y(t)(i)∫0y(t)(i)P(u(t)(i))du(t)(i)-∫0y(t)(i)u(t)(i)P(u(t)(i))du(t)(i)∫0y(t)(i)P(u(t)(i))du(t)(i)·····(4)]]>-y(t)(i)-∫0y(t)(i)u(t)(i)P(u(t)(i))du(t)(i)∫0y(t)(i)P(u(t)(i))du(t)(i)]]>如果i=j,ψ(t)(i,j)=V[x(t)(i)]=E[(x(t)(i))2]-(E[x(t)(i)])2(=E[(x(t)(i))2]-(ξ(T)(i))2).如果i≠j,ψ(t)(i,j)=0.
.....(5)E[(x(t)(i)2]-E[(y(t)(i)-u(t)(i))2]-∫0y(t)(i)(y(t)(i)-u(t)(i))2P(u(t)(i))∫0y(t)(i)P(u(t)(i))du(t)(i)du(t)(i)]]>-1∫0y(t)(i)P(u(t)(i))du(t)(i)×{(y(t)(i))2∫0y(t)(i)P(u(t)(i))du(t)(i)]]>-2y(t)(i)∫0y(t)(i)u(t)(i)P(u(t)(i))du(t)(i)]]>+∫0y(t)(i)(u(t)(i))2P(u(t)(i))du(t)(i)}]]>-(y(t)(i))2-2y(t)(i)∫0y(t)(i)u(t)(i)P(u(t)(i))du(t)(i)∫0y(t)(i)P(u(t)(i))du(t)(i).....(6)]]>+∫0y(t)(i)(u(t)(i))2P(u(t)(i))du(t)(i)∫0y(t)(i)P(u(t)(i))du(t)(i)]]>P(u(t)(i))=12πΣ′(i,i)e-12Σ′(i,i)(u(t)(i)-μ′(i))2.....(7)]]>在上述公式中,ξ(t)(i)代表第t幀的平均矢量ξ(t)的第i部分,E[]意指在方括號“[]”中的變量的平均值,x(t)(i)代表第t幀的真實聲音的功率譜的第i部分。此外,u(t)(i)代表第t幀的噪聲功率譜的第i部分;以及P(U(t)(i)代表第i幀的噪聲功率譜中第i部分為U(t)(i)的概率。在這一實例中,由于假設噪聲分布是正態(tài)分布,P(U(t)(i))由方程(7)確定。
此外,ψ(t)(i,j)代表第t幀的離差矩陣ψ(t)中的第i行第j列分量,以及V[]意指在方括號“[]”中的變量的離差。
按上述方式,特征分布參數(shù)計算器15針對每一幀確定作為代表在特征矢量空間中真實聲音分布(即假設在特征矢量空間中真實聲音的分布是正態(tài)分布)的特征分布參數(shù)的,平均矢量ξ和離差矩陣ψ。
于是,當語音時段結(jié)束時,開關13選擇端13a并且特征分布參數(shù)計算器15向鑒別部分3輸出已針對在該語音時段中的每一幀確定的特征參數(shù)。即,假設該語言時段由T幀組成,針對T幀中的每一幀確定的特征分布參數(shù)按Z(t)={ξ(t),ψ(t)}來表示,其中t=1,2,…T,特征分布參數(shù)計算器15向鑒別部分3提供特征分布參數(shù)(序列參數(shù))Z={z(1),z(2),…z(T)}。
在此之后特征抽取部分2重復相似的過程。
圖8表示在圖3中的鑒別部分3的示例性結(jié)構。
由特征抽取部分2(特征分布參數(shù)計算器15)提供的特征分布參數(shù)Z被提供到K個鑒別函數(shù)計算部分211-21k。鑒別函數(shù)計算部分21k存儲用于鑒別與K個類別(K=1,2,…K)的第K類別相對應的一個字的鑒別函數(shù)gk(Z),并且作為變量通過利用由特征抽取部分2提供的特征分布參數(shù)Z來計算鑒別函數(shù)gk(Z)。
鑒別部分3例如根據(jù)HMM(隱藏馬爾科夫模型)確定作為一類別的字。
在這一實施例中,例如采用圖9中所示的HMM。按照這種HMM,有H級q1-qH,以及僅允許一自轉(zhuǎn)換和轉(zhuǎn)換到直接相鄰的狀態(tài)。起始的狀態(tài)是最左側(cè)的狀態(tài)q1和最終的狀態(tài)是最右側(cè)的狀態(tài),并且禁止由最終狀態(tài)qH再狀態(tài)轉(zhuǎn)換。一種其中當前狀態(tài)左側(cè)狀態(tài)沒有發(fā)生轉(zhuǎn)換的模型稱之為左向右模型。在語音識別中通常采用左向右模型。
下面將用于鑒別HMM中的第K類別的模型稱之為第K類別模型。例如,利用起始狀態(tài)為狀態(tài)qh的概率(起始狀態(tài)概率)πk(qh);概率(轉(zhuǎn)換概率)ak(qi,qj),即在某一時間點(幀)t建立狀態(tài)q1和在下一時間點t+1產(chǎn)生向狀態(tài)qj的狀態(tài)轉(zhuǎn)變時的概率;以及概率(輸出概率)bk(qi)(o),即當由狀態(tài)qi(h=1,2,…H)發(fā)生狀態(tài)轉(zhuǎn)換時狀態(tài)qi輸出特征矢量o的概率;來確定第k組模型。
當提供特征矢量序列O1,O2,…時,例如將具有觀測這樣的特征矢量序列的最高概率(觀測概率)的該組模型,選擇作為特征矢量序列的識別結(jié)果。
在這一實例中,通過利用鑒別函數(shù)qrZ)來確定觀測概率。即,利用作為用于確定概率的函數(shù)的如下方程提供鑒別函數(shù),該概率即在對特征分布參數(shù)(序列)Z={z1,z2,…ZT}在最佳狀態(tài)序列(即狀態(tài)轉(zhuǎn)變的最佳方式)下觀測特征分布參數(shù)(序列)Z={z1,z2,…ZT}時的概率。gk(Z)=maxqt.c2.···qrπk(q1)·bk′(q1)(z1)·ak(q1·q2)·bk′(q2)(z2)]]>…ak(qT-1,qT)·bk’(qT)(zT).....(8)在上述方程中,bk’(qi)(Zi)代表對于具有一種分布Zj的輸出概率。在這一實施例中,例如作為每個特征矢量在狀態(tài)轉(zhuǎn)變時輸出時的概率的輸出概率是在假設在特征矢量空間中的各部分不具有互相關的情況下用正態(tài)分布函數(shù)表示的。在這種情況下,當輸入具有一分布Zt時,可以通過利用如下方程來確定輸出概率bk’(S)(Zt),該方程包含利用平均矢量μk(S)和離差矩陣∑k(S)確定的概率密度函數(shù)Pkm(s)(x)以及表示第t幀的特征矢量的分布(在這一實施例中為功率譜)的概率密度函數(shù)Pf(t)(x)。bk’(s)(zt)-∫Pf(t)(x)Pxm(s)(x)dx=Π1-10P(s)(i)(ξ(t)(i),ψ(t)(i,i))]]>k=1,2,…,K:s=q1.q2...,qT:T=1.2…,T.....(9)在方程(9)中,該積分的積分區(qū)間是整個的D維特征矢量空間(在這一實例中為功率譜空間)。
在方程(9)中,P(s)(i)(ξ(t)(i),ψ(t),(i,1))是由下式給定的P(s)(i)(ξ(t)(i),ψ(t),(i,i))=12π(Σk(s)(i,i)+ψ(t)(i,i))e-(μk(s)(i)-ξ(t)(i))22(Σk(s)(i,i)+ψ(t)(i,i))·····(10)]]>其中μk(S)(i)代表平均矢量μk(S)中的第i分量以及∑k(S)(i,i)代表離差矩陣∑k(S)中的第i行第i列分量。第K類別模型的輸出概率是按上面方程確定的。
如上所述,HMM是利用起始狀態(tài)概率πk(qh)、轉(zhuǎn)變概率ak(qi,qj)和輸出概率bk(qi)(O)確定的,而這些概率是通過使用根據(jù)學習語音數(shù)據(jù)計算的特征矢量預先確定的。
在使用圖9中所示的HMM的情況下,由最左側(cè)狀態(tài)q1開始轉(zhuǎn)變。因此,僅狀態(tài)q1的起始概率為1,其它狀態(tài)的起始概率為0。正如由方程(9)和(10)所看到的,如果項ψ(t),(i,i)為O,則輸出概率等于在其中沒有考慮特征矢量的離差的連續(xù)的HMM中的輸出概率。
HMM學習方法的一個實例是Baum-Welch的重新估測法。
圖8中所示的鑒別函數(shù)計算部分Z1k對于第K類別模型存儲該利用先前已經(jīng)通過學習確定的起始狀態(tài)概率πk(qh)、轉(zhuǎn)變概率ak(qi,qj)和輸出概率bk(qi)(0)確定的方程(8)的鑒別函數(shù)gk(Z)。鑒別函數(shù)計算部分Z1k通過利用由特征提取部分2提供的特征分布參數(shù)Z計算該鑒別函數(shù),并將所形成的函數(shù)值(上面介紹的觀測概率)gk(Z)輸出到?jīng)Q定部分22。
決定部分22通過例如將如下公式的一種確定規(guī)則應用于由各個確定函數(shù)計算部分21r-21k提供的函數(shù)值gk(Z),確定特征分布參數(shù)Z即輸入聲音所屬的那一類別(即輸入聲音被分類為各類別中的一類別)。C(Z)=Ck·Hgk(Z)=max1(gi(Z))·····(11)]]>其中,C(Z)是為確定特征分布參數(shù)Z所屬一個類別的鑒別運算(處理)的函數(shù)。在公式(11)的第二方程中的右側(cè)的運算“max”意指在其后的函數(shù)值gi(Z)的最大值(i=1,2,…K)。
確定部分22根據(jù)公式(11)確定類別,并將其作為輸入聲音的識別結(jié)果輸出。
圖10表示在圖3中所示的特征抽取部分2的另一種示例性結(jié)構。在圖10中與圖6中的組成部分相對應的各部分指定與圖6中所示相同的標號。即這一特征抽取部分2除去設有噪聲緩沖器31和特征分布參數(shù)計算器32分別取代噪聲特性計算器14和特性分布參數(shù)計算器15之外,其基本上按照與圖6相同的方式構成。
在這一實例中,例如,噪聲緩沖器31暫時存儲作為噪聲功率譜的,無語音時段中的功率譜分析器12的輸出。例如,噪聲緩沖器31存儲作為噪聲功率譜W(1),W(2)…W(100)的即100幀的功率譜12的各個輸出y(-200),y(-199),…y(-101),這100幀即在一語音時段前分別為200幀到101幀的各幀。
當語音時段已出現(xiàn)時,100幀的噪聲功率譜W(n)(n=1,2,…N;在這一實例中N=100)輸出到特征分布參數(shù)計算器32。
當語音時段已經(jīng)出現(xiàn)以及特征分布參數(shù)計算器32已接收來自噪聲緩沖器31的噪聲功率譜W(n)(n=1,2,…N)時,特征分布參數(shù)計算器32例如根據(jù)如下的方程計算平均矢量ξ(t)和離差矩陣∑(t),它們限定了真實聲音的功率譜的分布(假設按正態(tài)分布)(即真實聲音的功率譜的估值的分布)。ξ(t)(i)=E[x(t)(i)]=1NΣn=1N(y(t)(i)-w(n)(i))]]>ψ(t)(i,j)=1NΣn=1N((y(t)(i)-w(n)(i)-ξ(t)(i))·····(12)]]>X(y(t)(j)-w(n)(j)-ξ(t)(j)))j=1,2,…,D:j=1,2,…,D其中W(n)(i)表示第n噪聲功率譜W(n)中的第i部分(W(n)(j)按相似方式確定)。
特征分布參數(shù)計算器32按照上述方式對于每一幀確定平均矢量ξ(t)和離差矩陣∑(t),并將在語音時段內(nèi)的特征分布參數(shù)Z={Z1,Z2…ZT}輸出到鑒別部分3(特征分布參數(shù)Zt是ξ(t)和∑(t)的組合)雖然在圖6所示的實例中假設噪聲功率譜中的各部分必須互相關,但是在圖10所示的實例中沒有采用這種假設確定特征分布參數(shù),因此可以得到更精確的特征分布參數(shù)。
雖然在以上各實例中,將功率譜用作特征矢量(矢量參量),例如倒頻譜也可用作特征矢量。
現(xiàn)在假設xc(t)代表某一幀t的真實聲音的倒頻譜,以及它的分布(倒頻譜的估值的分布)例如是正態(tài)分布。根據(jù)如下方程可以確定平均矢量ξc(t)和離差矩陣ψc(t),它們確定了代表第t幀的特征矢量的分布xc(在這一實例中為倒頻譜)的概率密度函數(shù)Pf(t)(xc)。ξc(t)(i)=1NΣn=1Nxc(t)(n)(i)......i=1,2,···,D]]>ψc(t)(i,j)=1NΣn=1N(xc(t)(n)(i)-ξc(t)(i))(xc(t)(n)(j)-ξc(t)(i)).....(13)]]>i=1,2,..,D:j=1,2,...,D其中ξc(t)(i)表示平均矢量ξc(t)的第i分量,ψc(t)(i,j)是離差矩陣ψc(t)的第i行第j列分量,以及xc(t)(n)(i)是如下列方程提供的倒頻譜xc(t)(n)的第i分量。
xc(t)(n)=CxL(t)(n)xL(t)(n)=(xL(t)(n)(1),xL(t)(n)(2),...,xL(t)(n)(D))xL(t)(n)(i)=log(y(t)(i)-w(n)(i)).....(14)其中i=1,2,…D。在方程組(14)中的第一個方程中,C是DCT(離散余弦變換)矩陣。
在將倒頻譜用作特征矢量的情況下,圖3中的特征抽取部分2可以按照上述方式對于每一幀確定平均矢量ξc(t)和離差矩陣ψc(t),并將在語音時段中的特征分布參數(shù)Zc={Z1c,Z2c,…ZTc}輸出到鑒別部分3(特征分布參數(shù)Ztc是{ξc(t),ψc(t)}的組合。
在這種情況下,通過利用如下方程可以確定用于在鑒別部分3計算鑒別函數(shù)gk(Zc)的輸出概率bk’(S)(Ztc),作為表示在倒頻譜空間中分布的概率;該方程包含由平均矢量μkc(S)和離差矩陣∑kc(S)確定的概率密度函數(shù)Pkm(S)(xc)以及表示第t幀特征矢量的分布(在這一實例中為例頻譜)的概率密度函數(shù)。bk’(s)(ztc)=∫Pf(xc)Pkm(s)(xc)dxc=e-12(ξc(i)-μkc(s))7(ψc(t)+Σkc(s))-1(ξc(t)-μkc(s))(2π)D2|ψc(t)+Σkc(s)|12.....(15)]]>在方程(15)中,積分的積分區(qū)間是整個D維特征矢量空間(在這一實例中為倒頻譜空間)。該項(ξc(t)-μkc(S))T是矢量ξc(t)-μkc(S)的轉(zhuǎn)置。
如上所述,由于特征分布參數(shù)的確定反映了噪聲分布特性以及利用這樣確定的特征分布參數(shù)進行語音識別,識別速率可以提高。
表1表示了在這樣一種情況下的識別速率,即其中通過利用倒頻譜以及HMM方法實驗語音的特征參數(shù)和鑒別部分3中的語音識別算法分別為利用特征分布參數(shù)進行語音識別(字識別)實驗時的識別速率,以及在利用頻譜減法進行語音識別實驗情況下的識別速率。
表1
在上述各實驗中,識別對象字的數(shù)目為5000,談話人并非特定的人。在3種環(huán)境下進行談話,即車輛慢速狀態(tài)以及有背景音樂的環(huán)境、車輛行駛在市區(qū)的環(huán)境,以及車輛行駛在高速公路上的環(huán)境下談話。
由表1可以看出,通過利用特征分布參數(shù)的語音識別,在這些環(huán)境中的任一個環(huán)境下,都能實現(xiàn)較高的識別速率。
上面已經(jīng)將本發(fā)明應用于語音識別裝置進行了介紹。這種語音識別裝置能應用于可輸入語音的車輛導引裝置。
在上述實施例中,確定一種反映噪聲分布特性的特征分布參數(shù)。應注意,例如該噪聲包含在談話環(huán)境中的外部噪聲以及通信線路的噪聲特性(當要識別經(jīng)過電話線或某些其它通信線傳輸?shù)穆曇?。
例如,本發(fā)明還可適用于在特定談話人識別的情況下對于特定談話人的查明。在這種情況下,本發(fā)明可以提高查明速度。
本發(fā)明不僅能夠適用于語音識別,而且還適于模式識別,例如圖像識別。例如,在圖像識別的情況下,通過利用反映噪聲分布特性的特征分布參數(shù)可提高圖像識別速率,這種噪聲來自用于拍攝圖像,氣候狀態(tài)等的攝像機的鏡頭特性。
在上述實施例中,確定表示在功率譜或倒頻譜空間中的分布的特征分布參數(shù)。然而,其它空間例如線性預測系數(shù)的空間,在各倒頻譜和相鄰各幀之間的差的空間以及過零空間都可用作要確定其中分布的空間。
在上述實施例中,確定表示在一種語音特征參數(shù)的空間中的分布的特征分布參數(shù)。然而,可以確定在多種語音特征參數(shù)的各個空間中的特征分布參數(shù)。還可以確定在多種語音特征參數(shù)的一或多個空間中的特征分布參數(shù),以及通過利用這樣確定的特征分布參數(shù)和在其它特征參數(shù)的空間中的特征矢量來進行語音識別。
在上述實施例中,在特征矢量空間中的特征矢量的分布(真實聲音的特征矢量的各估值)被假設為正態(tài)分布,以及采用表示這樣一種分布的特征分布參數(shù)。然而還可以采用其它分布例如對數(shù)正態(tài)概率分布,離散概率分布以及模糊分布作為要利用特征分布參數(shù)表示的分布。
.此外,在上述實施例中,通過利用其中的輸出概率用正態(tài)分布表示的HMM來進行鑒別部分3中的類別鑒別。然而,可以按其它方法,例如通過利用其中的輸出概率用混合的正態(tài)概率分布或離散分布表示的HMM;或者利用正態(tài)概率分布函數(shù)、對數(shù)概率分布函數(shù),多項式函數(shù)、中樞(neural)網(wǎng)絡等,在鑒別部分3中進行類別鑒別。
如上所述,在根據(jù)本發(fā)明的特征抽取裝置和方法中,計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的一個空間時得到的分布的特征分布參數(shù)。然而,例如當輸入數(shù)據(jù)包含噪聲時,可以得到一種反映噪聲分布特性的參數(shù)。
在根據(jù)本發(fā)明的模式識別裝置和方法中,計算一種表示當將輸入數(shù)據(jù)變換映射到輸入數(shù)據(jù)的特征參量的空間時得到的分布的特征分布參數(shù),并將該特征分布參數(shù)進行分類作為預定數(shù)量的類別中的一個類別。因此,例如,當輸入數(shù)據(jù)包含噪聲時,可以得到反映噪聲分布特性的參數(shù)。這樣就使得能夠增加輸入數(shù)據(jù)的識別速率。
權利要求
1.一種特征抽取裝置,抽取輸入數(shù)據(jù)中的特征參量,包含計算裝置,用于計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
2.根據(jù)權利要求1所述的特征抽取裝置,其中的計算裝置計算一表示正態(tài)概率分布的特征分布參數(shù)。
3.根據(jù)權利要求1所述的特征抽取裝置,其中的計算裝置計算一表示對數(shù)正態(tài)概率分布的特征分布參數(shù)。
4.根據(jù)權利要求1所述的特征抽取裝置,其中的計算裝置計算一表示離散概率分布的特征分布參數(shù)。
5.根據(jù)權利要求1所述的特征抽取裝置,其中的計算裝置計算一表示模糊分布的特征分布參數(shù)。
6.根據(jù)權利要求1所述的特征抽取裝置,其中的計算裝置計算在輸入數(shù)據(jù)的多種特征參量中的至少一種的空間中的特征分布參數(shù)。
7.一種特征抽取方法,用于抽取輸入數(shù)據(jù)中的特征參量,包含的步驟有計算一表示當將輸入數(shù)據(jù)進行變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù)。
8.一種模式識別裝置,其通過將該模式分類為預定數(shù)目的類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含計算裝置,用于計算一表示當將輸入數(shù)據(jù)變換映射到輸入數(shù)據(jù)的特征參量的空間中時得到的分布的特征分布參數(shù);以及分類裝置,用于將該特征分布數(shù)據(jù)分類為預定數(shù)量的類別中的一個類別。
9.根據(jù)權利要求8所述的模式識別裝置,其中的計算裝置計算一表示正態(tài)概率分布的特征分布參數(shù)。
10.根據(jù)權利要求8所述的模式識別裝置,其中的計算裝置計算一表示對數(shù)正態(tài)概率分布的特征分布參數(shù)。
11.根據(jù)權利要求8所述的模式識別裝置,其中的計算裝置計算一種表示離散概率分布的特征分布參數(shù)。
12.根據(jù)權利要求8所述的模式識別裝置,其中的計算裝置計算一表示模糊分布的特征分布參數(shù)。
13.根據(jù)權利要求8所述的模式識別裝置,其中的計算裝置計算在輸入數(shù)據(jù)的多種特征參量的至少其中一個的空間中的特征分布參數(shù),以及其中該分類裝置將其余種類的特征參量和特征分布參數(shù)分類為預定數(shù)量類別中的一個類別。
14.根據(jù)權利要求8所述的模式識別裝置,其中的分類裝置通過利用至少一個正交概率分布函數(shù)判別特征分布參數(shù)屬于預定數(shù)量的類別中的哪一個類別。
15.根據(jù)權利要求8所述的模式識別裝置,其中的分類裝置通過利用至少一個多項式函數(shù)判別特征分布參數(shù)屬于預定數(shù)量的類別中的哪一個類別。
16.根據(jù)權利要求8所述的模式識別裝置,其中的分類裝置通過利用至少一種隱藏的馬爾科夫模型方法判別特征分布參數(shù)屬于預定數(shù)量的類別中的哪一個類別。
17.根據(jù)權利要求8所述的模式識別裝置,其中的分類裝置通過利用至少一個中樞網(wǎng)絡判別特征分布參數(shù)屬于預定數(shù)量的類別中的哪一個類別。
18.根據(jù)權利要求8所述的模式識別裝置,其中的輸入數(shù)據(jù)是語音數(shù)據(jù)。
19.根據(jù)權利要求18所述的模式識別裝置,其中的計算裝置通過利用語音數(shù)據(jù)和與噪聲相關的信息計算特征分布參數(shù)。
20.根據(jù)權利要求18所述的模式識別裝置,其中的計算裝置計算一表示正態(tài)概率分布的特征分布參數(shù)。
21.根據(jù)權利要求18所述的模式識別裝置,其中的分類裝置通過利用至少一種隱藏馬爾科夫模型法判別特征分布參數(shù)屬于預定數(shù)量的類別中的哪一個類別。
22.根據(jù)權利要求18所述的模式識別裝置,其中的分類裝置通過利用至少一種中樞網(wǎng)絡判別特征分布參數(shù)屬于預定數(shù)量類別中的哪一個類別。
23.根據(jù)權利要求18所述的模式識別裝置,其中的計算裝置計算一種表示語音數(shù)據(jù)的功率譜空間或倒頻譜空間中的分布的特征分布參數(shù)。
24.一種模式識別方法,用于通過將該模式分類為預定數(shù)量類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含的步驟有計算一種表示當將輸入數(shù)據(jù)變換映射到輸入數(shù)據(jù)的特征參數(shù)的空間中時得到的分布的特征分布參數(shù);以及將特征分布參數(shù)分類為預定數(shù)量類別中的一個類別。
25.一種模式識別裝置,通過將該模式分類為預定數(shù)量類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含幀形成裝置,用于按照預定的間隔抽取部分輸入數(shù)據(jù),并作為1幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù);特征抽取裝置,接收由每一抽取的數(shù)據(jù)組成的1幀數(shù)據(jù),用于輸出一種表示當將一幀數(shù)據(jù)變換映射到該一幀數(shù)據(jù)的特征參量的空間中時得到的分析的特征分布參數(shù);以及分類裝置,用于將一系列的特征分布參數(shù)分類為預定數(shù)量類別中的一個類別。
26.根據(jù)權利要求25所述的模式識別裝置,其中的輸入數(shù)據(jù)是語音數(shù)據(jù)。
27.根據(jù)權利要求25所述的模式識別裝置,其中的特征抽取裝置包含頻譜分析裝置,用于對包含1幀數(shù)據(jù)的數(shù)據(jù)的頻譜進行分析,并輸出該頻譜;噪聲特性計算裝置,用于計算和輸出噪聲特性;以及特征分布參數(shù)計算裝置,用于根據(jù)該頻譜和噪聲特性計算表示1幀數(shù)據(jù)的頻譜分布的特征頻譜參數(shù),并輸出所計算的特征分布參數(shù)。
28.根據(jù)權利要求27所述的模式識別裝置,其中的特征分布參數(shù)是表示在倒頻譜空間中的分布的參數(shù)。
29.根據(jù)權利要求27所述的模式識別裝置,其中的特征分布參數(shù)是表示在功率譜空間中的分布的參數(shù)。
30.根據(jù)權利要求27所述的模式識別裝置,其中的特征分布參數(shù)是表示在頻譜幅值空間中的分布的參數(shù)。
31.根據(jù)權利要求27所述的模式識別裝置,其中的特征抽取裝置還包含數(shù)據(jù)輸入時段檢測裝置,用于檢測其中輸入了數(shù)據(jù)的數(shù)據(jù)輸入時段和其中未輸入該輸入數(shù)據(jù)的未輸入數(shù)據(jù)時段,并將數(shù)據(jù)時段檢測結(jié)果輸出,以及選擇裝置,用于根據(jù)數(shù)據(jù)時段檢測結(jié)果,選擇性地將由頻譜分析裝置輸出的頻譜輸出到噪聲特性計算裝置或者特征分布參數(shù)計算裝置。
32.根據(jù)權利要求31所述的模式識別裝置,其中的噪聲計算裝置根據(jù)在未輸入數(shù)據(jù)的時段中的噪聲輸出數(shù)據(jù)。
33.一種模式識別方法,用于通過將該模式分類為預定數(shù)量類別中的一個類別來識別輸入數(shù)據(jù)的模式,包含幀形成步驟,按照預定間隔抽取部分的輸入數(shù)據(jù),以及按照1幀數(shù)據(jù)輸出每一抽取的數(shù)據(jù);特征抽取步驟,接收由每一抽取數(shù)據(jù)構成的1幀數(shù)據(jù),并輸出一種表示當將1幀數(shù)據(jù)變換映射到1幀數(shù)據(jù)的特征參量的空間中時得到的分析的特征分布參數(shù);以及分類步驟,將一系列的特征分布參數(shù)分類為預定數(shù)量的類別中的一個類別。
34.根據(jù)權利要求33所述的模式識別方法,其中的輸入數(shù)據(jù)是語音數(shù)據(jù)。
35.根據(jù)權利要求33所述的模式識別方法,其中的特征抽取步驟包含頻譜分析步驟,對包含1幀數(shù)據(jù)的數(shù)據(jù)進行分析,并輸出該頻譜;噪聲特性計算步驟,計算和輸出噪聲特性;以及特征分布參數(shù)計算步驟,根據(jù)該頻譜和噪聲特征計算一種表示1幀數(shù)據(jù)的頻譜分布的特征分布參數(shù),并輸出計算的特征分布參數(shù)。
36.根據(jù)權利要求35所述的模式識別方法,其中的特征分布參數(shù)是表示在倒頻譜空間中的分布的參數(shù)。
37.根據(jù)權利要求35所述的模式識別方法,其中的特征分布參數(shù)是表示在功率譜空間中的分布的參數(shù)。
38.根據(jù)權利要求35所述的模式識別方法,其中的特征分布參數(shù)是表示在頻譜幅值空間中分布的參數(shù)。
39.根據(jù)權利要求35所述的模式識別方法,其中的特征抽取步驟還包含數(shù)據(jù)輸入時段檢測步驟,檢測其中輸入了該輸入數(shù)據(jù)的數(shù)據(jù)輸入時段和未輸入該輸入數(shù)據(jù)的未輸入數(shù)據(jù)時段,并輸出數(shù)據(jù)時段檢測結(jié)果;以及選擇步驟,根據(jù)數(shù)據(jù)時段檢測結(jié)果輸出該利用頻譜分析步驟輸出的該頻譜。
40.根據(jù)權利要求39所述的模式識別方法,其中的噪聲特性計算步驟根據(jù)在未輸入數(shù)據(jù)的時段中的噪聲輸出數(shù)據(jù)。
全文摘要
本發(fā)明意在提高語音識別和圖像識別中的識別速率。將作為輸入數(shù)據(jù)表示觀測矢量空間中的某一點的觀測矢量進行變換映射到在特征矢量空間中離散的一點,以及確定表示該分布的特征分布參數(shù)。根據(jù)特征分布參數(shù)進行輸入數(shù)據(jù)的模式識別。
文檔編號G10L15/14GK1216380SQ98125060
公開日1999年5月12日 申請日期1998年10月31日 優(yōu)先權日1997年10月31日
發(fā)明者巖橋直人, 包洪長, 本田等 申請人:索尼公司