專利名稱:發(fā)言者適配的語音識(shí)別和利用基音的注冊(cè)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及語音識(shí)別,并且更具體來說涉及適于基于基音的發(fā)言 者的語音識(shí)別系統(tǒng)。
背景技術(shù):
語音和語言識(shí)別技術(shù)使得配備聲音輸入源(例如麥克風(fēng))的計(jì)算 機(jī)和其他電子裝置能夠解釋人的語言,例如用于抄錄或作為一種與計(jì)
算機(jī)交互的備選方法。正在開發(fā)語言識(shí)別軟件,以在消費(fèi)電子裝置(例 如移動(dòng)電話、游戲平臺(tái)、個(gè)人計(jì)算機(jī)和個(gè)人數(shù)字助理)中使用。在典 型的語言識(shí)別算法中,表示人語言的時(shí)域信號(hào)被分成多個(gè)時(shí)間窗口 , 每個(gè)窗口通過例如快速傅立葉變換(FFT)轉(zhuǎn)換到頻域信號(hào)。然后通 過采用頻譜域信號(hào)的對(duì)數(shù)并且再執(zhí)行另一個(gè)FFT來壓縮此頻域或頻 譜域信號(hào)。根據(jù)壓縮的頻譜(稱為倒語),可以使用統(tǒng)計(jì);溪型來確定 該信號(hào)所表示的語言內(nèi)的音位和上下文。倒譜(c印strum)可以^見為有關(guān) 語言信號(hào)內(nèi)的不同頻帶中的速率變化的信息。對(duì)于語言識(shí)別應(yīng)用,常 常首先使用Mel頻帶來變換頻譜。其結(jié)果稱為Mel頻率倒譜系數(shù)或 MFCC??梢愿鶕?jù)如下公式將以赫茲為單位的頻率f (每秒的周期數(shù)) 轉(zhuǎn)換成mel頻率m: m = (1127.01048Hz)loge(l+f/700)。相似地,可以
使用f = (700 Hz)(e^m,眺-1)將mel頻率m轉(zhuǎn)換成以赫茲為單位的頻 率f。
在語音識(shí)別中,常常使用 一組三角形濾波器函數(shù)來對(duì)頻語濾波。 該濾波器函數(shù)將頻譜分成一組部分重疊的頻帶,該組頻帶位于最小頻
率/min與最大頻率/,之間。每個(gè)濾波器函數(shù)以感興趣的頻率范圍內(nèi)的
特定頻率為中心。當(dāng)轉(zhuǎn)換到mel頻率標(biāo)度時(shí),每個(gè)濾波器函數(shù)可以表 示為一組mel濾波器組,其中每個(gè)mel濾波器組由如下公式給 出
,其中索引i指代濾波器組的編號(hào),以及m和<formula>formula see original document page 6</formula>
m是對(duì)應(yīng)于和的me 1頻率。
/,和/,的選擇決定語音識(shí)別算法所使用的濾波器組。通常,/, 和由正在使用的語音識(shí)別模型來固定。語音識(shí)別的一個(gè)問題在于,
音信號(hào)。為了對(duì)此進(jìn)行補(bǔ)償,語音識(shí)別系統(tǒng)可以在濾波之前執(zhí)行語音 信號(hào)的聲道規(guī)范化。舉例來說,規(guī)范化可以使用這種類型的函數(shù)
<formula>formula see original document page 6</formula>其中f是規(guī)范化的頻率,以及a是調(diào)整規(guī)范化函數(shù)的曲率的參數(shù)。 具有N個(gè)不同mel頻帶的語言信號(hào)的分量可以表示為具有N個(gè)
分量的矢量A。矢量A的每個(gè)分量是語言信號(hào)的mel頻率系數(shù)。矢量
A的規(guī)范化通常包括如下類型的矩陣變換
F' = [M] ' F + B,其中[M]是由如下公式給出的NxN矩陣
A'A/22
以及B是如下/>式給出的偏置矢量:
6
<formula>formula see original document page 7</formula>
F和F是如下形式的矢量:
<formula>formula see original document page 7</formula>
其中離線計(jì)算矩陣系數(shù)Mij和矢量分量5i,以使HMM系統(tǒng)中觀 察的語言序列的概率最大。通常,對(duì)于給定的幀和給定的特征F,按如
+ J。規(guī)范化的
下高斯函數(shù)計(jì)算觀察的概率 "A
矢量F的每個(gè)分量是^L范化的語言信號(hào)的mel頻率分量。
眾所周知,男性和女性發(fā)言者產(chǎn)生由不同mel頻率系數(shù)(MFCC) 表征的語音信號(hào)。在現(xiàn)有技術(shù)中,語音識(shí)別系統(tǒng)已經(jīng)使用訓(xùn)練以在發(fā) 言者是男性還是女性之間進(jìn)行鑒別,并基于發(fā)言者是男性還是女性來 調(diào)整語音識(shí)別中所用的聲音^t型。通常,通過讓多個(gè)(例如10個(gè)) 男性發(fā)言者和相等數(shù)量的女性發(fā)言者說相同的詞以產(chǎn)生語音樣本來 訓(xùn)練聲音模型。將基于語音樣本的特征分析與用于語音識(shí)別的超才莫型 組合在一起。
上面的規(guī)范化的主要缺點(diǎn)在于,矢量F可能具有多達(dá)40個(gè)分量。 因此,矩陣[M]可能具有多達(dá)1600個(gè)系數(shù)。這種大量系數(shù)的計(jì)算可能 花費(fèi)太長(zhǎng)時(shí)間來調(diào)整語音識(shí)別算法。
而且,因?yàn)楝F(xiàn)有技術(shù)的語音識(shí)別系統(tǒng)和方法使用/_、 /^、m/皿 和m/m^的固定值來進(jìn)行濾波和規(guī)范化,所以它們并未充分地考慮到 發(fā)言者之間聲道長(zhǎng)度方面的變化。因此,語言識(shí)別精確度可能差于最 優(yōu)情況。因此,需要一種克服此類缺點(diǎn)的語音識(shí)別系統(tǒng)和方法。
發(fā)明內(nèi)容
通過本發(fā)明涉及語音識(shí)別方法和系統(tǒng)的實(shí)施例克服了與現(xiàn)有技 術(shù)關(guān)聯(lián)的缺點(diǎn)。根據(jù)本發(fā)明的實(shí)施例,獲取發(fā)言者的發(fā)言的語音信號(hào)。 根據(jù)發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音?;谶\(yùn)行時(shí)基音將發(fā)言者歸 類,并基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)。然后基于聲 音^)t型參數(shù)來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。
通過參考結(jié)合附圖的下文詳細(xì)描述可以容易地理解本發(fā)明的技
術(shù),其中
圖1是圖示根據(jù)本發(fā)明實(shí)施例的語音識(shí)別算法的流程圖。 圖2是圖示根據(jù)本發(fā)明實(shí)施例的語音識(shí)別系統(tǒng)的框圖。
具體實(shí)施例方式
雖然出于說明的目的,下文詳細(xì)描述包含許多特定細(xì)節(jié),但是本 領(lǐng)域技術(shù)人員將認(rèn)識(shí)到對(duì)下文細(xì)節(jié)的許多變化和備選方案均在本發(fā) 明的范圍內(nèi)。因此,下文描述的本發(fā)明的實(shí)施例是在不失一般性且不 對(duì)要求權(quán)利的本發(fā)明施加任何限制的前提下提出的。
根據(jù)本發(fā)明實(shí)施例,語音識(shí)別方法100可以如圖1A所示的進(jìn)行。 在102,獲取來自發(fā)言者的發(fā)言的語音信號(hào)。可以釆用任何常規(guī)方式 來獲取語音信號(hào),例如使用麥克風(fēng),并使用將語音信號(hào)制作成數(shù)字格 式的波形數(shù)字轉(zhuǎn)換器。可以通過以大于工作特征分析頻率的采樣頻率 對(duì)語音信號(hào)進(jìn)行過釆樣(over-sampling)來獲取語音信號(hào)。具體來說,采 樣頻率可以大于訓(xùn)練時(shí)間語言采樣率。通過非限制性實(shí)例,如果通過
12千赫的工作特征分析頻率來表征語音信號(hào),則可以采用例如16-22 千赫的采樣頻率來對(duì)該信號(hào)釆樣。
在104,確定發(fā)言的運(yùn)行時(shí)基音值A(chǔ)un。有許多方法來確定運(yùn)行 時(shí)基音Pnm。例如,Aun可以是按如下公式在包括時(shí)間f的給定時(shí)間窗
口上計(jì)算的移動(dòng)平均基音pavg(0:
其中求和是對(duì)在基音概率高于預(yù)定閾值的時(shí)間窗口期間在時(shí)間
1產(chǎn){1-(^-1),"(>[ -2),...,1:}處所取的NP個(gè)基音測(cè)量值進(jìn)行的。計(jì)算基 音概率的一種簡(jiǎn)單方式是
, cwre/oto"(0),其中 w十s 、尸s w是分析
語言信號(hào)的相關(guān)性。或者,可以通過例如如下公式將運(yùn)行時(shí)基音p皿 與當(dāng)前基音相關(guān)
(/>式2 ) P柳(0-。p朋G-i)+(i一c/KO),for/X)
其中C是O與l之間的常數(shù),/7(t)是時(shí)間t處的基音的當(dāng)前值。常
數(shù)c的值與窗口大小相關(guān)。例如,c=0的值對(duì)應(yīng)于無窗口 (其中
c=i的值對(duì)應(yīng)于無窮窗口 (其中p"'"H^/"/)。注意,對(duì)于
t〉0的值,t之前的時(shí)間的基音值構(gòu)成運(yùn)行時(shí)基音prun(t)的值。這可以
在c-0.6的情況中以數(shù)值示例說明。在此情況中,公式2得到 p"o)=p(o)
P柳(l) = + ("c).p(l) - 0.6柳+ 0.4 )(1)
p"2) = ) + (l咖(2) = 0.6*(0., + 0.4'p(1)) + 0.4;p(2)
在本發(fā)明的一些實(shí)施例中,如果基音概率高于某個(gè)閾值(例如高 于約0.4),則可以根據(jù)公式2來計(jì)算Aua(t)。
舉例來說,圖1A的106處執(zhí)行的發(fā)言者歸類可以基于發(fā)言者的 年齡和/或性別來進(jìn)行。例如,根據(jù)訓(xùn)練數(shù)據(jù),可以確定男性、女性和 小孩發(fā)言者的平均基音落在不同的范圍內(nèi)??梢杂烧Z音信號(hào)的當(dāng)前基 音所落在的基音范圍來將發(fā)言者歸類。舉例來說,成年男性發(fā)言者具 有約120Hz與約160Hz之間的平均基音,成年女性發(fā)言者具有約180 Hz與約220 Hz之間的平均基音,以及小孩發(fā)言者具有大于約220 Hz 的平均基音。如果當(dāng)前基音是190 Hz,則發(fā)言者被歸類為女性發(fā)言者。
在這些情況的任何一種中,可以將發(fā)言者的平均基音作為矢量F中的 特征來包括。
一旦將發(fā)言者歸類,則可以按108所指示的相應(yīng)地選擇聲音;f莫型 的參數(shù)。然后在110,在語音識(shí)別分析中使用這些參數(shù)。參數(shù)的選擇 取決于語音識(shí)別分析中所用的聲音沖莫型的類型。例如,語音識(shí)別分析 可以使用一組濾波器函數(shù)來對(duì)語音信號(hào)濾波。濾波器函數(shù)(例如,三 角形濾波器函數(shù))將頻譜分成一組部分重疊的頻帶。每個(gè)語音識(shí)別分 析使用由不同的最大頻率/_和不同的最小頻率/_定義的濾波器組。 /目和/mm可以是赫茲標(biāo)度的頻率或mel標(biāo)度的基音。最大頻率/_指 濾波器組的頻率范圍的上限,而最小頻率/_指濾波器組的頻率范圍 的下限。參數(shù)/ ^和/皿的值可以在語音識(shí)別分析期間在任何時(shí)間瞬間 (例如語音識(shí)別分析期間的任何時(shí)間窗口)動(dòng)態(tài)地進(jìn)行調(diào)整。語音識(shí)
別分析產(chǎn)生一個(gè)或多個(gè)語言單元的識(shí)別的識(shí)別概率尸r。語言單元可以
是短語、詞或詞的子單元(例如音位)。
舉例來說, 一旦發(fā)言者被歸類為男人、女人或小孩,則可以相應(yīng) 地選擇用于對(duì)發(fā)言進(jìn)行語音識(shí)別分析的值/^和/^。例如,如果假定 發(fā)言者是男人,則/^可以約為70Hz而/^可以約為3800 Hz。如果 假定發(fā)言者是女人,則/_可以約為70 Hz而厶m可以約為4200 Hz。 如果々i定發(fā)言者是小孩,則/_可以約為90 Hz而/^可以約為4400 Hz。
在110,基于調(diào)整的模型參數(shù)從對(duì)發(fā)言的語音分析得到識(shí)別概率
尸r。舉例來說且不失一般性地,語音識(shí)別分析可以使用隱藏的馬爾可
夫模型(HMM)來確定給定語音信號(hào)中的語言單元。語言單元可以 是詞、雙詞組合或子詞單元(例如音位等)。HMM可以由如下項(xiàng)來表 征
L,表示系統(tǒng)的多個(gè)可能狀態(tài);
M,表示系統(tǒng)中存在的高斯的總數(shù);
N,表示給定時(shí)間處的不同可觀察特征的數(shù)量;這些特征可以是 語言信號(hào)的頻鐠上的(即頻域)或時(shí)間上的(時(shí)域)特征;
A={aij},狀態(tài)過渡概率分布,其中每個(gè)ay表示如果系統(tǒng)最初在 時(shí)間t處于第i狀態(tài),則系統(tǒng)將在時(shí)間t+l過渡到第j狀態(tài)的概率;
B={bj(k)},第j個(gè)狀態(tài)的觀察特征概率分布,其中每個(gè)bj(k)表示 當(dāng)系統(tǒng)處于第j個(gè)狀態(tài)時(shí)第k個(gè)特征的觀察值的概率分布;以及
7T ={7Ii},最初狀態(tài)分布,其中每個(gè)分量兀i表示系統(tǒng)將在某個(gè)
最初時(shí)間處于第i個(gè)狀態(tài)的概率。
隱藏的馬爾可夫模型可以應(yīng)用于語音信號(hào)以解決一個(gè)或多個(gè)基 本問題,包括(1)從語音信號(hào)獲得給定觀察序列的概率;(2)給定 觀察序列,什么對(duì)應(yīng)狀態(tài)序列最好地解釋該觀察序列;以及(3)如 何調(diào)整該組才莫型參數(shù)A、 BTi以使得給定觀察序列的概率最大化。
將HMM應(yīng)用于語言識(shí)別由例如Lawrence Rabiner在1989年2 月正EE學(xué)報(bào)第2期巻77的"語言識(shí)別中隱藏的馬爾可夫模型和選擇 的應(yīng)用的教禾呈"("A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" in Proceedings of the IEEE, Vol. 77, No. 2, February 1989,其通過引用基于所有目的結(jié)合于本文)中進(jìn)行了 詳細(xì)描述。
在110處實(shí)現(xiàn)的語音識(shí)別分析可以通過公知為音位(phoneme)的 多個(gè)可識(shí)別才莫式來表征語言。這些音位的每一個(gè)可以分成多個(gè)部分, 例如開始、中間和結(jié)尾部分。注意,中間部分通常是最穩(wěn)定的,因?yàn)?開始部分常常受到前一個(gè)音位的影響,而結(jié)尾部分受到后一個(gè)音位的 影響。不同部分的音位由頻域特征來表征,這些特征可以通過信號(hào)的 適當(dāng)統(tǒng)計(jì)分析來識(shí)別。統(tǒng)計(jì)模型常常使用高斯概率分布函數(shù)來預(yù)測(cè)特 征的每個(gè)不同狀態(tài)的概率,所述特征構(gòu)成與不同音位的不同部分對(duì)應(yīng) 的信號(hào)部分。 一個(gè)HMM狀態(tài)可以包含一個(gè)或多個(gè)高斯。給定可能狀 態(tài)的特定高斯,例如第k個(gè)高斯可以由一組N個(gè)平均值jUki和方差 Oki表示。在典型的語言識(shí)別算法中,確定給定時(shí)間窗口的哪個(gè)高斯
是最大的一個(gè)。根據(jù)最大高斯,可以推斷時(shí)間窗口的最大可能音位。
舉例來說,在110的語音識(shí)別分析可以分析時(shí)域信號(hào)以獲得N個(gè)
不同可觀察信號(hào)特征xo..... xn,其中n=N-l。系統(tǒng)的觀察的特征
可以表示為具有分量x。..... Xn的矢量。這些分量可以是給定觀察
的語言信號(hào)的頻語上、倒譜上或時(shí)間上的特征。
舉例來說且不作為本發(fā)明實(shí)施例的限制,分量Xo..... Xn可以
是在102處獲得的語音信號(hào)的mel頻率倒譜系數(shù)(MFCC)。倒譜是如 同作為信號(hào)來取分貝頻譜的傅立葉變換(FT)的結(jié)果。時(shí)域語言信號(hào) 的倒鐠可以在言語上定義為該時(shí)域信號(hào)的傅立葉變換的對(duì)數(shù)(具有去 包裹的相位(unwrapped phase))的傅立葉變換。時(shí)域信號(hào)S(t)的倒譜 可以在數(shù)學(xué)上表示為FT(log(FT(S(t)))+j2nq),其中q是將復(fù)對(duì)數(shù)函數(shù) 的角度或虛數(shù)部分正確去包裹所需的整數(shù)。算法上為倒語可以由如 下操作序列來生成信號(hào)一>FT~~〉對(duì)數(shù) 一> 相位去包裹一〉FT 一〉倒語.
有復(fù)倒語和實(shí)倒譜。實(shí)倒譜使用為實(shí)值定義的對(duì)數(shù)函數(shù),同時(shí)復(fù) 倒i瞽使用為復(fù)值定義的復(fù)對(duì)數(shù)函數(shù)。復(fù)倒譜具有有關(guān)初始頻譜的量值 和相位的信息,從而能夠重構(gòu)信號(hào)。實(shí)倒譜僅使用頻語的量值的信息。 舉例說明且不失一般性地,在110處實(shí)現(xiàn)的語音識(shí)別分析可以使用實(shí) 倒鐠。
分量x。..... Xn的組合的某些模式對(duì)應(yīng)于語言單元(例如詞或
短語)或子單元(例如音節(jié)、音位或詞的其他子單元)。每個(gè)單元或子 單元可以視為系統(tǒng)的狀態(tài)。系統(tǒng)的給定高斯(笫k個(gè)高斯)的概率密 度函數(shù)厶Ov..;O可以是任何類型的概率密度函數(shù),例如具有如下形式 的高斯函數(shù)
' i=l.....N,k=l....M。
在上面的公式中,"i"是特征的索引,以及"k"是高斯的索引。 在公式(1)中,下標(biāo)k是高斯函數(shù)的索引??赡苡袛?shù)百至數(shù)十萬個(gè) 高斯為語言識(shí)別算法所使用。數(shù)量Mid是系統(tǒng)的第k個(gè)高斯的特征Xi 的平均值。數(shù)量《是第k個(gè)高斯中的Xi的方差。可以將一個(gè)或多個(gè) 高斯與一個(gè)或多個(gè)不同的狀態(tài)關(guān)聯(lián)。例如,可以有L個(gè)不同的狀態(tài), 其包含系統(tǒng)中的總數(shù)M個(gè)高斯。數(shù)量ju ki是在訓(xùn)練數(shù)據(jù)的所有時(shí)間窗 口上屬于厶0c。.. )的Xi的所有測(cè)量值的平均值,而 是用于計(jì)算m ki 的對(duì)應(yīng)測(cè)量值的方差。
公式(1)可以計(jì)算每個(gè)高斯的概率以得到對(duì)應(yīng)的識(shí)別概率尸r。 根據(jù)具有最大概率的高斯,可以構(gòu)建該特定時(shí)間窗口的最可能的狀 態(tài)、詞、音位、字符等。注意,也可以使用給定時(shí)間窗口的最可能的 狀態(tài)來幫助確定較早或較晚時(shí)間窗口的最可能的狀態(tài),因?yàn)樗鼈兛梢?確定其中發(fā)生該狀態(tài)的上下文。
根據(jù)本發(fā)明的實(shí)施例,按如上所述來工作的圖IA或IB中所示 類型的識(shí)別方法(例如,語音識(shí)別方法)可以作為信號(hào)處理設(shè)備200 的一部分來實(shí)現(xiàn),如圖2所示。系統(tǒng)200可以包括處理器201和存儲(chǔ) 器202 (例如,RAM、 DRAM、 ROM等)。此外,如果要實(shí)現(xiàn)并行處 理,則信號(hào)處理設(shè)備200可以具有多個(gè)處理器201。存儲(chǔ)器202包括 按如上所述來配置的數(shù)據(jù)和代碼。確切地來說,存儲(chǔ)器包括表示信號(hào) 特征204的數(shù)據(jù)和概率函數(shù)206,每個(gè)概率函數(shù)206可以包括代碼、 數(shù)據(jù)或代碼與數(shù)據(jù)的某種組合。
設(shè)備200還可以包括公知的支持功能210,例如輸入/輸出(I/O) 部件2U、電源(P/S)212、時(shí)鐘(CLK) 213和高速緩存214。設(shè)備 200可以可選地包括用于存儲(chǔ)程序和/或數(shù)據(jù)的海量存儲(chǔ)裝置215,例 如磁盤驅(qū)動(dòng)器、CD-ROM驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器等。控制器還可以可選 地包括用于幫助控制器200與用戶之間交互的顯示單元216和用戶接
口單元218。顯示單元216可以采用顯示文本、數(shù)字、圖形符號(hào)或圖 像的陰極射線管(CRT)或平板屏幕的形式。用戶接口 218可以包括 鍵盤、鼠標(biāo)、游戲桿、光筆或其他裝置。此外,用戶接口218可以包 括用于對(duì)待分析信號(hào)進(jìn)行直接捕獲的麥克風(fēng)、視頻攝像器或其他信號(hào) 換能裝置。處理器201、存儲(chǔ)器202和系統(tǒng)200的其他組件可以經(jīng)由 圖2所示的系統(tǒng)總線220彼此交換信號(hào)(例如代碼指令和數(shù)據(jù))。麥 克風(fēng)222可以通過I/O功能211耦合到設(shè)備200。
如本文所使用的,術(shù)語I/O —般指將數(shù)據(jù)傳輸?shù)较到y(tǒng)200或從系
序、操作或裝置。每次傳輸是來自一個(gè)裝置的輸出和對(duì)另一個(gè)裝置的 輸入。外設(shè)包括只輸入裝置,例如鍵盤和鼠標(biāo);只輸出裝置,例如打 印機(jī);以及例如可以用作輸入和輸出裝置的可寫CD-ROM的裝置。 術(shù)語"外設(shè)"包括外部裝置,例如鼠標(biāo)、鍵盤、打印機(jī)、監(jiān)視器、麥 克風(fēng)、攝像頭、外部Zip驅(qū)動(dòng)器或掃描儀,以及內(nèi)部裝置,例如CD-ROM 驅(qū)動(dòng)器、CD-R驅(qū)動(dòng)器或內(nèi)部調(diào)制解調(diào)器或如閃速存儲(chǔ)器讀取器/寫入 器、硬盤的其他外設(shè)。
處理器201可以執(zhí)行程序204的程序代碼指令中的對(duì)信號(hào)數(shù)據(jù) 206和/或概率的信號(hào)識(shí)別,程序204由存儲(chǔ)器202存儲(chǔ)并檢索并由處 理器模塊201執(zhí)行。程序203的代碼部分可以遵循多種不同編程語言 (例如匯編、C++、 JAVA或多種其他語言)的任何一種。處理器沖莫塊 201形成在執(zhí)行例如程序代碼204的程序時(shí)成為專用計(jì)算^/L的通用計(jì) 算機(jī)。雖然本文中將程序代碼204描述為以軟件形式實(shí)現(xiàn)并在通用計(jì) 算機(jī)上執(zhí)行,但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,作為備選方式,該任務(wù) 管理方法可以使用硬件、例如專用集成電路(ASIC)或其他硬件電路 來實(shí)現(xiàn)。同樣地,應(yīng)該理解本發(fā)明實(shí)施例可以全部或部分地以軟件、 硬件或二者的某種組合來實(shí)現(xiàn)。
在一個(gè)實(shí)施例中,其中程序代碼204可以包括一組處理器可讀指 令,該組處理器可讀指令實(shí)現(xiàn)與圖1A的方法100或圖1B的方法110
具有共有特征的方法。程序204—般可以包括一個(gè)或多個(gè)指令,該一 個(gè)或多個(gè)指令指示處理器201獲取發(fā)言者發(fā)言的語音信號(hào);根椐發(fā)言 的語音信號(hào)確定運(yùn)行時(shí)基音(runtime pitch);基于運(yùn)行時(shí)基音將發(fā)言者 歸類;基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音才莫型參數(shù);以及基于聲 音^f莫型參數(shù)來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。
舉例來說,程序204可以是較大的整體程序(例如計(jì)算機(jī)游戲的 程序)的一部分。在本發(fā)明的某些實(shí)施例中,程序代碼204可以在提供 語言樣本的初始化階段(例如在游戲開始時(shí))提示發(fā)言者說某個(gè)詞或 短語(例如發(fā)言者的姓名)。根據(jù)此樣本,程序204可以按參考圖1 所描述的進(jìn)行,以查找該發(fā)言者的最佳參數(shù)(例如/_和/_ ),并使 用這些參數(shù)來運(yùn)行110的語音識(shí)別??梢栽诔绦虻贸鼋Y(jié)果之后保存這 些參數(shù),并在發(fā)言者再次使用該程序時(shí)使用。
本發(fā)明的實(shí)施例提供更魯棒且更精確的語言識(shí)別。在采用聲音模 型參數(shù)選擇的語言識(shí)別的一個(gè)示例中,對(duì)單個(gè)女性發(fā)言者使用基于基 音的發(fā)言者歸類產(chǎn)生了 94.8%的詞精確度。不采用聲音^^型參數(shù)選擇 的常規(guī)語言識(shí)別算法,對(duì)于同 一個(gè)女性發(fā)言者使用基于基音的發(fā)言者 歸類僅達(dá)到86.3%的詞精確度。
雖然上文是對(duì)本發(fā)明優(yōu)選實(shí)施例的完整描述,但是還可以使用多 種備選方案、修改和等效物。因此,本發(fā)明的范圍應(yīng)該不是參照上文 描述來確定的,而是應(yīng)該參照所附權(quán)利要求連同其等效物的完整范圍 來確定??梢詫⒈疚拿枋龅娜魏翁卣?無論是否是優(yōu)選的)與本文描 述的任何其他特征(無論是否是優(yōu)選的)組合。在下文的權(quán)利要求中, 除非另行明確指示,否則不定冠詞"一個(gè)"指該冠詞后面為一個(gè)或多 個(gè)項(xiàng)目的數(shù)量。所附權(quán)利要求不應(yīng)解釋為包括部件加功能的限制,除 非在給定的權(quán)利要求中使用短語"用于...的部件"來明確指出此類限 制。
權(quán)利要求
1. 一種用于語音識(shí)別的方法,所述方法包括:獲取發(fā)言者的發(fā)言的語音信號(hào);根據(jù)所述發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音;基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類;基于所述發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù);以及基于所述聲音模型參數(shù)來執(zhí)行對(duì)所述發(fā)言的語音識(shí)別分析。
2. 如權(quán)利要求1所述的方法,其中確定所述運(yùn)行時(shí)基音包括通過如下公式確定時(shí)間t處的移動(dòng)平均基音/ avg(0:"'逆^ ',其中求和是對(duì)在時(shí)間窗口期間在時(shí)間&處所取的NP個(gè)基音測(cè)量值進(jìn)行的。
3. 如權(quán)利要求2所述的方法,其中所述基音/^i)中的每一個(gè)基音都高于預(yù)定閾值。
4. 如權(quán)利要求2所述的方法,其中確定所述運(yùn)行時(shí)基音包括如下 類型的計(jì)算/^(^c'/u(卜l) + (1-c'p0),其中c是0與1之間的常數(shù),p(f)是時(shí)間 f處的當(dāng)前基音值。
5. 如權(quán)利要求1所述的方法,其中將所述發(fā)言者歸類包括確定所 述發(fā)言者的年齡和/或性別。
6. 如權(quán)利要求5所述的方法,其中確定所述發(fā)言者的年齡和/或 性別包括確定所述運(yùn)行時(shí)基音是否落在一個(gè)范圍內(nèi),其中所述范圍 取決于發(fā)言者的年齡和/或性別。
7. 如權(quán)利要求5所述的方法,其中確定所述發(fā)言者的年齡和/或 性別包括根振所述基音確定所述發(fā)言者是男性、女性還是小孩發(fā)言 者。
8. 如權(quán)利要求1所述的方法,其中所述一個(gè)或多個(gè)聲音才莫型參數(shù) 包括執(zhí)行所述語音識(shí)別分析時(shí)所用的濾波器組的最大頻率/_和最小 頻率/i。
9. 如權(quán)利要求8所述的方法,其中/_和/^的值^^于在基于 所述運(yùn)行時(shí)基音將所述發(fā)言者歸類期間確定的發(fā)言者的性別和/或年 齡來選擇的。
10. 如權(quán)利要求8所述的方法,其中/_和/^的值是基于在基于 所述運(yùn)行時(shí)基音將所述發(fā)言者歸類期間,所述發(fā)言者是男性、女性還 是小孩發(fā)言者來選擇的。
11. 如權(quán)利要求8所述的方法,其中在所述識(shí)別期間的任何時(shí)間 瞬間動(dòng)態(tài)地調(diào)整所述和。
12. 如權(quán)利要求l所述的方法,還包括存儲(chǔ)所述發(fā)言者類別和/ 或基于所述發(fā)言者的類別的一個(gè)或多個(gè)聲音才莫型參數(shù),并將所述發(fā)言 者的所述發(fā)言者類別和/或基于所述發(fā)言者的類別的一個(gè)或多個(gè)聲音 模型參數(shù)與特定發(fā)言者關(guān)聯(lián)。
13. 如權(quán)利要求11所述的方法,還包括在對(duì)發(fā)言者進(jìn)行后續(xù)語 音識(shí)別分析期間,使用所存儲(chǔ)的發(fā)言者類別和/或基于所述發(fā)言者的類 別的所述一個(gè)或多個(gè)聲音才莫型參數(shù)。
14. 一種語音識(shí)別系統(tǒng),包括 適于獲取語音信號(hào)的接口; 耦合到所述接口的一個(gè)或多個(gè)處理器;以及 耦合到所述接口和所述處理器的存儲(chǔ)器,所述存儲(chǔ)器中包含配置成實(shí)現(xiàn)語音識(shí)別的方法的一組處理器可讀指令,所述處理器可讀指令 包括用于獲取發(fā)言者的發(fā)言的語音信號(hào)的指令;用于根據(jù)所述發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音的指令;基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類;用于基于所述發(fā)言者的類別來調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)的 指令;以及用于基于所述聲音模型參數(shù)來執(zhí)行對(duì)所述發(fā)言的語音識(shí)別分析 的指令。
全文摘要
公開語音識(shí)別方法和系統(tǒng)。獲取發(fā)言者的發(fā)言的語音信號(hào)。根據(jù)發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音?;谶\(yùn)行時(shí)基音將發(fā)言者歸類,并基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)??稍谒鲎R(shí)別期間的任何時(shí)間瞬間進(jìn)行參數(shù)調(diào)整。然后基于聲音模型來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。
文檔編號(hào)G10L15/00GK101390155SQ200780006100
公開日2009年3月18日 申請(qǐng)日期2007年2月6日 優(yōu)先權(quán)日2006年2月21日
發(fā)明者R·陳 申請(qǐng)人:索尼電腦娛樂公司