發(fā)言者適配的語音識(shí)別和利用基音的注冊(cè)的制作方法

文檔序號(hào)：2830435閱讀：489來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：發(fā)言者適配的語音識(shí)別和利用基音的注冊(cè)的制作方法
技術(shù)領(lǐng)域：
本申請(qǐng)涉及語音識(shí)別，并且更具體來說涉及適于基于基音的發(fā)言者的語音識(shí)別系統(tǒng)。
背景技術(shù)：
語音和語言識(shí)別技術(shù)使得配備聲音輸入源(例如麥克風(fēng))的計(jì)算機(jī)和其他電子裝置能夠解釋人的語言，例如用于抄錄或作為一種與計(jì)
算機(jī)交互的備選方法。正在開發(fā)語言識(shí)別軟件，以在消費(fèi)電子裝置(例如移動(dòng)電話、游戲平臺(tái)、個(gè)人計(jì)算機(jī)和個(gè)人數(shù)字助理)中使用。在典型的語言識(shí)別算法中，表示人語言的時(shí)域信號(hào)被分成多個(gè)時(shí)間窗口，每個(gè)窗口通過例如快速傅立葉變換(FFT)轉(zhuǎn)換到頻域信號(hào)。然后通過采用頻譜域信號(hào)的對(duì)數(shù)并且再執(zhí)行另一個(gè)FFT來壓縮此頻域或頻譜域信號(hào)。根據(jù)壓縮的頻譜(稱為倒語)，可以使用統(tǒng)計(jì);溪型來確定該信號(hào)所表示的語言內(nèi)的音位和上下文。倒譜(c印strum)可以^見為有關(guān) 語言信號(hào)內(nèi)的不同頻帶中的速率變化的信息。對(duì)于語言識(shí)別應(yīng)用，常常首先使用Mel頻帶來變換頻譜。其結(jié)果稱為Mel頻率倒譜系數(shù)或 MFCC?？梢愿鶕?jù)如下公式將以赫茲為單位的頻率f (每秒的周期數(shù)) 轉(zhuǎn)換成mel頻率m: m = (1127.01048Hz)loge(l+f/700)。相似地，可以
使用f = (700 Hz)(e^m，眺-1)將mel頻率m轉(zhuǎn)換成以赫茲為單位的頻率f。
在語音識(shí)別中，常常使用一組三角形濾波器函數(shù)來對(duì)頻語濾波。該濾波器函數(shù)將頻譜分成一組部分重疊的頻帶，該組頻帶位于最小頻
率/min與最大頻率/,之間。每個(gè)濾波器函數(shù)以感興趣的頻率范圍內(nèi)的
特定頻率為中心。當(dāng)轉(zhuǎn)換到mel頻率標(biāo)度時(shí)，每個(gè)濾波器函數(shù)可以表示為一組mel濾波器組，其中每個(gè)mel濾波器組由如下公式給出
，其中索引i指代濾波器組的編號(hào)，以及m和<formula>formula see original document page 6</formula>
m是對(duì)應(yīng)于和的me 1頻率。
/,和/,的選擇決定語音識(shí)別算法所使用的濾波器組。通常，/，和由正在使用的語音識(shí)別模型來固定。語音識(shí)別的一個(gè)問題在于，
音信號(hào)。為了對(duì)此進(jìn)行補(bǔ)償，語音識(shí)別系統(tǒng)可以在濾波之前執(zhí)行語音信號(hào)的聲道規(guī)范化。舉例來說，規(guī)范化可以使用這種類型的函數(shù)
<formula>formula see original document page 6</formula>其中f是規(guī)范化的頻率，以及a是調(diào)整規(guī)范化函數(shù)的曲率的參數(shù)。具有N個(gè)不同mel頻帶的語言信號(hào)的分量可以表示為具有N個(gè)
分量的矢量A。矢量A的每個(gè)分量是語言信號(hào)的mel頻率系數(shù)。矢量
A的規(guī)范化通常包括如下類型的矩陣變換
F' = [M] ' F + B,其中[M]是由如下公式給出的NxN矩陣
A'A/22
以及B是如下/>式給出的偏置矢量:
6
<formula>formula see original document page 7</formula>
F和F是如下形式的矢量:
<formula>formula see original document page 7</formula>
其中離線計(jì)算矩陣系數(shù)Mij和矢量分量5i，以使HMM系統(tǒng)中觀察的語言序列的概率最大。通常，對(duì)于給定的幀和給定的特征F,按如
+ J。規(guī)范化的
下高斯函數(shù)計(jì)算觀察的概率 "A
矢量F的每個(gè)分量是^L范化的語言信號(hào)的mel頻率分量。
眾所周知，男性和女性發(fā)言者產(chǎn)生由不同mel頻率系數(shù)(MFCC) 表征的語音信號(hào)。在現(xiàn)有技術(shù)中，語音識(shí)別系統(tǒng)已經(jīng)使用訓(xùn)練以在發(fā) 言者是男性還是女性之間進(jìn)行鑒別，并基于發(fā)言者是男性還是女性來調(diào)整語音識(shí)別中所用的聲音^t型。通常，通過讓多個(gè)(例如10個(gè)) 男性發(fā)言者和相等數(shù)量的女性發(fā)言者說相同的詞以產(chǎn)生語音樣本來訓(xùn)練聲音模型。將基于語音樣本的特征分析與用于語音識(shí)別的超才莫型組合在一起。
上面的規(guī)范化的主要缺點(diǎn)在于，矢量F可能具有多達(dá)40個(gè)分量。因此，矩陣[M]可能具有多達(dá)1600個(gè)系數(shù)。這種大量系數(shù)的計(jì)算可能花費(fèi)太長(zhǎng)時(shí)間來調(diào)整語音識(shí)別算法。
而且，因?yàn)楝F(xiàn)有技術(shù)的語音識(shí)別系統(tǒng)和方法使用/_、 /^、m/皿和m/m^的固定值來進(jìn)行濾波和規(guī)范化，所以它們并未充分地考慮到發(fā)言者之間聲道長(zhǎng)度方面的變化。因此，語言識(shí)別精確度可能差于最優(yōu)情況。因此，需要一種克服此類缺點(diǎn)的語音識(shí)別系統(tǒng)和方法。

發(fā)明內(nèi)容
通過本發(fā)明涉及語音識(shí)別方法和系統(tǒng)的實(shí)施例克服了與現(xiàn)有技術(shù)關(guān)聯(lián)的缺點(diǎn)。根據(jù)本發(fā)明的實(shí)施例，獲取發(fā)言者的發(fā)言的語音信號(hào)。根據(jù)發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音?；谶\(yùn)行時(shí)基音將發(fā)言者歸類，并基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)。然后基于聲音^)t型參數(shù)來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。

通過參考結(jié)合附圖的下文詳細(xì)描述可以容易地理解本發(fā)明的技
術(shù)，其中
圖1是圖示根據(jù)本發(fā)明實(shí)施例的語音識(shí)別算法的流程圖。圖2是圖示根據(jù)本發(fā)明實(shí)施例的語音識(shí)別系統(tǒng)的框圖。
具體實(shí)施例方式
雖然出于說明的目的，下文詳細(xì)描述包含許多特定細(xì)節(jié)，但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到對(duì)下文細(xì)節(jié)的許多變化和備選方案均在本發(fā) 明的范圍內(nèi)。因此，下文描述的本發(fā)明的實(shí)施例是在不失一般性且不對(duì)要求權(quán)利的本發(fā)明施加任何限制的前提下提出的。
根據(jù)本發(fā)明實(shí)施例，語音識(shí)別方法100可以如圖1A所示的進(jìn)行。在102,獲取來自發(fā)言者的發(fā)言的語音信號(hào)。可以釆用任何常規(guī)方式來獲取語音信號(hào)，例如使用麥克風(fēng)，并使用將語音信號(hào)制作成數(shù)字格式的波形數(shù)字轉(zhuǎn)換器。可以通過以大于工作特征分析頻率的采樣頻率對(duì)語音信號(hào)進(jìn)行過釆樣(over-sampling)來獲取語音信號(hào)。具體來說，采樣頻率可以大于訓(xùn)練時(shí)間語言采樣率。通過非限制性實(shí)例，如果通過
12千赫的工作特征分析頻率來表征語音信號(hào)，則可以采用例如16-22 千赫的采樣頻率來對(duì)該信號(hào)釆樣。
在104,確定發(fā)言的運(yùn)行時(shí)基音值A(chǔ)un。有許多方法來確定運(yùn)行時(shí)基音Pnm。例如，Aun可以是按如下公式在包括時(shí)間f的給定時(shí)間窗
口上計(jì)算的移動(dòng)平均基音pavg(0:
其中求和是對(duì)在基音概率高于預(yù)定閾值的時(shí)間窗口期間在時(shí)間
1產(chǎn){1-(^-1),"(>[ -2),...,1:}處所取的NP個(gè)基音測(cè)量值進(jìn)行的。計(jì)算基音概率的一種簡(jiǎn)單方式是
, cwre/oto"(0),其中 w十s 、尸s w是分析
語言信號(hào)的相關(guān)性。或者，可以通過例如如下公式將運(yùn)行時(shí)基音p皿與當(dāng)前基音相關(guān)
(/>式2 ) P柳(0-。p朋G-i)+(i一c/KO),for/X)
其中C是O與l之間的常數(shù)，/7(t)是時(shí)間t處的基音的當(dāng)前值。常
數(shù)c的值與窗口大小相關(guān)。例如，c=0的值對(duì)應(yīng)于無窗口 (其中
c=i的值對(duì)應(yīng)于無窮窗口 (其中p"'"H^/"/)。注意，對(duì)于
t〉0的值，t之前的時(shí)間的基音值構(gòu)成運(yùn)行時(shí)基音prun(t)的值。這可以
在c-0.6的情況中以數(shù)值示例說明。在此情況中，公式2得到 p"o)=p(o)
P柳(l) = + ("c).p(l) - 0.6柳+ 0.4 )(1)
p"2) = ) + (l咖(2) = 0.6*(0., + 0.4'p(1)) + 0.4;p(2)
在本發(fā)明的一些實(shí)施例中，如果基音概率高于某個(gè)閾值(例如高于約0.4),則可以根據(jù)公式2來計(jì)算Aua(t)。
舉例來說，圖1A的106處執(zhí)行的發(fā)言者歸類可以基于發(fā)言者的年齡和/或性別來進(jìn)行。例如，根據(jù)訓(xùn)練數(shù)據(jù)，可以確定男性、女性和小孩發(fā)言者的平均基音落在不同的范圍內(nèi)?？梢杂烧Z音信號(hào)的當(dāng)前基音所落在的基音范圍來將發(fā)言者歸類。舉例來說，成年男性發(fā)言者具有約120Hz與約160Hz之間的平均基音，成年女性發(fā)言者具有約180 Hz與約220 Hz之間的平均基音，以及小孩發(fā)言者具有大于約220 Hz 的平均基音。如果當(dāng)前基音是190 Hz，則發(fā)言者被歸類為女性發(fā)言者。
在這些情況的任何一種中，可以將發(fā)言者的平均基音作為矢量F中的特征來包括。
一旦將發(fā)言者歸類，則可以按108所指示的相應(yīng)地選擇聲音;f莫型的參數(shù)。然后在110，在語音識(shí)別分析中使用這些參數(shù)。參數(shù)的選擇取決于語音識(shí)別分析中所用的聲音沖莫型的類型。例如，語音識(shí)別分析可以使用一組濾波器函數(shù)來對(duì)語音信號(hào)濾波。濾波器函數(shù)(例如，三角形濾波器函數(shù))將頻譜分成一組部分重疊的頻帶。每個(gè)語音識(shí)別分析使用由不同的最大頻率/_和不同的最小頻率/_定義的濾波器組。 /目和/mm可以是赫茲標(biāo)度的頻率或mel標(biāo)度的基音。最大頻率/_指濾波器組的頻率范圍的上限，而最小頻率/_指濾波器組的頻率范圍的下限。參數(shù)/ ^和/皿的值可以在語音識(shí)別分析期間在任何時(shí)間瞬間 (例如語音識(shí)別分析期間的任何時(shí)間窗口)動(dòng)態(tài)地進(jìn)行調(diào)整。語音識(shí)
別分析產(chǎn)生一個(gè)或多個(gè)語言單元的識(shí)別的識(shí)別概率尸r。語言單元可以
是短語、詞或詞的子單元(例如音位)。
舉例來說，一旦發(fā)言者被歸類為男人、女人或小孩，則可以相應(yīng) 地選擇用于對(duì)發(fā)言進(jìn)行語音識(shí)別分析的值/^和/^。例如，如果假定發(fā)言者是男人，則/^可以約為70Hz而/^可以約為3800 Hz。如果假定發(fā)言者是女人，則/_可以約為70 Hz而厶m可以約為4200 Hz。如果々i定發(fā)言者是小孩，則/_可以約為90 Hz而/^可以約為4400 Hz。
在110,基于調(diào)整的模型參數(shù)從對(duì)發(fā)言的語音分析得到識(shí)別概率
尸r。舉例來說且不失一般性地，語音識(shí)別分析可以使用隱藏的馬爾可
夫模型(HMM)來確定給定語音信號(hào)中的語言單元。語言單元可以是詞、雙詞組合或子詞單元(例如音位等)。HMM可以由如下項(xiàng)來表征
L，表示系統(tǒng)的多個(gè)可能狀態(tài)；
M,表示系統(tǒng)中存在的高斯的總數(shù)；
N，表示給定時(shí)間處的不同可觀察特征的數(shù)量；這些特征可以是語言信號(hào)的頻鐠上的(即頻域)或時(shí)間上的(時(shí)域)特征；
A={aij}，狀態(tài)過渡概率分布，其中每個(gè)ay表示如果系統(tǒng)最初在時(shí)間t處于第i狀態(tài)，則系統(tǒng)將在時(shí)間t+l過渡到第j狀態(tài)的概率；
B={bj(k)}，第j個(gè)狀態(tài)的觀察特征概率分布，其中每個(gè)bj(k)表示當(dāng)系統(tǒng)處于第j個(gè)狀態(tài)時(shí)第k個(gè)特征的觀察值的概率分布；以及
7T ={7Ii}，最初狀態(tài)分布，其中每個(gè)分量兀i表示系統(tǒng)將在某個(gè)
最初時(shí)間處于第i個(gè)狀態(tài)的概率。
隱藏的馬爾可夫模型可以應(yīng)用于語音信號(hào)以解決一個(gè)或多個(gè)基本問題，包括(1)從語音信號(hào)獲得給定觀察序列的概率；(2)給定觀察序列，什么對(duì)應(yīng)狀態(tài)序列最好地解釋該觀察序列；以及(3)如何調(diào)整該組才莫型參數(shù)A、 BTi以使得給定觀察序列的概率最大化。
將HMM應(yīng)用于語言識(shí)別由例如Lawrence Rabiner在1989年2 月正EE學(xué)報(bào)第2期巻77的"語言識(shí)別中隱藏的馬爾可夫模型和選擇的應(yīng)用的教禾呈"("A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition" in Proceedings of the IEEE, Vol. 77, No. 2, February 1989，其通過引用基于所有目的結(jié)合于本文)中進(jìn)行了詳細(xì)描述。
在110處實(shí)現(xiàn)的語音識(shí)別分析可以通過公知為音位(phoneme)的多個(gè)可識(shí)別才莫式來表征語言。這些音位的每一個(gè)可以分成多個(gè)部分，例如開始、中間和結(jié)尾部分。注意，中間部分通常是最穩(wěn)定的，因?yàn)?開始部分常常受到前一個(gè)音位的影響，而結(jié)尾部分受到后一個(gè)音位的影響。不同部分的音位由頻域特征來表征，這些特征可以通過信號(hào)的適當(dāng)統(tǒng)計(jì)分析來識(shí)別。統(tǒng)計(jì)模型常常使用高斯概率分布函數(shù)來預(yù)測(cè)特征的每個(gè)不同狀態(tài)的概率，所述特征構(gòu)成與不同音位的不同部分對(duì)應(yīng) 的信號(hào)部分。一個(gè)HMM狀態(tài)可以包含一個(gè)或多個(gè)高斯。給定可能狀態(tài)的特定高斯，例如第k個(gè)高斯可以由一組N個(gè)平均值jUki和方差 Oki表示。在典型的語言識(shí)別算法中，確定給定時(shí)間窗口的哪個(gè)高斯
是最大的一個(gè)。根據(jù)最大高斯，可以推斷時(shí)間窗口的最大可能音位。
舉例來說，在110的語音識(shí)別分析可以分析時(shí)域信號(hào)以獲得N個(gè)
不同可觀察信號(hào)特征xo..... xn,其中n=N-l。系統(tǒng)的觀察的特征
可以表示為具有分量x。..... Xn的矢量。這些分量可以是給定觀察
的語言信號(hào)的頻語上、倒譜上或時(shí)間上的特征。
舉例來說且不作為本發(fā)明實(shí)施例的限制，分量Xo..... Xn可以
是在102處獲得的語音信號(hào)的mel頻率倒譜系數(shù)(MFCC)。倒譜是如同作為信號(hào)來取分貝頻譜的傅立葉變換(FT)的結(jié)果。時(shí)域語言信號(hào) 的倒鐠可以在言語上定義為該時(shí)域信號(hào)的傅立葉變換的對(duì)數(shù)(具有去包裹的相位(unwrapped phase))的傅立葉變換。時(shí)域信號(hào)S(t)的倒譜可以在數(shù)學(xué)上表示為FT(log(FT(S(t)))+j2nq)，其中q是將復(fù)對(duì)數(shù)函數(shù) 的角度或虛數(shù)部分正確去包裹所需的整數(shù)。算法上為倒語可以由如下操作序列來生成信號(hào)一>FT~~〉對(duì)數(shù) 一> 相位去包裹一〉FT 一〉倒語.
有復(fù)倒語和實(shí)倒譜。實(shí)倒譜使用為實(shí)值定義的對(duì)數(shù)函數(shù)，同時(shí)復(fù) 倒i瞽使用為復(fù)值定義的復(fù)對(duì)數(shù)函數(shù)。復(fù)倒譜具有有關(guān)初始頻譜的量值和相位的信息，從而能夠重構(gòu)信號(hào)。實(shí)倒譜僅使用頻語的量值的信息。舉例說明且不失一般性地，在110處實(shí)現(xiàn)的語音識(shí)別分析可以使用實(shí) 倒鐠。
分量x。..... Xn的組合的某些模式對(duì)應(yīng)于語言單元(例如詞或
短語)或子單元(例如音節(jié)、音位或詞的其他子單元)。每個(gè)單元或子單元可以視為系統(tǒng)的狀態(tài)。系統(tǒng)的給定高斯(笫k個(gè)高斯)的概率密度函數(shù)厶Ov..;O可以是任何類型的概率密度函數(shù)，例如具有如下形式的高斯函數(shù)
' i=l.....N,k=l....M。
在上面的公式中，"i"是特征的索引，以及"k"是高斯的索引。在公式(1)中，下標(biāo)k是高斯函數(shù)的索引?？赡苡袛?shù)百至數(shù)十萬個(gè) 高斯為語言識(shí)別算法所使用。數(shù)量Mid是系統(tǒng)的第k個(gè)高斯的特征Xi 的平均值。數(shù)量《是第k個(gè)高斯中的Xi的方差。可以將一個(gè)或多個(gè) 高斯與一個(gè)或多個(gè)不同的狀態(tài)關(guān)聯(lián)。例如，可以有L個(gè)不同的狀態(tài)，其包含系統(tǒng)中的總數(shù)M個(gè)高斯。數(shù)量ju ki是在訓(xùn)練數(shù)據(jù)的所有時(shí)間窗口上屬于厶0c。.. )的Xi的所有測(cè)量值的平均值，而是用于計(jì)算m ki 的對(duì)應(yīng)測(cè)量值的方差。
公式(1)可以計(jì)算每個(gè)高斯的概率以得到對(duì)應(yīng)的識(shí)別概率尸r。根據(jù)具有最大概率的高斯，可以構(gòu)建該特定時(shí)間窗口的最可能的狀態(tài)、詞、音位、字符等。注意，也可以使用給定時(shí)間窗口的最可能的狀態(tài)來幫助確定較早或較晚時(shí)間窗口的最可能的狀態(tài)，因?yàn)樗鼈兛梢?確定其中發(fā)生該狀態(tài)的上下文。
根據(jù)本發(fā)明的實(shí)施例，按如上所述來工作的圖IA或IB中所示類型的識(shí)別方法(例如，語音識(shí)別方法)可以作為信號(hào)處理設(shè)備200 的一部分來實(shí)現(xiàn)，如圖2所示。系統(tǒng)200可以包括處理器201和存儲(chǔ) 器202 (例如，RAM、 DRAM、 ROM等)。此外，如果要實(shí)現(xiàn)并行處理，則信號(hào)處理設(shè)備200可以具有多個(gè)處理器201。存儲(chǔ)器202包括按如上所述來配置的數(shù)據(jù)和代碼。確切地來說，存儲(chǔ)器包括表示信號(hào) 特征204的數(shù)據(jù)和概率函數(shù)206，每個(gè)概率函數(shù)206可以包括代碼、數(shù)據(jù)或代碼與數(shù)據(jù)的某種組合。
設(shè)備200還可以包括公知的支持功能210,例如輸入/輸出(I/O) 部件2U、電源(P/S)212、時(shí)鐘(CLK) 213和高速緩存214。設(shè)備 200可以可選地包括用于存儲(chǔ)程序和/或數(shù)據(jù)的海量存儲(chǔ)裝置215，例如磁盤驅(qū)動(dòng)器、CD-ROM驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器等。控制器還可以可選地包括用于幫助控制器200與用戶之間交互的顯示單元216和用戶接
口單元218。顯示單元216可以采用顯示文本、數(shù)字、圖形符號(hào)或圖像的陰極射線管(CRT)或平板屏幕的形式。用戶接口 218可以包括鍵盤、鼠標(biāo)、游戲桿、光筆或其他裝置。此外，用戶接口218可以包括用于對(duì)待分析信號(hào)進(jìn)行直接捕獲的麥克風(fēng)、視頻攝像器或其他信號(hào) 換能裝置。處理器201、存儲(chǔ)器202和系統(tǒng)200的其他組件可以經(jīng)由圖2所示的系統(tǒng)總線220彼此交換信號(hào)(例如代碼指令和數(shù)據(jù))。麥克風(fēng)222可以通過I/O功能211耦合到設(shè)備200。
如本文所使用的，術(shù)語I/O —般指將數(shù)據(jù)傳輸?shù)较到y(tǒng)200或從系
序、操作或裝置。每次傳輸是來自一個(gè)裝置的輸出和對(duì)另一個(gè)裝置的輸入。外設(shè)包括只輸入裝置，例如鍵盤和鼠標(biāo)；只輸出裝置，例如打印機(jī)；以及例如可以用作輸入和輸出裝置的可寫CD-ROM的裝置。術(shù)語"外設(shè)"包括外部裝置，例如鼠標(biāo)、鍵盤、打印機(jī)、監(jiān)視器、麥克風(fēng)、攝像頭、外部Zip驅(qū)動(dòng)器或掃描儀，以及內(nèi)部裝置，例如CD-ROM 驅(qū)動(dòng)器、CD-R驅(qū)動(dòng)器或內(nèi)部調(diào)制解調(diào)器或如閃速存儲(chǔ)器讀取器/寫入器、硬盤的其他外設(shè)。
處理器201可以執(zhí)行程序204的程序代碼指令中的對(duì)信號(hào)數(shù)據(jù) 206和/或概率的信號(hào)識(shí)別，程序204由存儲(chǔ)器202存儲(chǔ)并檢索并由處理器模塊201執(zhí)行。程序203的代碼部分可以遵循多種不同編程語言 (例如匯編、C++、 JAVA或多種其他語言)的任何一種。處理器沖莫塊 201形成在執(zhí)行例如程序代碼204的程序時(shí)成為專用計(jì)算^/L的通用計(jì) 算機(jī)。雖然本文中將程序代碼204描述為以軟件形式實(shí)現(xiàn)并在通用計(jì) 算機(jī)上執(zhí)行，但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到，作為備選方式，該任務(wù) 管理方法可以使用硬件、例如專用集成電路(ASIC)或其他硬件電路來實(shí)現(xiàn)。同樣地，應(yīng)該理解本發(fā)明實(shí)施例可以全部或部分地以軟件、硬件或二者的某種組合來實(shí)現(xiàn)。
在一個(gè)實(shí)施例中，其中程序代碼204可以包括一組處理器可讀指令，該組處理器可讀指令實(shí)現(xiàn)與圖1A的方法100或圖1B的方法110
具有共有特征的方法。程序204—般可以包括一個(gè)或多個(gè)指令，該一個(gè)或多個(gè)指令指示處理器201獲取發(fā)言者發(fā)言的語音信號(hào)；根椐發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音(runtime pitch);基于運(yùn)行時(shí)基音將發(fā)言者歸類；基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音才莫型參數(shù)；以及基于聲音^f莫型參數(shù)來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。
舉例來說，程序204可以是較大的整體程序(例如計(jì)算機(jī)游戲的程序)的一部分。在本發(fā)明的某些實(shí)施例中，程序代碼204可以在提供語言樣本的初始化階段(例如在游戲開始時(shí))提示發(fā)言者說某個(gè)詞或短語(例如發(fā)言者的姓名)。根據(jù)此樣本，程序204可以按參考圖1 所描述的進(jìn)行，以查找該發(fā)言者的最佳參數(shù)(例如/_和/_ )，并使用這些參數(shù)來運(yùn)行110的語音識(shí)別?？梢栽诔绦虻贸鼋Y(jié)果之后保存這些參數(shù)，并在發(fā)言者再次使用該程序時(shí)使用。
本發(fā)明的實(shí)施例提供更魯棒且更精確的語言識(shí)別。在采用聲音模型參數(shù)選擇的語言識(shí)別的一個(gè)示例中，對(duì)單個(gè)女性發(fā)言者使用基于基音的發(fā)言者歸類產(chǎn)生了 94.8%的詞精確度。不采用聲音^^型參數(shù)選擇的常規(guī)語言識(shí)別算法，對(duì)于同一個(gè)女性發(fā)言者使用基于基音的發(fā)言者歸類僅達(dá)到86.3%的詞精確度。
雖然上文是對(duì)本發(fā)明優(yōu)選實(shí)施例的完整描述，但是還可以使用多種備選方案、修改和等效物。因此，本發(fā)明的范圍應(yīng)該不是參照上文描述來確定的，而是應(yīng)該參照所附權(quán)利要求連同其等效物的完整范圍來確定?？梢詫⒈疚拿枋龅娜魏翁卣?無論是否是優(yōu)選的)與本文描述的任何其他特征(無論是否是優(yōu)選的)組合。在下文的權(quán)利要求中，除非另行明確指示，否則不定冠詞"一個(gè)"指該冠詞后面為一個(gè)或多個(gè)項(xiàng)目的數(shù)量。所附權(quán)利要求不應(yīng)解釋為包括部件加功能的限制，除非在給定的權(quán)利要求中使用短語"用于...的部件"來明確指出此類限制。
權(quán)利要求
1. 一種用于語音識(shí)別的方法，所述方法包括:獲取發(fā)言者的發(fā)言的語音信號(hào)；根據(jù)所述發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音；基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類；基于所述發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)；以及基于所述聲音模型參數(shù)來執(zhí)行對(duì)所述發(fā)言的語音識(shí)別分析。
2. 如權(quán)利要求1所述的方法，其中確定所述運(yùn)行時(shí)基音包括通過如下公式確定時(shí)間t處的移動(dòng)平均基音/ avg(0:"'逆^ '，其中求和是對(duì)在時(shí)間窗口期間在時(shí)間&處所取的NP個(gè)基音測(cè)量值進(jìn)行的。
3. 如權(quán)利要求2所述的方法，其中所述基音/^i)中的每一個(gè)基音都高于預(yù)定閾值。
4. 如權(quán)利要求2所述的方法，其中確定所述運(yùn)行時(shí)基音包括如下類型的計(jì)算/^(^c'/u(卜l) + (1-c'p0),其中c是0與1之間的常數(shù)，p(f)是時(shí)間 f處的當(dāng)前基音值。
5. 如權(quán)利要求1所述的方法，其中將所述發(fā)言者歸類包括確定所述發(fā)言者的年齡和/或性別。
6. 如權(quán)利要求5所述的方法，其中確定所述發(fā)言者的年齡和/或性別包括確定所述運(yùn)行時(shí)基音是否落在一個(gè)范圍內(nèi)，其中所述范圍取決于發(fā)言者的年齡和/或性別。
7. 如權(quán)利要求5所述的方法，其中確定所述發(fā)言者的年齡和/或性別包括根振所述基音確定所述發(fā)言者是男性、女性還是小孩發(fā)言者。
8. 如權(quán)利要求1所述的方法，其中所述一個(gè)或多個(gè)聲音才莫型參數(shù) 包括執(zhí)行所述語音識(shí)別分析時(shí)所用的濾波器組的最大頻率/_和最小頻率/i。
9. 如權(quán)利要求8所述的方法，其中/_和/^的值^^于在基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類期間確定的發(fā)言者的性別和/或年齡來選擇的。
10. 如權(quán)利要求8所述的方法，其中/_和/^的值是基于在基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類期間，所述發(fā)言者是男性、女性還是小孩發(fā)言者來選擇的。
11. 如權(quán)利要求8所述的方法，其中在所述識(shí)別期間的任何時(shí)間瞬間動(dòng)態(tài)地調(diào)整所述和。
12. 如權(quán)利要求l所述的方法，還包括存儲(chǔ)所述發(fā)言者類別和/ 或基于所述發(fā)言者的類別的一個(gè)或多個(gè)聲音才莫型參數(shù)，并將所述發(fā)言者的所述發(fā)言者類別和/或基于所述發(fā)言者的類別的一個(gè)或多個(gè)聲音模型參數(shù)與特定發(fā)言者關(guān)聯(lián)。
13. 如權(quán)利要求11所述的方法，還包括在對(duì)發(fā)言者進(jìn)行后續(xù)語音識(shí)別分析期間，使用所存儲(chǔ)的發(fā)言者類別和/或基于所述發(fā)言者的類別的所述一個(gè)或多個(gè)聲音才莫型參數(shù)。
14. 一種語音識(shí)別系統(tǒng)，包括適于獲取語音信號(hào)的接口；耦合到所述接口的一個(gè)或多個(gè)處理器；以及耦合到所述接口和所述處理器的存儲(chǔ)器，所述存儲(chǔ)器中包含配置成實(shí)現(xiàn)語音識(shí)別的方法的一組處理器可讀指令，所述處理器可讀指令包括用于獲取發(fā)言者的發(fā)言的語音信號(hào)的指令；用于根據(jù)所述發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音的指令；基于所述運(yùn)行時(shí)基音將所述發(fā)言者歸類；用于基于所述發(fā)言者的類別來調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)的指令；以及用于基于所述聲音模型參數(shù)來執(zhí)行對(duì)所述發(fā)言的語音識(shí)別分析的指令。
全文摘要
公開語音識(shí)別方法和系統(tǒng)。獲取發(fā)言者的發(fā)言的語音信號(hào)。根據(jù)發(fā)言的語音信號(hào)確定運(yùn)行時(shí)基音?；谶\(yùn)行時(shí)基音將發(fā)言者歸類，并基于發(fā)言者的類別調(diào)整一個(gè)或多個(gè)聲音模型參數(shù)?？稍谒鲎R(shí)別期間的任何時(shí)間瞬間進(jìn)行參數(shù)調(diào)整。然后基于聲音模型來執(zhí)行對(duì)發(fā)言的語音識(shí)別分析。
文檔編號(hào)G10L15/00GK101390155SQ200780006100
公開日2009年3月18日申請(qǐng)日期2007年2月6日優(yōu)先權(quán)日2006年2月21日
發(fā)明者R·陳申請(qǐng)人:索尼電腦娛樂公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：R.陳
技術(shù)所有人：索尼電腦娛樂公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

基于dsp的語音識(shí)別相關(guān)技術(shù)

基于matlab的語音識(shí)別相關(guān)技術(shù)

基于stm32的語音識(shí)別相關(guān)技術(shù)

基于hmm的語音識(shí)別相關(guān)技術(shù)

基于單片機(jī)的語音識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

發(fā)言者適配的語音識(shí)別和利用基音的注冊(cè)的制作方法