專利名稱:提取特征向量用于語音識別的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別,尤其涉及提取特征向量以實(shí)現(xiàn)高語音識別率的方法。
背景技術(shù):
在語音識別鄰域,主要使用的兩種語音識別方法是隱馬爾可夫模型(HMM)和動態(tài)時間偏斜(DTW)。
在基于HMM的語音識別方法中,HMM參數(shù)是在訓(xùn)練階段獲取的并且存儲在語音數(shù)據(jù)庫中,并且馬爾可夫處理器使用最大似然(ML)方法搜索具有最高識別率的模型。提取語音識別所必須的特征向量,并且使用提取的特征向量執(zhí)行訓(xùn)練和語音識別。
在所述訓(xùn)練階段,通常使用最大期望值(EM)算法或Baum-Welch重估算法獲取HMM參數(shù)。Viterbi算法通常用于語音識別階段。
為了增加語音識別率,可執(zhí)行Wiener濾波預(yù)處理。也可通過使用諸如語言模型的考慮語法的技術(shù)來增加語音識別速率。
因?yàn)榭蓪τ谶B續(xù)語音識別(CSR)使用基于HMM的語音識別方法適用于大量的詞匯識別并提供卓越的識別率,所以近來基于HMM的語音識別方法得到愈加廣泛的應(yīng)用。
在基于DTW的語音識別方法中,比較通用模式和給定輸入模式并且確定它們之間的類似性。例如,一個單詞或單詞序列的持續(xù)時間是基于說話人是誰、說話人的感情以及說話人說話所處環(huán)境而變化的。基于DTW的語音識別方法作為用于非線性優(yōu)化這一持續(xù)時間之間偏差的方法在作為用于非線性優(yōu)化這一持續(xù)時間之間偏差的方法的部分優(yōu)化基礎(chǔ)上執(zhí)行總體優(yōu)化。
DTW通常用于識別單獨(dú)的詞,并且通常聯(lián)合小量詞匯表使用。可通過添加對應(yīng)于新詞匯的新模式很方便地修改該詞匯表。
HMM和DTW識別方法通過提取涉及語音的完整頻譜形狀執(zhí)行語音識別。然而這些方法的一個限制是它們不考慮組成語音的話音與非話音聲音的區(qū)別。
發(fā)明內(nèi)容
由上所述,本發(fā)明通過其各個方面、實(shí)施例和/或特定特征或子組件的一個或多個,旨在實(shí)現(xiàn)如下特指優(yōu)點(diǎn)的一個或多個。
本發(fā)明的一個目標(biāo)是提供一種方法用于提取特征向量以完成高速率語音識別。為了完成這些和其他優(yōu)點(diǎn)并與本發(fā)明的目的相一致,作為在此具體表達(dá)并廣泛描述提取特征向量用于語音識別的方法包括從輸入信號中提取一個表示所述輸入信號的某一表征是話音還是非話音聲音的參數(shù),以及基于提取出的參數(shù)識別語音。本方法還包括基于提取出的參數(shù)提取特征向量。
優(yōu)選地,使用如下方程計算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長度。優(yōu)選地,k的值為1,2和3其中之一。
提取出的參數(shù)大于或等于當(dāng)輸入信號包括話音聲音時的閾值,并且小于當(dāng)輸入信號包括非話音聲音時的閾值。對語音的識別可以包括利用基于隱馬爾可夫模型的識別方法、基于動態(tài)時間偏斜的識別方法以及基于神經(jīng)網(wǎng)絡(luò)的識別方法中的一種。也可使用其他語音識別方法和模型。
根據(jù)一個實(shí)施例,本方法可包括基于提取出的參數(shù)生成指明輸入信號是包括話音聲音還是非話音聲音的一個比特,并且基于該生成的比特識別所述語音。本方法還包括將差分系數(shù)和加速系數(shù)的至少一個添加給提取參數(shù)。
根據(jù)另一個實(shí)施例,本方法還包括從所述輸入信號中提取對應(yīng)于話音的完整頻譜形狀的至少一個特征向量,并且基于提取出的特征向量以及提取出的參數(shù)的至少一個來識別語音。能在可用的節(jié)距(pitch)范圍內(nèi)計算該參數(shù)。
也提供包括了用來識別語音的程序的計算機(jī)可讀介質(zhì)。該程序包括指令,用于從輸入信號中提取一個表示輸入信號的某一表征是話音還是非話音聲音的參數(shù),并且基于該提取出的參數(shù)識別語音。該程序還包括基于提取出的參數(shù)提取特征向量的指令。
優(yōu)選地,使用如下方程計算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長度。優(yōu)選地,k的值為1,2和3其中之一。
提取出的參數(shù)大于或等于當(dāng)輸入信號包括話音聲音時的閾值,并且小于當(dāng)輸入信號包括非話音聲音時的閾值。用于識別語音的指令可以包括利用基于隱馬爾可夫模型的識別方法、基于動態(tài)時間偏斜的識別方法以及基于神經(jīng)網(wǎng)絡(luò)的識別方法中的一種的指令。也可使用其他語音識別模型和方法。
根據(jù)一個實(shí)施例,該程序也可包括基于提取出的參數(shù)生成指明輸入信號是包括話音聲音還是非話音聲音的一個比特,并且基于該生成的比特識別所述語音。該程序還可包括將差分系數(shù)和加速系數(shù)中的至少一個添加給提取出參數(shù)的指令。
本發(fā)明上述的和其他的目標(biāo)、特征、方面和優(yōu)點(diǎn)從隨后結(jié)合了附圖的詳細(xì)描述中,本發(fā)明上述的和其他的目標(biāo)、特征、方面和優(yōu)點(diǎn)將變得顯而易見。
隨后將通過本發(fā)明實(shí)施例的非限制性實(shí)例并參考附圖,本發(fā)明將進(jìn)行進(jìn)一步地詳細(xì)描述,所述附圖中相同的編號表示類似的部件。
在附圖中圖1是示出了根據(jù)本發(fā)明提取特征向量用于語音識別的方法的流程圖;以及圖2A-2D示出了話音和非話音聲音的典型波形。
具體實(shí)施例方式
現(xiàn)將對本發(fā)明的較佳實(shí)施例做出詳細(xì)參考,并將結(jié)合附圖示出本發(fā)明的實(shí)例。
本發(fā)明的一種方法包括基于對某聲音是話音的還是非話音的判定生成一個參數(shù),并且在訓(xùn)練階段和識別階段使用該參數(shù),連同涉及語音完整頻譜形狀的特征向量。將使用存儲在記錄介質(zhì)(諸如但不限于存儲器)內(nèi)的計算機(jī)程序?qū)崿F(xiàn)本方法。
人類語音包括話音聲音和非話音聲音。當(dāng)說話期間聲帶振動就會產(chǎn)生話音聲音,而當(dāng)聲帶不振動所產(chǎn)生的話音就是非話音聲音。
所有的元音以及爆破音[b]、[d]和[g]都是話音聲音。而爆破音[k]、[p]和[t]以及摩擦音[f]、[th]、[s]和[sh]是非話音聲音。雖然爆破音[p]和[b](以及[d]和[t]、[g]和[k])的發(fā)音類似,但是基于該爆破音是話音的還是非話音的(例如‘pig’對‘big’)會形成完全不同的單詞。因此,一個音素可被分類成話音聲音或者非話音聲音。
下文中,將參考附圖描述本發(fā)明的較佳實(shí)施例。
本領(lǐng)域普通技術(shù)人員應(yīng)該理解的是在對本發(fā)明的描述中,如果認(rèn)為對相關(guān)已知功能或結(jié)構(gòu)的詳細(xì)解釋會不必要地轉(zhuǎn)移本發(fā)明的主旨,那么就省略這些解釋。
圖1是示出了根據(jù)本發(fā)明提取特征向量用于語音識別的方法的流程圖。
參考圖1,從話音信號中提取涉及第一輸入話音信號整體頻譜形狀的特征向量(S110)。
涉及所述話音信號整體頻譜形狀的特征向量可以包括線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)以及知覺線性預(yù)測系數(shù)(PLPC)等等中的至少一種。
根據(jù)本發(fā)明的所述方法,也可從話音信號中涉及存在于話音信號中的話音和非話音聲音的特征向量(S120)。例如可以通過提取涉及該聲音是話音的還是非話音的參數(shù)、實(shí)驗(yàn)性地獲取適當(dāng)?shù)脑鲆嬷?G)并且加權(quán)所述提取出的參數(shù)來生成特征向量。
可使用多種方法確定某聲音是話音的還是非話音的。相對簡單的方法包括使用如下方程式rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k]]>在這里,Nf表示確定某聲音是話音還是非話音的幀長度。如果k=1,那么上述方程式表示平均幅度差函數(shù)(AMDF)。如果k=2,那么上述方程式就類似于自相關(guān)函數(shù)的平方。
所述k值可以是從1到3的任意常數(shù)。實(shí)驗(yàn)法已經(jīng)示出當(dāng)k=2時出現(xiàn)最佳結(jié)果。然而,k=1具有的優(yōu)勢在于不需要乘法。這樣為了節(jié)距提取,最適k值應(yīng)該是1或2。雖然k值可以是從1到3的任意常數(shù),但是在如下描述的實(shí)施例中,k的值為2。當(dāng)k=2時會導(dǎo)致如下方程式所示的自相關(guān)函數(shù),并將參考圖2A-2D對其進(jìn)行描述。所述方程式為
rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k]]>圖2A-2D示出了話音和非話音聲音的典型波形。圖2A和2B示出了話音聲音,圖2C和2D示出了非話音聲音,而圖2B和2D示出了自相關(guān)函數(shù)。
如圖2A和2B所示,話音聲音的波形包括了重復(fù)模式。而圖2C和2D中示出的非話音聲音的波形則不包括重復(fù)模式。
如果在節(jié)距可能存在的范圍內(nèi)檢查maxrx[n],那么rx0]與maxrx[n]在圖2B中幾乎相同,但是在圖2D中大為不同。
rx
與maxrx[n]的比率(η)可由以下方程式表示η=maxrx‾[n]rx‾
]]>假設(shè)可用的節(jié)距范圍是50到500Hz,那么在8kHz的采樣頻率下,n的值是從16到160。
如果η=maxηx‾[n]rx‾
]]>并且16≤n≤160,那么η值在如圖2B中所示的話音信號中約為0.75,而在如圖2D中所示的非話音信號中約為0.25。
因此,如果輸入信號的η值較大,那么該輸入信號就很可能是話音信號。如果輸入信號的η值較小,那么該輸入信號就很可能是非話音信號。所以通過對η值和閾值的比較,如果η值大于或等于該閾值就確定某輸入信號是話音信號而如果η值小于該閾值就確定輸入信號是非話音信號。
所述n的范圍可根據(jù)采樣速率變化。
此外,可以生成表示參數(shù)η的值是大于還是小于所述閾值的1比特指示符。然而優(yōu)選地是參數(shù)η本身可用于提取特征向量,因?yàn)槿绻徽_地生成1比特指示符,則可能劣化識別符的性能。
在訓(xùn)練階段和識別階段內(nèi)利用提取出的特征向量(S130)。提取出的向量可以通過基于HMM或基于DTW的方法添加參數(shù)用于增加識別率,并且可在使用神經(jīng)網(wǎng)絡(luò)的語音識別方法中使用。
此外為了改善性能,也可利用諸如差分系數(shù)或加速系數(shù)的特征向量。
如上所述,通過生成以輸入信號是話音的還是非話音聲音為特征的參數(shù)以及通過在訓(xùn)練階段和識別階段利用該參數(shù)用于語音識別,本發(fā)明的提取特征向量用于語音識別的方法達(dá)到了改善語音識別率的目的。
因?yàn)楸景l(fā)明在不背離其精神或本質(zhì)特性的情況下能夠以不同的形式被具體表達(dá),所以應(yīng)該理解上述實(shí)施例不限于任何前述細(xì)節(jié);除非特別指出,否則上述實(shí)施例應(yīng)被廣泛解釋為落于所附權(quán)利要求限定的精神和范圍之內(nèi),因此所有的改變和修改都落于權(quán)利要求或旨在包含所述權(quán)利要求的等效物范圍內(nèi)。
在一個實(shí)施例中,諸如專用集成電路、可編程邏輯陣列或其他硬件設(shè)備的專用的硬件實(shí)現(xiàn)可被構(gòu)建,用于實(shí)現(xiàn)在此描述的一種或多種方法。應(yīng)用可以包括各種實(shí)施例的裝置和系統(tǒng),它們可廣泛地包括各種電子或計算機(jī)系統(tǒng)。在此描述的一個或多個實(shí)施例可以使用帶有可在各模塊間通信的相關(guān)控件和數(shù)據(jù)信號的兩個或更多指定的互連硬件模塊或者設(shè)備,或是作為應(yīng)用專用集成電路的部分來實(shí)現(xiàn)各種功能。因此,本發(fā)明包括軟件、固件和硬件實(shí)現(xiàn)。
與本發(fā)明揭示的各個實(shí)施例相一致,可通過計算機(jī)可執(zhí)行的軟件程序?qū)崿F(xiàn)在此描述的本方法。此外在一個示例的非限制性實(shí)施例中,實(shí)現(xiàn)可包括分布式處理、組件/目標(biāo)分布式處理以及并行處理。另外還可以構(gòu)建虛擬計算機(jī)系統(tǒng)處理用于實(shí)現(xiàn)在此描述的一種或多種方法和功能。
本發(fā)明的揭示還考慮到包括有指令或接收并處理響應(yīng)于某傳播信號的指令的計算機(jī)可讀介質(zhì)。術(shù)語“計算機(jī)可讀介質(zhì)”包括單介質(zhì)或多介質(zhì),諸如集中式或分布式數(shù)據(jù)庫和/或存儲一個或多個指令集的相關(guān)高速緩存和服務(wù)器。術(shù)語“計算機(jī)可讀介質(zhì)”還包括能夠存儲、編碼或執(zhí)行可由處理器執(zhí)行的指令集的任何介質(zhì),或者是使得計算機(jī)系統(tǒng)執(zhí)行在此揭示的方法和操作的任何一個或多個的任何介質(zhì)。
在特定的非限制性的典型實(shí)施例中,計算機(jī)可讀介質(zhì)包括諸如存儲器卡或其他裝有一個或多個非易失性只讀存儲器的封裝的固態(tài)存儲器,此外,計算機(jī)可讀介質(zhì)可以是隨機(jī)存取存儲器或者其他易失性的可重寫的存儲器。另外,計算機(jī)可讀介質(zhì)包括磁光或光學(xué)介質(zhì),諸如盤片、磁帶或者能夠捕獲諸如在傳輸設(shè)備上通信的信號的載波信號的其他存儲設(shè)備。電子郵件附件的數(shù)字文件或者其他自包含的信息歸檔文件或者歸檔文件組也可考慮作為等效于實(shí)際存儲介質(zhì)的分布式介質(zhì)。因此,該揭示可考慮包括任何計算機(jī)可讀介質(zhì)或者可存儲數(shù)據(jù)或指令的分布式介質(zhì)以及任何其他的等效和后續(xù)媒介。
雖然本發(fā)明的說明描述的組件和功能可在參考了特定標(biāo)準(zhǔn)和協(xié)議的特定實(shí)施例中實(shí)現(xiàn),但是本發(fā)明不限于這些標(biāo)準(zhǔn)和實(shí)施例。每一個標(biāo)準(zhǔn)、協(xié)議或語音都表示了最新的實(shí)例。本質(zhì)上功能相同但更快或更有效的等效物周期性地代替這些標(biāo)準(zhǔn)。因此,具有相同或類似功能的代替標(biāo)準(zhǔn)和協(xié)議都被認(rèn)為是等效的。
在此描述的實(shí)施例的說明旨在提供對各種實(shí)施例結(jié)構(gòu)的大致理解。這些說明并非旨在用作對利用可在此描述的結(jié)構(gòu)或方法的所述裝置和相同的元素和特征的完全描述。許多其他實(shí)施例在本領(lǐng)域普通技術(shù)人員閱讀過該揭示后將變得顯而易見??梢岳貌脑摻沂局袑?dǎo)出其他實(shí)施例,使得做出結(jié)構(gòu)上和邏輯上的代替和改變都不背離本揭示的范圍。此外,該說明僅僅是代表性的。因此,該揭示和圖像應(yīng)被認(rèn)為是示意性的,而不是限制性的。
該揭示的一個或多個實(shí)施例在此可被單獨(dú)地和/或統(tǒng)一地稱為術(shù)語“發(fā)明”,僅出于方便使用該術(shù)語,而并非自愿限制對任何特定發(fā)明或發(fā)明概念的應(yīng)用的范圍限制。此外,雖然已經(jīng)在此示出并描述了特定實(shí)施例,但應(yīng)該認(rèn)識到任何設(shè)計用于完成相同或類似目的的后續(xù)結(jié)構(gòu)都可代替示出的特定實(shí)施例。該揭示旨在覆蓋任何或全部的各個實(shí)施例的后續(xù)改編或者變化。上述實(shí)施例的組合以及未在此特定描述的其他實(shí)施例對于閱讀了該說明的本領(lǐng)域普通技術(shù)人員來說都是顯而易見的。
以上揭露的主題被認(rèn)為是示意性而非限制性的,并且所附權(quán)利要求旨在覆蓋所有落于本發(fā)明真實(shí)精神和范圍內(nèi)的修改、增強(qiáng)和其他實(shí)施例。這樣為了法律允許的最大范圍,本發(fā)明的范圍是由隨后的權(quán)利要求及其等效物的最廣可允許解釋所確定的,并且不被前述詳細(xì)描述所限制。
雖然在此描述的本發(fā)明參考了若干典型實(shí)施例,但是可以理解的是已使用的詞匯是描述性和說明性的詞匯,而非限制性的詞匯。因?yàn)楸景l(fā)明能夠以不同形式被具體表達(dá)而不背離其精神和本質(zhì)特征,所以應(yīng)該理解除非特別指出,上述實(shí)施例不限于前述任何細(xì)節(jié)。而且上述實(shí)施例應(yīng)該被解釋為位于由所附權(quán)利要求限定的本發(fā)明的精神和范圍內(nèi)。因此,正如在此陳述并改進(jìn)地,可在所附權(quán)利要求的范圍內(nèi)做出改變,而不背離本發(fā)明在其各個方面的范圍和精神。
權(quán)利要求
1.一種用于識別語音的方法,包括從輸入信號中提取一參數(shù),它表示作為話音或非話音聲音的輸入信號的表征;以及基于所述提取出的參數(shù)識別語音。
2.如權(quán)利要求1所述的方法,其特征在于,還包括基于所述提取出的參數(shù)提取特征向量。
3.如權(quán)利要求1所述的方法,其特征在于,使用如下方程式計算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定聲音是話音還是非話音的幀的長度。
4.如權(quán)利要求3所述的方法,其特征在于,k值為1,2和3其中之一。
5.如權(quán)利要求1所述的方法,其特征在于,當(dāng)輸入信號包括話音聲音時,所述提取出的參數(shù)大于或等于閾值。
6.如權(quán)利要求1所述的方法,其特征在于,當(dāng)輸入信號包括非話音聲音時,所述提取出的參數(shù)小于閾值。
7.如權(quán)利要求1所述的方法,其特征在于,識別語音包括利用基于隱馬爾可夫模型的識別方法。
8.如權(quán)利要求1所述的方法,其特征在于,識別語音包括利用基于動態(tài)時間偏斜的識別方法。
9.如權(quán)利要求1所述的方法,其特征在于,識別語音包括利用基于神經(jīng)網(wǎng)絡(luò)的識別方法。
10.如權(quán)利要求1所述的方法,其特征在于,還包括基于所述提取出的參數(shù),生成指示所述輸入信號包括話音聲音還是非話音聲音的比特;以及基于已生成的比特識別所述語音。
11.如權(quán)利要求1所述的方法,其特征在于,還包括添加差分系數(shù)和加速系數(shù)的至少一個給所述提取出的參數(shù)。
12.一種用于識別語音的方法,包括從輸入信號中提取對應(yīng)于語音的全部頻譜形狀的至少一個特征向量;從所述輸入信號中一參數(shù),它表示作為話音或非話音聲音的輸入信號的表征;以及基于至少一個提取出的特征向量以及提取出的參數(shù)識別語音。
13.如權(quán)利要求12所述的方法,其特征在于,在可用間距范圍內(nèi)使用如下方程式計算參數(shù)η=maxrx‾[n]rx‾
]]>其中,自相關(guān)函數(shù)rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長度。
14.如權(quán)利要求12所述的方法,其特征在于,當(dāng)輸入信號包括話音聲音時,所述提取出的參數(shù)大于或等于閾值。
15.如權(quán)利要求12所述的方法,其特征在于,當(dāng)輸入信號包括非話音聲音時,所述提取出的參數(shù)小于閾值。
16.如權(quán)利要求12所述的方法,其特征在于,識別語音包括利用隱馬爾可夫模型識別方法、動態(tài)時間偏斜識別方法以及神經(jīng)網(wǎng)絡(luò)識別方法中的一種。
17.如權(quán)利要求12所述的方法,其特征在于,還包括基于所述提取出的參數(shù),生成指示所述輸入信號包括話音聲音或非話音聲音的比特;以及基于已生成的比特識別所述語音。
18.如權(quán)利要求12所述的方法,其特征在于,還包括添加差分系數(shù)和加速系數(shù)的至少一個給所述提取出的參數(shù)。
19.一種包括用于識別語音的程序的計算機(jī)可讀介質(zhì),所述程序包括指令用于從輸入信號中提取一參數(shù),它表示作為話音或非話音聲音的輸入信號的表征;以及基于所述提取出的參數(shù)識別語音。
20.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,所述程序還包括基于所述提取出的參數(shù)提取特征向量的指令。
21.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,使用如下方程式計算該參數(shù)η=maxrx‾[n]rx‾
]]>其中,rx‾(k)[n]=1Nf{Σn=0Nf-1|x[n]-x[n-m]|k}1k,]]>η表示提取出的參數(shù),而Nf表示確定某聲音是話音還是非話音的幀的長度。
22.如權(quán)利要求21所述的計算機(jī)可讀介質(zhì),其特征在于,k值為1,2和3其中之一。
23.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,當(dāng)輸入信號包括話音聲音時,所述提取出的參數(shù)大于或等于閾值。
24.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,當(dāng)輸入信號包括非話音聲音時,所述提取出的參數(shù)小于閾值。
25.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,用于識別語音的指令包括利用基于隱馬爾可夫模型的識別方法的指令。
26.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,用于識別語音的指令包括利用基于動態(tài)時間偏斜的識別方法的指令。
27.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,用于識別語音的指令包括利用基于神經(jīng)網(wǎng)絡(luò)的識別方法的指令。
28.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,所述程序還包括指令用于基于所述提取出的參數(shù),生成指示所述輸入信號包括話音信號或非話音聲音的比特;以及基于已生成的比特識別所述語音。
29.如權(quán)利要求19所述的計算機(jī)可讀介質(zhì),其特征在于,所述程序還包括用于添加差分系數(shù)和加速系數(shù)的至少一個給所述提取出的參數(shù)的指令。
全文摘要
揭示了一種用于識別語音能夠達(dá)到高識別率的方法。所述方法包括從輸入信號中提取表示該輸入信號的作為話音還是非話音聲音特征的參數(shù),從輸入信號中提取對應(yīng)于語音完整頻譜形狀的至少一個特征向量,以及在訓(xùn)練階段和識別階段使用提取出的參數(shù)以及提取出的至少一個特征向量來識別語音。
文檔編號G10L15/08GK1819017SQ20051013702
公開日2006年8月16日 申請日期2005年12月13日 優(yōu)先權(quán)日2004年12月13日
發(fā)明者金燦佑 申請人:Lg電子株式會社