專利名稱:基于音素的語(yǔ)音識(shí)別方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)領(lǐng)域:
,具體涉及基于音素的語(yǔ)音識(shí)別方法與系統(tǒng)。
背景技術(shù):
序列的快速傅里葉變換-FFT是離散時(shí)間信號(hào)分析與處理的最重要的工具之一。若信號(hào)是有限長(zhǎng)的序列,直接對(duì)序列進(jìn)行FFT運(yùn)算即可求得序列的頻譜。對(duì)于模擬信號(hào),用FFT進(jìn)行頻譜分析時(shí),首先必須對(duì)信號(hào)進(jìn)行采樣,使之變成離散信號(hào)。按采樣定理,采樣頻率fs應(yīng)大于二倍信號(hào)的最高頻率。根據(jù)數(shù)字頻率與模擬頻率的關(guān)系,可以求得用N點(diǎn)FFT進(jìn)行頻譜分析時(shí),其模擬頻率分辨率為ΔF=fs/N --------------------------------------(1)因此,為了保證指定的頻率分辨率ΔF,要求用于FFT的點(diǎn)數(shù)N≥fs/ΔF --------------------------------------(2)當(dāng)采用基-2FFT算法時(shí),還要求N為2的整數(shù)冪。每條譜線代表的頻率刻度值為fk=fs×k/N k=0,1,2,3......N/2 ------------(3)由公式(2)可知,在采樣頻率固定時(shí),要得到高頻率分辨率,用于FFT計(jì)算的點(diǎn)數(shù)N必須足夠大,但在連續(xù)語(yǔ)音中,有的音素、如漢語(yǔ)中的多元音,其中的過(guò)渡音的持續(xù)時(shí)間是很短的,僅幾毫秒,直接對(duì)幾毫秒的信號(hào)作頻譜變換,頻率分辨率是很低的,由此得到的頻譜數(shù)據(jù)所構(gòu)成的語(yǔ)音識(shí)別特征不精確,將導(dǎo)致語(yǔ)音識(shí)別結(jié)果不確定。
語(yǔ)音信號(hào)是非穩(wěn)定信號(hào),簡(jiǎn)單的FFT變換不能反映語(yǔ)音信號(hào)的變化特征,現(xiàn)在廣泛使用短時(shí)傅里葉變換算法(STFT),對(duì)滑動(dòng)窗下的波形逐幀地做傅里葉變換,由此而得到語(yǔ)譜圖。按滑動(dòng)窗的長(zhǎng)度不同又分為窄帶語(yǔ)譜圖和寬帶語(yǔ)譜圖。對(duì)于窄帶語(yǔ)譜圖,滑動(dòng)窗長(zhǎng)度通常大于兩個(gè)基音周期,窄帶語(yǔ)譜圖具有較好的頻率分辨率,體現(xiàn)在它能區(qū)分各次諧波譜線,然而,包含了數(shù)個(gè)周期的長(zhǎng)窗使得語(yǔ)譜圖無(wú)法顯示頻率在時(shí)域上的變化,當(dāng)所包含的信號(hào)頻譜變化較大時(shí),語(yǔ)譜圖變得雜亂無(wú)章,無(wú)法判別。而對(duì)于寬帶語(yǔ)譜圖,滑動(dòng)窗長(zhǎng)度通常小于一個(gè)基音周期,而縮短窗長(zhǎng)會(huì)展寬短時(shí)傅里葉變換的頻譜分辨率,從而淹沒(méi)了諧波譜線的結(jié)構(gòu),只能大致描繪出頻譜的包絡(luò)。而且,由于滑動(dòng)窗長(zhǎng)度小于一個(gè)基音周期,所描繪的頻譜存在泄露現(xiàn)象,從而導(dǎo)致所繪制的頻譜圖不真實(shí)。
由于語(yǔ)音信號(hào)頻率、相位和幅度在時(shí)域中都是不穩(wěn)定的,而傅里葉變換本身的時(shí)間分辨率為零,它掩蓋了信號(hào)頻譜的變化,而頻譜變化是語(yǔ)音變化的必然結(jié)果。短時(shí)傅里葉變換雖然具有一定的時(shí)間分辨率,但在語(yǔ)音信號(hào)頻譜的分析中作用并不顯著,這是因?yàn)樗念l率和時(shí)間分辨率還不夠高,語(yǔ)譜圖的作用非常有限,甚至傳遞的信息給人以錯(cuò)誤認(rèn)識(shí),以至于時(shí)至今日還無(wú)法統(tǒng)一人們對(duì)語(yǔ)音的產(chǎn)生和知覺(jué)的認(rèn)識(shí)。語(yǔ)譜圖雖有看得見(jiàn)的聲音之稱,但只有經(jīng)過(guò)長(zhǎng)期訓(xùn)練的專業(yè)人士才能從語(yǔ)譜圖中分析出語(yǔ)音的含義,且準(zhǔn)確度也并非100%。雖然語(yǔ)音識(shí)別過(guò)程中無(wú)需使用語(yǔ)譜圖,但在語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)過(guò)程中,語(yǔ)譜圖直觀的效果對(duì)于正確構(gòu)建識(shí)別特征的標(biāo)準(zhǔn)模板是很有幫助的。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,信號(hào)處理技術(shù)的日益進(jìn)步,語(yǔ)音輸入、語(yǔ)音識(shí)別產(chǎn)品的性能越來(lái)越好,使用范圍越來(lái)越廣泛,但由于一些關(guān)鍵性的技術(shù)問(wèn)題沒(méi)有解決,現(xiàn)有語(yǔ)音識(shí)別產(chǎn)品還存在這樣或那樣的缺點(diǎn)。
申請(qǐng)?zhí)枮?7111623.7的中國(guó)發(fā)明專利公開(kāi)了一種語(yǔ)音識(shí)別計(jì)算機(jī)模塊及基于音素的數(shù)字語(yǔ)音信號(hào)變換方法,所述音素特征提取方法為將數(shù)字語(yǔ)音信號(hào)劃分為任意數(shù)量的數(shù)字語(yǔ)音信號(hào)節(jié),將音素劃分為任意數(shù)量的片段,并給音素各分配一個(gè)描述各個(gè)音素或音素片段特性的音素特征向量,比較語(yǔ)音信號(hào)節(jié)與數(shù)字化單詞語(yǔ)音特征向量二者的相似性,從而識(shí)別語(yǔ)音。該方案對(duì)清音和濁音采用相同的處理方法,對(duì)語(yǔ)音信號(hào)節(jié)和音素片段的劃分依據(jù)不明確,不可能獲得理想的識(shí)別率。此外,國(guó)際商業(yè)機(jī)器公司在申請(qǐng)?zhí)枮?00410058687.0的中國(guó)發(fā)明專利申請(qǐng)中介紹了一種語(yǔ)音識(shí)別系統(tǒng)。該系統(tǒng)中用對(duì)數(shù)-線性模型對(duì)與語(yǔ)音識(shí)別有關(guān)的語(yǔ)音單元的后驗(yàn)概率進(jìn)行建模。該后驗(yàn)?zāi)P驮诮o定了觀測(cè)到的語(yǔ)音特征和后驗(yàn)?zāi)P偷膮?shù)的前提下獲取語(yǔ)音單元的概率。可以在給定了多個(gè)語(yǔ)音特征的前提下用單詞序列假設(shè)的概率確定所述后驗(yàn)?zāi)P?。而以此技術(shù)為基礎(chǔ)的連續(xù)語(yǔ)音識(shí)別系統(tǒng)具有如下缺點(diǎn)1、要求說(shuō)話人發(fā)音非常標(biāo)準(zhǔn);2、要求識(shí)別環(huán)境非常安靜,環(huán)境噪聲??;3、音素、孤立字、詞識(shí)別率不高或無(wú)法識(shí)別;4、識(shí)別率與話題相關(guān),即與模板庫(kù)的內(nèi)容相關(guān),對(duì)模板中沒(méi)有的字詞無(wú)法識(shí)別;5、要求識(shí)別系統(tǒng)建立大容量的識(shí)別模板庫(kù),6、重復(fù)性很差,同樣的一句話,若不能正確識(shí)別時(shí),多次的識(shí)別結(jié)果不一樣。以上缺陷的存在,說(shuō)明所建模板適應(yīng)性差,所提取的語(yǔ)音識(shí)別特征不穩(wěn)定。產(chǎn)品雖上市多年,但一直沒(méi)能推廣,當(dāng)然更談不上普及。
現(xiàn)有的連續(xù)語(yǔ)音識(shí)別系統(tǒng)采用清音與濁音混合識(shí)別,以固定的時(shí)長(zhǎng)對(duì)語(yǔ)音信號(hào)采樣,提取語(yǔ)音識(shí)別特征,因?yàn)闊o(wú)法保證每次采樣針對(duì)的是單一音素,所提取的識(shí)別特征穩(wěn)定性差,識(shí)別效果很不理想。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問(wèn)題在于提供一種可以克服上述現(xiàn)有技術(shù)缺點(diǎn)的語(yǔ)音識(shí)別方法和系統(tǒng),對(duì)識(shí)別環(huán)境要求低,對(duì)發(fā)音人要求低,具有識(shí)別率高、既可識(shí)別孤立字、詞,又能識(shí)別連續(xù)語(yǔ)音,識(shí)別結(jié)果可再現(xiàn)等優(yōu)點(diǎn)。
本發(fā)明上述技術(shù)問(wèn)題這樣解決,構(gòu)造一種基于音素的語(yǔ)音識(shí)別方法,其特征在于,包括以下步驟A)將模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào);B)檢測(cè)數(shù)字語(yǔ)音信號(hào)短時(shí)過(guò)零率,如果短時(shí)過(guò)零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過(guò)零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對(duì)提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述濁音預(yù)處理包括以下步驟F1)測(cè)定基音信號(hào)的頻率和幅度;F2)通過(guò)分段裝置將濁音信號(hào)按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零;F3)由時(shí)域延拓裝置對(duì)段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號(hào)變成多周期信號(hào)。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述清音預(yù)處理包括以下步驟G1)設(shè)定清音起始、結(jié)束幅度;G2)檢測(cè)爆破音的起點(diǎn)、終點(diǎn);G3)檢測(cè)清音持續(xù)時(shí)間。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述步驟C)包括以下步驟至少提取以下語(yǔ)音識(shí)別特征中的1種或2種頻譜特征、頻譜變化特征、倒譜、線性預(yù)測(cè)系數(shù)、共振峰、音素持續(xù)時(shí)間。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述步驟D)包括以下步驟D1)總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語(yǔ)音中的意義;D2)將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;D3)根據(jù)系統(tǒng)要求設(shè)定模板比對(duì)的相似值,高的相似值適用于說(shuō)話人的識(shí)別、指令輸入,而低的相似值用于語(yǔ)音與文本的轉(zhuǎn)換;在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述步驟E)包括以下步驟將識(shí)別特征與語(yǔ)音數(shù)據(jù)庫(kù)中指定語(yǔ)種或方言的音素模板進(jìn)行對(duì)比,確定音素名稱。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述步驟F1)測(cè)定基音信號(hào)的頻率和幅度,是采用以下基頻提取方法之一實(shí)現(xiàn)的自相關(guān)函數(shù)法、線性預(yù)測(cè)法、倒頻譜法、基于“梳狀濾波裝置”的基音估計(jì)方法、基于諧波正弦波模型的基音估計(jì)方法。
在上述按照本發(fā)明基于音素的語(yǔ)音識(shí)別方法中,所述根據(jù)分析結(jié)果輸出音素序列的步驟E)后,還包括將音素序列轉(zhuǎn)換成文本或指令的步驟。
本發(fā)明另一技術(shù)問(wèn)題這樣解決,構(gòu)造一種基于音素的語(yǔ)音識(shí)別系統(tǒng),包括用于將模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào)的語(yǔ)音輸入裝置;用于檢測(cè)語(yǔ)音輸入裝置提供的數(shù)字語(yǔ)音信號(hào)短時(shí)過(guò)零率的清濁音識(shí)別裝置,檢測(cè)到短時(shí)過(guò)零率小于設(shè)定值則將數(shù)字語(yǔ)音信號(hào)輸出到濁音預(yù)處理裝置,檢測(cè)到短時(shí)過(guò)零率高于設(shè)定值則將數(shù)字語(yǔ)音信號(hào)輸出到清音預(yù)處理裝置;對(duì)由清音預(yù)處理裝置和濁音預(yù)處理裝置提供的數(shù)據(jù)進(jìn)行頻譜變換并對(duì)變換結(jié)果進(jìn)行分析、提取特征的特征提取裝置;對(duì)特征提取裝置提取出的特征數(shù)據(jù)進(jìn)行分析的特征分析裝置;語(yǔ)音存儲(chǔ)裝置以及根據(jù)特征分析裝置輸出的分析結(jié)果檢索語(yǔ)音存儲(chǔ)裝置輸出音素序列的音素序列輸出裝置。將音素轉(zhuǎn)換為文本或指令的裝置。
在上述按照本發(fā)明提供的基于音素的語(yǔ)音識(shí)別的系統(tǒng)中,所述濁音預(yù)處理裝置包括以下模塊測(cè)定基音信號(hào)的頻率和幅度的模塊;通過(guò)分段裝置將濁音信號(hào)按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零的模塊,以及由時(shí)域延拓裝置對(duì)段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號(hào)變成多周期信號(hào)的模塊;所述清音預(yù)處理裝置包括以下模塊設(shè)定清音起始和結(jié)束幅度的模塊、檢測(cè)爆破音的起點(diǎn)、終點(diǎn)的模塊;以及檢測(cè)清音持續(xù)時(shí)間的模塊。
實(shí)施本發(fā)明提供的語(yǔ)音識(shí)別方法和系統(tǒng),可以針對(duì)語(yǔ)音信號(hào)的特點(diǎn),對(duì)清音和濁音采用不同的處理方法,特別是對(duì)濁音音素以單基音周期頻譜特征建模,解決了現(xiàn)有語(yǔ)音輸入識(shí)別系統(tǒng)的不足。具有識(shí)別效率高、精度高和穩(wěn)定性高等優(yōu)點(diǎn)
圖1為按照本發(fā)明的基于音素的語(yǔ)音識(shí)別系統(tǒng)實(shí)施例的邏輯方框圖;圖2為本發(fā)明的濁音預(yù)處理裝置的邏輯框圖;圖3為實(shí)現(xiàn)本發(fā)明的基于音素的語(yǔ)音識(shí)別方法的流程示意圖;圖4A為信號(hào)分段示意圖圖中標(biāo)示為S1-語(yǔ)音信號(hào) S2-基音信號(hào)ST1_ST4-段信號(hào) T1_T4-基音周期圖4B為ST1時(shí)域延拓信號(hào)波形圖圖4C為ST2時(shí)域延拓信號(hào)波形圖圖4D為ST3時(shí)域延拓信號(hào)波形圖圖4E為ST4時(shí)域延拓信號(hào)波形圖圖5為ST1時(shí)域延拓信號(hào)頻譜圖圖6為ST2時(shí)域延拓信號(hào)頻譜圖圖7為ST3時(shí)域延拓信號(hào)頻譜圖圖8為ST4時(shí)域延拓信號(hào)頻譜圖圖9為一中年男性漢語(yǔ)元音[a]去聲波形圖圖10為一中年男性漢語(yǔ)元音[a]去聲時(shí)域延拓語(yǔ)譜圖圖11為一中年男性漢語(yǔ)元音[a]去聲窄帶語(yǔ)譜圖具體實(shí)施方式
按照本發(fā)明,在語(yǔ)音信號(hào)中,音素(phoneme)是人的聽(tīng)覺(jué)可區(qū)分的基本單元。依據(jù)發(fā)音時(shí)聲帶是否振動(dòng),可把音素分為濁音和清音。發(fā)清音時(shí)聲帶不振動(dòng),清音的頻譜中在400Hz以下的低頻區(qū)沒(méi)有能量集中的頻點(diǎn),可以說(shuō)清音沒(méi)有基頻,其波形類似于噪波,穩(wěn)定性很差,周期性很差,其短時(shí)過(guò)零率高。與清音不同,發(fā)濁音時(shí)聲帶會(huì)振動(dòng),音量較清音大,傳播距離遠(yuǎn),日常會(huì)話時(shí),濁音的頻譜中在60-400Hz的低頻區(qū)有能量集中的頻點(diǎn),,最低的頻率稱為基頻,也叫基音。唱歌時(shí),基頻有可能超過(guò)400Hz。濁音短時(shí)過(guò)零率普遍低于清音。
由于清音與濁音短時(shí)過(guò)零率不同,二者較易區(qū)分,清音幅度一般較濁音低,大多數(shù)清音的持續(xù)時(shí)間長(zhǎng)短影響清音的音義。所以,為了有效地識(shí)別語(yǔ)音信號(hào),減少模板比對(duì)的次數(shù),有必要先對(duì)清音和濁音加以識(shí)別,依據(jù)清音、濁音的特點(diǎn),采取相應(yīng)的技術(shù)處理。
圖1給出了本發(fā)明基于音素的語(yǔ)音識(shí)別系統(tǒng)的一個(gè)實(shí)施例,圖中各部分功能可由軟件和(或)硬件實(shí)現(xiàn)。其中語(yǔ)音輸入裝置107,用于將聲波轉(zhuǎn)換為電模擬信號(hào),并將電模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。清音濁音識(shí)別裝置101,用于檢測(cè)語(yǔ)音信號(hào)短時(shí)過(guò)零率,短時(shí)過(guò)零率小于設(shè)定值判定為濁音,為濁音時(shí)將信號(hào)輸出到濁音處理裝置102作濁音預(yù)處理,反之則判為清音,為清音時(shí)將信號(hào)輸出到清音處理裝置103作清音預(yù)處理。特征提取裝置104,用于提取多個(gè)語(yǔ)音識(shí)別特征,包括頻譜、倒譜、線性預(yù)測(cè)系數(shù)、共振峰、持續(xù)時(shí)間等,其中以頻譜特征和音素持續(xù)時(shí)間最為重要。而特征分析裝置105,用于總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語(yǔ)音中的意義,將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;根據(jù)系統(tǒng)要求設(shè)定模板比對(duì)的相似值,高的相似值適用于說(shuō)話人的識(shí)別、指令輸入,而低的相似值用于語(yǔ)音與文本的轉(zhuǎn)換;最后,將識(shí)別特征與指定語(yǔ)種或方言的音素模板對(duì)比確定音素名稱。語(yǔ)音存儲(chǔ)裝置106用于以數(shù)據(jù)庫(kù)形式存儲(chǔ)多語(yǔ)種、多種方言的不同性別、不同年齡組音素模板及相關(guān)數(shù)據(jù),同時(shí)提供用戶個(gè)性模板存儲(chǔ)空間。音素序列輸出裝置108,用于將識(shí)別結(jié)果發(fā)送到音素序列與文本、指令的轉(zhuǎn)換系統(tǒng)。如漢語(yǔ)全拼輸入法,雙拼輸入法等可將音素轉(zhuǎn)換成文本,其它語(yǔ)言,如日語(yǔ),韓語(yǔ)也有相似的輸入法可將音素變換為文本。事實(shí)上,只要建立了音素與文字、字母、單詞的對(duì)應(yīng)關(guān)系,任何語(yǔ)言都可實(shí)現(xiàn)音素與文本的轉(zhuǎn)換。
如圖2所示,圖1中的濁音處理裝置102在圖2中由一個(gè)用于測(cè)定基音信號(hào)頻率與幅度的基頻分析裝置201,將濁音信號(hào)分段的信號(hào)分段裝置202,一個(gè)時(shí)域延拓即對(duì)段數(shù)據(jù)進(jìn)行時(shí)域周期復(fù)制的裝置203以及暫存模塊204組成。工作中,濁音信號(hào)經(jīng)過(guò)基頻分析裝置201,測(cè)定出基音信號(hào)的頻率和幅度?;纛l率是采用以下基頻提取方法之一實(shí)現(xiàn)的,自相關(guān)函數(shù)法、線性預(yù)測(cè)(LPC)法、倒頻譜法、及基于“梳狀濾波裝置”的基音估計(jì)、基于諧波正弦波模型的基音估計(jì)方法。濁音信號(hào)在分段裝置202中被按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零。經(jīng)分段的信號(hào)由時(shí)域延拓裝置203以段為單位在時(shí)域周期性復(fù)制,將單周期信號(hào)變成多周期信號(hào)。
圖1中的清音預(yù)處理裝置103,其作用包括設(shè)定清音起始、結(jié)束幅度參數(shù),檢測(cè)爆破音的起點(diǎn)、終點(diǎn),檢測(cè)清音持續(xù)時(shí)間。
圖3給出了實(shí)現(xiàn)本發(fā)明基于音素的語(yǔ)音識(shí)別方法的流程圖。如圖所示,流程始于步驟301,控制過(guò)程前進(jìn)到302,其中輸入未知的數(shù)字化離散語(yǔ)音信號(hào)。下一步,在步驟303,檢測(cè)語(yǔ)音信號(hào)短時(shí)過(guò)零率,短時(shí)過(guò)零率小于設(shè)定值時(shí)判斷為濁音,反之為清音。如判斷為濁音進(jìn)入步驟304進(jìn)行濁音預(yù)處理,在步驟304,通過(guò)采用下述基頻提取方法之一,包括自相關(guān)函數(shù)法、線性預(yù)測(cè)(LPC)法、倒頻譜法、及基于“梳狀濾波裝置”的基音估計(jì)、基于諧波正弦波模型的基音估計(jì)方法,測(cè)定濁音信號(hào)基頻。在步驟304,已知基頻的濁音信號(hào)被按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零,劃分成段的信號(hào)最后被以段為單位時(shí)域延拓為周期信號(hào);清音被送到步驟305,在步驟305,清音信號(hào)經(jīng)起始、結(jié)束幅度,爆破音起點(diǎn)、終點(diǎn),清音持續(xù)時(shí)間檢測(cè)后,進(jìn)入步驟306,在步驟306多種語(yǔ)音識(shí)別特征被提取,其中主要是頻譜特征、頻譜變化特征、音素持續(xù)時(shí)間等。在步驟307,所提取的多個(gè)識(shí)別特征,包括在步驟304、305所檢測(cè)的識(shí)別特征數(shù)據(jù),被用于與模板比對(duì),語(yǔ)音信號(hào)的音素序列得以確定。然后過(guò)程前進(jìn)到308,在這里輸出音素序列。
最后,過(guò)程前進(jìn)到步驟309,過(guò)程結(jié)束。
上面對(duì)本發(fā)明的描述是用于說(shuō)明的目的,而不是要將本發(fā)明限制在上述具體形式。實(shí)施時(shí),上述內(nèi)容的修改和變動(dòng)是難免的,因此,這里所公開(kāi)的實(shí)施例只是為了更好地解釋本發(fā)明的原理,以便本領(lǐng)域的普通技術(shù)人員能針對(duì)各自具體的工程需要作出各種修改,使本發(fā)明得到最佳的利用和實(shí)施。
效果分析如圖4A所示的信號(hào)S1是原始信號(hào)波形,信號(hào)S2是信號(hào)S1經(jīng)窄帶低頻濾波放大獲得的信號(hào)基波波形,根據(jù)信號(hào)S1和信號(hào)S2的對(duì)應(yīng)關(guān)系,以信號(hào)過(guò)零處作為信號(hào)的截取點(diǎn),一個(gè)基波周期截成一段,將信號(hào)S1按基音周期T1、T2、T3、T4......劃分為ST1、ST2、ST3、ST4......段,4段相加總采樣點(diǎn)數(shù)N為100。信號(hào)的采樣頻率為8000Hz,根據(jù)公式(1)可算出100個(gè)樣點(diǎn)的頻率分辨率為80Hz,但100個(gè)樣點(diǎn)包含了4個(gè)基音周期的信號(hào),而且每個(gè)周期的信號(hào)都各不相同,為了全面準(zhǔn)確了解信號(hào)頻譜變化,應(yīng)按基頻周期計(jì)算信號(hào)頻譜。ST2為25個(gè)樣點(diǎn),如直接用這25個(gè)樣點(diǎn)做FFT,頻率分辨率將高達(dá)320Hz,這顯然不能滿足頻譜分析的需要。將段信號(hào)ST1、ST2、ST3、ST4在時(shí)域延拓,分別得到波形如圖4B、4C、4D、4E所示的周期信號(hào)。分別對(duì)延拓后的信號(hào)作1024點(diǎn)FFT變換,所得頻譜圖如圖5、6、7、8示,此時(shí)頻譜分辨率為7.8Hz,比原來(lái)提高了40倍,對(duì)比各圖中頻譜參數(shù),可發(fā)現(xiàn)各周期信號(hào)的頻譜異同點(diǎn)。由此可見(jiàn),通過(guò)將一個(gè)基頻周期的信號(hào)在時(shí)域延拓,可以獲得信號(hào)的短時(shí)高精度頻譜,采用此方法制作的頻譜圖具有極高的頻率分辨率。
在語(yǔ)音中,濁音頻譜的變化是非常大的,即使是兩個(gè)相鄰的基音周期,頻譜也有差別,特別是高次諧波有差別,采用常規(guī)的FFT無(wú)法獲得濁音的準(zhǔn)確頻譜,采用時(shí)域基頻周期延拓的方法計(jì)算濁音頻譜,具有很多優(yōu)點(diǎn)。1、由于計(jì)算頻譜的樣本很小,僅一個(gè)基音周期,可提高頻譜變換的時(shí)間分辨力;2、時(shí)域延拓增大了FFT點(diǎn)數(shù),大大提高了頻譜變換的頻率分辨率;3、可排除濁音幅度變化、持續(xù)時(shí)間變化對(duì)音素識(shí)別的干擾;4、可排除相鄰音素、相鄰周期對(duì)頻譜的干擾,保障了頻譜的純度,也就提高了頻譜的可信度;5、只需一個(gè)基頻周期的信號(hào)即可計(jì)算出濁音的精確頻譜,依據(jù)頻譜特征和信號(hào)持續(xù)時(shí)間即可確定音素名稱,而無(wú)需參照相鄰的音素,從而做到快速識(shí)別,識(shí)別結(jié)果與上下文無(wú)關(guān)。如果一個(gè)濁音持續(xù)時(shí)間有數(shù)個(gè)基音周期,對(duì)每個(gè)基音周期都作頻譜分析,作音素判別,這樣,一個(gè)濁音素的識(shí)別是經(jīng)多次判斷完成,也就提高了識(shí)別的可靠性。
不同音素的信號(hào)會(huì)對(duì)相鄰、甚至相隔的音素信號(hào)的頻譜產(chǎn)生干擾,所以有必要對(duì)音素進(jìn)行隔離,防止音素的相互干擾,以保證每次頻譜變換的樣點(diǎn)為單一音素,由于采取了清音與濁音的隔離措施,排除了高能量的濁音信號(hào)對(duì)清音信號(hào)頻譜的干擾,增加了清音持續(xù)時(shí)間作為識(shí)別特征之一,清音音素的識(shí)別特征明顯,識(shí)別結(jié)果可靠。
如圖9示為一中年男性漢語(yǔ)拼音元音[a]的去聲信號(hào)波形圖,圖10為采用基頻時(shí)域延拓得到的語(yǔ)譜圖。由圖10可以看出該語(yǔ)音信號(hào)是由基音和諧音構(gòu)成的;基音頻率的變化引起諧音頻率變化,諧波次數(shù)越高頻率變化越大;頻率在1350Hz以下的諧波幅度較高;基音強(qiáng)度變化較小。圖11為該信號(hào)的窄帶語(yǔ)譜圖。兩圖對(duì)比,可明顯看出時(shí)域延拓語(yǔ)譜圖的優(yōu)越性。
在連續(xù)語(yǔ)音中,由于單個(gè)音素的持續(xù)時(shí)間太短,拆開(kāi)試聽(tīng)時(shí)人耳無(wú)法識(shí)別,只有連續(xù)傾聽(tīng)才能識(shí)別,所以,人的語(yǔ)音識(shí)別是以上下文綜合為基礎(chǔ)的。但計(jì)算機(jī)擁有人腦無(wú)可比擬的運(yùn)算速度,利用傅里葉頻譜變換,通過(guò)時(shí)域延拓的辦法計(jì)算濁音精確頻譜,通過(guò)清音、濁音分離,計(jì)算清音頻譜和持續(xù)時(shí)間,對(duì)于連續(xù)語(yǔ)音中的單個(gè)音素,是完全可以準(zhǔn)確識(shí)別的,無(wú)需參考音素出現(xiàn)的概率。因?yàn)橐羲氐臄?shù)量少,清音和濁音不會(huì)混淆,有的音素之間存在非常顯著的頻譜差別,模板比對(duì)時(shí)不可能出錯(cuò),只有少數(shù)的幾個(gè)濁音素頻譜相近,但求得信號(hào)的精確頻譜后也是很容易識(shí)別的,所以,基于音素的語(yǔ)音識(shí)別系統(tǒng)可靠性高,所需模板庫(kù)的容量小,可大大降低語(yǔ)音識(shí)別系統(tǒng)成本,大大提高識(shí)別準(zhǔn)確性。
權(quán)利要求
1.一種基于音素的語(yǔ)音識(shí)別方法,其特征在于,包括以下步驟A)將模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào);B)檢測(cè)數(shù)字語(yǔ)音信號(hào)短時(shí)過(guò)零率,如果短時(shí)過(guò)零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過(guò)零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對(duì)提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。
2.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述濁音預(yù)處理包括以下步驟F1)測(cè)定基音信號(hào)的頻率和幅度;F2)通過(guò)分段裝置將濁音信號(hào)按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零;F3)由時(shí)域延拓裝置對(duì)段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號(hào)變成多周期信號(hào)。
3.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述清音預(yù)處理包括以下步驟G1)設(shè)定清音起始、結(jié)束幅度;G2)檢測(cè)爆破音的起點(diǎn)、終點(diǎn);G3)檢測(cè)清音持續(xù)時(shí)間。
4.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述步驟C)包括以下步驟至少提取以下語(yǔ)音識(shí)別特征中的1種或2種頻譜特征、頻譜變化特征、倒譜、線性預(yù)測(cè)系數(shù)、共振峰、音素持續(xù)時(shí)間。
5.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述步驟D)包括以下步驟D1)總結(jié)各頻率成份的幅度在時(shí)間上的分布、變化規(guī)律及其在語(yǔ)音中的意義;D2)將具有相同或相近特征的頻譜歸類,形成個(gè)性模板;D3)根據(jù)系統(tǒng)要求設(shè)定模板比對(duì)的相似值,高的相似值適用于說(shuō)話人的識(shí)別、指令輸入,而低的相似值用于語(yǔ)音與文本的轉(zhuǎn)換。
6.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述步驟E)包括以下步驟將識(shí)別特征與語(yǔ)音數(shù)據(jù)庫(kù)中指定語(yǔ)種或方言的音素模板進(jìn)行對(duì)比,確定音素名稱。
7.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述步驟F1)測(cè)定基音信號(hào)的頻率和幅度,是采用以下基頻提取方法之一實(shí)現(xiàn)的自相關(guān)函數(shù)法、線性預(yù)測(cè)法、倒頻譜法、基于“梳狀濾波裝置”的基音估計(jì)方法、基于諧波正弦波模型的基音估計(jì)方法。
8.根據(jù)權(quán)利要求
1所述方法,其特征在于,所述根據(jù)分析結(jié)果輸出音素序列的步驟E)后,還包括將音素序列轉(zhuǎn)換成文本或指令的步驟。
9.一種基于音素的語(yǔ)音識(shí)別系統(tǒng),其特征在于,包括用于將模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào)的語(yǔ)音輸入裝置;用于檢測(cè)語(yǔ)音輸入裝置提供的數(shù)字語(yǔ)音信號(hào)短時(shí)過(guò)零率的清濁音識(shí)別裝置,檢測(cè)到短時(shí)過(guò)零率小于設(shè)定值則將數(shù)字語(yǔ)音信號(hào)輸出到濁音預(yù)處理裝置,檢測(cè)到短時(shí)過(guò)零率高于設(shè)定值則將數(shù)字語(yǔ)音信號(hào)輸出到清音預(yù)處理裝置;對(duì)由清音預(yù)處理裝置和濁音預(yù)處理裝置提供的數(shù)據(jù)進(jìn)行頻譜變換,提取特征的特征提取裝置;對(duì)特征提取裝置提取出的特征數(shù)據(jù)進(jìn)行分析的特征分析裝置;語(yǔ)音存儲(chǔ)裝置以及根據(jù)特征分析裝置輸出的分析結(jié)果檢索語(yǔ)音存儲(chǔ)裝置輸出音素序列的音素序列輸出裝置。將音素序列轉(zhuǎn)換為文本或指令的裝置。
10.根據(jù)權(quán)利要求
9所述系統(tǒng),其特征在于,所述濁音預(yù)處理裝置包括以下模塊測(cè)定基音信號(hào)的頻率和幅度的模塊;將濁音信號(hào)按先后順序分解成大小等于基音周期的互不相干的段,信號(hào)基頻為N個(gè)采樣點(diǎn),即按N個(gè)連續(xù)采樣點(diǎn)一段,盡量使每段的起點(diǎn)和終點(diǎn)幅值為零或接近零的數(shù)據(jù)分段模塊,以及對(duì)段數(shù)據(jù)進(jìn)行時(shí)域周期性復(fù)制,將單周期信號(hào)變成多周期信號(hào)的時(shí)域延拓模塊;所述清音預(yù)處理裝置包括以下模塊設(shè)定清音起始和結(jié)束幅度的模塊、檢測(cè)爆破音的起點(diǎn)、終點(diǎn)的模塊;以及檢測(cè)清音持續(xù)時(shí)間的模塊。
專利摘要
一種基于音素的語(yǔ)音識(shí)別方法及系統(tǒng),包括以下環(huán)節(jié)A)將模擬語(yǔ)音信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào);B)檢測(cè)數(shù)字語(yǔ)音信號(hào)短時(shí)過(guò)零率,如果短時(shí)過(guò)零率小于設(shè)定值則判定為濁音,進(jìn)行濁音預(yù)處理,如果短時(shí)過(guò)零率高于設(shè)定值,則進(jìn)行清音預(yù)處理;C)對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù)進(jìn)行頻譜變換,提取特征;D)對(duì)提取出的特征數(shù)據(jù)進(jìn)行分析;E)根據(jù)分析結(jié)果輸出音素序列。實(shí)施本發(fā)明提供的語(yǔ)音識(shí)別方法和系統(tǒng),可以針對(duì)語(yǔ)音信號(hào)的特點(diǎn),對(duì)清音和濁音采用不同的處理方法,特別是對(duì)濁音音素以單基音周期頻譜特征建模,解決了現(xiàn)有語(yǔ)音輸入識(shí)別系統(tǒng)的不足。具有識(shí)別效率高、精度高和穩(wěn)定性高等優(yōu)點(diǎn)。
文檔編號(hào)G10L15/00GK1991976SQ200510121499
公開(kāi)日2007年7月4日 申請(qǐng)日期2005年12月31日
發(fā)明者潘建強(qiáng) 申請(qǐng)人:潘建強(qiáng)導(dǎo)出引文BiBTeX, EndNote, RefMan