專利名稱:聲音識別系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種聲音識別系統(tǒng),具體地說,涉及一種具有改善了聲音部分檢測精度的聲音識別系統(tǒng)。
背景技術(shù):
當例如識別在其中存在噪聲等的環(huán)境中發(fā)出的聲音本身時,由于所述噪聲等的干擾,聲音的識別率將會失真。因此,用于聲音識別的聲音識別系統(tǒng)的基本出發(fā)點就是要正確地檢測聲音部分。
使用用于檢測聲音部分的剩余功率法或子空間法的聲音識別系統(tǒng)是已知的。
圖6示出了傳統(tǒng)的使用剩余功率法的聲音識別系統(tǒng)的結(jié)構(gòu)。在這個聲音識別系統(tǒng)中,使用Hidden Markov Model s(HMM海登.馬爾可夫模型)準備位于字或子字(例如音素、音節(jié))單元中的聲模型(聲音HMM),當發(fā)出需要識別的聲音時,建立是所述輸入信號頻譜的時間序列的觀測值序列,針對所述聲音HMM檢查所述觀測值序列,選擇具有最大可能性的聲音HMM并將其作為識別結(jié)果輸出。
具體地說,將被收集和存儲在聲音數(shù)據(jù)庫中的大量聲音數(shù)據(jù)Sm分配到每一延長為一個預(yù)定時間周期(近似10-20毫秒)的多個幀中,以幀為單位分配的該數(shù)據(jù)各個被依序進行倒頻譜計算,借此以計算倒頻譜時間序列。然后,經(jīng)過訓(xùn)練處理將所述倒頻譜時間序列處理成表示聲音和所述聲模型(聲HNN)在參數(shù)方面反映的特征量,從而可以建立以字或子字為單位的聲音HMM。
當聲音被實際發(fā)出時,當聲音以和上述類似方式以幀為單位的分配時,輸入輸入數(shù)據(jù)Sa。在以幀為單位的每段輸入信號數(shù)據(jù)的基礎(chǔ)上,使用剩余功率法構(gòu)成的聲音部分檢測部件檢測聲音部分τ,切割被檢測聲音部分τ中的輸入聲音數(shù)據(jù)Svc,將所述輸入聲音數(shù)據(jù)Svc倒頻譜時間序列的觀測值序列與以字或子字為單位的聲音HNN相比較,借此以實現(xiàn)聲音識別。
所述聲音部分檢測部件包括一個LPC分析部件1、閾值建立部件2、比較部件3以及轉(zhuǎn)換部件4和5。
LPC分析部件1對以幀為單位輸入信號數(shù)據(jù)Sa執(zhí)行線性預(yù)測編碼(LPC)分析,借此計算預(yù)測剩余功率ε。轉(zhuǎn)換部件4在例如由于發(fā)言者接通所述聲音識別系統(tǒng)的一個發(fā)言開始開關(guān)(未示出)直到發(fā)言者實際開始發(fā)言為止的一個預(yù)定時間周期(無聲周期)中將所述預(yù)測剩余功率ε提供給閾值建立部件2,但在所述無聲周期結(jié)束之后,轉(zhuǎn)換部件4將預(yù)測剩余功率ε提供給比較部件3。
閾值建立部件2計算在無聲周期中建立的所述預(yù)測剩余功率ε的平均ε’,并將一個預(yù)先確定的預(yù)定值α加到它上面,借此計算閾值THD(=ε’+α),然后將所述閾值THD提供給比較部件3。
比較部件3將所述閾值THD與在所述無聲周期結(jié)束之后經(jīng)過所述轉(zhuǎn)換部件4提供的所述預(yù)測剩余功率ε進行比較,當判斷的結(jié)果是THD≤ε并因此表明它是一個聲音部分時,轉(zhuǎn)換部件5被接通(使所述轉(zhuǎn)換部件5導(dǎo)通),而當判斷的結(jié)果是THD>ε并因此表明它是一個無聲部分時,轉(zhuǎn)換部件5被關(guān)斷(使轉(zhuǎn)換部件5截止)。
轉(zhuǎn)換部件5在比較部件3的控制下執(zhí)行上述通/斷操作。因此,在被確定為聲音部分的時間周期內(nèi),需要被識別的輸入聲音數(shù)據(jù)以幀為單位從輸入信號數(shù)據(jù)Sa中被切割,在所述輸入聲音數(shù)據(jù)Svc的基礎(chǔ)上執(zhí)行上述倒頻譜計算,建立將被針對聲音HMM進行檢查的觀測值序列。
在類似的方式下,在使用剩余功率法檢測聲音部分的傳統(tǒng)聲音識別系統(tǒng)中,在無聲周期中建立的預(yù)測聲音能量ε的平均ε’的基礎(chǔ)上確定用于檢測聲音部分的閾值THD,并判斷在所述無聲周期之后輸入的輸入信號數(shù)據(jù)Sa的所述預(yù)測剩余功率ε是否是大于所述閾值THD的一個值,借此檢測聲音部分。
圖7示出了一個使用子空間方法的聲音部分檢測部件的結(jié)構(gòu)。這個聲音部分檢測部件將一個輸入信號的特征矢量投影倒表示預(yù)先從大量聲音數(shù)據(jù)中訓(xùn)練的聲音特征的一個空間(子空間)上,并當投影量很大時識別聲音部分。
換言之,經(jīng)過預(yù)先收集的用于訓(xùn)練的聲音數(shù)據(jù)Sm(訓(xùn)練數(shù)據(jù))被以預(yù)定幀數(shù)為單位進行聽覺分析,借此計算M-維特征矢量Xn=[Xn1Xn2Xn3...XnM]。變量M表示所述矢量的維數(shù),變量n表示幀數(shù)(n≤N),和符號T表示轉(zhuǎn)置。
根據(jù)這個M-維特征矢量Xn,存在由下述公式(1)表示的相關(guān)矩陣R。此外,提供了下述公式(2),借此獲得本征值擴展的相關(guān)矩陣R,并計算M段本征值λs和本征矢量VK。R=1NΣn=1NxnxnT---(1)]]>(RλKI)VK=0(2)其中,K=1、2、3、…M;I表示一個單元矩陣;0表示一個零矢量。
接著,選擇m段(m<M)具有較大本征值的本正矢量V1、V2、…Vm,并建立其中所選擇的本征值是列向量的矩陣V=[V1、V2、…Vm]。換言之,由m段本正矢量V1、V2、…Vm所規(guī)定的空間被假設(shè)為最能夠表示經(jīng)過訓(xùn)練獲得的一個聲音特征的子空間。
然后利用下述公式(3)計算投影矩陣P。P=VVT=Σk=1mVKVKT---(3)]]>投影矩陣P在以這種方式預(yù)先建立的。當輸入輸入信號數(shù)據(jù)Sa時,與對訓(xùn)練數(shù)據(jù)Sm的處理方式類似,以預(yù)定幀數(shù)為單位對輸入信號數(shù)據(jù)Sa進行聽覺分析,借此計算所述輸入信號數(shù)據(jù)Sa的特征矢量a。此后計算所述投影矩陣P和所述特征矢量a的乘積,從而計算由公式(4)表示的投影矢量Pa的平方模(square norm)||Pa||2。
||Pa||2=(Pa)TPa=aTpTpa=aTpa....(4)在這個公式中,使用了投影矩陣PTP=P的能量等式。
將預(yù)先確定的閾值θ與上述平方模相比較,當θ<||Pa||2時,判斷的結(jié)果是這是一個聲音部分,在這個聲音部分內(nèi)的輸入信號數(shù)據(jù)Sa被切割并在被如此切割的聲音數(shù)據(jù)Svc的基礎(chǔ)上識別所述聲音。
但是,當SN比值變低時使用剩余功率法的聲音部分的上述傳統(tǒng)檢測存在一個問題,即噪聲和原始聲音之間預(yù)測剩余功率的差別變小,因此,檢測聲音部分的檢測精度變低。具體地說,問題在于很難檢測能量很小的清音的聲音部分。
另外,在使用子空間法檢測聲音部分的上述傳統(tǒng)方法表示在聲音(發(fā)聲的聲音和清音的聲音)頻譜和噪聲頻譜之間的差異的同時,由于它不能彼此清楚地鑒別這些頻譜,所以就存在一個問題,即不能改善檢測聲音部分的檢測精度。
下面參照圖8A到圖8C詳細描述在試圖識別發(fā)自汽車內(nèi)部聲音的情況下利用子空間法存在的問題。所述問題如下。圖8A示出了表示典型發(fā)聲聲音“a”、“i”、“u”、“e”和“o”的頻譜的包絡(luò),圖8B示出了表示多種典型清音類型的頻譜的包絡(luò),和圖8C示出了表示運行汽車噪聲的頻譜的包絡(luò),所述運行噪聲被包圍在其引擎排量彼此互不相同的多個汽車內(nèi)部。
作為所示出的這些頻譜包絡(luò),問題在于由于發(fā)聲聲音和運行汽車噪聲的頻譜彼此類似,所以,很難彼此鑒別所述發(fā)聲聲音和運行汽車噪聲。
此外,由于元音聲音和輔音聲音等導(dǎo)致特征矢量的模變化,因此,即使當這些矢量與所述子空間相互匹配時,如果在它們被投影之前的矢量很小,那么,在它們被投影之后的矢量模就變得很小。特別是,由于輔音具有較小的特征矢量模,所以就存在一個問題,即,將所述輔音作為聲音部分檢測將會失敗。
此外,在低頻區(qū)域內(nèi)表示發(fā)聲聲音的頻譜很大,而在高頻區(qū)域內(nèi)表示清音的頻譜很大。由于這個原因,其中全部訓(xùn)練發(fā)聲聲音和清音傳統(tǒng)方法存在一個問題,即很難獲得適當?shù)淖涌臻g。
發(fā)明內(nèi)容
本發(fā)明的一個目的是提供一種解決了上述使用傳統(tǒng)技術(shù)的傳統(tǒng)聲音識別系統(tǒng)存在的問題并改善了檢測聲音精度的聲音識別系統(tǒng)。
為了實現(xiàn)上述目的,本發(fā)明直接提供了一種包括用于檢測作為聲音識別目標的聲音部分的聲音部分檢測部件的聲音識別系統(tǒng)。
其特征在于所述聲音部分檢測部件包括一個訓(xùn)練矢量建立部件,用于預(yù)先將一個聲音的特征建立為訓(xùn)練矢量;一個內(nèi)部乘積值判斷部件,用于計算包括聲音的發(fā)出和所述訓(xùn)練矢量的輸入信號的特征矢量的內(nèi)部乘積,并判斷所述內(nèi)部乘積值等于或大于一個預(yù)定值的部分是一個聲音部分;和在由所述內(nèi)部乘積值判斷部件判斷的聲音部分期間內(nèi)的所述輸入聲音是聲音識別的目標。
根據(jù)這個結(jié)構(gòu),計算包括實際發(fā)出聲音的輸入信號的清音和特征矢量的基礎(chǔ)上預(yù)先準備的一個訓(xùn)練矢量的內(nèi)部乘積,將所計算的內(nèi)部乘積值大于一個預(yù)定閾值的點判斷為清音。在上述判斷結(jié)果的基礎(chǔ)上建立所述輸入信號的聲音部分,借此適當發(fā)現(xiàn)需要被識別的聲音。
此外,為了實現(xiàn)上述目的,本發(fā)明直接提供了一種聲音識別系統(tǒng),該系統(tǒng)包括一個聲音部分檢測部件,用于檢測作為聲音識別目標的聲音部分,其特征是所述聲音部分檢測部件包括訓(xùn)練矢量建立部件,用于將一個聲音的特征預(yù)先建立為訓(xùn)練矢量;閾值建立部件,用于在不發(fā)聲周期內(nèi)建立的輸入信號的線性預(yù)測剩余功率的基礎(chǔ)上從噪聲中鑒別一個聲音的閾值;內(nèi)部乘積值判斷部件,用于計算包括聲音的發(fā)出與所述訓(xùn)練矢量的一個輸入信號的特征矢量的內(nèi)部乘積,并判斷所述內(nèi)部乘積值等于或大于一個預(yù)定值的點是一個聲音部分;和線性預(yù)測剩余功率判斷部件,用于判斷包括所述聲音的發(fā)出的所述輸入信號的線性預(yù)測剩余功率大于由所述閾值建立部件建立的所述閾值的點是一個聲音部分,和在由所述內(nèi)部乘積值判斷部件和所述線性預(yù)測剩余功率判斷部件判斷的所述聲音周期內(nèi)的輸入信號是聲音識別的目標。
根據(jù)這個結(jié)構(gòu),計算在清音基礎(chǔ)上預(yù)先準備的訓(xùn)練矢量與包括聲音實際發(fā)出的輸入信號的特征矢量的內(nèi)部乘積,所計算的內(nèi)部乘積值大于所述預(yù)定閾值的點被判斷為清音部分。另外,在無聲周期中在預(yù)測剩余功率基礎(chǔ)上計算的閾值與包括實際發(fā)出所述聲音的輸入信號的預(yù)測剩余功率進行比較,其中這個預(yù)測剩余功率大于所述閾值的點被判斷為發(fā)聲聲音的部分。在上述判斷結(jié)果的基礎(chǔ)上建立所述輸入信號的聲音部分,借此正確地找到需要被識別的聲音。
此外,為了實現(xiàn)上述目的,本發(fā)明的特征在于包括一個錯誤判斷控制部件,用于計算在無聲周期內(nèi)建立的所述輸入信號的特征矢量與所述訓(xùn)練矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時利用所述內(nèi)部乘積值判斷部件停止所述判斷處理。
根據(jù)這個結(jié)構(gòu),計算一個訓(xùn)練矢量和在實際發(fā)出一個聲音之前的無聲周期、即只存在背景聲音的周期中獲得的特征矢量的內(nèi)部乘積,當所述內(nèi)部乘積值等于或大于所述預(yù)定值時停止所述內(nèi)部乘積值判斷部件的判斷處理。這可以避免在高頻范圍內(nèi),在SN比值很高和背景聲音的頻譜也很高的背景中將背景聲音作為輔音的錯誤檢測。
此外,為了實現(xiàn)上述目的,本發(fā)明的特征在于包括一個計算部件,用于計算包括聲音發(fā)出的輸入信號的線性預(yù)測剩余功率;和一個錯誤判斷控制部件,用于當由所述計算部件計算的線性預(yù)測剩余功率等于或小于一個預(yù)定值時停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
根據(jù)這個結(jié)構(gòu),當在實際發(fā)出聲音之前的一個無聲周期、即只存在背景聲音的周期中獲得的預(yù)測剩余功率等于或小于所述預(yù)定值時,停止由所述線性預(yù)測剩余功率判斷部件執(zhí)行的判斷處理。這可以避免在高頻范圍內(nèi)在SN比值很高和背景聲音的頻譜也很高的背景中錯誤地將背景聲音作為一個輔音檢測。
此外,為了實現(xiàn)上述目的,本發(fā)明的特征在于包括一個計算部件,用于計算包括一個聲音發(fā)出的所述輸入信號的線性預(yù)測剩余功率;和一個錯誤判斷控制部件,該部件在無聲周期期間建立的所述輸入信號的特征矢量和所述訓(xùn)練矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時或當在所述無聲周期中建立的所述輸入信號的線性預(yù)測剩余功率等于或小于一個預(yù)定值時停止所由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
根據(jù)這個結(jié)構(gòu),當所述訓(xùn)練矢量和在實際發(fā)出聲音之前的一個無聲周期、即只存在背景聲音的一個周期內(nèi)獲得的特征矢量的內(nèi)部乘積等于或大于所述預(yù)定值或當在所述無聲周期內(nèi)建立的所述輸入信號的預(yù)測剩余功率等于或小于所述預(yù)定值時,停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。這可以避免在高頻范圍內(nèi),在SN比值很高和所述背景聲音的頻譜也很高的背景中將背景聲音作為輔音的錯誤檢測。
圖1的框圖示出了根據(jù)第一實施例的聲音識別系統(tǒng)的結(jié)構(gòu);圖2的框圖示出了根據(jù)第二實施例的聲音識別系統(tǒng)的結(jié)構(gòu);圖3的框圖示出了根據(jù)第三實施例的聲音識別系統(tǒng)的結(jié)構(gòu);圖4的框圖示出了根據(jù)第四實施例的聲音識別系統(tǒng)的結(jié)構(gòu);圖5的特征曲線示出了從表示清音數(shù)據(jù)的訓(xùn)練矢量中獲得的一個頻譜包絡(luò);圖6的框圖示出了使用傳統(tǒng)剩余功率法的聲音部分檢測部件的結(jié)構(gòu);圖7的框圖示出了使用傳統(tǒng)的子空間法的聲音部分檢測部件的結(jié)構(gòu);加圖8A到圖8C的每一個示出了聲音和運行汽車噪聲的頻譜包絡(luò)。
具體實施例方式
下面,結(jié)合附圖描述本發(fā)明的最佳實施例。圖1的框圖示出了根據(jù)本發(fā)明聲音識別系統(tǒng)第一最佳實施例的結(jié)構(gòu),圖2的框圖示出了根據(jù)第二最佳實施例的結(jié)構(gòu),圖3的框圖示出了根據(jù)第三最佳實施例的結(jié)構(gòu),圖4的框圖示出了根據(jù)第四最佳實施例的結(jié)構(gòu)。
第一實施例該實施例通常直接指向一種借助于HMM方法識別一個聲音并包括用于為聲音識別目的而切割聲音的一個部件的聲音識別系統(tǒng)。
在圖1中,第一最佳實施例的聲音識別系統(tǒng)包括一個使用海登.馬爾可夫模型以字或子字為單位建立的聲模型(聲HMM)10、一個識別部件11和一個倒頻譜計算部件12。識別部件11針對聲HMM10檢查一個是由所述倒頻譜計算部件12建立的輸入聲音倒頻譜時間序列的觀測值序列,選擇提供具有最大可能的聲音HMM,并將其作為識別結(jié)果輸出。
換言之,幀部件7將已經(jīng)收集和存儲在聲音數(shù)據(jù)庫6中的聲音數(shù)據(jù)Sm分配給預(yù)定的幀,倒頻譜計算部件8然后計算現(xiàn)在以幀為單位的聲音數(shù)據(jù)的倒頻譜并借此獲得倒頻譜時間序列。然后,訓(xùn)練部件9將由訓(xùn)練處理的倒頻譜時間序列處理為特征數(shù)量,借此預(yù)先建立以字或子字為單位的聲音HMM10。
倒頻譜計算部件12倒頻譜計算將響應(yīng)一個聲音部分的檢測而切割(它將在后面描述)的實際輸入聲音數(shù)據(jù)Svc的倒頻譜,從而建立上述觀測值序列。識別部件11以字或子字為單位針對聲HMM10檢查所述觀測值序列,并椐此執(zhí)行聲音識別。
此外,所述聲音識別系統(tǒng)包括一個聲音部分檢測部件,該部件檢測實際發(fā)出聲音(輸入信號)Sa的聲音部分并切割其上是聲音識別目標的所述輸入聲音數(shù)據(jù)Svc。所述聲音部分檢測部件包括第一檢測部件100、第二檢測部件200、聲音部分確定部件300和聲音切割部件400。
第一檢測部件100包括一個用于存儲已經(jīng)預(yù)先收集聲音的清音部分的數(shù)據(jù)(清音數(shù)據(jù))Sc的清音數(shù)據(jù)庫13,和LPC倒頻譜計算部件14以及訓(xùn)練矢量建立部件15。
LPC倒頻譜計算部件14對存儲在清音數(shù)據(jù)庫13中的清音數(shù)據(jù)Sc以幀為單位進行LPC分析,借此計算倒頻譜區(qū)域中的M-維特性矢量Cn=[C1、C2、…、CnM]T。
訓(xùn)練矢量建立部件15根據(jù)所述M-維特征矢量Cn計算由下述公式(5)表示的相關(guān)矩陣R并進一步本征擴展所述相關(guān)矩陣R,借此獲得M段本征值λK和本征矢量VK以及與所述M段本征值λK當中的最大本征值對應(yīng)的本征矢量被設(shè)置為訓(xùn)練矢量V。在公式(5)中,變量n表示幀數(shù),符號T表示轉(zhuǎn)。R=1NΣn=1NCnCnT---(5)]]>作為LPC倒頻譜計算部件14和訓(xùn)練矢量建立部件15進行處理的結(jié)果,獲得表示清音特征的訓(xùn)練矢量V。圖5示出了根據(jù)所述訓(xùn)練矢量V獲得的頻譜包絡(luò)。級別是用于LPC分析的級別(第3階、第8階、第16階)。由于圖5所示頻譜的包絡(luò)與圖8B所示表示實際清音的頻譜包絡(luò)極為相似,因此,可以確認能夠獲得將表示一個清音特征的訓(xùn)練矢量V。
此外,第一檢測部件100包括一個幀部件16,用于將輸入信號的數(shù)據(jù)Sa以和上述類似的方式分配到幀中;一個LPC倒頻譜計算部件17,用于通過對以幀為單位的輸入信號數(shù)據(jù)Saf執(zhí)行LPC分析計算倒頻譜區(qū)域中的M-維特征矢量A和預(yù)測剩余功率ε;一個內(nèi)部乘積計算部件18,用于計算所述訓(xùn)練矢量V和所述特征矢量A的內(nèi)部乘積VTA;和一個第一閾值判斷部件19,用于將所述內(nèi)部乘積VTA與一個預(yù)定閾值θ進行比較,并且,如果θ≤VTA,則判斷它是一個聲音部分。因此,由所述第一閾值判斷部件19產(chǎn)生的判斷結(jié)果D1被提供給聲音部分確定部件300。
所述內(nèi)部乘積VTA是一個保持考慮到所述訓(xùn)練矢量V和所述特征矢量A的方向信息的標量、即是具有一個正值或負值的標量。當特征矢量A與特征矢量V的方向相同(0≤VTA)時,所述標量具有正值,但當所述特征矢量A與特征矢量V的方向相反(0>VTA)時,所述標量具有一個負值。由于這個原因,在這個實施例中,θ=0。
第二檢測部件200包括一個閾值建立部件20和一個第二閾值判斷部件21。
在一個預(yù)定時間周期(無聲周期)中,由于發(fā)言者接通所述聲音識別系統(tǒng)的一個發(fā)言開始開關(guān)(未示出),直到發(fā)言者實際發(fā)言為止,閾值建立部件20計算由所述LPC倒頻譜計算部件17計算的預(yù)測剩余功率ε的平均ε’,然后將所述平均ε’加到一個預(yù)定閾值α上,借此獲得閾值THD=(ε’+α)。
在所述無聲周期過后,第二閾值判斷部件21將由LPC倒頻譜計算部件17計算的預(yù)測剩余功率ε與所述閾值THD進行比較。當THD≤ε時,第二閾值判斷部件21判斷它是一個聲音部分并將這個判斷結(jié)果D2提供給聲音部分確定部件300。
聲音部分確定部件300將從第一檢測部件提供的判斷結(jié)果D1的點和從第二檢測部件200提供的所述判斷結(jié)果D2的點確定為所述輸入信號Sa的聲音部分τ。簡言之,聲音部分確定部件300將滿足θ≤VTA或THD≤ε條件的點確定為所述聲音部分τ,改變處于無聲部分到無聲部分之間的短聲音部分,改變處于聲音部分到聲音部分之間的短無聲部分,和將這個判定D3提供給聲音切割部件400。
在上述判定D3的基礎(chǔ)上,聲音切割部件400把將從輸入信號數(shù)據(jù)Saf識別的輸入聲音數(shù)據(jù)Svc切割,該輸入信號數(shù)據(jù)Saf是以幀為單位并由幀部件16提供的,并該聲音切割部件將所述輸入聲音數(shù)據(jù)Svc提供給倒頻譜計算部件12。
倒頻譜計算部件12根據(jù)以幀為單位切割的輸入聲音數(shù)據(jù)Svc建立倒頻譜區(qū)域中的觀測值序列,識別部件11針對所述聲音HMM10檢查所述觀測值序列,借此實現(xiàn)聲音識別。
利用這種方式,在根據(jù)該實施例的聲音識別系統(tǒng)中,所述第一檢測部件100正確地檢測清音的聲音部分和第二檢測部件200正確地檢測發(fā)聲聲音的聲音部分。
具體地說,第一檢測部件100計算在用于訓(xùn)練的清音數(shù)據(jù)Sc基礎(chǔ)上預(yù)先建立的一個清音的訓(xùn)練矢量和包括實際發(fā)出聲音的輸入信號數(shù)據(jù)Sa的特征矢量的內(nèi)部乘積,判斷所獲得的內(nèi)部乘積具有大于閾值θ=0的值(即正值)的點是輸入信號數(shù)據(jù)Sa中的清音部分。第二檢測部件200比較在無聲周期的預(yù)測剩余功率基礎(chǔ)上預(yù)先計算的閾值THD和包括實際發(fā)出所述聲音的輸入信號數(shù)據(jù)Sa的預(yù)測剩余功率ε,判斷滿足THD≤ε條件的點是輸入信號數(shù)據(jù)Sa中的發(fā)聲聲音部分。
換言之,由第一檢測部件100執(zhí)行的處理使得可以高精度檢測其能量相對較小的清音,和由第二檢測部件200執(zhí)行的處理使得可以高精度檢測其能量相對較大的發(fā)聲聲音。
所述聲音部分確定部件在由第一和第二檢測部件100和200作出的判斷結(jié)果D1和D2的基礎(chǔ)上最終確定一個聲音部分(是發(fā)聲聲音或清音的一部分),和將被識別的輸入聲音數(shù)據(jù)Svc根據(jù)這個判定D3進行切割。因此,可以增強聲音識別的精度。
在根據(jù)圖1所述實施例的結(jié)構(gòu)中,在由第一閾值判斷部件19作出的判斷結(jié)果D1和由第二閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上,聲音部分確定部件300輸出指出聲音部分的判定D3。
但是,本發(fā)明并不局限于此。在包括其中內(nèi)部乘積部件18和閾值判斷部件19判斷一個聲音部分的第一檢測部件100的同時,所述結(jié)構(gòu)可以省略第二檢測部件200,從而所述聲音部分確定部件300在所述判斷結(jié)果D1的基礎(chǔ)上輸出指出聲音部分的判定D3。
第二實施例下面,結(jié)合圖2描述根據(jù)第二最佳實施例的聲音識別系統(tǒng)。在圖2中,與圖1所示相同或相對應(yīng)的部分以相同的標號表示。
圖2所示與第一最佳實施例的區(qū)別在于根據(jù)第二最佳實施例的聲識別系統(tǒng)包括一個錯誤判斷控制部件500,該部件500包括一個內(nèi)部乘積計算部件22和第三閾值判斷部件23。
在由于發(fā)言者接通所述聲音識別系統(tǒng)的發(fā)言開始開關(guān)(未示出)直到發(fā)言者實際開始發(fā)言為止的一個無聲周期期間內(nèi),所述內(nèi)部乘積計算部件22計算由LPC倒頻譜計算部件17計算的所述特征矢量A和由訓(xùn)練矢量建立部件15預(yù)先計算的清音的所述訓(xùn)練矢量V的內(nèi)部乘積。即,在實際發(fā)聲之前的所述無聲周期期間內(nèi),內(nèi)部乘積計算部件22計算訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA。
第三閾值判斷部件23將一個預(yù)先確定的閾值θ’(=0)與由所述內(nèi)部乘積計算部件22計算的所述內(nèi)部乘積VTA進行比較,和當即便僅僅是一幀滿足θ’<VTA時,向內(nèi)部乘積計算部件18提供一個用于停止內(nèi)部乘積計算的控制信號CNT。換言之,如果在所述無聲周期期間計算的訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA是一個大于所述閾值θ’的較大值(正值),那么,即使當在所述無聲周期之后一個發(fā)言者實際發(fā)出聲音時,第三閾值判斷部件23也禁止內(nèi)部乘積計算部件18執(zhí)行計算內(nèi)部乘積的處理。
當內(nèi)部乘積計算部件18響應(yīng)所述控制信號CNT而停止計算所述內(nèi)部乘積的處理時,第一閾值判斷部件19也基本上停止檢測聲音部分的處理,因此,判斷結(jié)果D1不被提供給聲音部分確定部件300。即,聲音部分確定部件300在從第二檢測部件200提供的判斷結(jié)果D2的基礎(chǔ)上最終判斷一個聲音部分。
具有這種結(jié)構(gòu)的實施例具有如下效果。在表示清音的頻譜在高頻區(qū)變高和表示背景噪聲的頻譜在低頻區(qū)變高的前提下,第一檢測部件100檢測一個聲音部分。因此,即使是在不使用上述錯誤判斷控制部件500而僅由第一檢測部件100單獨執(zhí)行計算內(nèi)部乘積的處理的場合,例如如在汽車內(nèi)的SN比值較低和運行汽車噪聲占主導(dǎo)地位的背景中,也能夠改善檢測精度。
但是,在一個SN比值很高和表示背景噪聲的頻譜因此在高頻區(qū)域中很高的背景中,利用僅僅由所述內(nèi)部乘積計算部件18執(zhí)行的處理,就存在一個問題,即,將噪聲部分錯誤地判斷為聲音部分的可能性很高。
相反,在錯誤判斷控制部件500中,內(nèi)部乘積計算部件22計算清音的訓(xùn)練矢量V和僅在實際發(fā)聲之前的無聲周期、即僅僅存在背景噪聲的周期內(nèi)獲得的特征矢量A的內(nèi)部乘積VTA,第三閾值判斷部件23檢查如果保持θ′<VTA關(guān)系并椐此判斷表示背景噪聲的頻譜是否在高頻區(qū)域中是高的。當它判斷表示背景噪聲的頻譜在所述高頻區(qū)域中是高時,停止由第一內(nèi)部乘積計算部件18執(zhí)行的處理。
因此,使用錯誤判斷控制部件500的這個實施例建立了一種效果,即在其中所述SN比值很高和表示背景噪聲的頻譜因此在高頻區(qū)域中是高的背景中,可以避免導(dǎo)致與輔音相關(guān)的檢測誤差(錯誤檢測)。這使得可以以改善聲音識別速率的方式檢測聲音部分。
根據(jù)在圖2所示實施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出一個聲音部分的判定D3。
但是,本發(fā)明并不局限于此。可以省略第二檢測部件200,這樣,聲音部分確定部件300在由第一檢測部件100和錯誤判斷控制部件500作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個聲音部分的判定D3。
第三實施例下面結(jié)合圖3描述根據(jù)本發(fā)明第三最佳實施例的聲音識別系統(tǒng)。在圖3中,與圖2所示相同或相對應(yīng)的部分使用相同的標號。
圖3所示實施例和圖2所示第二實施例的區(qū)別在于如圖2所示,在根據(jù)第二最佳實施例的聲音識別系統(tǒng)中,計算訓(xùn)練矢量V和在實際發(fā)出聲音之前的無聲周期內(nèi)由LPC倒頻譜計算部件17計算的特征矢量A的內(nèi)部乘積VTA,當所計算的內(nèi)部乘積值滿足ε’<VTA時停止內(nèi)部乘積計算部件18的處理,借此避免聲音部分的錯誤判斷。
相反,如圖3所示,所述第三實施例提供了一種結(jié)構(gòu),在這種結(jié)構(gòu)中,提供了一個錯誤判斷控制部件600和所述錯誤判斷控制部件600中的第三閾值判斷部件24在由LPC倒頻譜計算部件17在實際發(fā)聲之前的一個無聲周期中計算的預(yù)測剩余功率ε的基礎(chǔ)上執(zhí)行一個用于避免聲音部分錯誤判斷的判斷處理,并且在所述控制信號CNT的基礎(chǔ)上控制所述內(nèi)部乘積計算部件18。
即,當由于所述發(fā)言者接通一個發(fā)言開始開關(guān)(未示出)而使所述LPC倒頻譜計算部件17直到該發(fā)言者實際發(fā)言為止的一個無聲周期中計算背景聲音的預(yù)測剩余功率ε時,所述第三閾值判斷部件24計算所述預(yù)測剩余功率ε的平均ε’,將所述平均ε’與一個預(yù)先確定的閾值THD’進行比較,如果ε’<THD’,則向內(nèi)部乘積計算部件18提供用于停止所述內(nèi)部乘積計算的控制信號CNT。換言之,當ε’<THD’時,即使是在所述無聲周期過去之后發(fā)言者實際發(fā)出聲音的情況下,第三閾值判斷部件24也禁止內(nèi)部乘積計算部件18執(zhí)行計算內(nèi)部乘積的處理。
在相對安靜環(huán)境下獲得的預(yù)測剩余功率ε0被用做基準(0dB),高于它的0dB到50dB的值被設(shè)置為上述的閾值THD’。
使用這種結(jié)構(gòu)的第三最佳實施例與和上述第二最佳實施例的情況相同允許即使是在SN比值很高和表示背景噪聲的頻譜也因此在一個高頻區(qū)域中是高的背景中保持聲音檢測的檢測精度,因此,可以以改善聲音識別速度的方式檢測聲音部分。
在圖3所示實施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出聲音部分的判定D3。
但是,本發(fā)明并不僅僅局限于此。所述第二檢測部件200可以省略,由此,所述聲音部分確定部件300在由第一檢測部件100和錯誤判斷控制部件600作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個聲音部分的判定D3。
第四實施例下面結(jié)合圖4描述本發(fā)明第四最佳實施例的聲音識別系統(tǒng)。在圖4中,與圖2所示相同或相對應(yīng)的部分使用相同的標號。
圖4所示的實施例使用錯誤判斷控制部件700,該部件700的功能與和第二最佳實施例(圖2)相關(guān)描述的錯誤判斷控制部件500以及和第三最佳實施例(圖3)相關(guān)描述的錯誤判斷控制部件600的功能相同,并且錯誤判斷控制部件700包括內(nèi)部乘積計算部件25、閾值判斷部件26和28以及轉(zhuǎn)換判斷部件27。
在由于所述發(fā)言者接通所述聲音識別系統(tǒng)的一個發(fā)言開始開關(guān)(未示出)直到所述發(fā)言者實際發(fā)言為止的一個無聲周期中,內(nèi)部乘積計算部件25計算由LPC倒頻譜計算部件17計算的特征矢量A和由所述訓(xùn)練矢量建立部件15預(yù)先計算的清音的訓(xùn)練矢量V的內(nèi)部乘積VTA。
閾值判斷部件26將一個預(yù)先確定的閾值θ’(=0)與由所述內(nèi)部乘積計算部件25計算的所述內(nèi)部乘積VTA進行比較,當即便僅一幀滿足θ’<VTA時,建立一個用于停止內(nèi)部乘積計算的控制信號CNT1,并將所述控制信號CNT1輸出給內(nèi)部乘積計算部件18。
在由于一個發(fā)言者接通所述聲音識別系統(tǒng)的一個發(fā)言開始開關(guān)(未示出)而直到所述發(fā)言者實際發(fā)言為止的一個無聲周期中,當LPC倒頻譜計算部件17計算背景聲音的預(yù)測剩余功率ε時,閾值判斷部件28計算所述預(yù)測剩余功率ε的平均ε’,比較所述平均ε’和預(yù)先確定的閾值THD’,當ε’<THD’時,建立用于停止計算內(nèi)部乘積的控制信號CNT2,并將該控制信號CNT2輸出給內(nèi)部乘積計算部件18。
在從閾值判斷部件26或27接收上述控制信號CNT1或控制信號CNT2的基礎(chǔ)上,轉(zhuǎn)換判斷部件27向第一內(nèi)部乘積計算部件18提供作為控制信號CNT的控制信號CNT1或CNT2,借此停止計算所述內(nèi)部乘積的處理。
因此,當在所述無聲周期中計算的所述訓(xùn)練矢量V和特征矢量A的內(nèi)部乘積VTA即使是一幀滿足θ’<VTA時,或者當在所述無聲周期中計算的預(yù)測剩余功率ε的平均ε’保持ε’<THD’的關(guān)系時,即使是在所述無聲周期過去之后一個發(fā)言者實際發(fā)出聲音,所述內(nèi)部乘積計算部件18也將禁止計算內(nèi)部乘積的處理。
在相對安靜環(huán)境下獲得的預(yù)測剩余功率ε0被用做基準(0dB),高于它的從0dB到50dB的值被設(shè)置為上述閾值THD’。所述閾值θ’被設(shè)置為θ’=0。
第四最佳實施例提供了這樣一種結(jié)構(gòu),即,如在上述第二和第三最佳實施例的情況下,即使是在其中SN比值很高和因此表示背景噪聲的頻譜也在高頻區(qū)域是高的背景中,該結(jié)構(gòu)也允許保持高精度檢測聲音部分,并因此以改善聲音識別速率的方式檢測一個聲音部分。
在根據(jù)圖4所示這個實施例的結(jié)構(gòu)中,聲音部分確定部件300在由閾值判斷部件19作出的判斷結(jié)果D1和由閾值判斷部件21作出的判斷結(jié)果D2的基礎(chǔ)上輸出指出一個聲音部分的判定D3。
但是,本發(fā)明并不僅僅局限于此。第二檢測部件200可以被省略,這樣,所述聲音部分確定部件300在由第一檢測部件100和錯誤判斷控制部件700作出的判斷結(jié)果D1的基礎(chǔ)上輸出指出一個聲音部分的判定D3。
上述第一到第四最佳實施例的聲音識別系統(tǒng),如圖1所示元件8到12,使用一種方法,在該方法中,以用于識別聲音的馬爾可夫模型的形式描述聲音的特征(即HMM方法)。
但是,根據(jù)各最佳實施例由元件100、200、300、400、500、600和700形成的聲音切割部件、即用于以幀為單位從輸入信號數(shù)據(jù)Saf切割作為一個目標的輸入聲音數(shù)據(jù)Svc的部件不僅適用于HMM方法,也適用于用于聲音識別的其他處理方法。例如,可以被應(yīng)用于使用動態(tài)編程(DP)方法的DP匹配方法。
如上所述,利用根據(jù)本發(fā)明的聲音識別系統(tǒng),一個聲音部分被確定為一個點,在該點處,在清音基礎(chǔ)上預(yù)先建立的訓(xùn)練矢量和表示包括實際發(fā)聲的一個輸入信號的特征矢量的內(nèi)部乘積值具有等于或大于一個預(yù)定閾值的值,或一個點,在該點處,包括實際發(fā)聲的一個輸入信號的預(yù)測剩余功率與在無聲周期的預(yù)測剩余功率基礎(chǔ)上計算的一個閾值進行比較并找出大于該閾值的輸入信號的預(yù)測剩余功率。因此,它可以適當鑒別發(fā)聲聲音和清音,而這就是聲音識別的目標。
此外,當在無聲周期中建立的背景聲音的特征矢量與訓(xùn)練矢量的內(nèi)部乘積值等于或大于一個預(yù)定值時,或者當在無聲周期中建立的所述信號的線性預(yù)測剩余功率等于或小于一個預(yù)定閾值時,或者當這兩種情況都發(fā)生時,不進行在輸入信號特征矢量的內(nèi)部乘積值基礎(chǔ)上的聲音部分檢測。代替的是將其中包括實際發(fā)聲的所述輸入信號的預(yù)測剩余功率等于或大于一個預(yù)定閾值的點用做一個聲音部分。因此,可以改善在其中SN比值很高和因此表示背景噪聲的頻譜也在高頻區(qū)域中是高的背景中檢測聲音部分的檢測精度。
權(quán)利要求
1.一種聲音識別系統(tǒng),包括一個聲音部分檢測部件,包括訓(xùn)練矢量建立部件,用于預(yù)先將一個聲音的特征建立為訓(xùn)練矢量;和內(nèi)部乘積值判斷部件,用于計算所述訓(xùn)練矢量與包括發(fā)聲的輸入信號特征矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時判斷將是聲音部分的輸入信號;其中,在所述聲音部分期間的輸入信號是聲音識別的一個目標。
2.一種聲音識別系統(tǒng),包括訓(xùn)練矢量建立部件,用于將一個聲音的特征預(yù)先建立為訓(xùn)練矢量;閾值建立部件,用于在無聲周期中建立的輸入信號的線性預(yù)測剩余功率的基礎(chǔ)上從噪聲中鑒別一個聲音的閾值;內(nèi)部乘積值判斷部件,用于計算所述訓(xùn)練矢量與包括發(fā)聲的輸入聲音的特征矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時判斷所述聲音是第一聲音部分;和線性預(yù)測剩余功率判斷部件,用于當所述輸入信號的線性預(yù)測剩余功率大于由所述閾值建立部件建立的所述閾值時判斷所述輸入信號是第二聲音部分,其中,在所述第一聲音部分和所述第二聲音部分期間的輸入信號是聲音識別的目標。
3.根據(jù)權(quán)利要求2所述的聲音識別系統(tǒng),還包括一個錯誤判斷控制部件,用于計算所述訓(xùn)練矢量與一個在無聲周期中建立的輸入信號的特征矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時停止所述內(nèi)部乘積值判斷部件的判斷處理。
4.根據(jù)權(quán)利要求2所述的聲音識別系統(tǒng),還包括計算部件,用于計算在無聲周期中建立的所述輸入信號的線性預(yù)測剩余功率;和錯誤判斷控制部件,用于當由所述計算部件計算的線性預(yù)測剩余功率等于或小于一個預(yù)定值時停止由所述內(nèi)部乘積值判斷部件執(zhí)行的判斷處理。
5.根據(jù)權(quán)利要求2所述的聲音識別系統(tǒng),還包括計算部件,用于計算在無聲周期中建立的所述輸入信號的線性預(yù)測剩余功率;和錯誤判斷控制部件,用于計算所述訓(xùn)練矢量與在所述無聲周期中建立的所述輸入信號的一個特征矢量的內(nèi)部乘積,并當所述內(nèi)部乘積值等于或大于一個預(yù)定值時或當在所述無聲周期中建立的所述輸入信號的線性預(yù)測剩余功率等于或小于一個預(yù)定值時停止所述內(nèi)部乘積值判斷部件的判斷處理。
全文摘要
訓(xùn)練矢量建立部件15將清音的一個特征預(yù)先建立為訓(xùn)練矢量V。同時,在無聲周期期間建立的一個聲音的預(yù)測剩余功率ε的基礎(chǔ)上建立用于從背景聲音中鑒別一個聲音的閾值THD。當實際發(fā)出聲音時,內(nèi)部乘積計算部件18計算輸入信號Sa的特征矢量A與訓(xùn)練矢量V的內(nèi)部乘積,當所述內(nèi)部乘積的值等于或大于一個預(yù)定之θ時,第一閾值判斷部件19判斷是一個聲音部分,當所述輸入信號Sa的預(yù)測剩余功率ε大于閾值THD時,第二閾值判斷部件21判斷是一個聲音部分。當所述第一閾值判斷部件19和所述第二閾值判斷部件21中的至少一個判斷它是一個聲音部分時,聲音部分確定部件300最終判斷它是一個聲音部分,并將以幀為單位且和這個聲音部分對應(yīng)的輸入聲音Saf切割成將被識別的聲音Svc。
文檔編號G10L15/02GK1343966SQ0113287
公開日2002年4月10日 申請日期2001年9月12日 優(yōu)先權(quán)日2000年9月12日
發(fā)明者小林載, 駒村光彌, 外山聰一 申請人:日本先鋒公司