專利名稱:語音的頻譜波峰的檢測以及語音識別方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù),具體地,涉及語音的頻譜波峰的檢測以及 利用語音的頻語波峰信息的語音識別技術(shù)。
背景技術(shù):
自動語音識另'J (Automatic Speech Recognition, ASR)才支術(shù)的目標是 使計算機能夠識別出人所說出的連續(xù)語音。通常,自動語音識別過程包括 模板生成和匹配識別兩個階段。在模板生成階段,根據(jù)樣本語音的頻譜特 征建立供比對的才莫板;在識別階段,當說話人的語音被輸入到計算機內(nèi)部 后,計算機的自動語音識別系統(tǒng)便對這些語音進行特征提取,并以此與事 先存儲好的語音模板進行比對,以找出最匹配、最接近的語音樣本,從而 據(jù)此獲知所輸入的語音的含義,進而據(jù)此執(zhí)行命令或轉(zhuǎn)換為用戶希望的識 別格式。
目前,針對自動語音識別技術(shù)提出了很多的算法,但是這些算法基本 都是基于較為純凈的語音環(huán)境的。也就是說,在目前的自動語音識別系統(tǒng) 中,大多數(shù)語音才莫板都是在無噪聲的"純凈,,環(huán)境中采集/轉(zhuǎn)換而成的。
但是,實際的語音環(huán)境不可避免地存在干擾和噪聲。從而, 一旦語音 識別的環(huán)境中有噪聲和干擾,并且這些噪聲很強時,上述的自動語音識別 系統(tǒng)便很難準確地從含噪語音中識別出說話者的語音,從而識別準確率將 會大大降低。
從而,目前的自動語音識別系統(tǒng)雖然在安靜環(huán)境下可以獲得比較令人 滿意的識別準確率,但是其性能在噪聲環(huán)境下會急劇下降。
8因此,抗噪穩(wěn)健性對于一個自動語音識別系統(tǒng)的應(yīng)用來說是十分關(guān)鍵 的。并且,隨著自動語音識別技術(shù)的t艮和廣泛應(yīng)用,對于語音識別的抗 噪穩(wěn)健性的要求愈加嚴格。因為,實際的應(yīng)用環(huán)境要求自動語音識別系統(tǒng) 必須能夠應(yīng)付千差萬別的噪聲環(huán)境。
目前,自動語音識別的抗噪穩(wěn)健性方面的工作主要集中在前端設(shè)計, 目的是減少噪聲所引起的特征空間的失配。因為,諸如梅爾倒譜系數(shù)
(Mel-Frequency Cepstral Coefficient, MFCC )的傳統(tǒng)i吾音識別前端主要 使用語音信號的功率譜信息,但是,在噪聲環(huán)境下,語音信號的功率譜常 常會被噪聲所破壞,所以,采用這樣受到噪聲破壞的功率i普來進行語音識 別,其準確性勢必會受到影響。
所以,目前有一些改進的前端利用了語音頻i普波峰的信息來提高抗噪 穩(wěn)健性,因為,通常認為語音頻譜波峰受噪聲影響比較小。雖然目前這些 基于頻鐠波峰的前端對提高抗噪穩(wěn)健性有一定的積極作用,但是仍然存在 一些問題需要解決
(1) 需要從語音頻i普中去掉那些噪聲所引起的頻語波峰。含噪語音頻 鐠中一些波峰是由噪聲引起的,如果將噪聲引起的波,認為是語音引起 的,則會導致識別性能下降。
(2) 語音特征的維數(shù)不能增加太多。目前,大部分利用頻鐠波峰信息 的穩(wěn)健前端是將單純利用頻傳波峰信息的特征與傳統(tǒng)的梅爾刻度倒i普系數(shù) 結(jié)合起來,因此特征維數(shù)會增多。
從而,需要一種能夠可靠地檢測語音的頻傳波峰并在語音識別中使用 語音頻語波峰的信息、以便在不增加語音特征維數(shù)的情況下提高語音識別 的抗噪穩(wěn)健性的技術(shù)。
發(fā)明內(nèi)容
本發(fā)明正是鑒于上述現(xiàn)有技術(shù)中的問題而提出的,其目的在于提供一 種語音的頻i脊波峰的檢測方法和裝置以及語音識別方法和系統(tǒng),以便在語可靠的語音頻i普波峰,進而在語音識別中利用可靠的語音頻譜波峰的能量
值代替整個功率譜來提取語音的梅爾倒譜系數(shù)MFCC特征,從而在不增加 語音特征維數(shù)的情況下提高語音識別的抗噪穩(wěn)健性。
根據(jù)本發(fā)明的一個方面,提供了一種檢測語音的頻譜波峰的方法,包 括從上述語音的功率i普中檢測出語音頻鐠波峰候選;以及根據(jù)波峰間距 和/或相鄰幀的波峰位置,去除上述語音頻i普波峰候選中的噪聲波峰,以檢 測出語音頻語波峰。
根據(jù)本發(fā)明的另一個方面,提供了一種語音識別方法,包括利用上 述的檢測語音的頻i普波峰的方法,從待識別語音的功率語中檢測出語音頻 譜波峰;以及利用上述語音頻鐠波峰的信息獲得上述待識別語音的梅爾倒 譜系數(shù)特征。
根據(jù)本發(fā)明的另一個方面,提供了一種語音識別方法,包括從待識 別語音的功率鐠中檢測出語音頻謙波峰;利用上述語音頻譜波峰的信息, 從上述待識別語音的功率鐠計算基于頻i普波峰的向量序列;以及將上述基 于頻語波峰的向量序列輸入到梅爾濾波器組,以獲得該待識別語音的梅爾 倒譜系數(shù)特征。
根據(jù)本發(fā)明的另 一個方面,提供了 一種語音的頻語波峰的檢測裝置, 包括頻鐠波峰候選檢測單元,用于從上述語音的功率譜中檢測出語音頻 謙波峰候選;以及噪聲波峰去除單元,用于根據(jù)波峰間距和/或相鄰幀的波 峰位置,去除上述語音頻鐠波峰候選中的噪聲波峰,以檢測出語音頻鐠波 峰。
根據(jù)本發(fā)明的另一個方面,提供了一種語音識別系統(tǒng),包括上述的 語音的頻i普波峰的檢測裝置,其從待識別語音的功率鐠中檢測出語音頻譜 波峰;梅爾倒鐠系數(shù)特征獲取單元,用于利用上述語音頻鐠波峰的信息獲 得上述待識別語音的梅爾倒譜系數(shù)特征。
根據(jù)本發(fā)明的另一個方面,提供了一種語音識別系統(tǒng),包括頻鐠波 峰檢測單元,用于從待識別語音的功率i普中檢測出語音頻鐠波峰;基于頻 鐠波峰的向量獲取單元,用于利用上述語音頻鐠波峰的信息,從上述待識別語音的功率鐠計算基于頻i普波峰的向量序列;以及梅爾濾波器組,用于 根據(jù)上述基于頻i普波峰的向量序列獲得該待識別語音的梅爾倒譜系數(shù)特 征。
相信通過以下結(jié)合附圖對本發(fā)明具體實施方式
的說明,能夠使人們更 好地了解本發(fā)明上述的特點、優(yōu)點和目的。
圖1是根據(jù)本發(fā)明實施例的檢測語音的頻譜波峰的方法的流程圖; 圖2是根據(jù)本發(fā)明一個實施例的語音識別方法的流程圖; 圖3是根據(jù)本發(fā)明另一個實施例的語音識別方法的流程圖; 圖4是根據(jù)本發(fā)明實施例的語音的頻譜波峰的檢測裝置的方框圖; 圖5是才艮據(jù)本發(fā)明一個實施例的語音識別系統(tǒng)的方框圖;以及 圖6是根據(jù)本發(fā)明另一個實施例的語音識別系統(tǒng)的方框圖。
具體實施例方式
下面就結(jié)合附圖對本發(fā)明的各個優(yōu)選實施例進行詳細說明。
首先,描述本發(fā)明的檢測語音的頻語波峰的方法。本發(fā)明的檢測語音 的頻i普波峰的方法的主要思想是,利用波峰間距以及相鄰幀的波峰位置限 制,去除語音的功率譜中的噪聲波峰,從而檢測出可靠的語音頻鐠波峰。
圖1是根據(jù)本發(fā)明實施例的檢測語音的頻i普波峰的方法的流程圖。如 圖1所示,首先,在步驟105,利用語音增強才支術(shù)對語音的功率傳進行增 強。對于含噪的語音信號而言,由于在某些情況下噪聲和有效語音的頻語 差異不大,所以如果直接進行語音頻鐠波峰的檢測,則檢測結(jié)果將不是很 準確。而對語音信號進行增強處理后,則可使有效語音信號與噪聲信號之 間的差異變得明顯,從而可以有助于檢測出有效語音頻諳波峰而去除其中 的噪聲波峰。所以,在檢測語音的頻i普波峰之前,首先利用本步驟對語音 的功率i普進行增強,以在一定程度上確保語音頻鐠波峰的檢測的可靠性。
在本步驟中,為了實現(xiàn)語音信號的增強,可以采用譜減法(SpectralSubtraction, SS )、最小均方誤差法(Minimum Mean-Square Error, MMSE)或維納濾波法(Winer Fliter, WF)等任何現(xiàn)在已知或?qū)砜芍?的語音增強技術(shù),本發(fā)明對此并沒有特別的限制。
接著,在步驟110,從語音的功率i普中檢測出語音頻語波峰候選。本 步驟110的目的是要確定出語音信號的功率傳中所有可能的語音波峰位 置。對于語音信號而言,其功率i普是有著許多代表波峰位置的"拐點"的 波狀曲線。從而,在本步驟中,通過確定語音功率i普中的這些"拐點", 來確定可能的語音頻譜波峰位置。之所以稱之為可能的語音頻譜波峰,是 因為其中有可能包含著因噪聲而產(chǎn)生的波峰。因而,在本步驟中確定的可 能的語音頻i瞽波峰,僅是作為語音頻i普波峰候選,而有待于后面的步驟進 一步從中篩選出可靠的語音頻鐠波峰。
接著,在步驟115,根據(jù)語音的功率i普中的波峰間距,去除步驟110 所確定的語音頻鐠波峰候選中的噪聲波峰。
在本步驟中,去除語音頻鐠波峰候選中的噪聲波峰,是基于語音信號 的功率譜的特性之一來進行的。也就是說,在語音信號的功率鐠中,兩個 相鄰的語音頻鐠波峰的距離通常都是大于某一閾值的。從而,根據(jù)該特性, 如果語音頻鐠波峰候選中的一個或幾個波峰被確定為是語音頻語波峰,那 么在這個/這些語音頻譜波峰的左右閾值距離內(nèi)出現(xiàn)的波峰將極有可能是 噪聲信號的波峰。從而,在本步驟中,便將這些不可靠的波峰認為是噪聲 波峰而從語音頻鐠波峰候選中去除。
具體地,在本步驟的實現(xiàn)中,考慮這樣的事實在語音頻i普波峰候選 中, 一般能量最大的波峰都是語音信號的頻語波峰。所以,在本步驟中, 首先假定語音頻譜波峰候選中擁有最高能量的波峰是由語音產(chǎn)生的,從而 確定這個/這些具有最高能量的波峰的位置;然后,以這個/這些具有最高能 量的波峰為中心,利用搜索算法沿頻率軸向左右搜索,以找出與前一波峰 的距離小于設(shè)定波峰間距閾值的波峰,并認為其是噪聲波峰而將其從語音 頻鐠波峰候選中去除。需要指出的是,在本步驟中,所采用的搜索算法可 以是任意一種現(xiàn)在已知或?qū)砜芍膭討B(tài)規(guī)劃算法,本發(fā)明對此并沒有特
12別的限制。
此外,在本步驟中,也可將語音的功率鐠分段,分別針對各段中的語 音頻鐠波峰候選、利用上述過程進行噪聲波峰的去除。例如,可逐幀確定 該幀內(nèi)的語音頻譜波峰候選中具有最高能量的波峰,并以其為中心去除該 幀中與前一波峰的距離小于設(shè)定波峰間距閾值的噪聲波峰。此外,在本步 驟中,也可才艮據(jù)具體情況,以能量超過設(shè)定閾值的多個波峰同時作為具有 最高能量的波峰,并以這些波峰的位置為基準分別利用波峰間距閾值限制 去除噪聲波峰。
在步驟120,根據(jù)語音的功率i普中相鄰幀的波峰位置,去除上述語音 頻鐠波峰候選中的噪聲波峰。
在本步驟中,去除語音頻譜波峰候選中的噪聲波峰,是基于語音信號 的功率i普的另一特性來進行的。也就是說,在語音信號的功率語中,相鄰 兩幀之間的語音頻i普波峰的位置不會有很大差別,即在相鄰兩幀之間,語 音頻譜波峰的位置應(yīng)該是對應(yīng)或近似對應(yīng)的。幀是指在計算機技術(shù)中,信 號處理或信號傳輸?shù)幕締卧?。如動畫中,每一個靜止的畫面就是一幀。 數(shù)據(jù)傳輸中,每一次傳輸?shù)臄?shù)據(jù)稱為一幀。在語音識別中,由于語音信號 是一個短時平穩(wěn)信號,在對其進行分析處理時,將其分割成比較小的單元, 對逐個單元進行分析處理。在語音識別領(lǐng)域中,語音識別處理中的這一基 本單元我們稱之為幀。在語音識別中,通常一幀的時長為幾十毫秒。
從而,在本步驟中,對語音頻i脊波峰候選中處于相鄰幀內(nèi)的語音頻語 波峰候選的位置進行相互比對,去除在該相鄰幀的其中一幀中出現(xiàn)、而在 另一幀中的相同位置或相同位置附近并未出現(xiàn)的波峰。即對語音頻i普波峰 候選中每兩個相鄰幀內(nèi)的語音頻語波峰候選進行波峰位置比對,并將那些 與相鄰幀相比波峰位置偏差超過閾值的波峰認為是噪聲波峰,而將其從語 音頻譜波峰候選中去除。
以上就是對本實施例的檢測語音的頻鐠波峰的方法的詳細描述。在本 實施例中,通過在語音頻譜波峰的檢測中利用波峰間距以及相鄰幀的波峰 位置限制來去除噪聲波峰,能夠檢測出可靠的語音頻譜波峰。并且,通過在進行語音頻鐠波峰的檢測之前首先對語音信號的功率語進行增強,能夠 進一步確保語音頻傳波峰的檢測的可靠性。
此外,需要說明的是,在本實施例中,雖然包括了利用語音增強技術(shù)
對語音的功率譜進行增強的步驟105,但是,本發(fā)明并不限于此。在其他 實施例中,即使不對語音信號的功率譜進行增強,也可得到可靠的有效語 音頻語波峰的檢測效果。
還需要說明的是,在本實施例中,雖然同時包括了根據(jù)波峰間距限制 去除噪聲波峰的步驟115和根據(jù)相鄰幀的波峰位置限制去除噪聲波峰的步 驟120這兩種噪聲波峰去除方式,但是,本發(fā)明并不限于此。在其他實施 例中,也可僅使用這兩種噪聲波峰去除方式中的一種,在此情況下,也可 達到一定的噪聲波峰去除效果。另外,雖然本實施例是依步驟115、步驟 120的順序而描述的,但是并不限于此。在其他實施例中,也可以先利用 步驟120的方式才艮據(jù)相鄰幀的波峰位置限制去除噪聲波峰,在此基礎(chǔ)上再 利用步驟115的方式根據(jù)波峰間距限制去除噪聲波峰。
下面描述本發(fā)明的基于語音頻語波峰信息的語音識別方法。
本發(fā)明的基于語音頻譜波峰信息的語音識別方法的主要思想是,在語 音識別中,利用語音頻譜波峰的能量值代替?zhèn)鹘y(tǒng)技術(shù)中的整個功率譜的采 樣序列來提取語音的梅爾倒鐠系數(shù)特征,從而在不增加語音特征維數(shù)的情 況下提高語音識別的抗噪穩(wěn)健性。
首先,結(jié)合附圖描述本發(fā)明的采用了上面結(jié)合圖l描述的實施例的檢 測語音的頻譜波峰的方法的語音識別方法。
圖2是根據(jù)本發(fā)明一個實施例的語音識別方法的流程圖。如圖2所示, 首先,在步驟205,輸入待識別語音。 一般地,待識別的語音信號可利用 麥克風進行采集,并通過快速傅立葉變換(FFT)得到功率語。
在步驟210,利用結(jié)合圖1描述的實施例的檢測語音的頻i普波峰的方 法,從待識別語音的功率語中檢測出語音頻譜波峰。在本步驟中,利用結(jié) 合圖l描述的實施例的檢測語音的頻i普波峰的方法,通過波峰間距限制以 及相鄰幀的波峰位置限制,在一定程度上去除噪聲波峰的干擾,從而檢測出對于語音識別來說更加可靠的語音頻譜波峰。
接著,在下面的步驟215-230的過程中,利用在步驟210中檢測出的 語音頻鐠波峰的信息,獲得待識別語音的基于頻譜波峰的向量序列
具體地,在步驟215,獲得待識別語音的功率i普的采樣序列咖)(^i,2,...)。 對于本領(lǐng)域的技術(shù)人員來說所公知的,語音的功率譜的采樣序列就是,語 音的功率i普上的一 系列點的能量值所組成的數(shù)字序列,其用來代表該模擬 語音的功率i普。
在步驟220,利用在步驟210中檢測出的語音頻諳波峰的信息,判斷 上述采樣序列中的各采樣點"是否位于波峰點。如果是,則前進 到步驟225,否則前進到步驟230。
在步驟225,對于在步驟220被判斷為位于波峰點位置的采樣點",直 接利用該點的采樣值(能量值)vW計算該點的基于頻鐠波峰的向量值。W 。
也就是說,由于在步驟210中檢測出的頻譜波J^皮認為是可靠的語音 的頻鐠波峰,所以對于位于這樣的波峰位置上的采樣點,〗更能夠確定其是 語音信號上的一點,從而能夠可靠地直接采用該采樣點的采樣值(能量值)。
具體地,作為步驟225的一種實現(xiàn)方式,使該位于波峰點位置上的采 樣點n的基于頻譜波峰的向量值。W直接等于該采樣點"的采樣值v("),即
作為步驟225的另一種實現(xiàn)方式,對于該位于波峰點位置上的采樣點 M,進一步判斷該點的采樣值咖)是否大于預先設(shè)定的能量閾值;在大于預 先設(shè)定的能量閾值時才可信地認為該點確實是語音信號上的一點,從而使 用該點的采樣值+)來獲得該點的基于頻鐠波峰的向量值。^ ,否則,不采
用該點的采樣值,而使該點的向量值。^等于o,即。(")n,,:2 。
在步驟230,對于在步驟220被判斷為不處于波峰點位置上的采樣點", 不利用該點的釆樣值咖)計算該點的基于頻鐠波峰的向量值。W 。
也就是說,由于僅在步驟210中檢測出的頻i普波J^^皮認為是可靠的語 音的頻鐠波峰,而對于除了這些波峰點位置之外的其他點,并不能可靠地確保其是語音的功率譜上的點,所以避免直接使用這些不可靠點的采樣值。
具體地,作為步驟230的一種實現(xiàn)方式,使該不處于波峰點位置上的 采樣點"的基于頻譜波峰的向量值。W直接等于0,即。^ = 0 。
作為步驟230的另一種實現(xiàn)方式,對于該不處于波峰點位置上的采樣 點n ,利用分別與該采樣點左右相鄰的兩個波峰點的采樣值的插值來得到 該采樣點的基于頻語波峰的向量值。W ,即
= ,、 〃乂 *(" -+難,)
其中,&和、分別代表該不處于波峰點位置上的采樣點"左邊和右邊最近的 語音功率鐠上的波峰點。從而,利用該實現(xiàn)方式,即使對于不處于波峰點 位置上的采樣點,也能夠根據(jù)波峰點的能量值來得到其基于頻譜波峰的向 量值。
從而,利用步驟225和230,便可得到待識別語音的基于頻語波峰的 向量序列
并且,如果對于上述步驟225和230的不同實現(xiàn)方式進行歸納總結(jié), 則可得出本發(fā)明以下四種不同的、根據(jù)待識別語音的采樣序列獲得基于頻 譜波峰的向量序列 0(^" = 1,2,..」的方案
方案一對于采樣序列咖)( =1,2,...)中的各采樣點",如果該采樣點"位于 波峰點,則該采樣點的基于頻鐠波峰的向量值為 其中HW是該采 樣點的采樣值;否則,。w = o。
方案二對于采樣序列v(")(^u,…)中的各采樣點n,如果該采樣點"位于
波峰點,則該采樣點的基于頻鐠波峰的向量值為其中 vw是該采樣點的采樣值;否則,。(")=o。
方案三對于采樣序列v(")(^u.,.)中的各采樣點",如果該采樣點"位于
波峰點,則該采樣點的基于頻i普波峰的向量值為。w"(n),其中咖)是該采
樣點的采樣值;否則,該采樣點的基于頻語波峰的向量值。w等于分別與
該采樣點n左右相鄰的兩個波峰點的采樣值的插值,即
,、(v .) 一 v(&,))。, ,、 ,,、
16其中,&和^分別代表不處于波峰點位置上的該采樣點"左邊和右邊最近的 語音功率鐠上的波峰點。
方案四對于采樣序列v(咖^2,…)中的各采樣點",如果該采樣點"位于
波峰點,則該采樣點的基于頻譜波峰的向量值為。(—d:,:,,其中
Lo 如果vO)引萄f直
vw是該采樣點的采樣值;否則,該采樣點的基于頻譜波峰的向量值。w等 于分別與該采樣點w左右相鄰的兩個波峰點的采樣值的插值,即
0(")=(v(
—A,
其中,^和、分別4戈表不處于波峰點位置上的該采樣點"左邊和右邊最近的 語音功率鐠上的波峰點。
接著,在步驟235,代替?zhèn)鹘y(tǒng)技術(shù)中的待識別語音的功率i普的采樣序 列v( )("=u...),將在步驟225和230計算得到的待識別語音的基于頻譜波峰 的向量序列..)輸入到梅爾濾波器組,以獲得待識別語音的梅爾倒i瞽 系數(shù)MFCC特征。在本步驟中,MFCC特征的提取過程是首先利用梅 爾濾波器組對所輸入的基于頻鐠波峰的向量序列—X2,.;進行巻積;然后 對各個濾波器的輸出構(gòu)成的能量向量進行離散余弦變換(DCT),得到最 終的該待識別語音的梅爾倒語系數(shù)MFCC特征。
以上就是對本實施例的語音識別方法的詳細描述。在本實施例中,首 先利用圖1的檢測語音的頻鐠波峰的方法從待識別語音的功率鐠中檢測出 語音頻語波峰,然后利用這些語音頻鐠波峰的信息來計算待識別語音的基 于頻語波峰的向量序列,并將該向量序列代替?zhèn)鹘y(tǒng)的采樣序列而作為梅爾 濾波器組的輸入,來獲得梅爾倒鐠系數(shù)特征。從而,本實施例通過利用圖 1的方法檢測出可靠的語音頻語波峰,并在語音特征的提取中僅利用這些 可靠的語音頻譜波峰的能量值,使得所獲得的語音特征更加準確,語音識 別的準確性更高。具體而言,本實施例的優(yōu)點如下
(1)在噪聲環(huán)境中,語音識別的性能通過在語音的MFCC特征提取 中僅采用可靠的有效語音頻鐠波峰的能量值而得到提高。
17(2 )穩(wěn)健的頻i普波峰檢測算法保證了語音頻譜波峰信息的可靠性。 (3)特征維數(shù)沒有增加,避免了計算和內(nèi)存資源消耗的增加。
下面結(jié)合附圖描述本發(fā)明的未采用上面結(jié)合圖1所描述的實施例的檢 測語音的頻i普波峰的方法的語音識別方法。
圖3是根據(jù)本發(fā)明另一個實施例的語音識別方法的流程圖。在本實施 例中,除了步驟310之夕卜,其余的步驟205、215-235均與圖2中的步驟205、 215-235相同,所以在此省略對這些步驟的重復說明。
在圖3的步驟310,從待識別語音的功率i普中檢測出語音頻i普波峰。 在該步驟中,并不利用結(jié)合圖1所描述的實施例的檢測語音的頻譜波峰的 方法,而是,除了該方法之外,任何能夠從待識別語音的功率譜中可靠地 檢測出語音頻語波峰的、現(xiàn)在已知或?qū)砜芍氖侄味际强梢允褂玫?,?實施例對此并沒有特別的限制。
以上就是對本實施例的語音識別方法的詳細描述。雖然未采用圖l的 方法,但本實施例通過僅利用可靠的語音頻鐠波峰的能量值來提取待識別 語音的MFCC特征,同樣能夠得到在不增加語音特征維數(shù)的情況下提高語 音識別的抗噪穩(wěn)健性的效果。
在同一發(fā)明構(gòu)思下,本發(fā)明提供一種語音的頻譜波峰的檢測裝置。下 面結(jié)合附圖對其進行描述。
圖4是根據(jù)本發(fā)明實施例的語音的頻鐠波峰的檢測裝置的方框圖。如 圖4所示,本實施例的語音的頻謙波峰的檢測裝置40包括語音信號增強 單元401、頻譜波峰候選檢測單元402以及噪聲波峰去除單元403。
其中,語音信號增強單元401,用于利用語音增強技術(shù)對語音的功率 譜進行增強。其所采用的語音增強技術(shù)可以是謙減法、最小均方誤差法及 維納濾波法等任何現(xiàn)在已知或?qū)砜芍恼Z音增強技術(shù),本發(fā)明對此并沒 有特別的限制。
頻鐠波峰候選檢測單元402,用于從增強后的語音的功率語中檢測出 語音頻語波峰候選。具體地,頻語波峰候選檢測單元402檢測出語音的功 率鐠中的各個拐點,作為語音頻語波峰候選。
18噪聲波峰去除單元403,用于根據(jù)波峰間距和/或相鄰幀的波峰位置限 制,去除頻鐠波峰候選檢測單元402所檢測出的語音頻譜波峰候選中的噪 聲波峰。
如圖4所示,噪聲波峰去除單元403可進一步包括波峰間距限制單 元4031和相鄰幀的波峰位置限制單元4032。
其中,波峰間距限制單元4031,用于根據(jù)語音的功率譜,確定語音頻 鐠波峰候選中具有最高能量的波峰,并以該具有最高能量的波峰為中心, 利用搜索算法沿頻率軸去除語音頻譜波峰候選中與前一波峰的距離小于設(shè) 定波峰間距閾值的波峰。此外,波峰間距限制單元4031也可按幀來確定具 有最高能量的波峰,并進而以其為中心去除該幀內(nèi)的語音頻譜波峰候選中 不滿足波峰間距閾值限制的噪聲波峰。此外,波峰間距限制單元4031也可 在一幀內(nèi)的語音頻譜波峰候選中將能量超過閾值的多個波峰同時作為具有 最高能量的波峰。此外,波峰間距限制單元4031所采用的搜索算法可以是 任意一種現(xiàn)在已知或?qū)砜芍膭討B(tài)規(guī)劃算法。
相鄰幀的波峰位置限制單元4032,用于對上述語音頻i普波峰候選中相 鄰幀內(nèi)的語音頻傳波峰候選的位置進行比對,并去除在其中一幀中出現(xiàn)、 而在另一幀中的相同位置或相同位置附近并未出現(xiàn)的波峰。也就是說,相 鄰幀的波峰位置限制單元4032對語音頻鐠波峰候選中每兩個相鄰幀內(nèi)的 語音頻鐠波峰候選進行波峰位置比對,并將那些與相鄰幀相比波峰位置偏 差超過閾值的波峰認為是噪聲波峰,而將其從語音頻譜波峰候選中去除。
以上就是對本實施例的語音的頻語波峰的檢測裝置的詳細描述。在本 實施例中,通過在語音頻鐠波峰的檢測中利用波峰間距以及相鄰幀的波峰 位置限制來去除噪聲波峰,能夠檢測出可靠的語音頻鐠波峰。并且,通過 對語音信號的功率鐠進行增強,能夠進一步確保語音頻i普波峰的檢測的可 靠性。
本實施例的語音的頻譜波峰的檢測裝置40及其各個組成部分,可以由 專用的電路或芯片構(gòu)成,也可以通過計算機(處理器)執(zhí)行相應(yīng)的程序來 實現(xiàn)。并且,本實施例的檢測裝置40,操作上可以實現(xiàn)前面結(jié)合圖l說明的實施例的檢測語音的頻語波峰的方法。
此外,需要說明的是,在本實施例中,雖然同時包括了波峰間距限制
單元4031和相鄰幀的波峰位置限制單元4032,但是,在其他實施例中,也可僅包括這兩個單元中的一個,在此情況下,也可達到一定的噪聲波峰去除效果。
下面結(jié)合附圖描述本發(fā)明的采用了上面的語音的頻譜波峰的檢測裝置40的語音識別系統(tǒng)。
圖5是才艮據(jù)本發(fā)明一個實施例的語音識別系統(tǒng)的方框圖。如圖5所示,本實施例的語音識別系統(tǒng)50包括結(jié)合圖4所描述的實施例的語音的頻譜波峰的檢測裝置40,用于從待識別語音的功率i普中檢測出語音頻譜波峰;以及梅爾倒鐠系數(shù)特征獲取單元51,用于利用語音的頻語波峰的檢測裝置40獲得的語音頻譜波峰的信息,獲得待識別語音的梅爾倒譜系數(shù)MFCC特征。
如圖5所示,梅爾倒語系數(shù)特征獲取單元51可以進一步包括基于頻i普波峰的向量獲取單元511,用于利用上述語音頻i普波峰的信息,從待識別語音的功率譜計算基于頻譜波峰的向量序列—X2,.);以及梅爾濾波器組512,用于根據(jù)上述基于頻譜波峰的向量序列—x2,.;獲得待識別語音的梅爾倒i普系數(shù)MFCC特征。
如圖5所示,基于頻鐠波峰的向量獲取單元511可以進一步包括采樣序列獲取單元5111,用于獲得上述待識別語音的功率語的采樣序列v(wxn=i,2,...r,向量計算單元5112,用于利用上述語音頻譜波峰的信息,根據(jù)上述采樣序列= 1>2,...)獲得待識別語音的基于頻譜波峰的向量序列
具體地,向量計算單元5112可以才艮據(jù)本發(fā)明的以下四種方案中的任意
一種來根據(jù)待識別語音的采樣序列v( )( = i,2,...)獲得基于頻譜波峰的向量序列
方案一判斷上述采樣序列中的各采樣點"是否為波峰點
如果該采樣點 是波峰點,則將該采樣點的基于頻譜波峰的向量
20值設(shè)置為。(")"w,其中vw是該采樣點的采樣值;否則為一)=0 。方案二判斷上述采樣序列v(咖d,2,...)中的各采樣點"是否為波峰點
如果該采樣點 是波峰點,則將該釆樣點的基于頻譜波峰的向量值設(shè)置為其中+)是該采樣點的采樣值;否則為
o(") = 0 。
方案三判斷上述采樣序列—^=1,2,...)中的各采樣點"是否為波峰點
如果該采樣點"是波峰點,則將該采樣點的基于頻譜波峰的向量值設(shè)置為。(")=咖),其中vw是該采樣點的采樣值;否則,。(")等于分別與該采樣點左右相鄰的兩個波峰點的采樣值的插值,即
。("),r'))""'),
其中,、和、分別代表采樣點n左邊和右邊最近的語音功率譜上的波峰點。
方案四判斷上述采樣序列k")( = i,2,...)中的各采樣點是否為波峰點
如果該采樣點"是波峰點,則將該采樣點的基于頻鐠波峰的向量
值設(shè)置為。(")—,其中一是該采樣點的采樣值;否則,
。( )等于分別與該采樣點左右相鄰的兩個波峰點的采樣值的插值,即
其中,/t,和、分別代表采樣點"左邊和右邊最近的語音功率語上的波峰點。
以上就是對本實施例的語音識別系統(tǒng)的詳細描述。在本實施例中,通過利用結(jié)合圖4所描述的語音的頻鐠波峰的檢測裝置40,能夠檢測出可靠的語音頻i普波峰,進而,通過在語音特征的提取中僅利用這些可靠的語音頻鐠波峰的能量值,使得所獲得的語音特征更加準確,語音識別的準確性更高。具體而言,本實施例的優(yōu)點如下
(1)在噪聲環(huán)境中,語音識別的性能通過在語音的MFCC特征提取中僅采用可靠的有效語音頻i普波峰的能量值而得到提高。
21(2 )穩(wěn)健的頻譜波峰檢測算法保證了語音頻譜波峰信息的可靠性。(3)特征維數(shù)沒有增加,避免了計算和內(nèi)存資源消耗的增加。下面結(jié)合附圖描述本發(fā)明的未采用上面的語音的頻譜波峰的檢測裝置40的語音識別系統(tǒng)。
圖6;14艮據(jù)本發(fā)明另一個實施例的語音識別系統(tǒng)的方框圖。如圖6所示,本實施例的語音識別系統(tǒng)60包括頻譜波峰檢測單元601、基于頻譜波峰的向量獲取單元511和梅爾濾波器組512。并且,基于頻譜波峰的向量獲取單元511還可以進一步包括采樣序列獲取單元5111和向量計算單元5112。
其中,本實施例中的基于頻譜波峰的向量獲取單元511、梅爾濾波器組512、采樣序列獲取單元5111和向量計算單元5112分別與圖5中的基于頻i普波峰的向量獲取單元511、梅爾濾波器組512、采樣序列獲取單元5111和向量計算單元5112相同,所以在此省略對這些單元的重復說明。
此外,本實施例中的頻譜波峰檢測單元601,用于從待識別語音的功率鐠中檢測出語音頻鐠波峰。與上述結(jié)合圖l描述的實施例的語音的頻鐠波峰的檢測裝置40不同,本實施例中的頻譜波峰檢測單元601可以使用任何能夠從待識別語音的功率譜中可靠地檢測出語音頻傳波峰的、現(xiàn)在已知或?qū)砜芍氖侄蝸慝@得語音頻譜波峰信息,本實施例對其并沒有特別的限制。
以上就是對本實施例的語音識別系統(tǒng)的詳細描述。雖然未包括圖4的語音的頻鐠波峰的檢測裝置40,但本實施例通過僅利用可靠的語音頻鐠波峰的能量值來提取待識別語音的MFCC特征,同樣能夠得到在不增加語音特征維數(shù)的情況下提高語音識別的抗噪穩(wěn)健性的效果。
以上雖然通過一些示例性的實施例對本發(fā)明的語音的頻鐠波峰的檢測方法和裝置以及語音識別方法和系統(tǒng)進行了詳細的描述,但是以上這些實施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實施例,本發(fā)明的范圍僅以所附權(quán)利要求為準。
權(quán)利要求
1. 一種檢測語音的頻譜波峰的方法,包括從上述語音的功率譜中檢測出語音頻譜波峰候選;以及根據(jù)波峰間距和/或相鄰幀的波峰位置,去除上述語音頻譜波峰候選中的噪聲波峰,以檢測出語音頻譜波峰。
2. 根據(jù)權(quán)利要求l所述的檢測語音的頻鐠波峰的方法,其中從上述語 音的功率鐠中檢測出語音頻譜波峰候選的步驟進一步包括求出上述語音的功率鐠中的各個拐點,作為該語音的頻鐠波峰候選。
3. 根據(jù)權(quán)利要求l所述的檢測語音的頻鐠波峰的方法,其中上述根據(jù) 波峰間距和/或相鄰幀的波峰位置,去除上述語音頻語波峰候選中的噪聲波 峰的步驟進一步包括根據(jù)上述語音的功率語,確定上述語音頻語波峰候選中具有最高能量 的波峰;以及以該具有最高能量的波峰為中心,去除上述語音頻鐠波峰候選中與前 一波峰的距離小于波峰間距閾值的波峰。
4. 根據(jù)權(quán)利要求1或3所述的檢測語音的頻語波峰的方法,其中上述 根據(jù)波峰間距和/或相鄰幀的波峰位置,去除上述語音頻語波峰候選中的噪 聲波峰的步驟進一步包括對上述語音頻i普波峰候選中相鄰幀內(nèi)的語音頻諳波峰候選的位置進行 比對;以及對于上述相鄰幀內(nèi)的語音頻i普波峰候選,去除在其中一幀中出現(xiàn)、而 在另 一幀中的相同位置或相同位置附近并未出現(xiàn)的波峰。
5. 根據(jù)權(quán)利要求l所述的檢測語音的頻i普波峰的方法,其中在從上述 語音的功率語中檢測出語音頻鐠波峰候選的步驟之前還包括利用語音增強技術(shù)對上述語音的功率譜進行增強。
6. —種語音識別方法,包括利用權(quán)利要求1 ~ 5中任意一項所述的檢測語音的頻i普波峰的方法,從待識別語音的功率譜中檢測出語音頻譜波峰;以及利用上述語音頻i普波峰的信息獲得上述待識別語音的梅爾倒譜系數(shù)特征。
7. 根據(jù)權(quán)利要求6所述的語音識別方法,其中利用上述語音頻語波峰 的信息獲得上述待識別語音的梅爾倒譜系數(shù)特征的步驟進一步包括利用上述語音頻i普波峰的信息,從上述待識別語音的功率譜計算基于 頻鐠波峰的向量序列;以及將上述基于頻鐠波峰的向量序列輸入到梅爾濾波器組,以獲得該待識 別語音的梅爾倒譜系數(shù)特征。
8. —種i吾音識別方法,包括 從待識別語音的功率鐠中檢測出語音頻i普波峰;利用上述語音頻鐠波峰的信息,從上述待識別語音的功率讒計算基于 頻i普波峰的向量序列;以及將上述基于頻語波峰的向量序列輸入到梅爾濾波器組,以獲得該待識 別語音的梅爾倒譜系數(shù)特征。
9. 根據(jù)權(quán)利要求7或8所述的語音識別方法,其中利用上述語音頻語 波峰的信息,從上述待識別語音的功率語計算基于頻i普波峰的向量序列的 步驟進一步包括獲得上述待識別語音的功率譜的采樣序列;根據(jù)上述語音頻鐠波峰的信息,判斷上述采樣序列中的各采樣點是否 為波峰點;以及如果該采樣點是波峰點,則將該采樣點的基于頻鐠波峰的向量值設(shè)置 為。(")"("),其中v(w)是該采樣點的采樣值;否則為。(")=0 。
10. 根據(jù)權(quán)利要求7或8所述的語音識別方法,其中利用上述語音頻 i普波峰的信息,從上述待識別語音的功率譜計算基于頻i普波峰的向量序列 的步驟進一步包括獲得上述待識別語音的功率鐠的采樣序列;根據(jù)上述語音頻鐠波峰的信息,判斷上述采樣序列中的各采樣點是否為波峰點;以及如果該采樣點是波峰點,則將該采樣點的基于頻譜波峰的向量值設(shè)置為咖卜l"""卩,w〉??,其中咖)是該采樣點的采樣值;否則為一)=。。
11. 根據(jù)權(quán)利要求7或8所述的語音識別方法,其中利用上述語音頻 鐠波峰的信息,從上述待識別語音的功率i普計算基于頻i脊波峰的向量序列 的步驟進一步包括獲得上述待識別語音的功率諳的采樣序列;根據(jù)上述語音頻語波峰的信息,判斷上述采樣序列中的各采樣點是否 為波峰點;以及如果該采樣點是波峰點,則將該采樣點的基于頻語波峰的向量值設(shè)置 為。w"("),其中v(")是該采樣點的采樣值;否則,。(")等于分別與該采樣點 左右相鄰的兩個波峰點的采樣值的插值。
12. 根據(jù)權(quán)利要求7或8所述的語音識別方法,其中利用上述語音頻 i普波峰的信息,從上述待識別語音的功率鐠計算基于頻i普波峰的向量序列 的步驟進一步包括獲得上述待識別語音的功率鐠的采樣序列;根據(jù)上述語音頻i普波峰的信息,判斷上述采樣序列中的各采樣點是否 為波峰點;以及如果該采樣點是波峰點,則將該采樣點的基于頻譜波峰的向量值設(shè)置為。(")={r=:(:=,其中一是該采樣點的采樣值;否則,。(")等于分 別與該采樣點左右相鄰的兩個波峰點的采樣值的插值。
13. —種語音的頻譜波峰的檢測裝置,包括頻i普波峰候選檢測單元,用于從上述語音的功率鐠中檢測出語音頻i普 波峰候選;以及噪聲波峰去除單元,用于根據(jù)波峰間距和/或相鄰幀的波峰位置,去除 上述語音頻譜波峰候選中的噪聲波峰,以檢測出語音頻傳波峰。
14. 根據(jù)權(quán)利要求13所述的語音的頻鐠波峰的檢測裝置,其中上述頻 譜波峰候選檢測單元求出上述語音的功率鐠中的各個拐點,作為該語音的頻鐠波峰候選。
15. 根據(jù)權(quán)利要求13所述的語音的頻譜波峰的檢測裝置,其中上述噪 聲波峰去除單元進一步包括波峰間距限制單元,用于根據(jù)上述語音的功率譜,確定上述語音頻譜 波峰候選中具有最高能量的波峰,并以該具有最高能量的波峰為中心,去 除上述語音頻i普波峰候選中與前一波峰的距離小于波峰間距閾值的波峰。
16. 根據(jù)權(quán)利要求13或15所述的語音的頻鐠波峰的檢測裝置,其中 上述噪聲波峰去除單元進一步包括相鄰幀的波峰位置限制單元,用于對上述語音頻語波峰候選中相鄰幀 內(nèi)的語音頻譜波峰候選的位置進行比對,并去除在其中一幀中出現(xiàn)、而在 另一幀中的相同位置或相同位置附近并未出現(xiàn)的波峰。
17. 根據(jù)權(quán)利要求13所述的語音的頻i普波峰的檢測裝置,還包括 語音信號增強單元,用于利用語音增強技術(shù)對上述語音的功率語進行增強。
18. —種語音識別系統(tǒng),包括根據(jù)權(quán)利要求13 ~ 17中任意一項所述的語音的頻傳波峰的檢測裝置, 用于從待識別語音的功率譜中檢測出語音頻譜波峰;梅爾倒鐠系數(shù)特征獲取單元,用于利用上述語音頻i普波峰的信息獲得 上述待識別語音的梅爾倒i普系數(shù)特征。
19. 根據(jù)權(quán)利要求18所述的語音識別系統(tǒng),其中上*爾倒鐠系數(shù)特 征獲取單元進一步包括基于頻鐠波峰的向量獲取單元,用于利用上述語音頻i普波峰的信息, 從上述待識別語音的功率鐠計算基于頻語波峰的向量序列;以及梅爾濾波器組,用于根據(jù)上述基于頻譜波峰的向量序列獲得該待識別 語音的梅爾倒i普系數(shù)特征。
20. —種語音識別系統(tǒng),包括頻鐠波峰檢測單元,用于從待識別語音的功率鐠中檢測出語音頻譜波峰;基于頻譜波峰的向量獲取單元,用于利用上述語音頻譜波峰的信息,從上述待識別語音的功率譜計算基于頻鐠波峰的向量序列;以及梅爾濾波器組,用于根據(jù)上述基于頻譜波峰的向量序列獲得該待識別 語音的梅爾倒譜系數(shù)特征。
21. 根據(jù)權(quán)利要求19或20所述的語音識別系統(tǒng),其中上述基于頻譜 波峰的向量獲取單元進一步包括采樣序列獲取單元,用于獲得上述待識別語音的功率鐠的采樣序列;以及向量計算單元,用于根據(jù)上述語音頻譜波峰的信息,判斷上述采樣序 列中的各采樣點是否為波峰點,并且如果該采樣點是波峰點,則將該采樣點的基于頻鐠波峰的向量值 設(shè)置為。( )=+),其中v(")是該采樣點的采樣值;否則為。( ) = 0 。
22. 才艮據(jù)權(quán)利要求19或20所述的語音識別系統(tǒng),其中上述基于頻i瞽 波峰的向量獲取單元進一步包括采樣序列獲取單元,用于獲得上述待識別語音的功率譜的采樣序列;以及向量計算單元,用于根據(jù)上述語音頻i普波峰的信息,判斷上述采樣序 列中的各采樣點是否為波峰點,并且如果該采樣點是波峰點,則將該采樣點的基于頻i普波峰的向量值 設(shè)置為,其中,是該采樣點的采樣值;否則為o(w) = 0 。
23. 根據(jù)權(quán)利要求19或20所述的語音識別系統(tǒng),其中上述基于頻i瞽 波峰的向量獲取單元進一步包括采樣序列獲取單元,用于獲得上述待識別語音的功率鐠的采樣序列;以及向量計算單元,用于根據(jù)上述語音頻譜波峰的信息,判斷上述采樣序 列中的各采樣點是否為波峰點,并且如果該采樣點是波峰點,則將該采樣點的基于頻鐠波峰的向量值設(shè)置為。(")"w,其中v(")是該采樣點的采樣值;否則,。^等于分別與 該采樣點左右相鄰的兩個波峰點的采樣值的插值。
24.根據(jù)權(quán)利要求19或20所述的語音識別系統(tǒng),其中上述基于頻i普 波峰的向量獲取單元進一步包括采樣序列獲取單元,用于獲得上述待識別語音的功率語的采樣序列;以及向量計算單元,用于根據(jù)上述語音頻譜波峰的信息,判斷上述采樣序 列中的各采樣點是否為波峰點,并且如果該采樣點是波峰點,則將該采樣點的基于頻i普波峰的向量值設(shè)置為—4n:Il!T:S ,其中一是該采樣點的采樣值;否則,, 等于分別與該采樣點左右相鄰的兩個波峰點的采樣值的插值。
全文摘要
本發(fā)明提供了一種語音的頻譜波峰的檢測方法和裝置以及語音識別方法和系統(tǒng)。該檢測語音的頻譜波峰的方法包括從上述語音的功率譜中檢測出語音頻譜波峰候選;以及根據(jù)波峰間距和/或相鄰幀的波峰位置,去除上述語音頻譜波峰候選中的噪聲波峰,以檢測出語音頻譜波峰。在本發(fā)明中,通過在語音頻譜波峰的檢測中利用波峰間距以及相鄰幀的限制去除噪聲波峰,能夠得到可靠的語音頻譜波峰。進而,通過將所得到的語音頻譜波峰的能量值代替整個功率譜用于提取語音的梅爾倒譜系數(shù)特征,能夠在不增加語音特征維數(shù)的情況下提高語音識別的抗噪穩(wěn)健性。
文檔編號G10L15/00GK101465122SQ20071019919
公開日2009年6月24日 申請日期2007年12月20日 優(yōu)先權(quán)日2007年12月20日
發(fā)明者沛 丁, 磊 何, 蕤 趙, 杰 郝, 翔 鄢 申請人:株式會社東芝