專利名稱:低頻帶噪聲檢測(cè)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總的來(lái)說(shuō)涉及語(yǔ)音處理,更具體地是涉及在有低頻帶噪聲的情況下對(duì)語(yǔ)音段的音調(diào)估計(jì)(pitch estimation)。
背景技術(shù):
語(yǔ)音處理中的音調(diào)估計(jì)可以用于在濁語(yǔ)音段與清語(yǔ)音段(voicedand speech unvoiced segments)之間進(jìn)行區(qū)分,并用于表示濁語(yǔ)音的聲調(diào)(tone)。由于濁語(yǔ)音可以使用周期信號(hào)來(lái)近似,因此可以通過(guò)測(cè)量信號(hào)的周期或其倒數(shù)來(lái)估計(jì)音調(diào),其被稱為基本頻率或音調(diào)頻率。在周期信號(hào)不能被用來(lái)近似語(yǔ)音段的情況下,該語(yǔ)音段可以被認(rèn)定為清音。
對(duì)于音調(diào)估計(jì),在時(shí)域和頻域中已經(jīng)開(kāi)發(fā)出了各種各樣的技術(shù)。盡管時(shí)域和頻域音調(diào)確定方法都易于導(dǎo)致不穩(wěn)定和錯(cuò)誤,并且準(zhǔn)確的音調(diào)估計(jì)在計(jì)算上較密集,頻域方法對(duì)于實(shí)際語(yǔ)音數(shù)據(jù)與準(zhǔn)確的周期模型的偏離通常更為寬容。
周期信號(hào)例如濁語(yǔ)音的傅立葉變換在頻域中具有脈沖或峰值序列的形式。該脈沖序列對(duì)應(yīng)于所述信號(hào)的線頻譜,其可以表示為序列{(αi,θi)},其中θi為峰值的頻率,αi為各自的復(fù)值線頻譜幅值。為了確定給定的語(yǔ)音信號(hào)段是濁音還是清音,以及如果所述信號(hào)段為濁音則計(jì)算音調(diào),首先以一有限平滑窗口乘以該時(shí)域信號(hào)。然后通過(guò)X(θ)=ΣkαkW(θ-θk)]]>給定該窗口信號(hào)的傅立葉變換,其中W(θ)為所述窗口的傅立葉變換。頻域音調(diào)估計(jì)典型地是基于對(duì)變換信號(hào)X(θ)中的峰值的位置和幅值的分析。
給定任意音調(diào)頻率,對(duì)應(yīng)于該音調(diào)頻率的線頻譜可以僅包含該頻率倍數(shù)的線頻譜分量。因而可以斷定出現(xiàn)在線頻譜中的任何頻率都應(yīng)當(dāng)是該音調(diào)頻率的倍數(shù)。因此,音調(diào)頻率可以作為出現(xiàn)在變換信號(hào)中的頻譜峰值的頻率的最大整除數(shù)而得到。然而,背景噪聲以及與周期模型的其他偏離情況的存在使得頻譜峰值離開(kāi)其規(guī)定的準(zhǔn)確位置,并且使偽頻譜峰值同樣出現(xiàn)在不可預(yù)知的位置。
從周期模型中可以得出結(jié)論,音調(diào)頻率的變化導(dǎo)致在低頻頻譜線位置中相對(duì)較小的變化,而導(dǎo)致在高頻頻譜線位置相對(duì)較大的偏差。因此,低頻頻譜峰值對(duì)音調(diào)估計(jì)具有比高頻頻譜峰值對(duì)音調(diào)估計(jì)更大的影響。為此,頻域音調(diào)估計(jì)的準(zhǔn)確性在存在低頻帶噪聲時(shí)嚴(yán)重地惡化。低頻帶噪聲通常存在于運(yùn)動(dòng)或怠速汽車的客室中,因而嚴(yán)重限制了在移動(dòng)環(huán)境下現(xiàn)有頻域音調(diào)估計(jì)方法的適用范圍。
發(fā)明內(nèi)容
本發(fā)明提供支持語(yǔ)音段的頻域音調(diào)估計(jì)的低頻帶噪聲檢測(cè)和補(bǔ)償。提供一種低頻帶噪聲檢測(cè)器,僅在檢測(cè)到低頻帶噪聲的情況下,從頻域音調(diào)估計(jì)計(jì)算中除去低于預(yù)定閾值的低頻頻譜峰值。
在本發(fā)明的一個(gè)方面,提供一種音調(diào)估計(jì)系統(tǒng),包括低頻帶噪聲檢測(cè)器(LBND),可操作用于檢測(cè)第一音頻幀中存在的低頻帶噪聲,頻域音調(diào)估計(jì)器,可操作用于從第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算第二音頻幀的音調(diào)估計(jì),以及音調(diào)估計(jì)器控制器,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,使所述音調(diào)估計(jì)器從所述第二音頻幀的頻譜中除去至少一個(gè)低于預(yù)定頻率閾值的低頻頻譜峰值。
在本發(fā)明的另一個(gè)方面,所述LBND可操作用于確定所述第一音頻幀的頻譜;計(jì)算在所述第一音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的測(cè)度Rcurr,其中Fc為預(yù)定的閾值,從多個(gè)音頻幀的每個(gè)幀的Rcurr值計(jì)算在所述多個(gè)音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的積分測(cè)度(integrative measure)R,以及如果R>R0則確定存在低頻帶噪聲,其中R0為一個(gè)預(yù)定的閾值。
在本發(fā)明的另一個(gè)方面,所述預(yù)定閾值在大約270Hz與大約330Hz之間。
在本發(fā)明的另一個(gè)方面,所述預(yù)定閾值大約為300Hz。
在本發(fā)明的另一個(gè)方面,所述預(yù)定閾值Fc在大約330Hz與大約430Hz之間。
在本發(fā)明的另一個(gè)方面,所述預(yù)定閾值Fc大約為380Hz。
在本發(fā)明的另一個(gè)方面,使用公式R←F(R,Rcurr)計(jì)算所述積分測(cè)度R。
在本發(fā)明的另一個(gè)方面,所述第一音頻幀為非語(yǔ)音幀。
在本發(fā)明的另一個(gè)方面,所述第二音頻幀為語(yǔ)音幀。
在本發(fā)明的另一個(gè)方面,所述第一音頻幀在所述第二音頻幀之前。
在本發(fā)明的另一個(gè)方面,所述系統(tǒng)進(jìn)一步包括聲音活動(dòng)檢測(cè)器(VAD,voice activity detector),可操作用于檢測(cè)第一音頻幀是語(yǔ)音幀還是非語(yǔ)音幀,并且其中在所述第一音頻幀為非語(yǔ)音幀的情況下所述LBND是可操作的。
在本發(fā)明的另一個(gè)方面,提供一種音調(diào)估計(jì)方法,包括檢測(cè)第一音頻幀中存在的低頻帶噪聲,以及在所述第一音頻幀中存在低頻帶噪聲的情況下,從與高于預(yù)定頻率閾值的一個(gè)頻率相關(guān)的第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算第二音頻幀的音調(diào)估計(jì)。
在本發(fā)明的另一個(gè)方面,所述檢測(cè)步驟包括確定所述第一音頻幀的頻譜;計(jì)算在所述第一音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的測(cè)度Rcurr,其中Fc是預(yù)定的閾值,從多個(gè)音頻幀的每個(gè)幀的Rcurr值計(jì)算在所述多個(gè)音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的積分測(cè)度R;以及如果R>R0則確定存在低頻帶噪聲,其中R0為一個(gè)預(yù)定的閾值。
在本發(fā)明的另一個(gè)方面,所述計(jì)算步驟包括在所述預(yù)定閾值在大約270Hz與大約330Hz之間的情況下計(jì)算。
在本發(fā)明的另一個(gè)方面,所述計(jì)算步驟包括在所述預(yù)定閾值大約為300Hz的情況下計(jì)算。
在本發(fā)明的另一個(gè)方面,所述計(jì)算測(cè)度Rcurr的步驟包括在所述預(yù)定閾值Fc在大約330Hz與大約430Hz之間的情況下計(jì)算。
在本發(fā)明的另一個(gè)方面,所述計(jì)算測(cè)度Rcurr的步驟包括在所述預(yù)定閾值Fc大約為380Hz的情況下計(jì)算。
在本發(fā)明的另一個(gè)方面,所述計(jì)算積分測(cè)度的步驟包括使用公式R←F(R,Rcurr)計(jì)算。
在本發(fā)明的另一個(gè)方面,所述檢測(cè)步驟包括對(duì)非語(yǔ)音幀檢測(cè)。
在本發(fā)明的另一個(gè)方面,所述計(jì)算步驟包括對(duì)語(yǔ)音幀計(jì)算。
在本發(fā)明的另一個(gè)方面,所述檢測(cè)步驟包括對(duì)所述第一音頻幀檢測(cè),該第一音頻幀在所述第二音頻幀之前。
在本發(fā)明的另一個(gè)方面,所述方法進(jìn)一步包括檢測(cè)所述第一音頻幀是語(yǔ)音幀還是非語(yǔ)音幀,其中所述第一檢測(cè)步驟包括在所述第一音頻幀為非語(yǔ)音幀的情況下檢測(cè)。
在本發(fā)明的另一個(gè)方面,提供一種包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括第一代碼段,可操作用于檢測(cè)第一音頻幀中存在的低頻帶噪聲,以及第二代碼段,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,從高于預(yù)定閾值的第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算第二音頻幀的音調(diào)估計(jì)。
在本發(fā)明的另一個(gè)方面,所述計(jì)算機(jī)程序進(jìn)一步包括第三代碼段,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,使所述第二代碼段從第二音頻幀的頻譜中除去至少一個(gè)低于預(yù)定閾值的低頻頻譜峰值。
從以下結(jié)合附圖的詳細(xì)描述中將更加全面地理解和認(rèn)識(shí)本發(fā)明,附圖中圖1是汽車客室噪聲和串音(babble)噪聲頻譜的簡(jiǎn)化圖解說(shuō)明,用于理解本發(fā)明;圖2A,2B和2C是分別從純凈語(yǔ)音信號(hào)、語(yǔ)音信號(hào)加串音噪聲以及語(yǔ)音信號(hào)加汽車噪聲中估計(jì)的音調(diào)曲線(pitch contour)的簡(jiǎn)化圖解說(shuō)明,用于理解本發(fā)明;圖3是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例構(gòu)造和操作的包含低頻帶噪聲檢測(cè)器的音調(diào)估計(jì)系統(tǒng)的簡(jiǎn)化結(jié)構(gòu)圖說(shuō)明;圖4A是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例操作的低頻帶噪聲檢測(cè)器的操作方法的簡(jiǎn)化流程圖說(shuō)明;圖4B是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例操作的音調(diào)估計(jì)器控制器的操作方法的簡(jiǎn)化流程圖說(shuō)明;以及圖5A,5B和5C是在應(yīng)用本發(fā)明以后分別從純凈語(yǔ)音信號(hào)、語(yǔ)音信號(hào)加串音噪聲以及語(yǔ)音信號(hào)加汽車噪聲中估計(jì)的音調(diào)曲線的簡(jiǎn)化圖解說(shuō)明。
具體實(shí)施例方式
在本發(fā)明中,數(shù)字化音頻信號(hào)最好被分成具有適當(dāng)持續(xù)時(shí)間和相對(duì)偏移,例如分別為25ms和10ms的幀,用于后續(xù)處理。最好為每個(gè)幀估計(jì)一次音調(diào),所獲得的音調(diào)值序列被稱為數(shù)字化音頻信號(hào)的音調(diào)曲線。
下面參照?qǐng)D1,其是汽車客室噪聲和串音噪聲頻譜的簡(jiǎn)化圖解說(shuō)明,用于理解本發(fā)明。在圖1中,運(yùn)動(dòng)或怠速車輛的汽車客室噪聲的幅值頻譜被表示為實(shí)線100。與之對(duì)比,相同強(qiáng)度的串音噪聲的幅值頻譜被表示為虛線102??梢钥闯銎囋肼曌铒@著的頻譜分量在380Hz以下,而大多數(shù)串音噪聲頻譜能量則在該頻率以上。
下面參照?qǐng)D2A,2B和2C,其是分別從純凈語(yǔ)音信號(hào)、語(yǔ)音信號(hào)加串音噪聲以及語(yǔ)音信號(hào)加汽車噪聲中估計(jì)的音調(diào)曲線的簡(jiǎn)化圖解說(shuō)明,用于理解本發(fā)明。在圖2A,2B和2C中,以對(duì)應(yīng)于8KHz采樣率的樣本測(cè)量音調(diào)。對(duì)于清音幀的音調(diào)值被設(shè)置為零。在附圖2C中,相對(duì)于附圖2A和2B可以看出使用頻譜峰值估計(jì)音調(diào)的準(zhǔn)確性如何在汽車噪聲條件下降低。音調(diào)凈誤差以及濁音/清音錯(cuò)誤的判定出現(xiàn)在從受背景汽車噪聲影響的語(yǔ)音信號(hào)所獲得的音調(diào)曲線中。
下面參照?qǐng)D3,其是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例構(gòu)造和操作的包含低頻帶噪聲檢測(cè)器的音調(diào)估計(jì)系統(tǒng)的簡(jiǎn)化結(jié)構(gòu)圖說(shuō)明。在圖3的系統(tǒng)中,一個(gè)或多個(gè)音頻流的幀在聲音活動(dòng)檢測(cè)器(VAD)300中接收,該檢測(cè)器用于使用常規(guī)技術(shù)檢測(cè)所接收的幀是否包含語(yǔ)音,其中非語(yǔ)音幀表示安靜或背景噪聲。語(yǔ)音幀被傳送到音調(diào)估計(jì)器302,其可以使用任何公知的頻域音調(diào)估計(jì)方法,例如在美國(guó)專利申請(qǐng)No.09/617582中描述的,該專利申請(qǐng)被轉(zhuǎn)讓給本申請(qǐng)的受讓人。
非語(yǔ)音幀被傳送至低頻帶噪聲檢測(cè)器(LBND)304,其確定是否存在低頻帶噪聲。LBND304的優(yōu)選操作方法以下參照?qǐng)D4A將進(jìn)行更為詳細(xì)的描述。然后LBND304提供一個(gè)指示是否存在低頻帶噪聲的信號(hào)給音調(diào)估計(jì)器控制器(PEC)306。接著PEC306根據(jù)從LBND304接收的信號(hào)修改音調(diào)估計(jì)器302的操作模式。PEC306的優(yōu)選操作方法以下將參照?qǐng)D4B進(jìn)行更詳細(xì)的說(shuō)明。
下面參照?qǐng)D4A,其是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例操作的低頻帶噪聲檢測(cè)器,例如圖3的LBND304的操作方法的簡(jiǎn)化流程圖說(shuō)明。在圖4的方法中,確定非語(yǔ)音幀的頻譜,并計(jì)算在頻帶
中的相對(duì)頻譜分量級(jí)的測(cè)度Rcurr,其中Fc是一個(gè)例如在大約330Hz與大約430Hz之間的任意值的預(yù)定閾值(例如大約為380Hz)。保持變量R,其為從各個(gè)非語(yǔ)音幀獲得的Rcurr值的加權(quán)平均值。R是多個(gè)非語(yǔ)音幀的Rcurr值的積分測(cè)度,并且在公式R←F(R,Rcurr)中最好使用最新的Rcurr值進(jìn)行更新。如果R>R0,則可以確定存在低頻帶噪聲,其中R0為一個(gè)預(yù)定閾值,并且可以產(chǎn)生一個(gè)指示是否存在低頻帶噪聲的信號(hào)。
例如,使S(k),k=1,…,L作為在正FFT頻率采樣的非語(yǔ)音幀的功率譜。使Kc為被四舍五入成最近的FFT頻率點(diǎn)指數(shù)的Fc。如果(∑S(k))/L<500,則Rcurr=0,否則Rcurr=maxS(k)0<k<Kc/maxS(k)Kc<k<L.]]>平均測(cè)度更新公式為R←(0.99R+0.01Rcurr)。所述閾值為R0=1.9。R可以被初始化為R=R0。
下面參照?qǐng)D4B,其是根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例操作的音調(diào)估計(jì)器控制器,例如圖3的PEC306的操作方法的簡(jiǎn)化流程圖說(shuō)明。如果已檢測(cè)到?jīng)]有低頻帶噪聲,則PEC306設(shè)置音調(diào)估計(jì)器302在其音調(diào)估計(jì)計(jì)算時(shí)使用任何頻率范圍內(nèi)的任何頻譜峰值。相反,如果已檢測(cè)到低頻帶噪聲,則PEC306設(shè)置音調(diào)估計(jì)器302從其音調(diào)估計(jì)計(jì)算中除去低于預(yù)定閾值,例如在大約270Hz與330Hz之間的任意值(例如大約為300Hz)的低頻帶頻譜峰值。音調(diào)估計(jì)器302最好根據(jù)由EPC306基于最近的非語(yǔ)音幀的低頻帶噪聲分析進(jìn)行的最近設(shè)置持續(xù)進(jìn)行操作。
下面參照?qǐng)D5A,5B和5C,其是在應(yīng)用本發(fā)明以后分別從純凈語(yǔ)音信號(hào)、語(yǔ)音信號(hào)加串音噪聲以及語(yǔ)音信號(hào)加汽車噪聲中估計(jì)的音調(diào)曲線的簡(jiǎn)化圖解說(shuō)明。圖5C表示通過(guò)應(yīng)用本發(fā)明的系統(tǒng)和方法當(dāng)與附圖2C相比時(shí)如何提高使用頻譜峰值估計(jì)的音調(diào)準(zhǔn)確性。圖5A和5B表示當(dāng)分別與圖2A和2B相比時(shí),在沒(méi)有低頻帶噪聲時(shí)獲得的音調(diào)估計(jì)的高準(zhǔn)確性不會(huì)受應(yīng)用本發(fā)明的系統(tǒng)和方法的顯著影響。
可以理解的是,在不脫離本發(fā)明的精神和范圍的情況下,在此所描述的任何方法的一個(gè)或多個(gè)步驟都可以省略或以與所示相比不同的順序?qū)崿F(xiàn)。
雖然在此所公開(kāi)的方法和裝置可以參照或可以不參照特定的計(jì)算機(jī)硬件或軟件來(lái)描述,可以理解的是這里所描述的方法和裝置可以很容易地使用常規(guī)技術(shù)以計(jì)算機(jī)硬件或軟件來(lái)實(shí)現(xiàn)。
雖然已參照一個(gè)或多個(gè)具體的實(shí)施例對(duì)本發(fā)明進(jìn)行了說(shuō)明,但是該說(shuō)明作為一個(gè)整體只是示意性地說(shuō)明本發(fā)明,其并不是要解釋為將本發(fā)明限制到所表示的實(shí)施例。可以理解的是,本領(lǐng)域技術(shù)人員可以進(jìn)行各種修改,雖然沒(méi)有在此具體說(shuō)明,但是仍然落在本發(fā)明的實(shí)質(zhì)精神和范圍內(nèi)。
權(quán)利要求
1.一種音調(diào)估計(jì)系統(tǒng),包括低頻帶噪聲檢測(cè)器(LBND),可操作用于檢測(cè)第一音頻幀中低頻帶噪聲的存在;頻域音調(diào)估計(jì)器,可操作用于從第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算所述第二音頻幀的音調(diào)估計(jì);以及音調(diào)估計(jì)器控制器,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,使所述音調(diào)估計(jì)器從所述第二音頻幀的頻譜中除去至少一個(gè)低于預(yù)定頻率閾值的低頻頻譜峰值。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述LBND可操作用于確定所述第一音頻幀的頻譜;計(jì)算在所述第一音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的測(cè)度Rcurr,其中Fc是預(yù)定的閾值;從多個(gè)音頻幀的每個(gè)幀的Rcurr值計(jì)算在所述多個(gè)音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的積分測(cè)度R;以及如果R>R0則確定存在低頻帶噪聲,其中R0為一個(gè)預(yù)定的閾值。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述預(yù)定閾值在約270Hz與約330Hz之間。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述預(yù)定閾值約為300Hz。
5.根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述預(yù)定閾值Fc在約330Hz與約430Hz之間。
6.根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述預(yù)定閾值Fc約為380Hz。
7.根據(jù)權(quán)利要求2所述的系統(tǒng),其中使用公式R←F(R,Rcurr)計(jì)算所述積分測(cè)度R。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述第一音頻幀為非語(yǔ)音幀。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述第二音頻幀為語(yǔ)音幀。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中所述第一音頻幀在所述第二音頻幀之前。
11.根據(jù)權(quán)利要求1所述的系統(tǒng),進(jìn)一步包括聲音活動(dòng)檢測(cè)器(VAD),可操作用于檢測(cè)所述第一音頻幀是語(yǔ)音幀還是非語(yǔ)音幀,并且所述LBND在所述第一音頻幀為非語(yǔ)音幀的情況下可操作。
12.一種音調(diào)估計(jì)方法,包括檢測(cè)第一音頻幀中低頻帶噪聲的存在;以及在所述第一音頻幀中存在低頻帶噪聲的情況下,從與高于預(yù)定頻率閾值的一個(gè)頻率相關(guān)的第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算所述第二音頻幀的音調(diào)估計(jì)。
13.根據(jù)權(quán)利要求12所述的方法,其中所述檢測(cè)步驟包括確定所述第一音頻幀的頻譜;計(jì)算在所述第一音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的測(cè)度Rcurr,其中Fc為一預(yù)定閾值;從多個(gè)音頻幀的每個(gè)幀的Rcurr值計(jì)算在所述多個(gè)音頻幀的頻帶
中的相對(duì)頻譜分量級(jí)的積分測(cè)度R;以及如果R>R0則確定存在低頻帶噪聲,其中R0為一個(gè)預(yù)定的閥值。
14.根據(jù)權(quán)利要求12所述的方法,其中所述計(jì)算步驟包括在所述預(yù)定閾值在約270Hz與約330Hz之間的情況下進(jìn)行計(jì)算。
15.根據(jù)權(quán)利要求12所述的方法,其中所述計(jì)算步驟包括在所述預(yù)定閾值約為300Hz的情況下進(jìn)行計(jì)算。
16.根據(jù)權(quán)利要求13所述的方法,其中所述計(jì)算測(cè)度Rcurr的步驟包括在所述預(yù)定閾值Fc在約330Hz與約430Hz之間的情況下進(jìn)行計(jì)算。
17.根據(jù)權(quán)利要求13所述的方法,其中所述計(jì)算測(cè)度Rcurr的步驟包括在所述預(yù)定閾值Fc約為380Hz的情況下進(jìn)行計(jì)算。
18.根據(jù)權(quán)利要求13所述的方法,其中所述計(jì)算積分測(cè)度的步驟包括使用公式R←F(R,Rcurr)進(jìn)行計(jì)算。
19.根據(jù)權(quán)利要求12所述的方法,其中所述檢測(cè)步驟包括對(duì)非語(yǔ)音幀進(jìn)行檢測(cè)。
20.根據(jù)權(quán)利要求12所述的方法,其中所述計(jì)算步驟包括對(duì)語(yǔ)音幀進(jìn)行計(jì)算。
21.根據(jù)權(quán)利要求12所述的方法,其中所述檢測(cè)步驟包括對(duì)所述第一音頻幀進(jìn)行檢測(cè),該第一音頻幀在所述第二音頻幀之前。
22.根據(jù)權(quán)利要求12所述的方法,進(jìn)一步包括檢測(cè)所述第一音頻幀是語(yǔ)音幀還是非語(yǔ)音幀,并且其中所述第一檢測(cè)步驟包括在所述第一音頻幀為非語(yǔ)音幀的情況下進(jìn)行檢測(cè)。
23.一種包含在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包括第一代碼段,可操作用于檢測(cè)第一音頻幀中低頻帶噪聲的存在;以及第二代碼段,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,從高于預(yù)定閾值的第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算所述第二音頻幀的音調(diào)估計(jì)。
24.根據(jù)權(quán)利要求23所述的計(jì)算機(jī)程序,進(jìn)一步包括第三代碼段,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,使所述第二代碼段從所述第二音頻幀的頻譜中除去至少一個(gè)低于預(yù)定閾值的低頻頻譜峰值。
全文摘要
一種音調(diào)估計(jì)系統(tǒng),包括低頻帶噪聲檢測(cè)器(LBND),可操作用于檢測(cè)第一音頻幀中存在的低頻帶噪聲,頻域音調(diào)估計(jì)器,可操作用于從第二音頻幀中的至少一個(gè)頻譜峰值計(jì)算第二音頻幀的音調(diào)估計(jì),以及音調(diào)估計(jì)器控制器,可操作用于在所述第一音頻幀中存在低頻帶噪聲的情況下,使所述音調(diào)估計(jì)器從所述第二音頻幀的頻譜中除去至少一個(gè)低于預(yù)定閾值的低頻頻譜峰值。
文檔編號(hào)G10L21/00GK1754204SQ200480004954
公開(kāi)日2006年3月29日 申請(qǐng)日期2004年2月23日 優(yōu)先權(quán)日2003年2月24日
發(fā)明者亞歷山大·索林 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司