亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種檢測語音端點的方法及系統(tǒng)的制作方法

文檔序號:2836174閱讀:394來源:國知局
專利名稱:一種檢測語音端點的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種檢測語音端點的方法及系統(tǒng)。
背景技術(shù)
現(xiàn)有的語音端點檢測技術(shù)是基于一個前提,即假設(shè)語音的起始段是噪聲,并利用起始噪聲段訓(xùn)練門限值。這種假設(shè)在手機語音搜索應(yīng)用上未必總是成立的,有時用戶按下搜索按鈕后會馬上開始說話,此時,現(xiàn)有的端點檢測技術(shù)的門限值訓(xùn)練將會出錯,導(dǎo)致起點和終點的檢測不準(zhǔn)確?;谏鲜黾僭O(shè),現(xiàn)有的語音端點檢測方法采用的流程是假設(shè)起始段為非語音段, 將語音信號分幀,逐幀提取特征值,利用所述特征值與事先設(shè)定的門限值相比,如果大于等于門限值,則判定為語音,如果小于門限值,則判定為噪聲,從而得到語音的起點和終點信息。這種“順序判斷”方法最大的問題在于對預(yù)設(shè)門限值的過分依賴。一旦預(yù)設(shè)門限值計算有誤差,則語音端點檢測的性能會大受影響。而現(xiàn)有的利用噪聲段計算門限的前提假設(shè)條件在語音搜索的應(yīng)用中未必總能滿足。

發(fā)明內(nèi)容
本發(fā)明提供了一種檢測語音端點的方法及系統(tǒng),用以解決現(xiàn)有語音端點檢測技術(shù)的性能較差的問題。具體技術(shù)方案如下一種檢測語音端點的方法,包括下列步驟Al、按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;A2、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第二端點并終止第一方向搜索過程,所述N為預(yù)設(shè)幀數(shù);A3、按照第二方向順序,從檢測到的語音第二端點開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語音第一端點;當(dāng)所述第一方向為正向時,所述第二方向為反向,所述第一端點為起點,所述第二端點為終點;當(dāng)所述第一方向為反向時,所述第二方向為正向,所述第一端點為終點,所述第二端點為起點。根據(jù)本發(fā)明一優(yōu)選實施例,步驟Al中所述的更新當(dāng)前門限值的公式具體包括T1 = α Τ0+(1-α )f ;其中,Ttl為當(dāng)前門限值J1為更新后的門限值;f為當(dāng)前幀的特征值;α為遺忘因子,取值范圍在0至1之間。根據(jù)本發(fā)明一優(yōu)選實施例,步驟Al中從所述音頻段的第一方向上的第一幀開始搜索,以及將所述音頻段的第一幀的特征值作為初始門限值;或者,
如果上一音頻段按照第一方向順序未檢測到語音第二端點,則利用上一音頻段按照第一方向順序搜索結(jié)束后得到的當(dāng)前門限值作為所述輸入的音頻段在所述步驟Al的初始門限值。根據(jù)本發(fā)明一優(yōu)選實施例,步驟A3中所述的利用連續(xù)N幀的特征值檢測音頻段的語音第一端點,具體包括A311、取所述連續(xù)N幀的特征值的平均值作為第二方向搜索的初始門限值,或者, 利用公式Tmv = Tn+β (T0-Tn)確定第二方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Τη 為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;Α312、在第二方向搜索過程中,從所述語音第一端點開始搜索,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;Α313、若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,步驟A3中所述的利用連續(xù)N幀的特征值檢測音頻段的語音第一端點,具體包括Α321、通過下述公式確定第二方向搜索的初始門限值;Trev = Tn+β (T0-Tn);其中,T0為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;Α322、若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟A3之后還包括二次第一方向搜索的步驟Α411、在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,取所述連續(xù) M幀的特征值的平均值,作為二次第一方向搜索的初始門限值,或者,利用公式Trev‘= Tffl+Y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù) M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值;A412、從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;A413、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第二端點并終止二次第一方向搜索過程,以及更新步驟A2得到的所述語音第二端點。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟A3之后還包括二次第一方向搜索的步驟A421、在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,利用公式Tmv' = Tffl+y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;γ為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值;A422、從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若連續(xù)N幀的特征值均小于所述二次第一方向搜索的初始門限值,則判定檢測到所述音頻段的語音第二端點并終止二次第一方向搜索過程,以及更新步驟A2得到的所述語音第二端點。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟Al之前還包括步驟A10、對所述音頻段的每幀音頻信號進行預(yù)處理;All、從所述預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。根據(jù)本發(fā)明一優(yōu)選實施例,步驟AlO中所述的預(yù)處理,包括對下列之一或任意組合的預(yù)處理每幀音頻信號的預(yù)加重、快速傅里葉變換和子帶劃分。根據(jù)本發(fā)明一優(yōu)選實施例,所述特征值包括下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性。根據(jù)本發(fā)明一優(yōu)選實施例,檢測到所述音頻段的語音第二端點為按照第一方向順序所述連續(xù)N幀的前一幀。根據(jù)本發(fā)明一優(yōu)選實施例,檢測到所述音頻段的語音第二端點為按照第二方向順序所述連續(xù)M幀的前一幀。一種檢測語音端點的系統(tǒng),包括第一方向搜索與門限自適應(yīng)單元,用于按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;第二端點位置檢測單元,用于在第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點,并終止第一方向搜索與門限自適應(yīng)單元的第一方向搜索過程,所述N為預(yù)設(shè)幀數(shù);第二方向搜索與第一端點位置檢測單元,用于按照第二方向順序,從第二端點位置檢測單元檢測到的語音第二端點開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語音第一端點;當(dāng)所述第一方向為正向時,所述第二方向為反向,所述第一端點為起點,所述第二端點為終點;當(dāng)所述第一方向為反向時,所述第二方向為正向,所述第一端點為終點,所述第二端點為起點。根據(jù)本發(fā)明一優(yōu)選實施例,第一方向搜索與門限自適應(yīng)單元采用的更新當(dāng)前門限值的公式具體包括T1 = α Τ0+(1-α )f ;其中,Ttl為當(dāng)前門限值J1為更新后的門限值;f為當(dāng)前幀的特征值;α為遺忘因子,取值范圍在0至1之間。根據(jù)本發(fā)明一優(yōu)選實施例,第一方向搜索與門限自適應(yīng)單元中從所述音頻段的第一方向上的第一幀開始搜索,以及將所述音頻段的第一幀的特征值作為初始門限值;或者,如果上一音頻段按照第一方向順序未檢測到語音第二端點,則利用上一音頻段按照第一方向順序搜索結(jié)束后得到的當(dāng)前門限值作為所述輸入的音頻段在所述步驟Al的初始門限值。
根據(jù)本發(fā)明一優(yōu)選實施例,所述第二方向搜索與第一端點位置檢測單元在利用連續(xù)N幀的特征值檢測音頻段的語音第一端點時,具體執(zhí)行以下操作取所述連續(xù)N幀的特征值的平均值作為第二方向搜索的初始門限值,或者,利用公式ΤΜν = Τη+β (T0-Tn)確定第二方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Trev為第二方向搜索的初始門限值;在第二方向搜索過程中,從所述語音第一端點開始搜索,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,所述第二方向搜索與第一端點位置檢測單元在利用連續(xù)N幀的特征值檢測音頻段的語音第一端點時,具體執(zhí)行以下操作通過下述公式確定第二方向搜索的初始門限值;Trev = Tn+β (T0-Tn);其中,T0為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,所述系統(tǒng)還包括二次第一方向搜索與門限自適應(yīng)單元,用于在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,取所述連續(xù)M幀的特征值的平均值,作為二次第一方向搜索的初始門限值,或者,利用公式Tra' = Tffl+y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中, Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tra'為二次第一方向搜索的初始門限值;從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;第一第二端點更新單元,用于在二次第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點, 終止二次第一方向搜索與門限自適應(yīng)單元的二次第一方向搜索過程,并更新第二端點位置檢測單元得到的語音第二端點。根據(jù)本發(fā)明一優(yōu)選實施例,所述系統(tǒng)還包括第四第一方向搜索與門限自適應(yīng)單元,用于在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,利用公式Tra' = Tffl+y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;γ為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值;然后從所述語音第一端點開始搜索;第三第二端點更新單元,用于在第四第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于所述二次第一方向搜索的初始門限值時,判定檢測到所述音頻段的語音第二端點,終止第四第一方向搜索與門限自適應(yīng)單元的二次第一方向搜索過程,并更新第二端點位置檢測單元得到的語音第二端點。根據(jù)本發(fā)明一優(yōu)選實施例,所述系統(tǒng)還包括音頻信號預(yù)處理單元,用于對所述音頻段的每幀音頻信號進行預(yù)處理;特征提取單元,用于從所述預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。根據(jù)本發(fā)明一優(yōu)選實施例,所述音頻信號預(yù)處理單元進行的預(yù)處理包括下列之一或任意組合每幀音頻信號的預(yù)加重、快速傅里葉變換和子帶劃分。根據(jù)本發(fā)明一優(yōu)選實施例,所述特征提取單元提取的特征值,包括下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性。根據(jù)本發(fā)明一優(yōu)選實施例,所述第二端點位置檢測單元得出的所述音頻段的語音第二端點為按照第一方向順序所述連續(xù)N幀的前一幀。根據(jù)本發(fā)明一優(yōu)選實施例,所述的若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點,此種情況下所述第二方向搜索與第一端點位置檢測單元得出的語音第一端點位置為按照第二方向順序所述連續(xù)M幀的前一幀。由以上技術(shù)方案可以看出,將終點和起點檢測分開進行,正向搜索完成終點檢測, 反向搜索完成起點檢測,從而使系統(tǒng)擺脫了 “信號起始段必須為非語音段”的假設(shè),適用于一切語音搜索環(huán)境。并且,門限計算過程與搜索過程同時進行,而非事先計算好,因此更能反映待檢測信號的真實屬性,很大程度上降低了由于門限選擇不當(dāng)而噪聲端點檢測錯誤的風(fēng)險。


圖1本發(fā)明實施例一中的方法流程圖;圖2本發(fā)明實施例二中的方法流程圖;圖3本發(fā)明實施例三中的系統(tǒng)結(jié)構(gòu)示意圖;圖4本發(fā)明實施例四中的系統(tǒng)結(jié)構(gòu)示意圖;圖5本發(fā)明實施例五中的系統(tǒng)結(jié)構(gòu)示意圖;圖6本發(fā)明實施例六中的系統(tǒng)結(jié)構(gòu)示意圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)描述。實施例一、本實施例提供了一種檢測語音端點的方法,參見圖1所示,包括下列步驟S11、對輸入的音頻段的每幀音頻信號進行預(yù)處理。具體的音頻信號預(yù)處理包括但不限于對下列之一或任意組合的預(yù)處理每幀音頻信號的預(yù)加重(即進行高頻部分功率提升)、快速傅里葉變換(FFT)和子帶劃分等。S12、從預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。
特征提取的目的是對每幀音頻信號提取一個或幾個特征,用以區(qū)分語音/非語音幀。具體提取的特征值包括但不限于下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性等。本實施例中采用子帶頻譜熵作為每一幀信號的特征。具體提取過程為利用步驟Sll的預(yù)處理結(jié)果,計算每個子帶內(nèi)的頻譜熵,并采用中值濾波器進行平滑處理,進而得到每一幀信號的頻譜熵特征值。S13、按照正向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值。由于本實施例不以“起始段為噪聲段”為假設(shè)的前提,因此門限值的計算是在正向搜索過程中并發(fā)完成的。正向搜索過程中,首先假設(shè)音頻段的第一幀即為語音幀,從第一幀開始搜索,并將第一幀語音的子帶頻譜熵作為初始門限值,進行門限自適應(yīng)。需要說明的是,初始門限值除了采用音頻段的第一幀特征值之外,也可以采用一個預(yù)設(shè)的經(jīng)驗值,該經(jīng)驗值可以通過預(yù)先收集一些音頻段樣本,計算出一個平均的特征值作為初始門限值,經(jīng)試驗發(fā)現(xiàn)這個經(jīng)驗值與第一幀語音的特征值在數(shù)值上相差不大,因此一種簡單優(yōu)選的方式就是直接將音頻段第一幀的特征值作為初始門限值。門限自適應(yīng)的過程是如果當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵以及更新公式更新當(dāng)前門限;如果當(dāng)前幀的頻譜熵小于當(dāng)前門限值,則不更新門限。在正向搜索過程中,門限值是從語音段中計算出來的。由于語音的頻譜熵大于噪聲的頻譜熵,所以門限的更新過程始終在語音段中進行,當(dāng)前門限值的物理意義反映了自當(dāng)前幀之前的全部音頻信號中,語音分量的頻譜熵的平均水平。上述的更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值; \為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值需要在實驗中不斷調(diào)試。S14、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音終點位置,并終止正向搜索過程。具體的,在正向搜索的過程中,如果連續(xù)N幀語音的頻譜熵均小于當(dāng)前門限值,則可認(rèn)為檢測到了語音終點,語音終點的具體位置可以是以正向搜索終止時的當(dāng)前幀為準(zhǔn), 反向數(shù)Ν+1幀,即所述連續(xù)N幀之前的那一幀為語音終點位置。N的單位為幀,通??梢匀≈? 20。S15、按照反向順序,從語音終點位置開始搜索,利用所述連續(xù)N幀的特征值檢測音頻段的語音起點位置。具體的,本步驟中可以采取三種方式利用連續(xù)N幀的特征值檢測音頻段的語音起點位置。方式一、反向搜索過程開始之前,取所述連續(xù)N幀的頻譜熵的平均值作為反向搜索的初始門限值。在反向搜索過程中,若當(dāng)前幀的頻譜熵大于或等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值(頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述正向搜索的取值不相同,需要在實驗中不斷調(diào)試。若在反向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,則判定檢測到所述音頻段的語音起點位置,所述M為預(yù)設(shè)幀數(shù)。方式二、反向搜索過程開始之前,可利用語音段信息和噪聲段信息調(diào)整當(dāng)前門限值。其中以當(dāng)前門限值作為語音段信息,它體現(xiàn)了語音段的頻譜熵,以所述的小于當(dāng)前門限值的連續(xù)N幀的頻譜熵作為噪聲段信息,具體可以取所述連續(xù)N幀的頻譜熵的平均值,再利用二者計算一個合理的反向搜索的初始門限值??赏ㄟ^下述公式確定反向搜索的初始門限值。Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀頻譜熵的平均值;β為尺度因子,取值范圍在0至1之間;Trev為調(diào)整后的初始門限值。β越小,則Tra越靠近Τη; β越大,則Trev 越靠近I。該公式的含義是在Tn和Ttl之間選擇一個合適的位置,作為反向搜索的初始門限值?;谡Z音端點位置檢測的原則,如果原則是保護有效語音不受到損傷,則可以將門限放寬,β值可以取的小一些;反之,如果原則是盡可能消除噪聲段,語音段可以有略微損傷,則門限應(yīng)嚴(yán)格一些,β值取大一些。由于本實施例主要應(yīng)用于語音搜索,必須保護有效語音不受到損傷,否則將影響語音識別的準(zhǔn)確率,因此判決門限應(yīng)更接近Τη。在反向搜索過程中,若當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述正向搜索的取值不相同,需要在實驗中不斷調(diào)試。若在反向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,則判定檢測到所述音頻段的語音起點位置,所述M為預(yù)設(shè)幀數(shù)。方式三、反向搜索過程開始之前,通過下述公式確定反向搜索的初始門限值。Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀頻譜熵的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為調(diào)整后的初始門限值。本方式中,不在反向搜索過程中更新門限值,即以初始門限值作為固定門限進行反向搜索,若在反向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值(即所述的初始門限值),則判定檢測到所述音頻段的語音起點位置,所述M為預(yù)設(shè)幀數(shù)。上述三種方式中經(jīng)檢測確定的語音起點位置為可以是以反向搜索終止時的當(dāng)前幀為準(zhǔn),正向數(shù)Μ+1幀,即所述連續(xù)M幀之后的那一幀為語音終點位置。M的單位為幀,通??梢匀≈? 20。在具體的語音搜索,尤其是在手機語音搜索的實現(xiàn)中,如果反向搜索至所述音頻段的第一幀,仍未出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,為了保證“盡可能不損傷有效語音”的準(zhǔn)則,則可以以所述音頻段的第一幀作為語音起點。反向搜索的前提是語音終點位置已經(jīng)檢測到,因此當(dāng)檢測到語音起點位置之后,端點位置檢測工作隨即結(jié)束,可將結(jié)果輸出??梢?,與現(xiàn)有的語音端點檢測技術(shù)同時檢測出起點和終點的策略不同,本實施例采用“正向、反向”搜索策略,正向搜索目的是檢測語音終點位置,而不必考慮起點,反向搜索的目的是檢測語音起點位置,而不必考慮終點,也就是將起點位置和終點位置的檢測分開進行。通過將起點位置檢測和終點位置檢測分開,先檢測終點位置,后檢測起點位置的方法,本實施例中將門限值計算與自適應(yīng)放在正向或/和反向搜索過程中并發(fā)進行,增加了門限計算與門限自適應(yīng)的魯棒性,拋開了現(xiàn)有的端點檢測方法認(rèn)為語音起始段為噪聲段的假設(shè),更加符合語音搜索的實際情況,與現(xiàn)有的檢測端點技術(shù)相比,本實施例的門限值計算更為合理,適用于一切語音搜索環(huán)境。實施例二、本實施例提供了一種檢測語音端點的方法,參見圖2所示,包括下列步驟S21、對輸入的音頻段的每幀音頻信號進行預(yù)處理。具體描述與Sll —致,不再贅述。S22、從預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。具體描述與S12—致,不再贅述。S23、按照正向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值。本實施例假設(shè)對前一音頻段的正向搜索過程中,搜索至所述前一音頻段的最后一幀,未出現(xiàn)連續(xù)N幀的頻譜熵均小于當(dāng)前門限值的情況,則可以判定所述前一音頻段為噪音段。即始終沒有找到語音終點位置,說明所述前一音頻段中沒有語音幀,一直是背景噪聲信號,從而導(dǎo)致信號的頻譜熵始終處在噪聲的水平,沒有明顯的峰值。此時,可將這部分純噪聲信號作為調(diào)整當(dāng)前輸入音頻段的當(dāng)前門限值的重要信息,因為其充分反映了當(dāng)前背景噪聲的頻譜熵的水平,利用噪聲的頻譜熵,可以得到下一次端點檢測的初始門限值。具體地,可以計算前一音頻段各幀的頻譜熵平均值,將該頻譜熵平均值作為當(dāng)前輸入音頻段正向搜索的初始門限值?;诒緦嵤├纳鲜黾僭O(shè),后續(xù)正向搜索和門限值自適應(yīng)的具體內(nèi)容與上述步驟 S13—致,不再贅述。S24、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音終點位置,并終止正向搜索過程。具體描述與S14—致,不再贅述。S25、按照反向順序,從語音終點位置開始搜索,利用所述連續(xù)N幀的特征值檢測音頻段的語音起點位置。具體描述與S15—致,不再贅述。S26、二次正向搜索。因為第一次終點位置檢測(即一次正向搜索)時,只利用了語音段的信息,沒有適用噪聲段的信息,有可能會影響終點位置檢測的精度。因此,可在起點位置檢測結(jié)束后,進行二次正向搜索,用來修正終點位置檢測結(jié)果。具體的,本步驟中可以采用三種方式進行二次正向搜索。方式一、在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次正向搜索之前,取所述連續(xù)M幀的頻譜熵的平均值,作為二次正向搜索的初始門限值,從所述語音起點位置開始搜索,在二次正向搜索過程中,若當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述一次正向搜索和反向搜索的取值不相同,需要在實驗中不斷調(diào)試。若在二次正向搜索過程中出現(xiàn)連續(xù)N幀的頻譜熵均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音終點位置并終止二次正向搜索過程,之后以二次正向搜索得到的語音終點位置更新上述步驟SM得到的語音終點位置。方式二、在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次正向搜索之前,通過下述公式確定二次正向搜索的初始門限值。Trev' = Tffl+γ (T0-Tffl)確定二次正向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm 為所述連續(xù)M幀特征值的平均值;γ為尺度因子,取值范圍在0至1之間;Tra'為二次正向搜索的初始門限值。從所述語音起點位置開始搜索,若在二次正向搜索過程中出現(xiàn)當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述一次正向搜索和反向搜索的取值不相同,需要在實驗中不斷調(diào)試。若在二次正向搜索過程中出現(xiàn)連續(xù)N幀的頻譜熵均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音終點位置并終止二次正向搜索過程,之后以二次正向搜索得到的語音終點位置更新上述步驟SM得到的語音終點位置。方式三、在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次正向搜索之前,通過下述公式確定二次正向搜索的初始門限值。Trev' = Tffl+γ (T0-Tffl)確定二次正向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm 為所述連續(xù)M幀特征值的平均值;γ為尺度因子,取值范圍在0至1之間;Tra'為二次正向搜索的初始門限值。本方式中,不在二次正向搜索過程中更新門限值,即以初始門限值作為固定門限進行二次正向搜索,若在二次正向搜索過程中出現(xiàn)連續(xù)N幀的頻譜熵均小于當(dāng)前門限值, 則判定檢測到所述音頻段的語音終點位置并終止二次正向搜索過程,之后以二次正向搜索得到的語音終點位置更新上述步驟SM得到的語音終點位置。更新語音終點位置之后,端點位置檢測工作隨即結(jié)束,可將結(jié)果輸出??梢?,本實施例具備實施一的優(yōu)點,并且進行了二次正向搜索,進一步修正之前得到的語音終點位置信息。這一過程降低了起點位置和終點位置檢測的相互耦合程度,終點位置檢測過程中的噪聲信息可以用來輔助起點位置檢測,提高起點位置檢測的精度,而起點位置檢測的結(jié)果也可以用來修正終點位置檢測的精度,二者相輔相成。需要說明的是,在本發(fā)明的上述實施例中均是以先正向搜索后反向搜索,更進一步在反向搜索結(jié)束后進行二次正向搜索為例進行描述,但本發(fā)明同樣適用于先反向搜索后正向搜索,更進一步在正向搜索結(jié)束后進行二次反向搜索,只是后一種方式在實現(xiàn)時先在反向搜索過程中確定出語音起點,然后在正向搜索過程中確定出語音終點,在更進一步的二次反向搜索過程中對語音起點進行校正,具體的執(zhí)行方式與上述實施例中的執(zhí)行方式相同,在此不再贅述。實施例三、本實施例提供了一種檢測語音端點的系統(tǒng),參見圖3所示,包括音頻信號預(yù)處理單元31、特征提取單元32、第一方向搜索與門限自適應(yīng)單元33、第二端點位置檢測單元34和第二方向搜索與第一端點位置檢測單元35。其中,音頻信號預(yù)處理單元31,用于對所述音頻段的每幀音頻信號進行預(yù)處理。具體的,音頻信號預(yù)處理單元31預(yù)處理的音頻信號包括但不限于對下列之一或任意組合的預(yù)處理每幀音頻信號的預(yù)加重、快速傅里葉變換(FFT)和子帶劃分等。特征提取單元32,用于從所述預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。具體的,特征提取單元32進行特征提取的目的是對每幀音頻信號提取一個或幾個特征,用以區(qū)分語音/非語音幀。提取的特征值包括但不限于下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性等。本實施例中采用子帶頻譜熵作為每一幀信號的特征。具體提取過程為利用音頻信號預(yù)處理單元31的預(yù)處理結(jié)果,計算每個子帶內(nèi)的頻譜熵,并采用中值濾波器進行平滑處理,進而得到每一幀信號的頻譜熵特征值。第一方向搜索與門限自適應(yīng)單元33,用于按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值。由于本實施例不以“起始段為噪聲段”為假設(shè)的前提,因此門限值的計算是在第一方向搜索過程中并發(fā)完成的。第一方向搜索過程中,首先假設(shè)音頻段的第一方向上的第一幀即為語音幀,從第一幀開始搜索,并將第一幀語音的子帶頻譜熵作為初始門限值,進行門限自適應(yīng)。門限自適應(yīng)的過程是如果當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵以及更新公式更新當(dāng)前門限;如果當(dāng)前幀的頻譜熵小于當(dāng)前門限值,則不更新門限。在第一方向搜索過程中,門限值是從語音段中計算出來的。由于語音的頻譜熵大于噪聲的頻譜熵,所以門限的更新過程始終在語音段中進行,當(dāng)前門限值的物理意義反映了自當(dāng)前幀之前的全部音頻信號中,語音分量的頻譜熵的平均水平。第一方向搜索與門限自適應(yīng)單元33采用的更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值需要在實驗中不斷調(diào)試。第二端點位置檢測單元34,用于在第一方向搜索與門限自適應(yīng)單元33的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點位置,并終止第一方向搜索與門限自適應(yīng)單元33的第一方向搜索過程。具體的,語音第二端點的具體位置可以是以第一方向搜索終止時的當(dāng)前幀為準(zhǔn),第二方向數(shù)Ν+1幀,即所述連續(xù)N幀之前的那一幀為語音第二端點位置。N的單位為幀,通??梢匀≈? 20。第二方向搜索與第一端點位置檢測單元35,用于按照第二方向順序,從第二端點位置檢測單元34檢測到的語音第二端點位置開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語音第一端點位置。具體的,第二方向搜索與第一端點位置檢測單元35可以采取三種方式利用連續(xù)N 幀的特征值檢測音頻段的語音第一端點位置。方式一、第二方向搜索過程開始之前,第二方向搜索與第一端點位置檢測單元35 取所述連續(xù)N幀的頻譜熵的平均值作為第二方向搜索的初始門限值。在第二方向搜索過程中,若當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則第二方向搜索與第一端點位置檢測單元35 利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與第一方向搜索與門限自適應(yīng)單元33的取值不相同,需要在實驗中不斷調(diào)試。若在第二方向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,則第二方向搜索與第一端點位置檢測單元35判定檢測到所述音頻段的語音第一端點位置,所述M為預(yù)設(shè)幀數(shù)。方式二、第二方向搜索過程開始之前,第二方向搜索與第一端點位置檢測單元35 可利用語音段信息和噪聲段信息調(diào)整當(dāng)前門限值。其中以當(dāng)前門限值作為語音段信息,它體現(xiàn)了語音段的頻譜熵,以所述的小于當(dāng)前門限值的連續(xù)N幀的頻譜熵作為噪聲段信息, 具體可以取所述連續(xù)N幀的頻譜熵的平均值,再利用二者計算一個合理的第二方向搜索的初始門限值。第二方向搜索與第一端點位置檢測單元35可通過下述公式確定第二方向搜索的初始門限值。
_7] Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀頻譜熵的平均值;β為尺度因子,取值范圍在0至1之間;Trev為調(diào)整后的初始門限值。β越小,則Tra越靠近Τη; β越大,則Trev 越靠近I。該公式的含義是在Tn和Ttl之間選擇一個合適的位置,作為第二方向搜索的初始門限值?;谡Z音端點位置檢測的原則,如果原則是保護有效語音不受到損傷,則可以將門限放寬,β值可以取的小一些;反之,如果原則是盡可能消除噪聲段,語音段可以有略微損傷,則門限應(yīng)嚴(yán)格一些,β值取大一些。由于本實施例主要應(yīng)用于語音搜索,必須保護有效語音不受到損傷,否則將影響語音識別的準(zhǔn)確率,因此判決門限應(yīng)更接近Τη。在第二方向搜索過程中,若當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則第二方向搜索與第一端點位置檢測單元35利用當(dāng)前幀的特征值更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與第一方向搜索與門限自適應(yīng)單元33的取值不相同,需要在實驗中不斷調(diào)試。若在第二方向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,則第二方向搜索與第一端點位置檢測單元35判定檢測到所述音頻段的語音第一端點位置,所述M為預(yù)設(shè)幀數(shù)。方式三、第二方向搜索過程開始之前,第二方向搜索與第一端點位置檢測單元35通過下述公式確定第二方向搜索的初始門限值。Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀頻譜熵的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為調(diào)整后的初始門限值。本方式中,不在第二方向搜索過程中更新門限值,即以初始門限值作為固定門限進行第二方向搜索,若在第二方向搜索過程中出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值 (即所述的初始門限值),則第二方向搜索與第一端點位置檢測單元35判定檢測到所述音頻段的語音第一端點位置,所述M為預(yù)設(shè)幀數(shù)。上述三種方式中經(jīng)檢測確定的語音第一端點位置為可以是以第二方向搜索終止時的當(dāng)前幀為準(zhǔn),第一方向數(shù)Μ+1幀,即所述連續(xù)M幀之后的那一幀為語音第二端點位置。 M的單位為幀,通??梢匀≈? 20。在具體的語音搜索,尤其是在手機語音搜索的實現(xiàn)中,如果第二方向搜索與第一端點位置檢測單元35第二方向搜索至所述音頻段的第一幀,仍未出現(xiàn)連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況,為了保證“盡可能不損傷有效語音”的準(zhǔn)則,則第二方向搜索與第一端點位置檢測單元35可以以所述音頻段的第一方向上的第一幀作為語音第一端點。第二方向搜索的前提是語音第二端點位置已經(jīng)檢測到,因此當(dāng)檢測到語音第一端點位置之后,端點位置檢測工作隨即結(jié)束,可將結(jié)果輸出??梢姡c現(xiàn)有的語音端點檢測技術(shù)同時檢測出第一端點和第二端點的策略不同, 本實施例采用“第一方向、第二方向”搜索策略,第一方向搜索目的是檢測語音第二端點位置,而不必考慮第一端點,第二方向搜索的目的是檢測語音第一端點位置,而不必考慮第二端點,也就是將第一端點位置和第二端點位置的檢測分開進行。通過將第一端點位置檢測和第二端點位置檢測分開,先檢測第二端點位置,后檢測第一端點位置的方式,本實施例中將門限值計算與自適應(yīng)放在第一方向和/或第二方向搜索過程中并發(fā)進行,增加了門限計算與門限自適應(yīng)的魯棒性,拋開了現(xiàn)有的端點位置檢測方法認(rèn)為語音起始段為噪聲段的假設(shè),更加符合語音搜索的實際情況,與現(xiàn)有的檢測端點技術(shù)相比,本實施例的門限值計算更為合理,適用于一切語音搜索環(huán)境。在該實施例三中,當(dāng)?shù)谝环较驗檎驎r,第二方向為反向,第一端點為起點,第二端點為終點。當(dāng)?shù)谝环较驗榉聪驎r,第二方向為正向,第一端點為終點,第二端點為起點。實施例四、本實施例提供了一種檢測語音端點位置的系統(tǒng),參見圖4所示,包括 音頻信號預(yù)處理單元41、特征提取單元42、第一方向搜索與門限自適應(yīng)單元43、第二端點位置檢測單元44、第二方向搜索與第一端點位置檢測單元45、二次第一方向搜索與門限自適應(yīng)單元46和第一第二端點更新單元47。其中,音頻信號預(yù)處理單元41、特征提取單元42、第二端點位置檢測單元44、第二方向搜索與第一端點位置檢測單元45的具體描述分別與實施例三中音頻信號預(yù)處理單元 31、特征提取單元32、第二端點位置檢測單元34、第二方向搜索與第一端點位置檢測單元 35的描述一致,不再贅述。其中,第一方向搜索與門限自適應(yīng)單元43中關(guān)于第一方向搜索和門限值自適應(yīng)的具體內(nèi)容與實施例三中第一方向搜索與門限自適應(yīng)單元33 —致。初始門限值的設(shè)定與實施例三有所區(qū)別,具體在本實施例中,假設(shè)第一方向搜索與門限自適應(yīng)單元43對前一音頻段的第一方向搜索過程中,搜索至所述前一音頻段的最后一幀,第二端點位置檢測單元44未檢測到連續(xù)N幀的頻譜熵均小于當(dāng)前門限值的情況, 則可以判定所述前一音頻段為噪音段。即始終沒有找到語音第二端點位置,說明所述前一音頻段中沒有語音幀,一直是背景噪聲信號,從而導(dǎo)致信號的頻譜熵始終處在噪聲的水平, 沒有明顯的峰值。此時,可將這部分純噪聲信號作為調(diào)整當(dāng)前輸入音頻段的當(dāng)前門限值的重要信息,因為其充分反映了當(dāng)前背景噪聲的頻譜熵的水平,利用噪聲的頻譜熵,可以得到下一次端點檢測的初始門限值。具體地,可以計算前一音頻段各幀的頻譜熵平均值,將該頻譜熵平均值作為當(dāng)前輸入音頻段第一方向搜索的初始門限值。二次第一方向搜索與門限自適應(yīng)單元46,用于在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次第一方向搜索之前,取所述連續(xù)M幀的頻譜熵的平均值,作為二次第一方向搜索的初始門限值,從所述語音第一端點位置開始搜索,在二次第一方向搜索過程中,若當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。二次第一方向搜索與門限自適應(yīng)單元46采用的更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述一次第一方向搜索和第二方向搜索的取值不相同,需要在實驗中不斷調(diào)試。第一第二端點更新單元47,用于在二次第一方向搜索與門限自適應(yīng)單元46的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點位置,終止二次第一方向搜索與門限自適應(yīng)單元46的二次第一方向搜索過程,之后以二次第一方向搜索得到的語音第二端點位置更新第二端點位置檢測單元44得到的語音第二端點位置。可見,本實施例具備實施三的優(yōu)點,并且考慮到第一次第二端點位置檢測(即一次第一方向搜索)時,只利用了語音段的信息,沒有適用噪聲段的信息,有可能會影響第二端點位置檢測的精度。因此,可在第一端點位置檢測結(jié)束后,進行二次第一方向搜索,用來修正第二端點位置檢測結(jié)果。這一過程降低了第一端點位置和第二端點位置檢測的相互耦合程度,第二端點位置檢測過程中的噪聲信息可以用來輔助第一端點位置檢測,提高第一端點位置檢測的精度,而第一端點位置檢測的結(jié)果也可以用來修正第二端點位置檢測的精度,二者相輔相成。在該實施例四中,當(dāng)?shù)谝环较驗檎驎r,第二方向為反向,第一端點為起點,第二端點為終點。當(dāng)?shù)谝环较驗榉聪驎r,第二方向為正向,第一端點為終點,第二端點為起點。實施例五、本實施例提供了一種檢測語音端點位置的系統(tǒng),參見圖5所示,包括 音頻信號預(yù)處理單元51、特征提取單元52、第一方向搜索與門限自適應(yīng)單元53、第二端點位置檢測單元Μ、第二方向搜索與第一端點位置檢測單元55、第三第一方向搜索與門限自適應(yīng)單元56和第二第二端點更新單元57。其中,音頻信號預(yù)處理單元51、特征提取單元52、第一方向搜索與門限自適應(yīng)單元53、第二端點位置檢測單元Μ、第二方向搜索與第一端點位置檢測單元55的具體描述分別與實施例三中音頻信號預(yù)處理單元31、特征提取單元32、第一方向搜索與門限自適應(yīng)單元33、第二端點位置檢測單元34、第二方向搜索與第一端點位置檢測單元35的描述一致,不再贅述。其中,第三第一方向搜索與門限自適應(yīng)單元56,用于在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次第一方向搜索之前,通過下述公式確定二次第一方向搜索的初始門限值。Trev' =Tffl+Y (T0-Tffl);其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值。第三第一方向搜索與門限自適應(yīng)單元56從所述語音第一端點位置開始搜索,若在二次第一方向搜索過程中出現(xiàn)當(dāng)前幀的頻譜熵大于等于當(dāng)前門限值,則第三第一方向搜索與門限自適應(yīng)單元56利用當(dāng)前幀的頻譜熵更新當(dāng)前門限值。更新公式可以是T1 = α Τ0+(1-α )f ;其中,T0為當(dāng)前門限值J1為搜索過當(dāng)前幀更新后的門限值;f為當(dāng)前幀的特征值 (頻譜熵);α為遺忘因子,取值范圍在0至1之間,具體數(shù)值可以與上述一次第一方向搜索和第二方向搜索的取值不相同,需要在實驗中不斷調(diào)試。第二第二端點更新單元57,用于在第三第一方向搜索與門限自適應(yīng)單元56的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點位置,終止第三第一方向搜索與門限自適應(yīng)單元56的二次第一方向搜索過程,之后以二次第一方向搜索得到的語音第二端點位置更新第二端點位置檢測單元討得到的語音第二端點位置。 可見,本實施例具備實施三和四的優(yōu)點,不再贅述。在該實施例五中,當(dāng)?shù)谝环较驗檎驎r,第二方向為反向,第一端點為起點,第二端點為終點。當(dāng)?shù)谝环较驗榉聪驎r,第二方向為正向,第一端點為終點,第二端點為起點。實施例六、本實施例提供了一種檢測語音端點位置的系統(tǒng),參見圖6所示,包括 音頻信號預(yù)處理單元61、特征提取單元62、第一方向搜索與門限自適應(yīng)單元63、第二端點位置檢測單元64、第二方向搜索與第一端點位置檢測單元65、第四第一方向搜索與門限自適應(yīng)單元66和第三第二端點更新單元67。其中,音頻信號預(yù)處理單元61、特征提取單元62、第一方向搜索與門限自適應(yīng)單元63、第二端點位置檢測單元64、第二方向搜索與第一端點位置檢測單元65的具體描述分別與實施例三中音頻信號預(yù)處理單元31、特征提取單元32、第一方向搜索與門限自適應(yīng)單元33、第二端點位置檢測單元34、第二方向搜索與第一端點位置檢測單元35的描述一致, 不再贅述。其中,第四第一方向搜索與門限自適應(yīng)單元66,用于在出現(xiàn)所述連續(xù)M幀的頻譜熵均小于當(dāng)前門限值的情況下,在二次第一方向搜索之前,通過下述公式確定二次第一方向搜索的初始門限值。Trev' =Tffl+Y (T0-Tffl);其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值。本方式中,第四第一方向搜索與門限自適應(yīng)單元66不在二次第一方向搜索過程中更新門限值,即以初始門限值作為固定門限進行二次第一方向搜索。
第三第二端點更新單元67,用于在第四第一方向搜索與門限自適應(yīng)單元66的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于所述二次第一方向搜索的初始門限值時,判定檢測到所述音頻段的語音第二端點位置,終止第四第一方向搜索與門限自適應(yīng)單元66的二次第一方向搜索過程,之后以二次第一方向搜索得到的語音第二端點位置更新第二端點位置檢測單元64得到的語音第二端點位置。可見,本實施例具備實施三的優(yōu)點,雖然不像實施例四和五那樣在二次第一方向搜索過程中進行門限值自適應(yīng),但是本實施中采用的固定門限已經(jīng)考慮了語音信息和噪聲信息兩方面的因素,因此相對于現(xiàn)有技術(shù)讓然有較優(yōu)的效果。在該實施例六中,當(dāng)?shù)谝环较驗檎驎r,第二方向為反向,第一端點為起點,第二端點為終點。當(dāng)?shù)谝环较驗榉聪驎r,第二方向為正向,第一端點為終點,第二端點為起點。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種檢測語音端點的方法,其特征在于,包括下列步驟Al、按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;A2、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第二端點并終止第一方向搜索過程,所述N為預(yù)設(shè)幀數(shù);A3、按照第二方向順序,從檢測到的語音第二端點開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語音第一端點;當(dāng)所述第一方向為正向時,所述第二方向為反向,所述第一端點為起點,所述第二端點為終點;當(dāng)所述第一方向為反向時,所述第二方向為正向,所述第一端點為終點,所述第二端點為起點。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟Al中所述的更新當(dāng)前門限值的公式具體包括T1 = aT0+(l-a)f ;其中,Ttl為當(dāng)前門限值J1為更新后的門限值;f為當(dāng)前幀的特征值;α為遺忘因子,取值范圍在0至1之間。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟Al中從所述音頻段的第一方向上的第一幀開始搜索,以及將所述音頻段的第一幀的特征值作為初始門限值;或者,如果上一音頻段按照第一方向順序未檢測到語音第二端點,則利用上一音頻段按照第一方向順序搜索結(jié)束后得到的當(dāng)前門限值作為所述輸入的音頻段在所述步驟Al的初始門限值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A3中所述的利用連續(xù)N幀的特征值檢測音頻段的語音第一端點,具體包括A311、取所述連續(xù)N幀的特征值的平均值作為第二方向搜索的初始門限值,或者,利用公式ΤΜν = Τη+β (T0-Tn)確定第二方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Trev為第二方向搜索的初始門限值;Α312、在第二方向搜索過程中,從所述語音第一端點開始搜索,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;Α313、若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟A3中所述的利用連續(xù)N幀的特征值檢測音頻段的語音第一端點,具體包括Α321、通過下述公式確定第二方向搜索的初始門限值;Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;Α322、若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點;或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述步驟A3之后還包括二次第一方向搜索的步驟A411、在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,取所述連續(xù)M幀的特征值的平均值,作為二次第一方向搜索的初始門限值,或者,利用公式U = Tffl+y (T0-Tffl) 確定二次第一方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值;A412、從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;A413、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第二端點并終止二次第一方向搜索過程,以及更新步驟A2得到的所述語音第二端點。
7.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述步驟A3之后還包括二次第一方向搜索的步驟A421、在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,利用公式!^/ = Tffl+Y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Tm為所述連續(xù) M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間;Tmv'為二次第一方向搜索的初始門限值;A422、從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若連續(xù)N幀的特征值均小于所述二次第一方向搜索的初始門限值,則判定檢測到所述音頻段的語音第二端點并終止二次第一方向搜索過程,以及更新步驟A2得到的所述語音第二端點。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟Al之前還包括步驟A10、對所述音頻段的每幀音頻信號進行預(yù)處理;All、從所述預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟AlO中所述的預(yù)處理,包括對下列之一或任意組合的預(yù)處理每幀音頻信號的預(yù)加重、快速傅里葉變換和子帶劃分。
10.根據(jù)權(quán)利要求1或8所述的方法,其特征在于,所述特征值包括下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性。
11.根據(jù)權(quán)利要求1所述的方法,其特征在于,檢測到所述音頻段的語音第二端點為 按照第一方向順序所述連續(xù)N幀的前一幀。
12.根據(jù)權(quán)利要求1、4或5所述的方法,其特征在于,檢測到所述音頻段的語音第二端點為按照第二方向順序所述連續(xù)M幀的前一幀。
13.—種檢測語音端點的系統(tǒng),其特征在于,包括第一方向搜索與門限自適應(yīng)單元,用于按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;第二端點位置檢測單元,用于在第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點,并終止第一方向搜索與門限自適應(yīng)單元的第一方向搜索過程,所述N為預(yù)設(shè)幀數(shù);第二方向搜索與第一端點位置檢測單元,用于按照第二方向順序,從第二端點位置檢測單元檢測到的語音第二端點開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語首第一端點;當(dāng)所述第一方向為正向時,所述第二方向為反向,所述第一端點為起點,所述第二端點為終點;當(dāng)所述第一方向為反向時,所述第二方向為正向,所述第一端點為終點,所述第二端點為起點。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,第一方向搜索與門限自適應(yīng)單元采用的更新當(dāng)前門限值的公式具體包括T1 = aT0+(l-a)f ;其中,Ttl為當(dāng)前門限值J1為更新后的門限值;f為當(dāng)前幀的特征值;α為遺忘因子,取值范圍在0至1之間。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,第一方向搜索與門限自適應(yīng)單元中從所述音頻段的第一方向上的第一幀開始搜索,以及將所述音頻段的第一幀的特征值作為初始門限值;或者,如果上一音頻段按照第一方向順序未檢測到語音第二端點,則利用上一音頻段按照第一方向順序搜索結(jié)束后得到的當(dāng)前門限值作為所述輸入的音頻段在所述步驟Al的初始門限值。
16.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二方向搜索與第一端點位置檢測單元在利用連續(xù)N幀的特征值檢測音頻段的語音第一端點時,具體執(zhí)行以下操作取所述連續(xù)N幀的特征值的平均值作為第二方向搜索的初始門限值,或者,利用公式 Trev = Tn+β (T0-Tn)確定第二方向搜索的初始門限值,其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;在第二方向搜索過程中,從所述語音第一端點開始搜索,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點; 或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一方向上的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。
17.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二方向搜索與第一端點位置檢測單元在利用連續(xù)N幀的特征值檢測音頻段的語音第一端點時,具體執(zhí)行以下操作通過下述公式確定第二方向搜索的初始門限值;Trev = Tn+β (T0-Tn);其中,Ttl為當(dāng)前門限值;Τη為所述連續(xù)N幀特征值的平均值;β為尺度因子,取值范圍在0至1之間;Tmv為第二方向搜索的初始門限值;若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點; 或者,搜索至所述音頻段的第一方向上的第一幀,未搜到連續(xù)M幀的特征值均小于當(dāng)前門限值,則以所述音頻段的第一幀作為語音第一端點;所述M為預(yù)設(shè)幀數(shù)。
18.根據(jù)權(quán)利要求16或17所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括二次第一方向搜索與門限自適應(yīng)單元,用于在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,取所述連續(xù)M幀的特征值的平均值,作為二次第一方向搜索的初始門限值,或者,利用公式U = Tffl+y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,T0為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至1之間; Trev'為二次第一方向搜索的初始門限值;從所述語音第一端點開始搜索,在二次第一方向搜索過程中,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;第一第二端點更新單元,用于在二次第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于當(dāng)前門限值時,判定檢測到所述音頻段的語音第二端點,終止二次第一方向搜索與門限自適應(yīng)單元的二次第一方向搜索過程,并更新第二端點位置檢測單元得到的語音第二端點。
19.根據(jù)權(quán)利要求16或17所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括第四第一方向搜索與門限自適應(yīng)單元,用于在出現(xiàn)所述連續(xù)M幀的特征值均小于當(dāng)前門限值的情況下,利用公式Trev' = Tffl+y (T0-Tffl)確定二次第一方向搜索的初始門限值,其中,T0為當(dāng)前門限值;Tm為所述連續(xù)M幀特征值的平均值;Y為尺度因子,取值范圍在0至 1之間;Trev‘為二次第一方向搜索的初始門限值;然后從所述語音第一端點開始搜索;第三第二端點更新單元,用于在第四第一方向搜索與門限自適應(yīng)單元的搜索過程中出現(xiàn)連續(xù)N幀的特征值均小于所述二次第一方向搜索的初始門限值時,判定檢測到所述音頻段的語音第二端點,終止第四第一方向搜索與門限自適應(yīng)單元的二次第一方向搜索過程, 并更新第二端點位置檢測單元得到的語音第二端點。
20.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括音頻信號預(yù)處理單元,用于對所述音頻段的每幀音頻信號進行預(yù)處理;特征提取單元,用于從所述預(yù)處理后的每幀音頻信號中提取每幀音頻信號的特征值。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述音頻信號預(yù)處理單元進行的預(yù)處理包括下列之一或任意組合每幀音頻信號的預(yù)加重、快速傅里葉變換和子帶劃分。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述特征提取單元提取的特征值,包括下列之一或任意組合子帶頻譜熵、能量、過零率和相關(guān)性。
23.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二端點位置檢測單元得出的所述音頻段的語音第二端點為按照第一方向順序所述連續(xù)N幀的前一幀。
24.根據(jù)權(quán)利要求13、16或17所述的系統(tǒng),其特征在于,所述的若連續(xù)M幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第一端點,此種情況下所述第二方向搜索與第一端點位置檢測單元得出的語音第一端點位置為按照第二方向順序所述連續(xù)M幀的前一幀。
全文摘要
本發(fā)明提供了一種檢測語音端點的方法及系統(tǒng),涉及計算機技術(shù)領(lǐng)域,用以解決現(xiàn)有語音端點檢測技術(shù)的性能較差的問題。方法包括A1、按照第一方向順序,搜索輸入的音頻段中的各幀,若當(dāng)前幀的特征值大于等于當(dāng)前門限值,則利用當(dāng)前幀的特征值更新當(dāng)前門限值;A2、若連續(xù)N幀的特征值均小于當(dāng)前門限值,則判定檢測到所述音頻段的語音第二端點并終止第一方向搜索過程,所述N為預(yù)設(shè)幀數(shù);A3、按照第二方向順序,從所述語音第二端點開始搜索,利用所述連續(xù)N幀的特征值檢測所述音頻段的語音第一端點。系統(tǒng)包括第一正向搜索與門限自適應(yīng)單元、終點位置檢測單元、反向搜索與起點位置檢測單元。本發(fā)明適用于一切語音搜索環(huán)境。
文檔編號G10L11/02GK102522081SQ20111045111
公開日2012年6月27日 申請日期2011年12月29日 優(yōu)先權(quán)日2011年12月29日
發(fā)明者宋輝 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1