語音基音頻率檢測方法和裝置制造方法
【專利摘要】本發(fā)明公開一種語音基音頻率檢測方法和裝置。其中在語音基音頻率檢測方法中,檢測語音信號幀中的單調(diào)分量,利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中,計算候選基頻集合中每個候選基頻的和諧判據(jù),將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。通過利用具有較大能量的單調(diào)分量作為基音檢測的基礎(chǔ),從而提高了基音檢測在有噪環(huán)境下的準確率。
【專利說明】語音基音頻率檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,特別是涉及一種語音基音頻率檢測方法和裝置。
【背景技術(shù)】
[0002]人類語音由清音和濁音構(gòu)成。清音是氣流通過口徑縮小的聲門,氣流高速沖過產(chǎn)生湍流引起的摩擦音,這種音在語音中占的比例較少,發(fā)聲時聲帶不振動,因此沒有周期性,類似于寬帶噪音;濁音呼氣使聲帶靠攏發(fā)聲顫動時發(fā)出的具有周期性的聲音,這種聲音在頻率構(gòu)成上由一個基音和一系列諧音構(gòu)成,基音的頻率就是聲音周期的倒數(shù)。音頻頻率在語音信號處理中是最基本的參數(shù)之一,它在語音信號的分析、合成、編碼、識別等各項應(yīng)用中起著非常重要的作用。
[0003]在語音的基音頻率檢測方面,已經(jīng)有很多相關(guān)研究成果,這些成果大多基于相關(guān)性的檢測,即通過時域、頻域或者信號的預(yù)測殘差的自相關(guān)函數(shù)來得到相關(guān)性峰值所在的延遲采樣數(shù)或者離散頻率數(shù)?;谧韵嚓P(guān)的方法有以下幾個缺陷,首先是自相關(guān)的計算量較大;其次檢測出的周期采樣數(shù)是整數(shù),其對應(yīng)的頻率便是一組離散數(shù),精度不足,這在基音頻率較高時問題突出;三,自相關(guān)函數(shù)的峰值判斷困難,多數(shù)情況下會有多個峰對應(yīng)著基頻、諧頻或干擾噪聲,這常常導(dǎo)致基頻判斷錯誤。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是提供一種語音基音頻率檢測方法和裝置。通過利用具有較大能量的單調(diào)分量作為基音檢測的基礎(chǔ),能夠提高基音檢測在有噪環(huán)境下的準確率。
[0005]根據(jù)本發(fā)明的一個方面,提供一種語音基音頻率檢測方法,包括:
[0006]檢測語音信號幀中的單調(diào)分量;
[0007]利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中;
[0008]計算候選基頻集合中每個候選基頻的和諧判據(jù);
[0009]將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
[0010]優(yōu)選的,檢測語音信號幀中的單調(diào)分量的步驟包括:
[0011 ] 針對語音信號巾貞中的每一個頻譜幅值Xa[k],若Xa[k]同時大于Xa[k_l]和XA[k+l],則將XA[k]作為單調(diào)分量,其中k為頻譜序號索引。
[0012]優(yōu)選的,若Xa [k]同時大于XA[k_l]和XA[k+l],進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值;
[0013]若XA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值,則執(zhí)行將Xa[k]作為單調(diào)分量的步驟。
[0014]優(yōu)選的,頻譜序號索引k的取值范圍為大于索引下限int [flOTN/fs],小于索引上限int[fhighN/fs],其中函數(shù)int[]表示向下舍入取整函數(shù),N為語音信號幀長度,fs為語音信號的采樣頻率,flow為頻率下限,fhigh為頻率上限。[0015]優(yōu)選的,利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中的步驟包括:
[0016]選擇頻譜幅值最大的M個單調(diào)分量;
[0017]對于所述M個單調(diào)分量中的每一個單調(diào)分量XA[k],分別計算相應(yīng)的分頻頻率Tf[k]/mdiv,其中Tf[k]為單調(diào)分量XA[k]對應(yīng)的頻率,mdiv為正整數(shù);
[0018]將屬于基頻范圍內(nèi)的分頻頻率Tf[k]/mdiv作為候選基頻放置到候選基頻集合中。
[0019]優(yōu)選的,將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中的步驟之后,還包括:
[0020]將候選基頻集合中數(shù)值接近的候選基頻合并。
[0021]優(yōu)選的,將候選基頻集合中數(shù)值接近的候選基頻合并的步驟包括:
[0022]對于候選基頻集合中的包含Kg個元素的子集合{Feandidate[gi},i=l, 2,..., Kg,若滿足
【權(quán)利要求】
1.一種語音基音頻率檢測方法,其特征在于,包括: 檢測語音信號幀中的單調(diào)分量; 利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中; 計算候選基頻集合中每個候選基頻的和諧判據(jù); 將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于: 檢測語音信號幀中的單調(diào)分量的步驟包括: 針對語音信號幀中的每一個頻譜幅值XA[k],若XA[k]同時大于XA[k-l]和XA[k+l],則將XA[k]作為單調(diào)分量,其中k為頻譜序號索引。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于: 若XA[k]同時大于XA[k-l]和XA[k+l],進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值; 若xA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值,則執(zhí)行將XA[k]作為單調(diào)分量的步驟。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于: 頻譜序號索引k的取值范圍為大于索引下限int[flOTN/fs],小于索引上限int[fhighN/fs],其中函數(shù)int[]表示向下舍入取整函數(shù),N為語音信號幀長度,fs為語音信號的采樣頻率,flow為頻率下限,fhigh為頻率上限。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于: 利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中的步驟包括: 選擇頻譜幅值最大的M個單調(diào)分量; 對于所述M個單調(diào)分量中的每一個單調(diào)分量Xa[k],分別計算相應(yīng)的分頻頻率Tf [k] /mdiv,其中Tf [k]為單調(diào)分量XA[k]對應(yīng)的頻率,mdiv為正整數(shù); 將屬于基頻范圍內(nèi)的分頻頻率Tf[k]/mdiv作為候選基頻放置到候選基頻集合中。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于: 將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中的步驟之后,還包括: 將候選基頻集合中數(shù)值接近的候選基頻合并。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于: 將候選基頻集合中數(shù)值接近的候選基頻合并的步驟包括: 對于候選基頻集合中的包含Kg個元素的子集合{F—[gi]},i=l,2,...,&,若滿足
8.根據(jù)權(quán)利要求5-7中任一項所述的方法,其特征在于: 單調(diào)分量Xa[k]對應(yīng)的頻率Tf [k]為kfs/N,其中N為語音信號幀長度,fs為語音信號的采樣頻率。
9.根據(jù)權(quán)利要求5-7中任一項所述的方法,其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為kffs/N,其中,
10.根據(jù)權(quán)利要求5-7中任一項所述的方法,其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為kffs/N,其中,
若
11.根據(jù)權(quán)利要求5-7中任一項所述的方法,其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為
12.根據(jù)權(quán)利要求1所述的方法,其特征在于: 計算候選基頻集合中每個候選基頻的和諧判據(jù)的步驟包括: 對于候選基頻集合中的每個候選基頻F_didate[g],如果在單調(diào)分量集合中存在一個包括K。個單調(diào)分量的子集合,所述子集合對應(yīng)的頻率集合為{Tf [C1],…,Tf[cKc]},同時滿足
13.根據(jù)權(quán)利要求12所述的方法,其特征在于: 若候選基頻Feandidate[g]的第m次諧音Ag[m]不存在,且m關(guān)O,則設(shè)定Ag[m]的幅度為第m-1次諧音Ag [m-1]的幅度的β倍; 若候選基頻FcandidatJg]的第O次諧音Ag[0]不存在,則設(shè)定Ag[0]的幅度為O。
14.根據(jù)權(quán)利要求12或13所述的方法,其特征在于: 利用候選基頻F—[g]的各次諧音計算候選基頻F—[g]的和諧判據(jù)Jh[g]的步驟之后,還包括: 判斷候選基頻F_didate[g]相對于前一語音信號幀的基頻。1(1的偏差是否滿足延續(xù)性條件,即:
15.一種語音基音頻率檢測裝置,其特征在于,包括: 檢測單元,用于檢測語音信號幀中的單調(diào)分量; 候選基頻確定單元,用于利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻,并將候選基頻放置在候選基頻集合中; 和諧判據(jù)計算單元,用于計算候選基頻集合中每個候選基頻的和諧判據(jù); 基頻選擇單元,用于將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于: 檢測單元具體針對語音信號幀中的每一個頻譜幅值XA[k],若XA[k]同時大于XA[k-l]和XA[k+l],則將XA[k]作為單調(diào)分量,其中k為頻譜序號索引。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于: 檢測單元還用于在XA[k]同時大于XA[k-l]和XA[k+l]時,進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值,若XA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值,則執(zhí)行將Xa [k]作為單調(diào)分量的操作。
18.根據(jù)權(quán)利要求16或17所述的裝置,其特征在于: 頻譜序號索引k的取值范圍為大于索引下限int[flOTN/fs],小于索引上限int[fhighN/fs],其中函數(shù)int[]表示向下舍入取整函數(shù),N為語音信號幀長度,fs為語音信號的采樣頻率,flow為頻率下限,fhigh為頻率上限。
19.根據(jù)權(quán)利要求15所述的裝置,其特征在于:候選基頻確定單元包括第一選擇模塊、分頻頻率計算模塊和第二選擇模塊,其中: 第一選擇模塊,用于選擇頻譜幅值最大的M個單調(diào)分量; 分頻頻率計算模塊,用于對于所述M個單調(diào)分量中的每一個單調(diào)分量Xa [k],分別計算相應(yīng)的分頻頻率Tf [k]/mdiv,其中Tf [k]為單調(diào)分量XA[k]對應(yīng)的頻率,mdiv為正整數(shù); 第二選擇模塊,用于將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于: 候選基頻確定單元還包括合并模塊,用于將候選基頻集合中數(shù)值接近的候選基頻合并。
21.根據(jù)權(quán)利要求20所述的裝置,其特征在于: 合并模塊具體針對候選基頻集合中的包含Kg個元素的子集合{F_didate; [gj}, i =l,2,...,Kg,若滿足
22.根據(jù)權(quán)利要求15所述的裝置,其特征在于: 和諧判據(jù)計算單元具體包括諧音選擇模塊、判據(jù)計算模塊,其中: 諧音選擇模塊,用于針對候選基頻集合中的每個候選基頻F_didate[g],如果在單調(diào)分量集合中存在一個包括K。個單調(diào)分量的子集合,所述子集合對應(yīng)的頻率集合為{Tf[Cl],...,Tf[CK。]},同時滿足
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于: 諧音選擇模塊具體在候選基頻Feandidate [g]的第m次諧音Ag[m]不存在時,且m古O,則設(shè)定Ag[m]的幅度為第m-1次諧音Ag[m-1]的幅度的β倍;在候選基頻F_didat』g]的第O次諧音Ag[0]不存在時,則設(shè)定~[0]的幅度為O。
24.根據(jù)權(quán)利要求22或23所述的裝置,其特征在于: 和諧判據(jù)計算單元還包括加權(quán)模塊,用于在判據(jù)計算模塊利用候選基頻F_didatJg]的各次諧音計算候選基頻Fcandidate [g]的和諧判據(jù)Jh[g]的步驟之后,判斷候選基頻F_didate [g]相對于前一語音信號幀的基頻fo—。1(1的偏差是否滿足延續(xù)性條件,即:
【文檔編號】G10L25/90GK103794222SQ201210427486
【公開日】2014年5月14日 申請日期:2012年10月31日 優(yōu)先權(quán)日:2012年10月31日
【發(fā)明者】吳晟, 林福輝, 徐晶明, 蔣斌 申請人:展訊通信(上海)有限公司