語音基音頻率檢測方法和裝置制造方法

文檔序號：2825498閱讀：295來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語音基音頻率檢測方法和裝置制造方法
【專利摘要】本發(fā)明公開一種語音基音頻率檢測方法和裝置。其中在語音基音頻率檢測方法中，檢測語音信號幀中的單調(diào)分量，利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中，計算候選基頻集合中每個候選基頻的和諧判據(jù)，將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。通過利用具有較大能量的單調(diào)分量作為基音檢測的基礎(chǔ)，從而提高了基音檢測在有噪環(huán)境下的準確率。
【專利說明】語音基音頻率檢測方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域，特別是涉及一種語音基音頻率檢測方法和裝置。
【背景技術(shù)】
[0002]人類語音由清音和濁音構(gòu)成。清音是氣流通過口徑縮小的聲門，氣流高速沖過產(chǎn)生湍流引起的摩擦音，這種音在語音中占的比例較少，發(fā)聲時聲帶不振動，因此沒有周期性，類似于寬帶噪音；濁音呼氣使聲帶靠攏發(fā)聲顫動時發(fā)出的具有周期性的聲音，這種聲音在頻率構(gòu)成上由一個基音和一系列諧音構(gòu)成，基音的頻率就是聲音周期的倒數(shù)。音頻頻率在語音信號處理中是最基本的參數(shù)之一，它在語音信號的分析、合成、編碼、識別等各項應(yīng)用中起著非常重要的作用。
[0003]在語音的基音頻率檢測方面，已經(jīng)有很多相關(guān)研究成果，這些成果大多基于相關(guān)性的檢測，即通過時域、頻域或者信號的預(yù)測殘差的自相關(guān)函數(shù)來得到相關(guān)性峰值所在的延遲采樣數(shù)或者離散頻率數(shù)?；谧韵嚓P(guān)的方法有以下幾個缺陷，首先是自相關(guān)的計算量較大；其次檢測出的周期采樣數(shù)是整數(shù)，其對應(yīng)的頻率便是一組離散數(shù)，精度不足，這在基音頻率較高時問題突出；三，自相關(guān)函數(shù)的峰值判斷困難，多數(shù)情況下會有多個峰對應(yīng)著基頻、諧頻或干擾噪聲，這常常導(dǎo)致基頻判斷錯誤。

【發(fā)明內(nèi)容】

[0004]本發(fā)明要解決的技術(shù)問題是提供一種語音基音頻率檢測方法和裝置。通過利用具有較大能量的單調(diào)分量作為基音檢測的基礎(chǔ)，能夠提高基音檢測在有噪環(huán)境下的準確率。
[0005]根據(jù)本發(fā)明的一個方面，提供一種語音基音頻率檢測方法，包括:
[0006]檢測語音信號幀中的單調(diào)分量；
[0007]利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中；
[0008]計算候選基頻集合中每個候選基頻的和諧判據(jù)；
[0009]將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
[0010]優(yōu)選的，檢測語音信號幀中的單調(diào)分量的步驟包括:
[0011 ] 針對語音信號巾貞中的每一個頻譜幅值Xa[k],若Xa[k]同時大于Xa[k_l]和XA[k+l]，則將XA[k]作為單調(diào)分量，其中k為頻譜序號索引。
[0012]優(yōu)選的，若Xa [k]同時大于XA[k_l]和XA[k+l]，進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值；
[0013]若XA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值，則執(zhí)行將Xa[k]作為單調(diào)分量的步驟。
[0014]優(yōu)選的，頻譜序號索引k的取值范圍為大于索引下限int [flOTN/fs]，小于索引上限int[fhighN/fs]，其中函數(shù)int[]表示向下舍入取整函數(shù)，N為語音信號幀長度，fs為語音信號的采樣頻率，flow為頻率下限，fhigh為頻率上限。[0015]優(yōu)選的，利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中的步驟包括:
[0016]選擇頻譜幅值最大的M個單調(diào)分量；
[0017]對于所述M個單調(diào)分量中的每一個單調(diào)分量XA[k]，分別計算相應(yīng)的分頻頻率Tf[k]/mdiv，其中Tf[k]為單調(diào)分量XA[k]對應(yīng)的頻率，mdiv為正整數(shù)；
[0018]將屬于基頻范圍內(nèi)的分頻頻率Tf[k]/mdiv作為候選基頻放置到候選基頻集合中。
[0019]優(yōu)選的，將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中的步驟之后，還包括:
[0020]將候選基頻集合中數(shù)值接近的候選基頻合并。
[0021]優(yōu)選的，將候選基頻集合中數(shù)值接近的候選基頻合并的步驟包括:
[0022]對于候選基頻集合中的包含Kg個元素的子集合{Feandidate[gi}，i=l, 2，..., Kg，若滿足
【權(quán)利要求】
1.一種語音基音頻率檢測方法，其特征在于，包括: 檢測語音信號幀中的單調(diào)分量；利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中；計算候選基頻集合中每個候選基頻的和諧判據(jù)；將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于: 檢測語音信號幀中的單調(diào)分量的步驟包括: 針對語音信號幀中的每一個頻譜幅值XA[k]，若XA[k]同時大于XA[k-l]和XA[k+l]，則將XA[k]作為單調(diào)分量，其中k為頻譜序號索引。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于: 若XA[k]同時大于XA[k-l]和XA[k+l]，進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值；若xA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值，則執(zhí)行將XA[k]作為單調(diào)分量的步驟。
4.根據(jù)權(quán)利要求2或3所述的方法，其特征在于: 頻譜序號索引k的取值范圍為大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函數(shù)int[]表示向下舍入取整函數(shù)，N為語音信號幀長度，fs為語音信號的采樣頻率，flow為頻率下限，fhigh為頻率上限。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于: 利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中的步驟包括: 選擇頻譜幅值最大的M個單調(diào)分量；對于所述M個單調(diào)分量中的每一個單調(diào)分量Xa[k]，分別計算相應(yīng)的分頻頻率Tf [k] /mdiv，其中Tf [k]為單調(diào)分量XA[k]對應(yīng)的頻率，mdiv為正整數(shù)；將屬于基頻范圍內(nèi)的分頻頻率Tf[k]/mdiv作為候選基頻放置到候選基頻集合中。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于: 將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中的步驟之后，還包括: 將候選基頻集合中數(shù)值接近的候選基頻合并。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于: 將候選基頻集合中數(shù)值接近的候選基頻合并的步驟包括: 對于候選基頻集合中的包含Kg個元素的子集合{F—[gi]}，i=l，2，...，&，若滿足
8.根據(jù)權(quán)利要求5-7中任一項所述的方法,其特征在于: 單調(diào)分量Xa[k]對應(yīng)的頻率Tf [k]為kfs/N，其中N為語音信號幀長度，fs為語音信號的采樣頻率。
9.根據(jù)權(quán)利要求5-7中任一項所述的方法，其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為kffs/N，其中，
10.根據(jù)權(quán)利要求5-7中任一項所述的方法，其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為kffs/N，其中，
若
11.根據(jù)權(quán)利要求5-7中任一項所述的方法，其特征在于: 單調(diào)分量XA[k]對應(yīng)的頻率Tf [k]為
12.根據(jù)權(quán)利要求1所述的方法，其特征在于: 計算候選基頻集合中每個候選基頻的和諧判據(jù)的步驟包括: 對于候選基頻集合中的每個候選基頻F_didate[g]，如果在單調(diào)分量集合中存在一個包括K。個單調(diào)分量的子集合，所述子集合對應(yīng)的頻率集合為{Tf [C1]，…，Tf[cKc]}，同時滿足
13.根據(jù)權(quán)利要求12所述的方法，其特征在于: 若候選基頻Feandidate[g]的第m次諧音Ag[m]不存在,且m關(guān)O,則設(shè)定Ag[m]的幅度為第m-1次諧音Ag [m-1]的幅度的β倍；若候選基頻FcandidatJg]的第O次諧音Ag[0]不存在，則設(shè)定Ag[0]的幅度為O。
14.根據(jù)權(quán)利要求12或13所述的方法，其特征在于: 利用候選基頻F—[g]的各次諧音計算候選基頻F—[g]的和諧判據(jù)Jh[g]的步驟之后，還包括: 判斷候選基頻F_didate[g]相對于前一語音信號幀的基頻。1(1的偏差是否滿足延續(xù)性條件，即:
15.一種語音基音頻率檢測裝置，其特征在于，包括: 檢測單元，用于檢測語音信號幀中的單調(diào)分量；候選基頻確定單元，用于利用頻譜幅值最大的M個單調(diào)分量的頻率確定候選基頻，并將候選基頻放置在候選基頻集合中；和諧判據(jù)計算單元，用于計算候選基頻集合中每個候選基頻的和諧判據(jù)；基頻選擇單元，用于將具有最大和諧判據(jù)的候選基頻作為所述語音信號幀的基頻。
16.根據(jù)權(quán)利要求15所述的裝置，其特征在于: 檢測單元具體針對語音信號幀中的每一個頻譜幅值XA[k]，若XA[k]同時大于XA[k-l]和XA[k+l]，則將XA[k]作為單調(diào)分量，其中k為頻譜序號索引。
17.根據(jù)權(quán)利要求16所述的裝置，其特征在于: 檢測單元還用于在XA[k]同時大于XA[k-l]和XA[k+l]時，進一步判斷XA[k]與所述語音信號幀中的最大頻譜幅值的比值是否大于幅度閾值，若XA[k]與所述語音信號幀中的最大頻譜幅值的比值大于幅度閾值，則執(zhí)行將Xa [k]作為單調(diào)分量的操作。
18.根據(jù)權(quán)利要求16或17所述的裝置，其特征在于: 頻譜序號索引k的取值范圍為大于索引下限int[flOTN/fs]，小于索引上限int[fhighN/fs]，其中函數(shù)int[]表示向下舍入取整函數(shù)，N為語音信號幀長度，fs為語音信號的采樣頻率，flow為頻率下限，fhigh為頻率上限。
19.根據(jù)權(quán)利要求15所述的裝置，其特征在于:候選基頻確定單元包括第一選擇模塊、分頻頻率計算模塊和第二選擇模塊，其中: 第一選擇模塊，用于選擇頻譜幅值最大的M個單調(diào)分量；分頻頻率計算模塊，用于對于所述M個單調(diào)分量中的每一個單調(diào)分量Xa [k]，分別計算相應(yīng)的分頻頻率Tf [k]/mdiv，其中Tf [k]為單調(diào)分量XA[k]對應(yīng)的頻率，mdiv為正整數(shù)；第二選擇模塊，用于將屬于基頻范圍內(nèi)的分頻頻率Tf [k]/mdiv作為候選基頻放置到候選基頻集合中。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于: 候選基頻確定單元還包括合并模塊，用于將候選基頻集合中數(shù)值接近的候選基頻合并。
21.根據(jù)權(quán)利要求20所述的裝置，其特征在于: 合并模塊具體針對候選基頻集合中的包含Kg個元素的子集合{F_didate; [gj}, i =l，2，...，Kg，若滿足
22.根據(jù)權(quán)利要求15所述的裝置，其特征在于: 和諧判據(jù)計算單元具體包括諧音選擇模塊、判據(jù)計算模塊，其中: 諧音選擇模塊，用于針對候選基頻集合中的每個候選基頻F_didate[g]，如果在單調(diào)分量集合中存在一個包括K。個單調(diào)分量的子集合，所述子集合對應(yīng)的頻率集合為{Tf[Cl]，...，Tf[CK。]}，同時滿足
23.根據(jù)權(quán)利要求22所述的裝置，其特征在于: 諧音選擇模塊具體在候選基頻Feandidate [g]的第m次諧音Ag[m]不存在時,且m古O,則設(shè)定Ag[m]的幅度為第m-1次諧音Ag[m-1]的幅度的β倍；在候選基頻F_didat』g]的第O次諧音Ag[0]不存在時，則設(shè)定~[0]的幅度為O。
24.根據(jù)權(quán)利要求22或23所述的裝置，其特征在于: 和諧判據(jù)計算單元還包括加權(quán)模塊，用于在判據(jù)計算模塊利用候選基頻F_didatJg]的各次諧音計算候選基頻Fcandidate [g]的和諧判據(jù)Jh[g]的步驟之后，判斷候選基頻F_didate [g]相對于前一語音信號幀的基頻fo—。1(1的偏差是否滿足延續(xù)性條件，即:
【文檔編號】G10L25/90GK103794222SQ201210427486
【公開日】2014年5月14日申請日期:2012年10月31日優(yōu)先權(quán)日:2012年10月31日
【發(fā)明者】吳晟, 林福輝, 徐晶明, 蔣斌申請人:展訊通信（上海）有限公司

完整全部詳細技術(shù)資料下載