一種基于臨界頻帶的雙耳語音分離方法與流程

文檔序號(hào)：12916615閱讀：411來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及聲源定位和語音分離領(lǐng)域，具體涉及一種基于臨界頻帶的雙耳語音分離方法。

背景技術(shù)：

語音定位和分離技術(shù)是語音信號(hào)處理系統(tǒng)的前端，其性能對(duì)整個(gè)語音信號(hào)系統(tǒng)影響非常大。從數(shù)字通信時(shí)代開始，語音編解碼、語音定位、語音分離、語音增強(qiáng)等語音處理技術(shù)都得到了迅速的發(fā)展，特別在當(dāng)前的互聯(lián)網(wǎng)浪潮中，語音助手將語音信號(hào)處理推向了一個(gè)新的高度。

未來多模態(tài)人機(jī)交互的發(fā)展，人機(jī)對(duì)話和語音識(shí)別離不開語音信號(hào)處理的研究和發(fā)展，所以語音分離技術(shù)作為語音處理系統(tǒng)的前端，直接關(guān)系到整個(gè)語音系統(tǒng)的性能和效果。

技術(shù)實(shí)現(xiàn)要素：

發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供一種基于臨界頻帶的雙耳語音分離方法，利用人耳聽覺系統(tǒng)的分頻處理機(jī)制，結(jié)合人耳的聽覺掩蔽效應(yīng)，模擬人耳的聽覺特征，基于臨界頻帶劃分，對(duì)每一幀信號(hào)劃分不同的子帶獲取準(zhǔn)確的混合矩陣進(jìn)行語音分離，改進(jìn)了現(xiàn)有技術(shù)的不足。

技術(shù)方案：一種基于臨界頻帶的雙耳語音分離方法，其特征在于，該方法包括以下步驟：

1)參數(shù)訓(xùn)練階段：

1.1)使用具有方向性的雙耳白噪聲信號(hào)進(jìn)行訓(xùn)練，所述雙耳白噪聲信號(hào)為與頭相關(guān)脈沖響應(yīng)函數(shù)hrir數(shù)據(jù)與單聲道白噪聲信號(hào)卷積生成的方位已知的雙耳信號(hào)，聲源方位角θ定義為方向矢量在水平面的投影與中垂面的夾角，其范圍為[-90°,90°]，間隔為5°；

1.2)對(duì)已知方位信息的雙耳白噪聲信號(hào)進(jìn)行預(yù)處理，所述預(yù)處理過程包括幅度歸一化處理、分幀加窗，得到分幀后的單幀雙耳聲信號(hào)；

幅度歸一化方法為：

xl＝xl/maxvalue

xr＝xr/maxvalue

其中xl和xr分別表示左耳聲信號(hào)和右耳聲信號(hào)；maxvalue＝max(|xl|,|xr|)表示左耳、右耳聲信號(hào)幅度的最大值。

分幀加窗使用漢明窗對(duì)分幀后的語音信號(hào)進(jìn)行加窗處理，加窗后的第τ幀信號(hào)可以表示為：

xl(τ,n)＝wh(n)xl(τn+n)0≤n＜n

xr(τ,n)＝wh(n)xr(τn+n)0≤n＜n

其中xl(τ,n)、xr(τ,n)分別表示第τ幀的左、右耳聲信號(hào)；n為一幀采樣數(shù)據(jù)長度。

1.3)對(duì)步驟1.2)中得到的單幀雙耳語音信號(hào)進(jìn)行互相關(guān)函數(shù)運(yùn)算，利用互相關(guān)函數(shù)計(jì)算單幀信號(hào)的耳間時(shí)間差itd估計(jì)值。同一方位所有幀itd估計(jì)值的均值作為該方位的itd訓(xùn)練值，記為δ(θ)。

建立方位角θ的itd模型的方法如下：

第τ幀信號(hào)的itd值為：

將該θ方位的雙耳白噪聲信號(hào)對(duì)應(yīng)所有幀的itdτ求均值δ(θ)，作為θ方位的訓(xùn)練itd參數(shù)：

其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)，

這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。

1.4)對(duì)步驟1.1)中得到的單幀雙耳語音信號(hào)進(jìn)行短時(shí)傅里葉變換，將其變換到頻域，計(jì)算左耳聲信號(hào)和右耳聲信號(hào)在每個(gè)頻點(diǎn)幅度譜的比值，即耳間強(qiáng)度差iid矢量，同一方位所有幀iid估計(jì)值的均值作為該方位的iid訓(xùn)練值，記為α(θ,ω)，ω表示傅里葉變換的頻譜。

建立方位角θ的iid模型的方法如下：

第τ幀信號(hào)的iid值為：

其中，xl(τ,ω)和xr(τ,ω)分別xl(τ,m)、xr(τ,m)的頻域表示，即短時(shí)傅里葉變換：

其中x(τ,n)表示第τ幀聲信號(hào)，分別對(duì)左、右耳聲信號(hào)進(jìn)行傅里葉變換；ω表示角頻率矢量，范圍為[0,2π]，間隔為2π/512；

將該θ方位的雙耳白噪聲信號(hào)所有幀的iid(τ,ω)求均值α(θ,ω)，作為θ方位的訓(xùn)練iid參數(shù)：

其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)，

這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。

2)基于臨界頻帶和方位信息的雙耳混合語音信號(hào)分離階段：

2.1)測試過程中的雙耳混合語音信號(hào)，包含多個(gè)聲源，且每個(gè)聲源對(duì)應(yīng)不同的方位。雙耳混合語音信號(hào)進(jìn)行預(yù)處理，包括幅度歸一化處理、分幀加窗；

2.2)對(duì)分幀之后的雙耳混合聲信號(hào)進(jìn)行傅里葉變換，基于臨界頻帶的頻率范圍，對(duì)頻域進(jìn)行子帶劃分，得到分幀后的子帶信號(hào)；

子帶劃分的的方法如下：

對(duì)步驟2.1)所得的多幀信號(hào)按幀進(jìn)行短時(shí)傅里葉變換，轉(zhuǎn)換到時(shí)頻域，獲得雙耳聲信號(hào)時(shí)頻域的分幀信號(hào)xl(τ,ω)和xr(τ,ω)。

同時(shí)根據(jù)臨界頻帶的劃分方法，對(duì)頻點(diǎn)進(jìn)行進(jìn)行子帶劃分：

其中c表示臨界頻帶的個(gè)數(shù)，ωc_low、ωc_high分別表示第c個(gè)臨界頻帶的低頻和高頻范圍。

2.3)根據(jù)混合聲源信號(hào)包含的聲源個(gè)數(shù)和方位信息，以及步驟1.3)和步驟1.4)建立的方位聲信號(hào)itd、iid參數(shù)，在步驟2.2)得到的每幀、每個(gè)臨界頻帶內(nèi)，基于左、右耳聲信號(hào)的相似度，進(jìn)行聲源的分類；

2.4)對(duì)步驟2.3)所得的臨界頻帶分類結(jié)果與步驟2.1)中獲得的分幀后的時(shí)頻信號(hào)相乘，獲得每個(gè)聲源所對(duì)應(yīng)的時(shí)頻域信號(hào)；

2.5)對(duì)步驟2.4)所得的每個(gè)聲源對(duì)應(yīng)的時(shí)頻域信號(hào)進(jìn)行傅里葉逆變換，轉(zhuǎn)換為時(shí)域信號(hào)，進(jìn)行去加窗，合成為每個(gè)聲源的分離語音。

有益效果：本發(fā)明與現(xiàn)有的基于頻點(diǎn)的語音分離技術(shù)相比，本發(fā)明基于人耳聽覺系統(tǒng)的分頻處理機(jī)制，結(jié)合人耳的聽覺掩蔽效應(yīng)，在定位階段準(zhǔn)確獲取了聲源方位后，對(duì)每一幀內(nèi)不同子帶進(jìn)行分離，將聲源定位和臨界頻帶分離技術(shù)相結(jié)合，在多個(gè)說話人分離方面，其分離性能：snr(sourcetonoiseratio)、sdr(sourcetodistortionratio)、sar(sourcestoartifactsratio)、pesq(perceptualevaluationofspeechquality)得到有效提高。

附圖說明

圖1為本發(fā)明聲源定位和語音分離的平面空間示意圖；

圖2為本發(fā)明系統(tǒng)框圖

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說明。

本發(fā)明先進(jìn)行數(shù)據(jù)訓(xùn)練，將各方位耳間時(shí)間差itd(interauraltimedifference)和耳間強(qiáng)度差iid(interauralintensitydifference)的均值作為聲源方位的定位特征線索，建立方位映射模型；實(shí)際聲源定位時(shí)，根據(jù)雙耳混合聲信號(hào)所有幀方位的直方圖，估計(jì)最終的聲源個(gè)數(shù)及方位。在聲源分離階段，首先對(duì)雙耳混合聲信號(hào)進(jìn)行基于臨界頻帶的子帶劃分，結(jié)合語音定位后的方位信息，在每一個(gè)臨界頻帶內(nèi)對(duì)頻域信號(hào)進(jìn)行分類，最后通過傅里葉逆變換將時(shí)頻域上各聲源的時(shí)頻點(diǎn)恢復(fù)到時(shí)域。

圖1為本發(fā)明聲源定位和語音分離的平面空間示意圖，以2個(gè)聲源為例。2個(gè)麥克風(fēng)位于雙耳處，在本發(fā)明中，聲源空間位置由聲源的方位角θ表示，方向角-180°≤θ≤180°為方向矢量在水平面的投影與中垂面的夾角。水平面上，θ＝0°表示正前方，沿順時(shí)針方向θ＝90°、180°和-90°分別表示正右方、正后方、正左方。圖1以2個(gè)聲源(本實(shí)施例的聲源為說話人發(fā)出的聲音)為例，其方向角分別為-30°、30°。

圖2為本發(fā)明的系統(tǒng)框圖，本發(fā)明方法包括模型訓(xùn)練、時(shí)頻變換、臨界頻帶劃分和子帶的聲源分類，下面結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的具體實(shí)施方式進(jìn)行詳細(xì)說明：

步驟1)數(shù)據(jù)訓(xùn)練：

1.1)圖2給出整體系統(tǒng)框圖中，在訓(xùn)練階段，與頭相關(guān)傳遞函數(shù)hrtf(headrelatedtransferfunction)，對(duì)應(yīng)時(shí)域的與頭相關(guān)沖激響應(yīng)函數(shù)hrir(headrelatedimpulseresponse)用于生成特定方位的雙耳聲信號(hào)。本發(fā)明使用麻省理工學(xué)院媒體實(shí)驗(yàn)室測量的hrir數(shù)據(jù)，將θ＝-90°～90°(間隔5°)的hrir數(shù)據(jù)與白噪聲卷積生成對(duì)應(yīng)方位的雙耳聲信號(hào)。

1.2)對(duì)給定方位θ的雙耳白噪聲信號(hào)進(jìn)行預(yù)處理，本方法的預(yù)處理包括：幅度歸一化、分幀及加窗。

幅度歸一化方法為：

xl＝xl/maxvalue

xr＝xr/maxvalue

其中xl和xr分別表示左耳聲信號(hào)和右耳聲信號(hào)；maxvalue＝max(|xl|,|xr|)表示左耳、右耳聲信號(hào)幅度的最大值。

本實(shí)施例使用漢明窗對(duì)分幀后的語音信號(hào)進(jìn)行加窗處理，加窗后的第τ幀信號(hào)可以表示為：

xl(τ,n)＝wh(n)xl(τn+n)0≤n＜n

xr(τ,n)＝wh(n)xr(τn+n)0≤n＜n

其中xl(τ,n)、xr(τ,n)分別表示第τ幀的左、右耳聲信號(hào)；n為一幀采樣數(shù)據(jù)長度，本實(shí)施例中，語音信號(hào)采樣率為16khz，幀長為32ms，幀移為16ms，這樣n＝512；wh(n)為漢明窗窗函數(shù)，表達(dá)式為：

1.3)建立方位角θ的itd模型。

第τ幀信號(hào)的itd值為：

將該θ方位的雙耳白噪聲信號(hào)對(duì)應(yīng)所有幀的itdτ求均值δ(θ)，作為θ方位的訓(xùn)練itd參數(shù)：

其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)。

這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。

1.4)建立方位角θ的iid模型：

第τ幀信號(hào)的iid值為：

其中，xl(τ,ω)和xr(τ,ω)分別xl(τ,m)、xr(τ,m)的頻域表示，即短時(shí)傅里葉變換：

其中x(τ,n)表示第τ幀聲信號(hào)，分別對(duì)左、右耳聲信號(hào)進(jìn)行傅里葉變換；ω表示角頻率矢量，范圍為[0,2π]，間隔為2π/512。

將該θ方位的雙耳白噪聲信號(hào)所有幀的iid(τ,ω)求均值α(θ,ω)，作為θ方位的訓(xùn)練iid參數(shù)：

其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)。

這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。

步驟2)基于臨界頻帶和方位信息的雙耳混合聲信號(hào)分離階段。

2.1)對(duì)應(yīng)圖1中的預(yù)處理模塊，對(duì)包含方位不同的多個(gè)聲源的雙耳混合聲信號(hào)進(jìn)行與上述步驟1.2)中相同的預(yù)處理，包括幅度歸一化、分幀和加窗，采取幀長為32ms，幀移為16ms，加漢明窗。

2.2)對(duì)應(yīng)圖1中的頻域變換，對(duì)步驟2.1)所得的多幀信號(hào)按幀進(jìn)行短時(shí)傅里葉變換，轉(zhuǎn)換到時(shí)頻域，獲得雙耳聲信號(hào)時(shí)頻域的分幀信號(hào)xl(τ,ω)和xr(τ,ω)。

同時(shí)根據(jù)臨界頻帶的劃分方法，對(duì)頻點(diǎn)進(jìn)行子帶劃分：

其中c表示臨界頻帶的個(gè)數(shù)，ωc_low、ωc_high分別表示第c個(gè)臨界頻帶的低頻和高頻范圍。

臨界頻帶的劃分范圍，即每個(gè)臨界頻帶的低頻、高頻和帶寬如下表所示：

2.3)對(duì)應(yīng)圖1中的基于空間方位的子帶分類。這里我們假設(shè)已知雙耳混合語音信號(hào)中包含的聲源個(gè)數(shù)和對(duì)應(yīng)的空間方位角。目前有不少算法通過雙耳聲信號(hào)對(duì)聲源的個(gè)數(shù)和方位信息進(jìn)行估計(jì)，這里不對(duì)聲源定位進(jìn)行描述，也同樣不對(duì)聲源定位的算法進(jìn)行限制。只討論在聲源定位之后，如何根據(jù)不同聲源的空間方位信息進(jìn)行分離。

根據(jù)人耳聽覺系統(tǒng)的掩蔽效應(yīng)，通常在某一幀的某個(gè)臨界頻帶內(nèi)，只有一個(gè)聲源信號(hào)占主導(dǎo)，這樣在基于空間方位的語音分離，利用耳間時(shí)間差iid與耳間強(qiáng)度差itd為空間線索，通過兩個(gè)聲道間的最大相似度計(jì)算掩膜函數(shù)，在每一臨界頻帶內(nèi)進(jìn)行聲源的分類，這里我們假設(shè)雙耳混合聲信號(hào)中包含l個(gè)聲源，每個(gè)聲源的方位角θl(1≤l≤l)：

其中xl(τ,ω)、xr(τ,ω)分別為第τ幀的左、右耳頻域信號(hào)，ωc表示第c個(gè)臨界頻帶的頻譜范圍；θl為第l個(gè)聲源對(duì)應(yīng)的方位角；α(θl,ω)為第l個(gè)聲源對(duì)應(yīng)空間方位θl在ω頻點(diǎn)上的iid參數(shù)，δ(θl)為第l個(gè)聲源對(duì)應(yīng)方位的itd參數(shù)。

j(τ,c)實(shí)際上是在每一個(gè)臨界頻帶內(nèi)利用方位信息對(duì)聲源進(jìn)行了分類。

隨即，對(duì)每個(gè)聲源所對(duì)應(yīng)的臨界頻帶進(jìn)行二進(jìn)制掩碼標(biāo)記：

這樣ml(τ,ω)表示第l個(gè)聲源在第c個(gè)臨界頻帶內(nèi)的二進(jìn)制掩膜。

2.4)根據(jù)二進(jìn)制掩碼，對(duì)每幀、每個(gè)頻點(diǎn)的雙耳聲信號(hào)進(jìn)行分類，得到第l個(gè)聲源對(duì)應(yīng)的時(shí)頻點(diǎn)信號(hào)：

其中表示第l個(gè)聲源第τ幀的頻域數(shù)據(jù)。

這里我們用左耳聲信號(hào)和掩碼相乘，得到各個(gè)聲源的時(shí)頻數(shù)據(jù)，實(shí)際上也可以利用右耳聲信號(hào)得到各個(gè)聲源的時(shí)頻數(shù)據(jù)。

2.5)對(duì)應(yīng)圖1中的時(shí)頻域逆變換，對(duì)分離后的第l個(gè)聲源的頻域信號(hào)進(jìn)行逆短時(shí)傅里葉變換，得到聲源l的第τ幀時(shí)域信號(hào)

轉(zhuǎn)換為時(shí)域信號(hào)后，進(jìn)行去加窗，去加窗后的第τ幀信號(hào)可以表示為：

其中wh(m)為上文中漢明窗。

將去加窗后的各幀語音進(jìn)行重疊相加，從而得到混合聲源信號(hào)分離后的第l個(gè)聲源信號(hào)sl，從而實(shí)現(xiàn)不同方位聲源信號(hào)的分離。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出：對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：談雅文;湯一彬;陳秉巖;高遠(yuǎn)
技術(shù)所有人：河海大學(xué)常州校區(qū)
我是此專利的發(fā)明人

上一篇：一種烘包槍的制作方法與工藝
上一篇：帶溝槽式感應(yīng)器的澆包的制作方法與工藝

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

分離式雙耳藍(lán)牙耳機(jī)相關(guān)技術(shù)

雙耳高頻平均聽閾標(biāo)準(zhǔn)相關(guān)技術(shù)

雙耳高頻平均聽閾相關(guān)技術(shù)

雙耳高頻聽力損失相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于臨界頻帶的雙耳語音分離方法與流程