本發(fā)明涉及聲源定位和語音分離領(lǐng)域,具體涉及一種基于臨界頻帶的雙耳語音分離方法。
背景技術(shù):
語音定位和分離技術(shù)是語音信號(hào)處理系統(tǒng)的前端,其性能對(duì)整個(gè)語音信號(hào)系統(tǒng)影響非常大。從數(shù)字通信時(shí)代開始,語音編解碼、語音定位、語音分離、語音增強(qiáng)等語音處理技術(shù)都得到了迅速的發(fā)展,特別在當(dāng)前的互聯(lián)網(wǎng)浪潮中,語音助手將語音信號(hào)處理推向了一個(gè)新的高度。
未來多模態(tài)人機(jī)交互的發(fā)展,人機(jī)對(duì)話和語音識(shí)別離不開語音信號(hào)處理的研究和發(fā)展,所以語音分離技術(shù)作為語音處理系統(tǒng)的前端,直接關(guān)系到整個(gè)語音系統(tǒng)的性能和效果。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于臨界頻帶的雙耳語音分離方法,利用人耳聽覺系統(tǒng)的分頻處理機(jī)制,結(jié)合人耳的聽覺掩蔽效應(yīng),模擬人耳的聽覺特征,基于臨界頻帶劃分,對(duì)每一幀信號(hào)劃分不同的子帶獲取準(zhǔn)確的混合矩陣進(jìn)行語音分離,改進(jìn)了現(xiàn)有技術(shù)的不足。
技術(shù)方案:一種基于臨界頻帶的雙耳語音分離方法,其特征在于,該方法包括以下步驟:
1)參數(shù)訓(xùn)練階段:
1.1)使用具有方向性的雙耳白噪聲信號(hào)進(jìn)行訓(xùn)練,所述雙耳白噪聲信號(hào)為與頭相關(guān)脈沖響應(yīng)函數(shù)hrir數(shù)據(jù)與單聲道白噪聲信號(hào)卷積生成的方位已知的雙耳信號(hào),聲源方位角θ定義為方向矢量在水平面的投影與中垂面的夾角,其范圍為[-90°,90°],間隔為5°;
1.2)對(duì)已知方位信息的雙耳白噪聲信號(hào)進(jìn)行預(yù)處理,所述預(yù)處理過程包括幅度歸一化處理、分幀加窗,得到分幀后的單幀雙耳聲信號(hào);
幅度歸一化方法為:
xl=xl/maxvalue
xr=xr/maxvalue
其中xl和xr分別表示左耳聲信號(hào)和右耳聲信號(hào);maxvalue=max(|xl|,|xr|)表示左耳、右耳聲信號(hào)幅度的最大值。
分幀加窗使用漢明窗對(duì)分幀后的語音信號(hào)進(jìn)行加窗處理,加窗后的第τ幀信號(hào)可以表示為:
xl(τ,n)=wh(n)xl(τn+n)0≤n<n
xr(τ,n)=wh(n)xr(τn+n)0≤n<n
其中xl(τ,n)、xr(τ,n)分別表示第τ幀的左、右耳聲信號(hào);n為一幀采樣數(shù)據(jù)長度。
1.3)對(duì)步驟1.2)中得到的單幀雙耳語音信號(hào)進(jìn)行互相關(guān)函數(shù)運(yùn)算,利用互相關(guān)函數(shù)計(jì)算單幀信號(hào)的耳間時(shí)間差itd估計(jì)值。同一方位所有幀itd估計(jì)值的均值作為該方位的itd訓(xùn)練值,記為δ(θ)。
建立方位角θ的itd模型的方法如下:
第τ幀信號(hào)的itd值為:
將該θ方位的雙耳白噪聲信號(hào)對(duì)應(yīng)所有幀的itdτ求均值δ(θ),作為θ方位的訓(xùn)練itd參數(shù):
其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù),
這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。
1.4)對(duì)步驟1.1)中得到的單幀雙耳語音信號(hào)進(jìn)行短時(shí)傅里葉變換,將其變換到頻域,計(jì)算左耳聲信號(hào)和右耳聲信號(hào)在每個(gè)頻點(diǎn)幅度譜的比值,即耳間強(qiáng)度差iid矢量,同一方位所有幀iid估計(jì)值的均值作為該方位的iid訓(xùn)練值,記為α(θ,ω),ω表示傅里葉變換的頻譜。
建立方位角θ的iid模型的方法如下:
第τ幀信號(hào)的iid值為:
其中,xl(τ,ω)和xr(τ,ω)分別xl(τ,m)、xr(τ,m)的頻域表示,即短時(shí)傅里葉變換:
其中x(τ,n)表示第τ幀聲信號(hào),分別對(duì)左、右耳聲信號(hào)進(jìn)行傅里葉變換;ω表示角頻率矢量,范圍為[0,2π],間隔為2π/512;
將該θ方位的雙耳白噪聲信號(hào)所有幀的iid(τ,ω)求均值α(θ,ω),作為θ方位的訓(xùn)練iid參數(shù):
其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù),
這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。
2)基于臨界頻帶和方位信息的雙耳混合語音信號(hào)分離階段:
2.1)測試過程中的雙耳混合語音信號(hào),包含多個(gè)聲源,且每個(gè)聲源對(duì)應(yīng)不同的方位。雙耳混合語音信號(hào)進(jìn)行預(yù)處理,包括幅度歸一化處理、分幀加窗;
2.2)對(duì)分幀之后的雙耳混合聲信號(hào)進(jìn)行傅里葉變換,基于臨界頻帶的頻率范圍,對(duì)頻域進(jìn)行子帶劃分,得到分幀后的子帶信號(hào);
子帶劃分的的方法如下:
對(duì)步驟2.1)所得的多幀信號(hào)按幀進(jìn)行短時(shí)傅里葉變換,轉(zhuǎn)換到時(shí)頻域,獲得雙耳聲信號(hào)時(shí)頻域的分幀信號(hào)xl(τ,ω)和xr(τ,ω)。
同時(shí)根據(jù)臨界頻帶的劃分方法,對(duì)頻點(diǎn)進(jìn)行進(jìn)行子帶劃分:
其中c表示臨界頻帶的個(gè)數(shù),ωc_low、ωc_high分別表示第c個(gè)臨界頻帶的低頻和高頻范圍。
2.3)根據(jù)混合聲源信號(hào)包含的聲源個(gè)數(shù)和方位信息,以及步驟1.3)和步驟1.4)建立的方位聲信號(hào)itd、iid參數(shù),在步驟2.2)得到的每幀、每個(gè)臨界頻帶內(nèi),基于左、右耳聲信號(hào)的相似度,進(jìn)行聲源的分類;
2.4)對(duì)步驟2.3)所得的臨界頻帶分類結(jié)果與步驟2.1)中獲得的分幀后的時(shí)頻信號(hào)相乘,獲得每個(gè)聲源所對(duì)應(yīng)的時(shí)頻域信號(hào);
2.5)對(duì)步驟2.4)所得的每個(gè)聲源對(duì)應(yīng)的時(shí)頻域信號(hào)進(jìn)行傅里葉逆變換,轉(zhuǎn)換為時(shí)域信號(hào),進(jìn)行去加窗,合成為每個(gè)聲源的分離語音。
有益效果:本發(fā)明與現(xiàn)有的基于頻點(diǎn)的語音分離技術(shù)相比,本發(fā)明基于人耳聽覺系統(tǒng)的分頻處理機(jī)制,結(jié)合人耳的聽覺掩蔽效應(yīng),在定位階段準(zhǔn)確獲取了聲源方位后,對(duì)每一幀內(nèi)不同子帶進(jìn)行分離,將聲源定位和臨界頻帶分離技術(shù)相結(jié)合,在多個(gè)說話人分離方面,其分離性能:snr(sourcetonoiseratio)、sdr(sourcetodistortionratio)、sar(sourcestoartifactsratio)、pesq(perceptualevaluationofspeechquality)得到有效提高。
附圖說明
圖1為本發(fā)明聲源定位和語音分離的平面空間示意圖;
圖2為本發(fā)明系統(tǒng)框圖
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作更進(jìn)一步的說明。
本發(fā)明先進(jìn)行數(shù)據(jù)訓(xùn)練,將各方位耳間時(shí)間差itd(interauraltimedifference)和耳間強(qiáng)度差iid(interauralintensitydifference)的均值作為聲源方位的定位特征線索,建立方位映射模型;實(shí)際聲源定位時(shí),根據(jù)雙耳混合聲信號(hào)所有幀方位的直方圖,估計(jì)最終的聲源個(gè)數(shù)及方位。在聲源分離階段,首先對(duì)雙耳混合聲信號(hào)進(jìn)行基于臨界頻帶的子帶劃分,結(jié)合語音定位后的方位信息,在每一個(gè)臨界頻帶內(nèi)對(duì)頻域信號(hào)進(jìn)行分類,最后通過傅里葉逆變換將時(shí)頻域上各聲源的時(shí)頻點(diǎn)恢復(fù)到時(shí)域。
圖1為本發(fā)明聲源定位和語音分離的平面空間示意圖,以2個(gè)聲源為例。2個(gè)麥克風(fēng)位于雙耳處,在本發(fā)明中,聲源空間位置由聲源的方位角θ表示,方向角-180°≤θ≤180°為方向矢量在水平面的投影與中垂面的夾角。水平面上,θ=0°表示正前方,沿順時(shí)針方向θ=90°、180°和-90°分別表示正右方、正后方、正左方。圖1以2個(gè)聲源(本實(shí)施例的聲源為說話人發(fā)出的聲音)為例,其方向角分別為-30°、30°。
圖2為本發(fā)明的系統(tǒng)框圖,本發(fā)明方法包括模型訓(xùn)練、時(shí)頻變換、臨界頻帶劃分和子帶的聲源分類,下面結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的具體實(shí)施方式進(jìn)行詳細(xì)說明:
步驟1)數(shù)據(jù)訓(xùn)練:
1.1)圖2給出整體系統(tǒng)框圖中,在訓(xùn)練階段,與頭相關(guān)傳遞函數(shù)hrtf(headrelatedtransferfunction),對(duì)應(yīng)時(shí)域的與頭相關(guān)沖激響應(yīng)函數(shù)hrir(headrelatedimpulseresponse)用于生成特定方位的雙耳聲信號(hào)。本發(fā)明使用麻省理工學(xué)院媒體實(shí)驗(yàn)室測量的hrir數(shù)據(jù),將θ=-90°~90°(間隔5°)的hrir數(shù)據(jù)與白噪聲卷積生成對(duì)應(yīng)方位的雙耳聲信號(hào)。
1.2)對(duì)給定方位θ的雙耳白噪聲信號(hào)進(jìn)行預(yù)處理,本方法的預(yù)處理包括:幅度歸一化、分幀及加窗。
幅度歸一化方法為:
xl=xl/maxvalue
xr=xr/maxvalue
其中xl和xr分別表示左耳聲信號(hào)和右耳聲信號(hào);maxvalue=max(|xl|,|xr|)表示左耳、右耳聲信號(hào)幅度的最大值。
本實(shí)施例使用漢明窗對(duì)分幀后的語音信號(hào)進(jìn)行加窗處理,加窗后的第τ幀信號(hào)可以表示為:
xl(τ,n)=wh(n)xl(τn+n)0≤n<n
xr(τ,n)=wh(n)xr(τn+n)0≤n<n
其中xl(τ,n)、xr(τ,n)分別表示第τ幀的左、右耳聲信號(hào);n為一幀采樣數(shù)據(jù)長度,本實(shí)施例中,語音信號(hào)采樣率為16khz,幀長為32ms,幀移為16ms,這樣n=512;wh(n)為漢明窗窗函數(shù),表達(dá)式為:
1.3)建立方位角θ的itd模型。
第τ幀信號(hào)的itd值為:
將該θ方位的雙耳白噪聲信號(hào)對(duì)應(yīng)所有幀的itdτ求均值δ(θ),作為θ方位的訓(xùn)練itd參數(shù):
其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)。
這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。
1.4)建立方位角θ的iid模型:
第τ幀信號(hào)的iid值為:
其中,xl(τ,ω)和xr(τ,ω)分別xl(τ,m)、xr(τ,m)的頻域表示,即短時(shí)傅里葉變換:
其中x(τ,n)表示第τ幀聲信號(hào),分別對(duì)左、右耳聲信號(hào)進(jìn)行傅里葉變換;ω表示角頻率矢量,范圍為[0,2π],間隔為2π/512。
將該θ方位的雙耳白噪聲信號(hào)所有幀的iid(τ,ω)求均值α(θ,ω),作為θ方位的訓(xùn)練iid參數(shù):
其中framenum表示θ方位的雙耳白噪聲信號(hào)分幀后的總幀數(shù)。
這樣建立了方位角θ與訓(xùn)練iid參數(shù)之間的模型。
步驟2)基于臨界頻帶和方位信息的雙耳混合聲信號(hào)分離階段。
2.1)對(duì)應(yīng)圖1中的預(yù)處理模塊,對(duì)包含方位不同的多個(gè)聲源的雙耳混合聲信號(hào)進(jìn)行與上述步驟1.2)中相同的預(yù)處理,包括幅度歸一化、分幀和加窗,采取幀長為32ms,幀移為16ms,加漢明窗。
2.2)對(duì)應(yīng)圖1中的頻域變換,對(duì)步驟2.1)所得的多幀信號(hào)按幀進(jìn)行短時(shí)傅里葉變換,轉(zhuǎn)換到時(shí)頻域,獲得雙耳聲信號(hào)時(shí)頻域的分幀信號(hào)xl(τ,ω)和xr(τ,ω)。
同時(shí)根據(jù)臨界頻帶的劃分方法,對(duì)頻點(diǎn)進(jìn)行子帶劃分:
其中c表示臨界頻帶的個(gè)數(shù),ωc_low、ωc_high分別表示第c個(gè)臨界頻帶的低頻和高頻范圍。
臨界頻帶的劃分范圍,即每個(gè)臨界頻帶的低頻、高頻和帶寬如下表所示:
2.3)對(duì)應(yīng)圖1中的基于空間方位的子帶分類。這里我們假設(shè)已知雙耳混合語音信號(hào)中包含的聲源個(gè)數(shù)和對(duì)應(yīng)的空間方位角。目前有不少算法通過雙耳聲信號(hào)對(duì)聲源的個(gè)數(shù)和方位信息進(jìn)行估計(jì),這里不對(duì)聲源定位進(jìn)行描述,也同樣不對(duì)聲源定位的算法進(jìn)行限制。只討論在聲源定位之后,如何根據(jù)不同聲源的空間方位信息進(jìn)行分離。
根據(jù)人耳聽覺系統(tǒng)的掩蔽效應(yīng),通常在某一幀的某個(gè)臨界頻帶內(nèi),只有一個(gè)聲源信號(hào)占主導(dǎo),這樣在基于空間方位的語音分離,利用耳間時(shí)間差iid與耳間強(qiáng)度差itd為空間線索,通過兩個(gè)聲道間的最大相似度計(jì)算掩膜函數(shù),在每一臨界頻帶內(nèi)進(jìn)行聲源的分類,這里我們假設(shè)雙耳混合聲信號(hào)中包含l個(gè)聲源,每個(gè)聲源的方位角θl(1≤l≤l):
其中xl(τ,ω)、xr(τ,ω)分別為第τ幀的左、右耳頻域信號(hào),ωc表示第c個(gè)臨界頻帶的頻譜范圍;θl為第l個(gè)聲源對(duì)應(yīng)的方位角;α(θl,ω)為第l個(gè)聲源對(duì)應(yīng)空間方位θl在ω頻點(diǎn)上的iid參數(shù),δ(θl)為第l個(gè)聲源對(duì)應(yīng)方位的itd參數(shù)。
j(τ,c)實(shí)際上是在每一個(gè)臨界頻帶內(nèi)利用方位信息對(duì)聲源進(jìn)行了分類。
隨即,對(duì)每個(gè)聲源所對(duì)應(yīng)的臨界頻帶進(jìn)行二進(jìn)制掩碼標(biāo)記:
這樣ml(τ,ω)表示第l個(gè)聲源在第c個(gè)臨界頻帶內(nèi)的二進(jìn)制掩膜。
2.4)根據(jù)二進(jìn)制掩碼,對(duì)每幀、每個(gè)頻點(diǎn)的雙耳聲信號(hào)進(jìn)行分類,得到第l個(gè)聲源對(duì)應(yīng)的時(shí)頻點(diǎn)信號(hào):
其中
這里我們用左耳聲信號(hào)和掩碼相乘,得到各個(gè)聲源的時(shí)頻數(shù)據(jù),實(shí)際上也可以利用右耳聲信號(hào)得到各個(gè)聲源的時(shí)頻數(shù)據(jù)。
2.5)對(duì)應(yīng)圖1中的時(shí)頻域逆變換,對(duì)分離后的第l個(gè)聲源的頻域信號(hào)進(jìn)行逆短時(shí)傅里葉變換,得到聲源l的第τ幀時(shí)域信號(hào)
轉(zhuǎn)換為時(shí)域信號(hào)后,進(jìn)行去加窗,去加窗后的第τ幀信號(hào)可以表示為:
其中
將去加窗后的各幀語音進(jìn)行重疊相加,從而得到混合聲源信號(hào)分離后的第l個(gè)聲源信號(hào)sl,從而實(shí)現(xiàn)不同方位聲源信號(hào)的分離。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。