本發(fā)明涉及信號(hào)處理技術(shù)領(lǐng)域,尤其涉及一種語音信號(hào)處理方法及裝置。
背景技術(shù):
語音設(shè)備在采集語音信號(hào)時(shí),不可避免的會(huì)受到各種噪聲的干擾,常見的噪聲一般包括:混響噪聲和方向性干擾聲源噪聲,這些噪聲容易對(duì)目標(biāo)語音信號(hào)產(chǎn)生干擾,降低目標(biāo)語音信號(hào)的質(zhì)量。因此,語音信號(hào)的處理過程中,抑制混響噪聲和方向性干擾聲源噪聲尤為重要。
其中,定向拾音是常用的一種用于抑制方向性干擾聲源噪聲的技術(shù)。定向拾音是指按照聲音來源方向,在混雜的信號(hào)中進(jìn)行目標(biāo)信號(hào)的拾取,即只拾取特定方向傳播來的聲音信號(hào),衰減或屏蔽其他方向的噪聲和干擾信號(hào),從而達(dá)到目標(biāo)語音增強(qiáng)的效果。
現(xiàn)有的定向拾音算法,可以根據(jù)配置在電子終端中的多個(gè)傳聲器采集到的語音信號(hào)進(jìn)行目標(biāo)語音角度的估計(jì)(即目標(biāo)聲源的定位),然后根據(jù)估計(jì)的目標(biāo)語音角度,對(duì)目標(biāo)聲源進(jìn)行定向拾音。其中,上述定向拾音算法抑制方向性干擾聲源噪聲的效果很大程度上決定于電子終端中配置的傳聲器的數(shù)量和各個(gè)傳聲器之間的間距。具體的,電子終端中配置的傳聲器的數(shù)量越多、各個(gè)傳聲器之間的間距越大,則進(jìn)行目標(biāo)語音角度的估計(jì)得到的目標(biāo)語音角度則越準(zhǔn)確。
但是,現(xiàn)有的各種電子終端(如手機(jī))中的傳聲器數(shù)量有限(一般的手機(jī)中配置三個(gè)傳聲器)、且由于電子終端的體積有限,電子終端中配置的各個(gè)傳聲器之間的間距也較??;因此,采用現(xiàn)有的定向拾音算法不能準(zhǔn)確估計(jì)得到目標(biāo)聲源的入射角。并且,現(xiàn)有技術(shù)一般采用將主波束直接對(duì)準(zhǔn)估計(jì)得到的目標(biāo)聲源的入射角進(jìn)行定向拾音;因此,當(dāng)目標(biāo)聲源的入射角估計(jì)不準(zhǔn)確時(shí),不僅不能有效增強(qiáng)語音信號(hào),衰減或屏蔽其他方向的噪聲和干擾信號(hào),還會(huì)對(duì)語音信號(hào)產(chǎn)生損傷,造成語音信號(hào)的失真。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的實(shí)施例提供一種語音信號(hào)處理方法及裝置,可以提高目標(biāo)聲源的入射角的準(zhǔn)確性,從而有效增強(qiáng)語音信號(hào)。
為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
第一方面,提供一種語音信號(hào)處理方法,應(yīng)用于具有語音信號(hào)采集功能的電子終端,電子終端配置有至少三個(gè)傳聲器,至少三個(gè)傳聲器形成至少兩個(gè)傳聲器組合,至少兩個(gè)傳聲器組合中的每個(gè)傳聲器組合包括兩個(gè)傳聲器,每個(gè)傳聲器組合中包含的傳聲器與其他傳聲器組合中至少有一個(gè)傳聲器不同,該語音信號(hào)處理方法包括:確定出與至少三個(gè)傳聲器對(duì)應(yīng)的至少三個(gè)波束,至少三個(gè)波束中每個(gè)波束的波束方向固定,至少三個(gè)波束中每個(gè)波束的中心角用于表征該波束的波束方向;通過至少兩個(gè)傳聲器組合,確定當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角,并計(jì)算目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差;根據(jù)目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差,計(jì)算每個(gè)波束的保護(hù)角增益,其中,每個(gè)波束的保護(hù)角增益和目標(biāo)聲源的入射角與該波束的角度偏差與該波束的保護(hù)角增益成正比;根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益,計(jì)算語音信號(hào)的多波束加權(quán)增益;采用語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出。
本發(fā)明實(shí)施例提供的語音信號(hào)處理方法,通過至少兩個(gè)傳聲器組合進(jìn)行目標(biāo)聲源的入射角的定位,可以避免由于電子終端中的傳聲器數(shù)量有限、且各個(gè)傳聲器之間的間距也較小,采用現(xiàn)有的定向拾音算法不能較為準(zhǔn)確的估計(jì)目標(biāo)聲源的入射角的問題,可以較為準(zhǔn)確的估計(jì)目標(biāo)聲源的入射角。并且,在本方案中,還可以根據(jù)上述至少三個(gè)傳聲器確定至少三個(gè)固定波束,并分別計(jì)算至少三個(gè)固定波束的中心角與目標(biāo)聲源的入射角的角度偏差,然后采用計(jì)算得到的角度偏差計(jì)算語音信號(hào)的多波束加權(quán)增益,對(duì)語音信號(hào)進(jìn)行加權(quán)輸出。即本方案中可以通過固定角度的多波束輸出,而非現(xiàn)有技術(shù)中將主波束直接對(duì)準(zhǔn)估計(jì)得到的目標(biāo)聲源的入射角進(jìn)行定向拾音,如此不僅可以起到增強(qiáng)語音信號(hào),衰減或屏蔽其他方向的噪聲和干擾信號(hào)的作用,還可以提供一定的容錯(cuò)能力,即使上述估計(jì)的目標(biāo)語音角度不夠準(zhǔn)確,也不會(huì)對(duì)目標(biāo)語音信號(hào)產(chǎn)生損傷,造成目標(biāo)聲源的失真。
在一種可能的實(shí)現(xiàn)方式中,以上述電子終端配置有三個(gè)傳聲器(第一傳聲器、第二傳聲器和第三傳聲器)為例,第一傳聲器對(duì)應(yīng)第一波束,第二傳聲器對(duì)應(yīng)第二波束,第三傳聲器對(duì)應(yīng)第三波束,第一波束、第二波束和第三波束的波束方向固定。此處以計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的角度偏差為例,對(duì)上述“計(jì)算目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差”的方法進(jìn)行舉例說明:上述“計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的角度偏差”的方法可以包括:采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},計(jì)算目標(biāo)聲源的入射角θs(l)與第一波束的中心角φ1的角度偏差Δψ1。其中,由于本方案確定的目標(biāo)聲源的入射角的范圍是0°~360°,因此,如果直接計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的差值,作為目標(biāo)聲源的入射角與第一波束的中心角的角度偏差,則可能會(huì)存在由于目標(biāo)聲源的入射角位于第一象限(即目標(biāo)聲源的入射角為0°~90°),第一波束的中心角位于第四象限(即第一波束的中心角為270°~360°),而導(dǎo)致計(jì)算得到的角度偏差遠(yuǎn)大于其實(shí)際角度偏差。例如,假設(shè)目標(biāo)聲源的入射角為40°,第一波束的中心角為320°。直接計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的差值320°-40°=280°,目標(biāo)聲源的入射角與第一波束的中心角的角度偏差為280°;但是,此時(shí)目標(biāo)聲源的入射角與第一波束的中心角的實(shí)際角度偏差只有80°。而采用本方案,可以將|θs(l)-φ1|與360-|θs(l)-φ1|中的最小值作為目標(biāo)聲源的入射角與第一波束的中心角的實(shí)際角度偏差,可以避免上述計(jì)算得到的角度偏差遠(yuǎn)大于目標(biāo)聲源的入射角與第一波束的中心角實(shí)際角度偏差的問題,計(jì)算得到準(zhǔn)確的角度偏差。
在一種可能的實(shí)現(xiàn)方式中,上述“根據(jù)所述至少三個(gè)波束中每個(gè)波束的保護(hù)角增益,計(jì)算語音信號(hào)的多波束加權(quán)增益”的方法具體可以包括:根據(jù)目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差,計(jì)算至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值和對(duì)應(yīng)波束與目標(biāo)聲源的入射角的角度偏差成反比;根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益和至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,計(jì)算語音信號(hào)的多波束加權(quán)增益。優(yōu)選的,至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值之和為1。
例如,本發(fā)明實(shí)施例中可以采用計(jì)算語音信號(hào)的多波束加權(quán)增益Gdoa。其中,n用于表示至少三個(gè)波束的波束總數(shù),n≥3,Gi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益,wi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益的加權(quán)值。此處以n=3為例,則Gdoa=w1·G1+w2·G2+w3·G3。其中,G1用于表示第一波束的保護(hù)角增益,G2用于表示第二波束的保護(hù)角增益,G3用于表示第三波束的保護(hù)角增益。
本方案可以通過多波束加權(quán)的方式,先根據(jù)上述三個(gè)角度偏差計(jì)算得到的三個(gè)波束中每個(gè)波束的保護(hù)角增益,然后再根據(jù)每個(gè)角度偏差,分別計(jì)算至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,然后根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益和至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,計(jì)算語音信號(hào)的多波束加權(quán)增益。本方案中計(jì)算得到的語音信號(hào)的加權(quán)增益是根據(jù)多個(gè)方向的波束計(jì)算得到的多波束加權(quán)增益,采用該多波束加權(quán)增益進(jìn)行定向拾音時(shí),即使上述估計(jì)的目標(biāo)語音角度不夠準(zhǔn)確,也不會(huì)對(duì)目標(biāo)語音信號(hào)產(chǎn)生損傷,造成目標(biāo)聲源的失真。
在一種可能的實(shí)現(xiàn)方式中,上述“通過所述至少兩個(gè)傳聲器組合,確定當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角”的方法具體可以包括:根據(jù)所述第一傳聲器采集的語音信號(hào)和所述第二傳聲器采集的語音信號(hào),以及第一傳聲器和第二傳聲器之間的距離,計(jì)算第一目標(biāo)角θx(l),0≤θx(l)<180,第一目標(biāo)角度為目標(biāo)聲源的一估計(jì)入射角;根據(jù)第一傳聲器采集的語音信號(hào)和第三傳聲器采集的語音信號(hào),以及第一傳聲器和第三傳聲器之間的距離,計(jì)算第二目標(biāo)角θy(l),0≤θy(l)<180,第二目標(biāo)角度為目標(biāo)聲源的另一估計(jì)入射角;根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,當(dāng)前聲場(chǎng)在二維平面包括:第一象限、第二象限、第三象限和第四象限;根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),以及目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,計(jì)算目標(biāo)聲源的入射角θs(l)。其中,通過象限判斷的方法確定出目標(biāo)聲源的入射角θs(l),可以降低目標(biāo)聲源的入射角θs(l)的計(jì)算復(fù)雜度。
在一種可能的實(shí)現(xiàn)方式中,可以根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處的區(qū)間或者大小,確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限。具體的,上述“根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限”的方法可以包括:若0°≤θx(l)≤90°,且90°<θy(l)≤180°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第一象限;若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第二象限;若90°<θx(l)≤180°,且0°≤θy(l)≤90°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第三象限;若0°<θx(l)≤90°,且0°<θy(l)≤90°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第四象限。通過本方案,可以根據(jù)上述第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處的區(qū)間或者大小,準(zhǔn)確判斷出目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,進(jìn)而可以通過象限判斷的方法確定出目標(biāo)聲源的入射角θs(l),可以提高計(jì)算得到的目標(biāo)聲源的入射角θs(l)的準(zhǔn)確性。
在一種可能的實(shí)現(xiàn)方式中,上述“根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),以及目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,計(jì)算目標(biāo)聲源的入射角θs(l)”的方法可以包括:根據(jù)所述目標(biāo)聲源的入射角所處的象限,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和目標(biāo)聲源的入射角的第二分量θsy(l);采用計(jì)算目標(biāo)聲源的入射角θs(l)。
在一種可能的實(shí)現(xiàn)方式中,目標(biāo)聲源的入射角處于不同的象限時(shí),該目標(biāo)聲源的入射角的第一分量θsx(l)和目標(biāo)聲源的入射角的第二分量θsy(l)的計(jì)算方法則會(huì)相應(yīng)不同。具體的,上述“根據(jù)所述目標(biāo)聲源的入射角所處的象限,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和目標(biāo)聲源的入射角的第二分量θsy(l)”的方法可以為:若目標(biāo)聲源的入射角處于第一象限,則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第二象限,則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第三象限,則采用θsx(l)=θx(l)-90°,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第四象限,則采用θsx(l)=270°+θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)。本方案中,可以根據(jù)目標(biāo)聲源的入射角所處象限的不同,采用不同的方法計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和第二分量θsy(l),然后再計(jì)算第一分量θsx(l)和第二分量θsy(l)的平均值,便可以得到目標(biāo)聲源的入射角θs(l)。其中,在目標(biāo)聲源的入射角處于不同象限時(shí),采用不同的方法計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和第二分量θsy(l),可以提高計(jì)算得到的目標(biāo)聲源的入射角θs(l)的準(zhǔn)確性。
在一種可能的實(shí)現(xiàn)方式中,以上述電子終端配置有三個(gè)傳聲器為例,則上述至少三個(gè)波束包括第一波束、第二波束和第三波束。本發(fā)明實(shí)施例這里以第一波束為例,對(duì)上述“根據(jù)計(jì)算得到的至少三個(gè)角度偏差中的每個(gè)角度偏差,計(jì)算該角度偏差對(duì)應(yīng)波束的保護(hù)角增益”的方法進(jìn)行說明。具體的,“根據(jù)目標(biāo)聲源的入射角與第一波束的中心角的角度偏差,計(jì)算第一波束的保護(hù)角增益”的方法可以包括:采用計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)與第一波束的中心角φ1的差值采用計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)與第一波束的中心角φ1的差值若第一分量和第二分量滿足第一條件,則采用以下公式1計(jì)算用于表征角度偏差Δψ1的大小的等效信噪比γd;采用以下公式2,計(jì)算第一波束的保護(hù)角增益G1。
其中,公式1為公式2為角度偏差Δψ1隨等效信噪比γd的增大而變小,c0為常數(shù)。
在一種可能的實(shí)現(xiàn)方式中,上述第一分量和第二分量滿足第一條件具體可以為:第一分量大于第一閾值θth,且第二分量大于第一閾值θth。其中,上述第一閾值θth為本發(fā)明實(shí)施例預(yù)先設(shè)置或者預(yù)先配置的角度閾值。
在一種可能的實(shí)現(xiàn)方式中,第一分量和第二分量可能并不滿足上述第一條件,即第一分量小于或等于第一閾值θth,和/或第二分量小于或等于第一閾值θth。此時(shí),則不能夠采用上述方法計(jì)算第一波束的保護(hù)角增益,而是直接確定上述第一波束的保護(hù)角增益G1=1。具體的,本發(fā)明實(shí)施例的方法還可以包括:若上述第一分量和第二分量不滿足上述第一條件,則確定上述第一波束的保護(hù)角增益G1=1。
本方案中,在計(jì)算得到的目標(biāo)聲源的入射角的第一分量θsx(l)和第二分量θsy(l)后,無論計(jì)算得到的第一分量θsx(l)和第二分量θsy(l)是否滿足上述第一條件,都可以計(jì)算得到對(duì)應(yīng)的保護(hù)角增益。
在一種可能的實(shí)現(xiàn)方式中,上述“采用第一傳聲器和第二傳聲器計(jì)算第l幀的第一目標(biāo)角θx(l)”的方法可以包括:將至少三個(gè)傳聲器采集的語音信號(hào)的頻率范圍平均劃分為m個(gè)頻帶;根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第k個(gè)頻點(diǎn)的相干函數(shù)Γx=Γ12(k)、m個(gè)頻帶中第i個(gè)頻帶的頻帶選擇函數(shù)Hf-i(k)、預(yù)設(shè)修正函數(shù)Hs(k)、時(shí)域采樣頻率fs、空氣中的聲速c,以及第一傳聲器和第二傳聲器之間的距離d12,采用以下公式3、公式4和公式5計(jì)算第i個(gè)頻帶的目標(biāo)語音入射角度計(jì)算目標(biāo)聲源與噪聲信號(hào)的成分比重γg(k,l),并采用以下公式6計(jì)算第一平滑角度因子αf(k,l);若第一平滑角度因子αf(k,l)大于或等于第二閾值δth,則采用以下公式7計(jì)算第l幀的第一目標(biāo)角θx(l);若第一平滑角度因子
αf(k,l)小于第二閾值δth,則第l幀的第一目標(biāo)角θx(l)等于θx(l-1);其中,
θx(l-1)為第l-1幀的第一目標(biāo)角,0≤θx(l-1)<180。
其中,公式3為公式4為公式5為該修正函數(shù)Hs(k)是根據(jù)第一傳聲器采集的語音信號(hào)x1(n)和第二傳聲器采集的語音信號(hào)x2(n)通過相干平滑變換SCOT得到的;公式6為公式7為為中的最小值。
在一種可能的實(shí)現(xiàn)方式中,上述第一波束、第二波束和第三波束中,相鄰波束的中心角之間的夾角相等,即第一波束、第二波束和第三波束中相鄰波束的中心角之間的夾角為120°。
在一種可能的實(shí)現(xiàn)方式中,本發(fā)明實(shí)施例不僅可以對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音,還可以在對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音之前,對(duì)傳聲器采集到的信號(hào)進(jìn)行去混響處理。具體的,在“采用語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出”之前,本發(fā)明實(shí)施例的方法還可以包括:計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l);采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。相應(yīng)的,上述“采用語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出”具體可以為:采用所述語音信號(hào)的多波束加權(quán)增益,對(duì)去混響語音信號(hào)進(jìn)行加權(quán)輸出。通過本方案,不僅可以對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音,還可以對(duì)傳聲器采集到的信號(hào)進(jìn)行去混響處理。即通過本方案,不僅可以抑制方向性干擾噪聲,還可以抑制混響噪聲。
在一種可能的實(shí)現(xiàn)方式中,上述“計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)”的方法具體可以包括:采用所述至少兩個(gè)傳聲器組合中任一傳聲器組合采集的語音信號(hào),計(jì)算該傳聲器組合(包括:第一傳聲器和第二傳聲器)CDR12(k,l),該CDR12(k,l)用于表征第k頻點(diǎn)的語音信號(hào)的相干性,該CDR12(k,l)與第k頻點(diǎn)的語音信號(hào)的相干性成正比;采用以下公式8計(jì)算混響聲抑制增益Gcdr(k,l)。
其中,公式8為可以想到的是,基于雙傳聲器的非方向相干混相比可以計(jì)算得到較為準(zhǔn)確的混響聲抑制增益,采用該混響聲抑制增益可以準(zhǔn)確的去除傳聲器采集的語音信號(hào)中的混響噪聲。
在一種可能的實(shí)現(xiàn)方式中,上述“采用第一傳聲器和第二傳聲器采集的語音信號(hào),計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)”的方法可以包括:采用以下公式9計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第k個(gè)頻點(diǎn)的相干函數(shù)Γn;采用以下公式10計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第l幀第k個(gè)頻點(diǎn)的相干函數(shù)Γx;采用以下公式11計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)。
其中,公式9為Γn=Γ12(k)=sinc(2·fk·d12/c),fk=k/N·fS;公式10為
公式11為或者,或者,
其中,fS用于表示時(shí)域采樣頻率,d12用于表示第一傳聲器和第二傳聲器之間的距離,c用于表示空氣中的聲速,N用于表示FFT的點(diǎn)數(shù);E{·}用于表示數(shù)學(xué)期望,*用于表示共軛運(yùn)算,用于表示取實(shí)部運(yùn)算;X1(k,l)為第一傳聲器采集到的時(shí)域語音信號(hào)x1(n)進(jìn)行STFT得到的頻域信號(hào),X2(k,l)為第二傳聲器采集到的時(shí)域語音信號(hào)x2(n)進(jìn)行STFT得到的頻域信號(hào)。
在一種可能的實(shí)現(xiàn)方式中,為了減少去混響過程中帶來的音樂噪聲,本發(fā)明實(shí)施例可以對(duì)上述混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益然后采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。具體的,在所述采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)之前,本發(fā)明實(shí)施例的方法還包括:對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益相應(yīng)的,上述“采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)”的方法具體可以為:采用平滑混響聲抑制增益對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。本方案中,可以在對(duì)語音信號(hào)進(jìn)行去混響處理之前,先對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,然后再采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,如此可以起到保護(hù)語音信號(hào)的作用,減少去混響過程中帶來的音樂噪聲。
在一種可能的實(shí)現(xiàn)方式中,上述“對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益”的方法具體可以包括:計(jì)算后驗(yàn)信噪比γ1(k,l),該后驗(yàn)信噪比γ1(k,l)為目標(biāo)聲源與混響噪聲的成分比重;若γ1(k,l)<αs(k,l-1),則采用以下公式12確定第二平滑角度因子αs(k,l);若γ1(k,l)≥αs(k,l-1),則采用以下公式13確定αs(k,l);采用以下公式14對(duì)Gcdr(k,l)進(jìn)行平滑處理,得到其中,公式12為αs(k,l)=αs(k,l-1);公式13為αs(k,l)=α1·(γ1(k,l)-αs(k,l-1))+αs(k,l-1);公式14為
在一種可能的實(shí)現(xiàn)方式中,為了提升去混響的效果,進(jìn)一步保護(hù)語音信號(hào),減少去混響過程中帶來的音樂噪聲,還可以對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行二次平滑處理,即再對(duì)平滑混響聲抑制增益進(jìn)行一次平滑處理。具體的,本發(fā)明在“采用平滑混響聲抑制增益對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)”之后,本發(fā)明實(shí)施例的方法還可以包括:采用以下公式15計(jì)算去混響語音信號(hào)y1(n)的倒譜cy1(q,l);采用以下公式16計(jì)算的最大倒譜系數(shù)qmax;通過以下公式17對(duì)倒譜cy1(q,l)進(jìn)行倒譜預(yù)處理,得到處理后的倒譜cy′1(q,l);采用以下公式18計(jì)算處理后的倒譜cy′1(q,l)的功率譜Pnr1(k,l);通過以下公式19對(duì)功率譜Pnr1(k,l)進(jìn)行子帶衰減,得到衰減功率譜Pnr2(k,l);采用以下公式20計(jì)算倒譜增益平滑因子βt(q,l);采用倒譜增益平滑因子βt(q,l),通過以下公式21和公式22對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l);采用二次平滑混響聲抑制增益Gcdr_cep(k,l)對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
其中,上述公式15為Py1(k,l)為y1(n)的功率譜,用于表示傅立葉逆變換,ln{·}用于表示自然對(duì)數(shù)運(yùn)算。
上述公式16為qmax=argmax{|cy1(q,l)|,q∈(fs/fu,fs/fb)},fu=300Hz,fb=70Hz,fu和fb分別為進(jìn)行倒譜預(yù)處理的基頻上下限。
上述公式17為Hc(q)為倒譜域加權(quán)函數(shù),λth為預(yù)設(shè)閾值。
上述公式18為為取實(shí)部運(yùn)算,為傅里葉變換。
上述公式19為Pnr2(k,l)=Pnr1(k,l)exp(-αm),kt為子帶帶寬,kt=N/qmax,k=mkt,mkt+1,…(m+1)kt-1,N用于表示FFT的點(diǎn)數(shù)αm為第m個(gè)子帶的衰減因子,αm=|min{ln(Py1(k,l))-ln(Pnr1(k,l))}|,k=mkb,mkb+1,…(m+1)kb-1。
上述公式20為β1、β2、β2均為常數(shù),λth為預(yù)設(shè)閾值。
上述公式21為上述公式22為
本方案中,可以采用二次平滑混響聲抑制增益Gcdr_cep(k,l)對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。如此,不僅可以提升去混響的效果,還可以進(jìn)一步保護(hù)語音信號(hào),減少去混響過程中帶來的音樂噪聲。
第二方面,提供一種語音信號(hào)處理方法,應(yīng)用于具有語音信號(hào)采集功能的電子終端,該電子終端配置有至少三個(gè)傳聲器,該語音信號(hào)處理方法包括:計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l);采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。通過本方案,可以對(duì)傳聲器采集到的信號(hào)進(jìn)行去混響處理,抑制混響噪聲。
在一種可能的實(shí)現(xiàn)方式中,為了減少去混響過程中帶來的音樂噪聲,可以在“采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)”之前,也可以對(duì)上述混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益然后采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
在一種可能的實(shí)現(xiàn)方式中,為了進(jìn)一步保護(hù)語音信號(hào),減少去混響過程中帶來的音樂噪聲。本發(fā)明實(shí)施例中還可以對(duì)上述平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l),然后采用Gcdr_cep(k,l)對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
需要說明的是,本發(fā)明實(shí)施例第二方面及其可能的實(shí)現(xiàn)方式中,“計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)”、“對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益”,以及“對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)”的具體方法可以參考本發(fā)明實(shí)施例第一方面相關(guān)實(shí)現(xiàn)方式中的詳細(xì)描述,本發(fā)明實(shí)施例這里不再贅述。
第三方面,提供一種語音信號(hào)處理裝置,包含于具有語音信號(hào)采集功能的電子終端,該電子終端配置有至少三個(gè)傳聲器,至少三個(gè)傳聲器形成至少兩個(gè)傳聲器組合,至少兩個(gè)傳聲器組合中的每個(gè)傳聲器組合包括兩個(gè)傳聲器,每個(gè)傳聲器組合中包含的傳聲器與其他傳聲器組合中至少有一個(gè)傳聲器不同,該裝置包括:第一確定模塊、第二確定模塊、第一計(jì)算模塊、第二計(jì)算模塊和加權(quán)輸出模塊。其中,第一確定模塊,用于確定出與至少三個(gè)傳聲器對(duì)應(yīng)的至少三個(gè)波束,至少三個(gè)波束中每個(gè)波束的波束方向固定,至少三個(gè)波束中每個(gè)波束的中心角用于表征該波束的波束方向。第二確定模塊,用于通過至少兩個(gè)傳聲器組合,確定當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角。第一計(jì)算模塊,用于計(jì)算第二確定模塊確定的目標(biāo)聲源的入射角與第一確定模塊確定的至少三個(gè)波束中每個(gè)波束的中心角的角度偏差。第二計(jì)算模塊,用于根據(jù)第一計(jì)算模塊計(jì)算得到的目標(biāo)聲源的入射角與至少三個(gè)波束中任一波束的中心角的角度偏差,計(jì)算該波束的保護(hù)角增益,其中,目標(biāo)聲源的入射角與該波束的角度偏差和該波束的保護(hù)角增益成正比,并根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益,計(jì)算語音信號(hào)的多波束加權(quán)增益。加權(quán)輸出模塊,用于采用第二計(jì)算模塊計(jì)算得到的語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出。
在一種可能的實(shí)現(xiàn)方式中,上述第二計(jì)算模塊,具體用于:根據(jù)目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差,計(jì)算至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值之和為1,且至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值和對(duì)應(yīng)波束與目標(biāo)聲源的入射角的角度偏差成反比;根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益和至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,計(jì)算語音信號(hào)的多波束加權(quán)增益。
在一種可能的實(shí)現(xiàn)方式中,上述至少三個(gè)傳聲器包括:第一傳聲器、第二傳聲器和第三傳聲器,至少兩個(gè)傳聲器組合包括:第一傳聲器和第二傳聲器的組合、第一傳聲器和第三傳聲器的組合,以及第三傳聲器和第二傳聲器的組合。在這種實(shí)現(xiàn)方式中,上述第二確定模塊,具體用于:根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),以及第一傳聲器和第二傳聲器之間的距離,計(jì)算第一目標(biāo)角θx(l),0≤θx(l)<180,第一目標(biāo)角度為目標(biāo)聲源的一估計(jì)入射角;根據(jù)第一傳聲器采集的語音信號(hào)和第三傳聲器采集的語音信號(hào),以及第一傳聲器和第三傳聲器之間的距離,計(jì)算第二目標(biāo)角θy(l),0≤θy(l)<180,第二目標(biāo)角度為目標(biāo)聲源的另一估計(jì)入射角;根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,當(dāng)前聲場(chǎng)在二維平面包括:第一象限、第二象限、第三象限和第四象限;根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),以及目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,計(jì)算目標(biāo)聲源的入射角θs(l)。
在一種可能的實(shí)現(xiàn)方式中,上述“第二確定模塊,用于根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限”包括:該第二確定模塊,用于若0°≤θx(l)≤90°,且90°<θy(l)≤180°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第一象限;若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第二象限;若90°<θx(l)≤180°,且0°≤θy(l)≤90°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第三象限;若0°<θx(l)≤90°,且0°<θy(l)≤90°,則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第四象限。
在一種可能的實(shí)現(xiàn)方式中,“上述第二確定模塊,用于根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),以及目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,計(jì)算目標(biāo)聲源的入射角θs(l)”包括:該第二確定模塊,用于:若目標(biāo)聲源的入射角處于第一象限,則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第二象限,則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第三象限,則采用θsx(l)=θx(l)-90°,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);若目標(biāo)聲源的入射角處于第四象限,則采用θsx(l)=270°+θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l);采用計(jì)算目標(biāo)聲源的入射角θs(l)。
在一種可能的實(shí)現(xiàn)方式中,上述至少三個(gè)波束包括:第一波束、第二波束和第三波束。上述“第一計(jì)算模塊,用于計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的角度偏差”包括:第一計(jì)算模塊,用于采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},計(jì)算目標(biāo)聲源的入射角θs(l)與第一波束的中心角φ1的角度偏差Δψ1。
在一種可能的實(shí)現(xiàn)方式中,上述“第二計(jì)算模塊根據(jù)目標(biāo)聲源的入射角與第一波束的中心角的角度偏差,計(jì)算第一波束的保護(hù)角增益”包括:第二計(jì)算模塊,用于:采用計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)與第一波束的中心角φ1的差值采用計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)與第一波束的中心角φ1的差值若第一分量和第二分量滿足第一條件,則采用公式1計(jì)算用于表征角度偏差Δψ1的大小的等效信噪比γd;其中,角度偏差Δψ1隨等效信噪比γd的增大而變??;c0為常數(shù);采用公式2,計(jì)算第一波束的保護(hù)角增益G1。其中,第一分量和第二分量滿足第一條件具體為第一分量大于第一閾值θth,且第二分量大于第一閾值θth。
在一種可能的實(shí)現(xiàn)方式中,上述第二計(jì)算模塊,還用于若第一分量和第二分量不滿足第一條件,則確定第一波束的保護(hù)角增益G1=1。
在一種可能的實(shí)現(xiàn)方式中,上述“第二計(jì)算模塊,用于根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益和至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,計(jì)算語音信號(hào)的多波束加權(quán)增益”包括:第二計(jì)算模塊,用于采用計(jì)算語音信號(hào)的多波束加權(quán)增益Gdoa。其中,n用于表示至少三個(gè)波束的波束總數(shù),n≥3,Gi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益,wi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益的加權(quán)值。
在一種可能的實(shí)現(xiàn)方式中,上述“第二確定模塊,用于根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),以及第一傳聲器和第二傳聲器之間的距離,計(jì)算第一目標(biāo)角θx(l)”包括:第二確定模塊,用于:將至少三個(gè)傳聲器采集的語音信號(hào)的頻率范圍平均劃分為m個(gè)頻帶;根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),第k個(gè)頻點(diǎn)的相干函數(shù)Γx=Γ12(k)、m個(gè)頻帶中第i個(gè)頻帶的頻帶選擇函數(shù)Hf-i(k)、修正函數(shù)Hs(k)、時(shí)域采樣頻率fs、空氣中的聲速c,以及第一傳聲器和第二傳聲器之間的距離d12,采用公式3、公式4和公式5計(jì)算第i個(gè)頻帶的目標(biāo)語音入射角度計(jì)算目標(biāo)聲源與噪聲信號(hào)的成分比重γg(k,l),并采用公式6計(jì)算第一平滑角度因子αf(k,l);若第一平滑角度因子αf(k,l)大于或等于第二閾值δth,則采用公式7計(jì)算第l幀的第一目標(biāo)角θx(l);若第一平滑角度因子αf(k,l)小于第二閾值δth,則第l幀的第一目標(biāo)角θx(l)等于θx(l-1);其中,θx(l-1)為第l-1幀的第一目標(biāo)角,0≤θx(l-1)<180。
在一種可能的實(shí)現(xiàn)方式中,上述語音信號(hào)處理裝置還可以包括:第三計(jì)算模塊和去混響模塊。其中,第三計(jì)算模塊,用于在加權(quán)輸出模塊采用語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出之前,計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)。去混響模塊,用于采用第三計(jì)算模塊計(jì)算得到的語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。相應(yīng)的,加權(quán)輸出模塊,具體用于采用第二計(jì)算模塊計(jì)算得到的語音信號(hào)的多波束加權(quán)增益Gcdr(k,l),對(duì)去混響模塊處理得到的去混響語音信號(hào)進(jìn)行加權(quán)輸出。
在一種可能的實(shí)現(xiàn)方式中,上述第三計(jì)算模塊,具體用于采用至少三個(gè)傳聲器中任意兩個(gè)傳聲器采集的語音信號(hào),計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l),該CDR12(k,l)用于表征第k頻點(diǎn)的語音信號(hào)的相干性,該CDR12(k,l)與第k頻點(diǎn)的語音信號(hào)的相干性成正比;采用公式8計(jì)算混響聲抑制增益Gcdr(k,l)。
在一種可能的實(shí)現(xiàn)方式中,該傳聲器組合為第一傳聲器和第二傳聲器的組合。上述“第三計(jì)算模塊,用于采用至少三個(gè)傳聲器組合中任一傳聲器組合采集的語音信號(hào),計(jì)算該傳聲器組合的非方向相干混相比CDR12(k,l)”包括:第三計(jì)算模塊,用于采用公式9計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第k個(gè)頻點(diǎn)的相干函數(shù)Γn;采用公式10計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第l幀第k個(gè)頻點(diǎn)的相干函數(shù)Γx;采用公式11計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)。
在一種可能的實(shí)現(xiàn)方式中,上述語音信號(hào)處理裝置還可以包括:平滑處理模塊。平滑處理模塊,用于在去混響模塊采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)之前,對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益相應(yīng)的,上述去混響模塊,具體用于采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
在一種可能的實(shí)現(xiàn)方式中,上述平滑處理模塊,具體用于:計(jì)算后驗(yàn)信噪比γ1(k,l),該后驗(yàn)信噪比γ1(k,l)為目標(biāo)聲源與混響噪聲的成分比重;若γ1(k,l)<αs(k,l-1),則采用公式12確定第二平滑角度因子αs(k,l);若γ1(k,l)≥αs(k,l-1),則采用公式13確定αs(k,l);采用公式14對(duì)Gcdr(k,l)進(jìn)行平滑處理,得到
在一種可能的實(shí)現(xiàn)方式中,上述平滑處理模塊,還可以用于在去混響模塊采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)之后,采用公式15計(jì)算去混響語音信號(hào)y1(n)的倒譜cy1(q,l);采用公式16計(jì)算的最大倒譜系數(shù)qmax;通過公式17對(duì)倒譜cy1(q,l)進(jìn)行倒譜預(yù)處理,得到處理后的倒譜cy′1(q,l);采用以下公式18計(jì)算處理后的倒譜cy′1(q,l)的功率譜Pnr1(k,l);通過公式19對(duì)功率譜Pnr1(k,l)進(jìn)行子帶衰減,得到衰減功率譜Pnr2(k,l);采用公式20計(jì)算倒譜增益平滑因子βt(q,l);采用倒譜增益平滑因子βt(q,l),通過公式21和公式22對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)。上述去混響模塊,具體用于采用平滑處理模塊處理得到的二次平滑混響聲抑制增益Gcdr_cep(k,l),對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
需要說明的是,本發(fā)明實(shí)施例第三方面的各種可能的實(shí)現(xiàn)方式中所采用的公式1-公式22以及公式1-公式22中各個(gè)參數(shù)的詳細(xì)描述可以參考本發(fā)明實(shí)施例第一方面的各種可能的實(shí)現(xiàn)方式中的詳細(xì)描述,本發(fā)明實(shí)施例這里不再贅述。
第四方面,提供一種語音信號(hào)處理裝置,該語音信號(hào)處理裝置:處理器和存儲(chǔ)器。存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)執(zhí)行指令,處理器與存儲(chǔ)器通過總線連接,當(dāng)語音信號(hào)處理裝置運(yùn)行時(shí),處理器執(zhí)行存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以使語音信號(hào)處理裝置執(zhí)行如第一方面以及第一方面的各種可選方式所述的語音信號(hào)處理方法。
第五方面,提供一種非易失性存儲(chǔ)介質(zhì),所述非易失性存儲(chǔ)介質(zhì)中存儲(chǔ)有一個(gè)或多個(gè)程序代碼,當(dāng)?shù)谒姆矫嬷兴龅恼Z音信號(hào)處理裝置的處理器執(zhí)行該程序代碼時(shí),該語音信號(hào)處理裝置執(zhí)行如第一方面以及第一方面的各種可選方式所述的語音信號(hào)處理方法。
需要說明的是,本發(fā)明實(shí)施例的第三方面及其各種可能的實(shí)現(xiàn)方式的各個(gè)功能模塊,是為了執(zhí)行上述第一方面以及第一方面的各種可選方式所述的語音信號(hào)處理方法,而對(duì)語音信號(hào)處理裝置進(jìn)行的邏輯上的劃分。第三方面、第四方面及其各種可能的實(shí)現(xiàn)方式的各個(gè)模塊的詳細(xì)描述以及有益效果分析可以參考上述第一方面及其各種可能的實(shí)現(xiàn)方式中的對(duì)應(yīng)描述及技術(shù)效果,此處不再贅述。
第六方面,提供一種語音信號(hào)處理裝置,包含于具有語音信號(hào)采集功能的電子終端,該電子終端配置有至少三個(gè)傳聲器,該語音信號(hào)處理裝置包括:計(jì)算模塊和去混響模塊。其中,計(jì)算模塊,用于計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)。去混響模塊,用于采用所述計(jì)算模塊計(jì)算得到的Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
在一種可能的實(shí)現(xiàn)方式中,第六方面所述的語音信號(hào)處理裝置還可以包括:平滑處理模塊,用于在去混響模塊采用Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)之前,對(duì)Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益上述去混響模塊,具體用于采用平滑處理模塊處理得到的對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
在一種可能的實(shí)現(xiàn)方式中,上述平滑處理模塊,還可以用于對(duì)上述平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)。上述去混響模塊,具體用于采用Gcdr_cep(k,l)對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
需要說明的是,本發(fā)明實(shí)施例第六方面及其可能的實(shí)現(xiàn)方式中,計(jì)算模塊計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)、平滑處理模塊對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益以及平滑處理模塊對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)的具體方法可以參考本發(fā)明實(shí)施例第一方面相關(guān)實(shí)現(xiàn)方式中的詳細(xì)描述,本發(fā)明實(shí)施例這里不再贅述。
第七方面,提供一種語音信號(hào)處理裝置,該語音信號(hào)處理裝置:處理器和存儲(chǔ)器。存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)執(zhí)行指令,處理器與存儲(chǔ)器通過總線連接,當(dāng)語音信號(hào)處理裝置運(yùn)行時(shí),處理器執(zhí)行存儲(chǔ)器存儲(chǔ)的計(jì)算機(jī)執(zhí)行指令,以使語音信號(hào)處理裝置執(zhí)行如第二方面以及第二方面的各種可選方式所述的語音信號(hào)處理方法。
第八方面,提供一種非易失性存儲(chǔ)介質(zhì),所述非易失性存儲(chǔ)介質(zhì)中存儲(chǔ)有一個(gè)或多個(gè)程序代碼,當(dāng)?shù)诹矫嬷兴龅恼Z音信號(hào)處理裝置的處理器執(zhí)行該程序代碼時(shí),該語音信號(hào)處理裝置執(zhí)行如第二方面以及第二方面的各種可選方式所述的語音信號(hào)處理方法。
需要說明的是,本發(fā)明實(shí)施例的第七方面及其各種可能的實(shí)現(xiàn)方式的各個(gè)功能模塊,是為了執(zhí)行上述第二方面以及第二方面的各種可選方式所述的語音信號(hào)處理方法,而對(duì)語音信號(hào)處理裝置進(jìn)行的邏輯上的劃分。第七方面、第八方面及其各種可能的實(shí)現(xiàn)方式的各個(gè)模塊的詳細(xì)描述以及有益效果分析可以參考上述第二方面及其各種可能的實(shí)現(xiàn)方式中的對(duì)應(yīng)描述及技術(shù)效果,此處不再贅述。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種電子終端的結(jié)構(gòu)組成示意圖;
圖2為本發(fā)明實(shí)施例提供的一種語音信號(hào)處理方法的流程圖;
圖3為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理方法的流程圖;
圖4為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理方法的流程圖;
圖5為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理方法的流程圖;
圖6為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理方法的流程圖;
圖7為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理方法的流程圖;
圖8為本發(fā)明實(shí)施例提供的一種語音信號(hào)處理裝置的組成示意圖;
圖9為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖;
圖10為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖;
圖11為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖;
圖12為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖;
圖13為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖;
圖14為本發(fā)明實(shí)施例提供的另一種語音信號(hào)處理裝置的組成示意圖。
具體實(shí)施方式
本發(fā)明的說明書以及附圖中的術(shù)語“第一”、“第二”和“第三”等是用于區(qū)別不同的對(duì)象,而不是用于描述對(duì)象的特定順序。例如,第一傳聲器、第二傳聲器和第三傳聲器等是用于區(qū)別不同的傳聲器,而不是用于描述傳聲器的特定順序。
在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是指兩個(gè)或兩個(gè)以上。例如,多個(gè)處理器是指兩個(gè)或兩個(gè)以上處理器。
此外,本發(fā)明的描述中所提到的術(shù)語“包括”和“具有”以及它們的任何變形,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括其他沒有列出的步驟或單元,或可選地還包括對(duì)于這些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、接口、技術(shù)之類的具體細(xì)節(jié),以便透切理解本發(fā)明。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行詳細(xì)地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例。
本發(fā)明實(shí)施例提供的一種語音信號(hào)處理方法及裝置可以應(yīng)用于對(duì)電子終端采集到的語音信號(hào)進(jìn)行去噪處理的過程中,具體應(yīng)用于抑制方向性干擾聲源噪聲以及混響噪聲的過程中。
本發(fā)明實(shí)施例提供的語音信號(hào)處理方法的執(zhí)行主體可以為語音信號(hào)處理裝置或者電子終端,其中,語音信號(hào)處理裝置可以為電子終端中用于執(zhí)行語音信號(hào)處理方法的裝置,如該語音信號(hào)處理裝置可以為上述電子終端的中央處理器(Central Processing Unit,CPU)或者可以為上述電子終端的中的控制單元或者模塊。
請(qǐng)參考圖1,為本發(fā)明實(shí)施例提供的一種電子終端的結(jié)構(gòu)組成示意圖。如圖1所示,該電子終端包括:處理器11、存儲(chǔ)器12、至少三個(gè)傳聲器13。
其中,上述至少三個(gè)傳聲器13用于采集語音信號(hào),該至少三個(gè)傳聲器13可以為模擬或者數(shù)字麥克風(fēng)(Microphone)。存儲(chǔ)器12用于存儲(chǔ)至少三個(gè)傳聲器13采集到的語音信號(hào),以及處理器11進(jìn)行語音信號(hào)處理過程中的語音信號(hào)。
處理器11可以通過上述至少三個(gè)傳聲器13組合的傳聲器陣列進(jìn)行目標(biāo)聲源的入射角的定位,可以避免由于電子終端中的傳聲器數(shù)量有限、且各個(gè)傳聲器之間的間距也較小,采用現(xiàn)有的定向拾音算法不能進(jìn)行準(zhǔn)確的目標(biāo)語音角度(目標(biāo)聲源的入射角)估計(jì)的問題,可以較為準(zhǔn)確的估計(jì)目標(biāo)聲源的入射角。并且,處理器11還可以確定與上述至少三個(gè)傳聲器對(duì)應(yīng)的至少三個(gè)固定波束,并分別計(jì)算至少三個(gè)固定波束的中心角與目標(biāo)聲源的入射角的角度偏差,然后采用計(jì)算得到的角度偏差計(jì)算語音信號(hào)的多波束加權(quán)增益,對(duì)語音信號(hào)進(jìn)行加權(quán)輸出。
本申請(qǐng)中采用固定角度的多波束輸出,而非現(xiàn)有技術(shù)中將主波束直接對(duì)準(zhǔn)估計(jì)得到的目標(biāo)語音角度進(jìn)行定向拾音,如此不僅可以起到增強(qiáng)目標(biāo)語音,衰減或屏蔽其他方向的噪聲和干擾信號(hào)的作用,還可以提供一定的容錯(cuò)能力,即即使上述估計(jì)的目標(biāo)語音角度不夠準(zhǔn)確,也不會(huì)對(duì)目標(biāo)語音信號(hào)產(chǎn)生損傷,造成目標(biāo)聲源的失真。
示例性的,如圖1所示,本發(fā)明實(shí)施例中的至少三個(gè)傳聲器形成傳聲器陣列的具體方式可以為:至少三個(gè)傳聲器形成至少兩個(gè)傳聲器組合,該至少兩個(gè)傳聲器組合中的每個(gè)傳聲器組合中包括兩個(gè)傳聲器,每個(gè)傳聲器組合中包含的傳聲器與其他傳聲器組合中至少有一個(gè)傳聲器不同。例如,假設(shè)至少三個(gè)傳聲器包括第一傳聲器、第二傳聲器和第三傳聲器,那么這三個(gè)傳聲器可以形成三個(gè)傳聲器組合,如第一傳聲器和第二傳聲器的組合,第一傳聲器和第三傳聲器的組合,以及第三傳聲器和第二傳聲器的組合。
其中,本發(fā)明實(shí)施例中的電子終端可以為手機(jī)、ipad、mp3等具有語音信號(hào)采集功能的電子設(shè)備。
下面結(jié)合附圖,通過具體的實(shí)施例及其應(yīng)用場(chǎng)景對(duì)本發(fā)明實(shí)施例提供的一種語音信號(hào)處理方法及裝置進(jìn)行詳細(xì)地說明。
本發(fā)明實(shí)施例提供一種語音信號(hào)處理方法,可以應(yīng)用于具有語音信號(hào)采集功能的電子終端,該電子終端配置有至少三個(gè)傳聲器。如圖2所示,該語音信號(hào)處理方法包括:
S201、語音信號(hào)處理裝置確定出與至少三個(gè)傳聲器對(duì)應(yīng)的至少三個(gè)波束,至少三個(gè)波束中每個(gè)波束的波束方向固定。
可以想到的是,語音信號(hào)處理裝置可以根據(jù)電子終端中配置的至少三個(gè)傳聲器的相對(duì)位置確定波束方向固定的至少三個(gè)波束。當(dāng)然,上述至少三個(gè)波束也可以是預(yù)先配置的、波束方向固定的波束。本發(fā)明實(shí)施例對(duì)此不做限制。
優(yōu)選的,假設(shè)上述至少三個(gè)波束包括:第一波束、第二波束和第三波束。該第一波束、第二波束和第三波束中,相鄰波束的中心角之間的夾角相等。例如,如圖3所示,第一傳聲器對(duì)應(yīng)第一波束,第二傳聲器對(duì)應(yīng)第二波束,第三傳聲器對(duì)應(yīng)第三波束時(shí),第一波束、第二波束和第三波束的波束方向固定,且第一波束、第二波束和第三波束中任意兩個(gè)相鄰波束之間的夾角均為120°。其中,至少三個(gè)波束中每個(gè)波束的中心角用于表征該波束的波束方向。
S202、語音信號(hào)處理裝置通過至少兩個(gè)傳聲器組合,確定當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角。
示例性的,語音信號(hào)處理裝置可以通過第一傳聲器和第二傳聲器的組合,以及第一傳聲器和第三傳聲器的組合,根據(jù)第一傳聲器采集的語音信號(hào)、第二傳聲器的組合采集的語音信號(hào)、時(shí)域采樣頻率fs、空氣中的聲速c、第一傳聲器和第二傳聲器之間的距離、第三傳聲器的組合采集的語音信號(hào)、第一傳聲器和第三傳聲器之間的距離等參數(shù),確定出當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角。
可以想到的是,本發(fā)明實(shí)施例中確定的當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角是基于二維平面的角度,即上述目標(biāo)聲源的入射角可以為實(shí)際目標(biāo)聲源的入射角在二維平面上的投影。
S203、語音信號(hào)處理裝置計(jì)算目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差。
示例性的,本發(fā)明實(shí)施例這里以“計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的角度偏差”為例,對(duì)S203中“語音信號(hào)處理裝置計(jì)算目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差”的方法進(jìn)行舉例說明:
語音信號(hào)處理裝置可以采用Δψ1=min{|θs(l)-φ1|,360-|θs(l)-φ1|},計(jì)算目標(biāo)聲源的入射角θs(l)與第一波束的中心角φ1的角度偏差Δψ1。其中,由于本方案確定的目標(biāo)聲源的入射角的范圍是0°~360°,因此,如果直接計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的差值,作為目標(biāo)聲源的入射角與第一波束的中心角的角度偏差,則可能會(huì)存在由于目標(biāo)聲源的入射角位于第一象限(即目標(biāo)聲源的入射角為0°~90°),第一波束的中心角位于第四象限(即第一波束的中心角為270°~360°),而導(dǎo)致計(jì)算得到的角度偏差遠(yuǎn)大于其實(shí)際角度偏差。例如,假設(shè)目標(biāo)聲源的入射角為40°,第一波束的中心角為320°。直接計(jì)算目標(biāo)聲源的入射角與第一波束的中心角的差值320°-40°=280°,目標(biāo)聲源的入射角與第一波束的中心角的角度偏差為280°;但是,此時(shí)目標(biāo)聲源的入射角與第一波束的中心角的實(shí)際角度偏差只有80°。而采用本方案,可以將|θs(l)-φ1|與360-|θs(l)-φ1|中的最小值作為目標(biāo)聲源的入射角與第一波束的中心角的實(shí)際角度偏差,可以避免上述計(jì)算得到的角度偏差遠(yuǎn)大于目標(biāo)聲源的入射角與第一波束的中心角實(shí)際角度偏差的問題,計(jì)算得到準(zhǔn)確的角度偏差。
需要說明的是,語音信號(hào)處理裝置計(jì)算目標(biāo)聲源的入射角θs(l)與第二波束的中心角φ2的角度偏差Δψ2,以及計(jì)算目標(biāo)聲源的入射角θs(l)與第三波束的中心角φ3的角度偏差Δψ3的方法與上述計(jì)算Δψ1的方法類似,本發(fā)明實(shí)施例這里不再一一說明。
S204、語音信號(hào)處理裝置根據(jù)目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差,計(jì)算每個(gè)波束的保護(hù)角增益,其中,目標(biāo)聲源的入射角與該波束的角度偏差和該波束的保護(hù)角增益成正比。
S205、語音信號(hào)處理裝置根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益,計(jì)算語音信號(hào)的多波束加權(quán)增益。
示例性的,語音信號(hào)處理裝置可以根據(jù)目標(biāo)聲源的入射角與至少三個(gè)波束中每個(gè)波束的中心角的角度偏差,計(jì)算至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值;然后根據(jù)至少三個(gè)波束中每個(gè)波束的保護(hù)角增益和至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值,計(jì)算語音信號(hào)的多波束加權(quán)增益。其中,至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值和對(duì)應(yīng)波束與目標(biāo)聲源的入射角的角度偏差成反比。
優(yōu)選的,至少三個(gè)波束中每個(gè)波束的保護(hù)角增益的加權(quán)值之和為1。
舉例來說,目標(biāo)聲源的入射角與第一波束的中心角的角度偏差Δψ1、目標(biāo)聲源的入射角與第二波束的中心角的角度偏差Δψ2、目標(biāo)聲源的入射角與第三波束的中心角的角度偏差Δψ3、第一波束的保護(hù)角增益的加權(quán)值w1、第二波束的保護(hù)角增益的加權(quán)值w2以及第三波束的保護(hù)角增益的加權(quán)值w3滿足以下公式:w1+w2+w3=1和w1·Δψ1=w2·Δψ2=w3·Δψ3。即w1、w2與w3之和為1,w1與Δψ1成反比,w2與Δψ2成反比,w3與Δψ3成反比。
示例性的,語音信號(hào)處理裝置可以采用計(jì)算語音信號(hào)的多波束加權(quán)增益Gdoa。其中,n用于表示至少三個(gè)波束的波束總數(shù),n≥3,Gi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益,wi用于表示n個(gè)波束中第i個(gè)波束的保護(hù)角增益的加權(quán)值。
舉例來說,此處以n=3為例,則Gdoa=w1·G1+w2·G2+w3·G3。其中,G1用于表示第一波束的保護(hù)角增益,G2用于表示第二波束的保護(hù)角增益,G3用于表示第三波束的保護(hù)角增益。
可以想到的是,由于本發(fā)明實(shí)施例中計(jì)算得到的語音信號(hào)的加權(quán)增益是根據(jù)多個(gè)方向的波束計(jì)算得到的多波束加權(quán)增益;因此,采用該多波束加權(quán)增益進(jìn)行定向拾音時(shí),即使上述估計(jì)的目標(biāo)語音角度不夠準(zhǔn)確,也不會(huì)對(duì)目標(biāo)語音信號(hào)產(chǎn)生損傷,造成目標(biāo)聲源的失真。
S206、語音信號(hào)處理裝置采用語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出。
示例性的,語音信號(hào)處理裝置可以采用
Yout(k,l)=X1(k,l)×Gdoa
計(jì)算得到經(jīng)過多波束加權(quán)后的頻域語音信號(hào)Yout(k,l)。
其中,X1(k,l)為上述第一傳聲器采集到的時(shí)域語音信號(hào)x1(n)進(jìn)行短時(shí)傅里葉變換(英文:Short-Time Fourier Transform,簡(jiǎn)稱:STFT)得到的頻域信號(hào)。
本發(fā)明實(shí)施例中,語音信號(hào)處理裝置在計(jì)算得到上述Yout(k,l)后,則可以對(duì)計(jì)算得到的Yout(k,l)執(zhí)行傅里葉反變換,即以得到時(shí)域輸出信號(hào)s(n),最后輸出該s(n)。
可以想到的是,語音信號(hào)處理裝置不僅可以選擇第一傳聲器采集到的時(shí)域語音信號(hào)x1(n)的STFTX1(k,l)作為加權(quán)輸出的目標(biāo)信號(hào),還可以采用計(jì)算得到的Gdoa對(duì)X2(k,l)或者X3(k,l)進(jìn)行加權(quán)輸出。其中,X2(k,l)為第二傳聲器采集到的時(shí)域語音信號(hào)x2(n)進(jìn)行STFT得到的頻域信號(hào),X3(k,l)為第三傳聲器采集到的時(shí)域語音信號(hào)x3(n)進(jìn)行STFT得到的頻域信號(hào)。
需要說明的是,本發(fā)明實(shí)施例中,語音信號(hào)處理裝置采用計(jì)算得到的Gdoa對(duì)X2(k,l)或者X3(k,l)進(jìn)行加權(quán)輸出的方法,與采用計(jì)算得到的Gdoa對(duì)X1(k,l)進(jìn)行加權(quán)輸出的方法類似,本發(fā)明實(shí)施例這里不再詳細(xì)描述。
示例性的,此處以傳聲器i采集到的時(shí)域語音信號(hào)xi(n)為例,對(duì)本發(fā)明實(shí)施例中傳聲器采集到的時(shí)域語音信號(hào)的組成進(jìn)行詳細(xì)說明。
傳聲器i采集到的時(shí)域語音信號(hào)具體為:
其中,s(n)用于表示純凈的目標(biāo)語音信號(hào),hi(n)用于為s(n)到傳聲器i的傳遞函數(shù),vj(n)用于表示方向性干擾噪聲,j=1,2,…,J,gi,j(n)為vj(n)到傳聲器i的傳遞函數(shù),ri(n)用于表示混響噪聲,bi(n)用于表示無方向性噪聲和內(nèi)部電噪聲。
本發(fā)明實(shí)施例提供的語音信號(hào)處理方法,通過至少兩個(gè)傳聲器組合進(jìn)行目標(biāo)聲源的入射角的定位,可以避免由于電子終端中的傳聲器數(shù)量有限、且各個(gè)傳聲器之間的間距也較小,采用現(xiàn)有的定向拾音算法不能較為準(zhǔn)確的估計(jì)目標(biāo)聲源的入射角的問題,可以較為準(zhǔn)確的估計(jì)目標(biāo)聲源的入射角。并且,在本方案中,還可以根據(jù)上述至少三個(gè)傳聲器確定至少三個(gè)固定波束,并分別計(jì)算至少三個(gè)固定波束的中心角與目標(biāo)聲源的入射角的角度偏差,然后采用計(jì)算得到的角度偏差計(jì)算語音信號(hào)的多波束加權(quán)增益,對(duì)語音信號(hào)進(jìn)行加權(quán)輸出。即本方案中可以通過固定角度的多波束輸出,而非現(xiàn)有技術(shù)中將主波束直接對(duì)準(zhǔn)估計(jì)得到的目標(biāo)聲源的入射角進(jìn)行定向拾音,如此不僅可以起到增強(qiáng)語音信號(hào),衰減或屏蔽其他方向的噪聲和干擾信號(hào)的作用,還可以提供一定的容錯(cuò)能力,即使上述估計(jì)的目標(biāo)語音角度不夠準(zhǔn)確,也不會(huì)對(duì)目標(biāo)語音信號(hào)產(chǎn)生損傷,造成目標(biāo)聲源的失真。
示例性的,如圖4所示,如圖2所示的S202具體可以包括S301-S304,即如圖4所示,如圖2所示的S202可以替換為S301-S304:
S301、語音信號(hào)處理裝置根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),以及第一傳聲器和第二傳聲器之間的距離,計(jì)算第一目標(biāo)角θx(l),0≤θx(l)<180,第一目標(biāo)角度為目標(biāo)聲源的一估計(jì)入射角。
示例性的,如圖4所示的S301具體可以包括S301a-S301e:
S301a、語音信號(hào)處理裝置將至少三個(gè)傳聲器采集的語音信號(hào)的頻率范圍平均劃分為m個(gè)頻帶。
S301b、語音信號(hào)處理裝置根據(jù)第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),第k個(gè)頻點(diǎn)的相干函數(shù)Γx=Γ12(k)、m個(gè)頻帶中第i個(gè)頻帶的頻帶選擇函數(shù)Hf-i(k)、預(yù)設(shè)修正函數(shù)Hs(k)、時(shí)域采樣頻率fs、空氣中的聲速c,以及第一傳聲器和第二傳聲器之間的距離d12,采用以下公式:
和
計(jì)算第i個(gè)頻帶的目標(biāo)語音入射角度
其中,上述修正函數(shù)Hs(k)是根據(jù)第一傳聲器采集的語音信號(hào)x1(n)和第二傳聲器采集的語音信號(hào)x2(n)通過相干平滑變換(英文:Smooth Coherence Transform,簡(jiǎn)稱:SCOT)得到的。
示例性的,語音信號(hào)處理裝置可以計(jì)算得到語音信號(hào)x1(n)的自功率譜Gx1x1(k)和語音信號(hào)x2(n)的自功率譜Gx2x2(k),然后通過SCOT采用以下公式:
計(jì)算得到修正函數(shù)Hs(k)。
需要說明的是,語音信號(hào)處理裝置計(jì)算語音信號(hào)x1(n)的自功率譜Gx1x1(k)和語音信號(hào)x2(n)的自功率譜Gx2x2(k)的具體方法可以參考現(xiàn)有技術(shù)中計(jì)算x1(n)的自功率譜Gx2x2(k)的相關(guān)方法,本發(fā)明實(shí)施例這里不再贅述。
S301c、語音信號(hào)處理裝置計(jì)算目標(biāo)聲源與噪聲信號(hào)的成分比重γg(k,l),并采用計(jì)算第一平滑角度因子αf(k,l)。
S301d、若第一平滑角度因子αf(k,l)大于或等于第二閾值δth,語音信號(hào)處理裝置則采用計(jì)算第一目標(biāo)角θx(l)。
其中,為中的最小值。
S301e、若平滑角度因子αf(k,l)小于第二閾值δth,語音信號(hào)處理裝置則確定第一目標(biāo)角θx(l)等于θx(l-1)。
其中,θx(l-1)為第l-1幀的第一目標(biāo)角,0≤θx(l-1)<180θx(l),為第l幀的第一目標(biāo)角。
S302、語音信號(hào)處理裝置根據(jù)第一傳聲器采集的語音信號(hào)和第三傳聲器采集的語音信號(hào),以及第一傳聲器和第三傳聲器之間的距離,計(jì)算第二目標(biāo)角θy(l),0≤θy(l)<180,第二目標(biāo)角度為目標(biāo)聲源的另一估計(jì)入射角。
需要說明的是,語音信號(hào)處理裝置采用第一傳聲器和第三傳聲器計(jì)算第二目標(biāo)角θy(l)的具體方法可以參考S301中采用第一傳聲器和第二傳聲器計(jì)算第一目標(biāo)角θx(l)的方法,本發(fā)明實(shí)施例這里不再贅述。
S303、語音信號(hào)處理裝置根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,當(dāng)前聲場(chǎng)在二維平面包括:第一象限、第二象限、第三象限和第四象限。
其中,語音信號(hào)處理裝置可以根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處區(qū)間或者大小的不同,確定目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限。具體的,如圖4所示的S303可以包括S303a-S303e:
S303a、若0°≤θx(l)≤90°,且90°<θy(l)≤180°,語音信號(hào)處理裝置則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第一象限。
S303b、若90°≤θx(l)≤180°,且90°≤θy(l)≤180°,語音信號(hào)處理裝置則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第二象限。
S303c、若90°<θx(l)≤180°,且0°≤θy(l)≤90°,語音信號(hào)處理裝置則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第三象限。
S303e、若0°<θx(l)≤90°,且0°<θy(l)≤90°,語音信號(hào)處理裝置則確定目標(biāo)聲源的入射角處于當(dāng)前聲場(chǎng)的第四象限。
S304、語音信號(hào)處理裝置根據(jù)第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l),以及目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,計(jì)算目標(biāo)聲源的入射角θs(l)。
本發(fā)明實(shí)施例中,可以根據(jù)上述第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處的區(qū)間或者大小,準(zhǔn)確判斷出目標(biāo)聲源的入射角在當(dāng)前聲場(chǎng)中所處的象限,進(jìn)而可以通過象限判斷的方法確定出目標(biāo)聲源的入射角θs(l),可以提高計(jì)算得到的目標(biāo)聲源的入射角θs(l)的準(zhǔn)確性。
其中,語音信號(hào)處理裝置可以根據(jù)目標(biāo)聲源的入射角所處的象限,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和目標(biāo)聲源的入射角的第二分量θsy(l);然后再計(jì)算第一分量θsx(l)和第二分量θsy(l)的平均值,得到目標(biāo)聲源的入射角θs(l)。
示例性的,如圖4所示的S304可以包括S304a-S304f:
S304a、若目標(biāo)聲源的入射角處于第一象限,語音信號(hào)處理裝置則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)。
S304b、若目標(biāo)聲源的入射角處于第二象限,語音信號(hào)處理裝置則采用θsx(l)=270°-θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)。
S304d、若目標(biāo)聲源的入射角處于第三象限,語音信號(hào)處理裝置則采用θsx(l)=θx(l)-90°,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)。
S304e、若目標(biāo)聲源的入射角處于第四象限,語音信號(hào)處理裝置則采用θsx(l)=270°+θx(l),計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l),采用θsy(l)=360°-θy(l),計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)。
S304f、語音信號(hào)處理裝置采用計(jì)算目標(biāo)聲源的入射角θs(l)。
其中,在目標(biāo)聲源的入射角處于不同象限時(shí),采用不同的方法計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和第二分量θsy(l),可以提高計(jì)算得到的目標(biāo)聲源的入射角θs(l)的準(zhǔn)確性。
其中,由于本方案確定的目標(biāo)聲源的入射角的范圍是0°~360°,即該目標(biāo)聲源的入射角可能是位于第一象限、第二象限、第三象限或者第四象限中的任一象限的;而第一目標(biāo)角θx(l)滿足0≤θx(l)<180,第二目標(biāo)角θy(l)滿足0≤θy(l)<180,即θx(l)和θy(l)可能是位于第一象限或者第二象限中的任一象限的;因此,如果直接計(jì)算第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)的平均值作為目標(biāo)聲源的入射角θs(l),則可能由于沒有考慮到第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處的象限,導(dǎo)致計(jì)算得到的目標(biāo)聲源的入射角與其真實(shí)值的誤差較大。而采用本方案,可以根據(jù)目標(biāo)聲源的入射角所處的象限,計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)和目標(biāo)聲源的入射角的第二分量θsy(l);然后再計(jì)算第一分量θsx(l)和第二分量θsy(l)的平均值,得到目標(biāo)聲源的入射角θs(l),便可以避免上述由于沒有考慮到第一目標(biāo)角θx(l)和第二目標(biāo)角θy(l)所處的象限,導(dǎo)致計(jì)算得到的目標(biāo)聲源的入射角與其真實(shí)值的誤差較大的問題,提高計(jì)算得到的目標(biāo)聲源的入射角的準(zhǔn)確性。
示例性的,本發(fā)明實(shí)施例這里以語音信號(hào)處理裝置根據(jù)目標(biāo)聲源的入射角與第一波束的中心角的角度差,計(jì)算第一波束的保護(hù)角增益G1為例,對(duì)S204進(jìn)行舉例說明。示例性的,如圖5所示,如圖2所示的S204具體可以包括S401-S403,即如圖5所示,如圖2所示的S204可以替換為S401-S403:
S401、語音信號(hào)處理裝置采用計(jì)算目標(biāo)聲源的入射角的第一分量θsx(l)與第一波束的中心角φ1的差值
S402、語音信號(hào)處理裝置采用計(jì)算目標(biāo)聲源的入射角的第二分量θsy(l)與第一波束的中心角φ1的差值
S403、若第一分量和第二分量滿足第一條件,語音信號(hào)處理裝置則采用計(jì)算用于表征角度偏差Δψ1的大小的等效信噪比γd。
其中,角度偏差Δψ1隨等效信噪比γd的增大而變小,c0為常數(shù);采用計(jì)算第一波束的保護(hù)角增益G1。其中,上述第一分量和第二分量滿足第一條件具體為第一分量大于第一閾值θth,且第二分量大于第一閾值θth。
進(jìn)一步的,第一分量和第二分量可能并不滿足上述第一條件,即第一分量小于或等于第一閾值θth,和/或第二分量小于或等于第一閾值θth。此時(shí),則不能夠采用上述方法計(jì)算第一波束的保護(hù)角增益,而是直接確定上述第一波束的保護(hù)角增益G1=1。具體的,如圖5所示,如圖2所示的S204還可以包括S404:
S404、若第一分量和第二分量不滿足第一條件,語音信號(hào)處理裝置則確定第一波束的保護(hù)角增益G1=1。
本發(fā)明實(shí)施例中,語音信號(hào)處理裝置在計(jì)算得到的目標(biāo)聲源的入射角的第一分量θsx(l)和第二分量θsy(l)后,無論計(jì)算得到的第一分量θsx(l)和第二分量θsy(l)是否滿足上述第一條件,都可以計(jì)算得到對(duì)應(yīng)的保護(hù)角增益。
進(jìn)一步的,本發(fā)明實(shí)施例不僅可以對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音,還可以在對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音之前,對(duì)傳聲器采集到的信號(hào)進(jìn)行去混響處理。
具體的,如圖6所示,在圖2所示的S206之前,本發(fā)明實(shí)施例的方法還可以包括S501-S502:
S501、語音信號(hào)處理裝置計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)。
S502、語音信號(hào)處理裝置采用語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
相應(yīng)的,如圖6所示,圖2所示的S206可以替換為S206′:
S206′、語音信號(hào)處理裝置采用語音信號(hào)的多波束加權(quán)增益,對(duì)去混響語音信號(hào)進(jìn)行加權(quán)輸出。
其中,本發(fā)明實(shí)施例不僅可以對(duì)傳聲器采集到的信號(hào)進(jìn)行定向拾音,還可以對(duì)傳聲器采集到的信號(hào)進(jìn)行去混響處理。即通過本發(fā)明實(shí)施例的方法,不僅可以抑制方向性干擾噪聲,還可以抑制混響噪聲。
示例性的,如圖6所示的S501可以包括S501a-S501b:
S501a、語音信號(hào)處理裝置采用至少三個(gè)傳聲器中任意兩個(gè)傳聲器采集的語音信號(hào),計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)。
其中,該CDR12(k,l)用于表征第k頻點(diǎn)的語音信號(hào)的相干性,該CDR12(k,l)與第k頻點(diǎn)的語音信號(hào)的相干性成正比。
S501b、語音信號(hào)處理裝置采用計(jì)算混響聲抑制增益Gcdr(k,l)。
可以想到的是,基于雙傳聲器的非方向相干混相比可以計(jì)算得到較為準(zhǔn)確的混響聲抑制增益,采用該混響聲抑制增益可以準(zhǔn)確的去除傳聲器采集的語音信號(hào)中的混響噪聲。
示例性的,本發(fā)明實(shí)施例中,語音信號(hào)處理裝置采用至少三個(gè)傳聲器中任意兩個(gè)傳聲器采集的語音信號(hào),計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)的方法,即S501a可以包括Sa-Sc:
Sa、語音信號(hào)處理裝置計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第k個(gè)頻點(diǎn)的相干函數(shù)Γn=Γ12(k)=sinc(2·fk·d12/c),fk=k/N·fS。
Sb、語音信號(hào)處理裝置計(jì)算第一傳聲器采集的語音信號(hào)和第二傳聲器采集的語音信號(hào),在第l幀第k個(gè)頻點(diǎn)的相干函數(shù)
Sc、語音信號(hào)處理裝置采用以下公式:
或者,
或者,
計(jì)算第一傳聲器和第二傳聲器的非方向相干混相比CDR12(k,l)。
其中,fS用于表示時(shí)域采樣頻率,d12用于表示第一傳聲器和第二傳聲器之間的距離,c用于表示空氣中的聲速,N用于表示FFT的點(diǎn)數(shù);E{·}用于表示數(shù)學(xué)期望,*用于表示共軛運(yùn)算,用于表示取實(shí)部運(yùn)算;X1(k,l)為第一傳聲器采集到的時(shí)域語音信號(hào)x1(n)進(jìn)行STFT得到的頻域信號(hào),X2(k,l)為第二傳聲器采集到的時(shí)域語音信號(hào)x2(n)進(jìn)行STFT得到的頻域信號(hào)。
優(yōu)選的,為了減少去混響過程中帶來的音樂噪聲,本發(fā)明實(shí)施例可以對(duì)上述混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益然后采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
具體的,如圖7所示,在如圖6所示的S502之前,本發(fā)明實(shí)施例的方法還可以包括S503:
S503、語音信號(hào)處理裝置對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益
示例性的,語音信號(hào)處理裝置對(duì)Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益的方法,即S503具體可以包括S503a-S503d:
S503a、語音信號(hào)處理裝置計(jì)算后驗(yàn)信噪比γ1(k,l),后驗(yàn)信噪比γ1(k,l)為目標(biāo)聲源與混響噪聲的成分比重。
S503b、若γ1(k,l)<αs(k,l-1),語音信號(hào)處理裝置則確定第二平滑角度因子αs(k,l)=αs(k,l-1)。
S503c、若γ1(k,l)≥αs(k,l-1),語音信號(hào)處理裝置則確定第二平滑角度因子αs(k,l)=α1·(γ1(k,l)-αs(k,l-1))+αs(k,l-1)。
S503d、語音信號(hào)處理裝置采用
對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益
相應(yīng)的,如圖7所示,圖6所示的S502可以替換為S502′:
S502′、語音信號(hào)處理裝置采用平滑混響聲抑制增益對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
通過本方案,可以在對(duì)語音信號(hào)進(jìn)行去混響處理之前,先對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,然后再采用平滑混響聲抑制增益對(duì)語音信號(hào)進(jìn)行去混響處理,如此可以起到保護(hù)語音信號(hào)的作用,減少去混響過程中帶來的音樂噪聲。
進(jìn)一步的,為了提升去混響的效果,進(jìn)一步保護(hù)語音信號(hào),減少去混響過程中帶來的音樂噪聲,還可以對(duì)混響聲抑制增益Gcdr(k,l)進(jìn)行二次平滑處理,即再對(duì)平滑混響聲抑制增益進(jìn)行一次平滑處理。
具體的,在S502′之后,本發(fā)明實(shí)施例的方法還可以包括:
S601、語音信號(hào)處理裝置采用
計(jì)算去混響語音信號(hào)y1(n)的倒譜cy1(q,l)。
其中,Py1(k,l)為y1(n)的功率譜,用于表示傅立葉逆變換,ln{·}用于表示自然對(duì)數(shù)運(yùn)算。
S602、語音信號(hào)處理裝置采用
qmax=arg max{|cy1(q,l)|,q∈(fs/fu,fs/fb)}
計(jì)算的最大倒譜系數(shù)qmax。
其中,fu=300Hz,fb=70Hz,fu和fb分別為進(jìn)行倒譜預(yù)處理的基頻上下限。
S603、語音信號(hào)處理裝置通過
對(duì)倒譜cy1(q,l)進(jìn)行倒譜預(yù)處理,得到處理后的倒譜cy′1(q,l);,λth為預(yù)設(shè)閾值。
其中,Hc(q)為倒譜域加權(quán)函數(shù),
S604、語音信號(hào)處理裝置采用
計(jì)算處理后的倒譜c′y1(q,l)的功率譜Pnr1(k,l)。
其中,為取實(shí)部運(yùn)算,為傅里葉變換。
S605、語音信號(hào)處理裝置通過
對(duì)功率譜Pnr1(k,l)進(jìn)行子帶衰減,得到衰減功率譜Pnr2(k,l)。
其中,kt為子帶帶寬,kt=N/qmax,k=mkt,mkt+1,…(m+1)kt-1,N用于表示FFT的點(diǎn)數(shù),αm為第m個(gè)子帶的衰減因子,
αm=|min{ln(Py1(k,l))-ln(Pnr1(k,l))}|。
S606、語音信號(hào)處理裝置采用
計(jì)算倒譜增益平滑因子βt(q,l)。
其中,β1、β2、β2均為常數(shù),λth為預(yù)設(shè)閾值。
S607、語音信號(hào)處理裝置采用倒譜增益平滑因子βt(q,l),通過
和
對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)。
S608、語音信號(hào)處理裝置采用二次平滑混響聲抑制增益Gcdr_cep(k,l)對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。
本發(fā)明實(shí)施例可以采用二次平滑混響聲抑制增益Gcdr_cep(k,l)對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。如此,不僅可以提升去混響的效果,還可以進(jìn)一步保護(hù)語音信號(hào),減少去混響過程中帶來的音樂噪聲。
上述主要介紹了語音信號(hào)處理裝置對(duì)語音信號(hào)的定向拾音以及去混響處理的過程??梢岳斫獾氖牵Z音信號(hào)處理裝置為了實(shí)現(xiàn)上述功能,其包含了執(zhí)行各個(gè)功能相應(yīng)的硬件結(jié)構(gòu)和/或軟件模塊。本領(lǐng)域技術(shù)人員應(yīng)該很容易意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的語音信號(hào)處理裝置及算法步驟,本發(fā)明能夠以硬件或硬件和計(jì)算機(jī)軟件的結(jié)合形式來實(shí)現(xiàn)。某個(gè)功能究竟以硬件還是計(jì)算機(jī)軟件驅(qū)動(dòng)硬件的方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
本發(fā)明實(shí)施例可以根據(jù)上述方法示例對(duì)語音信號(hào)處理裝置進(jìn)行功能模塊或者功能單元的劃分,例如,可以對(duì)應(yīng)各個(gè)功能劃分各個(gè)功能模塊或者功能單元,也可以將兩個(gè)或兩個(gè)以上的功能集成在一個(gè)處理模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊或者功能單元的形式實(shí)現(xiàn)。其中,本發(fā)明實(shí)施例中對(duì)模塊或者單元的劃分是示意性的,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
圖8示出了上述實(shí)施例中所涉及的語音信號(hào)處理裝置的一種可能的結(jié)構(gòu)示意圖。該語音信號(hào)處理裝置可以為具有語音信號(hào)采集功能的電子終端的處理器或者控制單元,或者該語音信號(hào)處理裝置可以為具有語音信號(hào)采集功能的電子終端。該電子終端配置有至少三個(gè)傳聲器,至少三個(gè)傳聲器形成至少兩個(gè)傳聲器組合,至少兩個(gè)傳聲器組合中的每個(gè)傳聲器組合中包括兩個(gè)傳聲器,每個(gè)傳聲器組合中包含的傳聲器與其他傳聲器組合中至少有一個(gè)傳聲器不同。如圖8所示,該語音信號(hào)處理裝置800包括:第一確定模塊801、第二確定模塊802、第一計(jì)算模塊803、第二計(jì)算模塊804和加權(quán)輸出模塊805。其中,第一確定模塊801,用于確定出與至少三個(gè)傳聲器對(duì)應(yīng)的至少三個(gè)波束。例如,第一確定模塊801用于支持上述實(shí)施例中的S201,和/或用于本文所描述的技術(shù)的其它過程。第二確定模塊802,用于確定當(dāng)前聲場(chǎng)中目標(biāo)聲源的入射角。例如,第二確定模塊802用于支持上述實(shí)施例中的S202、S202中包括的S301-S304、S301中包括的S301a-S301e、S303中包括的S303a-S303e、S304中包括的S304a-S304f,和/或用于本文所描述的技術(shù)的其它過程。第一計(jì)算模塊803,用于計(jì)算第二確定模塊802確定的目標(biāo)聲源的入射角與第一確定模塊801確定的至少三個(gè)波束中每個(gè)波束的中心角的角度偏差。例如,第一計(jì)算模塊803用于支持上述實(shí)施例中的S203,和/或用于本文所描述的技術(shù)的其它過程。第二計(jì)算模塊804,用于至少三個(gè)波束中任一波束的中心角的角度偏差,計(jì)算該波束的保護(hù)角增益,并計(jì)算語音信號(hào)的多波束加權(quán)增益。例如,第二計(jì)算模塊804用于支持上述實(shí)施例中的S204、S205,以及S204中包括的S401-S404,和/或用于本文所描述的技術(shù)的其它過程。加權(quán)輸出模塊805,用于采用第二計(jì)算模塊804計(jì)算得到的語音信號(hào)的多波束加權(quán)增益,對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行加權(quán)輸出。例如,加權(quán)輸出模塊805用于支持上述實(shí)施例中的S206和/或用于本文所描述的技術(shù)的其它過程。
進(jìn)一步的,如圖9所示,如圖8所示的語音信號(hào)處理裝置800還可以包括:第三計(jì)算模塊806和去混響模塊807。其中,第三計(jì)算模塊806,用于計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)。例如,第三計(jì)算模塊806用于支持上述實(shí)施例中的S501,以及S501中包括的S501a-S501b,和/或用于本文所描述的技術(shù)的其它過程。去混響模塊807,用于采用第三計(jì)算模塊806計(jì)算得到的語音信號(hào)的混響聲抑制增益Gcdr(k,l),對(duì)語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。例如,去混響模塊807用于支持上述實(shí)施例中的S502,和/或用于本文所描述的技術(shù)的其它過程。相應(yīng)的,上述加權(quán)輸出模塊805還可以用于支持上述實(shí)施例中的S206′,和/或用于本文所描述的技術(shù)的其它過程。
進(jìn)一步的,如圖10所示,如圖9所示的語音信號(hào)處理裝置800還可以包括:平滑處理模塊808。平滑處理模塊808,用于對(duì)語音信號(hào)的混響聲抑制增益Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益以及對(duì)平滑混響聲抑制增益進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)。例如,平滑處理模塊808用于支持上述實(shí)施例中的S503、S503中包括的S503a-S503d和S601-S607,和/或用于本文所描述的技術(shù)的其它過程。相應(yīng)的,上述去混響模塊807還可以用于支持上述實(shí)施例中的S502′和S608,和/或用于本文所描述的技術(shù)的其它過程。
當(dāng)然,本發(fā)明實(shí)施例提供的語音信號(hào)處理裝置800包括但不限于上述所述的功能單元,例如語音信號(hào)處理裝置800中還可以包括用于存儲(chǔ)傳聲器采集到的語音信號(hào)以及進(jìn)行語音信號(hào)處理過程中得到的語音信號(hào)的存儲(chǔ)模塊。
在采用集成的單元的情況下,第一確定模塊801、第二確定模塊802、第一計(jì)算模塊803、第二計(jì)算模塊804、加權(quán)輸出模塊805、第三計(jì)算模塊806、去混響模塊807和平滑處理模塊808等可以集成在一個(gè)處理模塊中實(shí)現(xiàn),該處理模塊可以是處理器或控制器,例如可以是CPU,通用處理器,數(shù)字信號(hào)處理器(英文:Digital Signal Processor,簡(jiǎn)稱:DSP),專用集成電路(英文:Application-Specific Integrated Circuit,簡(jiǎn)稱:ASIC),現(xiàn)場(chǎng)可編程門陣列(英文:Field Programmable Gate Array,簡(jiǎn)稱:FPGA)或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實(shí)現(xiàn)或執(zhí)行結(jié)合本發(fā)明公開內(nèi)容所描述的各種舉例說明邏輯方框,模塊和電路。所述處理單元也可以是實(shí)現(xiàn)計(jì)算功能的組合,例如包含一個(gè)或多個(gè)微處理器組合,DSP和微處理器的組合等等。存儲(chǔ)模塊可以是存儲(chǔ)器。
當(dāng)上述處理模塊為處理器,存儲(chǔ)模塊為存儲(chǔ)器時(shí),本發(fā)明實(shí)施例所涉及的語音信號(hào)處理裝置可以為圖11所示的語音信號(hào)處理裝置1100。
參閱圖11所示,所述語音信號(hào)處理裝置1100包括:處理器1101、存儲(chǔ)器1102以及總線1103。其中,處理器1101、存儲(chǔ)器1102通過總線1103相互連接。其中,所述總線1103可以是外設(shè)部件互連標(biāo)準(zhǔn)(英文:Peripheral Component Interconnect,簡(jiǎn)稱:PCI)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(英文:Extended Industry Standard Architecture,簡(jiǎn)稱:EISA)總線等。所述總線1103可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖11中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
本發(fā)明實(shí)施例還提供一種非易失性存儲(chǔ)介質(zhì),該非易失性存儲(chǔ)介質(zhì)中存儲(chǔ)有一個(gè)或多個(gè)程序代碼,當(dāng)所述語音信號(hào)處理裝置1100的處理器1101執(zhí)行該程序代碼時(shí),所述語音信號(hào)處理裝置1100執(zhí)行圖2和圖4-圖7中任一附圖中的相關(guān)方法步驟。
其中,本發(fā)明實(shí)施例提供的所述語音信號(hào)處理裝置1100中各個(gè)模塊的詳細(xì)描述以及各個(gè)模塊執(zhí)行圖2和圖4-圖7中任一附圖中的相關(guān)方法步驟后所帶來的技術(shù)效果可以參考本發(fā)明方法實(shí)施例中的相關(guān)描述,此處不再贅述。
圖12示出了上述實(shí)施例中所涉及的語音信號(hào)處理裝置的一種可能的結(jié)構(gòu)示意圖。該語音信號(hào)處理裝置可以為具有語音信號(hào)采集功能的電子終端的處理器或者控制單元,或者該語音信號(hào)處理裝置可以為具有語音信號(hào)采集功能的電子終端。該電子終端配置有至少三個(gè)傳聲器。如圖12所示,該語音信號(hào)處理裝置1200包括:計(jì)算模塊1201和去混響模塊1202。
其中,計(jì)算模塊1201,用于計(jì)算至少三個(gè)傳聲器采集的語音信號(hào)的混響聲抑制增益Gcdr(k,l)。例如,計(jì)算模塊1201用于支持上述實(shí)施例中的S501,以及S501中包括的S501a-S501b,和/或用于本文所描述的技術(shù)的其它過程。去混響模塊1202,用于采用計(jì)算模塊1201計(jì)算得到的Gcdr(k,l),對(duì)至少三個(gè)傳聲器采集的語音信號(hào)進(jìn)行去混響處理,得到去混響語音信號(hào)。例如,去混響模塊1202用于支持上述實(shí)施例中的S502,和/或用于本文所描述的技術(shù)的其它過程。
進(jìn)一步的,如圖13所示,如圖12所示的語音信號(hào)處理裝置1200還可以包括:平滑處理模塊1203。平滑處理模塊1203,用于對(duì)Gcdr(k,l)進(jìn)行平滑處理,得到平滑混響聲抑制增益以及對(duì)進(jìn)行二次平滑,得到二次平滑混響聲抑制增益Gcdr_cep(k,l)。例如,平滑處理模塊1203用于支持上述實(shí)施例中的S503、S503中包括的S503a-S503d和S601-S607,和/或用于本文所描述的技術(shù)的其它過程。相應(yīng)的,上述去混響模塊1202還可以用于支持上述實(shí)施例中的S502′和S608,和/或用于本文所描述的技術(shù)的其它過程。
在采用集成的單元的情況下,上述計(jì)算模塊1201、去混響模塊1202和平滑處理模塊1203等功能模塊可以集成在一個(gè)處理模塊中實(shí)現(xiàn),所述處理模塊可以是處理器或控制器,例如可以是CPU,通用處理器,DSP,ASIC,F(xiàn)PGA或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實(shí)現(xiàn)或執(zhí)行結(jié)合本發(fā)明公開內(nèi)容所描述的各種舉例說明邏輯方框,模塊和電路。所述處理單元也可以是實(shí)現(xiàn)計(jì)算功能的組合,例如包含一個(gè)或多個(gè)微處理器組合,DSP和微處理器的組合等等。存儲(chǔ)模塊可以是存儲(chǔ)器。
當(dāng)然,本發(fā)明實(shí)施例提供的語音信號(hào)處理裝置1200包括但不限于上述所述的功能單元,例如語音信號(hào)處理裝置1200中還可以包括用于存儲(chǔ)傳聲器采集到的語音信號(hào)以及進(jìn)行語音信號(hào)處理過程中得到的語音信號(hào)的存儲(chǔ)模塊。
參閱圖14所示,所述語音信號(hào)處理裝置1400包括:處理器1401、存儲(chǔ)器1402以及總線1403。其中,處理器1401、存儲(chǔ)器1402通過總線1403相互連接。其中,所述總線1403可以是PCI總線或EISA總線等。所述總線1403可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖14中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
本發(fā)明實(shí)施例還提供一種非易失性存儲(chǔ)介質(zhì),該非易失性存儲(chǔ)介質(zhì)中存儲(chǔ)有一個(gè)或多個(gè)程序代碼,當(dāng)所述語音信號(hào)處理裝置1400的處理器1401執(zhí)行該程序代碼時(shí),所述語音信號(hào)處理裝置1400執(zhí)行圖2和圖4-圖7中任一附圖中的相關(guān)方法步驟。
其中,本發(fā)明實(shí)施例提供的所述語音信號(hào)處理裝置1400中各個(gè)模塊的詳細(xì)描述以及各個(gè)模塊執(zhí)行圖2和圖4-圖7中任一附圖中的相關(guān)方法步驟后所帶來的技術(shù)效果可以參考本發(fā)明方法實(shí)施例中的相關(guān)描述,此處不再贅述。
通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。