本申請涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種音頻質(zhì)量增強的方法及裝置。
背景技術(shù):
隨著科學技術(shù)的發(fā)展,各個領(lǐng)域?qū)τ谝纛l質(zhì)量的追求越來越高,音頻研究的對象由最初的單路(mono),逐漸過渡到立體聲(stereo)、環(huán)繞聲(surround)以及3D(3-dimensional)音頻。不同于單路音頻,多路音頻通常是通過麥克風陣列得到的。對于3D音頻,為了拾取各個方向的音頻,通常為立體麥克風陣列,該陣列可以得到信號的水平方位角、垂直方位角和聲源與麥克風陣列參考點距離的三維信息。
現(xiàn)有技術(shù)中,針對線性麥克風陣列和平面麥克風陣列的音頻增強技術(shù)能夠得到有效的效果。但是對于立體麥克風陣列,現(xiàn)有技術(shù)還不能達到有效的音頻增強效果。
技術(shù)實現(xiàn)要素:
本申請的目的在于提供一種音頻質(zhì)量增強的方法及裝置,能夠有效地提升立體麥克風陣列的音頻質(zhì)量。
為實現(xiàn)上述目的,本申請一方面提供了一種音頻質(zhì)量增強的方法,所述方法包括:獲取預設格式的音頻信號;針對所述音頻信號進行預處理,所述預處理包括計算所述音頻信號中各路音頻信號的平均信號和/或?qū)λ鲆纛l信號進行波束成形處理;基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,當所述預處理為計算所述音頻信號中各路音頻信號的平均信號,基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理的步驟具體包括:根據(jù)所述平均信號,確定所述音頻信號對應的噪聲能量譜和信號能量譜;根據(jù)所述噪聲能量譜和信號能量譜,對所述音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,當所述預處理為對所述音頻信號進行波束成形處理時,基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理的步驟具體包括:分別利用第一導向矢量以及與所述第一導向矢量方向相反的第二導向矢量對所述音頻信號進行內(nèi)積處理,得到內(nèi)積處理后的第一路音頻信號和第一路音頻信號;其中,根據(jù)所述第一導向矢量可得到所述音頻信號中的預設方位的音頻信號;根據(jù)所述內(nèi)積處理后的第一路音頻信號和第二路音頻信號,確定所述音頻信號對應的噪聲能量譜和信號能量譜;根據(jù)所述噪聲能量譜和信號能量譜,對所述內(nèi)積處理后的第一路音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,當所述預處理為計算所述音頻信號中各路音頻信號的平均信號和對所述音頻信號進行波束成形處理時,基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理的步驟具體包括:利用第一導向矢量對所述音頻信號進行內(nèi)積處理,得到內(nèi)積處理后的音頻信號;其中,根據(jù)所述第一導向矢量可得到所述音頻信號中的預設方位的音頻信號;根據(jù)所述平均信號,確定所述音頻信號對應的噪聲能量譜和信號能量譜;根據(jù)所述噪聲能量譜和信號能量譜,對所述內(nèi)積處理后的音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,當所述預處理為計算所述音頻信號中各路音頻信號的平均信號和對所述音頻信號進行波束成形處理時,基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理的步驟具體包括:利用第一導向矢量以及與所述第一導向矢量方向相反的第二導向矢量對所述音頻信號進行內(nèi)積處理,得到內(nèi)積處理后的第一路音頻信號和第二路音頻信號;其中,根據(jù)所述第一導向矢量可得到所述音頻信號中的預設方位的音頻信號;根據(jù)所述平均信號和內(nèi)積處理后的第一路音頻信號和第二路音頻信號,確定所述音頻信號對應的噪聲抑制因子;根據(jù)所述噪聲抑制因子,對所述內(nèi)積處理后的第一路音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,在針對所述音頻信號進行預處理之前,所述方法還包括:獲取所述音頻信號的聲場參數(shù),所述聲場參數(shù)包括聲源方位、聲源能量以及聲源發(fā)散度中的至少一種。
進一步地,估算所述音頻信號對應的噪聲能量譜具體包括:判斷所述聲場參數(shù)中Z信號的聲源能量與第一閾值之間的大小,當所述聲場參數(shù)中Z信號的聲源能量大于所述第一閾值時,采用數(shù)值小于第二閾值的平滑因子估算所述音頻信號對應的噪聲能量譜;當所述聲場參數(shù)中Z信號的聲源能量小于或者等于所述第一閾值時,采用數(shù)值大于或者等于所述第二閾值的平滑因子估算所述音頻信號對應的噪聲能量譜。
進一步地,對所述音頻信號進行波束成形處理具體包括:根據(jù)所述聲場參數(shù)中的聲源方位確定目標導向矢量;利用所述目標導向矢量與所述音頻信號進行內(nèi)積處理,以得到波束成形的音頻信號。
進一步地,基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理具體包括:根據(jù)所述聲場參數(shù)中的聲源發(fā)散度,確定用于進行噪聲抑制處理的調(diào)整因子;根據(jù)確定的所述調(diào)整因子,對所述音頻信號進行噪聲抑制處理。
進一步地,根據(jù)所述聲場參數(shù)中的聲源發(fā)散度,確定用于進行噪聲抑制處理的調(diào)整因子具體包括:判斷所述聲場參數(shù)中的聲源發(fā)散度與第三閾值之間的大小,當所述聲源發(fā)散度大于所述第三閾值時,確定數(shù)值大于第四閾值的調(diào)整因子;當所述聲場參數(shù)中的聲源發(fā)散度小于或者等于所述第三閾值時,確定數(shù)值小于或者等于所述第四閾值的調(diào)整因子。
為實現(xiàn)上述目的,本申請另一方面還提供了一種音頻質(zhì)量增強的方法,所述方法包括:獲取預設格式的音頻信號;針對所述音頻信號進行波束成形處理,得到經(jīng)過音質(zhì)增強的音頻信號。
進一步地,所述波束成形處理具體包括:結(jié)合預設方向的導向矢量與所述音頻信號進行內(nèi)積處理,得到所述預設方向上增強的音頻信號。
進一步地,在針對所述音頻信號進行預處理之前,所述方法還包括:獲取所述音頻信號的聲場參數(shù),所述聲場參數(shù)包括聲源方位、聲源能量以及聲源發(fā)散度中的至少一種。
進一步地,對所述音頻信號進行波束成形處理具體包括:根據(jù)所述聲場參數(shù)中的聲源方位確定目標導向矢量;利用所述目標導向矢量與所述音頻信號進行內(nèi)積處理,得到目標方向上增強的音頻信號。
為實現(xiàn)上述目的,本申請另一方面還提供一種音頻質(zhì)量增強的裝置,所述裝置包括:音頻信號獲取單元,用于獲取預設格式的音頻信號;預處理單元,用于針對所述音頻信號進行預處理,所述預處理包括計算所述音頻信號中各路音頻信號的平均信號和/或?qū)λ鲆纛l信號進行波束成形處理;噪聲抑制處理單元,用于基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
本發(fā)明實施方式提出的一種音頻質(zhì)量增強的方法及裝置,能夠針對預設格式的信號進行音頻增強處理,進一步可以結(jié)合聲場參數(shù)(聲源方位、聲源能量以及聲源發(fā)散度)進行噪聲抑制處理和波束成形處理,可以有效提升音頻的質(zhì)量,達到了預期效果。
附圖說明
圖1為本申請一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖2為本申請一個實施方式中四路音頻信號的示意圖;
圖3為本申請另一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖4為本申請另一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖5為本申請另一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖6為本申請另一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖7為本申請另一個實施方式中音頻質(zhì)量增強的方法流程圖;
圖8為本申請一個實施方式中音頻質(zhì)量增強的裝置的功能模塊圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施方式中的附圖,對本申請實施方式中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施方式僅僅是本申請一部分實施方式,而不是全部的實施方式?;诒旧暾堉械膶嵤┓绞?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施方式,都應當屬于本申請保護的范圍。
請參閱圖1,本申請實施方式提供一種音頻質(zhì)量增強的方法,所述方法包括以下步驟。
S1:獲取預設格式的音頻信號。
在本實施方式中,所述預設格式的音頻信號可以是Ambisonic A格式的音頻信號。所述Ambisonic A格式的音頻信號為四路音頻信號(LFU、RFD、LBD、RBU)。所述四路音頻信號可以如圖2所示。
S2:針對所述音頻信號進行預處理,所述預處理包括計算所述音頻信號中各路音頻信號的平均信號和/或?qū)λ鲆纛l信號進行波束成形處理。
在本實施方式中,可以對所述Ambisonic A格式的音頻信號進行預處理,所述預處理的目的是對所述音頻信號進行增強處理。具體地,在本實施方式中,預處理的方式可以包括計算所述音頻信號中各路音頻信號的平均信號和/或?qū)λ鲆纛l信號進行波束成形處理。
其中,音頻信號中各路音頻信號的平均信號xave(n):
其中,n為音頻時域信號中樣點的標號,L為音頻信號處理的幀長,xi(n)為第i路音頻的時域信號。
波束成形處理xbf(n):
其中,θ為[0,360]范圍內(nèi)的方位角,pi(θ)為θ方向的導向矢量。
在估算所述音頻信號對應的噪聲能量譜時,可以計算所述音頻信號中各路音頻信號的平均信號,然后可以根據(jù)所述平均信號,確定用于估算噪聲能量譜的平滑因子。所述平滑因子例如可以通過下式表示:
αs(λ,k)=αd+(1-αd)p(λ,k)
其中,λ表示音頻信號中音頻幀的標號,k表示音頻信號中頻點的標號,αs(λ,k)表示指定音頻幀和指定頻點處對應的平滑因子,αd表示平滑系數(shù),取值為0.85,p(λ,k)表示指定音頻幀和指定頻點處對應的平均信號。這樣,針對不同音頻幀和頻點,可以對應不同的平滑因子,所述平滑因子可以由平均信號確定。
在本實施方式中,可以根據(jù)所述平滑因子估算所述音頻信號對應的噪聲能量譜。具體地,估算噪聲能量譜的公式可以如下所示:
D(λ,k)=αs(λ,k)D(λ-1,k)+(1-αs(λ,k))|Y(λ,k)|2
其中,D(λ,k)表示指定音頻幀和指定頻點處對應的估算噪聲能量譜,Y(λ,k)表示指定音頻幀和指定頻點處的音頻幅度。
在本實施方式中,請參閱圖3,還可以對所述音頻信號進行波束成形處理。具體地,可以結(jié)合預設方向的導向矢量(steering vector)與所述音頻信號進行內(nèi)積處理,從而可以在所述預設方向上增強所述音頻信號。這樣便可以有效地增強特定方向的聲源。
在本申請一個實施方式中,請參閱圖4,可以結(jié)合聲場參數(shù)估計噪聲能量譜。具體地,可以獲取所述音頻信號的聲場參數(shù),所述聲場參數(shù)包括聲源方位(sound location)、聲源能量(sound power)以及聲源發(fā)散度(sound diffusivity)中的至少一種。所述聲場參數(shù)可以通過波達方向(Direction of Arrival,DOA)方法獲取。
在本實施方式中,平滑因子根據(jù)不同音頻幀和頻點可以具備不同的數(shù)值,因此可以根據(jù)聲場參數(shù)中Z信號的聲源能量與第一閾值之間的大小來確定實際采用的平滑因子。具體地,當所述聲場參數(shù)中Z信號的聲源能量大于所述第一閾值時,采用數(shù)值小于第二閾值的平滑因子估算所述音頻信號對應的噪聲能量譜;當所述聲場參數(shù)中Z信號的聲源能量小于或者等于所述第一閾值時,采用數(shù)值大于或者等于所述第二閾值的平滑因子估算所述音頻信號對應的噪聲能量譜。具體地,如果小于第二閾值的平滑因子有多個,可以采用其中的任意一個平滑因子進行估算。同樣的,如果大于或者等于第二閾值的平滑因子有多個,也可以采用其中的任意一個平滑因子進行估算。具體的,第一閾值范圍為[0.3,0.6],第二閾值范圍為[0.05,0.4]。
其中,根據(jù)轉(zhuǎn)換矩陣A得到Z信號:
其中,所述轉(zhuǎn)換矩陣A=[a11 a12 a13 a14],所述A的元素a11,a12,......,a14的值為常數(shù),由不同聲源場景確定。
Z信號的能量為
在本實施方式中,請參閱圖5,也可以結(jié)合聲場參數(shù)進行波束成形處理。具體地,可以根據(jù)所述聲場參數(shù)中的聲源方位自適應地確定目標導向矢量,然后可以利用所述目標導向矢量與所述音頻信號進行內(nèi)積處理,以得到波束成形的音頻信號。
S3:基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
在本實施方式中,在對音頻信號預處理后,可以對所述音頻信號進行噪聲抑制處理,從而得到經(jīng)過音質(zhì)增強的音頻信號。具體地,可以采用譜減法進行噪聲抑制,也可以采用維納濾波法進行噪聲抑制。其中,譜減法和維納濾波法均可以在頻域中實現(xiàn)。噪聲抑制的過程可以在整個頻帶中進行,也可以在子帶中進行。
在本實施方式種,請參閱圖6,在對音頻信號進行波束成形后,可以進行噪聲抑制處理。具體地,可以分別利用第一導向矢量以及與所述第一導向矢量方向相反的第二導向矢量對所述音頻信號進行內(nèi)積處理,分別得到內(nèi)積處理后的第一路音頻信號和第二路音頻信號;其中,根據(jù)所述第一導向矢量可得到所述音頻信號中的預設方位的音頻信號;然后可以將所述內(nèi)積處理后的第一路音頻信號和第二路分別變換為頻域信號,并在頻域中進行噪聲抑制處理。
具體的,波束成形處理為:
其中,θ為[0,360]范圍內(nèi)的方位角,pi(θ)為θ方向的導向矢量,xi(n)為第i路音頻時域信號。
將時域信號變換為頻域信號,可以采用離散傅里葉變換DFT、快速傅里葉變換FFT或修正離散余弦變換MDCT實現(xiàn)。
需要說明的是,本申請實施方式還可以僅對音頻信號進行波束成形處理。具體地,本申請實施方式提供一種音頻質(zhì)量增強的方法,所述方法包括:
獲取預設格式的音頻信號;
針對所述音頻信號進行波束成形處理,其中,波形成形處理具體包括:
結(jié)合預設方向的導向矢量與所述音頻信號進行內(nèi)積處理,以在所述預設方向上增強所述音頻信號。
請參閱圖7,當然,還可以結(jié)合聲場參數(shù)進行噪聲抑制處理。具體地,可以分別利用第一導向矢量以及與所述第一導向矢量方向相反的第二導向矢量對所述音頻信號進行內(nèi)積處理,分別得到內(nèi)積處理后的第一路音頻信號和第二路音頻信號;其中,根據(jù)所述第一導向矢量可得到所述音頻信號中的預設方位的音頻信號;然后可以將所述內(nèi)積處理后的第一路音頻信號和第二路音頻信號分別變換為頻域信號,并根據(jù)所述聲場參數(shù)中的聲源發(fā)散度,確定用于進行噪聲抑制處理的調(diào)整因子,最后則可以根據(jù)確定的所述調(diào)整因子,對所述音頻信號進行噪聲抑制處理。具體地,在根據(jù)所述聲場參數(shù)中的聲源發(fā)散度,確定用于進行噪聲抑制處理的調(diào)整因子的步驟中,可以判斷所述聲場參數(shù)中的聲源發(fā)散度與第三閾值之間的大小,當所述聲源發(fā)散度大于所述第三閾值時,確定數(shù)值大于第四閾值的調(diào)整因子;當所述聲場參數(shù)中的聲源發(fā)散度小于或者等于所述第三閾值時,確定數(shù)值小于或者等于所述第四閾值的調(diào)整因子。具體的,第三閾值范圍為[0.3,0.5],第四閾值范圍為[0.05,0.5]。
請參閱圖8,本申請實施方式還提供一種音頻質(zhì)量增強的裝置,所述裝置包括:
音頻信號獲取單元100,用于獲取預設格式的音頻信號;
預處理單元200,用于針對所述音頻信號進行預處理,所述預處理包括計算所述音頻信號中各路音頻信號的平均信號和/或?qū)λ鲆纛l信號進行波束成形處理;
噪聲抑制處理單元300,用于基于預處理得到的信號,對所述音頻信號進行噪聲抑制處理,得到經(jīng)過音質(zhì)增強的音頻信號。
在本申請一個實施方式中,所述預處理單元200具體包括:
平均信號計算模塊,用于計算所述音頻信號中各路音頻信號的平均信號;
平滑因子確定模塊,用于根據(jù)所述平均信號,確定用于估算噪聲能量譜的平滑因子;
估算模塊,用于根據(jù)所述平滑因子估算所述音頻信號對應的噪聲能量譜。
本發(fā)明實施方式提出的一種音頻質(zhì)量增強的方法及裝置,能夠針對預設格式的信號進行音頻增強處理,進一步可以結(jié)合聲場參數(shù)(聲源方位、聲源能量以及聲源發(fā)散度)進行噪聲抑制處理和波束成形處理,可以有效提升音頻的質(zhì)量,達到了預期效果。
上面對本申請的各種實施方式的描述以描述的目的提供給本領(lǐng)域技術(shù)人員。其不旨在是窮舉的、或者不旨在將本發(fā)明限制于單個公開的實施方式。如上所述,本申請的各種替代和變化對于上述技術(shù)所屬領(lǐng)域技術(shù)人員而言將是顯而易見的。因此,雖然已經(jīng)具體討論了一些另選的實施方式,但是其它實施方式將是顯而易見的,或者本領(lǐng)域技術(shù)人員相對容易得出。本申請旨在包括在此已經(jīng)討論過的本發(fā)明的所有替代、修改、和變化,以及落在上述申請的精神和范圍內(nèi)的其它實施方式。