當(dāng)在具有一個(gè)或多個(gè)麥克風(fēng)的房間中捕獲音頻(例如,語(yǔ)音)時(shí),除了環(huán)境噪聲源之外,所捕獲的信號(hào)通過(guò)房間中的聲音反射(通常稱(chēng)為“混響”)被更改。通常,這種更改通過(guò)語(yǔ)音增強(qiáng)信號(hào)處理技術(shù)來(lái)處理。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明內(nèi)容以簡(jiǎn)化形式介紹概念的選擇,以便提供對(duì)本公開(kāi)的一些方面的基本理解。本發(fā)明內(nèi)容不是本公開(kāi)的廣泛概述,并且不意圖標(biāo)識(shí)本公開(kāi)的關(guān)鍵或重要元素或描述本公開(kāi)的范圍。本發(fā)明內(nèi)容僅提出本公開(kāi)的一些概念作為以下提供的具體實(shí)施方式的前序。
本公開(kāi)廣泛涉及用于信號(hào)處理的方法和系統(tǒng)。更具體地,本公開(kāi)涉及使用零點(diǎn)指向(null-steered)波束形成器來(lái)產(chǎn)生直達(dá)與混響聲能比(DRR(Direct-to-Reverberant Ratio))估計(jì)的方面。
本公開(kāi)的一個(gè)實(shí)施例涉及一種計(jì)算機(jī)實(shí)現(xiàn)方法,包括:
使用波束形成器將音頻信號(hào)分離為直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量;對(duì)于多個(gè)頻率窗口(frequency bin)中的每個(gè)頻率窗口,確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率;以及組合相對(duì)于頻率窗口的范圍所確定的比率。
在另一個(gè)實(shí)施例中,將音頻信號(hào)分離成直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量包括:通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)來(lái)去除直達(dá)路徑信號(hào)分量。
在另一個(gè)實(shí)施例中,在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)包括:選擇用于波束形成器的權(quán)重,以將零點(diǎn)指向朝著直達(dá)路徑信號(hào)分量的到達(dá)方向。
在另一個(gè)實(shí)施例中,該方法還包括:補(bǔ)償波束形成器處接收的估計(jì)噪聲。
本公開(kāi)的另一實(shí)施例涉及一種計(jì)算機(jī)實(shí)現(xiàn)方法,該方法包括:通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn),從而從音頻信號(hào)的混響路徑信號(hào)分量分離直達(dá)路徑信號(hào)分量以去除音頻信號(hào)的直達(dá)路徑信號(hào)分量;對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率;以及組合相對(duì)于頻率窗口的范圍所確定的比率。
本公開(kāi)的又一實(shí)施例涉及一種系統(tǒng),該系統(tǒng)包括:至少一個(gè)處理器;以及非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到至少一個(gè)處理器,非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)具有在其上存儲(chǔ)的指令,該指令在由至少一個(gè)處理器執(zhí)行時(shí),使至少一個(gè)處理器:
使用波束形成器將音頻信號(hào)分離為直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量;對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率;以及組合相對(duì)于頻率窗口的范圍所確定的比率。
在另一個(gè)實(shí)施例中,進(jìn)一步使系統(tǒng)的至少一個(gè)處理器通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)來(lái)去除直達(dá)路徑信號(hào)分量。
在另外一個(gè)實(shí)施例中,進(jìn)一步使系統(tǒng)的至少一個(gè)處理器選擇用于波束形成器的權(quán)重,以將零點(diǎn)指向朝著直達(dá)路徑信號(hào)分量的到達(dá)方向。
在另一個(gè)實(shí)施例中,進(jìn)一步使系統(tǒng)的至少一個(gè)處理器補(bǔ)償波束形成器處接收的估計(jì)噪聲。
本公開(kāi)的又一實(shí)施例涉及一種系統(tǒng),該系統(tǒng)包括:至少一個(gè)處理器;以及非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到至少一個(gè)處理器,該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)具有在其上存儲(chǔ)的指令,該指令在由至少一個(gè)處理器執(zhí)行時(shí),使至少一個(gè)處理器:通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn),從而從音頻信號(hào)的混響路徑信號(hào)分量分離直達(dá)路徑信號(hào)分量以去除音頻信號(hào)的直達(dá)路徑信號(hào)分量;對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率;以及組合相對(duì)于頻率窗口的范圍所確定的比率。
根據(jù)以下給出的詳細(xì)描述,本公開(kāi)進(jìn)一步適用范圍將變得顯而易見(jiàn)。然而,應(yīng)當(dāng)理解的是,詳細(xì)說(shuō)明和具體實(shí)施例雖然指示優(yōu)選實(shí)施例,但是僅以說(shuō)明方式給出,因?yàn)樵诒竟_(kāi)的精神和范圍內(nèi)的各種改變和更改對(duì)于本領(lǐng)域技術(shù)人員而言將從具體實(shí)施方式變得顯而易見(jiàn)。
附圖說(shuō)明
對(duì)于本領(lǐng)域技術(shù)人員而言,從下面結(jié)合所附權(quán)利要求和附圖的具體實(shí)施方式的學(xué)習(xí),本公開(kāi)的這些和其他目的、特征和特性將變得更顯而易見(jiàn),所有這些形成本說(shuō)明書(shū)的一部分。在附圖中:
圖1是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例應(yīng)用的示意圖。
圖2是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的用于生成DRR估計(jì)的示例方法的流程圖。
圖3是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的示例偶極子束模式的圖形表示。
圖4是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在10dB的信噪比(SNR)的基線(xiàn)算法的圖形表示。
圖5是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在20dB SNR的基線(xiàn)算法的圖形表示。
圖6是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在30dB SNR的基線(xiàn)算法的圖形表示。
圖7是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的噪聲估計(jì)誤差對(duì)平均DRR估計(jì)的示例性影響的圖形表示。
圖8是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的被布置為使用零點(diǎn)指向波束形成器生成DRR估計(jì)的示例計(jì)算設(shè)備的框圖。
本文提供的標(biāo)題僅為方便,并且不必影響本公開(kāi)所要求保護(hù)的內(nèi)容范圍或含義。
在附圖中,相同的附圖標(biāo)記和任何縮寫(xiě)詞識(shí)別具有相同或相似結(jié)構(gòu)或功能的元件或動(dòng)作,以便于理解和方便性。附圖將在下面的具體實(shí)施方式中詳細(xì)描述。
具體實(shí)施方式
概述
現(xiàn)在將描述各種示例和實(shí)施例。以下描述提供用于全面理解和實(shí)現(xiàn)這些示例描述的具體細(xì)節(jié)。然而,相關(guān)領(lǐng)域的技術(shù)人員將理解,在缺乏許多細(xì)節(jié)的情況下也可以實(shí)踐本文描述的一個(gè)或多個(gè)實(shí)施例。相同地,相關(guān)領(lǐng)域的技術(shù)人員也將理解,本公開(kāi)的一個(gè)或多個(gè)實(shí)施例可以包括本文未詳細(xì)描述的許多其他明顯特征。另外,一些公知的結(jié)構(gòu)或功能可能未在下面詳細(xì)示出或描述,以便避免不必要地模糊相關(guān)描述。
確定環(huán)境的聲學(xué)特性對(duì)于語(yǔ)音增強(qiáng)和識(shí)別是重要的?;祉懞铜h(huán)境噪聲對(duì)音頻信號(hào)(例如,包含語(yǔ)音的信號(hào))的更改,通常通過(guò)語(yǔ)音增強(qiáng)信號(hào)處理技術(shù)來(lái)處理。如果已知相對(duì)于語(yǔ)音的混響水平,則可以改進(jìn)語(yǔ)音增強(qiáng)算法的性能,本公開(kāi)提供了用于估計(jì)該關(guān)系的方法和系統(tǒng)。
混響影響房間中遠(yuǎn)距離語(yǔ)音記錄的質(zhì)量和可理解性。直達(dá)與混響聲能比(DRR)為直達(dá)聲音(例如,語(yǔ)音)和混響的能量(例如,強(qiáng)度)之間的比率,是用于評(píng)估聲學(xué)配置的有用測(cè)量,并且可用于通知去混響(de-reverberation)算法。本文將更詳細(xì)地描述,本公開(kāi)實(shí)施例涉及可應(yīng)用的DRR估計(jì)算法,其中利用兩個(gè)或更多個(gè)麥克風(fēng)(諸如移動(dòng)通信設(shè)備,膝上型計(jì)算機(jī)等)記錄信號(hào)。
根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例,本公開(kāi)的方法和系統(tǒng)使用零點(diǎn)指向波束形成器在各種房間大小、混響時(shí)間及源頭與接收器距離產(chǎn)生±4dB內(nèi)精確的DRR估計(jì)。此外,所呈現(xiàn)的方法和系統(tǒng)對(duì)于背景噪聲比現(xiàn)有方法更穩(wěn)健。以下面將進(jìn)一步詳細(xì)描述的,在至少一個(gè)假設(shè)場(chǎng)景中,可以在從-5到5dB的區(qū)域中獲得最準(zhǔn)確的DRR估計(jì),這為便攜式設(shè)備的相關(guān)范圍。
當(dāng)聲學(xué)脈沖響應(yīng)(AIR)可用時(shí),可以通過(guò)檢查AIR的開(kāi)端及衰減特性從脈沖響應(yīng)估計(jì)DRR。然而,當(dāng)AIR不可用時(shí),必須從記錄的語(yǔ)音來(lái)估計(jì)DRR。諸如膝上型計(jì)算機(jī)、智能電話(huà)等的便攜式設(shè)備,已逐漸并入能夠啟用多通道算法的使用的多個(gè)麥克風(fēng)。
非介入式DRR估計(jì)(non-intrusive DRR estimation)的一些現(xiàn)有方法使用信道之間的空間相干性以估計(jì)混響,其假定所有非相干能量是混響。其他現(xiàn)有方法使用調(diào)制頻譜特征,其需要在語(yǔ)音上訓(xùn)練的映射。
考慮到與現(xiàn)有方法相關(guān)的各種缺陷,本公開(kāi)的方法和系統(tǒng)提供了一種新穎的DRR估計(jì)方法,其使用空間選擇來(lái)分離直達(dá)和混響能量并單獨(dú)考慮噪聲。該公式考慮波束形成器對(duì)混響聲音的響應(yīng)和噪聲的影響。
本公開(kāi)的方法和系統(tǒng)具有許多現(xiàn)實(shí)世界應(yīng)用。例如,所述方法和系統(tǒng)可以在計(jì)算設(shè)備(例如,膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)等)中實(shí)現(xiàn)以改進(jìn)聲音記錄,視頻會(huì)議等。圖1示出其應(yīng)用的示例100,其中音頻源120(例如,用戶(hù)、揚(yáng)聲器等)被定位在具有音頻捕獲設(shè)備110(例如,麥克風(fēng)陣列)陣列的房間105中,并且從源頭120產(chǎn)生的信號(hào)可以跟隨多個(gè)路徑140到達(dá)麥克風(fēng)陣列110。還可以在房間105中存在一個(gè)或多個(gè)背景噪聲源130。在另一示例中,本公開(kāi)方法和系統(tǒng)可以用于移動(dòng)設(shè)備(例如,移動(dòng)電話(huà),智能電話(huà),個(gè)人數(shù)字助理(PDA))中以及用于被設(shè)計(jì)成通過(guò)語(yǔ)音識(shí)別來(lái)控制設(shè)備的各種系統(tǒng)中。
以下提供了關(guān)于本公開(kāi)DRR估計(jì)算法的細(xì)節(jié),并且還描述算法的一些示例性能結(jié)果。圖2示出用于生成DRR估計(jì)的示例性高層級(jí)過(guò)程200。以下將進(jìn)一步描述示例性過(guò)程200中的框205-215的細(xì)節(jié)。
聲學(xué)模型
從房間中給定位置發(fā)射的連續(xù)語(yǔ)音信號(hào)s(t),將跟隨多個(gè)路徑包括直達(dá)路徑以及來(lái)自墻壁、地板、天花板及在墻壁中其他物體表面的反射到達(dá)任何觀察點(diǎn)。由房間中的M個(gè)麥克風(fēng)陣列中的第m個(gè)麥克風(fēng)捕獲的混響信號(hào)ym(t)的特征在于由源頭與麥克風(fēng)之間聲道的AIRhm(t),使得
ym(t)=hm(t)*s(t)+vm(t),
(1)
其中*代表卷積運(yùn)算,并且vm(t)是麥克風(fēng)處的加性噪聲。AIR是房間幾何形狀,房間表面的反射率和麥克風(fēng)位置的函數(shù)。讓
hm(t)=hd,m(t)+hr,m(t),
(2)
其中hd,m(t)和hr,m(t)分別是第m個(gè)麥克風(fēng)的直達(dá)和混響路徑的脈沖響應(yīng)。第m個(gè)麥克風(fēng)的DRRηm是直接從源頭到達(dá)麥克風(fēng)功率與從房間中一個(gè)或多個(gè)表面反射后到達(dá)功率的比率。DRR可以寫(xiě)為
當(dāng)脈沖響應(yīng)與語(yǔ)音信號(hào)卷積時(shí),在第m個(gè)麥克風(fēng)處的觀測(cè)為信號(hào)與混響比(SRR)γ由下式給出:
在s(t)的光譜為白色的情況下,SRR等于DRR。非介入式或盲DRR估計(jì)的目的是要從觀察信號(hào)來(lái)估計(jì)ηm。根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例,所述方法和系統(tǒng)使用空間選擇來(lái)分離聲場(chǎng)的直達(dá)和混響分量。
在頻域中的波束形成
空間濾波或波束形成使用兩個(gè)或多個(gè)麥克風(fēng)信號(hào)的加權(quán)組合以實(shí)現(xiàn)特定的方向性模式。復(fù)頻域(complex frequency domain)中的波束形成器的輸出Z(jω)由下式給出
Z(jω)=(w(jω))Ty(jω), (5)
其中w(jω)=[W0(jω),W1(jω),...,WM-1(jω)]T是每個(gè)麥克風(fēng)的復(fù)權(quán)重向量,y(jω)=[Y0(jω),Y1(jω),...,YM-1(jω)]T則是麥克風(fēng)信號(hào)的向量。
由于單位平面波入射到麥克風(fēng)上,所以讓第m個(gè)麥克風(fēng)處的信號(hào)為xm(jω,Ω),其中Ω=(φ,θ)是到達(dá)方向(DoA),并且θ和φ分別為方位角(azimuth)和仰角(elevation)。波束形成器的波束圖案是
D(jω,Ω)=(w(jω))Tx(jω,Ω), (6)
其中x(jω,Ω)=[X0(jω,Ω),X1(jω,Ω),...,XM-1(jω,Ω)]T。
對(duì)于各向同性聲場(chǎng)(例如,完全漫射),波束形成器的增益G(jω)可由下式給出:
G(jω)=∫Ω|D(jω,Ω)|dΩ。 (7)
頻域中的DRR估計(jì)
以下考慮根據(jù)本文描述的一個(gè)或多個(gè)使用波束形成器來(lái)估計(jì)DRR的實(shí)施例。從上述等式(1)和(2),可以將頻域中麥克風(fēng)m處的信號(hào)定義為
Ym(jω)=Dm(jω)+Rm(jω)+Vm(jω), (8)
其中Dm(jω)=Hm,d(jω)S(jω),以及Rm(jω)=Hm,r(jω)S(jω)。
從等式(5),
Zy(jω)=Zd(jω)+Zr(jω)+Zv(jω), (9)
其中
Zd(jω)=(w(jω))Td(jω)
Zr(jω)=(w(jω))Tr(jω)
Zv(jω)=(w(jω))Tv(jω)
以及
d(jω)=[D0(jω,D1(jω),...,DM-1(jω)]T
并且r(jω)和v(jω)被類(lèi)似地定義。
選擇w(jω)使得Zd(jω)=0,給出
Zy(jω)≈Zr(jω)+Zv(jω)。 (10)
在混響聲場(chǎng)由從所有方向以相同概率和幅度到達(dá)的平面波組成的簡(jiǎn)化下,波束形成器的增益可以由下式給出:
G(jω)=∫Ω|D(jω,Ω)|dΩ。 (11)
因此,波束形成器的輸出可以由下式給出
E{|Zr(jω)|2}=G2(jω)E{|R(jω)|2}, (12)
其中E{·}是期望運(yùn)算符;R(jω)是混響能量,獨(dú)立于麥克風(fēng)。將等式(10)代入等式(12)給出
由于可以假定在所有麥克風(fēng)處的混響功率是相同的,所以根據(jù)等式(8)可以寫(xiě)成:
E{|Dm(jω)|2}=E{|Ym(jω)|2}-E{|Vm(jω)|2}-E{|R(jω)|2}。 (14)
頻率相關(guān)(frequency dependent)DRR從等式(3)得出為
將等式(13)和(14)代入等式(15)給出:
總的DRR由下式給出
其中ω1≤ω≤ω2是感興趣的頻率范圍。
實(shí)施例
為了進(jìn)一步說(shuō)明本公開(kāi)的穩(wěn)健DRR估計(jì)方法和系統(tǒng)的各種特征,以下描述可通過(guò)實(shí)驗(yàn)獲得的一些示例結(jié)果。應(yīng)當(dāng)理解的是,盡管以下提供了二元件麥克風(fēng)陣列的場(chǎng)境中的示例性能結(jié)果,但是本公開(kāi)的范圍不限于該特定場(chǎng)境或?qū)嵤?。盡管以下描述示出對(duì)于少量(例如兩個(gè))麥克風(fēng)可實(shí)現(xiàn)優(yōu)異的性能,并且還示出性能是穩(wěn)健的,但是也可以在各種其他背景和/或場(chǎng)景中,使用本公開(kāi)方法和系統(tǒng)來(lái)實(shí)現(xiàn)以類(lèi)似的性能水平,包括涉及多于兩個(gè)麥克風(fēng)的場(chǎng)境/場(chǎng)景。
在本示例中,從聲學(xué)語(yǔ)音學(xué)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)的測(cè)試分區(qū)中,隨機(jī)選擇語(yǔ)音信號(hào)。對(duì)于具有尺寸為{3米(m),4m和5m}×6m×3m的房間,這些信號(hào)與使用已知源圖像方法所產(chǎn)生的AIR進(jìn)行卷積,每個(gè)房間的混響時(shí)間(T60)值為0.2秒至1秒,以0.1秒間隔。在每個(gè)房間中,從均勻分布隨機(jī)選擇麥克風(fēng)陣列的四個(gè)位置和輪換,并且源頭被設(shè)置成以0.05、0.10、0.50、1.0、2.0和3.0m的距離垂直于陣列定位。從任何墻壁,不允許麥克風(fēng)或源頭小于0.5米。
使用具有62毫米(mm)間距的二元件麥克風(fēng)陣列來(lái)模擬典型膝上型計(jì)算機(jī)中的麥克風(fēng)。使用延遲和減法方案來(lái)選擇波束形成器權(quán)重,以將零點(diǎn)指向朝著直達(dá)路徑的DoA。
由于所有源頭位置與兩個(gè)麥克風(fēng)為等距,因此這簡(jiǎn)化為簡(jiǎn)單的減法,得到圖3所示熟悉的偶極子束圖案。圖3示出在62mm麥克風(fēng)間隔的情況下二信道零點(diǎn)指向波束形成器在200Hz處的增益和方向性圖案。注意,最大增益為-9.4dB。在實(shí)際應(yīng)用中,需要使用例如對(duì)于本領(lǐng)域技術(shù)人員已知的用于估計(jì)時(shí)間延遲的廣義相關(guān)方法的到達(dá)時(shí)間差的估計(jì)以設(shè)置延遲。
直接從模擬AIR估計(jì)每個(gè)房間的T60,麥克風(fēng)和源頭位置的地面實(shí)況DRR。對(duì)于每個(gè)麥克風(fēng),在10、20和30dB的SNR處,獨(dú)立添加白高斯噪聲,其中使用本領(lǐng)域技術(shù)人員已知的活動(dòng)語(yǔ)音電平的客觀測(cè)量的實(shí)施方式來(lái)確定清潔功率(clean power)。
在第一實(shí)驗(yàn)裝置中,將使用在已知的E{|Vm(jω)|2}和E{|Zv(jω)|2}被使用的情況下本公開(kāi)的DRR估計(jì)方法與其中忽略噪聲(SNR假設(shè)為8dB)方法的公式進(jìn)行比較,并且還與基線(xiàn)方法進(jìn)行比較。在實(shí)際應(yīng)用中,可以假設(shè)將使用對(duì)混響穩(wěn)健的噪聲估計(jì)器。為了評(píng)估噪聲估計(jì)誤差對(duì)DRR估計(jì)器的精確度的影響,進(jìn)行對(duì)等式16中的E{|Vm(jω)|2}和E{|Zv(jω)|2}中的每個(gè)加上±1.5dB的第二實(shí)驗(yàn)。
在本示例中,用于比較的基線(xiàn)方法返回通過(guò)頻率估計(jì)DRR的向量,并且在比較中使用值>-∞的平均值。
圖4-6是示出根據(jù)本公開(kāi)的實(shí)施例(405、505和605)描述的DRR估計(jì)算法精確度的圖形表示、不考慮噪聲的算法公式(410、510和610)、以及在10dB、20dB和30dB的SNR處的基線(xiàn)算法(415、515和615)。如圖形表示405、505和605所示,本公開(kāi)的算法是準(zhǔn)確的,具有在-5到5dB的(地面實(shí)況)DRR范圍上小于3dB誤差。應(yīng)當(dāng)注意地,隨著DRR減小,本公開(kāi)的方法可能傾向于高估DRR。這是假設(shè)反射以相等概率從所有角度到達(dá)的結(jié)果。對(duì)于特定房間和T60,具有較大源頭麥克風(fēng)距離的情況下,獲得較低的DRR。這又導(dǎo)致較強(qiáng)的早期反射從更接近直達(dá)路徑DoA的方向到達(dá),并且因此更多地被波束形成器零點(diǎn)衰減。通過(guò)考慮等式(12)中的早期反射的情況下,DRR被高估。
在本公開(kāi)的算法公式中包括噪聲的重要性通過(guò)具有和不具有噪聲補(bǔ)償(具有噪聲補(bǔ)償算法的圖形表示405、505和605以及沒(méi)有噪聲補(bǔ)償算法的圖形表示410、510和610)的算法的示例精確度與基線(xiàn)算法(圖形表示415、515和615)進(jìn)行比較是明顯的。在沒(méi)有噪聲補(bǔ)償?shù)那闆r下,本公開(kāi)的方法遵循基線(xiàn)算法傾向隨著噪聲增加而低估DRR。相反地,在噪聲被公式中的情況下,本公開(kāi)方法的精確度在所示SNR的范圍上(在圖形表示405、505和605中)是一致的,只有估計(jì)的標(biāo)準(zhǔn)偏差略微增加。
圖7示出噪聲估計(jì)誤差對(duì)平均DRR估計(jì)的示例影響。具體地,圖形表示700示出在參考麥克風(fēng)處和在波束形成器的輸出處的噪聲估計(jì)中誤差的敏感度。在影響直達(dá)的和波束形成的功率的相反極性誤差(曲線(xiàn)710和720)存在的情況下,DRR估計(jì)保持接近沒(méi)有誤差的情況(曲線(xiàn)715),有效地彼此抵消。在誤差具有相同極性(曲線(xiàn)705和725)的情況下,在每個(gè)項(xiàng)上存在±1.5dB誤差的加性效應(yīng)(additive effect),導(dǎo)致總體上±3dB誤差。這表示本公開(kāi)方法對(duì)噪聲估計(jì)器中的偏差比其方差更敏感。
應(yīng)當(dāng)注意的,除了上述示例配置之外,本公開(kāi)的方法和系統(tǒng)被設(shè)計(jì)為以源頭相對(duì)于麥克風(fēng)陣列的許多其他配置(例如,定位)來(lái)實(shí)現(xiàn)相似性能。例如,本文描述的DRR估計(jì)算法能夠在選擇適當(dāng)波束形成器的情況下應(yīng)用于具有任意數(shù)目麥克風(fēng)的多信道系統(tǒng)。
從上述描述顯而易見(jiàn),本公開(kāi)的方法和系統(tǒng)提供一種用于在考慮到噪聲的情況下從多信道語(yǔ)音估計(jì)DRR的新穎方法。上述示例性能結(jié)果證實(shí)本發(fā)明的方法和系統(tǒng)在實(shí)際SNR處比基線(xiàn)對(duì)噪聲更加穩(wěn)健。所描述的公式根據(jù)頻率返回DRR的估計(jì),并且因此根據(jù)一個(gè)或多個(gè)實(shí)施例,如果需要,可以提供頻率相關(guān)DRR。另外,由于方法和系統(tǒng)不依賴(lài)于語(yǔ)音統(tǒng)計(jì),所以根據(jù)一個(gè)或多個(gè)其他實(shí)施例,DRR估計(jì)算法也可以應(yīng)用于音樂(lè)。
圖8是根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的被布置成用于使用零點(diǎn)指向波束形成器生成DRR估計(jì)的示例性計(jì)算設(shè)備(800)高級(jí)別框圖,其中生成的DRR估計(jì)在各種房間大小、混響時(shí)間以及源頭-接收器距離上是精確的。根據(jù)至少一個(gè)實(shí)施例,計(jì)算設(shè)備(800)可以被配置為利用空間選擇來(lái)分離直達(dá)和混響能量并且單獨(dú)地考慮噪聲,從而考慮波束形成器對(duì)混響聲音的響應(yīng)和受噪聲的影響。在非?;九渲?801)中,計(jì)算設(shè)備(800)典型地包括一個(gè)或多個(gè)處理器(810)和系統(tǒng)存儲(chǔ)器(820)。存儲(chǔ)器總線(xiàn)(830)可以用于處理器(810)和系統(tǒng)存儲(chǔ)器(820)之間的通信。
取決于預(yù)期的配置,處理器(810)能夠包括但不限于微處理器(μP)、微控制器(μC)、數(shù)字信號(hào)處理器(DSP)或其任何組合。處理器(810)能夠包括一個(gè)或多個(gè)級(jí)別的緩存,諸如一級(jí)緩存(811)和二級(jí)緩存(812)、處理器核(813)和寄存器(814)。處理器核(813)可以包括算術(shù)邏輯單元(ALU)、浮點(diǎn)單元(FPU)、數(shù)字信號(hào)處理核(DSP核)或其任何組合。存儲(chǔ)器控制器(816)還可以與處理器(810)一起使用,或者在一些實(shí)現(xiàn)中,存儲(chǔ)器控制器(815)可以是處理器(810)的內(nèi)部部分。
取決于期望的配置,系統(tǒng)存儲(chǔ)器(820)可以是任何類(lèi)型的,包括但不限于易失性存儲(chǔ)器(諸如RAM)、非易失性存儲(chǔ)器(諸如ROM,
快閃存儲(chǔ)器等)或其任何組合。系統(tǒng)存儲(chǔ)器(820)通常包括操作系統(tǒng)(821)、一個(gè)或多個(gè)應(yīng)用(822)和程序數(shù)據(jù)(824)。根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例,應(yīng)用(822)可以包括用于使用空間選擇來(lái)分離直達(dá)和混響能量并單獨(dú)地考慮環(huán)境噪聲來(lái)生成DRR估計(jì)的DRR估計(jì)算法(823)。根據(jù)這里描述的一個(gè)或多個(gè)實(shí)施例,程序數(shù)據(jù)(824)可以包括存儲(chǔ)指令,該指令在由一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí),實(shí)現(xiàn)通過(guò)使用零點(diǎn)指向波束形成器來(lái)估計(jì)DRR的方法,其中所估計(jì)的DRR可以用于評(píng)估相應(yīng)的聲學(xué)配置,并且還可以通知一個(gè)或多個(gè)去混響算法。
另外,根據(jù)至少一個(gè)實(shí)施例,程序數(shù)據(jù)(824)可以包括音頻信號(hào)數(shù)據(jù)(825),其可以包括關(guān)于房間或區(qū)域內(nèi)麥克風(fēng)位置的數(shù)據(jù),房間或區(qū)域的幾何形狀,以及房間或區(qū)域(其一起可以構(gòu)成AIR)中的各種表面的反射率。在一些實(shí)施例中,應(yīng)用(822)可以被布置為與操作系統(tǒng)(821)上的程序數(shù)據(jù)(824)一起操作。
計(jì)算設(shè)備(800)可以具有附加特征或功能、以及附加接口以便于基本配置(801)與任何所需設(shè)備和接口之間的通信。
系統(tǒng)存儲(chǔ)器(820)是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、ROM、EEPROM、快閃存儲(chǔ)器或其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(pán)(DVD)或其他光學(xué)存儲(chǔ)器、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)器或其他磁存儲(chǔ)設(shè)備或可以用于存儲(chǔ)所需信息并且可以由計(jì)算設(shè)備800訪(fǎng)問(wèn)的任何其他介質(zhì)。任何這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備(800)的一部分。
計(jì)算設(shè)備(800)可以被實(shí)現(xiàn)為小型便攜式(或移動(dòng))電子設(shè)備的一部分,例如蜂窩電話(huà)、智能電話(huà)、個(gè)人數(shù)字助理(PDA)、個(gè)人媒體播放器設(shè)備、平板計(jì)算機(jī)(平板)、無(wú)線(xiàn)web觀看設(shè)備、個(gè)人頭戴式耳機(jī)設(shè)備(personal headset device)、專(zhuān)用設(shè)備或包括任何上述功能的混合設(shè)備。計(jì)算設(shè)備(800)還可以被實(shí)現(xiàn)為包括膝上型計(jì)算機(jī)和非膝上型計(jì)算機(jī)的個(gè)人計(jì)算機(jī)。
前述詳細(xì)描述已經(jīng)通過(guò)使用框圖、流程圖和/或示例闡述了設(shè)備和/或過(guò)程的各種實(shí)施例。在這樣的框圖、流程圖和/或示例包含一個(gè)或多個(gè)功能和/或操作的范圍內(nèi),本領(lǐng)域技術(shù)人員將理解,可以單獨(dú)地和/或共同地由大范圍的硬件、軟件、固件或?qū)嵸|(zhì)上它們的任何組合來(lái)實(shí)現(xiàn)這樣的框圖、流程圖或示例中的每個(gè)功能和/操作。根據(jù)至少一個(gè)實(shí)施例,描述的幾個(gè)部分主題可以經(jīng)由專(zhuān)用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、數(shù)字信號(hào)處理器(DSP)或其他集成格式來(lái)實(shí)現(xiàn)。然而,根據(jù)本公開(kāi),本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到,本文公開(kāi)的實(shí)施例一些方面可以全部或部分等效地實(shí)現(xiàn)在集成電路中,作為在一個(gè)或多個(gè)計(jì)算機(jī)上運(yùn)行的一個(gè)或多個(gè)計(jì)算機(jī)程序,作為一個(gè)或多個(gè)程序在一個(gè)或多個(gè)處理器上運(yùn)行,作為固件或作為實(shí)際上其任何組合,并且設(shè)計(jì)電路和/或?qū)懭胗糜谲浖?或固件代碼將在本領(lǐng)域技術(shù)人員之一的技術(shù)內(nèi)。
另外,本領(lǐng)域技術(shù)人員將理解,本文描述的主題機(jī)制能夠作為程序產(chǎn)品以各種形式分布,并且在不考慮實(shí)際執(zhí)行分布的非暫時(shí)性信號(hào)承載介質(zhì)的特定類(lèi)型的情況下,本文描述的主題說(shuō)明性實(shí)施例適用。非暫時(shí)性信號(hào)承載介質(zhì)的示例包括但不限于以下:可記錄型介質(zhì)、諸如軟盤(pán)、硬盤(pán)驅(qū)動(dòng)器、壓縮盤(pán)(CD)、數(shù)字視頻盤(pán)(DVD)、數(shù)字帶(digital tape)、計(jì)算機(jī)存儲(chǔ)器等;以及諸如數(shù)字和/或模擬通信介質(zhì)(例如,光纖線(xiàn)纜、波導(dǎo)、有線(xiàn)通信鏈路、無(wú)線(xiàn)通信鏈路等)的傳輸型介質(zhì)。
關(guān)于本文中大體上任何復(fù)數(shù)和/或單數(shù)術(shù)語(yǔ)的使用,本領(lǐng)域技術(shù)人員可以根場(chǎng)境和/或應(yīng)用適當(dāng)?shù)貜膹?fù)數(shù)轉(zhuǎn)換為單數(shù)和/或從單數(shù)轉(zhuǎn)換為復(fù)數(shù)。為了明晰,本文中可以明確地闡述各種單數(shù)/復(fù)數(shù)置換。
因此,描述了主題的特定實(shí)施例。其他實(shí)施例在所附權(quán)利要求的范圍內(nèi)。在一些情況下,權(quán)利要求中敘述的行動(dòng)可以以不同的順序執(zhí)行并且仍然實(shí)現(xiàn)期望的結(jié)果。另外,附圖中描繪的過(guò)程不一定需要所示的特定順序或按次序的順序,以實(shí)現(xiàn)期望的結(jié)果。在一些實(shí)現(xiàn)中,多任務(wù)處理和并行處理可能是有利的。
權(quán)利要求書(shū)(按照條約第19條的修改)
1.一種計(jì)算機(jī)實(shí)現(xiàn)方法(200),包括:
在直達(dá)路徑信號(hào)分量的方向上,使用波束形成器零點(diǎn)將音頻信號(hào)分離(205)為所述直達(dá)路徑信號(hào)分量以及混響路徑信號(hào)分量;
對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定(210)所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率;以及
組合相對(duì)于所述頻率窗口的范圍所確定的比率(215)。
2.根據(jù)權(quán)利要求1所述的方法,還包括:
基于所組合的比率,對(duì)音頻信號(hào)執(zhí)行去混響。
3.根據(jù)權(quán)利要求1所述的方法,其中,在所述直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn),包括:
選擇用于所述波束形成器的權(quán)重,以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。
4.根據(jù)權(quán)利要求3所述的方法,其中,使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。
5.根據(jù)權(quán)利要求1所述的方法,還包括:
補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。
6.一種計(jì)算機(jī)實(shí)現(xiàn)方法,包括:
通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn),從而從音頻信號(hào)的混響路徑信號(hào)分量分離所述直達(dá)路徑信號(hào)分量以去除所述音頻信號(hào)的直達(dá)路徑信號(hào)分量;
對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率;以及
組合相對(duì)于所述頻率窗口的范圍所確定的比率。
7.根據(jù)權(quán)利要求6所述的方法,其中,在所述直達(dá)路徑信號(hào)分量的方向上放置所述波束形成器零點(diǎn),包括:
選擇用于所述波束形成器的權(quán)重,以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。
8.根據(jù)權(quán)利要求7所述的方法,其中,使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。
9.根據(jù)權(quán)利要求6所述的方法,還包括:
補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。
10.一種系統(tǒng),包括:
至少一個(gè)處理器;以及
非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),所述非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到所述至少一個(gè)處理器、具有在其上存儲(chǔ)的指令,所述指令在由所述至少一個(gè)處理器執(zhí)行時(shí)使所述至少一個(gè)處理器:
在直達(dá)路徑信號(hào)分量的方向上,使用波束形成器零點(diǎn)將音頻信號(hào)分離為所述直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量;
對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率;以及
組合相對(duì)于所述頻率窗口的范圍所確定的比率。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,進(jìn)一步使所述至少一個(gè)處理器:
基于所組合的比率,對(duì)音頻信號(hào)執(zhí)行去混響。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,進(jìn)一步使所述至少一個(gè)處理器:
選擇用于所述波束形成器的權(quán)重,以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。
14.根據(jù)權(quán)利要求10所述的系統(tǒng),其中,進(jìn)一步使所述至少一個(gè)處理器:
補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。
15.一種系統(tǒng),包括:
至少一個(gè)處理器;以及
非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),所述非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到所述至少一個(gè)處理器、具有在其上存儲(chǔ)的指令,所述指令在由所述至少一個(gè)處理器執(zhí)行時(shí)使所述至少一個(gè)處理器:
通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn),從而從音頻信號(hào)的混響路徑信號(hào)分量分離所述直達(dá)路徑信號(hào)分量以去除所述音頻信號(hào)的直達(dá)路徑信號(hào)分量;
對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口,確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率;以及
組合相對(duì)于所述頻率窗口的范圍所確定的比率。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,進(jìn)一步使所述至少一個(gè)處理器:
選擇用于所述波束形成器的權(quán)重,以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。
18.根據(jù)權(quán)利要求15所述的系統(tǒng),其中,進(jìn)一步使至少一個(gè)處理器:
補(bǔ)償在所述波束形成器處接收的估計(jì)噪聲。