混響估計(jì)器的制作方法

文檔序號(hào)：12142441閱讀：242來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

當(dāng)在具有一個(gè)或多個(gè)麥克風(fēng)的房間中捕獲音頻(例如，語(yǔ)音)時(shí)，除了環(huán)境噪聲源之外，所捕獲的信號(hào)通過(guò)房間中的聲音反射(通常稱(chēng)為“混響”)被更改。通常，這種更改通過(guò)語(yǔ)音增強(qiáng)信號(hào)處理技術(shù)來(lái)處理。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明內(nèi)容以簡(jiǎn)化形式介紹概念的選擇，以便提供對(duì)本公開(kāi)的一些方面的基本理解。本發(fā)明內(nèi)容不是本公開(kāi)的廣泛概述，并且不意圖標(biāo)識(shí)本公開(kāi)的關(guān)鍵或重要元素或描述本公開(kāi)的范圍。本發(fā)明內(nèi)容僅提出本公開(kāi)的一些概念作為以下提供的具體實(shí)施方式的前序。

本公開(kāi)廣泛涉及用于信號(hào)處理的方法和系統(tǒng)。更具體地，本公開(kāi)涉及使用零點(diǎn)指向(null-steered)波束形成器來(lái)產(chǎn)生直達(dá)與混響聲能比(DRR(Direct-to-Reverberant Ratio))估計(jì)的方面。

本公開(kāi)的一個(gè)實(shí)施例涉及一種計(jì)算機(jī)實(shí)現(xiàn)方法，包括：

使用波束形成器將音頻信號(hào)分離為直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量；對(duì)于多個(gè)頻率窗口(frequency bin)中的每個(gè)頻率窗口，確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率；以及組合相對(duì)于頻率窗口的范圍所確定的比率。

在另一個(gè)實(shí)施例中，將音頻信號(hào)分離成直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量包括：通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)來(lái)去除直達(dá)路徑信號(hào)分量。

在另一個(gè)實(shí)施例中，在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)包括：選擇用于波束形成器的權(quán)重，以將零點(diǎn)指向朝著直達(dá)路徑信號(hào)分量的到達(dá)方向。

在另一個(gè)實(shí)施例中，該方法還包括：補(bǔ)償波束形成器處接收的估計(jì)噪聲。

本公開(kāi)的另一實(shí)施例涉及一種計(jì)算機(jī)實(shí)現(xiàn)方法，該方法包括：通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn)，從而從音頻信號(hào)的混響路徑信號(hào)分量分離直達(dá)路徑信號(hào)分量以去除音頻信號(hào)的直達(dá)路徑信號(hào)分量；對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率；以及組合相對(duì)于頻率窗口的范圍所確定的比率。

本公開(kāi)的又一實(shí)施例涉及一種系統(tǒng)，該系統(tǒng)包括：至少一個(gè)處理器；以及非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到至少一個(gè)處理器，非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)具有在其上存儲(chǔ)的指令，該指令在由至少一個(gè)處理器執(zhí)行時(shí)，使至少一個(gè)處理器：

使用波束形成器將音頻信號(hào)分離為直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量；對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率；以及組合相對(duì)于頻率窗口的范圍所確定的比率。

在另一個(gè)實(shí)施例中，進(jìn)一步使系統(tǒng)的至少一個(gè)處理器通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)來(lái)去除直達(dá)路徑信號(hào)分量。

在另外一個(gè)實(shí)施例中，進(jìn)一步使系統(tǒng)的至少一個(gè)處理器選擇用于波束形成器的權(quán)重，以將零點(diǎn)指向朝著直達(dá)路徑信號(hào)分量的到達(dá)方向。

在另一個(gè)實(shí)施例中，進(jìn)一步使系統(tǒng)的至少一個(gè)處理器補(bǔ)償波束形成器處接收的估計(jì)噪聲。

本公開(kāi)的又一實(shí)施例涉及一種系統(tǒng)，該系統(tǒng)包括：至少一個(gè)處理器；以及非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到至少一個(gè)處理器，該非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)具有在其上存儲(chǔ)的指令，該指令在由至少一個(gè)處理器執(zhí)行時(shí)，使至少一個(gè)處理器：通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn)，從而從音頻信號(hào)的混響路徑信號(hào)分量分離直達(dá)路徑信號(hào)分量以去除音頻信號(hào)的直達(dá)路徑信號(hào)分量；對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定直達(dá)路徑信號(hào)分量的功率與混響路徑信號(hào)分量的功率的比率；以及組合相對(duì)于頻率窗口的范圍所確定的比率。

根據(jù)以下給出的詳細(xì)描述，本公開(kāi)進(jìn)一步適用范圍將變得顯而易見(jiàn)。然而，應(yīng)當(dāng)理解的是，詳細(xì)說(shuō)明和具體實(shí)施例雖然指示優(yōu)選實(shí)施例，但是僅以說(shuō)明方式給出，因?yàn)樵诒竟_(kāi)的精神和范圍內(nèi)的各種改變和更改對(duì)于本領(lǐng)域技術(shù)人員而言將從具體實(shí)施方式變得顯而易見(jiàn)。

附圖說(shuō)明

對(duì)于本領(lǐng)域技術(shù)人員而言，從下面結(jié)合所附權(quán)利要求和附圖的具體實(shí)施方式的學(xué)習(xí)，本公開(kāi)的這些和其他目的、特征和特性將變得更顯而易見(jiàn)，所有這些形成本說(shuō)明書(shū)的一部分。在附圖中：

圖1是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例應(yīng)用的示意圖。

圖2是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的用于生成DRR估計(jì)的示例方法的流程圖。

圖3是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的示例偶極子束模式的圖形表示。

圖4是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在10dB的信噪比(SNR)的基線(xiàn)算法的圖形表示。

圖5是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在20dB SNR的基線(xiàn)算法的圖形表示。

圖6是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的DRR估計(jì)算法的示例性能結(jié)果、沒(méi)有噪聲補(bǔ)償?shù)腄RR估計(jì)算法的公式以及在30dB SNR的基線(xiàn)算法的圖形表示。

圖7是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的噪聲估計(jì)誤差對(duì)平均DRR估計(jì)的示例性影響的圖形表示。

圖8是示出根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的被布置為使用零點(diǎn)指向波束形成器生成DRR估計(jì)的示例計(jì)算設(shè)備的框圖。

本文提供的標(biāo)題僅為方便，并且不必影響本公開(kāi)所要求保護(hù)的內(nèi)容范圍或含義。

在附圖中，相同的附圖標(biāo)記和任何縮寫(xiě)詞識(shí)別具有相同或相似結(jié)構(gòu)或功能的元件或動(dòng)作，以便于理解和方便性。附圖將在下面的具體實(shí)施方式中詳細(xì)描述。

具體實(shí)施方式

概述

現(xiàn)在將描述各種示例和實(shí)施例。以下描述提供用于全面理解和實(shí)現(xiàn)這些示例描述的具體細(xì)節(jié)。然而，相關(guān)領(lǐng)域的技術(shù)人員將理解，在缺乏許多細(xì)節(jié)的情況下也可以實(shí)踐本文描述的一個(gè)或多個(gè)實(shí)施例。相同地，相關(guān)領(lǐng)域的技術(shù)人員也將理解，本公開(kāi)的一個(gè)或多個(gè)實(shí)施例可以包括本文未詳細(xì)描述的許多其他明顯特征。另外，一些公知的結(jié)構(gòu)或功能可能未在下面詳細(xì)示出或描述，以便避免不必要地模糊相關(guān)描述。

確定環(huán)境的聲學(xué)特性對(duì)于語(yǔ)音增強(qiáng)和識(shí)別是重要的?；祉懞铜h(huán)境噪聲對(duì)音頻信號(hào)(例如，包含語(yǔ)音的信號(hào))的更改，通常通過(guò)語(yǔ)音增強(qiáng)信號(hào)處理技術(shù)來(lái)處理。如果已知相對(duì)于語(yǔ)音的混響水平，則可以改進(jìn)語(yǔ)音增強(qiáng)算法的性能，本公開(kāi)提供了用于估計(jì)該關(guān)系的方法和系統(tǒng)。

混響影響房間中遠(yuǎn)距離語(yǔ)音記錄的質(zhì)量和可理解性。直達(dá)與混響聲能比(DRR)為直達(dá)聲音(例如，語(yǔ)音)和混響的能量(例如，強(qiáng)度)之間的比率，是用于評(píng)估聲學(xué)配置的有用測(cè)量，并且可用于通知去混響(de-reverberation)算法。本文將更詳細(xì)地描述，本公開(kāi)實(shí)施例涉及可應(yīng)用的DRR估計(jì)算法，其中利用兩個(gè)或更多個(gè)麥克風(fēng)(諸如移動(dòng)通信設(shè)備，膝上型計(jì)算機(jī)等)記錄信號(hào)。

根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例，本公開(kāi)的方法和系統(tǒng)使用零點(diǎn)指向波束形成器在各種房間大小、混響時(shí)間及源頭與接收器距離產(chǎn)生±4dB內(nèi)精確的DRR估計(jì)。此外，所呈現(xiàn)的方法和系統(tǒng)對(duì)于背景噪聲比現(xiàn)有方法更穩(wěn)健。以下面將進(jìn)一步詳細(xì)描述的，在至少一個(gè)假設(shè)場(chǎng)景中，可以在從-5到5dB的區(qū)域中獲得最準(zhǔn)確的DRR估計(jì)，這為便攜式設(shè)備的相關(guān)范圍。

當(dāng)聲學(xué)脈沖響應(yīng)(AIR)可用時(shí)，可以通過(guò)檢查AIR的開(kāi)端及衰減特性從脈沖響應(yīng)估計(jì)DRR。然而，當(dāng)AIR不可用時(shí)，必須從記錄的語(yǔ)音來(lái)估計(jì)DRR。諸如膝上型計(jì)算機(jī)、智能電話(huà)等的便攜式設(shè)備，已逐漸并入能夠啟用多通道算法的使用的多個(gè)麥克風(fēng)。

非介入式DRR估計(jì)(non-intrusive DRR estimation)的一些現(xiàn)有方法使用信道之間的空間相干性以估計(jì)混響，其假定所有非相干能量是混響。其他現(xiàn)有方法使用調(diào)制頻譜特征，其需要在語(yǔ)音上訓(xùn)練的映射。

考慮到與現(xiàn)有方法相關(guān)的各種缺陷，本公開(kāi)的方法和系統(tǒng)提供了一種新穎的DRR估計(jì)方法，其使用空間選擇來(lái)分離直達(dá)和混響能量并單獨(dú)考慮噪聲。該公式考慮波束形成器對(duì)混響聲音的響應(yīng)和噪聲的影響。

本公開(kāi)的方法和系統(tǒng)具有許多現(xiàn)實(shí)世界應(yīng)用。例如，所述方法和系統(tǒng)可以在計(jì)算設(shè)備(例如，膝上型計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)等)中實(shí)現(xiàn)以改進(jìn)聲音記錄，視頻會(huì)議等。圖1示出其應(yīng)用的示例100，其中音頻源120(例如，用戶(hù)、揚(yáng)聲器等)被定位在具有音頻捕獲設(shè)備110(例如，麥克風(fēng)陣列)陣列的房間105中，并且從源頭120產(chǎn)生的信號(hào)可以跟隨多個(gè)路徑140到達(dá)麥克風(fēng)陣列110。還可以在房間105中存在一個(gè)或多個(gè)背景噪聲源130。在另一示例中，本公開(kāi)方法和系統(tǒng)可以用于移動(dòng)設(shè)備(例如，移動(dòng)電話(huà)，智能電話(huà)，個(gè)人數(shù)字助理(PDA))中以及用于被設(shè)計(jì)成通過(guò)語(yǔ)音識(shí)別來(lái)控制設(shè)備的各種系統(tǒng)中。

以下提供了關(guān)于本公開(kāi)DRR估計(jì)算法的細(xì)節(jié)，并且還描述算法的一些示例性能結(jié)果。圖2示出用于生成DRR估計(jì)的示例性高層級(jí)過(guò)程200。以下將進(jìn)一步描述示例性過(guò)程200中的框205-215的細(xì)節(jié)。

聲學(xué)模型

從房間中給定位置發(fā)射的連續(xù)語(yǔ)音信號(hào)s(t)，將跟隨多個(gè)路徑包括直達(dá)路徑以及來(lái)自墻壁、地板、天花板及在墻壁中其他物體表面的反射到達(dá)任何觀察點(diǎn)。由房間中的M個(gè)麥克風(fēng)陣列中的第m個(gè)麥克風(fēng)捕獲的混響信號(hào)y_m(t)的特征在于由源頭與麥克風(fēng)之間聲道的AIRh_m(t)，使得

y_m(t)＝h_m(t)＊s(t)+v_m(t)，

(1)

其中*代表卷積運(yùn)算，并且v_m(t)是麥克風(fēng)處的加性噪聲。AIR是房間幾何形狀，房間表面的反射率和麥克風(fēng)位置的函數(shù)。讓

h_m(t)＝h_d，m(t)+h_r，m(t)，

(2)

其中h_d，m(t)和h_r，m(t)分別是第m個(gè)麥克風(fēng)的直達(dá)和混響路徑的脈沖響應(yīng)。第m個(gè)麥克風(fēng)的DRRη_m是直接從源頭到達(dá)麥克風(fēng)功率與從房間中一個(gè)或多個(gè)表面反射后到達(dá)功率的比率。DRR可以寫(xiě)為

當(dāng)脈沖響應(yīng)與語(yǔ)音信號(hào)卷積時(shí)，在第m個(gè)麥克風(fēng)處的觀測(cè)為信號(hào)與混響比(SRR)γ由下式給出：

在s(t)的光譜為白色的情況下，SRR等于DRR。非介入式或盲DRR估計(jì)的目的是要從觀察信號(hào)來(lái)估計(jì)η_m。根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例，所述方法和系統(tǒng)使用空間選擇來(lái)分離聲場(chǎng)的直達(dá)和混響分量。

在頻域中的波束形成

空間濾波或波束形成使用兩個(gè)或多個(gè)麥克風(fēng)信號(hào)的加權(quán)組合以實(shí)現(xiàn)特定的方向性模式。復(fù)頻域(complex frequency domain)中的波束形成器的輸出Z(jω)由下式給出

Z(jω)＝(w(jω))^Ty(jω), (5)

其中w(jω)＝[W₀(jω)，W₁(jω)，...，W_M-1(jω)]^T是每個(gè)麥克風(fēng)的復(fù)權(quán)重向量，y(jω)＝[Y₀(jω)，Y₁(jω)，...，Y_M-1(jω)]^T則是麥克風(fēng)信號(hào)的向量。

由于單位平面波入射到麥克風(fēng)上，所以讓第m個(gè)麥克風(fēng)處的信號(hào)為x_m(jω，Ω)，其中Ω＝(φ，θ)是到達(dá)方向(DoA)，并且θ和φ分別為方位角(azimuth)和仰角(elevation)。波束形成器的波束圖案是

D(jω，Ω)＝(w(jω))^Tx(jω，Ω), (6)

其中x(jω，Ω)＝[X₀(jω，Ω)，X₁(jω，Ω)，...，X_M-1(jω，Ω)]^T。

對(duì)于各向同性聲場(chǎng)(例如，完全漫射)，波束形成器的增益G(jω)可由下式給出：

G(jω)＝∫_Ω|D(jω，Ω)|dΩ。 (7)

頻域中的DRR估計(jì)

以下考慮根據(jù)本文描述的一個(gè)或多個(gè)使用波束形成器來(lái)估計(jì)DRR的實(shí)施例。從上述等式(1)和(2)，可以將頻域中麥克風(fēng)m處的信號(hào)定義為

Y_m(jω)＝D_m(jω)+R_m(jω)+V_m(jω), (8)

其中D_m(jω)＝H_m，d(jω)S(jω)，以及R_m(jω)＝H_m，r(jω)S(jω)。

從等式(5)，

Z_y(jω)＝Z_d(jω)+Z_r(jω)+Z_v(jω), (9)

其中

Z_d(jω)＝(w(jω))^Td(jω)

Z_r(jω)＝(w(jω))^Tr(jω)

Z_v(jω)＝(w(jω))^Tv(jω)

以及

d(jω)＝[D₀(jω，D₁(jω)，...，D_M-1(jω)]^T

并且r(jω)和v(jω)被類(lèi)似地定義。

選擇w(jω)使得Z_d(jω)＝0，給出

Z_y(jω)≈Z_r(jω)+Z_v(jω)。 (10)

在混響聲場(chǎng)由從所有方向以相同概率和幅度到達(dá)的平面波組成的簡(jiǎn)化下，波束形成器的增益可以由下式給出：

G(jω)＝∫_Ω|D(jω，Ω)|dΩ。 (11)

因此，波束形成器的輸出可以由下式給出

E{|Z_r(jω)|²}＝G²(jω)E{|R(jω)|²}, (12)

其中E{·}是期望運(yùn)算符；R(jω)是混響能量，獨(dú)立于麥克風(fēng)。將等式(10)代入等式(12)給出

由于可以假定在所有麥克風(fēng)處的混響功率是相同的，所以根據(jù)等式(8)可以寫(xiě)成：

E{|D_m(jω)|²}＝E{|Y_m(jω)|²}-E{|V_m(jω)|²}-E{|R(jω)|²}。 (14)

頻率相關(guān)(frequency dependent)DRR從等式(3)得出為

將等式(13)和(14)代入等式(15)給出：

總的DRR由下式給出

其中ω₁≤ω≤ω₂是感興趣的頻率范圍。

實(shí)施例

為了進(jìn)一步說(shuō)明本公開(kāi)的穩(wěn)健DRR估計(jì)方法和系統(tǒng)的各種特征，以下描述可通過(guò)實(shí)驗(yàn)獲得的一些示例結(jié)果。應(yīng)當(dāng)理解的是，盡管以下提供了二元件麥克風(fēng)陣列的場(chǎng)境中的示例性能結(jié)果，但是本公開(kāi)的范圍不限于該特定場(chǎng)境或?qū)嵤?。盡管以下描述示出對(duì)于少量(例如兩個(gè))麥克風(fēng)可實(shí)現(xiàn)優(yōu)異的性能，并且還示出性能是穩(wěn)健的，但是也可以在各種其他背景和/或場(chǎng)景中，使用本公開(kāi)方法和系統(tǒng)來(lái)實(shí)現(xiàn)以類(lèi)似的性能水平，包括涉及多于兩個(gè)麥克風(fēng)的場(chǎng)境/場(chǎng)景。

在本示例中，從聲學(xué)語(yǔ)音學(xué)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)的測(cè)試分區(qū)中，隨機(jī)選擇語(yǔ)音信號(hào)。對(duì)于具有尺寸為{3米(m)，4m和5m}×6m×3m的房間，這些信號(hào)與使用已知源圖像方法所產(chǎn)生的AIR進(jìn)行卷積，每個(gè)房間的混響時(shí)間(T₆₀)值為0.2秒至1秒，以0.1秒間隔。在每個(gè)房間中，從均勻分布隨機(jī)選擇麥克風(fēng)陣列的四個(gè)位置和輪換，并且源頭被設(shè)置成以0.05、0.10、0.50、1.0、2.0和3.0m的距離垂直于陣列定位。從任何墻壁，不允許麥克風(fēng)或源頭小于0.5米。

使用具有62毫米(mm)間距的二元件麥克風(fēng)陣列來(lái)模擬典型膝上型計(jì)算機(jī)中的麥克風(fēng)。使用延遲和減法方案來(lái)選擇波束形成器權(quán)重，以將零點(diǎn)指向朝著直達(dá)路徑的DoA。

由于所有源頭位置與兩個(gè)麥克風(fēng)為等距，因此這簡(jiǎn)化為簡(jiǎn)單的減法，得到圖3所示熟悉的偶極子束圖案。圖3示出在62mm麥克風(fēng)間隔的情況下二信道零點(diǎn)指向波束形成器在200Hz處的增益和方向性圖案。注意，最大增益為-9.4dB。在實(shí)際應(yīng)用中，需要使用例如對(duì)于本領(lǐng)域技術(shù)人員已知的用于估計(jì)時(shí)間延遲的廣義相關(guān)方法的到達(dá)時(shí)間差的估計(jì)以設(shè)置延遲。

直接從模擬AIR估計(jì)每個(gè)房間的T₆₀，麥克風(fēng)和源頭位置的地面實(shí)況DRR。對(duì)于每個(gè)麥克風(fēng)，在10、20和30dB的SNR處，獨(dú)立添加白高斯噪聲，其中使用本領(lǐng)域技術(shù)人員已知的活動(dòng)語(yǔ)音電平的客觀測(cè)量的實(shí)施方式來(lái)確定清潔功率(clean power)。

在第一實(shí)驗(yàn)裝置中，將使用在已知的E{|V_m(jω)|²}和E{|Z_v(jω)|²}被使用的情況下本公開(kāi)的DRR估計(jì)方法與其中忽略噪聲(SNR假設(shè)為8dB)方法的公式進(jìn)行比較，并且還與基線(xiàn)方法進(jìn)行比較。在實(shí)際應(yīng)用中，可以假設(shè)將使用對(duì)混響穩(wěn)健的噪聲估計(jì)器。為了評(píng)估噪聲估計(jì)誤差對(duì)DRR估計(jì)器的精確度的影響，進(jìn)行對(duì)等式16中的E{|V_m(jω)|²}和E{|Z_v(jω)|²}中的每個(gè)加上±1.5dB的第二實(shí)驗(yàn)。

在本示例中，用于比較的基線(xiàn)方法返回通過(guò)頻率估計(jì)DRR的向量，并且在比較中使用值>-∞的平均值。

圖4-6是示出根據(jù)本公開(kāi)的實(shí)施例(405、505和605)描述的DRR估計(jì)算法精確度的圖形表示、不考慮噪聲的算法公式(410、510和610)、以及在10dB、20dB和30dB的SNR處的基線(xiàn)算法(415、515和615)。如圖形表示405、505和605所示，本公開(kāi)的算法是準(zhǔn)確的，具有在-5到5dB的(地面實(shí)況)DRR范圍上小于3dB誤差。應(yīng)當(dāng)注意地，隨著DRR減小，本公開(kāi)的方法可能傾向于高估DRR。這是假設(shè)反射以相等概率從所有角度到達(dá)的結(jié)果。對(duì)于特定房間和T₆₀，具有較大源頭麥克風(fēng)距離的情況下，獲得較低的DRR。這又導(dǎo)致較強(qiáng)的早期反射從更接近直達(dá)路徑DoA的方向到達(dá)，并且因此更多地被波束形成器零點(diǎn)衰減。通過(guò)考慮等式(12)中的早期反射的情況下，DRR被高估。

在本公開(kāi)的算法公式中包括噪聲的重要性通過(guò)具有和不具有噪聲補(bǔ)償(具有噪聲補(bǔ)償算法的圖形表示405、505和605以及沒(méi)有噪聲補(bǔ)償算法的圖形表示410、510和610)的算法的示例精確度與基線(xiàn)算法(圖形表示415、515和615)進(jìn)行比較是明顯的。在沒(méi)有噪聲補(bǔ)償?shù)那闆r下，本公開(kāi)的方法遵循基線(xiàn)算法傾向隨著噪聲增加而低估DRR。相反地，在噪聲被公式中的情況下，本公開(kāi)方法的精確度在所示SNR的范圍上(在圖形表示405、505和605中)是一致的，只有估計(jì)的標(biāo)準(zhǔn)偏差略微增加。

圖7示出噪聲估計(jì)誤差對(duì)平均DRR估計(jì)的示例影響。具體地，圖形表示700示出在參考麥克風(fēng)處和在波束形成器的輸出處的噪聲估計(jì)中誤差的敏感度。在影響直達(dá)的和波束形成的功率的相反極性誤差(曲線(xiàn)710和720)存在的情況下，DRR估計(jì)保持接近沒(méi)有誤差的情況(曲線(xiàn)715)，有效地彼此抵消。在誤差具有相同極性(曲線(xiàn)705和725)的情況下，在每個(gè)項(xiàng)上存在±1.5dB誤差的加性效應(yīng)(additive effect)，導(dǎo)致總體上±3dB誤差。這表示本公開(kāi)方法對(duì)噪聲估計(jì)器中的偏差比其方差更敏感。

應(yīng)當(dāng)注意的，除了上述示例配置之外，本公開(kāi)的方法和系統(tǒng)被設(shè)計(jì)為以源頭相對(duì)于麥克風(fēng)陣列的許多其他配置(例如，定位)來(lái)實(shí)現(xiàn)相似性能。例如，本文描述的DRR估計(jì)算法能夠在選擇適當(dāng)波束形成器的情況下應(yīng)用于具有任意數(shù)目麥克風(fēng)的多信道系統(tǒng)。

從上述描述顯而易見(jiàn)，本公開(kāi)的方法和系統(tǒng)提供一種用于在考慮到噪聲的情況下從多信道語(yǔ)音估計(jì)DRR的新穎方法。上述示例性能結(jié)果證實(shí)本發(fā)明的方法和系統(tǒng)在實(shí)際SNR處比基線(xiàn)對(duì)噪聲更加穩(wěn)健。所描述的公式根據(jù)頻率返回DRR的估計(jì)，并且因此根據(jù)一個(gè)或多個(gè)實(shí)施例，如果需要，可以提供頻率相關(guān)DRR。另外，由于方法和系統(tǒng)不依賴(lài)于語(yǔ)音統(tǒng)計(jì)，所以根據(jù)一個(gè)或多個(gè)其他實(shí)施例，DRR估計(jì)算法也可以應(yīng)用于音樂(lè)。

圖8是根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例的被布置成用于使用零點(diǎn)指向波束形成器生成DRR估計(jì)的示例性計(jì)算設(shè)備(800)高級(jí)別框圖，其中生成的DRR估計(jì)在各種房間大小、混響時(shí)間以及源頭-接收器距離上是精確的。根據(jù)至少一個(gè)實(shí)施例，計(jì)算設(shè)備(800)可以被配置為利用空間選擇來(lái)分離直達(dá)和混響能量并且單獨(dú)地考慮噪聲，從而考慮波束形成器對(duì)混響聲音的響應(yīng)和受噪聲的影響。在非?；九渲?801)中，計(jì)算設(shè)備(800)典型地包括一個(gè)或多個(gè)處理器(810)和系統(tǒng)存儲(chǔ)器(820)。存儲(chǔ)器總線(xiàn)(830)可以用于處理器(810)和系統(tǒng)存儲(chǔ)器(820)之間的通信。

取決于預(yù)期的配置，處理器(810)能夠包括但不限于微處理器(μP)、微控制器(μC)、數(shù)字信號(hào)處理器(DSP)或其任何組合。處理器(810)能夠包括一個(gè)或多個(gè)級(jí)別的緩存，諸如一級(jí)緩存(811)和二級(jí)緩存(812)、處理器核(813)和寄存器(814)。處理器核(813)可以包括算術(shù)邏輯單元(ALU)、浮點(diǎn)單元(FPU)、數(shù)字信號(hào)處理核(DSP核)或其任何組合。存儲(chǔ)器控制器(816)還可以與處理器(810)一起使用，或者在一些實(shí)現(xiàn)中，存儲(chǔ)器控制器(815)可以是處理器(810)的內(nèi)部部分。

取決于期望的配置，系統(tǒng)存儲(chǔ)器(820)可以是任何類(lèi)型的，包括但不限于易失性存儲(chǔ)器(諸如RAM)、非易失性存儲(chǔ)器(諸如ROM，

快閃存儲(chǔ)器等)或其任何組合。系統(tǒng)存儲(chǔ)器(820)通常包括操作系統(tǒng)(821)、一個(gè)或多個(gè)應(yīng)用(822)和程序數(shù)據(jù)(824)。根據(jù)本文描述的一個(gè)或多個(gè)實(shí)施例，應(yīng)用(822)可以包括用于使用空間選擇來(lái)分離直達(dá)和混響能量并單獨(dú)地考慮環(huán)境噪聲來(lái)生成DRR估計(jì)的DRR估計(jì)算法(823)。根據(jù)這里描述的一個(gè)或多個(gè)實(shí)施例，程序數(shù)據(jù)(824)可以包括存儲(chǔ)指令，該指令在由一個(gè)或多個(gè)處理設(shè)備執(zhí)行時(shí)，實(shí)現(xiàn)通過(guò)使用零點(diǎn)指向波束形成器來(lái)估計(jì)DRR的方法，其中所估計(jì)的DRR可以用于評(píng)估相應(yīng)的聲學(xué)配置，并且還可以通知一個(gè)或多個(gè)去混響算法。

另外，根據(jù)至少一個(gè)實(shí)施例，程序數(shù)據(jù)(824)可以包括音頻信號(hào)數(shù)據(jù)(825)，其可以包括關(guān)于房間或區(qū)域內(nèi)麥克風(fēng)位置的數(shù)據(jù)，房間或區(qū)域的幾何形狀，以及房間或區(qū)域(其一起可以構(gòu)成AIR)中的各種表面的反射率。在一些實(shí)施例中，應(yīng)用(822)可以被布置為與操作系統(tǒng)(821)上的程序數(shù)據(jù)(824)一起操作。

計(jì)算設(shè)備(800)可以具有附加特征或功能、以及附加接口以便于基本配置(801)與任何所需設(shè)備和接口之間的通信。

系統(tǒng)存儲(chǔ)器(820)是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括但不限于RAM、ROM、EEPROM、快閃存儲(chǔ)器或其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(pán)(DVD)或其他光學(xué)存儲(chǔ)器、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)器或其他磁存儲(chǔ)設(shè)備或可以用于存儲(chǔ)所需信息并且可以由計(jì)算設(shè)備800訪(fǎng)問(wèn)的任何其他介質(zhì)。任何這樣的計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備(800)的一部分。

計(jì)算設(shè)備(800)可以被實(shí)現(xiàn)為小型便攜式(或移動(dòng))電子設(shè)備的一部分，例如蜂窩電話(huà)、智能電話(huà)、個(gè)人數(shù)字助理(PDA)、個(gè)人媒體播放器設(shè)備、平板計(jì)算機(jī)(平板)、無(wú)線(xiàn)web觀看設(shè)備、個(gè)人頭戴式耳機(jī)設(shè)備(personal headset device)、專(zhuān)用設(shè)備或包括任何上述功能的混合設(shè)備。計(jì)算設(shè)備(800)還可以被實(shí)現(xiàn)為包括膝上型計(jì)算機(jī)和非膝上型計(jì)算機(jī)的個(gè)人計(jì)算機(jī)。

前述詳細(xì)描述已經(jīng)通過(guò)使用框圖、流程圖和/或示例闡述了設(shè)備和/或過(guò)程的各種實(shí)施例。在這樣的框圖、流程圖和/或示例包含一個(gè)或多個(gè)功能和/或操作的范圍內(nèi)，本領(lǐng)域技術(shù)人員將理解，可以單獨(dú)地和/或共同地由大范圍的硬件、軟件、固件或?qū)嵸|(zhì)上它們的任何組合來(lái)實(shí)現(xiàn)這樣的框圖、流程圖或示例中的每個(gè)功能和/操作。根據(jù)至少一個(gè)實(shí)施例，描述的幾個(gè)部分主題可以經(jīng)由專(zhuān)用集成電路(ASIC)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、數(shù)字信號(hào)處理器(DSP)或其他集成格式來(lái)實(shí)現(xiàn)。然而，根據(jù)本公開(kāi)，本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到，本文公開(kāi)的實(shí)施例一些方面可以全部或部分等效地實(shí)現(xiàn)在集成電路中，作為在一個(gè)或多個(gè)計(jì)算機(jī)上運(yùn)行的一個(gè)或多個(gè)計(jì)算機(jī)程序，作為一個(gè)或多個(gè)程序在一個(gè)或多個(gè)處理器上運(yùn)行，作為固件或作為實(shí)際上其任何組合，并且設(shè)計(jì)電路和/或?qū)懭胗糜谲浖?或固件代碼將在本領(lǐng)域技術(shù)人員之一的技術(shù)內(nèi)。

另外，本領(lǐng)域技術(shù)人員將理解，本文描述的主題機(jī)制能夠作為程序產(chǎn)品以各種形式分布，并且在不考慮實(shí)際執(zhí)行分布的非暫時(shí)性信號(hào)承載介質(zhì)的特定類(lèi)型的情況下，本文描述的主題說(shuō)明性實(shí)施例適用。非暫時(shí)性信號(hào)承載介質(zhì)的示例包括但不限于以下：可記錄型介質(zhì)、諸如軟盤(pán)、硬盤(pán)驅(qū)動(dòng)器、壓縮盤(pán)(CD)、數(shù)字視頻盤(pán)(DVD)、數(shù)字帶(digital tape)、計(jì)算機(jī)存儲(chǔ)器等；以及諸如數(shù)字和/或模擬通信介質(zhì)(例如，光纖線(xiàn)纜、波導(dǎo)、有線(xiàn)通信鏈路、無(wú)線(xiàn)通信鏈路等)的傳輸型介質(zhì)。

關(guān)于本文中大體上任何復(fù)數(shù)和/或單數(shù)術(shù)語(yǔ)的使用，本領(lǐng)域技術(shù)人員可以根場(chǎng)境和/或應(yīng)用適當(dāng)?shù)貜膹?fù)數(shù)轉(zhuǎn)換為單數(shù)和/或從單數(shù)轉(zhuǎn)換為復(fù)數(shù)。為了明晰，本文中可以明確地闡述各種單數(shù)/復(fù)數(shù)置換。

因此，描述了主題的特定實(shí)施例。其他實(shí)施例在所附權(quán)利要求的范圍內(nèi)。在一些情況下，權(quán)利要求中敘述的行動(dòng)可以以不同的順序執(zhí)行并且仍然實(shí)現(xiàn)期望的結(jié)果。另外，附圖中描繪的過(guò)程不一定需要所示的特定順序或按次序的順序，以實(shí)現(xiàn)期望的結(jié)果。在一些實(shí)現(xiàn)中，多任務(wù)處理和并行處理可能是有利的。

權(quán)利要求書(shū)(按照條約第19條的修改)

1.一種計(jì)算機(jī)實(shí)現(xiàn)方法(200)，包括：

在直達(dá)路徑信號(hào)分量的方向上，使用波束形成器零點(diǎn)將音頻信號(hào)分離(205)為所述直達(dá)路徑信號(hào)分量以及混響路徑信號(hào)分量；

對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定(210)所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率；以及

組合相對(duì)于所述頻率窗口的范圍所確定的比率(215)。

2.根據(jù)權(quán)利要求1所述的方法，還包括：

基于所組合的比率，對(duì)音頻信號(hào)執(zhí)行去混響。

3.根據(jù)權(quán)利要求1所述的方法，其中，在所述直達(dá)路徑信號(hào)分量的方向上放置零點(diǎn)，包括：

選擇用于所述波束形成器的權(quán)重，以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。

4.根據(jù)權(quán)利要求3所述的方法，其中，使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。

5.根據(jù)權(quán)利要求1所述的方法，還包括：

補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。

6.一種計(jì)算機(jī)實(shí)現(xiàn)方法，包括：

通過(guò)在直達(dá)路徑信號(hào)分量的方向上放置波束形成器零點(diǎn)，從而從音頻信號(hào)的混響路徑信號(hào)分量分離所述直達(dá)路徑信號(hào)分量以去除所述音頻信號(hào)的直達(dá)路徑信號(hào)分量；

對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率；以及

組合相對(duì)于所述頻率窗口的范圍所確定的比率。

7.根據(jù)權(quán)利要求6所述的方法，其中，在所述直達(dá)路徑信號(hào)分量的方向上放置所述波束形成器零點(diǎn)，包括：

選擇用于所述波束形成器的權(quán)重，以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。

8.根據(jù)權(quán)利要求7所述的方法，其中，使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。

9.根據(jù)權(quán)利要求6所述的方法，還包括：

補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。

10.一種系統(tǒng)，包括：

至少一個(gè)處理器；以及

非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)，所述非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)被耦合到所述至少一個(gè)處理器、具有在其上存儲(chǔ)的指令，所述指令在由所述至少一個(gè)處理器執(zhí)行時(shí)使所述至少一個(gè)處理器：

在直達(dá)路徑信號(hào)分量的方向上，使用波束形成器零點(diǎn)將音頻信號(hào)分離為所述直達(dá)路徑信號(hào)分量及混響路徑信號(hào)分量；

對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率；以及

組合相對(duì)于所述頻率窗口的范圍所確定的比率。

11.根據(jù)權(quán)利要求10所述的系統(tǒng)，其中，進(jìn)一步使所述至少一個(gè)處理器：

基于所組合的比率，對(duì)音頻信號(hào)執(zhí)行去混響。

12.根據(jù)權(quán)利要求10所述的系統(tǒng)，其中，進(jìn)一步使所述至少一個(gè)處理器：

選擇用于所述波束形成器的權(quán)重，以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。

13.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中，使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。

14.根據(jù)權(quán)利要求10所述的系統(tǒng)，其中，進(jìn)一步使所述至少一個(gè)處理器：

補(bǔ)償所述波束形成器處接收的估計(jì)噪聲。

15.一種系統(tǒng)，包括：

至少一個(gè)處理器；以及

對(duì)于多個(gè)頻率窗口中的每個(gè)頻率窗口，確定所述直達(dá)路徑信號(hào)分量的功率與所述混響路徑信號(hào)分量的功率的比率；以及

組合相對(duì)于所述頻率窗口的范圍所確定的比率。

16.根據(jù)權(quán)利要求15所述的系統(tǒng)，其中，進(jìn)一步使所述至少一個(gè)處理器：

選擇用于所述波束形成器的權(quán)重，以將零點(diǎn)指向朝著所述直達(dá)路徑信號(hào)分量的到達(dá)方向。

17.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中，使用延遲及減法方案來(lái)選擇所述波束形成器的權(quán)重。

18.根據(jù)權(quán)利要求15所述的系統(tǒng)，其中，進(jìn)一步使至少一個(gè)處理器：

補(bǔ)償在所述波束形成器處接收的估計(jì)噪聲。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·詹姆士·伊頓;阿拉斯泰爾·H·摩爾;帕特里克·A·內(nèi)勒;簡(jiǎn)·斯科格隆;
技術(shù)所有人：谷歌公司;
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

混響效果器相關(guān)技術(shù)

麥克風(fēng)混響效果器相關(guān)技術(shù)

yy麥克風(fēng)混響效果器相關(guān)技術(shù)

混響器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

混響估計(jì)器的制作方法