專利名稱:多麥克風(fēng)語(yǔ)音活動(dòng)檢測(cè)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音活動(dòng)檢測(cè)器。更具體地,本發(fā)明的實(shí)施例涉及利用兩個(gè)或多個(gè)麥克風(fēng)的語(yǔ)音活動(dòng)檢測(cè)器。
背景技術(shù):
除非在此指出,否則本部分所描述的方案不是本申請(qǐng)中權(quán)利要求的現(xiàn)有技術(shù),并且不會(huì)因?yàn)榘诒静糠侄怀姓J(rèn)是現(xiàn)有技術(shù)。語(yǔ)音活動(dòng)檢測(cè)器(VAD)的一個(gè)功能在于檢測(cè)麥克風(fēng)所記錄的音頻信號(hào)區(qū)域中存在或者不存在人的語(yǔ)音。在關(guān)于由VAD模塊所決定的語(yǔ)音是否存在于其中的輸入信號(hào)上使用的不同處理機(jī)制的上下文中,VAD在許多語(yǔ)音處理系統(tǒng)中起作用。在這些應(yīng)用中,精確且魯棒的VAD性能可影響整體性能。例如,在語(yǔ)音通信系統(tǒng)中,DTX (不連續(xù)傳輸)通常被用來(lái)改善帶寬使用效率。在這種系統(tǒng)中,利用VAD確定輸入信號(hào)中是否存在語(yǔ)音,并且如果不存在語(yǔ)音,則停止語(yǔ)音信號(hào)的實(shí)際傳輸。這里,將語(yǔ)音錯(cuò)分類為干擾會(huì)導(dǎo)致傳輸信號(hào)中的語(yǔ)音減弱,并影響其可理解性(intelligibility)。作為示例,在語(yǔ)音增強(qiáng)系統(tǒng)中,通常需要估計(jì)所記錄的信號(hào)中的干擾信號(hào)的水平(level)。這通常是在VAD的幫助下進(jìn)行的,其中從僅包含干擾信號(hào)的部分估計(jì)干擾水平。例如,參見(jiàn)A.M.Kondoz的Digital Speech Coding forLow Bit Rate Communication Systems 的第 11 章(John Wiley&Sons, 2004)。在這個(gè)例子中,不準(zhǔn)確的VAD會(huì)導(dǎo)致干擾水平的過(guò)估計(jì)(over-estimate)或低估計(jì)(under-estimate),這最終會(huì)導(dǎo)致非最理想的(suboptimal)語(yǔ)音增強(qiáng)質(zhì)量。之前已經(jīng)提出了多種VAD系統(tǒng)。例如,參見(jiàn)A.M.Kondoz撰寫(xiě)的Digital SpeechCoding for Low Bit Rate Communication Systems 的第 10 章(John Wiley&Sons, 2004)。這些系統(tǒng)中的一些利用目標(biāo)語(yǔ)音和干擾之間的差異的統(tǒng)計(jì)方面,并依賴閾值比較方法從干擾信號(hào)中區(qū)分出目標(biāo)語(yǔ)音。原先用于這些系統(tǒng)中的統(tǒng)計(jì)測(cè)量包括能量水平、計(jì)時(shí)、音調(diào)、零相交率、周期測(cè)量等。多于一種統(tǒng)計(jì)測(cè)量的組合被用于更多的復(fù)雜系統(tǒng),以進(jìn)一步改善檢測(cè)結(jié)果的精度。通常,當(dāng)目標(biāo)語(yǔ)音和干擾具有非常明顯的統(tǒng)計(jì)特征時(shí),例如當(dāng)干擾具有穩(wěn)定的并低于目標(biāo)語(yǔ)音水平的水平時(shí),統(tǒng)計(jì)方法取得好的性能。然而,在更不利的環(huán)境中,尤其在目標(biāo)信號(hào)水平與干擾水平的比值低時(shí)或者干擾信號(hào)具有類似語(yǔ)音的特征時(shí),保持好的性能變成非常具有挑戰(zhàn)性的任務(wù)。
在一些魯棒的自適應(yīng)射束形成(adaptive beamforming)系統(tǒng)設(shè)計(jì)中也可以發(fā)現(xiàn)與麥克風(fēng)陣列組合的VAD。例如,參見(jiàn)0.Hoshuyama, B.Begasse, A.Sugiyama及A.Hirano的“A real time robust adaptive microphone array controlled by an SNR estimate,,,Procedings of the 1998IEEE International Conference on Acoustics, Speech andSignal Processing,1998。那些VAD基于麥克風(fēng)射束形成系統(tǒng)的不同輸出水平的差異,其中目標(biāo)信號(hào)僅存在于一個(gè)輸出中并因?yàn)槠渌敵龆蛔枞R虼?,這種VAD設(shè)計(jì)的有效性可以與射束形成系統(tǒng)在因?yàn)槟切┹敵龆枞繕?biāo)信號(hào)時(shí)的能力有關(guān),在實(shí)時(shí)系統(tǒng)中獲取這種能力會(huì)是昂貴的。與該背景有關(guān)的、但是不被認(rèn)為是下文部分中將描述的示例性發(fā)明實(shí)施例的現(xiàn)有技術(shù)的其他參考包括:參考1:Α.M.Kondoz,“Digital Speech Coding for Low Bit Rate CommunicationSystems”,第 10 章(John Wiley&Sons, 2004);參考2:Α.M.Kondoz,“Digital Speech Coding for Low Bit Rate CommunicationSystems”,第 11 章(John Wiley&Sons, 2004);參考3:J.G.Ryan 和 R.A.Goubran, “Optimal nearfield responses forMicrophone Array,,,見(jiàn) IEEE Workshop Applicat.Signal Processing to Audio Acoust,New Paltz, NY, USA, 1997 ;參考 4:0.Hoshuyama, B.Begasse, A.Sugiyama 及 A.Hirano,“A real timerobust adaptive microphone array controlled by an SNR estimate,,,Proceedingsof thel998IEEE International Conference on Acoustics,Speech and SignalProcessingl998 ;參考5:US20030228023A1/W003083828A1/CA2479758AA,不利環(huán)境中多信道語(yǔ)音檢測(cè)(Multichannel voice detection in adverse environments);以及參考6:US7174022的用于射束形成和噪聲抑制的小陣列麥克風(fēng)(Small arraymicrophone for beam-forming and noise suppression)。
圖1是說(shuō)明根據(jù)本發(fā)明實(shí)施例的一般麥克風(fēng)構(gòu)造的圖;圖2是說(shuō)明根據(jù)本發(fā)明實(shí)施例的包括示例性雙麥克風(fēng)語(yǔ)音活動(dòng)檢測(cè)器的裝置的圖;圖3是說(shuō)明根據(jù)本發(fā)明實(shí)施例的示例性語(yǔ)音活動(dòng)檢測(cè)器系統(tǒng)的框圖;圖4是根據(jù)本發(fā)明實(shí)施例的語(yǔ)音活動(dòng)檢測(cè)的示例性方法的流程圖。
具體實(shí)施例方式在此所述的是用于語(yǔ)音活動(dòng)檢測(cè)的技術(shù)。在下文的描述中,為了解釋的目的提出了許多示例以及具體的細(xì)節(jié),以提供對(duì)本發(fā)明的透徹理解。然而,對(duì)于本領(lǐng)域技術(shù)人員顯而易見(jiàn)的是,由權(quán)利要求限定的本發(fā)明可以僅包括這些示例中的一些或所有特征、或者與下文所述的其他特征相結(jié)合,還可以進(jìn)一步包括在此所述特征和概念的修改以及等價(jià)物。下面將描述各種方法和過(guò)程。以一定順序描述它們主要是為了便于呈現(xiàn)。需要明白的是,可以根據(jù)不同的實(shí)施方式按期望以其他順序來(lái)執(zhí)行具體的步驟或者并行執(zhí)行具體的步驟。當(dāng)特定步驟必須在另一步驟之前或者之后時(shí),當(dāng)根據(jù)上下文不明顯時(shí),會(huì)具體指出這種情況。概要本發(fā)明的實(shí)施例改進(jìn)了 VAD系統(tǒng)。根據(jù)一實(shí)施例,披露了基于雙麥克風(fēng)陣列的VAD系統(tǒng)。在這樣的實(shí)施例中,建立了麥克風(fēng)陣列以使得一個(gè)麥克風(fēng)比另一麥克風(fēng)更靠近目標(biāo)聲音源。通過(guò)比較麥克風(fēng)陣列輸出的信號(hào)水平做出VAD決定。根據(jù)一實(shí)施例,可以以相似的方式使用多于兩個(gè)麥克風(fēng)。進(jìn)一步根據(jù)一實(shí)施例,本發(fā)明包括語(yǔ)音活動(dòng)檢測(cè)的方法。該方法包括在第一麥克風(fēng)處接收第一信號(hào)并在第二麥克風(fēng)處接收第二信號(hào)。第二麥克風(fēng)離開(kāi)第一麥克風(fēng)放置。第一信號(hào)包括第一目標(biāo)分量和第一干擾分量,且第二信號(hào)包括第二目標(biāo)分量和第二干擾分量。根據(jù)麥克風(fēng)之間的距離,第一目標(biāo)分量與第二目標(biāo)分量不同;且根據(jù)麥克風(fēng)之間的距離,第一干擾分量與第二干擾分量不同。該方法進(jìn)一步包括基于第一信號(hào)估計(jì)第一信號(hào)的水平,基于第二信號(hào)估計(jì)第二信號(hào)的水平,基于第一信號(hào)估計(jì)第一噪聲水平,以及基于第二信號(hào)估計(jì)第二噪聲水平。該方法進(jìn)一步包括基于第一信號(hào)水平和第一噪聲水平計(jì)算第一比值,以及基于第二信號(hào)水平和第二噪聲水平計(jì)算第二比值。該方法進(jìn)一步包括基于第一比值和第二比值之間的差計(jì)算當(dāng)前語(yǔ)音活動(dòng)決策。根據(jù)一實(shí)施例,語(yǔ)音獲得檢測(cè)器系統(tǒng)包括第一麥克風(fēng)、第二麥克風(fēng)、信號(hào)水平估計(jì)器、噪聲水平估計(jì)器、第一除法器(divider)、第二除法器以及語(yǔ)音活動(dòng)檢測(cè)器。第一麥克風(fēng)接收包括第一目標(biāo)分量和第一干擾分量的第一信號(hào)。第二麥克風(fēng)離開(kāi)第一麥克風(fēng)放置。第二麥克風(fēng)接收包括第二目標(biāo)分量和第二干擾分量的第二信號(hào)。根據(jù)麥克風(fēng)之間的距離,第一目標(biāo)分量與第二目標(biāo)分量不同,并且第一干擾分量與第二干擾分量不同。信號(hào)水平估計(jì)器基于第一信號(hào)估計(jì)第一信號(hào)的水平,并基于第二信號(hào)估計(jì)第二信號(hào)的水平。噪聲水平估計(jì)器基于第一信號(hào)估計(jì)第一噪聲水平并基于第二信號(hào)估計(jì)第二噪聲水平。第一除法器基于第一信號(hào)水平和第一噪聲水平計(jì)算第一比值。第二除法器基于第二信號(hào)水平和第二噪聲水平計(jì)算第二比值。語(yǔ)音活動(dòng)檢測(cè)器基于第一比值和第二比值之間的差計(jì)算當(dāng)前語(yǔ)音活動(dòng)決策。本發(fā)明的實(shí)施例可以作為方法或者過(guò)程來(lái)執(zhí)行。所述方法可以由電子電路實(shí)施為硬件或軟件、或者它們的組合。用于實(shí)施該過(guò)程的電路可以是(僅僅執(zhí)行特定任務(wù)的)專用電路或者(被編程為執(zhí)行一個(gè)或多個(gè)特定任務(wù)的)通用電路。示例性配置、過(guò)程以及實(shí)施根據(jù)本發(fā)明的實(shí)施例,魯棒VAD系統(tǒng)觀察目標(biāo)語(yǔ)音和干擾信號(hào)之間差異的不同方面。在許多語(yǔ)音通信應(yīng)用(例如電話、移動(dòng)電話等)中,目標(biāo)語(yǔ)音的源(source)通常在距麥克風(fēng)非常短的范圍內(nèi);而干擾信號(hào)通常來(lái)自非常遠(yuǎn)的源。例如,在移動(dòng)電話中,麥克風(fēng)與嘴之間的距離處于2cm IOcm的范圍內(nèi);而干擾通常發(fā)生在距離麥克風(fēng)至少幾米的位置處。根據(jù)聲波傳輸理論知道:在前一種情況中,所記錄信號(hào)的水平對(duì)麥克風(fēng)的位置非常敏感(其方式為,聲源距離麥克風(fēng)越近,將獲得的信號(hào)的水平越大);而如果如后一種情況那樣信號(hào)來(lái)自遠(yuǎn)距離處,則這種敏感性即消失。與上述的統(tǒng)計(jì)差異不同,該差異與聲源的地理位置有關(guān),因此,它是魯棒的和高度可預(yù)知的。這給出了非常魯棒的特征來(lái)區(qū)分目標(biāo)聲音信號(hào)和干擾。為了利用這個(gè)特征,根據(jù)VAD系統(tǒng)的實(shí)施例,使用了小規(guī)模的雙麥克風(fēng)陣列。以這種方式建立麥克風(fēng)陣列,以使得一個(gè)麥克風(fēng)比另一麥克風(fēng)被放置得更靠近目標(biāo)聲源。從而,通過(guò)監(jiān)測(cè)這兩個(gè)麥克風(fēng)輸出的信號(hào)水平來(lái)做出VAD決策。在本文的剩余部分中進(jìn)一步公開(kāi)本發(fā)明實(shí)施例的詳細(xì)實(shí)現(xiàn)。麥克風(fēng)陣列的示例性配置圖1是概念性地示出本發(fā)明實(shí)施例中所用的示例性麥克風(fēng)陣列102的配置的框圖。麥克風(fēng)陣列包括兩個(gè)麥克風(fēng):一個(gè)麥克風(fēng)102a (近處的麥克風(fēng))位于與目標(biāo)聲源104距離I1的位置處,另一麥克風(fēng)102b (遠(yuǎn)處的麥克風(fēng))放置在與目標(biāo)聲源104距離I2的位置處。這里I1U2t5此外,這兩個(gè)麥克風(fēng)102a和102b彼此足夠靠近,從而使得從遠(yuǎn)處干擾的視點(diǎn)來(lái)看它們可被看作位于大概相同的位置處。根據(jù)一實(shí)施例,如果這兩個(gè)麥克風(fēng)102a和102b之間的距離Al比其到干擾的距離小一數(shù)量級(jí)(在麥克風(fēng)陣列可具有幾厘米的尺寸的實(shí)際應(yīng)用中,通常是這樣),那么就滿足這個(gè)條件。根據(jù)一實(shí)施例,這兩個(gè)麥克風(fēng)102a和102b之間的距離Al至少比到干擾信號(hào)源的距離小一數(shù)量級(jí)。例如,如果預(yù)期干擾信號(hào)的源距離麥克風(fēng)102a (或102b)l米,那么這兩個(gè)麥克風(fēng)之間的距離ΛI(xiàn)可是2厘米。根據(jù)一實(shí)施例,這兩個(gè)麥克風(fēng)102a和102b之間的距離Λ I處于到目標(biāo)信號(hào)源的距離的數(shù)量級(jí)中。例如,如果預(yù)期目標(biāo)信號(hào)源距離麥克風(fēng)102a (或102b)2厘米,那么這兩個(gè)麥克風(fēng)之間的距離ΛI(xiàn)可是3厘米。根據(jù)一實(shí)施例,麥克風(fēng)102a (或102b)與目標(biāo)信號(hào)源之間的距離比麥克風(fēng)102a(或102b)與干擾信號(hào)源之間的距離小多于一個(gè)數(shù)量級(jí)。例如,如果預(yù)期目標(biāo)信號(hào)源距離麥克風(fēng)102a (或102b) 5厘米,那么到干擾信號(hào)源的距離可為51厘米。總之,根據(jù)實(shí)施例,目標(biāo)信號(hào)源可以距離麥克風(fēng)102a (或102b) 5厘米,干擾可以距離麥克風(fēng)102a (或102b)至少I米,而兩麥克風(fēng)102a和102b之間的距離可以是3厘米。圖2是給出滿足上述要求的麥克風(fēng)陣列102的示例的框圖。這里,近處的麥克風(fēng)102a被放置在移動(dòng)電話204的前面,而遠(yuǎn)處的麥克風(fēng)102b被放置在移動(dòng)電話204的后面。在這個(gè)具體的示例中,I1 = 3^5 (cm), I2 = 5 7 (cm)且Δ I = 2^3 (cm)。示例性VAD決策圖3是根據(jù)本發(fā)明實(shí)施例的示例性VAD系統(tǒng)300的框圖。VAD系統(tǒng)300包括近處的麥克風(fēng)102a、遠(yuǎn)處的麥克風(fēng)102b、模一數(shù)轉(zhuǎn)換器302a和302b、帶通濾波器304a和304b、信號(hào)水平估計(jì)器306a和306b、噪聲水平估計(jì)器308a和308b、除法器310a和310b、單位(unit)延遲元件312a和312b、以及VAD決策模塊314。VAD系統(tǒng)300的這些元件執(zhí)行如下文提出的各種功能。在VAD系統(tǒng)300中,麥克風(fēng)陣列102的模擬輸出由模一數(shù)轉(zhuǎn)換器302a和302b數(shù)字化為PCM (脈沖編碼調(diào)制)信號(hào)。為了改善算法的魯棒性,可以對(duì)具有顯著語(yǔ)音能量的頻率范圍進(jìn)行檢查。這可以通過(guò)具有帶通頻率范圍為400Hz 1000Hz的一對(duì)帶通濾波器(BPF)304a和304b對(duì)該數(shù)字化信號(hào)進(jìn)行處理來(lái)實(shí)現(xiàn)。在信號(hào)水平估 計(jì)模塊306a和306b中,估計(jì)BPF304a和304b輸出的信號(hào)Xi (η)的水平。方便地,可以像下面這樣通過(guò)對(duì)信號(hào)Xi (η)的冪執(zhí)行回歸平均運(yùn)算,進(jìn)行該水平估計(jì):
σ j (η) =a Xi (η) |2+ (Ι-a) σ i (η-1), =1, 2其中0〈a〈l是接近零的小值,且σ i (O)被初始化為O。假設(shè),信號(hào)X1(Ii)來(lái)自近處的麥克風(fēng)102a,X2 (η)來(lái)自遠(yuǎn)處的麥克風(fēng)102b。現(xiàn)在,如果對(duì)于信號(hào)X1 (η)的水平估計(jì)為σ = Ad(n) + Ax(n)(其中λ 是來(lái)自干擾信號(hào)分量的水平,而Xs (η)來(lái)自目標(biāo)信號(hào)),則信號(hào)X2 (η)的水平將由下式給出:σ 2 (n) =g [ λ d (η) +p λ s (η)]這里g是遠(yuǎn)處麥克風(fēng)102b和近處麥克風(fēng)102a之間的增益差;且P是信號(hào)傳播延遲導(dǎo)致的。在理想條件下,所記錄聲音的水平與聲音到麥克風(fēng)的距離的冪成反比。例如,參見(jiàn) J.G.Ryan 和 R.A.Goubran, “Optimal nearfield responses for microphonearray,,,Proc.1EEE Workshop Applicat.Signal Processing to Audio Acoust.(NewPaltz, NY, USA, 1997)。在此情況下,p由下式給定:P=(Il7I2)2其中I1和I2分別是目標(biāo)聲音到近處麥克風(fēng)102a和遠(yuǎn)處麥克風(fēng)102b的距離。在實(shí)際應(yīng)用中,P可以依賴于麥克風(fēng)陣列的實(shí)際聲學(xué)設(shè)置,且它的值可以通過(guò)測(cè)量獲得。注意:由于在這種情況下,這兩個(gè)麥克風(fēng)之間的傳播衰減差異可被忽略,所以假設(shè)當(dāng)麥克風(fēng)增益差被補(bǔ)償之后,來(lái)自兩個(gè)麥克風(fēng)的干擾信號(hào)的水平相同。VAD系統(tǒng)300還像這樣監(jiān)測(cè)X1 (η)和X2 (η)中干擾的水平:
權(quán)利要求
1.一種執(zhí)行語(yǔ)音活動(dòng)檢測(cè)的方法,包括: 從第一麥克風(fēng)接收第一信號(hào),所述第一信號(hào)包括第一目標(biāo)分量和第一干擾分量;從第二麥克風(fēng)接收第二信號(hào),所述第二麥克風(fēng)離開(kāi)第一麥克風(fēng)一距離,所述第二信號(hào)包括第二目標(biāo)分量和第二干擾分量,其中根據(jù)所述距離區(qū)分所述第一目標(biāo)分量和所述第二目標(biāo)分量,其中根據(jù)所述距離區(qū)分所述第一干擾分量和所述第二干擾分量,且其中第一麥克風(fēng)和目標(biāo)源之間的距離不同于第二麥克風(fēng)和目標(biāo)源之間的距離; 基于所述第一信號(hào)估計(jì)第一信號(hào)水平; 基于所述第二信號(hào)估計(jì)第二信號(hào)水平; 基于所述第一信號(hào)估計(jì)第一噪聲水平; 基于所述第二信號(hào)估計(jì)第二噪聲水平; 基于所述第一信號(hào)水平和所述第一噪聲水平計(jì)算第一比值; 基于所述第二信號(hào)水平和所述第二噪聲水平計(jì)算第二比值; 基于所述第一比值與所述第二比值之間的第三比值檢測(cè)風(fēng)噪聲;以及基于所述風(fēng)噪聲的檢測(cè)結(jié)果以及基于所述第一比值和所述第二比值之間的差計(jì)算當(dāng)前語(yǔ)音活動(dòng)決策。
2.權(quán)利要求1的方法,其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離至少比所述第一麥克風(fēng)和干擾源之間的第二距離小一數(shù)量級(jí)。
3.權(quán)利要求1的方法,其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離處于所述第一麥克風(fēng)和目標(biāo)分量的目標(biāo)源之間的第二距離的數(shù)量級(jí)內(nèi),并且其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離 至少比所述第一麥克風(fēng)和干擾源之間的第三距離小一數(shù)量級(jí)。
4.權(quán)利要求1的方法,其中所述第一麥克風(fēng)距離目標(biāo)分量的目標(biāo)源第一距離且距離干擾源第二距離,且其中所述第一距離比所述第二距離小多于一數(shù)量級(jí)。
5.權(quán)利要求1的方法,其中估計(jì)第一信號(hào)水平包括通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一信號(hào)水平。
6.權(quán)利要求1的方法,其中估計(jì)第一噪聲水平包括通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一噪聲水平。
7.權(quán)利要求1的方法,其中: 估計(jì)第一信號(hào)水平包括通過(guò)利用第一時(shí)間常量對(duì)第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一信號(hào)水平;以及 估計(jì)第一噪聲水平包括通過(guò)利用第二時(shí)間常量對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一噪聲水平,其中所述第一時(shí)間常量大于所述第二時(shí)間常量。
8.一種包含執(zhí)行語(yǔ)音活動(dòng)檢測(cè)的電路的設(shè)備,所述設(shè)備包括: 第一麥克風(fēng),所述第一麥克風(fēng)被配置為接收包括第一目標(biāo)分量和第一干擾分量的第一信號(hào); 第二麥克風(fēng),所述第二麥克風(fēng)離開(kāi)第一麥克風(fēng)一距離,所述第二麥克風(fēng)被配置為接收包括第二目標(biāo)分量和第二干擾分量的第二信號(hào),其中根據(jù)所述距離區(qū)分所述第一目標(biāo)分量和所述第二目標(biāo)分量,其中根據(jù)所述距離區(qū)分所述第一干擾分量和所述第二干擾分量,且其中第一麥克風(fēng)和目標(biāo)源之間的距離不同于第二麥克風(fēng)和目標(biāo)源之間的距離; 信號(hào)水平估計(jì)器,所述信號(hào)水平估計(jì)器被配置為基于所述第一信號(hào)估計(jì)第一信號(hào)水平且被配置為基于所述第二信號(hào)估計(jì)第二信號(hào)水平; 噪聲水平估計(jì)器,所述噪聲水平估計(jì)器被配置為基于所述第一信號(hào)估計(jì)第一噪聲水平且被配置為基于所述第二信號(hào)估計(jì)第二噪聲水平; 第一除法器,所述第一除法器被配置為基于所述第一信號(hào)水平和所述第一噪聲水平計(jì)算第一比值; 第二除法器,所述第二除法器被配置為基于所述第二信號(hào)水平和所述第二噪聲水平計(jì)算第二比值;以及 語(yǔ)音活動(dòng)檢測(cè)器,所述語(yǔ)音活動(dòng)檢測(cè)器被配置為基于所述第一比值和所述第二比值之間的差計(jì)算當(dāng)前語(yǔ)音活動(dòng)決策,其中所述語(yǔ)音活動(dòng)檢測(cè)器進(jìn)一步被配置為基于所述第一比值與所述第二比值之間的第三比值檢測(cè)風(fēng)噪聲,且其中所述語(yǔ)音活動(dòng)檢測(cè)器被配置為基于所述風(fēng)噪聲的檢測(cè)結(jié)果以及基于所述第一比值和所述第二比值之間的差計(jì)算當(dāng)前語(yǔ)音活動(dòng)決策。
9.權(quán)利要求8的設(shè)備,其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離比所述第一麥克風(fēng)和干擾源之間的第二距離小至少一數(shù)量級(jí)。
10.權(quán)利要求8的設(shè)備,其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離處于所述第一麥克風(fēng)和目標(biāo)分量的目標(biāo)源之間的第二距離的數(shù)量級(jí)內(nèi),且其中所述第一麥克風(fēng)和所述第二麥克風(fēng)之間的距離比所述第一麥克風(fēng)和干擾源之間的第三距離小至少一數(shù)量級(jí)。
11.權(quán)利要求8的設(shè)備,其中所述第一麥克風(fēng)距離目標(biāo)分量的目標(biāo)源第一距離且距離干擾源第二距離,且其中所述第一距離比所述第二距離小多于一數(shù)量級(jí)。
12.權(quán)利要求8的設(shè)備,其中所述信號(hào)水平估計(jì)器被配置為通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一信號(hào)水平。
13.權(quán)利要求8的設(shè)備,進(jìn)一步包括: 延遲元件,所述延遲元件耦合在所述噪聲水平估計(jì)器和所述語(yǔ)音活動(dòng)檢測(cè)器之間,所述延遲元件被配置為存儲(chǔ)前面的語(yǔ)音活動(dòng)決策; 其中所述噪聲水平估計(jì)器被配置為通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一噪聲水平。
14.權(quán)利要求8的設(shè)備,進(jìn)一步包括: 延遲元件,所述延遲元件耦合在所述噪聲水平估計(jì)器和所述語(yǔ)音活動(dòng)檢測(cè)器之間,所述延遲元件被配置為存儲(chǔ)前面的語(yǔ)音活動(dòng)決策; 其中所述信號(hào)水平估計(jì)器被配置為通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一信號(hào)水平;并且 其中所述噪聲水平估計(jì)器被配置為通過(guò)對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一噪聲水平。
15.權(quán)利要求8的設(shè)備,其中: 所述信號(hào)水平估計(jì)器被配置為通過(guò)利用第一時(shí)間常量對(duì)第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一信號(hào)水平;以及 所述噪聲水平估計(jì)器被配置為通過(guò)利用第二時(shí)間常量對(duì)所述第一信號(hào)的功率水平執(zhí)行遞歸平均運(yùn)算來(lái)估計(jì)第一噪 聲水平,其中所述第一時(shí)間常量大于所述第二時(shí)間常量。
16.權(quán)利要求8的設(shè)備,其中:所述信號(hào)水平估計(jì)器包括耦合在所述第一麥克風(fēng)和所述第一除法器之間的第一信號(hào)水平估計(jì)器以及耦合在所述第二麥克風(fēng)和所述第二除法器之間的第二信號(hào)水平估計(jì)器;并且 所述噪聲水平估計(jì)器包括耦合在所述第一麥克風(fēng)和所述第一除法器之間的第一噪聲水平估計(jì)器以及 耦合在所述第二麥克風(fēng)和所述第二除法器之間的第二噪聲水平估計(jì)器。
全文摘要
提供了一種雙麥克風(fēng)語(yǔ)音活動(dòng)檢測(cè)器系統(tǒng)。語(yǔ)音活動(dòng)檢測(cè)器系統(tǒng)估計(jì)每個(gè)麥克風(fēng)處的信號(hào)水平和噪聲水平。諸如信號(hào)的附近聲音在兩個(gè)麥克風(fēng)之間的水平差大于諸如噪聲的更遠(yuǎn)距離聲音的水平差。因此,語(yǔ)音活動(dòng)檢測(cè)器檢測(cè)附近聲音的存在。
文檔編號(hào)G10L25/78GK103137139SQ20131004691
公開(kāi)日2013年6月5日 申請(qǐng)日期2009年6月25日 優(yōu)先權(quán)日2008年6月30日
發(fā)明者俞容山 申請(qǐng)人:杜比實(shí)驗(yàn)室特許公司