亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

不利環(huán)境中的多信道語音檢測(cè)的制作方法

文檔序號(hào):2821099閱讀:238來源:國知局
專利名稱:不利環(huán)境中的多信道語音檢測(cè)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及數(shù)字信號(hào)處理系統(tǒng),更具體地,本發(fā)明涉及不利環(huán)境(例如噪聲環(huán)境)中的語音活動(dòng)檢測(cè)系統(tǒng)和方法。
背景技術(shù)
在數(shù)字處理的實(shí)踐中,語音(更一般的是聲源)活動(dòng)檢測(cè)(VAD)是基礎(chǔ)問題,并且VAD對(duì)系統(tǒng)總體性能的影響經(jīng)常比其它任何部件都大。噪聲條件下的語音編碼、多媒體通信(語音和數(shù)據(jù))、語音增強(qiáng)以及語音識(shí)別是非常重要的應(yīng)用,其中良好的VAD方法或系統(tǒng)能夠充分增強(qiáng)各自系統(tǒng)的性能。VAD方法的任務(wù)主要是提取聲信號(hào)的特征,該特征突出話音和噪聲的差別并將它們分類以作出最終的VAD決定。話音和背景噪聲的多樣性和變化特性使VAD問題變得復(fù)雜。
傳統(tǒng)地,VAD方法基于長(zhǎng)期噪聲估計(jì)(諸如K.Srinivasan和A.Gersho在1993年10月的《IEEE Speech Coding Workshop》中85-86頁的“蜂窩網(wǎng)絡(luò)的語音活動(dòng)檢測(cè)”一文中所公開的)使用能量準(zhǔn)則(諸如SNR(信號(hào)-噪聲比)估計(jì))。建議的改進(jìn)使用音頻信號(hào)的統(tǒng)計(jì)模型并導(dǎo)出似然比(如Y.D.Cho、K.Al-Naimi和A.Kondoz在IEEE出版社所出版的《Proceedings ICASSP 2001》的“基于平滑統(tǒng)計(jì)似然比的改進(jìn)語音活動(dòng)檢測(cè)”一文中所公開的)或者計(jì)算峰態(tài)(如R.Goubran、E.Nemer和S.Mahmoud1999年7月的《IEEE SignalProcessing Letters》的第六卷第七本的第171-174頁的“使用子頻帶和四次統(tǒng)計(jì)的話音信號(hào)的SNR估計(jì)”一文中所公開的)?;蛘?,其它的VAD方法嘗試提取健壯特征(例如音調(diào)的存在、共振峰形或倒譜)。最近,已經(jīng)研究了多信道(例如多麥克風(fēng)或多傳感器)VAD算法以利用附加傳感器所提供的額外信息。

發(fā)明內(nèi)容
對(duì)于話音傳輸、增強(qiáng)和識(shí)別而言,檢測(cè)何時(shí)存在/不存在語音是突出的問題。這里提供一種新的采用目標(biāo)音頻源的空間定位的多信道源活動(dòng)檢測(cè)系統(tǒng)(諸如語音活動(dòng)檢測(cè)(VAD)系統(tǒng))。VAD系統(tǒng)使用陣列信號(hào)處理技術(shù)以使目標(biāo)源的信號(hào)-干擾比最大化,從而降低活動(dòng)檢測(cè)差錯(cuò)率。所述系統(tǒng)使用置于噪聲環(huán)境(諸如汽車)中的至少兩個(gè)麥克風(fēng)的輸出并輸出二進(jìn)制信號(hào)(0/1),該二進(jìn)制信號(hào)與不存在(0)或存在(1)司機(jī)和/或乘客的語音信號(hào)相對(duì)應(yīng)。例如,可由其它的數(shù)字處理部件使用VAD輸出,以增強(qiáng)語音信號(hào)。
根據(jù)本發(fā)明的一個(gè)方面,提供了用于確定混音信號(hào)中是否存在語音的方法。所述方法包括以下步驟由至少兩個(gè)麥克風(fēng)接收混音信號(hào),將每個(gè)接收混音信號(hào)快速傅立葉變換到頻域;將變換信號(hào)濾波以輸出與每個(gè)變換信號(hào)的空間特征相對(duì)應(yīng)的信號(hào);對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;以及將總和與閾值比較以確定是否存在語音,其中如果總和大于或等于閾值,則存在語音,如果總和小于閾值,則不存在語音。此外,濾波步驟包括用噪聲頻譜功率矩陣的逆矩陣、信道傳遞函數(shù)比向量和源信號(hào)頻譜功率乘以變換信號(hào)。
根據(jù)本發(fā)明的另一方面,用于確定混音信號(hào)中是否存在語音的方法包括以下步驟由至少兩個(gè)麥克風(fēng)接收混音信號(hào);將每個(gè)接收混音信號(hào)快速傅立葉變換到頻域;將變換信號(hào)濾波以輸出與預(yù)定數(shù)量用戶中的每一個(gè)的空間特征對(duì)應(yīng)的信號(hào);對(duì)每個(gè)用戶單獨(dú)對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;確定總和中的最大者;以及將最大總和與閾值比較以確定是否存在語音,其中如果總和大于或等于閾值,則存在語音,如果總和小于閾值,則不存在語音,其中如果存在語音,將與最大總和相關(guān)聯(lián)的特定用戶確定為活動(dòng)說話者。用接收混音信號(hào)修改閾值。
根據(jù)本發(fā)明的另一方面,提供了用于確定混音信號(hào)中是否存在語音的語音活動(dòng)檢測(cè)器。語音活動(dòng)檢測(cè)器包括至少兩個(gè)麥克風(fēng),用于接收混音信號(hào);快速傅立葉變換器,用于將每個(gè)接收混音信號(hào)變換到頻域;濾波器,用于將變換信號(hào)濾波以輸出與說話者的估計(jì)空間特征對(duì)應(yīng)的信號(hào);第一加法器,用于對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;以及比較器,用于將總和與閾值比較以確定是否存在語音,其中如果總和大于或等于閾值,則存在語音,如果總和小于閾值,則不存在語音。
根據(jù)本發(fā)明的另一方面,用于確定混音信號(hào)中是否存在語音的語音活動(dòng)檢測(cè)器包括至少兩個(gè)麥克風(fēng),用于接收混音信號(hào);快速傅立葉變換器,用于將每個(gè)接收混音信號(hào)變換到頻域;至少一個(gè)濾波器,用于將變換信號(hào)濾波以輸出與預(yù)定數(shù)量用戶中的每一個(gè)的說話者的空間特征對(duì)應(yīng)的信號(hào);至少一個(gè)第一加法器,用于對(duì)每個(gè)用戶單獨(dú)對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;處理器,用于確定總和中的最大者;比較器,用于將最大總和與閾值比較以確定是否存在語音,其中如果總和大于或等于閾值,則存在語音,如果總和小于閾值,則不存在語音,其中如果存在語音,將與最大總和相關(guān)聯(lián)的特定用戶確定為活動(dòng)說話者。


根據(jù)以下結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其他的目的、特征和優(yōu)點(diǎn)將變得更加清楚,附圖中圖1A和圖1B是示意圖,示出用于實(shí)現(xiàn)本發(fā)明系統(tǒng)和方法的兩種情況,其中圖1A示出使用兩個(gè)固定車內(nèi)麥克風(fēng)的情況,圖1B示出使用一個(gè)固定麥克風(fēng)和包含在移動(dòng)電話中的第二麥克風(fēng)的情況;圖2是框圖,示出根據(jù)本發(fā)明的第一實(shí)施例的語音活動(dòng)檢測(cè)(VAD)系統(tǒng)和方法;圖3是流程圖,示出考慮的用于評(píng)價(jià)VAD方法的差錯(cuò)類型;圖4是圖表,示出在中級(jí)噪聲、遠(yuǎn)程麥克風(fēng)的情況下幀差錯(cuò)率對(duì)差錯(cuò)類型和全部差錯(cuò);圖5是圖表,示出在高噪聲、遠(yuǎn)程麥克風(fēng)的情況下幀差錯(cuò)率對(duì)差錯(cuò)類型和全部差錯(cuò);圖6是框圖,示出根據(jù)本發(fā)明的第二實(shí)施例的語音活動(dòng)檢測(cè)(VAD)系統(tǒng)和方法。
具體實(shí)施例方式
將在下文中參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。為了避免因不必要的細(xì)節(jié)而使本發(fā)明不明顯,在以下描述中,沒有詳細(xì)描述已知的功能或結(jié)構(gòu)。
提供一種多信道VAD(語音活動(dòng)檢測(cè))系統(tǒng)和方法,用于確定信號(hào)中是否存在話音??臻g定位是支持本發(fā)明的關(guān)鍵,其可等同地用于感興趣的語音和非語音信號(hào)。為了闡述本發(fā)明,假設(shè)以下情況目標(biāo)源(諸如說話的人)位于噪聲環(huán)境中,兩個(gè)或多個(gè)麥克風(fēng)記錄音頻混合。例如,如圖1A和圖1B所示,在汽車內(nèi)通過兩個(gè)麥克風(fēng)(其中一個(gè)麥克風(fēng)102固定在車內(nèi),第二麥克風(fēng)104可固定在車內(nèi)或位于移動(dòng)電話106中)測(cè)量?jī)蓚€(gè)信號(hào)。在車內(nèi)只有一個(gè)說話者,或者如果存在更多的人,則在某個(gè)時(shí)刻僅有一個(gè)說話者。假設(shè)d是用戶的數(shù)量。假設(shè)噪聲是擴(kuò)散的,但不一定是均勻的(即在空間上并沒有很好地將噪聲源定位,并且頻譜相干矩陣可能是時(shí)變地)。在這種情況下,本發(fā)明的系統(tǒng)和方法盲目地識(shí)別混合模型并且輸出與空間特性對(duì)應(yīng)的信號(hào),該信號(hào)具有可通過線性濾波獲得的最大信號(hào)-干擾比(SIR)。雖然輸出信號(hào)包含大量的人工產(chǎn)物信號(hào)并且并不適合信號(hào)估計(jì),但該輸出信號(hào)對(duì)于信號(hào)活動(dòng)檢測(cè)而言仍是理想的。
為了理解本發(fā)明的不同特征和優(yōu)點(diǎn),下文將提供示例性實(shí)現(xiàn)方式的詳細(xì)描述。在第一部分中提供混合模型和主統(tǒng)計(jì)假設(shè)。第二部分示出濾波器推導(dǎo)并提出總體VAD結(jié)構(gòu)。第三部分強(qiáng)調(diào)了盲目的模型識(shí)別問題。第四部分討論了使用的評(píng)價(jià)標(biāo)準(zhǔn),第五部分討論了關(guān)于真實(shí)數(shù)據(jù)的實(shí)現(xiàn)問題和實(shí)驗(yàn)結(jié)果。
1.混合模型和統(tǒng)計(jì)假設(shè)時(shí)域混合模型假設(shè)D個(gè)麥克風(fēng)信號(hào)x1(t)、…、xD(t),這些麥克風(fēng)信號(hào)記錄源信號(hào)s(t)和噪聲信號(hào)n1(t)、…、nD(t)xi(t)=Σk=0Liakis(t-τki)+ni(t),i=1,...D---(1)]]>其中(αki,τki)是到麥克風(fēng)i的第k條通路上的衰減和延遲,Li是到麥克風(fēng)i的全部通路數(shù)量。
在頻域中,卷積變?yōu)槌朔?。因此,將源被重新定義以使第一信道傳遞函數(shù)K變?yōu)閱挝辉豖1(k,w)=S(k,w)+N1(k,w)X2(k,w)=K2(w)S(k,w)+N2(k,w).... (2)XD(k,w)=KD(w)S(k,w)+ND(k,w)其中k是幀索引,w是頻率索引。
可將該模型更簡(jiǎn)化地改寫為X=KS+N(3)其中X、K、N是復(fù)向量。向量K代表源s的空間特性。
作出以下假設(shè)(1)對(duì)于所有的i而言,源信號(hào)s(t)在統(tǒng)計(jì)上獨(dú)立于噪聲信號(hào)ni(t);(2)混合參數(shù)K(w)是時(shí)不變變或者慢時(shí)變的;(3)S(w)是具有頻譜功率的零平均值隨機(jī)過程。
和(4)(N1,N2,…ND)是具有噪聲頻譜功率矩陣Rn(w)的零均值隨機(jī)信號(hào)。
2.濾波器推導(dǎo)和VAD結(jié)構(gòu)在本部分中,在VAD系統(tǒng)的總體系統(tǒng)結(jié)構(gòu)中推導(dǎo)并實(shí)現(xiàn)了最佳增益濾波器。
加在X上的線性濾波器A產(chǎn)生Z=AX=AKS+AN需要使SNR(SIR)最大化的線性濾波器。通過A得到的輸出SNR(oSNR)是 使A上的oSNR最大化導(dǎo)致廣義本征值問題ARn=λAKK*,其最大化可基于在先技術(shù)中已知的瑞利商原理得到A=μK*Rn-1]]>其中③是任意非零標(biāo)量。上述表達(dá)式暗示通過具有輸入相關(guān)閾值的能量檢測(cè)器運(yùn)行輸出Z以判定當(dāng)前數(shù)據(jù)幀中是否存在源信號(hào)。語音活動(dòng)檢測(cè)(VAD)判定變?yōu)?其中閾值τ是B|X|2,并且B>0是恒定提高因子。由于一方面將A確定為乘法常量,另一方面,當(dāng)存在信號(hào)時(shí),需要最大輸出能量,可以確定③=估計(jì)的信號(hào)頻譜功率Rs。濾波器變?yōu)锳=RsK*Rn-1---(6)]]>基于上述描述,圖2中提出了本發(fā)明VAD的總體結(jié)構(gòu)。VAD判定是基于等式5和6。如下文所述,從數(shù)據(jù)估計(jì)K、Rs和Rn。
參考圖2,分別在信道106和信道108上從麥克風(fēng)102和麥克風(fēng)104輸入信號(hào)x1和xD。信號(hào)x1和xD是時(shí)域信號(hào)。通過快速傅立葉變換器110將信號(hào)x1和xD分別變換為頻域信號(hào)X1和XD,并在信道112和114上將頻域信號(hào)X1和XD輸出到濾波器A 120。濾波器120基于上述的等式(6)處理信號(hào)X1和XD以產(chǎn)生與每個(gè)變換信號(hào)的空間特性對(duì)應(yīng)的輸出Z。將在下文中詳細(xì)描述應(yīng)用在濾波器120的變量Rs、Rn和K。在加法器122中處理輸出Z并在某個(gè)頻率范圍上累加Z以產(chǎn)生總和|Z|2(即濾波信號(hào)絕對(duì)值平方)。然后在比較器124中將總和|Z|2與閾值τ比較以確定是否存在語音。如果總和大于或等于閾值τ,則確定為存在語音,并且比較器124輸出為1的VAD信號(hào)。如果總和小于閾值τ,則確定為不存在語音,并且比較器輸出為0的VAD信號(hào)。
為了確定閾值,將頻域信號(hào)X1、…、XD輸入第二加法器116,在第二加法器116上對(duì)信號(hào)X1、XD(D是麥克風(fēng)的數(shù)量)的信號(hào)絕對(duì)值平方求和,并且對(duì)某個(gè)頻率范圍上的上述總和求和以得到總和|X|2。然后通過乘法器118將提高因子B乘以總和|X|2以確定閾值τ。
3.混合模型識(shí)別已經(jīng)提出了傳遞函數(shù)比K和頻譜功率密度Rs及Rn的估計(jì)器。同樣在更新K、Rs和Rn的過程中采用了最近的有效VAD信號(hào)。
3.1 K基于適應(yīng)模型的估計(jì)器繼續(xù)參考圖2,適應(yīng)估計(jì)器130估計(jì)K(用戶空間特性)的值,它使用直接混合模型以降低參數(shù)的數(shù)量K1(w)=aleiwδl,l≥2,K1(w)=1---(7)]]>如在先技術(shù)中已知的,使用弗羅貝尼烏斯范數(shù)(Frobenius norm)選擇最適合Rx(k,w)=Rs(k,w)KK*+Rn(k,w) (8)的參數(shù)(a1, ),其中Rx是測(cè)量信號(hào)頻譜協(xié)方差矩陣。因此,應(yīng)該使下列等式最小化I(a2,...aD,δ2,...δD)=Σwtrace{(Rx-Rn-RsKK*)2}---(9)]]>由于相同的參數(shù)(a1, )2[I[D應(yīng)該解釋所有的頻率,故以上的總和為交叉頻率。當(dāng)前估計(jì)(a1, )2[I[D上評(píng)價(jià)的1的梯度是∂I∂a1=-4ΣwRs·real(K*Evl)---(10)]]>
∂I∂δ1=-2a1ΣwwRs·imag(K*Evl)---(11)]]>其中E=Rx-Rn-RsKK*并且v1是D向量(除了在第1元為 外,其它位置都為零), 那么,更新規(guī)則可代表為al1=al-∝∂I∂al---(12)]]>δl1=δl-∝∂I∂δl---(13)]]>其中 是學(xué)習(xí)率。
3.2頻譜功率密度的估計(jì)開始通過第一學(xué)習(xí)模塊132測(cè)量噪聲頻譜功率矩陣Rn。隨后,Rn的估計(jì)是基于最近的由比較器124產(chǎn)生的可用VAD信號(hào),簡(jiǎn)單地通過下式代表 其中β是最低限度相關(guān)常數(shù)(floor-dependent constant)。在由等式(14)確定了Rn后,將結(jié)果發(fā)送到更新濾波器120。
通過頻譜減法估計(jì)信號(hào)頻譜功率RB。由基于頻域輸入信號(hào)X1、XD的第二學(xué)習(xí)模塊126確定測(cè)量信號(hào)頻譜協(xié)方差矩陣Rx,將Rx和從第一學(xué)習(xí)模塊132產(chǎn)生的Rn一道輸入頻譜減法器128。然后通過 確定Rs,其中 是最低限度相關(guān)常數(shù)。在由等式(15)確定了Rs之后,將結(jié)果發(fā)送到更新濾波器120。
4.VAD性能標(biāo)準(zhǔn)為了評(píng)價(jià)本發(fā)明VAD系統(tǒng)的性能,必須定義當(dāng)將VAD信號(hào)與真源存在信號(hào)(true source presence signal)比較時(shí)所能得到的可能差錯(cuò)。差錯(cuò)考慮了VAD預(yù)測(cè)的背景(即,在以下的(見圖3)當(dāng)前數(shù)據(jù)幀的狀態(tài)之前和之后的真VAD狀態(tài)(存在或不存在所需信號(hào)))(1)檢測(cè)為有用信號(hào)(例如,話音)的噪聲;(2)在實(shí)際啟動(dòng)真信號(hào)之前檢測(cè)為信號(hào)的噪聲;(3)在真噪聲背景中檢測(cè)為噪聲的信號(hào);(4)在信號(hào)的開始所延遲的信號(hào)檢測(cè);(5)在真信號(hào)退去之后檢測(cè)為信號(hào)的噪聲;(6)在具有信號(hào)存在的幀之間的檢測(cè)為信號(hào)的噪聲;(7)在活動(dòng)信號(hào)部分的末尾檢測(cè)為噪聲的信號(hào);以及(8)在信號(hào)活動(dòng)期間檢測(cè)為噪聲的信號(hào)。
在先技術(shù)文獻(xiàn)主要涉及四種差錯(cuò)類型,其示出話音被錯(cuò)誤地分類為噪聲(如上述地類型3、4、7、8)。一些僅僅考慮了差錯(cuò)1、4、5、8這些差錯(cuò)稱為“檢測(cè)為話音的噪聲”(1)、“前端限幅”(2)、“在從話音變?yōu)樵肼暤倪^程中解譯為話音的噪聲”(5)以及“中話音(midspeech)限幅”(8)(如F.Beritelli、S.Casale和G.Ruggeri在2001年IEEE出版社的《Proceedings ICASSP》中的“itu-t/etsi語音活動(dòng)檢測(cè)器的性能評(píng)價(jià)和比較”一文中所描述的)。
評(píng)價(jià)本發(fā)明的目的在于在三個(gè)問題方面評(píng)估VAD系統(tǒng)和方法(1)話音傳輸/編碼,其中差錯(cuò)類型3、4、7、8應(yīng)該盡可能少以便極少將話音限幅并且傳輸所有感興趣的數(shù)據(jù)(除了噪聲之外的語音);(2)話音增強(qiáng),其中差錯(cuò)類型3、4、7、8應(yīng)該盡可能少,不過在決定感興趣的公共環(huán)境中有多嘈雜以及非平穩(wěn)噪聲(non-stationary noise)是怎樣的時(shí)候可將差錯(cuò)1、2、5、6加權(quán);以及(3)話音識(shí)別(SR),其中考慮了所有的差錯(cuò)。特別地,差錯(cuò)類型1、2、5、6對(duì)于非限制SR而言是重要的。將背景噪聲正確地分類為非話音使SR可以有效地在感興趣的幀上工作。
5.實(shí)驗(yàn)結(jié)果比較三個(gè)VAD算法(1-2)兩種常規(guī)適應(yīng)多速率(AMR)算法(AMR1和AMR2)的實(shí)現(xiàn),目的在于不連續(xù)傳輸語音;以及(3)遵循本發(fā)明方法、使用D=2個(gè)麥克風(fēng)的雙信道(TwoCh)VAD系統(tǒng)。對(duì)以兩個(gè)裝置在汽車環(huán)境中記錄的真實(shí)數(shù)據(jù)來評(píng)價(jià)所述算法。其中兩個(gè)傳感器(即麥克風(fēng))互相靠近或者遠(yuǎn)離。對(duì)于每種情況而言,從靜止?fàn)顟B(tài)開始,分開記錄駕駛時(shí)的汽車噪聲并將該噪聲添加在汽車噪聲記錄上。對(duì)于傳感器靠近和遠(yuǎn)離的情況而言,“中等噪聲”測(cè)試組(test suite)的平均輸入SNR分別是0dB和-3dB。在兩種情況下,也考慮了第二測(cè)試組“高噪聲”,其中考慮輸入SNR又降低了3dB。
5.1算法實(shí)現(xiàn)AMR1和AMR2算法的實(shí)現(xiàn)是基于常規(guī)GSM AMR話音編碼器版本7.3.0。VAD算法使用編碼器所計(jì)算的結(jié)果,該結(jié)果可取決于編碼器輸入模式,因此在這里使用MRDTX的固定模式。所述算法指示每個(gè)20ms幀(在8KHz的采樣率上160個(gè)采樣幀長(zhǎng)度)是否包含應(yīng)該傳輸?shù)男盘?hào)(即話音、音樂或通知音)。VAD算法的輸出是布爾標(biāo)志(Boolean flag),其指示這樣的信號(hào)的存在。
對(duì)于基于MaxSNR濾波器、在上文中提出的基于適應(yīng)模型的K估計(jì)器和頻譜功率密度估計(jì)器的Twoch VAD而言,使用以下參數(shù)提高因子B=100,學(xué)習(xí)率 (在K估計(jì)中), (對(duì)于Rn而言),并且 (在頻譜減法中)。按組執(zhí)行處理,其中幀大小是256個(gè)采樣,時(shí)間步長(zhǎng)為160個(gè)采樣。
5.2結(jié)果得到僅具有簡(jiǎn)單功率電平語音檢測(cè)器的、在汽車上標(biāo)記語音數(shù)據(jù)的理想VAD。然后,得到在研究中具有三種算法的總體VAD差錯(cuò)。差錯(cuò)代表具有不同于理想VAD的判定的幀相對(duì)于處理的幀的總數(shù)的平均百分比。
圖4和圖5顯示出通過中等和高噪聲情況中的三種算法所得到的單獨(dú)差錯(cuò)和總體差錯(cuò)。表1匯總了當(dāng)將TwoCh VAD與AMR2相比較時(shí)所得到的平均結(jié)果。需要注意的是,在所述的測(cè)試中,單AMR算法利用兩個(gè)信道中最好(最高SNR)的一個(gè)信道(手動(dòng)挑選該信道)。

表1對(duì)通過兩個(gè)數(shù)據(jù)和麥克風(fēng)配置的兩信道VAD而言,關(guān)于AMR2總體差錯(cuò)率的百分比改進(jìn)當(dāng)比較差錯(cuò)類型1、4、5、8時(shí),TwoCh VAD優(yōu)于其它方法。就類型3、4、7、8的差錯(cuò)而言,關(guān)于TwoCh VAD解決方案,AMR2具有微小的邊緣,TwoCh VAD解決方案確實(shí)沒有使用特殊的邏輯或釋放延遲(hangover)方案來提高結(jié)果。然而,使用不同的參數(shù)設(shè)置(特別是提高因子),TwoCh VAD與AMR2在這個(gè)差錯(cuò)子集上不相上下。盡管如此,就總體差錯(cuò)率而言,TwoCh VAD明顯優(yōu)于其它方法。
圖6提供了框圖,該框圖示出根據(jù)本發(fā)明第二實(shí)施例的語音活動(dòng)檢測(cè)(VAD)系統(tǒng)和方法。在第二實(shí)施例中,除了確定是否存在語音之外,當(dāng)VAD判定是肯定時(shí),所述系統(tǒng)和方法確定哪一個(gè)說話者在發(fā)聲。
可以理解圖6的若干元件和圖2中所描述的元件具有相同的結(jié)構(gòu)和功能,因此,使用相同的標(biāo)號(hào)表示圖6的這些元件,并且不會(huì)關(guān)于圖6再詳細(xì)描述這些元件。此外,本實(shí)施例描述了兩個(gè)麥克風(fēng)的系統(tǒng),對(duì)于本領(lǐng)域的技術(shù)人員而言,顯而易見的是可將該系統(tǒng)擴(kuò)展到多于兩個(gè)麥克風(fēng)。
在本實(shí)施例中,不是估計(jì)比率信道傳遞函數(shù)K,而是在初始校準(zhǔn)階段,通過校準(zhǔn)器650針對(duì)全部d個(gè)說話者中的每一個(gè)來進(jìn)行確定。只要在說話者和麥克風(fēng)之間存在足夠的空間差異(例如在車中當(dāng)說話者不是相對(duì)麥克風(fēng)對(duì)稱坐著時(shí)),則每個(gè)說話者具有不同的K。
在校準(zhǔn)階段,在不存在噪聲(或低電平噪聲)時(shí),d個(gè)用戶的每一個(gè)分別說話?;邴溈孙L(fēng)602和604所接收的兩個(gè)原始記錄x1(t)、x2(t),通過K(ω)=Σl=1FX2c(l,ω)X1c(l,ω)‾Σl=1F|X1c(l,ω)|2---(16)]]>估計(jì)比率信道傳遞函數(shù)K(ω),其中X1c(l,ω)、X2c(l,ω)代表頻率ω上的離散有窗傅立葉變換以及原始信號(hào)x1、x2的時(shí)間幀索引1。由此得到了信道傳遞函數(shù)比的集合K1(ω),1≤l≤d,每個(gè)說話者有一個(gè)。盡管比率信道傳遞函數(shù)(諸如K(ω)=X20(ω)X10(ω)]]>)的形式明顯更為簡(jiǎn)單,直接基于該更為簡(jiǎn)單形式的校準(zhǔn)器650不會(huì)是健壯的。因此基于等式(16)的校準(zhǔn)器650使最小平方問題最小化,從而該校準(zhǔn)器對(duì)非線性和噪聲更加健壯。
一旦確定了每個(gè)說話者的K,以與上述圖2類似的方式實(shí)現(xiàn)VAD判定。然而,本發(fā)明的第二實(shí)施例檢測(cè)是否存在d個(gè)說話者中任意一個(gè)的語音,如果存在,估計(jì)哪一個(gè)正在發(fā)聲并且更新噪聲頻譜功率矩陣Rn和閾值τ。雖然圖6的實(shí)施例示出了涉及兩個(gè)說話者的方法和系統(tǒng),可以理解本發(fā)明并不局限于兩個(gè)說話者并且能夠包含具有多個(gè)說話者的環(huán)境。
在初始的校準(zhǔn)階段之后,分別在信道606和608上從麥克風(fēng)602和604輸入信號(hào)x1和x2。信號(hào)x1和x2是時(shí)域信號(hào)。由快速傅立葉變換器610將信號(hào)x1和x2分別變換為頻域信號(hào)X1和X2并在信道612和614上將X1和X2輸出到多個(gè)濾波器620-1和620-2。在本實(shí)施例中,與系統(tǒng)交互的每個(gè)說話者都有一個(gè)濾波器。因此,對(duì)于d個(gè)說話者中的每一個(gè)而言,1≤l≤d,濾波器的計(jì)算變?yōu)?并且從每個(gè)濾波器620-1、620-2輸出下式Sl=AlX1+BlX2(18)根據(jù)上述第一實(shí)施例,通過第一學(xué)習(xí)模塊626、第二學(xué)習(xí)模塊632和頻譜減法器628來計(jì)算提供給濾波器的頻譜功率密度Rs和Rn。在校準(zhǔn)階段確定的每個(gè)說話者的K將從校準(zhǔn)單元650輸入到濾波器。
在加法器622-1和622-2中在某個(gè)頻率范圍對(duì)來自每個(gè)濾波器的輸出Sl的求和以產(chǎn)生總和El,即濾波信號(hào)絕對(duì)值的平方,由下式確定El=Σω|Sl(ω)|2---(19)]]>從圖6可以看出,每個(gè)濾波器都有加法器,并且可以理解系統(tǒng)600的每個(gè)說話者都有濾波器/加法器結(jié)合。
然后將總和發(fā)送到處理器623以確定所有輸入總和(E1、…Ed)的最大值(例如Es,1≤s≤d)。然后在比較器624中將最大總和Es與閾值τ比較以確定是否存在語音。如果總和大于或等于閾值τ,則確定存在語音,比較器624輸出為1的VAD信號(hào)并且確定用戶s是活動(dòng)的。如果總和小于閾值τ,則確定不存在語音并且比較器輸出為0的VAD信號(hào)。以與第一實(shí)施例相同的方式通過加法器616和乘法器618確定閾值τ。
應(yīng)該理解可用不同形式的硬件、軟件、固件、專用處理器或者上述的結(jié)合實(shí)現(xiàn)本發(fā)明。在一個(gè)實(shí)施例中,可將本發(fā)明作為可觸地體現(xiàn)在程序存儲(chǔ)設(shè)備上的應(yīng)用程序來用軟件實(shí)現(xiàn)??赏ㄟ^包括任何合適結(jié)構(gòu)的機(jī)器加載和執(zhí)行所述應(yīng)用程序。最好在具有硬件(諸如一個(gè)或多個(gè)中央處理器(CPU)、隨機(jī)存取存儲(chǔ)器(RAM)和輸入/輸出(I/O)接口)的計(jì)算機(jī)平臺(tái)上實(shí)現(xiàn)所述機(jī)器。計(jì)算機(jī)平臺(tái)也包括操作系統(tǒng)和微指令代碼。這里所描述的不同過程和功能可以是微指令代碼的一部分或者是經(jīng)由操作系統(tǒng)執(zhí)行的應(yīng)用程序(或者是微指令代碼和應(yīng)用程序的結(jié)合)的一部分。此外,不同的其它外圍設(shè)備(諸如附加的數(shù)據(jù)存儲(chǔ)設(shè)備和打印設(shè)備)可連接到計(jì)算機(jī)平臺(tái)。
還應(yīng)該理解,由于可以用軟件實(shí)現(xiàn)附圖中所描述的一些組成系統(tǒng)部件和方法步驟,系統(tǒng)部件(或者過程步驟)之間的實(shí)際連接可能不同,這取決于將本發(fā)明編程的方式。有了本文所提供的本發(fā)明的教導(dǎo),本領(lǐng)域的一般技術(shù)人員能夠考慮本發(fā)明這些和類似的實(shí)現(xiàn)或配置。
本發(fā)明提出了新的多信道源活動(dòng)檢測(cè)器,其采用目標(biāo)音頻源的空間定位。所實(shí)現(xiàn)的檢測(cè)器使目標(biāo)源的信號(hào)-干擾比最大化并且使用雙信道輸入數(shù)據(jù)。兩信道VAD與對(duì)有噪聲的車環(huán)境中記錄的實(shí)數(shù)據(jù)的AMR VAD算法進(jìn)行比較。兩信道算法顯示了與當(dāng)前語音傳輸技術(shù)中使用的現(xiàn)有技術(shù)的適應(yīng)多率算法AMR2相比在差錯(cuò)率方面改進(jìn)55-70%。
雖然已經(jīng)結(jié)合某些優(yōu)選實(shí)施例示出并描述了本發(fā)明,本領(lǐng)域的技術(shù)人員會(huì)了解,不脫離所附權(quán)利要求書中定義的本發(fā)明精神和保護(hù)范圍,可以對(duì)本發(fā)明作出形式和細(xì)節(jié)上的不同改動(dòng)。
權(quán)利要求
1.一種用于確定混音信號(hào)中是否存在語音的方法,所述方法包括以下步驟通過至少兩個(gè)麥克風(fēng)接收所述混音信號(hào);將每個(gè)接收混音信號(hào)快速傅立葉變換到頻域;將變換信號(hào)濾波以輸出與源的空間特征對(duì)應(yīng)的信號(hào);對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;將總和與閾值比較以確定是否存在語音,其中如果所述總和大于或等于所述閾值,則存在語音,如果所述總和小于所述閾值,則不存在語音。
2.如權(quán)利要求1所述的方法,還包括確定所述閾值的步驟,其中所述確定所述閾值的步驟包括對(duì)所述至少兩個(gè)麥克風(fēng)上的變換信號(hào)絕對(duì)值平方求和;對(duì)預(yù)定頻率范圍上的求和變換信號(hào)求和以產(chǎn)生第二總和;以及用提高因子乘以所述第二總和。
3.如權(quán)利要求1所述的方法,其特征在于所述濾波步驟包括用噪聲頻譜功率矩陣的逆、信道傳遞函數(shù)比向量和源信號(hào)頻譜功率乘以所述變換信號(hào)。
4.如權(quán)利要求3所述的方法,其特征在于由直接路徑混合模型確定所述信道傳遞函數(shù)比。
5.如權(quán)利要求3所述的方法,其特征在于通過從測(cè)量的信號(hào)頻譜協(xié)方差矩陣中頻譜減去所述噪聲頻譜功率矩陣來確定所述源信號(hào)頻譜功率。
6.一種用于確定混音信號(hào)中是否存在語音的方法,所述方法包括以下步驟由至少兩個(gè)麥克風(fēng)接收所述混音信號(hào);將每個(gè)接收混音信號(hào)快速傅立葉變換到頻域;將變換信號(hào)濾波以輸出與預(yù)定數(shù)量用戶中的每一個(gè)的空間特征對(duì)應(yīng)的信號(hào);對(duì)于每個(gè)所述用戶單獨(dú)對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值的平方求和;確定總和中的最大者;以及將最大總和與閾值比較以確定是否存在語音,其中如果所述總和大于或等于所述閾值,則存在語音,如果所述總和小于所述閾值,則不存在語音。
7.如權(quán)利要求6所述的方法,其特征在于如果存在語音,則將與所述最大總和相關(guān)聯(lián)的特定用戶確定為活動(dòng)說話者。
8.如權(quán)利要求6所述的方法,還包括確定所述閾值的步驟,其中所述確定所述閾值的步驟包括對(duì)所述至少兩個(gè)麥克風(fēng)上的變換信號(hào)絕對(duì)值的平方求和;對(duì)預(yù)定頻率范圍上的求和變換信號(hào)求和以產(chǎn)生第二總和;以及用提高因子乘以所述第二總和。
9.如權(quán)利要求6所述的方法,其特征在于所述濾波步驟包括用噪聲頻譜功率矩陣的逆、信道傳遞函數(shù)比向量和源信號(hào)頻譜功率乘以所述變換信號(hào)。
10.如權(quán)利要求9所述的方法,其特征在于對(duì)所述預(yù)定數(shù)量用戶的每一個(gè)執(zhí)行所述濾波步驟,并在校準(zhǔn)期間對(duì)每個(gè)用戶測(cè)量所述信道傳遞函數(shù)比。
11.如權(quán)利要求9所述的方法,其特征在于通過從測(cè)量的信號(hào)頻譜協(xié)方差矩陣中頻譜減去所述噪聲頻譜功率矩陣來確定所述源信號(hào)頻譜功率。
12.一種用于確定混音信號(hào)中是否存在語音的語音活動(dòng)檢測(cè)器,其包括至少兩個(gè)麥克風(fēng),用于接收所述混音信號(hào);快速傅立葉變換器,用于將每個(gè)接收混音信號(hào)變換到頻域;濾波器,用于將變換信號(hào)濾波以輸出與每個(gè)變換信號(hào)的空間特征對(duì)應(yīng)的信號(hào);第一加法器,用于對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;比較器,用于將所述總和與閾值比較以確定是否存在語音,其中如果所述總和大于或等于所述閾值,則存在語音,如果所述總和小于所述閾值,則不存在語音。
13.如權(quán)利要求12所述的語音活動(dòng)檢測(cè)器,還包括第二加法器,用于對(duì)所述至少兩個(gè)麥克風(fēng)上的變換信號(hào)絕對(duì)值平方求和,并且用于對(duì)預(yù)定頻率范圍上的求和變換信號(hào)求和以產(chǎn)生第二總和;以及乘法器,用于將提高因子乘以所述第二總和以確定所述閾值。
14.如權(quán)利要求12所述的語音活動(dòng)檢測(cè)器,其特征在于所述濾波器包括乘法器,用于將噪聲頻譜功率矩陣的逆、信道傳遞函數(shù)比向量和源信號(hào)頻譜功率乘以所述變換信號(hào)以確定與空間特性對(duì)應(yīng)的信號(hào)。
15.如權(quán)利要求14所述的語音活動(dòng)檢測(cè)器,還包括頻譜減法器,用于從測(cè)量的信號(hào)頻譜協(xié)方差矩陣中頻譜減去所述噪聲頻譜功率矩陣來確定所述信號(hào)頻譜功率。
16.一種用于確定混音信號(hào)中是否存在語音的語音活動(dòng)檢測(cè)器,其包括至少兩個(gè)麥克風(fēng),用于接收所述混音信號(hào);快速傅立葉變換器,用于將每個(gè)接收混音信號(hào)變換到頻域;至少一個(gè)濾波器,用于將所述變換信號(hào)濾波以輸出與預(yù)定數(shù)量用戶中的每一個(gè)的空間特征對(duì)應(yīng)的信號(hào);至少一個(gè)第一加法器,用于對(duì)每個(gè)用戶單獨(dú)對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;處理器,用于確定總和中的最大者;以及比較器,用于將最大總和與閾值比較以確定是否存在語音,其中如果所述總和大于或等于所述閾值,則存在語音,如果所述總和小于所述閾值,則不存在語音。
17.如權(quán)利要求16所述的語音活動(dòng)檢測(cè)器,其特征在于如果存在語音,將與所述最大總和相關(guān)聯(lián)的特定用戶確定為活動(dòng)說話者。
18.如權(quán)利要求16所述的語音活動(dòng)檢測(cè)器,還包括第二加法器,用于對(duì)所述至少兩個(gè)麥克風(fēng)上的變換信號(hào)絕對(duì)值平方求和,并且用于對(duì)預(yù)定頻率范圍上的求和變換信號(hào)求和以產(chǎn)生第二總和;以及乘法器,用于將提高因子乘以所述第二總和以確定所述閾值。
19.如權(quán)利要求16所述的語音活動(dòng)檢測(cè)器,其特征在于所述至少一個(gè)濾波器包括乘法器,用于將噪聲頻譜功率矩陣的逆、信道傳遞函數(shù)比向量和源信號(hào)頻譜功率乘以所述變換信號(hào)以確定與空間特性對(duì)應(yīng)的信號(hào)。
20.如權(quán)利要求19所述的語音活動(dòng)檢測(cè)器,還包括校準(zhǔn)單元,用于在校準(zhǔn)期間確定每個(gè)用戶的信道傳遞函數(shù)比。
21.如權(quán)利要求19所述的語音活動(dòng)檢測(cè)器,還包括頻譜減法器,用于從測(cè)量的信號(hào)頻譜協(xié)方差矩陣中頻譜減去所述噪聲頻譜功率矩陣來確定所述信號(hào)頻譜功率。
22.一種可由機(jī)器讀取的程序存儲(chǔ)設(shè)備,所述程序存儲(chǔ)設(shè)備可觸地體現(xiàn)可由所述機(jī)器執(zhí)行的指令程序以執(zhí)行用于確定混音信號(hào)中是否存在語音的方法步驟,所述方法步驟包括由至少兩個(gè)麥克風(fēng)接收所述混音信號(hào);將每個(gè)接收混音信號(hào)快速傅立葉變換到頻域;將變換信號(hào)濾波以輸出與源的空間特征對(duì)應(yīng)的信號(hào);對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和;將總和與閾值比較以確定是否存在語音,其中如果所述總和大于或等于所述閾值,則存在語音,如果所述總和小于所述閾值,則不存在語音。
全文摘要
本發(fā)明提供了多信道源活動(dòng)檢測(cè)系統(tǒng)(例如,語音活動(dòng)檢測(cè)(VAD)系統(tǒng))和采用目標(biāo)音頻源的空間定位的方法。所述方法包括步驟通過至少兩個(gè)麥克風(fēng)(102、104)接收混音信號(hào);通過快速傅立葉變換將接收混音信號(hào)變換到頻域(110);將變換信號(hào)濾波以輸出與源的空間特征對(duì)應(yīng)的信號(hào)(120);對(duì)預(yù)定頻率范圍上的濾波信號(hào)絕對(duì)值平方求和(122);以及將總和與閾值比較以確定是否存在語音(124)。此外,濾波步驟包括用噪聲頻譜功率矩陣的逆(132)、信道傳遞函數(shù)比向量(130)和源信號(hào)頻譜功率(128)乘以變換信號(hào)。
文檔編號(hào)G10L21/00GK1679083SQ03820158
公開日2005年10月5日 申請(qǐng)日期2003年7月21日 優(yōu)先權(quán)日2002年8月30日
發(fā)明者R·V·巴蘭, J·羅斯卡, C·博格安特 申請(qǐng)人:西門子共同研究公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1