通信終端雙麥克風(fēng)消噪系統(tǒng)中的語音活動檢測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音通話中的噪聲抑制、消除、降噪、消噪通信技術(shù),特別涉及帶噪語 音信號中的語音活動的檢測方法及裝置。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中,應(yīng)用于手機(jī)消噪中的技術(shù)主要采用設(shè)定固定的閾值來判斷語音和噪 聲。
[0003] 然而,通信終端,如手機(jī)在通話中所處的噪聲環(huán)境非常的復(fù)雜,依賴于固定閾值的 技術(shù)無法在復(fù)雜多變的多種噪聲環(huán)境下準(zhǔn)確的區(qū)分語音和噪聲,應(yīng)用于手機(jī)消噪系統(tǒng)會造 成語音失真降低可懂度的問題。
[0004] 語音活動檢測是語音增強(qiáng)處理中的重要組成部分,語音活動檢測可以從帶噪語音 信號中確定出語音的起始和結(jié)束點(diǎn)的位置,準(zhǔn)確的語音活動檢測結(jié)果可以幫助消噪系統(tǒng)對 噪聲進(jìn)行有效抑制的同時(shí)盡可能的減少語音信號的失真提高語音的可懂度。手機(jī)作為現(xiàn)在 最主流的通訊設(shè)備,其通話質(zhì)量的改善意義重大。
[0005] 因此急需一種不依賴于固定閾值,可能依據(jù)不同的噪聲環(huán)境而自適應(yīng)的調(diào)節(jié)參數(shù) 的語音活動檢測方法和裝置,來提升復(fù)雜噪聲環(huán)境下的語音活動檢測的準(zhǔn)確性。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明為了解決現(xiàn)有技術(shù)的不足,提供了一種通信終端雙麥克風(fēng)消噪 系統(tǒng)中的語音活動檢測方法,同時(shí)提供了一種通信終端雙麥克風(fēng)消噪系統(tǒng)中的語音活動檢 測裝置。
[0007] 技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明提供的一種通信終端雙麥克風(fēng)消噪系統(tǒng) 中的語音活動檢測方法,包括如下步驟:
[0008] 1)神經(jīng)網(wǎng)絡(luò)訓(xùn)練:選取訓(xùn)練樣本,提取特征,并得到對應(yīng)的語音活動檢測結(jié)果,利 用特征和對應(yīng)的語音活動檢測結(jié)果對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);
[0009] 2)基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語音活動檢測:通過通信終端的主、次麥克風(fēng)采集 待測的模擬帶噪語音信號,并通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字采樣信號,得到待測的分別對應(yīng) 于主、次麥克風(fēng)的數(shù)字帶噪語音信號,接著對該數(shù)字帶噪語音信號提取特征,然后將特征送 入步驟1)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)輸出語音活動檢測的最終檢測結(jié)果;
[0010] 所述步驟1)和步驟2)中的特征包括子帶互通道能量差和歸一化的互通道相關(guān)。
[0011] 優(yōu)選的,所述1)神經(jīng)網(wǎng)絡(luò)訓(xùn)練包括如下步驟:
[0012] (11)通過通信終端的主麥克風(fēng)和次麥克風(fēng)采集訓(xùn)練用的模擬帶噪語音信號作為 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本;
[0013] (12)通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風(fēng)采集到的訓(xùn)練用模擬帶噪語音信號轉(zhuǎn)換 為對應(yīng)的數(shù)字采樣信號,得到訓(xùn)練用的分別對應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語音信號;
[0014] (13)將該數(shù)字采樣信號傳輸至通信終端處理器;
[0015] (14)在處理器中對訓(xùn)練用數(shù)字帶噪語音信號提取特征,包括:子帶互通道能量差 和歸一化的互通道相關(guān);并對每幀訓(xùn)練用數(shù)字帶噪語音信號進(jìn)行標(biāo)記得到對應(yīng)的語音活動 檢測結(jié)果;
[0016] (15)將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,步驟(14)中得到的語音活動檢測結(jié)果作為輸出 目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò);
[0017] (16)存儲訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個(gè)數(shù);
[0018] 所述2)基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語音活動檢測包括如下步驟:
[0019] (21)通過通信終端的主麥克風(fēng)和次麥克風(fēng)采集待測的模擬帶噪語音信號;
[0020] (22)通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風(fēng)采集到的模擬帶噪語音信號轉(zhuǎn)換為對應(yīng) 的數(shù)字采樣信號,得到待測的分別對應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語音信號;
[0021] (23)將該數(shù)字采樣信號傳輸至通信終端處理器;
[0022] (24)在處理器中對待測的數(shù)字帶噪語音信號提取特征,包括:子帶互通道能量差 和歸一化的互通道相關(guān);
[0023] (25)將步驟(24)提取的特征作為輸入送入步驟1)中已訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò),該神 經(jīng)網(wǎng)絡(luò)使用步驟(16)存儲的神經(jīng)網(wǎng)絡(luò)的權(quán)值和神經(jīng)元個(gè)數(shù);
[0024] (26)將神經(jīng)網(wǎng)絡(luò)的輸出作為語音活動檢測的最終檢測結(jié)果。
[0025]優(yōu)選的,所述特征中子帶互通道能量差的計(jì)算方法為:使用短時(shí)傅里葉變化將主、 次麥克風(fēng)接受的信號轉(zhuǎn)化到頻域,在頻域使用24個(gè)MEL頻帶對頻域進(jìn)行劃分,對每一幀信 號,先分別計(jì)算主、次麥克風(fēng)的信號功率譜,再計(jì)算主、次麥克風(fēng)的信號功率譜在每個(gè)頻點(diǎn) 的比值,對每個(gè)子帶,將子帶內(nèi)每個(gè)頻點(diǎn)的功率比值取對數(shù)相加求和再除以子帶的頻點(diǎn)數(shù) 進(jìn)行平均,然后得到每個(gè)子帶的互通道能量差作為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的特征,其中第b個(gè)子帶互 通道能量差為:
[0026]
⑴;
[0027]其中,uh(b)和m(b)分別為第b個(gè)子帶的上下邊界,PXl(k,n) *PX2(k,n)分別為主 麥克風(fēng)和次麥克風(fēng)中第η幀信號的第k個(gè)頻點(diǎn)的功率譜,k代表頻率點(diǎn),η代表語音幀標(biāo)號,i 為麥克風(fēng)的標(biāo)號。
[0028]優(yōu)選的,所述特征中歸一化的互通道相關(guān)的計(jì)算方法為:在時(shí)域?qū)⒅鳌⒋嘻溈孙L(fēng)中 的信號劃分為短時(shí)幀,對每一幀信號,先計(jì)算主、次麥克風(fēng)接受的信號幅值的均值,然后,在 每個(gè)采樣點(diǎn)上,再用主麥克風(fēng)中的信號幅值減去對應(yīng)均值的值,與當(dāng)前采樣點(diǎn)經(jīng)過τ個(gè)采樣 點(diǎn)的延時(shí)后的次麥克風(fēng)中的信號幅值減去對應(yīng)均值的值相乘,并將每個(gè)采樣點(diǎn)計(jì)算的結(jié)果 在一幀內(nèi)求和,最后對求和的值進(jìn)行歸一化,得到對應(yīng)每一幀的歸一化互通道相關(guān)Τ(η,τ), 計(jì)算公式如下:
[0029]
(2);
[0030] 其中,L代表每一幀時(shí)域信號的長度,τ為延時(shí),χ1>η和χ2,η分別為主、次麥克風(fēng)中的 數(shù)字帶噪語音信號,$1,η和&2,η分別為每一幀內(nèi)主麥克風(fēng)和次麥克風(fēng)接受的信號的均值。
[0031] 進(jìn)一步優(yōu)選的,所述步驟(11)中,所采集的訓(xùn)練樣本中包括訓(xùn)練集和驗(yàn)證集;
[0032] 所述步驟(15)中將特征作為神經(jīng)網(wǎng)絡(luò)的輸入,步驟(14)中得到的語音活動檢測結(jié) 果作為輸出目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò),具體包括:
[0033] 根據(jù)預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個(gè)數(shù)的范圍,將從訓(xùn)練集中提取的特征作為神 經(jīng)網(wǎng)絡(luò)的輸入,對應(yīng)訓(xùn)練集的語音活動檢測結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出目標(biāo),計(jì)算神經(jīng)網(wǎng)絡(luò) 的輸出結(jié)果與輸出目標(biāo)之間的誤差;通過誤差反向傳播算法持續(xù)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)值,直 到誤差小于預(yù)設(shè)的閾值或者訓(xùn)練次數(shù)達(dá)到預(yù)期最大迭代次數(shù)則停止神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;然后 使用驗(yàn)證集驗(yàn)證神經(jīng)網(wǎng)絡(luò)的結(jié)果,將從驗(yàn)證集中提取的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng) 絡(luò)的輸出結(jié)果和對應(yīng)驗(yàn)證集的語音活動檢測結(jié)果進(jìn)行比較,統(tǒng)計(jì)神經(jīng)網(wǎng)絡(luò)輸出結(jié)果的正確 率,如果正確率優(yōu)于之前訓(xùn)練得到的結(jié)果,則記錄此時(shí)的神經(jīng)元個(gè)數(shù);增加一個(gè)神經(jīng)元重復(fù) 上述的訓(xùn)練和驗(yàn)證步驟,直到到達(dá)設(shè)定神經(jīng)元個(gè)數(shù)的上限,最后選取最優(yōu)的結(jié)果對應(yīng)的神 經(jīng)元個(gè)數(shù),并記錄此時(shí)神經(jīng)網(wǎng)絡(luò)內(nèi)部的權(quán)值作為最終訓(xùn)練完畢的神經(jīng)網(wǎng)絡(luò)。
[0034] 本發(fā)明同時(shí)提供一種通信終端雙麥克風(fēng)消噪系統(tǒng)中的語音活動檢測裝置,其包 括:
[0035] 神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元:用于選取訓(xùn)練樣本,提取特征,并得到對應(yīng)的語音活動檢測結(jié) 果,利用特征和對應(yīng)的檢測結(jié)果對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò);
[0036] 基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語音活動檢測單元:用于通過通信終端的主、次麥克 風(fēng)采集待測的模擬帶噪語音信號,并通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字采樣信號,得到待測的分 別對應(yīng)于主、次麥克風(fēng)的數(shù)字帶噪語音信號,接著對該數(shù)字帶噪語音信號提取特征,然后將 特征送入神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),由神經(jīng)網(wǎng)絡(luò)輸出語音活動檢測的最終檢測 結(jié)果;
[0037] 所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元和基于訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)進(jìn)行語音活動檢測單元中的特 征包括子帶互通道能量差和歸一化的互通道相關(guān)。
[0038] 在上述語音活動檢測裝置中,優(yōu)選的,所述神經(jīng)網(wǎng)絡(luò)訓(xùn)練單元中包括:
[0039] 訓(xùn)練樣本采集模塊:用于通過通信終端的主麥克風(fēng)和次麥克風(fēng)采集訓(xùn)練用的模擬 帶噪語音信號作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本;
[0040] 模數(shù)轉(zhuǎn)換模塊:用于通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風(fēng)采集到的訓(xùn)練用模擬帶 噪語音信號轉(zhuǎn)換為對應(yīng)的數(shù)字采樣信號,得到訓(xùn)練用的分別對應(yīng)于主、次麥克風(fēng)的數(shù)字帶 噪語音信號;
[0041] 信號傳輸模塊:用于將該數(shù)字采樣信號傳輸至通信終端處理器;
[0042] 信號特征提取和語音活動檢測模塊:用于在處