理器中對訓練用數(shù)字帶噪語音信號 提取特征,包括:子帶互通道能量差和歸一化的互通道相關;并對每幀訓練用數(shù)字帶噪語音 信號進行標記得到對應的語音活動檢測結(jié)果;
[0043] 訓練模塊:用于將特征作為神經(jīng)網(wǎng)絡的輸入,信號特征提取和語音活動檢測模塊 中得到的語音活動檢測結(jié)果作為輸出目標訓練神經(jīng)網(wǎng)絡;
[0044] 存儲模塊:用于存儲訓練完畢的神經(jīng)網(wǎng)絡的權(quán)值和神經(jīng)元個數(shù);
[0045] 所述基于訓練好的神經(jīng)網(wǎng)絡進行語音活動檢測單元包括:
[0046] 信號采集模塊:用于通過通信終端的主麥克風和次麥克風采集待測的模擬帶噪語 音信號;
[0047] 模數(shù)轉(zhuǎn)換模塊:用于通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風采集到的模擬帶噪語音 信號轉(zhuǎn)換為對應的數(shù)字采樣信號,得到待測的分別對應于主、次麥克風的數(shù)字帶噪語音信 號;
[0048] 信號傳輸模塊:用于將該數(shù)字采樣信號傳輸至通信終端處理器;
[0049] 信號特征提取模塊:用于在處理器中對待測的數(shù)字帶噪語音信號提取特征,包括: 子帶互通道能量差和歸一化的互通道相關;
[0050] 待測語音活動檢測模塊:用于將信號特征提取模塊提取的特征作為輸入送入神經(jīng) 網(wǎng)絡訓練單元中已訓練完畢的神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡使用神經(jīng)網(wǎng)絡訓練單元中存儲模塊存 儲的神經(jīng)網(wǎng)絡的權(quán)值和神經(jīng)元個數(shù);
[0051] 輸出單元:用于將神經(jīng)網(wǎng)絡的輸出作為語音活動檢測的最終檢測結(jié)果輸出。
[0052]在上述語音活動檢測裝置中,優(yōu)選的,所述特征中子帶互通道能量差的計算方法 為:使用短時傅里葉變化將主、次麥克風接受的信號轉(zhuǎn)化到頻域,在頻域使用24個MEL頻帶 對頻域進行劃分,對每一幀信號,先分別計算主、次麥克風的信號功率譜,再計算主、次麥克 風的信號功率譜在每個頻點的比值,對每個子帶,將子帶內(nèi)每個頻點的功率比值取對數(shù)相 加求和再除以子帶的頻點數(shù)進行平均,然后得到每個子帶的互通道能量差作為訓練神經(jīng)網(wǎng) 絡的特征,其中第b個子帶互通道能量差為:
[0053]
< 1
[0054] 其中,uh(b)和m(b)分別為第b個子帶的上下邊界,Pxjkn)·和Ρχ#,η)分別為主麥 克風和次麥克風中第η幀信號的第k個頻點的功率譜,k代表頻率點,η代表語音幀標號,i為 麥克風的標號。
[0055] 在上述語音活動檢測裝置中,優(yōu)選的,所述特征中歸一化的互通道相關的計算方 法為:在時域?qū)⒅?、次麥克風中的信號劃分為短時幀,對每一幀信號,先計算主、次麥克風接 受的信號幅值的均值,然后,在每個采樣點上,再用主麥克風中的信號幅值減去對應均值的 值,與當前采樣點經(jīng)過τ個采樣點的延時后的次麥克風中的信號幅值減去對應均值的值相 乘,并將每個采樣點計算的結(jié)果在一幀內(nèi)求和,最后對求和的值進行歸一化,得到對應每一 幀的歸一化互通道相關Τ(η,τ),計算公式如下:
[0056]
<2);
[0057]其中,L代表每一幀時域信號的長度,τ為延時,Χ1,η和12,"分別為主、次麥克風中的 數(shù)字帶噪語音信號,Α.η和1%,.η分別為每一幀內(nèi)主麥克風和次麥克風接受的信號的均值。
[0058] 在上述語音活動檢測裝置中,進一步優(yōu)選的,所述神經(jīng)網(wǎng)絡訓練單元的訓練樣本 采集模塊中,所采集的訓練樣本中包括訓練集和驗證集;
[0059] 所述神經(jīng)網(wǎng)絡訓練單元的訓練模塊中:將特征作為神經(jīng)網(wǎng)絡的輸入,信號特征提 取和語音活動檢測模塊中得到的語音活動檢測結(jié)果作為輸出目標訓練神經(jīng)網(wǎng)絡,具體包 括:根據(jù)預設的神經(jīng)網(wǎng)絡隱藏層神經(jīng)元個數(shù)的范圍,將從訓練集中提取的特征作為神經(jīng)網(wǎng) 絡的輸入,對應訓練集的語音活動檢測結(jié)果作為神經(jīng)網(wǎng)絡的輸出目標,計算神經(jīng)網(wǎng)絡的輸 出結(jié)果與輸出目標之間的誤差;通過誤差反向傳播算法持續(xù)調(diào)整神經(jīng)網(wǎng)絡的權(quán)值,直到誤 差小于預設的閾值或者訓練次數(shù)達到預期最大迭代次數(shù)則停止神經(jīng)網(wǎng)絡的訓練;然后使用 驗證集驗證神經(jīng)網(wǎng)絡的結(jié)果,將從驗證集中提取的特征作為神經(jīng)網(wǎng)絡的輸入,神經(jīng)網(wǎng)絡的 輸出結(jié)果和對應驗證集的語音活動檢測結(jié)果進行比較,統(tǒng)計神經(jīng)網(wǎng)絡輸出結(jié)果的正確率, 如果正確率優(yōu)于之前訓練得到的結(jié)果,則記錄此時的神經(jīng)元個數(shù);增加一個神經(jīng)元重復上 述的訓練和驗證步驟,直到到達設定神經(jīng)元個數(shù)的上限,最后選取最優(yōu)的結(jié)果對應的神經(jīng) 元個數(shù),并記錄此時神經(jīng)網(wǎng)絡內(nèi)部的權(quán)值作為最終訓練完畢的神經(jīng)網(wǎng)絡。
[0060]有益效果:本發(fā)明提供了一種通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測方法 和裝置,其不依賴于固定閾值,可以依據(jù)不同的噪聲環(huán)境而自適應的調(diào)節(jié)參數(shù)進行語音活 動檢測,從而解決了之前采用固定閾值的方法不能適應噪聲環(huán)境改變而性能下降的問題, 提升了在復雜噪聲環(huán)境下的語音活動檢測的準確性。
【附圖說明】
[0061 ]圖1是本發(fā)明總體結(jié)構(gòu)方框示意圖;
[0062]圖2是本發(fā)明中神經(jīng)網(wǎng)絡訓練的示意圖。
【具體實施方式】
[0063]下面結(jié)合實施例對本發(fā)明做進一步的詳細說明,本實施列對本發(fā)明不構(gòu)成限定。
[0064] 本實施例提供了一種通信終端雙麥克風消噪系統(tǒng)中的語音活動檢測裝置,其包 括:
[0065] 神經(jīng)網(wǎng)絡訓練單元:用于選取訓練樣本,提取特征,并得到對應的語音活動檢測結(jié) 果,利用特征和對應的檢測結(jié)果對神經(jīng)網(wǎng)絡進行訓練,得到訓練好的神經(jīng)網(wǎng)絡;
[0066] 基于訓練好的神經(jīng)網(wǎng)絡進行語音活動檢測單元:用于通過通信終端的主、次麥克 風采集待測的模擬帶噪語音信號,并通過模數(shù)轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字采樣信號,得到待測的分 別對應于主、次麥克風的數(shù)字帶噪語音信號,接著對該數(shù)字帶噪語音信號提取特征,然后將 特征送入神經(jīng)網(wǎng)絡訓練單元訓練好的神經(jīng)網(wǎng)絡,由神經(jīng)網(wǎng)絡輸出語音活動檢測的最終檢測 結(jié)果,也即由神經(jīng)網(wǎng)絡輸出待測語音活動的最終語音活動檢測結(jié)果;
[0067] 所述神經(jīng)網(wǎng)絡訓練單元和基于訓練好的神經(jīng)網(wǎng)絡進行語音活動檢測單元中的特 征包括子帶互通道能量差和歸一化的互通道相關。
[0068] 其中,神經(jīng)網(wǎng)絡訓練單元中具體包括:
[0069] 訓練樣本采集模塊:用于通過通信終端的主麥克風和次麥克風采集訓練用的模擬 帶噪語音信號作為神經(jīng)網(wǎng)絡的訓練樣本;本實施例中所采集的訓練樣本中包括訓練集和驗 證集;
[0070] 模數(shù)轉(zhuǎn)換模塊:用于通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風采集到的訓練用模擬帶 噪語音信號轉(zhuǎn)換為對應的數(shù)字采樣信號,得到訓練用的分別對應于主、次麥克風的數(shù)字帶 噪語音信號;
[0071] 信號傳輸模塊:用于將該數(shù)字采樣信號傳輸至通信終端處理器;
[0072] 信號特征提取和語音活動檢測模塊:用于在處理器中對訓練用數(shù)字帶噪語音信號 提取特征,包括:子帶互通道能量差和歸一化的互通道相關;并對每幀訓練用數(shù)字帶噪語音 信號進行標記得到對應的語音活動檢測結(jié)果;
[0073] 訓練模塊:用于將特征作為神經(jīng)網(wǎng)絡的輸入,信號特征提取和語音活動檢測模塊 中得到的語音活動檢測結(jié)果作為輸出目標訓練神經(jīng)網(wǎng)絡;本實施例中具體為:
[0074] 根據(jù)預設的神經(jīng)網(wǎng)絡隱藏層神經(jīng)元個數(shù)的范圍,將從訓練集中提取的特征作為神 經(jīng)網(wǎng)絡的輸入,對應訓練集的語音活動檢測結(jié)果作為神經(jīng)網(wǎng)絡的輸出目標,計算神經(jīng)網(wǎng)絡 的輸出結(jié)果與輸出目標之間的誤差;通過誤差反向傳播算法持續(xù)調(diào)整神經(jīng)網(wǎng)絡的權(quán)值,直 到誤差小于預設的閾值或者訓練次數(shù)達到預期最大迭代次數(shù)則停止神經(jīng)網(wǎng)絡的訓練;然后 使用驗證集驗證神經(jīng)網(wǎng)絡的結(jié)果,將從驗證集中提取的特征作為神經(jīng)網(wǎng)絡的輸入,神經(jīng)網(wǎng) 絡的輸出結(jié)果和對應驗證集的語音活動檢測結(jié)果進行比較,統(tǒng)計神經(jīng)網(wǎng)絡輸出結(jié)果的正確 率,如果正確率優(yōu)于之前訓練得到的結(jié)果,則記錄此時的神經(jīng)元個數(shù);增加一個神經(jīng)元重復 上述的訓練和驗證步驟,直到到達設定神經(jīng)元個數(shù)的上限,最后選取最優(yōu)的結(jié)果對應的神 經(jīng)元個數(shù),并記錄此時神經(jīng)網(wǎng)絡內(nèi)部的權(quán)值作為最終訓練完畢的神經(jīng)網(wǎng)絡;
[0075] 存儲模塊:用于存儲訓練完畢的神經(jīng)網(wǎng)絡的權(quán)值和神經(jīng)元個數(shù);
[0076] 其中,基于訓練好的神經(jīng)網(wǎng)絡進行語音活動檢測單元具體包括:
[0077] 信號采集模塊:用于通過通信終端的主麥克風和次麥克風采集待測的模擬帶噪語 音信號;
[0078] 模數(shù)轉(zhuǎn)換模塊:用于通過模數(shù)轉(zhuǎn)換器分別將主、次麥克風采集到的模擬帶噪語音 信號轉(zhuǎn)換為對應的數(shù)字采樣信號,得到待測的分別對應于主、次麥克風的數(shù)字帶噪語音信 號;
[0079]信號傳輸模塊:用于將該數(shù)字采樣信號傳輸至通信終端處理