用于增強(qiáng)輸入的有噪信號的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體設(shè)及處理聲信號,并且更具體地,設(shè)及從諸如語音信號的聲信號中去 除加性噪聲。
【背景技術(shù)】
[0002] 從諸如語音信號的聲信號中去除加性噪聲在電話、音頻語音錄制和電子語音通信 中具有許多應(yīng)用。噪聲在城市環(huán)境、工廠、飛機(jī)、車輛等中普遍存在。
[0003] 去除更精確地反映環(huán)境中的真實噪聲的時變噪聲特別困難。通常,使用靜態(tài)噪聲 模型的抑制技術(shù)不能實現(xiàn)非靜態(tài)噪聲消除。諸如譜減法和維納濾波的常規(guī)方法通常使用靜 態(tài)或慢變噪聲估計,因此局限于穩(wěn)態(tài)噪聲或準(zhǔn)穩(wěn)態(tài)噪聲。
[0004] 語音包括諧音和非諧音。諧音能夠在時間上而具有不同的基頻。語音能夠在大的 頻率范圍上具有能量。非靜態(tài)噪聲的頻譜可W和語音類似。因此,在一個"源"是語音并且另 一個"源"是加性噪聲的語音去噪應(yīng)用中,語音與噪聲模型之間的交疊使去噪性能下降。
[0005] 單獨地依賴給語音和噪聲建模的基于模型的語音增強(qiáng)方法在許多不同的問題環(huán) 境方面已經(jīng)顯示出強(qiáng)大性能。當(dāng)噪聲的結(jié)構(gòu)是任意的時(實踐中通常是運種情況),基于模 型的方法必須集中于開發(fā)良好的語音模型,語音模型的質(zhì)量是其性能的關(guān)鍵。
[0006] 在建模策略方面,存在兩種普遍的方法。一種方法是基于諸如高斯混合模型的離 散狀態(tài)建模的方法。另一種方法使用諸如非負(fù)矩陣分解和它們的延伸集的基函數(shù)的連續(xù)加 權(quán)組合。一般的權(quán)衡是離散狀態(tài)方法可W更精確,特別是在它們的時間動態(tài)方面,而連續(xù)方 法在增益和子空間可變性方面可W更靈活。
[0007] 例如,1].5.8,015,033描述了使用包括訓(xùn)練聲信號和訓(xùn)練噪聲信號的訓(xùn)練基礎(chǔ)矩 陣W及訓(xùn)練基礎(chǔ)矩陣的權(quán)重的統(tǒng)計的模型將例如語音和噪聲信號的混合信號去噪。但是, 一般來說,集中于慢變噪聲的常規(guī)方法不足W快速改變諸如在增雜的環(huán)境中通過使用麥克 風(fēng)而經(jīng)受的非靜態(tài)噪聲。另外,補(bǔ)償快速改變的加性噪聲需要達(dá)到方法可W補(bǔ)償所有可能 的大量噪聲的程度的高計算能力,并且語音變化可W快速地變成計算方面成本過高的。
[000引因此,期望提供一種動態(tài)且自適應(yīng)的語音增強(qiáng)方法。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的一些實施方式使用概率模型來增強(qiáng)帶噪聲的語音信號。一些實施方式的 一個目的是通過考慮基礎(chǔ)的語音產(chǎn)生過程及其動態(tài)來對語音精確地建模。根據(jù)本發(fā)明的各 實施方式,概率模型是非負(fù)源-濾波器動力學(xué)系統(tǒng)(NSFDS:non-negative source-filter dynamical system),該系統(tǒng)將激勵部分和濾波部分建模為非負(fù)動力系統(tǒng)。
[0010] 例如,模型的狀態(tài)可W被分解成針對濾波器的離散分量(即,音素)、狀態(tài)和能夠?qū)?語音增強(qiáng)方法的訓(xùn)練部分和去噪部分簡化的激勵狀態(tài)。另外,NSFDS將對應(yīng)的激勵狀態(tài)和濾 波器分量約束為在經(jīng)過形成馬爾可夫鏈的時間上統(tǒng)計地具有依存性。運些約束能夠代表語 音的動力學(xué),引起階乘HMM和非負(fù)動力學(xué)系統(tǒng)方法之間的混合。
[0011] 另外,在一些實施方式中,NSFDS將激勵和濾波器分量建模為非負(fù)動力學(xué)系統(tǒng),使 得代表激勵和濾波器分量的隱變量被確定為非負(fù)基函數(shù)的非負(fù)線性組合。例如,使用非負(fù) 基函數(shù)的非負(fù)線性組合對功率譜建模解決了適應(yīng)于被建模信號中的增益和其它變量的問 題。不同的實施方式已經(jīng)單獨地添加了例如在時間上統(tǒng)計地具有依存性的形式的動力學(xué)約 束或激勵-濾波器因子分解約束或它們的組合。
[0012] 總的來說,動力學(xué)約束處理由于推斷的信號中隨著時間的不現(xiàn)實轉(zhuǎn)變而導(dǎo)致的不 精確,并且激勵-濾波器約束處理了因為沒有充分的訓(xùn)練數(shù)據(jù)造成的不精確,運是因為訓(xùn)練 數(shù)據(jù)單獨地代表激勵和濾波器特性,而不是對所有組合進(jìn)行建模。使用動力學(xué)約束和激勵-濾波器約束的組合來擴(kuò)展利用非負(fù)基函數(shù)的非負(fù)線性組合對功率譜建模能夠一起帶來增 加動力學(xué)約束和激勵-濾波器約束并同時保持語音增強(qiáng)的計算成本適合于實時應(yīng)用的的優(yōu) 點。
[0013] 另外,因為通過單獨地發(fā)展在說話人的口中和喉魄中的物理過程來管理語音的激 勵特性和濾波特性,所W針對激勵分量和濾波分量使用單獨的動力學(xué)帶來了更精確和更高 效地建模的額外好處。
[0014] 因此,一個實施方式公開了一種用于增強(qiáng)輸入的有噪信號的方法,其中,所述輸入 的有噪信號是清晰語音信號和噪聲信號的混合。所述方法包括W下步驟:使用所述清晰語 音信號的模型和所述噪聲信號的模型,從所述輸入的有噪信號確定多個序列的隱變量,所 述多個序列的隱變量包括表示所述清晰語音信號的激勵分量的至少一個序列的隱變量、表 示所述清晰語音信號的濾波器分量的至少一個序列的隱變量W及表示所述噪聲信號的至 少一個序列的隱變量,其中,所述清晰語音信號的模型包括非負(fù)源-濾波器動力學(xué)系統(tǒng) (NSFDS),該NSFDS將表示所述激勵分量的隱變量約束為在時間上統(tǒng)計地具有依存性,并且 將表示所述濾波器分量的隱變量約束為在時間上統(tǒng)計地具有依存性,并且其中,所述隱變 量的序列包括被確定為非負(fù)基函數(shù)的非負(fù)線性組合的隱變量;W及使用相對應(yīng)的表示所述 激勵分量的隱變量與表示所述濾波器分量的隱變量的乘積來生成輸出信號。所述方法的步 驟由處理器執(zhí)行。
[0015] 另一個實施方式公開了一種用于增強(qiáng)輸入的有噪信號的系統(tǒng),其中,所述輸入的 有噪信號是清晰語音信號與噪聲信號的混合。所述系統(tǒng)包括:存儲器,其用于存儲所述清晰 語音信號的模型,其中,所述清晰語音信號的模型包括非負(fù)源-濾波器動力學(xué)系統(tǒng)(NSFDS); W及處理器,其用于使用所述NSFDS從所述輸入的有噪信號確定多個序列的隱變量,所述多 個序列的隱變量包括表示所述清晰語音信號的激勵分量的至少一個序列的隱變量、表示所 述清晰語音信號的濾波器分量的至少一個序列的隱變量,其中,所述NSFDS將表示所述激勵 分量的隱變量和表示所述濾波分量的隱變量約束為在時間上統(tǒng)計地具有依存性,并且其 中,所述隱變量的序列包括被確定為非負(fù)基函數(shù)的非負(fù)線性組合的隱變量,并且所述處理 器用于使用表示所述激勵分量和所述濾波分量的相對隱變量的乘積生成輸出信號。
【附圖說明】
[0016] [圖 1A]
[0017] 圖IA是根據(jù)本發(fā)明的一些實施方式的用于對語音信號和噪聲的混合去噪的方法 的總體框圖。
[001 引[圖 IB]
[0019] 圖IB是根據(jù)本發(fā)明的一些實施方式的用于對混有噪聲的語音去噪的系統(tǒng)的示例。
[0020] [圖 1C]
[0021] 圖IC是根據(jù)本發(fā)明的一些實施方式的包括圖IB的系統(tǒng)的儀表盤的示意性示例。
[0022] [圖 2]
[0023] 圖2是根據(jù)本發(fā)明的一些實施方式的非負(fù)源-濾波器動力學(xué)系統(tǒng)(NSFDS)的示意 圖。
[0024] [圖 3A]
[0025] 圖3A例示了根據(jù)本發(fā)明的一些實施方式的NSFDS的分量的實驗數(shù)值。
[0026] [圖 3B]
[0027] 圖3B是根據(jù)本發(fā)明的一些實施方式的語音的NSFDS模型的圖表。
[002引[圖 4]
[0029] 圖4是根據(jù)本發(fā)明的一個實施方式的用于增強(qiáng)有噪語音信號的方法的框圖。
[0030] [圖 5]
[0031] 圖5是采用一些實施方式的原理的示例方法的框圖。
[0032] [圖 6]
[0033]