用于增強(qiáng)輸入的有噪信號(hào)的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體設(shè)及處理聲信號(hào),并且更具體地,設(shè)及從諸如語(yǔ)音信號(hào)的聲信號(hào)中去 除加性噪聲。
【背景技術(shù)】
[0002] 從諸如語(yǔ)音信號(hào)的聲信號(hào)中去除加性噪聲在電話(huà)、音頻語(yǔ)音錄制和電子語(yǔ)音通信 中具有許多應(yīng)用。噪聲在城市環(huán)境、工廠(chǎng)、飛機(jī)、車(chē)輛等中普遍存在。
[0003] 去除更精確地反映環(huán)境中的真實(shí)噪聲的時(shí)變?cè)肼曁貏e困難。通常,使用靜態(tài)噪聲 模型的抑制技術(shù)不能實(shí)現(xiàn)非靜態(tài)噪聲消除。諸如譜減法和維納濾波的常規(guī)方法通常使用靜 態(tài)或慢變?cè)肼暪烙?jì),因此局限于穩(wěn)態(tài)噪聲或準(zhǔn)穩(wěn)態(tài)噪聲。
[0004] 語(yǔ)音包括諧音和非諧音。諧音能夠在時(shí)間上而具有不同的基頻。語(yǔ)音能夠在大的 頻率范圍上具有能量。非靜態(tài)噪聲的頻譜可W和語(yǔ)音類(lèi)似。因此,在一個(gè)"源"是語(yǔ)音并且另 一個(gè)"源"是加性噪聲的語(yǔ)音去噪應(yīng)用中,語(yǔ)音與噪聲模型之間的交疊使去噪性能下降。
[0005] 單獨(dú)地依賴(lài)給語(yǔ)音和噪聲建模的基于模型的語(yǔ)音增強(qiáng)方法在許多不同的問(wèn)題環(huán) 境方面已經(jīng)顯示出強(qiáng)大性能。當(dāng)噪聲的結(jié)構(gòu)是任意的時(shí)(實(shí)踐中通常是運(yùn)種情況),基于模 型的方法必須集中于開(kāi)發(fā)良好的語(yǔ)音模型,語(yǔ)音模型的質(zhì)量是其性能的關(guān)鍵。
[0006] 在建模策略方面,存在兩種普遍的方法。一種方法是基于諸如高斯混合模型的離 散狀態(tài)建模的方法。另一種方法使用諸如非負(fù)矩陣分解和它們的延伸集的基函數(shù)的連續(xù)加 權(quán)組合。一般的權(quán)衡是離散狀態(tài)方法可W更精確,特別是在它們的時(shí)間動(dòng)態(tài)方面,而連續(xù)方 法在增益和子空間可變性方面可W更靈活。
[0007] 例如,1].5.8,015,033描述了使用包括訓(xùn)練聲信號(hào)和訓(xùn)練噪聲信號(hào)的訓(xùn)練基礎(chǔ)矩 陣W及訓(xùn)練基礎(chǔ)矩陣的權(quán)重的統(tǒng)計(jì)的模型將例如語(yǔ)音和噪聲信號(hào)的混合信號(hào)去噪。但是, 一般來(lái)說(shuō),集中于慢變?cè)肼暤某R?guī)方法不足W快速改變諸如在增雜的環(huán)境中通過(guò)使用麥克 風(fēng)而經(jīng)受的非靜態(tài)噪聲。另外,補(bǔ)償快速改變的加性噪聲需要達(dá)到方法可W補(bǔ)償所有可能 的大量噪聲的程度的高計(jì)算能力,并且語(yǔ)音變化可W快速地變成計(jì)算方面成本過(guò)高的。
[000引因此,期望提供一種動(dòng)態(tài)且自適應(yīng)的語(yǔ)音增強(qiáng)方法。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的一些實(shí)施方式使用概率模型來(lái)增強(qiáng)帶噪聲的語(yǔ)音信號(hào)。一些實(shí)施方式的 一個(gè)目的是通過(guò)考慮基礎(chǔ)的語(yǔ)音產(chǎn)生過(guò)程及其動(dòng)態(tài)來(lái)對(duì)語(yǔ)音精確地建模。根據(jù)本發(fā)明的各 實(shí)施方式,概率模型是非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng)(NSFDS:non-negative source-filter dynamical system),該系統(tǒng)將激勵(lì)部分和濾波部分建模為非負(fù)動(dòng)力系統(tǒng)。
[0010] 例如,模型的狀態(tài)可W被分解成針對(duì)濾波器的離散分量(即,音素)、狀態(tài)和能夠?qū)?語(yǔ)音增強(qiáng)方法的訓(xùn)練部分和去噪部分簡(jiǎn)化的激勵(lì)狀態(tài)。另外,NSFDS將對(duì)應(yīng)的激勵(lì)狀態(tài)和濾 波器分量約束為在經(jīng)過(guò)形成馬爾可夫鏈的時(shí)間上統(tǒng)計(jì)地具有依存性。運(yùn)些約束能夠代表語(yǔ) 音的動(dòng)力學(xué),引起階乘HMM和非負(fù)動(dòng)力學(xué)系統(tǒng)方法之間的混合。
[0011] 另外,在一些實(shí)施方式中,NSFDS將激勵(lì)和濾波器分量建模為非負(fù)動(dòng)力學(xué)系統(tǒng),使 得代表激勵(lì)和濾波器分量的隱變量被確定為非負(fù)基函數(shù)的非負(fù)線(xiàn)性組合。例如,使用非負(fù) 基函數(shù)的非負(fù)線(xiàn)性組合對(duì)功率譜建模解決了適應(yīng)于被建模信號(hào)中的增益和其它變量的問(wèn) 題。不同的實(shí)施方式已經(jīng)單獨(dú)地添加了例如在時(shí)間上統(tǒng)計(jì)地具有依存性的形式的動(dòng)力學(xué)約 束或激勵(lì)-濾波器因子分解約束或它們的組合。
[0012] 總的來(lái)說(shuō),動(dòng)力學(xué)約束處理由于推斷的信號(hào)中隨著時(shí)間的不現(xiàn)實(shí)轉(zhuǎn)變而導(dǎo)致的不 精確,并且激勵(lì)-濾波器約束處理了因?yàn)闆](méi)有充分的訓(xùn)練數(shù)據(jù)造成的不精確,運(yùn)是因?yàn)橛?xùn)練 數(shù)據(jù)單獨(dú)地代表激勵(lì)和濾波器特性,而不是對(duì)所有組合進(jìn)行建模。使用動(dòng)力學(xué)約束和激勵(lì)-濾波器約束的組合來(lái)擴(kuò)展利用非負(fù)基函數(shù)的非負(fù)線(xiàn)性組合對(duì)功率譜建模能夠一起帶來(lái)增 加動(dòng)力學(xué)約束和激勵(lì)-濾波器約束并同時(shí)保持語(yǔ)音增強(qiáng)的計(jì)算成本適合于實(shí)時(shí)應(yīng)用的的優(yōu) 點(diǎn)。
[0013] 另外,因?yàn)橥ㄟ^(guò)單獨(dú)地發(fā)展在說(shuō)話(huà)人的口中和喉魄中的物理過(guò)程來(lái)管理語(yǔ)音的激 勵(lì)特性和濾波特性,所W針對(duì)激勵(lì)分量和濾波分量使用單獨(dú)的動(dòng)力學(xué)帶來(lái)了更精確和更高 效地建模的額外好處。
[0014] 因此,一個(gè)實(shí)施方式公開(kāi)了一種用于增強(qiáng)輸入的有噪信號(hào)的方法,其中,所述輸入 的有噪信號(hào)是清晰語(yǔ)音信號(hào)和噪聲信號(hào)的混合。所述方法包括W下步驟:使用所述清晰語(yǔ) 音信號(hào)的模型和所述噪聲信號(hào)的模型,從所述輸入的有噪信號(hào)確定多個(gè)序列的隱變量,所 述多個(gè)序列的隱變量包括表示所述清晰語(yǔ)音信號(hào)的激勵(lì)分量的至少一個(gè)序列的隱變量、表 示所述清晰語(yǔ)音信號(hào)的濾波器分量的至少一個(gè)序列的隱變量W及表示所述噪聲信號(hào)的至 少一個(gè)序列的隱變量,其中,所述清晰語(yǔ)音信號(hào)的模型包括非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng) (NSFDS),該NSFDS將表示所述激勵(lì)分量的隱變量約束為在時(shí)間上統(tǒng)計(jì)地具有依存性,并且 將表示所述濾波器分量的隱變量約束為在時(shí)間上統(tǒng)計(jì)地具有依存性,并且其中,所述隱變 量的序列包括被確定為非負(fù)基函數(shù)的非負(fù)線(xiàn)性組合的隱變量;W及使用相對(duì)應(yīng)的表示所述 激勵(lì)分量的隱變量與表示所述濾波器分量的隱變量的乘積來(lái)生成輸出信號(hào)。所述方法的步 驟由處理器執(zhí)行。
[0015] 另一個(gè)實(shí)施方式公開(kāi)了一種用于增強(qiáng)輸入的有噪信號(hào)的系統(tǒng),其中,所述輸入的 有噪信號(hào)是清晰語(yǔ)音信號(hào)與噪聲信號(hào)的混合。所述系統(tǒng)包括:存儲(chǔ)器,其用于存儲(chǔ)所述清晰 語(yǔ)音信號(hào)的模型,其中,所述清晰語(yǔ)音信號(hào)的模型包括非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng)(NSFDS); W及處理器,其用于使用所述NSFDS從所述輸入的有噪信號(hào)確定多個(gè)序列的隱變量,所述多 個(gè)序列的隱變量包括表示所述清晰語(yǔ)音信號(hào)的激勵(lì)分量的至少一個(gè)序列的隱變量、表示所 述清晰語(yǔ)音信號(hào)的濾波器分量的至少一個(gè)序列的隱變量,其中,所述NSFDS將表示所述激勵(lì) 分量的隱變量和表示所述濾波分量的隱變量約束為在時(shí)間上統(tǒng)計(jì)地具有依存性,并且其 中,所述隱變量的序列包括被確定為非負(fù)基函數(shù)的非負(fù)線(xiàn)性組合的隱變量,并且所述處理 器用于使用表示所述激勵(lì)分量和所述濾波分量的相對(duì)隱變量的乘積生成輸出信號(hào)。
【附圖說(shuō)明】
[0016] [圖 1A]
[0017] 圖IA是根據(jù)本發(fā)明的一些實(shí)施方式的用于對(duì)語(yǔ)音信號(hào)和噪聲的混合去噪的方法 的總體框圖。
[001 引[圖 IB]
[0019] 圖IB是根據(jù)本發(fā)明的一些實(shí)施方式的用于對(duì)混有噪聲的語(yǔ)音去噪的系統(tǒng)的示例。
[0020] [圖 1C]
[0021] 圖IC是根據(jù)本發(fā)明的一些實(shí)施方式的包括圖IB的系統(tǒng)的儀表盤(pán)的示意性示例。
[0022] [圖 2]
[0023] 圖2是根據(jù)本發(fā)明的一些實(shí)施方式的非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng)(NSFDS)的示意 圖。
[0024] [圖 3A]
[0025] 圖3A例示了根據(jù)本發(fā)明的一些實(shí)施方式的NSFDS的分量的實(shí)驗(yàn)數(shù)值。
[0026] [圖 3B]
[0027] 圖3B是根據(jù)本發(fā)明的一些實(shí)施方式的語(yǔ)音的NSFDS模型的圖表。
[002引[圖 4]
[0029] 圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用于增強(qiáng)有噪語(yǔ)音信號(hào)的方法的框圖。
[0030] [圖 5]
[0031] 圖5是采用一些實(shí)施方式的原理的示例方法的框圖。
[0032] [圖 6]
[0033]