圖6是示出針對(duì)清晰語(yǔ)音的變量的更新規(guī)則的表。
【具體實(shí)施方式】
[0034] 圖IA示出了根據(jù)本發(fā)明的一些實(shí)施方式的用于對(duì)語(yǔ)音信號(hào)與噪聲信號(hào)的混合去 噪的方法的總體框圖。該方法包括一次語(yǔ)音模型訓(xùn)練部分126、一次噪聲模型訓(xùn)練部分128 和實(shí)時(shí)去噪部分127。
[0035] 對(duì)一次語(yǔ)音模型訓(xùn)練部分126的輸入包括訓(xùn)練聲信號(hào)(VTspeeeh)121,并且對(duì)一次噪 聲模型訓(xùn)練部分128的輸入包括訓(xùn)練噪聲信號(hào)(VTnDis6)122。訓(xùn)練信號(hào)是要被去噪的信號(hào)(例 如,語(yǔ)音和非靜態(tài)噪聲)的類型的代表。訓(xùn)練的輸出是清晰語(yǔ)音信號(hào)的模型200和噪聲信號(hào) 的模型201。在本發(fā)明的各種實(shí)施方式中,模型200是下文將詳細(xì)描述的非負(fù)源-濾波器動(dòng)力 學(xué)系統(tǒng)(NSFDS)。該模型可W存儲(chǔ)在存儲(chǔ)器中W供隨后使用。
[0036] 對(duì)實(shí)時(shí)去噪部分127的輸入包括清晰語(yǔ)音的模型200、噪聲的模型201W及輸入信 號(hào)(Vmix)124,輸入信號(hào)124是清晰語(yǔ)音與噪聲的混合。去噪的輸出信號(hào)是對(duì)混合的輸入信號(hào) 的聲(語(yǔ)音)部分125的估計(jì)。
[0037] 在訓(xùn)練了 NSFDS模型200之后,所述模型可W在語(yǔ)音增強(qiáng)應(yīng)用中使用和/或作為語(yǔ) 音處理應(yīng)用的一部分使用(例如,用于在噪聲環(huán)境(諸如,在非靜態(tài)汽車噪聲下說(shuō)出語(yǔ)音的 汽車?yán)铮┳R(shí)別語(yǔ)音)。該方法能夠在處理器中執(zhí)行,所述處理器在工作上與存儲(chǔ)器和/或輸 入/輸出接口連接。
[0038] 圖IB示出了根據(jù)本發(fā)明的一些實(shí)施方式的能夠?qū)煊性肼暤恼Z(yǔ)音信號(hào)去噪的系 統(tǒng)1的示例。系統(tǒng)1包括控制系統(tǒng)的整體或部分的操作的中央處理單元(CPU)IOO。系統(tǒng)1與存 儲(chǔ)器101交互,存儲(chǔ)器101包括與系統(tǒng)的操作系統(tǒng)(OS)IOlO相關(guān)的軟件、能夠由CPU 100執(zhí)行 W向系統(tǒng)的用戶提供諸如命令和錯(cuò)誤校正的特定功能的應(yīng)用程序1011W及與語(yǔ)音識(shí)別相 關(guān)的軟件1〇12dNS抑S模型200也可W存儲(chǔ)在存儲(chǔ)器101中。
[0039] 系統(tǒng)I還可W包括用于接收語(yǔ)音的音頻接口(I/F)102,所述語(yǔ)音能夠通過(guò)麥克風(fēng) 103獲得或從外部輸入104接收(諸如從外部系統(tǒng)獲得的語(yǔ)音)。系統(tǒng)1可W進(jìn)一步包括諸如 用于控制顯示器106的顯示控制器105的一個(gè)或多個(gè)控制器,所述顯示器106例如可W是液 晶顯示器化CD)或其它類型的顯示器。顯示器106用作系統(tǒng)1的光學(xué)用戶接口并且例如允許 向系統(tǒng)1的用戶展示一系列單詞。系統(tǒng)1還可W連接至用于控制音頻輸出系統(tǒng)112(例如,一 個(gè)或更多個(gè)揚(yáng)聲器)的音頻輸出控制器111。系統(tǒng)1還可W連接至一個(gè)或更多個(gè)輸入接口,諸 如用于從操縱桿108接收輸入的操縱桿控制器107和用于從鍵區(qū)110接收輸入的鍵區(qū)控制器 109。容易理解的是,使用操縱桿和/或鍵區(qū)僅是示意性質(zhì)的。同樣,軌跡球或箭頭鍵可W被 用來(lái)實(shí)現(xiàn)所需的功能。另外,顯示器106可W是充當(dāng)接收來(lái)自用戶的輸入的接口的觸摸屏顯 示器。另外,由于執(zhí)行語(yǔ)音識(shí)別的能力,系統(tǒng)1可W完全免除任何與非語(yǔ)音相關(guān)的接口。音頻 I/F 102、操縱桿控制器107、鍵區(qū)控制器109和顯示控制器105由CP訴良據(jù)OS 1010和/或CPU 100正在執(zhí)行的應(yīng)用程序1011來(lái)控制。
[0040] 如圖IC所示,系統(tǒng)1可W被嵌入車輛199的儀表盤150中。用于控制系統(tǒng)1的操作的 各種控制131-133可W布置在方向盤130上。另選地或另外地,控制125可W布置在控制模塊 120上。系統(tǒng)1可被配置為在操作車輛的噪聲環(huán)境中改進(jìn)語(yǔ)音的解譯。
[0041] 非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng)
[0042] 圖2示出了根據(jù)本發(fā)明的一些實(shí)施方式的非負(fù)源-濾波器動(dòng)力學(xué)系統(tǒng)(NSFDS)的示 意圖。NSFDS遵循源-濾波器模型,源-濾波器模型將激勵(lì)源和聲道的濾波表示為單獨(dú)的因 素。具體地,NSFDS將語(yǔ)音建模為聲音源(諸如聲帶)與聲道和福射特性的濾波器特性的組 厶 1=1 O
[0043] 因此,NSFDS 200包括清晰語(yǔ)音的與信號(hào)的激勵(lì)部分相對(duì)應(yīng)的激勵(lì)分量210,激勵(lì) 分量210主要通過(guò)具有特定音高的聲帶振動(dòng)(發(fā)聲)、擾動(dòng)空氣噪聲(摩擦音)和氣流開(kāi)始/停 止聲音(閉止)和它們的組合形成。NSFDS 200還包括清晰語(yǔ)音的與聲道對(duì)聲音的頻譜包絡(luò) 的影響相對(duì)應(yīng)的濾波器分量220,如在不同的元音("ah"對(duì)"ee")或不同地調(diào)制的摩擦音模 式(V對(duì)"Sb")的情況下。
[0044] 在一些實(shí)施方式中,激勵(lì)分量和濾波器分量由相對(duì)應(yīng)的隱變量235表示,隱變量被 稱為隱藏是因?yàn)槟切╇[變量不是從混合的帶噪聲語(yǔ)音測(cè)量出的,而是估計(jì)出的,如下文所 述。使用源-濾波器方法的語(yǔ)音近似能夠簡(jiǎn)化模型的訓(xùn)練和隱變量的估計(jì)。
[0045] NSFDS模型200將表示激勵(lì)分量和濾波器分量的相對(duì)應(yīng)的隱變量約束為在時(shí)間上 統(tǒng)計(jì)地具有依存性。例如,NSFDS將表示激勵(lì)分量的隱變量約束215為在時(shí)間上統(tǒng)計(jì)地具有 依存性,并且還將表示濾波器分量的隱變量約束為216在時(shí)間上統(tǒng)計(jì)地具有依存性。在一些 實(shí)施方式中,依存215和/或216被形成為馬爾可夫鏈。運(yùn)些約束能夠表示語(yǔ)音的動(dòng)力學(xué),引 起階乘HMM和非負(fù)動(dòng)力學(xué)系統(tǒng)方法之間的混合。
[0046] 另外,NSFDS使用非負(fù)基函數(shù)的非負(fù)線性組合(即,包括被確定為非負(fù)基函數(shù)的非 負(fù)線性組合的隱變量236的一系列隱變量235)對(duì)激勵(lì)分量和/或?yàn)V波器分量建模。使用非負(fù) 基函數(shù)的非負(fù)線性組合進(jìn)行建模(例如,語(yǔ)音的功率譜)解決了適應(yīng)被建模的信號(hào)中的音量 和其它變量的問(wèn)題。不同的實(shí)施方式例如已經(jīng)單獨(dú)地增加了動(dòng)力學(xué)約束(W在時(shí)間上統(tǒng)計(jì) 地具有依存性的形式)、或者激勵(lì)-濾波器因子分解約束或它們的組合。
[0047] 總的來(lái)說(shuō),動(dòng)力學(xué)約束處理由于在推斷的信號(hào)中隨時(shí)間出現(xiàn)的不現(xiàn)實(shí)轉(zhuǎn)變而導(dǎo)致 的不精確,并且激勵(lì)-濾波器約束處理因?yàn)闆](méi)有充分的訓(xùn)練數(shù)據(jù)而造成的不精確,運(yùn)是因?yàn)?訓(xùn)練數(shù)據(jù)單獨(dú)地表示激勵(lì)和濾波器特性而不是對(duì)所有組合進(jìn)行建模。利用動(dòng)力學(xué)約束和激 勵(lì)-濾波器約束的組合來(lái)擴(kuò)展使用非負(fù)基函數(shù)的非負(fù)線性組合對(duì)功率譜的建模能夠一起帶 來(lái)增加動(dòng)力學(xué)約束的優(yōu)點(diǎn)和增加激勵(lì)-濾波器約束的優(yōu)點(diǎn)。
[0048] 另外,因?yàn)橥ㄟ^(guò)單獨(dú)地發(fā)展在說(shuō)話人的口中和喉魄中的物理過(guò)程來(lái)管理語(yǔ)音的激 勵(lì)特性和濾波器特性,對(duì)激勵(lì)分量和濾波器分量單獨(dú)地使用動(dòng)力學(xué)帶來(lái)了更精確和高效建 模的額外好處。
[0049] 圖3A示出了 NSFDS的分量的實(shí)驗(yàn)數(shù)值??驁D上的箭頭示出了分量間的關(guān)系。該模型 的目的是估計(jì)350存在于混合的帶噪聲語(yǔ)音信號(hào)中的清晰語(yǔ)音301。
[0化0] 圖3B示出了根據(jù)本發(fā)明的一些實(shí)施方式的NSFDS模型200的圖表300。在圖表300 中,諸如節(jié)點(diǎn)330和335的圓形節(jié)點(diǎn)表示連續(xù)隨機(jī)變量,諸如節(jié)點(diǎn)340和345的矩形節(jié)點(diǎn)表示 離散隨機(jī)變量,諸如節(jié)點(diǎn)350的陰影節(jié)點(diǎn)表示觀察的變量。箭頭決定條件獨(dú)立結(jié)構(gòu)。
[0化1]后合譜X P iT'fxW中的NSFDS標(biāo)巧可被描述為有條件的零均值復(fù)合高斯分布,
[0化2]
(1)
[0化3]其方差被建模為濾波器分量375vf"、激勵(lì)分量巧Olfn和增益355gn的乘積,其中, f表示頻率索引,并且n表示帖索引。濾波器分量的目的在于捕獲音素的時(shí)變結(jié)構(gòu),而激勵(lì)分 量的目的在于捕獲語(yǔ)音的時(shí)變音高和其它激勵(lì)模式。增益分量有助于所述模型跟蹤語(yǔ)音信 號(hào)的振幅的軌跡變化。
[0化4]該建模方法相當(dāng)于假定功率譜上的指數(shù)分布Sfn=