亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于壓縮感知和k-svd的單通道混合語音分離方法

文檔序號(hào):2830204閱讀:588來源:國知局
專利名稱:基于壓縮感知和k-svd的單通道混合語音分離方法
技術(shù)領(lǐng)域
本發(fā)明涉及一類特殊的語音增強(qiáng)范疇一語音分離,尤其涉及一種基于壓縮感知和 K-SVD的單通道混合語音分離方法,屬于語音信號(hào)處理的技術(shù)領(lǐng)域,
背景技術(shù)
語音是人類最方便最直接也最常用的交流方式。然而,在實(shí)際環(huán)境中,人們?cè)讷@取 語音信號(hào)的同時(shí)不可避免地會(huì)受到周圍環(huán)境噪聲的干擾,這些干擾一方面會(huì)影響語音處理 系統(tǒng)(例如語音識(shí)別系統(tǒng))的性能,另一方面會(huì)影響人耳對(duì)語音的感知和理解。因此,語音 增強(qiáng)顯得尤為必要。語音分離是一類特殊的語音增強(qiáng)方法,其噪聲對(duì)象一般為難以處理的 類語音噪聲,是在源語音信號(hào)和傳輸信道參數(shù)(即混合過程)未知的情況下,僅根據(jù)從麥克 風(fēng)采集到的觀測(cè)數(shù)據(jù)(即混合語音信號(hào)),來恢復(fù)或分離出獨(dú)立的源語音信號(hào)的過程。其目 的是增強(qiáng)目標(biāo)語音,抑制干擾語音。目標(biāo)語音和干擾語音性質(zhì)的相似性,決定了語音分離在 各類語音增強(qiáng)方法中難度是最大的。單通道混合語音分離要求從一個(gè)麥克風(fēng)采集得到的混 合語音信號(hào)中,分離出彼此獨(dú)立的多個(gè)源語音信號(hào),因已知條件最少而難度更大。但由于一 個(gè)麥克風(fēng)是最容易布設(shè)也是最常用的,所以單通道混合語音分離技術(shù)如果可以突破,則具 有的實(shí)際應(yīng)用價(jià)值最大。目前單通道混合語音分離主要有三類主要方法基于統(tǒng)計(jì)模型的單通道混合語音 分離方法,計(jì)算機(jī)聽覺場(chǎng)景分析和基于投影分解的單通道混合語音分離方法?;诮y(tǒng)計(jì)模 型的單通道混合語音分離方法是建立在對(duì)信號(hào)訓(xùn)練建模基礎(chǔ)上的,通常分為三步第一步, 對(duì)各源語音信號(hào)或其特征參數(shù)建模,通過訓(xùn)練確立各源語音信號(hào)模型的參數(shù);第二步,以混 合語音信號(hào)和源語音信號(hào)模型為已知條件,根據(jù)合適的準(zhǔn)則,選擇源語音信號(hào)中的若干成 分來最優(yōu)地組成混合語音信號(hào);第三步,由選取的各源語音信號(hào)成分直接組成分離后的各 源語音,或者先形成相應(yīng)的濾波器,再預(yù)測(cè)出各源語音信號(hào)。計(jì)算機(jī)聽覺場(chǎng)景分析方法通過 模仿人耳聽覺系統(tǒng)來進(jìn)行語音分離,核心為分離,由分段和組合兩部分組成。分段是將混合 語音分解為一系列的感覺段,各分離語音信號(hào)的每個(gè)感覺段要求來自于同個(gè)源語音信號(hào)。 組合是把來自于相同源信號(hào)的感覺段合并起來,形成對(duì)應(yīng)源信號(hào)的流?;谕队胺纸獾膯?通道混合語音分離方法,一般是先通過機(jī)器學(xué)習(xí)構(gòu)造合適的基函數(shù)或字典,再由概率方法 或最優(yōu)化方法,預(yù)測(cè)出源語音信號(hào)在某基函數(shù)或某字典下的投影向量,最后由預(yù)測(cè)的投影 向量和相應(yīng)的基函數(shù)或字典重構(gòu)得到分離后的語音信號(hào)。從分離方法上看基于概率統(tǒng)計(jì)模型的單通道混合語音分離算法側(cè)重于概率方 法,在概率建模的基礎(chǔ)上實(shí)現(xiàn)混合語音的分離,需要預(yù)先訓(xùn)練;計(jì)算機(jī)聽覺場(chǎng)景分析方法 (CASA)側(cè)重于生物模擬方法,通過模擬人耳聽覺實(shí)現(xiàn)混合語音的分離,不需要預(yù)先訓(xùn)練; 基于投影分解的單通道混合語音分離算法側(cè)重于機(jī)器學(xué)習(xí),通過機(jī)器學(xué)習(xí)構(gòu)造合適的基函 數(shù)或字典,在此基礎(chǔ)上實(shí)現(xiàn)混合語音的分離,需要預(yù)先訓(xùn)練。從分離性能上看整體而言,基 于投影分解的單通道混合語音分離算法的分離性能最好,基于概率統(tǒng)計(jì)模型的單通道混合 語音分離算法的分離性能次之,CASA的分離性能最差。從算法復(fù)雜度上看CASA通過模擬人耳聽覺來進(jìn)行語音分離,并需要對(duì)語音的分段重組進(jìn)行多次調(diào)整,復(fù)雜度最高?;谕队?分解的單通道混合語音分離算法與基于概率統(tǒng)計(jì)模型的單通道混合語音分離算法,都基于 數(shù)學(xué)概率模型或優(yōu)化方法,故總體而言,復(fù)雜度相差不大。從發(fā)展?jié)摿ι峡?,三者各有?yōu)缺 點(diǎn),都有自己的發(fā)展空間。雖然目前單通道混合語音分離的研究取得了一定的成果,但總體 都算法復(fù)雜度偏高,且性能雖源語音信號(hào)的不同而差別較大,另外在訓(xùn)練階段對(duì)訓(xùn)練數(shù)據(jù) 有特殊的要求,故整體而言,實(shí)用性不強(qiáng),有待改進(jìn),以便具體應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明提供一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其目的重在 考慮實(shí)用性,設(shè)計(jì)對(duì)訓(xùn)練數(shù)據(jù)沒有特殊要求,且性能穩(wěn)定的單通道混合語音分離方法,以能 增強(qiáng)目標(biāo)語音,降低干擾語音。本方法利用語音信號(hào)在K-SVD字典下的稀疏性,根據(jù)壓縮感 知觀測(cè)和單通道混合語音在表達(dá)式上的相似性,采用壓縮感知理論中的信號(hào)重構(gòu)方法,來 進(jìn)行單通道混合語音的分離,以達(dá)到增強(qiáng)目標(biāo)語音抑制干擾語音的目的。為實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征在于本方法利 用語音信號(hào)在K-SVD字典下的稀疏性,根據(jù)壓縮感知觀測(cè)和單通道混合語音在表達(dá)式上的 相似性,采用壓縮感知理論中的信號(hào)重構(gòu)方法,進(jìn)行單通道混合語音的分離,以達(dá)到增強(qiáng)目 標(biāo)語音抑制干擾語音的目的,采取的步驟是1)采用K-SVD算法,對(duì)男男、男女及女女三類混合訓(xùn)練語音分幀,由混合訓(xùn)練語音 幀對(duì)每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基于所構(gòu)造的K-SVD字典 和各單通道混合語音幀的表達(dá)式,從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出 發(fā),采用壓縮感知理論中基于IcT范數(shù)優(yōu)化的信號(hào)重構(gòu)算法,求取各源語音幀在K-SVD字典 下稀疏表示的估計(jì),由該稀疏表示的估計(jì)和K-SVD字典的乘積,重構(gòu)得到各分離語音幀;3)將各分離語音幀順序連接,得到分離后的語音信號(hào)。上述中1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法可以是a.記χ = 為已知的單通道混合語音,其中Si(i = 1,2)為未知的源語音信 號(hào);假設(shè)S1和S2所對(duì)應(yīng)的說話人已知,將S1和S2所對(duì)應(yīng)的說話人的訓(xùn)練語音分幀,幀長(zhǎng)
為L(zhǎng)樣點(diǎn)/幀,取L = 128,幀間不重疊,分別記各源語音信號(hào)幀為^trailJ二Γ"和·, 將‘序連接,得到混合訓(xùn)練語音巾貞·K^Cii",其中=(Cn^u)1, =IXttain(I),⑵,...,<_仏)『表示S1所對(duì)應(yīng)說話人的第i幀訓(xùn)練語音,
^Un = -⑴,_(2),...,4,train(L)]T表示&所對(duì)應(yīng)的說話人的第i幀訓(xùn)練語音,Nteain表
示各說話人的訓(xùn)練語音幀數(shù),兩說話人的訓(xùn)練語音幀數(shù)相同;b.采用K-SVD算法訓(xùn)練構(gòu)造過完備字典Q,使各混合訓(xùn)練語音幀信號(hào)在Q下滿足 重構(gòu)誤差在設(shè)定范圍的同時(shí)信號(hào)盡可能在該字典下稀疏,具體可用下面的數(shù)學(xué)式表示V/: tnin||rj|0s.t. ^ttaitli||2 ^^
其中γ i為Xtrainj在字典Q下的稀疏表示,ε表示設(shè)定的重構(gòu)誤差閾值,值為0. 1 ;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長(zhǎng)為為L(zhǎng)樣點(diǎn)/幀,同樣取L = 128,幀間不重疊,逐幀 分離單通道混合語音,各幀分離單通道混合語音的方法相同;下面以第j幀單通道混合語 音分離為例,來說明分離各單通道混合語音幀的方法a.記第j幀單通道混合語音為V =S/+與,其中S/為源信號(hào)Si (i = 1,2)號(hào)的第j
幀,分+與用矩陣形式表示如下
權(quán)利要求
1.一種基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征在于本方法利用 語音信號(hào)在K-SVD字典下的稀疏性,根據(jù)壓縮感知觀測(cè)和單通道混合語音在表達(dá)式上的相 似性,采用壓縮感知理論中的信號(hào)重構(gòu)方法,進(jìn)行單通道混合語音的分離,以達(dá)到增強(qiáng)目標(biāo) 語音抑制干擾語音的目的,采取的步驟是1)采用K-SVD算法,對(duì)男男、男女及女女三類混合訓(xùn)練語音分幀,由混合訓(xùn)練語音幀對(duì) 每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基于所構(gòu)造的K-SVD字典和各 單通道混合語音幀的表達(dá)式,從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出發(fā),采 用壓縮感知理論中基于Icr范數(shù)優(yōu)化的信號(hào)重構(gòu)算法,求取各源語音幀在K-SVD字典下稀 疏表示的估計(jì),由該稀疏表示的估計(jì)和K-SVD字典的乘積,重構(gòu)得到各分離語音幀;3)將各分離語音幀順序連接,得到分離后的語音信號(hào)。
2.根據(jù)權(quán)利要求1所述的基于壓縮感知和K-SVD的單通道混合語音分離方法,其特征 在于1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法是a.記χ= 為已知的單通道混合語音,其中Si (i = 1,2)為未知的源語音信 號(hào);設(shè)S1和&所對(duì)應(yīng)的說話人已知,將S1和&所對(duì)應(yīng)的說話人的訓(xùn)練語音分幀,幀長(zhǎng)為L(zhǎng)樣點(diǎn)/幀,取L = 128,幀間不重疊,分別記各源語音信號(hào)幀為RtrainIiIr1和, 將和順序連接,得到混合訓(xùn)練語音巾貞{^Xr,其中‘,=(c^u)T, =[<^ (1),<^(2),·.-,^train(L)J表示S1所對(duì)應(yīng)說話人的第i幀訓(xùn)練語音,=OU1⑴,4-(2),·.·,■<,_(L^f表示&所對(duì)應(yīng)的說話人的第i巾貞訓(xùn)練語音,Ntrain表示各說話人的訓(xùn)練語音幀數(shù),兩說話人的訓(xùn)練語音幀數(shù)相同;b.采用K-SVD算法訓(xùn)練構(gòu)造過完備字典Q,使各混合訓(xùn)練語音幀信號(hào)在Q下滿足重構(gòu) 誤差在設(shè)定范圍的同時(shí)信號(hào)盡可能在該字典下稀疏,用下面的數(shù)學(xué)式表示其中YiSAaini在字典Q下的稀疏表示,ε表示設(shè)定的重構(gòu)誤差閾值,值為0.1;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長(zhǎng)為L(zhǎng)樣點(diǎn)/幀,同樣取L = 128,幀間不重疊,逐幀分離單 通道混合語音,各幀分離單通道混合語音的方法相同,對(duì)于其中第J幀a.記第j幀單通道混合語音為Y 與,其中i/為源信號(hào)Si(i = 1,2)號(hào)的第j中貞, 分二<用矩陣形式表示如下練的過程中,保證全體混合訓(xùn)練語音幀在Q下具有稀疏性,故可認(rèn)為
全文摘要
一種基于壓縮感知和K-SVD的單通道混合語音分離方法,采用K-SVD算法,對(duì)包括男男、男女及女女三類混合訓(xùn)練語音,由混合訓(xùn)練語音幀對(duì)每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典,滿足重構(gòu)誤差在某一范圍的同時(shí)信號(hào)在該字典下稀疏,基于所構(gòu)造的K-SVD字典,從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出發(fā),采用壓縮感知理論中基于l0-范數(shù)優(yōu)化的信號(hào)重構(gòu)算法,分離單通道混合語音,基于各單通道混合語音幀的表達(dá)式,求取各源語音幀在K-SVD字典下稀疏表示的估計(jì),再由該稀疏表示的估計(jì)和K-SVD字典,重構(gòu)得到各分離語音幀,最后將各分離語音幀順序連接,得到分離后的語音信號(hào)。
文檔編號(hào)G10L19/00GK102081928SQ20101055669
公開日2011年6月1日 申請(qǐng)日期2010年11月24日 優(yōu)先權(quán)日2010年11月24日
發(fā)明者楊震, 郭海燕 申請(qǐng)人:南京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1