基于壓縮感知和k-svd的單通道混合語音分離方法

文檔序號(hào)：2830204閱讀：588來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：基于壓縮感知和k-svd的單通道混合語音分離方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一類特殊的語音增強(qiáng)范疇一語音分離，尤其涉及一種基于壓縮感知和 K-SVD的單通道混合語音分離方法，屬于語音信號(hào)處理的技術(shù)領(lǐng)域，
背景技術(shù)：
語音是人類最方便最直接也最常用的交流方式。然而，在實(shí)際環(huán)境中，人們?cè)讷@取語音信號(hào)的同時(shí)不可避免地會(huì)受到周圍環(huán)境噪聲的干擾，這些干擾一方面會(huì)影響語音處理系統(tǒng)(例如語音識(shí)別系統(tǒng))的性能，另一方面會(huì)影響人耳對(duì)語音的感知和理解。因此，語音增強(qiáng)顯得尤為必要。語音分離是一類特殊的語音增強(qiáng)方法，其噪聲對(duì)象一般為難以處理的類語音噪聲，是在源語音信號(hào)和傳輸信道參數(shù)(即混合過程)未知的情況下，僅根據(jù)從麥克風(fēng)采集到的觀測(cè)數(shù)據(jù)(即混合語音信號(hào))，來恢復(fù)或分離出獨(dú)立的源語音信號(hào)的過程。其目的是增強(qiáng)目標(biāo)語音，抑制干擾語音。目標(biāo)語音和干擾語音性質(zhì)的相似性，決定了語音分離在各類語音增強(qiáng)方法中難度是最大的。單通道混合語音分離要求從一個(gè)麥克風(fēng)采集得到的混合語音信號(hào)中，分離出彼此獨(dú)立的多個(gè)源語音信號(hào)，因已知條件最少而難度更大。但由于一個(gè)麥克風(fēng)是最容易布設(shè)也是最常用的，所以單通道混合語音分離技術(shù)如果可以突破，則具有的實(shí)際應(yīng)用價(jià)值最大。目前單通道混合語音分離主要有三類主要方法基于統(tǒng)計(jì)模型的單通道混合語音分離方法，計(jì)算機(jī)聽覺場(chǎng)景分析和基于投影分解的單通道混合語音分離方法?；诮y(tǒng)計(jì)模型的單通道混合語音分離方法是建立在對(duì)信號(hào)訓(xùn)練建模基礎(chǔ)上的，通常分為三步第一步，對(duì)各源語音信號(hào)或其特征參數(shù)建模，通過訓(xùn)練確立各源語音信號(hào)模型的參數(shù)；第二步，以混合語音信號(hào)和源語音信號(hào)模型為已知條件，根據(jù)合適的準(zhǔn)則，選擇源語音信號(hào)中的若干成分來最優(yōu)地組成混合語音信號(hào)；第三步，由選取的各源語音信號(hào)成分直接組成分離后的各源語音，或者先形成相應(yīng)的濾波器，再預(yù)測(cè)出各源語音信號(hào)。計(jì)算機(jī)聽覺場(chǎng)景分析方法通過模仿人耳聽覺系統(tǒng)來進(jìn)行語音分離，核心為分離，由分段和組合兩部分組成。分段是將混合語音分解為一系列的感覺段，各分離語音信號(hào)的每個(gè)感覺段要求來自于同個(gè)源語音信號(hào)。組合是把來自于相同源信號(hào)的感覺段合并起來，形成對(duì)應(yīng)源信號(hào)的流?；谕队胺纸獾膯?通道混合語音分離方法，一般是先通過機(jī)器學(xué)習(xí)構(gòu)造合適的基函數(shù)或字典，再由概率方法或最優(yōu)化方法，預(yù)測(cè)出源語音信號(hào)在某基函數(shù)或某字典下的投影向量，最后由預(yù)測(cè)的投影向量和相應(yīng)的基函數(shù)或字典重構(gòu)得到分離后的語音信號(hào)。從分離方法上看基于概率統(tǒng)計(jì)模型的單通道混合語音分離算法側(cè)重于概率方法，在概率建模的基礎(chǔ)上實(shí)現(xiàn)混合語音的分離，需要預(yù)先訓(xùn)練；計(jì)算機(jī)聽覺場(chǎng)景分析方法 (CASA)側(cè)重于生物模擬方法，通過模擬人耳聽覺實(shí)現(xiàn)混合語音的分離，不需要預(yù)先訓(xùn)練；基于投影分解的單通道混合語音分離算法側(cè)重于機(jī)器學(xué)習(xí)，通過機(jī)器學(xué)習(xí)構(gòu)造合適的基函數(shù)或字典，在此基礎(chǔ)上實(shí)現(xiàn)混合語音的分離，需要預(yù)先訓(xùn)練。從分離性能上看整體而言，基于投影分解的單通道混合語音分離算法的分離性能最好，基于概率統(tǒng)計(jì)模型的單通道混合語音分離算法的分離性能次之，CASA的分離性能最差。從算法復(fù)雜度上看CASA通過模擬人耳聽覺來進(jìn)行語音分離，并需要對(duì)語音的分段重組進(jìn)行多次調(diào)整，復(fù)雜度最高?；谕队?分解的單通道混合語音分離算法與基于概率統(tǒng)計(jì)模型的單通道混合語音分離算法，都基于數(shù)學(xué)概率模型或優(yōu)化方法，故總體而言，復(fù)雜度相差不大。從發(fā)展?jié)摿ι峡?，三者各有?yōu)缺點(diǎn)，都有自己的發(fā)展空間。雖然目前單通道混合語音分離的研究取得了一定的成果，但總體都算法復(fù)雜度偏高，且性能雖源語音信號(hào)的不同而差別較大，另外在訓(xùn)練階段對(duì)訓(xùn)練數(shù)據(jù) 有特殊的要求，故整體而言，實(shí)用性不強(qiáng)，有待改進(jìn)，以便具體應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明提供一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其目的重在考慮實(shí)用性，設(shè)計(jì)對(duì)訓(xùn)練數(shù)據(jù)沒有特殊要求，且性能穩(wěn)定的單通道混合語音分離方法，以能增強(qiáng)目標(biāo)語音，降低干擾語音。本方法利用語音信號(hào)在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測(cè)和單通道混合語音在表達(dá)式上的相似性，采用壓縮感知理論中的信號(hào)重構(gòu)方法，來進(jìn)行單通道混合語音的分離，以達(dá)到增強(qiáng)目標(biāo)語音抑制干擾語音的目的。為實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于本方法利用語音信號(hào)在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測(cè)和單通道混合語音在表達(dá)式上的相似性，采用壓縮感知理論中的信號(hào)重構(gòu)方法，進(jìn)行單通道混合語音的分離，以達(dá)到增強(qiáng)目標(biāo)語音抑制干擾語音的目的，采取的步驟是1)采用K-SVD算法，對(duì)男男、男女及女女三類混合訓(xùn)練語音分幀，由混合訓(xùn)練語音幀對(duì)每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典；2)將單通道混合語音分幀，逐幀分離單通道混合語音；基于所構(gòu)造的K-SVD字典和各單通道混合語音幀的表達(dá)式，從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出發(fā)，采用壓縮感知理論中基于IcT范數(shù)優(yōu)化的信號(hào)重構(gòu)算法，求取各源語音幀在K-SVD字典下稀疏表示的估計(jì)，由該稀疏表示的估計(jì)和K-SVD字典的乘積，重構(gòu)得到各分離語音幀；3)將各分離語音幀順序連接，得到分離后的語音信號(hào)。上述中1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法可以是a.記χ = 為已知的單通道混合語音，其中Si(i = 1，2)為未知的源語音信號(hào)；假設(shè)S1和S2所對(duì)應(yīng)的說話人已知，將S1和S2所對(duì)應(yīng)的說話人的訓(xùn)練語音分幀，幀長(zhǎng)
為L(zhǎng)樣點(diǎn)/幀，取L = 128，幀間不重疊，分別記各源語音信號(hào)幀為^trailJ二Γ"和·，將‘序連接，得到混合訓(xùn)練語音巾貞·K^Cii"，其中=(Cn^u)1， =IXttain(I),⑵,...，<_仏)『表示S1所對(duì)應(yīng)說話人的第i幀訓(xùn)練語音，
^Un = -⑴，_(2),...,4,train(L)]T表示&所對(duì)應(yīng)的說話人的第i幀訓(xùn)練語音，Nteain表
示各說話人的訓(xùn)練語音幀數(shù)，兩說話人的訓(xùn)練語音幀數(shù)相同；b.采用K-SVD算法訓(xùn)練構(gòu)造過完備字典Q，使各混合訓(xùn)練語音幀信號(hào)在Q下滿足重構(gòu)誤差在設(shè)定范圍的同時(shí)信號(hào)盡可能在該字典下稀疏，具體可用下面的數(shù)學(xué)式表示V/: tnin||rj|0s.t. ^ttaitli||2 ^^
其中γ i為Xtrainj在字典Q下的稀疏表示，ε表示設(shè)定的重構(gòu)誤差閾值，值為0. 1 ；2)將單通道混合語音分幀，逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀，幀長(zhǎng)為為L(zhǎng)樣點(diǎn)/幀，同樣取L = 128，幀間不重疊，逐幀分離單通道混合語音，各幀分離單通道混合語音的方法相同；下面以第j幀單通道混合語音分離為例，來說明分離各單通道混合語音幀的方法a.記第j幀單通道混合語音為V =S/+與，其中S/為源信號(hào)Si (i = 1,2)號(hào)的第j
幀，分+與用矩陣形式表示如下
權(quán)利要求
1.一種基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于本方法利用語音信號(hào)在K-SVD字典下的稀疏性，根據(jù)壓縮感知觀測(cè)和單通道混合語音在表達(dá)式上的相似性，采用壓縮感知理論中的信號(hào)重構(gòu)方法，進(jìn)行單通道混合語音的分離，以達(dá)到增強(qiáng)目標(biāo) 語音抑制干擾語音的目的，采取的步驟是1)采用K-SVD算法，對(duì)男男、男女及女女三類混合訓(xùn)練語音分幀，由混合訓(xùn)練語音幀對(duì) 每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典；2)將單通道混合語音分幀，逐幀分離單通道混合語音；基于所構(gòu)造的K-SVD字典和各單通道混合語音幀的表達(dá)式，從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出發(fā)，采用壓縮感知理論中基于Icr范數(shù)優(yōu)化的信號(hào)重構(gòu)算法，求取各源語音幀在K-SVD字典下稀疏表示的估計(jì)，由該稀疏表示的估計(jì)和K-SVD字典的乘積，重構(gòu)得到各分離語音幀；3)將各分離語音幀順序連接，得到分離后的語音信號(hào)。
2.根據(jù)權(quán)利要求1所述的基于壓縮感知和K-SVD的單通道混合語音分離方法，其特征在于1)采用K-SVD算法構(gòu)造K-SVD字典的具體方法是a.記χ= 為已知的單通道混合語音，其中Si (i = 1,2)為未知的源語音信號(hào)；設(shè)S1和&所對(duì)應(yīng)的說話人已知，將S1和&所對(duì)應(yīng)的說話人的訓(xùn)練語音分幀，幀長(zhǎng)為L(zhǎng)樣點(diǎn)/幀，取L = 128，幀間不重疊，分別記各源語音信號(hào)幀為RtrainIiIr1和，將和順序連接，得到混合訓(xùn)練語音巾貞{^Xr，其中‘,=(c^u)T， =[<^ (1),<^(2),·.-,^train(L)J表示S1所對(duì)應(yīng)說話人的第i幀訓(xùn)練語音，=OU1⑴，4-(2),·.·，■<,_(L^f表示&所對(duì)應(yīng)的說話人的第i巾貞訓(xùn)練語音，Ntrain表示各說話人的訓(xùn)練語音幀數(shù)，兩說話人的訓(xùn)練語音幀數(shù)相同；b.采用K-SVD算法訓(xùn)練構(gòu)造過完備字典Q，使各混合訓(xùn)練語音幀信號(hào)在Q下滿足重構(gòu) 誤差在設(shè)定范圍的同時(shí)信號(hào)盡可能在該字典下稀疏，用下面的數(shù)學(xué)式表示其中YiSAaini在字典Q下的稀疏表示，ε表示設(shè)定的重構(gòu)誤差閾值，值為0.1;2)將單通道混合語音分幀，逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀，幀長(zhǎng)為L(zhǎng)樣點(diǎn)/幀，同樣取L = 128，幀間不重疊，逐幀分離單通道混合語音，各幀分離單通道混合語音的方法相同，對(duì)于其中第J幀a.記第j幀單通道混合語音為Y 與，其中i/為源信號(hào)Si(i = 1,2)號(hào)的第j中貞，分二<用矩陣形式表示如下練的過程中，保證全體混合訓(xùn)練語音幀在Q下具有稀疏性，故可認(rèn)為
全文摘要
一種基于壓縮感知和K-SVD的單通道混合語音分離方法，采用K-SVD算法，對(duì)包括男男、男女及女女三類混合訓(xùn)練語音，由混合訓(xùn)練語音幀對(duì)每類混合訓(xùn)練語音各構(gòu)造一個(gè)普遍適用的過完備字典即K-SVD字典，滿足重構(gòu)誤差在某一范圍的同時(shí)信號(hào)在該字典下稀疏，基于所構(gòu)造的K-SVD字典，從壓縮感知觀測(cè)和單通道混合語音表達(dá)式的相似性出發(fā)，采用壓縮感知理論中基于l0-范數(shù)優(yōu)化的信號(hào)重構(gòu)算法，分離單通道混合語音，基于各單通道混合語音幀的表達(dá)式，求取各源語音幀在K-SVD字典下稀疏表示的估計(jì)，再由該稀疏表示的估計(jì)和K-SVD字典，重構(gòu)得到各分離語音幀，最后將各分離語音幀順序連接，得到分離后的語音信號(hào)。
文檔編號(hào)G10L19/00GK102081928SQ20101055669
公開日2011年6月1日申請(qǐng)日期2010年11月24日優(yōu)先權(quán)日2010年11月24日
發(fā)明者楊震, 郭海燕申請(qǐng)人:南京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭海燕;楊震
技術(shù)所有人：南京郵電大學(xué)
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

壓縮感知相關(guān)技術(shù)

壓縮感知理論相關(guān)技術(shù)

壓縮感知重構(gòu)算法相關(guān)技術(shù)

貝葉斯壓縮感知相關(guān)技術(shù)

分布式壓縮感知相關(guān)技術(shù)

壓縮感知matlab程序相關(guān)技術(shù)

壓縮感知算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于壓縮感知和k-svd的單通道混合語音分離方法