專利名稱:一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信號(hào)采樣及語(yǔ)音信號(hào)處理領(lǐng)域,特別涉及一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造新方法。
背景技術(shù):
語(yǔ)音是人類最方便直接的交流方式,傳統(tǒng)的語(yǔ)音信號(hào)處理都基于Nyquist (奈奎斯特)采樣定理,首先進(jìn)行2倍帶寬以上的高速采樣,然后根據(jù)樣值之間存在的強(qiáng)相關(guān)性再壓縮,這一過(guò)程浪費(fèi)了大量的采樣資源。Nyquist采樣定理是大多數(shù)信號(hào)采樣所遵循的規(guī)律,表明了采樣頻率與信號(hào)頻譜分布之間的關(guān)系,是任何信號(hào)精確重構(gòu)的充分條件,但不一定是必要條件。如何根據(jù)語(yǔ)音信號(hào)的特殊性,對(duì)語(yǔ)音信號(hào)重新建模以獲得更少的采樣但又不影響語(yǔ)音的重構(gòu)質(zhì)量,是當(dāng)前語(yǔ)音信號(hào)處理領(lǐng)域中的研究熱點(diǎn)。
2004 年由 Donoho 與 Candes 等人提出的壓縮感知(Compressed Sensing, CS)理論是基于信號(hào)在某個(gè)域的稀疏性建立的線性、非自適應(yīng)采樣的新理論,表明具有稀疏性的壓縮感知技術(shù)能獲得較經(jīng)典奈氏理論更好的壓縮性能,信號(hào)的稀疏性或可壓縮性是實(shí)現(xiàn)壓縮重構(gòu)的必要條件之一。CS理論表明,可以在不丟失逼近原信號(hào)所需信息的情況下,用最少的觀測(cè)數(shù)來(lái)采樣信號(hào),實(shí)現(xiàn)信號(hào)的降維處理,即直接對(duì)信號(hào)進(jìn)行較少采樣得到信號(hào)的壓縮表示,從而在節(jié)約采樣和傳輸成本的情況下,達(dá)到了在采樣的同時(shí)進(jìn)行壓縮的目的。CS突破了傳統(tǒng)的奈奎斯特采樣定理的限制,從傳統(tǒng)的信號(hào)采樣轉(zhuǎn)變成信息采樣。只要信號(hào)是可壓縮的或在某個(gè)域上是稀疏的,就可以利用隨機(jī)觀測(cè)矩陣直接將這樣一個(gè)高維信號(hào)投影到低維空間上,可以利用這些少量的觀測(cè)重構(gòu)原信號(hào)。壓縮感知重構(gòu)過(guò)程中僅僅考慮了信號(hào)的稀疏性先驗(yàn),而沒(méi)有考慮任何關(guān)于信號(hào)結(jié)構(gòu)的信息,通過(guò)隨機(jī)觀測(cè)包含了重構(gòu)信號(hào)的足夠信息。當(dāng)信號(hào)具有稀疏性或可壓縮性時(shí),通過(guò)采集少量的信號(hào)觀測(cè)值就可實(shí)現(xiàn)信號(hào)的準(zhǔn)確或近似重構(gòu)。由于語(yǔ)音信號(hào)具有可壓縮性,能夠用比Nyquist采樣速率低很多的速率無(wú)失真地采樣信號(hào),基于壓縮感知進(jìn)行低速率無(wú)失真地采樣給信號(hào)的采樣、存儲(chǔ)、傳輸和處理都帶來(lái)了巨大的方便。所以CS理論與語(yǔ)音信號(hào)處理領(lǐng)域的結(jié)合,意味著對(duì)傳統(tǒng)的基于奈奎斯特均勻采樣定律下的語(yǔ)音分析方法的顛覆——用CS理論中的觀測(cè)來(lái)代替?zhèn)鹘y(tǒng)語(yǔ)音采樣值,勢(shì)必導(dǎo)致采樣信號(hào)特征根本性的變化,進(jìn)而影響整個(gè)語(yǔ)音信號(hào)處理體系。將CS與語(yǔ)音信號(hào)相結(jié)合來(lái)探求語(yǔ)音信號(hào)處理領(lǐng)域的各種新方法具有很好的現(xiàn)實(shí)意義。CS壓縮采樣下重構(gòu)信號(hào)性能與采樣時(shí)采用的觀測(cè)矩陣和重構(gòu)時(shí)采用的轉(zhuǎn)換矩陣有很大關(guān)系,觀測(cè)矩陣多是高斯隨機(jī)矩陣,轉(zhuǎn)換矩陣目前絕大部分壓縮感知中都應(yīng)用正交基,少量的利用非正交冗余變換作為語(yǔ)音重構(gòu)的稀疏表示方法。在觀測(cè)數(shù)相同的情況下,語(yǔ)音表示越稀疏,則重構(gòu)語(yǔ)音的質(zhì)量越高,即轉(zhuǎn)換矩陣的選擇對(duì)信號(hào)重構(gòu)性能來(lái)說(shuō)很重要。語(yǔ)音信號(hào)采用離散余弦變換(DiscreteCosine Transform,DCT)基、小波基進(jìn)行單一尺度的非自適應(yīng)壓縮感知重構(gòu)時(shí),當(dāng)觀測(cè)個(gè)數(shù)是原數(shù)值個(gè)數(shù)一半及以下時(shí),其重構(gòu)性能很差,主要因?yàn)檎Z(yǔ)音信號(hào)在常規(guī)正交基下的稀疏性不夠好導(dǎo)致重建信號(hào)性能較差。構(gòu)造一種適用于語(yǔ)音壓縮感知的過(guò)完備字典是語(yǔ)音壓縮感知走向?qū)嵱玫年P(guān)鍵。語(yǔ)音信號(hào)在基于訓(xùn)練碼本構(gòu)造的過(guò)完備線性預(yù)測(cè)(OvercompleteLinear Prediction, OLP)字典下呈現(xiàn)良好的稀疏性,基于過(guò)完備線性預(yù)測(cè)字典的語(yǔ)音壓縮感知重建信號(hào)性能良好,并且具有較高的魯棒性?;诖它c(diǎn),本案由此產(chǎn)生。
發(fā)明內(nèi)容
本發(fā)明的目的,在于提供一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法,其預(yù)先由訓(xùn)練語(yǔ)音的預(yù)測(cè)系數(shù)聚類構(gòu)造過(guò)完備字典,不需要測(cè)試語(yǔ)音的預(yù)測(cè)系統(tǒng),且構(gòu)造方法簡(jiǎn)單,語(yǔ)音信號(hào)在過(guò)完備線性預(yù)測(cè)字典下呈現(xiàn)良好的稀疏性,基于過(guò)完備線性預(yù)測(cè)字典的語(yǔ)音壓縮感知重構(gòu)信號(hào)性能良好,且具有較好的魯棒性。為了達(dá)成上述目的,本發(fā)明的解決方案是—種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法,包括如下步驟(I)在訓(xùn)練階段由大量的訓(xùn)練語(yǔ)音構(gòu)造過(guò)完備的線性預(yù)測(cè)字典,包括如下內(nèi)容(11)對(duì)同一說(shuō)話人的訓(xùn)練語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)分析,得到線性預(yù)測(cè)系數(shù)矢量;(12)通過(guò)聚類算法由大量線性預(yù)測(cè)系數(shù)矢量構(gòu)造線性預(yù)測(cè)系數(shù)矢量碼本;(13)每個(gè)碼矢構(gòu)造一個(gè)矩陣,求逆得到相應(yīng)的線性預(yù)測(cè)矩陣;(14)所有的矩陣一起構(gòu)成過(guò)完備的線性預(yù)測(cè)字典;(2)在實(shí)測(cè)階段采用隨機(jī)高斯矩陣作為觀測(cè)矩陣對(duì)語(yǔ)音信號(hào)進(jìn)行CS采樣;(3)基于前述線性預(yù)測(cè)字典采用BP算法高質(zhì)量重構(gòu)語(yǔ)音信號(hào)。上述步驟(12)中,采用LBG算法構(gòu)造矢量碼本,具體實(shí)現(xiàn)步驟為I)設(shè)全部線性預(yù)測(cè)系數(shù)矢量a的集合為S,碼本大小為J,最大迭代次數(shù)為Q,畸變改進(jìn)閾值為δ ;2)碼本初始值隨機(jī)選擇J個(gè)矢量作為碼本的初始碼字Ofs…,bf,構(gòu)成初始碼本,迭代次數(shù)初值m=l ;3)根據(jù)最緊鄰準(zhǔn)則將S分成J個(gè)子集…名,即當(dāng)a e S”時(shí),4)計(jì)算總畸變
權(quán)利要求
1.一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法,其特征在于包括如下步驟 (1)在訓(xùn)練階段由大量的訓(xùn)練語(yǔ)音構(gòu)造過(guò)完備的線性預(yù)測(cè)字典,包括如下內(nèi)容 (11)對(duì)同一說(shuō)話人的訓(xùn)練語(yǔ)音信號(hào)進(jìn)行線性預(yù)測(cè)分析,得到線性預(yù)測(cè)系數(shù)矢量; (12)通過(guò)聚類算法由大量線性預(yù)測(cè)系數(shù)矢量構(gòu)造線性預(yù)測(cè)系數(shù)矢量碼本; (13)每個(gè)碼矢構(gòu)造一個(gè)矩陣,求逆得到相應(yīng)的線性預(yù)測(cè)矩陣; (14)所有的矩陣一起構(gòu)成過(guò)完備的線性預(yù)測(cè)字典; (2)在實(shí)測(cè)階段采用隨機(jī)高斯矩陣作為觀測(cè)矩陣對(duì)語(yǔ)音信號(hào)進(jìn)行CS采樣; (3)基于前述線性預(yù)測(cè)字典采用BP算法高質(zhì)量重構(gòu)語(yǔ)音信號(hào)。
2.如權(quán)利要求1所述的一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法,其特征在于所述步驟(12)中,采用LBG算法構(gòu)造矢量碼本,具體實(shí)現(xiàn)步驟為 .1)設(shè)全部線性預(yù)測(cè)系數(shù)矢量a的集合為S,碼本大小為J,最大迭代次數(shù)為Q,畸變改進(jìn)閾值為δ ;.2)碼本初始值隨機(jī)選擇J個(gè)矢量作為碼本的初始碼字
全文摘要
本發(fā)明公開(kāi)一種適用于語(yǔ)音壓縮感知的過(guò)完備字典構(gòu)造方法,步驟為首先在訓(xùn)練階段由大量的訓(xùn)練語(yǔ)音構(gòu)造過(guò)完備的線性預(yù)測(cè)字典,然后在實(shí)測(cè)階段采用隨機(jī)高斯矩陣作為觀測(cè)矩陣對(duì)語(yǔ)音信號(hào)進(jìn)行CS采樣;最后基于前述線性預(yù)測(cè)字典采用BP算法高質(zhì)量重構(gòu)語(yǔ)音信號(hào)。此方法不需要測(cè)試語(yǔ)音的預(yù)測(cè)系統(tǒng),且構(gòu)造方法簡(jiǎn)單,語(yǔ)音信號(hào)在過(guò)完備線性預(yù)測(cè)字典下呈現(xiàn)良好的稀疏性,基于過(guò)完備線性預(yù)測(cè)字典的語(yǔ)音壓縮感知重構(gòu)信號(hào)性能良好,且具有較好的魯棒性。
文檔編號(hào)G10L19/12GK102881293SQ201210380638
公開(kāi)日2013年1月16日 申請(qǐng)日期2012年10月10日 優(yōu)先權(quán)日2012年10月10日
發(fā)明者孫林慧, 楊震, 楊真真 申請(qǐng)人:南京郵電大學(xué)