一種基于偽小波濾波的音頻編/解碼技術(shù)的制作方法

文檔序號：2836765閱讀：705來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種基于偽小波濾波的音頻編/解碼技術(shù)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及現(xiàn)代信息處理領(lǐng)域中一個(gè)快速發(fā)展的分枝——音頻信號的壓縮技術(shù)。
目前大部分音頻信號編解碼方案都采用Modulated Discrete CosineTransform(MDCT)作為其濾波器組，MDCT是由Princen和Bradley于1987年提出的(“Subband/Transform Coding Using Filter Bank Designs Basedon Time Domain Aliasing Cancellation”，Proceedings of the ICASSP 1987，pp2161-2164)，它以重疊塊和動(dòng)態(tài)窗把一個(gè)信號分解成等長的子帶，由于cosine系列函數(shù)之特質(zhì)和編解碼過程中的量化噪聲，系數(shù)重構(gòu)和反向MDCT的使用會(huì)在合成出的突躍信號周圍形成波紋。人類聽覺系統(tǒng)的后向掩蔽時(shí)效遠(yuǎn)長于前向掩蔽時(shí)效，PCM(脈碼調(diào)制)幀的后端通常處于后向掩蔽時(shí)效內(nèi)，因此，突越信號之后的波紋不會(huì)被聽到，如果前向掩蔽時(shí)效不能覆蓋PCM幀的前端，突越信號前面的波紋會(huì)形成可感知的噪聲，這種噪聲被稱為預(yù)回聲。
為抑制或消除這種前回聲，較小的MDCT塊長應(yīng)被使用以便把突越信號前面的波紋限制在前向掩蔽時(shí)效內(nèi)，由于塊長與編碼效率成正比，一種自動(dòng)而精確地選擇MDCT塊長的算法可消除或抑制前回聲并優(yōu)化編解碼器的率失真性能。在過去的幾年里，一些用于抑制或消除前回聲的塊長選擇方法被提出并使用于不同的系統(tǒng)，例如SONY公司用于ATRAC編碼技術(shù)中連續(xù)子幀的峰值辨別策略和MPEG AAC的感知熵判決策略等。這兩種策略都尤其自身的局限，詳細(xì)請參見(專利一種基于自適應(yīng)閥值和典型樣本預(yù)測的塊長選擇方法；申請?zhí)?1134556.x)。
如上所述，在使用塊變換的音頻編碼器時(shí)，輸入信號在時(shí)域上短暫而顯著的變化(突躍信號)在前向掩蔽時(shí)效不能覆蓋PCM幀的前端時(shí)會(huì)導(dǎo)致前回波噪音；為了抑制或消除這種前回聲，較短的塊應(yīng)被使用以便把突躍信號前面的波紋限制在前向掩蔽時(shí)效內(nèi)，然而，較小的塊長不可避免地導(dǎo)致頻域分辨率的下降、從而降低編碼效率，對具有突躍性的輸入信號而言，在編碼效率和前回聲消除之間存在一個(gè)平衡問題。
對人類聽覺特點(diǎn)的大量實(shí)驗(yàn)研究表明，人類的聽覺系統(tǒng)可以按頻率分布劃分出一個(gè)非等帶寬的頻帶組合，在各個(gè)頻帶范圍內(nèi)人耳對聲音的敏感程度有明顯的不同，把這些頻帶范圍稱為臨界子帶(critical subband)。MDCT作為等帶寬的濾波器組的一個(gè)缺陷在于不能充分的利用人耳的聽覺特性實(shí)現(xiàn)冗余信息的最大限度的去除，即實(shí)現(xiàn)更高壓縮比下的無失真編碼。利用小波和小波包變換的時(shí)頻局域化和多分辨率分析性質(zhì)，構(gòu)造基于人類聽覺特征的非等寬子帶濾波器以取代現(xiàn)有算法中的等帶寬子帶濾波器。在得到更為貼近臨界子帶的子帶劃分后，可以更好地利用心理聲學(xué)模型進(jìn)行壓縮，為在保證重構(gòu)音質(zhì)透明的情況下進(jìn)一步提高壓縮比提供了可能。但是，小波變換的濾波器級連特性使得小波濾波器組的頻率選擇性能不會(huì)很高，限制了基于小波變換的音頻編碼方案的效率。
本發(fā)明的內(nèi)容本發(fā)明的目的在于(1)在充分利用塊變換的計(jì)算和編碼效率的同時(shí)，利用偽小波濾波器的多分辨率性能，對編碼音頻信號進(jìn)行更貼近人類聽覺特征的頻帶劃分，從而有效提高編碼效率；(2)采用高效的信號類型辨別技術(shù)，提高信號類型的辨別精度，并同時(shí)提高心理聲學(xué)模型的計(jì)算效率；(3)采用更穩(wěn)健的量化優(yōu)化策略，提高量化質(zhì)量和優(yōu)化速度；(4)采用更優(yōu)化的噪聲定型技術(shù)，有效減少信號的動(dòng)態(tài)范圍的同時(shí)，使量化噪聲更利于感知掩蔽。
本發(fā)明為實(shí)現(xiàn)發(fā)明目的所提出的技術(shù)方案偽小波音頻編/解碼器采用了性能優(yōu)異的偽小波濾波器，并且設(shè)計(jì)了適合偽小波濾波器的量化器和熵編碼器。其編碼器的核心特征為a)音頻信號分解成長度為L的幀，并做延遲處理；b)將上面的得到的幀序列送入信號類型判斷單元，分析當(dāng)前信號類型，根據(jù)其變化劇烈程度分為緩變信號和快變信號；c)根據(jù)b)的結(jié)果，將當(dāng)前幀序列并行送入對應(yīng)類型信號的心理聲學(xué)分析單元和偽小波濾波單元，計(jì)算聽覺掩蔽量和計(jì)算偽小波濾波系數(shù)；d)對偽小波系數(shù)按子帶順序進(jìn)行組織，并按其時(shí)頻特性劃分成尺度因子帶；e)對重組織后的偽小波系數(shù)做壓擴(kuò)處理，壓擴(kuò)函數(shù)如下x′=sign(x)|xl|α,---(1)]]>其中l(wèi)是正整數(shù)，α是小于1的實(shí)數(shù)；f)將壓擴(kuò)處理后的偽小波系數(shù)送入全局感知失真最小的量化單元，每個(gè)尺度因子帶對應(yīng)一個(gè)線性量化器，量化公式為q(x)＝x′·2β·scale_fac， (2)其中l(wèi)，α同(1)式，β是小于1的實(shí)數(shù)，尺度因子scale_fac是正整數(shù)。
量化過程為包括一個(gè)量化循環(huán)，每次循環(huán)是選出當(dāng)前噪聲掩蔽比最大的尺度因子帶，然后在原來分配給該子帶的比特?cái)?shù)基礎(chǔ)上額外分配給該子帶最小可能的比特?cái)?shù)，并且更新該子帶的噪聲掩蔽比；如此循環(huán)直至所需比特超過目標(biāo)比特。
g)將量化結(jié)果(尺度因子和量化系數(shù))輸入自適應(yīng)的Huffman編碼器，編碼器根據(jù)當(dāng)前幀序列的統(tǒng)計(jì)特性選擇Huffman碼表，進(jìn)行熵編碼，形成音頻壓縮碼流。
其解碼器的核心特征為a)將壓縮碼流輸入自適應(yīng)Huffman解碼器，解出當(dāng)前幀的尺度因子和量化系數(shù)、以及當(dāng)前幀的型號類型。
b)將尺度因子和量化系數(shù)輸入反量化器，計(jì)算反量化的偽小波系數(shù)，反量化的公式為iq(x)=sign(q(x))·l·(|q(x)·2-β·scale_fac|)1α---(3)]]>其中l(wèi)、α、β意義同公式(1)、(2)，q(x)和iq(x)分別為量化系數(shù)和反量化系數(shù)。
c)將當(dāng)前幀信號類型和剛得到的反量化系數(shù)輸入偽小波逆濾波單元，計(jì)算重構(gòu)時(shí)域序列。
d)對得到的重構(gòu)時(shí)域序列進(jìn)行延遲補(bǔ)償，計(jì)算重構(gòu)時(shí)域音頻序列。
偽小波濾波器時(shí)頻選擇特性技術(shù)方案中所要求的偽小波濾波器具有這樣的特性，它是一種有類似小波的多分辨率分析性能的非等帶寬濾波器組技術(shù)，既成功的克服了小波變換計(jì)算效率和頻率選擇能力不高的弱點(diǎn)，同時(shí)擁有類似小波多分辨率分析的優(yōu)異性能，使得對穩(wěn)態(tài)信號和暫態(tài)信號都能保持高的編碼效率。
以下的實(shí)驗(yàn)可以清楚的說明偽小波濾波器的優(yōu)異性能。
取沖擊響應(yīng)長度僅為64的四個(gè)偽小波濾波器，計(jì)算它們的頻率響應(yīng)。然后，我們利用Daubechies正交小波基函數(shù)和小波包技術(shù)構(gòu)造對應(yīng)頻帶范圍的四個(gè)小波濾波器，其中最長的小波濾波器的沖擊響應(yīng)長度為1000，并計(jì)算四個(gè)小波濾波器的頻率響應(yīng)。
可以清楚的看到，響應(yīng)長度僅為64的偽小波濾波器的幅度響應(yīng)的旁瓣比響應(yīng)長度為1000的小波濾波器的幅度響應(yīng)的旁瓣低9個(gè)dB左右，也就是說，偽小波濾波器的頻率選擇性高于小波濾波器，通過計(jì)算編碼增益也不難證明這一結(jié)論。根據(jù)人耳的聽覺特性，偽小波的這一特性有助于音頻編碼性能的提高。
偽小波濾波器處理快變信號和緩變信號的靈活性與mpeg中的AAC標(biāo)準(zhǔn)相比，偽小波濾波器還具有這樣的優(yōu)點(diǎn)，能夠?qū)崟r(shí)地實(shí)現(xiàn)快變信號濾波和緩變信號濾波的切換，具體來說，偽小波濾波器不需要AAC標(biāo)準(zhǔn)中的長短幀和短長幀的過渡塊，而是實(shí)現(xiàn)了從對緩變信號的濾波到對快變信號的濾波和從對快變信號的濾波到對緩變信號的濾波的無縫連接。
圖2為本發(fā)明四個(gè)偽小波濾波器的沖擊響應(yīng)。
圖3為四個(gè)小波濾波器的頻率響應(yīng)。
圖4為四個(gè)小波濾波器的沖擊響應(yīng)圖5為本發(fā)明編解碼偽小波正變換、逆變換示意圖。
本發(fā)明中的編解碼器的實(shí)施例本發(fā)明編碼實(shí)施的核心技術(shù)描述一、基于自適應(yīng)閥值和典型樣本預(yù)測進(jìn)行的信號類型判斷策略將當(dāng)前幀序列送入信號類型判斷單元，分析當(dāng)前信號類型，根據(jù)其變化劇烈程度分為緩變信號和快變信號。
二、基于FFT的心理聲學(xué)模型計(jì)算在本發(fā)明中，利用聽覺的前向掩蔽效應(yīng)，在保證較高的編碼增益下，有效的抑制因時(shí)域分辨率不足而造成的“預(yù)回聲”現(xiàn)象。在變換編碼中，時(shí)域幀長(即時(shí)域窗長度)的選擇受兩個(gè)互相矛盾的因素制約幀長越大，則編碼增益越高；而過大的幀長將會(huì)使時(shí)域分辨率降低，而產(chǎn)生嚴(yán)重的“預(yù)回聲”。因此，選擇一個(gè)合適的幀長，使編碼增益和“預(yù)回聲”的抑制都達(dá)到一個(gè)最佳的平衡點(diǎn)，是很重要的。實(shí)驗(yàn)證明，當(dāng)幀長縮短到2ms～5ms時(shí)，由于前向掩蔽效應(yīng)，“預(yù)回聲”會(huì)被其后面的沖擊響應(yīng)所掩蔽。例如，在48kHz采樣時(shí)，窗長為256時(shí)，其時(shí)域分辨率為5.3ms，由于前掩蔽效應(yīng)，人耳察覺不到“預(yù)回聲”。
在本發(fā)明中，利用掩蔽效應(yīng)，確定量化級別，控制量化噪聲使之低于或盡可能接近人耳的掩蔽門限，實(shí)現(xiàn)無失真音頻編碼以及在低碼率下提高音頻編碼的主觀質(zhì)量。
三、基于偽小波技術(shù)的時(shí)域?yàn)V波偽小波變換的輸入音頻信號被均勻分成幀長為1024的幀，偽小波正變換和逆變換是以幀為單位進(jìn)行的。
偽小波變換的輸入為2048個(gè)時(shí)域樣本，輸出為1024個(gè)系數(shù)。編碼端每次從音頻文件讀入一幀1024個(gè)時(shí)域樣本，和前一幀的1024個(gè)時(shí)域樣本組成偽小波變換輸入[前一幀樣本，當(dāng)前幀樣本]，進(jìn)行偽小波變換，輸出1024個(gè)偽小波系數(shù)，若當(dāng)前幀為第一幀，則前一幀的1024個(gè)樣本補(bǔ)0；若當(dāng)前幀為最后一幀，即該幀后面已經(jīng)無時(shí)域樣本，若該幀未滿1024個(gè)數(shù)據(jù)則以0補(bǔ)滿，然后進(jìn)行變換；并且在最后幀編碼完成后，還要再補(bǔ)一幀全為0的附加幀，以最后一幀的樣本為前一幀，組成輸入數(shù)據(jù)[最后幀，附加幀]進(jìn)行偽小波變換，得到1024個(gè)系數(shù)。
偽小波逆變換的輸入為1024個(gè)偽小波系數(shù)，輸出2048個(gè)輸出系數(shù)。解碼端每次從碼流中解出一幀1024個(gè)偽小波系數(shù)，然后進(jìn)行偽小波反變換，得到的2048個(gè)反變換系數(shù)，前1024個(gè)反變換系數(shù)和上一幀的后1024個(gè)反變換系數(shù)相疊加，產(chǎn)生當(dāng)前幀解碼的1024個(gè)重構(gòu)時(shí)域樣本，后1024個(gè)系數(shù)保留以備下一幀的疊加。對第一幀1024個(gè)系數(shù)作反變換后，產(chǎn)生2048個(gè)輸出系數(shù)，前1024個(gè)系數(shù)被丟掉，后1024個(gè)系數(shù)和第二幀前1024個(gè)反變換系數(shù)相疊加產(chǎn)生第一段1024個(gè)重構(gòu)樣本；對最后一幀1024個(gè)系數(shù)做反變換后，前1024個(gè)反變換系數(shù)和上一幀的后1024個(gè)反變換系數(shù)相疊加，產(chǎn)生最后一段1024個(gè)重構(gòu)樣本，而后1024個(gè)反變換系數(shù)被丟掉。
四、基于(1)式壓擴(kuò)函數(shù)的壓擴(kuò)處理在量化過程的具體實(shí)施時(shí)，公式(1)參數(shù)可取 l＝1，公式(2)中的參數(shù)可設(shè)為五、基于全局感知失真最小準(zhǔn)則的尺度量化量化的具體過程是a)將偽小波系數(shù)按頻帶分劃成若干個(gè)尺度因子帶；b)對每個(gè)尺度因子帶選取一個(gè)初始尺度因子，使得每個(gè)尺度因子帶中的最大系數(shù)都被量化為0(此時(shí)所有偽小波系數(shù)都被量化為0，各個(gè)子帶的噪聲掩蔽比等于各自的信號掩蔽比)；c)檢查所有子帶的噪聲掩蔽比是否都小于1，如果是(表明所有子帶都已達(dá)到感知透明)，則結(jié)束量化，否則，做步驟d；d)選取噪聲掩蔽比最大的子帶，讓該子帶的尺度因子增加1；e)計(jì)算對此時(shí)的量化結(jié)果編碼所需要的比特?cái)?shù)，檢查所需比特?cái)?shù)是否超過目標(biāo)比特?cái)?shù)，如果是，表明目標(biāo)比特已經(jīng)被分配完畢，則結(jié)束量化，否則，重新計(jì)算各個(gè)子帶的噪聲掩蔽比，轉(zhuǎn)步驟c。
該量化過程能夠在在碼率足夠的情況下能迅速達(dá)到感知透明。從量化過程可以看出，在量化結(jié)果剛達(dá)到感知透明的時(shí)候，量化過程就終止了。
該量化過程還具有最優(yōu)比特分配的特點(diǎn)?？梢宰C明，在根據(jù)(1)式作量化時(shí)，在碼率不夠、不能夠達(dá)到透明編碼的情況下，該量化過程能夠達(dá)到這樣的最優(yōu)比特分配，它使所有尺度因子帶中最大的噪聲掩蔽比達(dá)到最小，也就是說，其它任何不同于該量化結(jié)果的比特分配方案都會(huì)使所有尺度因子帶中最大的噪聲掩蔽比增大。
六、基于信號特性的自適應(yīng)Huffman熵編碼Huffman碼表由一系列的碼表組成，熵編碼器根據(jù)當(dāng)前幀序列的統(tǒng)計(jì)特性選擇最優(yōu)的Huffman碼表，進(jìn)行熵編碼，并生成壓縮的音頻碼流。
本發(fā)明的基本編碼過程1、輸入一幀1024個(gè)時(shí)域信號樣本，分析當(dāng)前信號的類型；2、將當(dāng)前幀的信號樣本和前一幀的時(shí)域樣本組成心理聲學(xué)計(jì)算和偽小波變換的輸入；3、進(jìn)行偽小波變換，得到1024個(gè)偽小波系數(shù)；4、進(jìn)行心理聲學(xué)計(jì)算，獲得掩蔽量參數(shù)；5、對剛得到的1024個(gè)偽小波系數(shù)進(jìn)行噪聲定形和量化處理。
6、對剛得到的整型量化系數(shù)以及各個(gè)子帶對應(yīng)的尺度因子進(jìn)行Huffman編碼，得到當(dāng)前幀的壓縮碼流。
7、將碼流輸出到碼流文件。
本發(fā)明的基本解碼過程1、從壓縮音頻碼流文件中按編碼過程的順序解出當(dāng)前幀的量化系數(shù)和各個(gè)子帶對應(yīng)的尺度因子。
2、根據(jù)各個(gè)尺度因子帶的尺度因子確定各個(gè)尺度因子帶的量化步長，對量化系數(shù)進(jìn)行反量化，得到1024個(gè)偽小波系數(shù)。
3、對1024個(gè)偽小波系數(shù)進(jìn)行逆?zhèn)涡〔ㄗ儞Q，得到2048個(gè)輸出系數(shù)，將前半部分個(gè)輸出系數(shù)與前一幀解碼的2048個(gè)輸出系數(shù)中的后半部分系數(shù)相加，得到1024個(gè)重構(gòu)時(shí)域樣本。
4、將重構(gòu)樣本輸出到重構(gòu)文件。
權(quán)利要求
1.一種基于偽小波濾波的音頻編/解碼技術(shù)，其特征在于編碼器的信號處理方法為a)音頻信號分解成長度為L的幀，并做延遲處理；b)將上面的得到的幀序列送入信號類型判斷單元，分析當(dāng)前信號類型，根據(jù)其變化劇烈程度分為緩變信號和快變信號；c)根據(jù)b)的結(jié)果，將當(dāng)前幀序列并行送入對應(yīng)類型信號的心理聲學(xué)分析單元和偽小波濾波單元，計(jì)算聽覺掩蔽量和計(jì)算偽小波濾波系數(shù)；d)對偽小波系數(shù)按子帶順序進(jìn)行組織，并按其時(shí)頻特性劃分成尺度因子帶；e)對重組織后的偽小波系數(shù)做壓擴(kuò)處理，壓擴(kuò)函數(shù)如下x′=sign(x)|xl|α,---(1)]]>其中l(wèi)是正整數(shù)，α是小于1的實(shí)數(shù)；f)將壓擴(kuò)處理后的偽小波系數(shù)送入全局感知失真最小的量化單元，每個(gè)尺度因子帶對應(yīng)一個(gè)線性量化器，量化公式為q(x)＝x′·2β·scale_fac， (2)其中l(wèi)，α同(1)式，β是小于1的實(shí)數(shù)，尺度因子scale_fac是正整數(shù)；量化過程為包括一個(gè)量化循環(huán)，每次循環(huán)是選出當(dāng)前噪聲掩蔽比最大的尺度因子帶，然后在原來分配給該子帶的比特?cái)?shù)基礎(chǔ)上額外分配給該子帶最小可能的比特?cái)?shù)，并且更新該子帶的噪聲掩蔽比；如此循環(huán)直至所需比特超過目標(biāo)比特；g)將量化結(jié)果(尺度因子和量化系數(shù))輸入自適應(yīng)的Huffman編碼器，編碼器根據(jù)當(dāng)前幀序列的統(tǒng)計(jì)特性選擇Huffman碼表，進(jìn)行熵編碼，形成音頻壓縮碼流；其解碼器的信號處理方法為a)將壓縮碼流輸入自適應(yīng)Huffman解碼器，解出當(dāng)前幀的尺度因子和量化系數(shù)、以及當(dāng)前幀的型號類型；b)將尺度因子和量化系數(shù)輸入反量化器，計(jì)算反量化的偽小波系數(shù)，反量化的公式為iq(x)=sign(q(x))·l·(|q(x)·2-β·scale_fac|)1α---(3)]]>其中l(wèi)、α、β意義同公式(1)、(2)，q(x)和iq(x)分別為量化系數(shù)和反量化系數(shù)；c)將當(dāng)前幀信號類型和剛得到的反量化系數(shù)輸入偽小波逆濾波單元，計(jì)算重構(gòu)時(shí)域序列；d)對得到的重構(gòu)時(shí)域序列進(jìn)行延遲補(bǔ)償，計(jì)算重構(gòu)時(shí)域音頻序列。
全文摘要
本發(fā)明涉及現(xiàn)代信息處理領(lǐng)域中一個(gè)快速發(fā)展的分枝——音頻信號的壓縮技術(shù)。本發(fā)明音頻信號分解成長度為L的幀,將上面的得到的幀序列送入信號類型判斷單元,將當(dāng)前幀序列并行送入對應(yīng)類型信號的心理聲學(xué)分析單元和偽小波濾波單元;對偽小波系數(shù)按子帶順序進(jìn)行組織,并按其時(shí)頻特性劃分成尺度因子帶;對重組織后的偽小波系數(shù)做壓擴(kuò)處理,將壓擴(kuò)處理后的偽小波系數(shù)送入全局感知失真最小的量化單元,將量化結(jié)果輸入自適應(yīng)的Huffman編碼器,進(jìn)行熵編碼,形成音頻壓縮碼流。偽小波濾波器具有能夠?qū)崟r(shí)地實(shí)現(xiàn)快變信號濾波和緩變信號濾波的切換,實(shí)現(xiàn)了從對緩變信號的濾波到對快變信號的濾波和從對快變信號的濾波到對緩變信號的濾波的無縫連接。
文檔編號G10L19/00GK1388517SQ02122099
公開日2003年1月1日申請日期2002年6月5日優(yōu)先權(quán)日2002年6月5日
發(fā)明者潘興德, 朱曉明申請人:北京阜國數(shù)字技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：潘興德;朱曉明
技術(shù)所有人：北京阜國數(shù)字技術(shù)有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

小波濾波相關(guān)技術(shù)

小波濾波器相關(guān)技術(shù)

小波變換濾波相關(guān)技術(shù)

matlab小波濾波器相關(guān)技術(shù)

小波濾波器系數(shù)相關(guān)技術(shù)

小波變換低通濾波器相關(guān)技術(shù)

小波濾波方法及應(yīng)用相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于偽小波濾波的音頻編/解碼技術(shù)的制作方法