專利名稱:編碼數(shù)字音頻信號(hào)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種編碼數(shù)字音頻信號(hào)的方法,且更具體地,涉及一種改進(jìn)的根據(jù)在頻率及時(shí)間掩蔽效應(yīng)方面的人的聽(tīng)覺(jué)感知編碼包括多個(gè)幀的數(shù)字音頻信號(hào)的方法。
數(shù)字音頻信號(hào)的傳輸與緊致磁盤(pán)及/或數(shù)字錄音磁帶的傳輸相比可傳送高質(zhì)量的音頻信號(hào)。當(dāng)音頻信號(hào)以數(shù)字形式表示時(shí),需要傳輸大量的數(shù)據(jù),特別是在高清晰度電視系統(tǒng)中。然而,由于分配給這些數(shù)字音頻信號(hào)的可用頻帶寬度是有限的,為了通過(guò)有限的例如大約128KHz的音頻寬度傳輸大量的,例如對(duì)于48KHz采樣頻率的16比特PCM(脈沖碼調(diào)制)音頻信號(hào)每秒768K比特的數(shù)字?jǐn)?shù)據(jù),必須對(duì)數(shù)字音頻數(shù)據(jù)進(jìn)行壓縮。
在各種音頻壓縮裝置或技術(shù)中,采用一音質(zhì)算法的所謂的MPEG(運(yùn)動(dòng)畫(huà)面專家組)音頻算法已被建議用于HDTV中。
在采取以上MPEG音頻技術(shù)的音頻編碼系統(tǒng)中,四個(gè)主要部分,即分波段濾波,音質(zhì)模型化,量化及編碼,和幀格式化被采用以壓縮數(shù)字音頻數(shù)據(jù)。分波段濾波是一將輸入PCM數(shù)字音頻信號(hào)從時(shí)域映射至頻域的處理??刹捎脦в蠦(例如32)個(gè)分波段的一濾波波段,在各分波段中,12或32個(gè)取樣被組合用于其處理;且來(lái)自所述B個(gè)分波段被成組的采樣,即N×12或36構(gòu)成作為用于音頻信號(hào)的編碼,傳輸及解碼的處理單元的“幀”。音質(zhì)模型化通過(guò)利用頻率掩蔽效應(yīng)建立一組用于各分波段或分波段組的數(shù)據(jù),例如SMR(信號(hào)一掩蔽比)數(shù)據(jù),從而控制對(duì)其的量化和編碼,其中頻率掩蔽效應(yīng)代表由頻域中另一個(gè)(即掩蔽)同時(shí)的聲音的存在所引起的聲音的可聽(tīng)限度或可聽(tīng)度的閾值的提高。然后參照SMR,在量化及編碼分波段采樣的過(guò)程中可利用的比特被自適應(yīng)地分配給幀的各分波段。幀格式化器以一適當(dāng)?shù)男问綄?duì)該幀數(shù)據(jù)連同其它所需要的附帶信息進(jìn)行格式化以用于傳輸。
盡管這種技術(shù)通過(guò)使用頻率掩蔽效應(yīng)可提高編碼效率,但它不能反映代表一現(xiàn)象的時(shí)間掩蔽效應(yīng),在該現(xiàn)象中,由于時(shí)域中另一個(gè)暫時(shí)相鄰的聲音的存在而使聲音的可聽(tīng)限度或可聽(tīng)度的閾值被提高,從而不能提供充分改善編碼效率的音頻信號(hào)編碼。
因此,本發(fā)明的主要目的是提供一種改進(jìn)的根據(jù)頻率及時(shí)間掩蔽效應(yīng)編碼包括多個(gè)幀的數(shù)字音頻信號(hào),從而提高其編碼效率的方法。
根據(jù)本發(fā)明,提供有一種自適應(yīng)地編碼被數(shù)字取樣的包括有多個(gè)幀的音頻信號(hào)的方法,包括有以下步驟(a)將數(shù)字音頻信號(hào)的頻帶劃分成B個(gè)分波段,其中B為大于1的整數(shù)且分波段的帶寬實(shí)質(zhì)上對(duì)應(yīng)臨界于人的聽(tīng)覺(jué)系統(tǒng)的波段帶寬;(b)響應(yīng)于包括在數(shù)字音頻信號(hào)中的第i個(gè)幀的各分波段中的數(shù)字信號(hào)取樣估算各分波段的第一信號(hào)一對(duì)掩蔽比,i為幀的下標(biāo);(c)存儲(chǔ)第i個(gè)幀的第一信號(hào)—掩蔽比經(jīng)過(guò)一預(yù)定的時(shí)段并生成與第一信號(hào)—掩蔽比保持同步的預(yù)存在其中的第i-1個(gè)幀的延遲的信號(hào)-掩蔽比;(d)根據(jù)第一信號(hào)-對(duì)掩蔽比及延遲的信號(hào)—掩蔽比,提供第二信號(hào)—掩蔽比;(e)根據(jù)第二信號(hào)—掩蔽比自適應(yīng)地確定用于各分段段的比特,并生成相應(yīng)于被確定的各分波段的比特的比特分配信息;(f)響應(yīng)生成的各分波段的比特分配信息量化各分波段中的數(shù)字信號(hào)取樣;及(g)對(duì)量化的數(shù)字信號(hào)取樣連同生成的比特分配信息一起進(jìn)行格式化。
本發(fā)明的上述及其它目的和特征通過(guò)對(duì)以下結(jié)合附圖
的描述而變得明顯,附圖為一概略地例示根據(jù)本發(fā)明的用于編碼輸入數(shù)字音頻信號(hào)的裝置的方框圖。
參照附圖,示有一概略地例示根據(jù)本發(fā)明的用于編碼數(shù)字音頻信號(hào)的裝置的方框圖。
數(shù)字音頻編碼裝置100包括一分波段濾波單元110,第一及第二感知參數(shù)估算器120及140,一延遲電路130,一比特分配及量化單元150,及一格式化電路160。
包括有N個(gè)取樣即n=0,1,…,N-1的第i個(gè)幀的數(shù)字取樣的輸入音頻信號(hào)X(n),被提供給第一感知參數(shù)估算器120和適于執(zhí)行輸入數(shù)字音頻信號(hào)的分波段濾波操作的分波段濾波單元110,其中N為一正整數(shù)。在此使用的“幀”表示相應(yīng)于固定數(shù)量的聲頻取樣的一部分?jǐn)?shù)字音頻信號(hào)并是一用于數(shù)字音頻信號(hào)的編碼及解碼的處理單元。
分波段濾波單元110接收第i個(gè)幀的輸入數(shù)字聲頻信號(hào)并通過(guò)采用一現(xiàn)有技術(shù)中眾所周知的分波段濾波技術(shù),例如在ISO/IEC JTCI/SC2/WG11,“部分3,音頻建議”,CD-11172-3(1991)中所描述的所謂的MPEG音頻算法中公開(kāi)的方法將該輸入數(shù)字音頻信號(hào)的頻帶劃分成B個(gè),例如32個(gè)分波段,其中分波段的帶寬實(shí)質(zhì)上對(duì)應(yīng)臨界于人的聽(tīng)覺(jué)系統(tǒng)的帶寬。各分波段中的數(shù)字信號(hào)采樣然后被從分波段濾波單元110提供給比特分配及量化單元150。
在另一方面,第一感知參數(shù)估算器120接收第i個(gè)幀的數(shù)字取樣的輸入音頻信號(hào)并通過(guò)使用音質(zhì)模型,例如在上述的MPEG音頻算法中所討論的一種估算第i個(gè)幀的第一信號(hào)—掩蔽比。該在現(xiàn)有技術(shù)中眾所周知的第i個(gè)幀的各分波段的第一信號(hào)—掩蔽比可由下式導(dǎo)出SMR1(j,i)=p(j,i)-M(j,i)式(1)其中i為幀下標(biāo),j為分波段角標(biāo),j=0,1,…B-1,B為一幀中分波段的總數(shù);SMR1(j,i)為第i個(gè)幀的分波段j中的第一信號(hào)—掩蔽比;P(j,i)為自FFT(快速傅里葉變換)技術(shù)被估算的第i個(gè)幀的分波段j中的聲壓級(jí);M(j,i)為第i個(gè)幀的分波段j中的頻率掩蔽閾值;且所述SMR1(j,i),P(j,i)及M(j,i)都采用dB(分貝)為單位。
該頻率掩蔽閾值代表一作為固有的可聽(tīng)限度或聲音閾值與一由該音頻信號(hào)的其它的音調(diào)及非音調(diào)分量的存在所引起的增量的總和的可聽(tīng)限度。第i個(gè)幀的第一信號(hào)—掩蔽比然后被饋送給延遲電路130及第二感知參數(shù)估算器140。
在延遲電路130中,第i個(gè)幀的第一信號(hào)—掩蔽比被存入它的一存儲(chǔ)器(未示出)中并被延遲一預(yù)定的時(shí)段;并且預(yù)存在該存儲(chǔ)器中的第i-1個(gè)幀的延遲的信號(hào)—掩蔽比與被加到其上的第一信號(hào)—掩蔽比同步地被提供給第二感知參數(shù)估算器140。延遲電路130可通過(guò)采用現(xiàn)有技術(shù)中眾所周知的通常的電子電路而容易地實(shí)現(xiàn)。預(yù)定的時(shí)段,即,延遲電路130的延遲時(shí)間通過(guò)考慮代表一現(xiàn)象的時(shí)間掩蔽效應(yīng)而被確定,在該現(xiàn)象中,由于時(shí)域中另一個(gè)暫時(shí)相鄰的聲音的存在而使聲音的可聽(tīng)限度或可聽(tīng)度的閾值被提高。在本發(fā)明的一優(yōu)選實(shí)施例中,該預(yù)定的延遲時(shí)間等于數(shù)字音頻信號(hào)的一幀處理時(shí)間。第i-1個(gè)幀的延遲的信號(hào)—掩蔽比及第i個(gè)幀的第一信號(hào)—掩蔽比被同時(shí)饋送給第二感知參數(shù)估算器140,以下式計(jì)算第i個(gè)幀的第二信號(hào)—掩蔽比SMR2(j,i)=MIN[K×DSMR1(J,i-1),SMR1(j,i)]式(2)其中SMR1(j,i),j及i具有與先前定義相同的含意;SMR2(j,i)為第i個(gè)幀的分波段j中的第二信號(hào)—掩蔽比;DSMR1(j,i-1)為第i-1個(gè)幀的分波段j中的延遲的信號(hào)—掩蔽比;且k為一大于0并小于1的常數(shù)。
在本發(fā)明的優(yōu)選實(shí)施例中,常數(shù)值K可根據(jù)人的聽(tīng)覺(jué)感知的時(shí)間掩蔽效應(yīng)被確定,并最好設(shè)為0.5,所述值0.5為一反映時(shí)間掩蔽效應(yīng)的適當(dāng)?shù)闹怠?br>
來(lái)自第二感知參數(shù)估算器140的第i個(gè)幀的各分波段的第二信號(hào)—掩蔽比然后被提供給比特分配及量化單元150。在比特分配及量化單元150中,根據(jù)第i個(gè)幀的各分波段的第二信號(hào)—掩蔽比自適應(yīng)地確定各分波段的比特并生成對(duì)應(yīng)于確定的各分波段的比特的比特分配信息。然后,響應(yīng)于生成的各分段的比特分配信息,各分波段中的數(shù)字信號(hào)取樣被量化且量化的第i個(gè)幀的各分波段的數(shù)字信號(hào)取樣及比特分配信息被同時(shí)提供給格式化電路160。在格式化電路160,來(lái)自比特分配及量化單元150的量化的數(shù)字信號(hào)取樣和比特分配信息被格式化并傳輸給一發(fā)射機(jī)(未示出)供發(fā)射。比特分配及量化單元150和各格式化電路的原理和功能與在MPEG音頻算法中可找到的基本相同。
雖然結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行了展示與描述,但對(duì)熟悉本領(lǐng)域的人員而言,顯然可以在不超出由所附權(quán)利要求所限定的本發(fā)明的精神和范圍的前提下做出許多變化和修改。
權(quán)利要求
1.一種自適應(yīng)地編碼被數(shù)字取樣的包括有多個(gè)幀的音頻信號(hào)的方法,包括有以下步驟(a)將數(shù)字音頻信號(hào)的頻帶劃分成P個(gè)分波段,其中所述P為一大于1的整數(shù)且所述分波段的帶寬實(shí)際上對(duì)應(yīng)臨界于人的聽(tīng)覺(jué)系統(tǒng)的帶寬;(b)響應(yīng)于包括在數(shù)字音頻信號(hào)的第i個(gè)幀中的各分波段中的數(shù)字信號(hào)取樣估算各分波段的第一信號(hào)—掩蔽比 ,所述i為幀下標(biāo);(c)存儲(chǔ)第i個(gè)幀的第一信號(hào)—掩蔽比經(jīng)過(guò)一預(yù)定的時(shí)段并生成與第一信號(hào)—掩蔽比保持同步的預(yù)存在其中的第i-1個(gè)幀的延遲的信號(hào)—掩蔽比;(d)根據(jù)第一信號(hào)—掩蔽比及延遲的信號(hào)—掩蔽比,提供第二信號(hào)—掩蔽比;(e)根據(jù)第二信號(hào)—掩蔽比自適應(yīng)地確定用于各分波段的比特,并生成相應(yīng)于被確定的各分波段的比特的比特分配信息;(f)響應(yīng)生成的各分波段的比特分配信息量化各分波段中的數(shù)字信號(hào)取樣;及(g)對(duì)量化的數(shù)字信號(hào)取樣連同生成的比特分配信息進(jìn)行格式化。
2.根據(jù)權(quán)利要求1所述的方法,其中第i個(gè)幀的分波段j中的第二信號(hào)—掩蔽比SMR2(j,i)由下式確定SMR2(j,i)=MIN[K×DSMR1(j,i-1),SMR1(j,i)]其中j是分波段下標(biāo),j=0,1,…p-1,p為一幀中分波段的總數(shù);i是幀下標(biāo);DSMR1(j,i1-1)是第i-1個(gè)幀的分波段j中的延遲的信號(hào)—掩蔽比;SMR1(j,i)是第i個(gè)幀的分波段j中的信號(hào)—掩蔽比;并且K是一大于0并小于1的常數(shù)。
3.根據(jù)權(quán)利要求2所述所述的方法,其中常數(shù)K為0.5。
全文摘要
一種通過(guò)利用頻率及時(shí)間掩蔽效應(yīng)自適應(yīng)地編碼被數(shù)字取樣的音頻信號(hào)的方法包括有以下步驟將數(shù)字音頻信號(hào)的頻帶劃分成P個(gè)分波段;估算各分波段的第一信號(hào)-掩蔽比;生成與第一信號(hào)-掩蔽比保持同步的預(yù)存在其中的第i-1個(gè)幀的延遲的信號(hào)-掩蔽比;提供第二信號(hào)-掩蔽比;自適應(yīng)地確定用于各分波段的比特及其比特分配信息;量化各分波段中的數(shù)字信號(hào)取樣;對(duì)量化的數(shù)字信號(hào)取樣連同生成的比特分配信息進(jìn)行格式化。
文檔編號(hào)G10L19/00GK1128438SQ9511750
公開(kāi)日1996年8月7日 申請(qǐng)日期1995年11月9日 優(yōu)先權(quán)日1994年11月9日
發(fā)明者権純健 申請(qǐng)人:大宇電子株式會(huì)社