專利名稱::自適應(yīng)數(shù)字音頻編碼裝置及其一種位分配方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種數(shù)字音頻編碼方法及其裝置;更具體地,涉及用于根據(jù)與人類的聽覺一致的感覺平均信息量編碼包括多個幀的輸入數(shù)字音頻信號的一種改進(jìn)的自適應(yīng)數(shù)字音頻編碼裝置及其一種位分配方法。數(shù)字化的音頻信號的傳輸使得發(fā)送與光盤與/或數(shù)字音頻磁帶相匹敵的高質(zhì)量音頻信號成為可能。當(dāng)用數(shù)字形式表示音頻信號時,便需要傳輸可觀的數(shù)據(jù)量,尤其是在高清晰度電視系統(tǒng)的情況中。然而,由于分配給這種數(shù)字音頻信號的可利用的頻帶寬度是有限的,為了通過有限的音頻帶寬(諸如大約128KHz)傳輸這一可觀的數(shù)字?jǐn)?shù)據(jù)量(諸如用48KHz采樣頻率的16位PCM(脈沖碼調(diào)制)音頻信號的768千位每秒),不可避免地要壓縮這些數(shù)字音頻數(shù)據(jù)。在各種音頻壓縮裝置或技術(shù)中,采用心理聲學(xué)算法的稱作MPEG(活動圖像專家組)音頻算法已被提議用在HDTV應(yīng)用中。MPEG音頻算法利用四個主要部分分波段濾波、心理聲學(xué)模型化、量化與編碼、以及幀格式化。分波段濾波是將一個輸入PCM數(shù)字音頻信號從時域映射到頻域上的過程。可采用具有B(諸如32)個分波段的一個濾波器組。在各分段波中,為處理而組合12或36個抽樣;而來自所述B個分波段的成組抽樣,即B×12或36,構(gòu)成一個“幀”,它是音頻信號的編碼、傳輸與解碼的一個處理單位。心理聲學(xué)模型化為各分波段或分波段組建立一組數(shù)據(jù),諸如SMR(信號-掩蔽比)數(shù)據(jù)以控制其量化與編碼。然后,在量化與編碼分波段抽樣過程中,參照SMR將得到的位自適應(yīng)地分配給一幀的各分波段。一個幀格式器以適合于傳輸?shù)姆绞竭B同其它需要的附加信息格式化該幀數(shù)據(jù)。然而,在上述MPEG音頻技術(shù)中,由于分配給各幀的是固定數(shù)目的位,便不能反映可能在幀間連續(xù)變化的輸入數(shù)字音頻信號的諸如平均值、偏差及感覺平均信息量等統(tǒng)計性質(zhì)。因此,本發(fā)明的一個主要目的為提供一種用于根據(jù)與人類的聽覺相容的幀的感覺平均信息量編碼包括多個幀的一個數(shù)字音頻信號的新穎裝置及其位分配方法,借此增進(jìn)編碼效率與聲音質(zhì)量。按照本發(fā)明的一個方面,提供了一種用于自適應(yīng)地編碼包含多個幀的一個輸入數(shù)字音頻信號的新穎裝置,其中各幀包含多個分波段,該裝置包括用于在逐個分波段的基礎(chǔ)上接收輸入數(shù)字音頻信號及濾波所接收的數(shù)字音頻信號的裝置;第一估算裝置,用于估算該數(shù)字音頻信號的各分波段的信號-掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值;第二估算裝置,用于根據(jù)估算的信號-掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值估算輸入數(shù)字音頻信號的各幀的感覺平均信息量,及用于為包含與估算的感覺平均信息量相對應(yīng)的兩個或兩個以上的當(dāng)前與前面的幀的一個幀群,推導(dǎo)一個平均及一個標(biāo)準(zhǔn)偏差參數(shù);位分配裝置,用于根據(jù)估計的信號-掩蔽比數(shù)據(jù)、感覺平均信息量、以及平均與標(biāo)準(zhǔn)偏差參數(shù),為各分波段自適應(yīng)地確定位,及用于為各分波段生成與確定的位對應(yīng)的位分配信息;用于響應(yīng)為各分波段生成的位分配信息,量化該數(shù)字音頻信號的各濾波后的分波段的裝置;以及用于和所生成的位分配信息一起格式化該量化的音頻信號的裝置。按照本發(fā)明的另一方面,提供了一種用于在數(shù)字音頻編碼裝置中自適應(yīng)地編碼包含多個幀的一個輸入數(shù)字音頻信號的新穎的位分配方法,其中各幀包含多個分波段,所述方法包括下述步驟在逐個分波段的基礎(chǔ)上,接收與濾波輸入數(shù)字音頻信號;為數(shù)字音頻信號的各分波段估算信號-掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值;根據(jù)估算的信號-掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值,為輸入數(shù)字音頻信號的各幀估算感覺平均信息量,并為包含兩個或兩個以上當(dāng)前與前面的幀的對應(yīng)于估算的感覺平均信息量的一個幀群,推導(dǎo)出一個平均及一個標(biāo)準(zhǔn)偏差參數(shù);根據(jù)估算的平均與標(biāo)準(zhǔn)偏差參數(shù),估算該幀群的判別電平;生成分別表示各感覺平均信息量與平均參數(shù)之間的差的一個差信號;根據(jù)估算的判別電平、判別電平的總數(shù)、感覺平均信息量及平均位,為該幀群的各幀確定位,并為各幀生成與所確定的位對應(yīng)的位分配信息;根據(jù)估算的信號-掩蔽比數(shù)據(jù)與生成的位分配信息為各幀的對應(yīng)分波段確定位,并為各分波段生成與所確定的位對應(yīng)的位分配信息。從下面結(jié)合附圖所取的較佳實施例的描述中,本發(fā)明的上述與其它目的及特征將是顯而易見的,附圖中圖1示出示意性地說明按照本發(fā)明的用于自適應(yīng)地編碼一個輸入數(shù)字音頻信號的新穎裝置與位分配方法的方框圖;以及圖2描繪圖1中所示的第一位分配單元的詳細(xì)方框圖。參見圖1,其中示出了示意性地說明按照本發(fā)明的一種自適應(yīng)數(shù)字音頻編碼裝置與位分配方法的方框圖。自適應(yīng)數(shù)字音頻編碼裝置包括一個分波段濾波裝置10、第一與第二感覺參數(shù)估算器20與30、第一與第二位分配單元40與50、一個量化器60及一個格式電路70。將包含N個抽樣,即n=0,1,…,n-1,的第i幀或當(dāng)前幀的一個輸入數(shù)字音頻信號X(n)作用在第一感覺參數(shù)估算器20及適用于執(zhí)行該輸入數(shù)字音頻信號的分波段濾波操作的分波段濾波裝置10上,其中N為一個正整數(shù)。這里使用的“幀”表示對應(yīng)于一個固定數(shù)目的音頻抽樣的數(shù)字音頻信號的一部分,并且是編碼與解碼數(shù)字音頻信號的一個處理單位。如圖所示,分波段濾波裝置10接收當(dāng)前幀的輸入數(shù)字音頻信號,并采用本技術(shù)中眾所周知的一種分波段濾波技術(shù)(諸如公開在ISO/IECJTCI/SC2/WG11,“部分3,音頻建議”,CD-11172-3(1991)中所描述的稱作MPEG音頻算法中的方法)進(jìn)行輸入數(shù)字音頻信號的濾波。即,分波段濾波裝置10起到用抽樣頻率fs/B將具有抽樣頻率fs的輸入數(shù)字音頻信號分成等間隔的B(例如32)個分波段的作用,并將分開后的分波段音頻抽樣提供給量化器60。另一方面,第一感覺參數(shù)估算器20接收當(dāng)前幀的輸入數(shù)字音頻信號并利用一個心理聲學(xué)模型(諸發(fā)在MPEG音頻算法中討論的)為包含在當(dāng)前幀的輸入數(shù)字音頻信號中的各分波段估算信號-掩蔽比(SMR)數(shù)據(jù)、聲壓水平與掩蔽閾值。各分波段的信號-掩蔽比的推導(dǎo)如下SMR(j)=P(j)-M(j)式(1)其中j為一個分波段數(shù)標(biāo),j=0,1,…,B-1,B為一幀中的分波段的總數(shù);SMR(j)為在分波段j中的信號-掩蔽比;P(j)為用FFT(快速傅里葉變換)技術(shù)估算的分波段j中的聲壓水平;M(j)為分波段j中的掩蔽閾值;而SMR(j)、P(j)與M(j)的單位都是dB(分貝)。掩蔽閾值表示可聽見的極限,它是本征可聽見極限或一種聲音的閾值與音頻信號的其它音調(diào)與非音調(diào)分量的出現(xiàn)引起的一個增量之和。然后,將這些SMR(j)饋送給第二位分配單元50,同時將P(j)與M(j)耦合到第二感覺參數(shù)估算器30。第二感覺參數(shù)估算器30起到根據(jù)來自第一感覺參數(shù)估算器20的聲壓水平P(j)與掩蔽閾值M(j),為第i幀的輸入數(shù)字音頻信號估算一個感覺平均信息量PE(i)的作用。第i幀的輸入數(shù)字音頻信號的感覺平均信息量PE(i),如本技術(shù)中熟知的,可表示為PE(i)=1BΣj=0B-1MAXdB]]>式(2)其中i,j與B具有與前面的定義相同的含義。式(2)可通過應(yīng)用所謂速率失真理論求出;并對應(yīng)于根據(jù)人類聽覺的感覺平均信息量。此外,為了按照第一位分配單元40的處理在它們之間自適應(yīng)地分配位,采用第二感覺參數(shù)估算器30來組合Q(例如4)個當(dāng)前與其前面的幀的估算的感覺平均信息量,即PE(i)、PE(i-1)、PE(i-2)與PE(i-3),(第一位分配單元40將在下面參照圖1與2詳細(xì)描述),其中組合的感覺平均信息量表示包含四個當(dāng)前與前面的幀的一個幀群的感覺平均信息量;并用該幀群的總的感覺平均信息量估算表示它們的統(tǒng)計性質(zhì)的一個平均及一個標(biāo)準(zhǔn)偏差參數(shù)PEm及PEstd。該幀群的總的感覺平均信息量的平均參數(shù)PEm,如本技術(shù)中所熟知的,可得出如下PEm=1QΣp=0Q-1PE(p)]]>式(3)其中p為用在該組合幀數(shù)據(jù)中的一個幀數(shù)標(biāo),p=0,1,…Q-1,Q為該幀群的總幀數(shù);而PE(p)則表示幀群中第p個幀的感覺平均信息量。相應(yīng)地,該幀群的總的感覺平均信息量的標(biāo)準(zhǔn)偏差參數(shù)PEstd,如本技術(shù)中所熟知的,可計算如下其中p與Q具有與前面的定義相同的含義。然后,將在第二感覺參數(shù)估算器30中組合與估算的第p幀的感覺平均信息量PE(p)及平均與標(biāo)準(zhǔn)偏差參數(shù)PEm與PEstd作用在第一位分配單元40上,第一位分配單元40是用來根據(jù)來自第二感覺參數(shù)估算器30的第p幀的感覺平均信息量及平均與標(biāo)準(zhǔn)偏差參數(shù),確定包含在該幀群中的各幀的位的,并將對應(yīng)于為該群的各幀所確定的位的位分配信息FBI提供給第二分配單元30與格式電路70。參見圖2,其中示出了圖1中所示的第一位分配單元40的詳細(xì)方框圖。第一位分配單元40包括一個判別電平估算器41、一個減法器42及一個位分配裝置43。判別電平估算器41用于根據(jù)來自圖1中所示的第二感覺參數(shù)估算器30的平均與標(biāo)準(zhǔn)偏差參數(shù)PEm與PEstd,為位分配裝置43估算幀群的最佳判別電平,以自適應(yīng)地將位分配給該幀群中的各幀。按照本發(fā)明的一個較佳實施例,該幀群的第k個判別電平D(k)可表示如下D(k)=NF·PEstd·k式(5)其中k為一個判別電平數(shù)標(biāo),k=-q至q,q為一個正整數(shù),NF為該幀群中的一個正規(guī)化因子。從式(5)中可見,組合的幀數(shù)據(jù)的第k個判別電平D(k)與第(k-1)個判別電平D(k-1)之間的電平間隔取決于來自第二感覺參數(shù)估算器30的標(biāo)準(zhǔn)偏差PEstd與組合的幀數(shù)據(jù)的正規(guī)化因子NF,而判別電平的總數(shù)則是預(yù)定的。應(yīng)當(dāng)理解,判別電平的總數(shù)可根據(jù)所要求的編碼效率及編碼裝置的聲音質(zhì)量來確定。為了得出與實際的人類聽覺緊密匹配的組合幀數(shù)據(jù)的最佳判別電平,用在判別電平估算器41中的幀群的正規(guī)化因子NF最好能用來自第二感覺參數(shù)估算器30的平均與標(biāo)準(zhǔn)偏差參數(shù)PEm與PEstd以及事先存儲在其一個存儲器(未示出)中的一個全程平均與一個全程標(biāo)準(zhǔn)偏差的一個平均參數(shù)PEgm與PEgstd來確定。各全程平均與全程標(biāo)準(zhǔn)偏差的平均參數(shù)可以分別通過使用為一個預(yù)定的持續(xù)時間估算的平均與標(biāo)準(zhǔn)偏差參數(shù)容易地測定。按照本發(fā)明,幀群的正規(guī)化因子NF得出如下NF=(PEgstdPEgm)·(PEmPEstd)]]>式(6)從式(5)與(6)中可以看出,幀群的判別電平可確定為平均參數(shù)的整數(shù)倍。另一方面,減法器42通過從感覺平均信息量PE(p)中減去來自第二感覺參數(shù)估算器30的平均參數(shù)PEm計算幀群中第p幀的差信號E(p)。隨后,將在判別電平估算器41中估算與預(yù)定的判別電平D(k)及判別電平的總數(shù)2q+1,以及在減法器42計算的差信號E(p),同時提供給位分配裝置43。位分配裝置43根據(jù)來自判別電平估算器41的判別電平與判別電平的總數(shù),以及來自減法器42的差信號為幀群中的各幀確定位,并將與為各幀所確定的位對應(yīng)的位分配信息FBI提供給圖1中所示的第二位分配單元50及格式電路70。按照本發(fā)明的一個較佳實施例,幀群中的第p個幀的位分配FB(p)可確定如下FB(p)=FBm+BV2q+1·I]]>式(7)其中p具有與前面的定義相同的含義;FBm為平均位,諸如,對于在每秒128Kbits(千位)數(shù)據(jù)傳輸率上的48KHz抽樣頻率的16位PCM(脈沖碼調(diào)制)音頻數(shù)據(jù)為每幀3072位;BV為一個預(yù)定的位變量值;2q+1為預(yù)定的判別電平的總數(shù);而I為幀p中的一個電平數(shù)標(biāo)。從式(7)中可見,第p幀的位分配FB(p)可通過在平均位的數(shù)目FBm上加上可從其第二項中推算出的變化位的數(shù)目而確定。其中的預(yù)定位變量值可以作為與式(7)中所定義的一幀的平均位相等的一個值來確定,而幀群中第p幀的電平數(shù)標(biāo)I可以根據(jù)來自判別電平估算器41的判別電平D(k)及來自減法器42的差信號E(p)得出。按照本發(fā)明的較佳實施例,幀群中的第p幀的電平數(shù)標(biāo)I可以表示成如表1中所示(其中假定了判別電平的間隔為1.27而判別電平數(shù)標(biāo)k為-2至2)從表1中可見,如果差信號E(p)存在于判別電平-1.28與-2.0之間,則第p幀的電平數(shù)標(biāo)I可選擇為-1;而如果它在判別電平1.27與2.0之間,則電平數(shù)標(biāo)I可選擇為1,以此類推。以這一方式,第p幀的位分配FB(p)可用式(7)方便地確定。隨后,將位分配單元43上對應(yīng)于為幀群的各幀所確定的位的位分配信息FBI,及來自圖1中所示的第一感覺參數(shù)估算器20的信號-掩蔽比SMR(j)同時作用在第二位分配單元50上;并將各幀的位分配信息FBI提供給格式電路70?;仡^參見圖1,第二位分配單元50接收從第一感覺參數(shù)估算器20饋入的信號-掩蔽比SMR(j)及從第一位分配單元40提供的各幀的位分配信息FBI,為包含在幀群的各幀中的各分波段確定位,并分別將對應(yīng)于為各分波段確定的位的位分配信息SBI提供給量化器60與格式電路70。用在第二位分配單元50中的原理在于在所使用位數(shù)不得超過從第一位分配單元40傳送的該幀可得到的位數(shù)的制約下,在一幀上優(yōu)化總的信噪比。隨后,將來自第二位分配單元50的各分波段的位分配信息SBI及來自分波段濾波裝置10的分裂的分波段音頻抽樣同時作用在量化器60上。量化器60起到根據(jù)來自第二位分配單元50的對應(yīng)位分配信息,自適應(yīng)地量化來自分波段濾波裝置10的分裂的分波段音頻抽樣的作用,并將各分波段的量化音頻信號提供給格式電路70。在格式電路70中,來自量化器60的量化音頻抽樣及來自第一與第二位分配單元40與50的位分配信息被格式化與傳輸給一臺發(fā)送機(jī)(未示出)供其傳輸,借此改進(jìn)輸入數(shù)字音頻信號的編碼效率及聲音質(zhì)量。分波段濾波裝置10、第一感覺參數(shù)估算器20、第二位分配單元50、量化器60及格式電路70的原理與功能基本上與MPEG音頻算法中所得出的那些相同。雖然本發(fā)明是參照特定的實施例示出與描述的,但對于熟悉本技術(shù)的人員而言,顯而易見可以在不脫離所附的權(quán)利要求書中所定義的本發(fā)明的精神與范圍的條件下,作出許多改變與修正。表1</tables>權(quán)利要求1.一種用于自適應(yīng)地編碼包含多個幀的一個輸入數(shù)字音頻信號的裝置,其中各該幀包含多個分波段,該裝置包括用于在逐個分波段的基礎(chǔ)上接收與濾波該輸入數(shù)字音頻信號的裝置;第一估算裝置,用于為該數(shù)字音頻信號的各分波段估算信號-掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值;第二估算裝置,用于根據(jù)估算的信號-掩蔽比數(shù)據(jù)、聲壓水平與掩蔽閾值,為該輸入數(shù)字音頻信號的各幀估算感覺平均信息量,及用于為與估算的感覺平均信息量相對應(yīng)的包含兩個或兩個以上的當(dāng)前與前面的幀的一個幀群推導(dǎo)一個平均及一個標(biāo)準(zhǔn)偏差參數(shù);位分配裝置,用于根據(jù)估算的信號-掩蔽比數(shù)據(jù)、感覺平均信息量、及平均與標(biāo)準(zhǔn)偏差參數(shù)為各分波段自適應(yīng)地確定位,及用于生成對應(yīng)于為各分波段確定的位的位分配信息;用于響應(yīng)為各分波段生成的位分配信息,量化該數(shù)字音頻信號的各濾波后的分波段的裝置;以及用于和所生成的位分配信息一起,格式化該量化音頻信號的裝置。2.權(quán)利要求1中所述的裝置,其中所述位分配裝置包括用于根據(jù)估算的平均與標(biāo)準(zhǔn)偏差參數(shù),估算該幀群的判別電平的裝置;用于生成一個表示各感覺平均信息量與平均參數(shù)之間的差的差信號的裝置;第一位分配裝置,用于根據(jù)估算的判別電平、判別電平的總數(shù)、感覺平均信息量及預(yù)定的平均位,為該幀群的各幀確定位,及用于生成一個與為各幀確定的位對應(yīng)的位分配信息;以及第二位分配裝置,用于根據(jù)估算的信號-掩蔽比數(shù)據(jù)及生成的位分配信息,為各幀的各分波段確定位,及用于生成與為各分波段確定的位對應(yīng)的位分配信息。3.權(quán)利要求2中所述的裝置,其中該幀群的各判別電平D確定如下D=NF·PEstd.k其中k為一個判別電平數(shù)標(biāo),k=-q至q,q為一個正整數(shù),NF為該幀群中的一個正規(guī)化因子;而PEstd則為該幀群的標(biāo)準(zhǔn)偏差參數(shù)。4.權(quán)利要求3中所述的裝置,其中第p幀的位分配FB(p)是按下式計算的FB(p)=FBm+BV2q+1·I]]>其中p為該幀群中的一個幀數(shù)標(biāo);FBm為一幀的平均位的一個函數(shù);2q+1為預(yù)定的判別電平的總數(shù);而I則為第p幀中的一個電平數(shù)標(biāo)。5.一種用在自適應(yīng)地編碼包含多個幀的一個輸入數(shù)字音頻信號的一種數(shù)字音頻編碼裝置中的位分配方法,其中各幀包括多個分波段,所述方法包括下述步驟在逐個分波段的基礎(chǔ)上,接收與濾波該輸入數(shù)字聲頻信號;為該數(shù)字音頻信號的各分波段估算信號-掩蔽比數(shù)據(jù)、聲壓水平與掩蔽閾值;根據(jù)估算的信號-掩蔽比數(shù)據(jù)、聲壓水平與掩蔽閾值,為該輸入數(shù)字音頻信號的各幀估算感覺平均信息量,及為對應(yīng)于估算的感覺平均信息量的包含兩個或兩個以上當(dāng)前與前面的幀的一個幀群推導(dǎo)一個平均與一個標(biāo)準(zhǔn)偏差參數(shù);根據(jù)估算的平均與標(biāo)準(zhǔn)偏差參數(shù),估算該幀群的判別電平;生成一個表示各該感覺平均信息量與該平均參數(shù)之間的差的差信號;根據(jù)估算的判別電平、判別電平的總數(shù)、感覺平均信息量及平均位,為該幀群的各幀確定位,及生成對應(yīng)于為各幀所確定的位的位分配信息;以及根據(jù)估算的信號-掩蔽比數(shù)據(jù)及生成的位分配信息,為各幀的各分波段確定位,及生成對應(yīng)于為各分波段確定的位的位分配信息。6.權(quán)利要求5中所述的方法,其中該幀群的各判別電平D確定如下D=NF·PEstd·k其中k為一個判別電平數(shù)標(biāo),k=-q至q,q為一個正整數(shù),NF為該幀群中的一個正規(guī)化因子;而PEstd則為該幀群的標(biāo)準(zhǔn)偏差參數(shù)。7.權(quán)利要求6中所述的方法,其中第p幀的位分配FB(p)按下式得出FB(p)=FBm+BV2q+1·I]]>其中p為該幀群中的一個幀數(shù)標(biāo);FBm為一個幀的平均位的一個函數(shù);2q+1為預(yù)定的判別電平的總數(shù);而I則為第p幀中的一個電平數(shù)標(biāo)。全文摘要編碼輸入數(shù)字音頻信號的裝置,包括分波段濾波裝置,用于逐分波段地接收及濾波該輸入信號;第一估算器,用于為該信號的各分波段估算信號——掩蔽比數(shù)據(jù)、聲壓水平及掩蔽閾值;第二估算器,用于為該輸信號的各幀估算感覺熵及為與所估算的感覺熵對應(yīng)的一幀群推導(dǎo)一平均及一標(biāo)準(zhǔn)偏差參數(shù);位分配單元,用于為各分波段自適應(yīng)地確定位及位分配信息;量化器,用于量化該信號的各濾波后的分波段;及格式電路,用于和所生成的位分配信息一起格式化量化后的音頻信號。文檔編號H04B1/66GK1127913SQ9510135公開日1996年7月31日申請日期1995年1月27日優(yōu)先權(quán)日1995年1月27日發(fā)明者金鐘一申請人:大宇電子株式會社