語音與音頻信號(hào)的改進(jìn)的變換編碼的制作方法

文檔序號(hào)：7939787閱讀：162來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：：語音與音頻信號(hào)的改進(jìn)的變換編碼的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明總體上涉及諸如信號(hào)壓縮和音頻編碼之類的信號(hào)處理，更特別地涉及改進(jìn)的變換語音與音頻編碼以及相應(yīng)的設(shè)備。
背景技術(shù)：
：編碼器是一種能夠分析諸如音頻信號(hào)之類的信號(hào)并以編碼的形式輸出信號(hào)的設(shè)備、電路或計(jì)算機(jī)程序。所得到的信號(hào)通常用于傳輸、存儲(chǔ)和/加密的目的。另一方面，解碼器是一種能夠反轉(zhuǎn)編碼器操作的設(shè)備、電路或計(jì)算機(jī)程序，因?yàn)槠浣邮站幋a的信號(hào)并輸出解碼的信號(hào)。在大多數(shù)現(xiàn)有技術(shù)的編碼器(例如音頻編碼器)中，分析輸入信號(hào)的每個(gè)幀并且將其從時(shí)域變換到頻域。這一分析的結(jié)果被量化和編碼，并且然后根據(jù)應(yīng)用進(jìn)行傳輸或存儲(chǔ)。在接收側(cè)(或者當(dāng)使用所存儲(chǔ)的編碼信號(hào)時(shí))，后面是合成過程的相應(yīng)解碼過程使得有可能在時(shí)域中恢復(fù)信號(hào)。編解碼器(編碼器_解碼器)通常用于壓縮/解壓縮信息(例如音頻和視頻數(shù)據(jù))以便通過帶寬受限的通信信道進(jìn)行高效的傳輸。所謂的變換編碼器或更一般而言變換編解碼器通?；跁r(shí)域到頻域的變換，例如DCT(離散余弦變換)、改進(jìn)的離散余弦變換(MDCT)或相對(duì)于聽覺系統(tǒng)特性允許更好編碼效率的某種其他重疊變換。變換編解碼器的共同特性是，它們對(duì)重疊采樣塊(即重疊幀)進(jìn)行操作。由每個(gè)幀的變換分析或等效子帶分析所產(chǎn)生的編碼系數(shù)通常被量化和存儲(chǔ)或者作為比特流傳輸?shù)浇邮諅?cè)。解碼器一接收到比特流就執(zhí)行解量化和逆變換以便重構(gòu)信號(hào)幀。所謂的感知(perc印tual)編碼器使用接收目的地(即人類聽覺系統(tǒng))的有損編碼模型，而不是源信號(hào)的模型。因此，感知音頻編碼需要編碼音頻信號(hào)、結(jié)合聽覺系統(tǒng)的心理聲學(xué)知識(shí)，以便優(yōu)化/減少忠實(shí)再現(xiàn)原始音頻信號(hào)所必需的比特?cái)?shù)量。另外，感知編碼試圖除去即不傳輸或近似人類接收者不能感知的信號(hào)部分，即與源信號(hào)的無損編碼相對(duì)的有損編碼。該模型通常被稱為心理聲學(xué)模型。一般來說，感知編碼器將具有比波形編碼器更低的信噪比(SNR)，并且具有比以相等比特率操作的無損編碼器更高的感知質(zhì)量。感知編碼器在不引入聽得到的量化噪聲的情況下使用剌激的掩蔽模式(maskingpattern)來確定編碼即量化每個(gè)頻率子帶所必需的最少比特?cái)?shù)。操作在頻域中的現(xiàn)有感知編碼器通常使用所謂的絕對(duì)聽覺閾值(ATH)與掩蔽的音調(diào)和類噪聲擴(kuò)散二者的組合，以便計(jì)算所謂的掩蔽閾值(MT)[1]?；谶@樣的瞬時(shí)掩蔽閾值，現(xiàn)有的心理聲學(xué)模型計(jì)算被用來定形原始頻譜的標(biāo)度因子，以使編碼噪聲被高能量級(jí)分量掩蔽，例如聽不到由編碼器引入的噪聲[2]。感知建模已被廣泛地用于高比特率音頻編碼中。標(biāo)準(zhǔn)化的編碼器(例如MPEG-1層III[3]、MPEG-2高級(jí)音頻編碼[4])以128kbps的速率并且對(duì)于寬帶音頻相應(yīng)地以64kbps的速率來實(shí)現(xiàn)"CD質(zhì)量"。不過，這些編解碼器根據(jù)定義被強(qiáng)制低估掩蔽的量以確保仍然聽不到失真。而且，寬帶音頻編碼器通常使用高復(fù)雜性的聽覺(心理聲學(xué))模型，其在低比特率(低于64kbps)下不是非?？煽康摹?br/>發(fā)明內(nèi)容由于前面提到的問題，所以需要在保持低復(fù)雜性功能的同時(shí)在低比特率下可靠的改進(jìn)的心理聲學(xué)模型。本發(fā)明克服了現(xiàn)有技術(shù)方案的這些和其他缺點(diǎn)?；旧?，在對(duì)電信系統(tǒng)中的音頻信號(hào)進(jìn)行感知變換編碼的方法中，最初確定表示時(shí)間分段的輸入音頻信號(hào)的時(shí)間到頻率的變換的變換系數(shù)，基于所確定的變換系數(shù)來確定輸入音頻信號(hào)的感知子帶的頻譜。隨后，基于所述確定的頻譜來確定每個(gè)子帶的掩蔽閾值，對(duì)于所確定的其各自的掩蔽閾值來計(jì)算每個(gè)子帶的標(biāo)度因子。最后，適配每個(gè)子帶的所計(jì)算的標(biāo)度因子以防止由于用于感知上相關(guān)的子帶的編碼而產(chǎn)生的能量損失，即以便達(dá)到高質(zhì)量的低比特率編碼。當(dāng)閱讀下面對(duì)本發(fā)明實(shí)施例的描述時(shí)，將會(huì)認(rèn)識(shí)到由本發(fā)明提供的更多優(yōu)點(diǎn)。通過參考與附圖一起得到的下面的描述，可以最好地理解本發(fā)明連同其更多的目的和優(yōu)點(diǎn)，其中圖1示出適合于全帶音頻編碼的示例性編碼器；圖2示出適合于全帶音頻解碼的示例性解碼器；圖3示出通用的感知變換編碼器；圖4示出通用的感知變換解碼器；圖5示出根據(jù)本發(fā)明的心理聲學(xué)模型中的方法的一個(gè)流程圖；圖6示出在根據(jù)本發(fā)明的方法的情況下的實(shí)施例的另一流程圖；圖7示出在根據(jù)本發(fā)明的方法的情況下的實(shí)施例的又一流程圖?？s寫ATH絕對(duì)聽覺閾值BS巴克譜DCT離散余弦變換DFT離散傅里葉變換ERB等效矩形帶寬MDCT改進(jìn)的離散余弦逆變換MT掩蔽閾值MDCT改進(jìn)的離散余弦變換SF標(biāo)度因子具體實(shí)施例方式本發(fā)明主要涉及變換編碼，具體涉及子帶編碼。為了簡化對(duì)本發(fā)明實(shí)施例的下面描述的理解，下面將描述一些關(guān)鍵的定義。電信中的信號(hào)處理有時(shí)利用"壓擴(kuò)"來作為利用有限的動(dòng)態(tài)范圍改善信號(hào)表示的一種方法。該術(shù)語是壓縮和擴(kuò)展的結(jié)合，由此指示信號(hào)的動(dòng)態(tài)范圍在傳輸之前被壓縮并且在接收機(jī)處被擴(kuò)展到原始值。這允許具有大動(dòng)態(tài)范圍的信號(hào)通過具有較小動(dòng)態(tài)范圍能力的設(shè)施來傳輸。在下文中，將關(guān)于適合于ITU-TG.722.1全帶編解碼器擴(kuò)展(現(xiàn)在被重新命名為ITU-TG.719)的特定示例性且非限制性編解碼器實(shí)現(xiàn)來描述本發(fā)明。在該特定實(shí)例中，編解碼器被呈現(xiàn)為低復(fù)雜性基于變換的音頻編解碼器，其優(yōu)選地以48kHz的采樣率操作，并且提供范圍從20Hz—直到20kHz的全音頻帶寬。編碼器處理20ms幀上的輸入16比特線性PCM信號(hào)，并且編解碼器具有40ms的總延遲。編碼算法優(yōu)選地是基于具有自適應(yīng)時(shí)間分辨率、自適應(yīng)比特分配和低復(fù)雜性格型矢量量化的變換編碼。另外，解碼器可以通過信號(hào)自適應(yīng)噪聲填充或者帶寬擴(kuò)展來代替非編碼的頻譜分量。圖1是適合于全帶音頻編碼的示例性編碼器的框圖。通過瞬態(tài)檢測(cè)器來處理以48kHz采樣的輸入信號(hào)。根據(jù)對(duì)瞬態(tài)的檢測(cè)，對(duì)輸入信號(hào)幀應(yīng)用高頻率分辨率或低頻率分辨率(高時(shí)間分辨率)變換。在穩(wěn)態(tài)幀的情況下，自適應(yīng)變換優(yōu)選地是基于改進(jìn)的離散余弦變換(MDCT)。對(duì)于非穩(wěn)態(tài)幀，使用更高時(shí)間分辨率變換，而不需要附加延遲并且在復(fù)雜性方面具有非常小的開銷。非穩(wěn)態(tài)幀優(yōu)選地具有等同于5ms幀的時(shí)間分辨率(盡管可以選擇任一任意的分辨率)。將所獲得的頻譜系數(shù)分組成不等長度的頻帶會(huì)是有益的?？梢怨烙?jì)每個(gè)頻帶的范數(shù)(norm)，并且所得到的包括所有頻帶的范數(shù)的頻譜包絡(luò)被量化和編碼。然后通過量化的范數(shù)來歸一化(normalize)所述系數(shù)。量化的范數(shù)被進(jìn)一步基于自適應(yīng)頻譜加權(quán)而調(diào)整并且被用作比特分配的輸入?；跒槊總€(gè)頻帶分配的比特來對(duì)歸一化的頻譜系數(shù)進(jìn)行格型矢量量化和編碼。非編碼的頻譜系數(shù)的大小被估計(jì)、編碼并且傳輸?shù)浇獯a器。優(yōu)選地，對(duì)編碼的頻譜系數(shù)以及編碼的范數(shù)二者的量化指數(shù)應(yīng)用霍夫曼編碼。圖2是適合于全帶音頻解碼的示例性解碼器的框圖。用于指示幀配置(即穩(wěn)態(tài)或瞬態(tài))的瞬態(tài)標(biāo)志被首先解碼。頻譜包絡(luò)被解碼，并且在解碼器處使用相同的比特精確的范數(shù)調(diào)整和比特分配算法以便重新計(jì)算比特分配，這對(duì)解碼歸一化的變換系數(shù)的量化指數(shù)來說是必需的。在解量化之后，優(yōu)選地通過使用根據(jù)所接收的頻譜系數(shù)(具有非零比特分配的頻譜系數(shù))而建立的頻譜填充碼本來重新生成低頻非編碼的頻譜系數(shù)(分配的零比特)。噪聲級(jí)調(diào)整指數(shù)可以被用來調(diào)整重新生成的系數(shù)的大小。優(yōu)選地使用帶寬擴(kuò)展來重新生成高頻非編碼的頻譜系數(shù)。解碼的頻譜系數(shù)和重新生成的頻譜系數(shù)被混合并且產(chǎn)生歸一化的頻譜。應(yīng)用解碼的頻譜包絡(luò)，從而產(chǎn)生解碼的全帶頻譜。最后，應(yīng)用逆變換以恢復(fù)時(shí)域解碼信號(hào)。這優(yōu)選地通過對(duì)于穩(wěn)態(tài)模式應(yīng)用改進(jìn)的離散余弦逆變換(頂DCT)或者對(duì)于瞬態(tài)模式應(yīng)用更高時(shí)間分辨率變換的逆變換來執(zhí)行。適于全帶擴(kuò)展的算法基于自適應(yīng)變換編碼技術(shù)。它對(duì)輸入和輸出音頻的20ms幀進(jìn)行操作。因?yàn)樽儞Q窗(基本函數(shù)長度)是40ms并且在連續(xù)輸入幀和輸出幀之間使用50%的重疊，所以有效先行緩沖器大小是20ms。因此，整個(gè)算法延遲是40ms，其是幀大小加上先行大小的和。在使用G.722.1全帶編解碼器(ITU-TG.719)中經(jīng)歷的所有其他附加延遲歸因于計(jì)算和/或網(wǎng)絡(luò)傳輸延遲。5將參考圖3來描述關(guān)于感知變換編碼器的一般且典型的編碼方案。將參考圖4呈現(xiàn)相應(yīng)的解碼方案。編碼方案或過程的第一步包括通常被稱為信號(hào)的加窗的時(shí)域處理，這導(dǎo)致輸入音頻信號(hào)的時(shí)間分段。編解碼器(編碼器和解碼器二者)使用的時(shí)域到頻域的變換可以是例如-根據(jù)等式1的離散傅里葉變換(DFT)，W-J乂2ff^w=0o,.2-1C1)其中X[k]是加窗的輸入信號(hào)x[n]的DFT。N是窗w[n]的大小，n是時(shí)間索弓l，以及k是頻率倉(bin)索引，-離散余弦變換(DCT)，-根據(jù)等式2的改進(jìn)的離散余弦變換(MDCT)，2W-1廣11,Ae[O,...，iV-l(2)，n是時(shí)間索引其中X[k]是加窗的輸入信號(hào)x[n]的MDCT。N是窗w[n]的大小以及k是頻率倉索引?；谳斎胍纛l信號(hào)的這些頻率表示中的任何一個(gè)，感知音頻編解碼器旨在分解頻譜、或其關(guān)于聽覺系統(tǒng)的臨界頻帶(例如所謂的巴克標(biāo)度)的近似值、或巴克標(biāo)度的近似值、或者某一其他頻率標(biāo)度。為了進(jìn)一步的理解，巴克標(biāo)度是標(biāo)準(zhǔn)化的頻率標(biāo)度，其中每個(gè)"巴克"(以巴克豪森命名)組成一個(gè)臨界帶寬。這一步可以通過根據(jù)感知標(biāo)度來對(duì)變換系數(shù)進(jìn)行頻率分組而實(shí)現(xiàn)，參見等式3，所述感知標(biāo)度是根據(jù)臨界頻帶來建立的。Xb[k]={X[k]}，kG[kb，...，kb+「l]，bG[1，...，Nb]，(3)其中Nb是頻率或心理聲學(xué)頻帶的數(shù)目，k是頻率倉索引，以及b是相對(duì)索引。如先前所述，感知變換編解碼器依賴于掩蔽閾值MT[b]的估計(jì)，以便導(dǎo)出應(yīng)用于心理聲學(xué)子帶域中的變換系數(shù)Xb[k]的頻率成形函數(shù)，例如標(biāo)度因子SF[b]。根據(jù)下面的等式4可以定義定標(biāo)的頻譜Xsb[k]，Xsb[k]=Xb[k]XMT[b]，kG[kb，...，kb+「l]，bG[1，…，Nb](4)其中Nb是頻率或心理聲學(xué)頻帶的數(shù)目，k是頻率倉索引，以及b是相對(duì)索引。最后，為了編碼目的，感知編碼器然后可以采用在感知上定標(biāo)的頻譜。如在圖3中示出的那樣，量化和編碼過程可以執(zhí)行冗余度縮減，其將能夠通過使用定標(biāo)的頻譜來將原始頻譜的在感知上最相關(guān)的系數(shù)作為重點(diǎn)。在解碼階段(見圖4)，通過使用所接收的二進(jìn)制流量(例如比特流)的解量化和解碼來實(shí)現(xiàn)逆操作。這一步之后是逆變換(逆MDCT即MDCT或者逆DFT即IDFT等等)以便使信號(hào)返回到時(shí)域。最后，使用重疊相加方法來生成在感知上重構(gòu)的音頻信號(hào)(即有損編碼)，因?yàn)閮H解碼了在感知上相關(guān)的系數(shù)。為了考慮到聽覺系統(tǒng)限制，本發(fā)明執(zhí)行合適的頻率處理，其允許變換系數(shù)的定標(biāo)，以使編碼不會(huì)改變最終的感知。因此，本發(fā)明使心理聲學(xué)建模能夠滿足非常低復(fù)雜性應(yīng)用的需求。這通過使用標(biāo)度因子的直接和簡化的計(jì)算來實(shí)現(xiàn)。隨后，標(biāo)度因子的自適應(yīng)壓擴(kuò)/擴(kuò)展允許具有高感知音頻質(zhì)量的低比特率全帶音頻編碼?？傊?，本發(fā)明的技術(shù)能夠在感知上優(yōu)化量化器的比特分配，以使所有在感知上的相關(guān)系數(shù)獨(dú)立于原始信號(hào)或頻譜動(dòng)態(tài)范圍而被量化。在下面將描述根據(jù)本發(fā)明的用于心理聲學(xué)模型改進(jìn)的方法和設(shè)備的實(shí)施例。在下文中將描述被用來導(dǎo)出可用于高效感知編碼的標(biāo)度因子的心理聲學(xué)建模的細(xì)節(jié)。參考圖5，將描述根據(jù)本發(fā)明的方法的一般實(shí)施例?；旧希纛l信號(hào)例如語音信號(hào)被提供以用于編碼。如先前所述，該信號(hào)根據(jù)標(biāo)準(zhǔn)過程來處理，因此導(dǎo)致加窗的和時(shí)間分段的輸入音頻信號(hào)。最初在步驟210中確定用于如此的時(shí)間分段的輸入音頻信號(hào)的變換系數(shù)。隨后，在步驟212中例如根據(jù)巴克標(biāo)度或某一其他標(biāo)度來確定感知上分組的系數(shù)或感知頻率子帶。對(duì)于每個(gè)這樣確定的系數(shù)或子帶，在步驟214中確定掩蔽閾值。另外，在步驟216中為每個(gè)子帶或系數(shù)計(jì)算標(biāo)度因子。最后，在步驟218中適配如此計(jì)算的標(biāo)度因子，以防止由于用于在感知上相關(guān)的子帶(即實(shí)際上影響在接收的人或裝置處的收聽體驗(yàn)的子帶)的編碼而產(chǎn)生的能量損失。該適配將因此保持相關(guān)子帶的能量，并且因此將最大化解碼的音頻信號(hào)的感知質(zhì)參考圖6，將描述根據(jù)本發(fā)明的心理聲學(xué)模型的另一個(gè)特定實(shí)施例。該實(shí)施例使得能夠計(jì)算由模型限定的每個(gè)心理聲學(xué)子帶b的標(biāo)度因子SF[b]。盡管所描述的實(shí)施例的重點(diǎn)在于所謂的巴克標(biāo)度，但是其僅通過較少的調(diào)整就同樣適用于任何合適的感知標(biāo)度。在不失一般性的情況下，考慮用于低頻(很少變換系數(shù)的組)的高頻率分辨率以及相反地用于高頻的低頻率分辨率。每個(gè)子帶的系數(shù)的數(shù)目可以由感知標(biāo)度(例如被認(rèn)為是所謂的巴克標(biāo)度的好的近似的等效矩形帶寬(ERB))來限定，或者由之后所使用的量化器的頻率分辨率來限定。可替換的解決方案可以是使用這兩個(gè)的組合，這取決于所使用的編碼方案。通過將變換系數(shù)X[k]作為輸入，心理聲學(xué)分析首先計(jì)算根據(jù)下面的等式5所定義的巴克譜BS[b](單位是dB):、乂(5)其中Nb是心理聲學(xué)子帶的數(shù)目，k是頻率倉索引，以及b是相對(duì)索引?；趯?duì)感知系數(shù)或臨界子帶(例如巴克譜)的確定，根據(jù)本發(fā)明的心理聲學(xué)模型執(zhí)行前述的掩蔽閾值MT的低復(fù)雜性計(jì)算。第一步包括通過考慮平均掩蔽來從巴克譜中導(dǎo)出掩蔽閾值MT。在音頻信號(hào)中的音調(diào)和噪聲分量之間不產(chǎn)生差異。參見下面的等式6，這通過對(duì)于每個(gè)子帶b能量減少29dB來實(shí)現(xiàn)MT[b]=BS[b]-29，bG[1，...，Nb](6)第二步依賴于在[2]中描述的頻率掩蔽的擴(kuò)散效應(yīng)。由此呈現(xiàn)的心理聲學(xué)模型考慮了由下式定義的簡化的等式內(nèi)的前向擴(kuò)散和后向擴(kuò)散二者7|MT[6]=raax(MT[4,[6-1]-12.5)，"[2,…,乂]{,^=max(Mrf4"6+lj-25),&E[UA—1]("最后一步通過利用所謂的絕對(duì)聽覺閾值A(chǔ)TH使先前的值達(dá)到飽和(saturate)來產(chǎn)生每個(gè)子帶的掩蔽閾值，如由等式8所定義的那樣MT[b]=max(ATH[b]，MT[b])，bG[1，...，Nb](8)ATH通常被定義為音量級(jí)，主體可以以該音量級(jí)來檢測(cè)50%的時(shí)間的特定聲音。根據(jù)所計(jì)算的掩蔽閾值MT，本發(fā)明所提出的低復(fù)雜性模型旨在為每個(gè)心理聲學(xué)子帶計(jì)算標(biāo)度因子SF[b]。SF的計(jì)算依賴于歸一化步驟和自適應(yīng)壓擴(kuò)/擴(kuò)展步驟二者。基于變換系數(shù)根據(jù)非線性標(biāo)度(較大的帶寬用于高頻)而分組這一事實(shí)，可以在應(yīng)用掩蔽的擴(kuò)散之后歸一化在所有子帶中對(duì)于MT計(jì)算而累積的能量。歸一化步驟可以被寫為等式9:MT加r邁[b]=MT[b]-10Xlogl。(L[Nb])，bG[1，...，Nb](9)其中L[l，，Nb]是每個(gè)心理聲學(xué)子帶b的長度(變換系數(shù)的數(shù)目)。然后通過假設(shè)對(duì)于編碼噪聲級(jí)來說歸一化的MT即MT旨m是相等的來從歸一化的掩蔽閾值導(dǎo)出標(biāo)度因子SF，其中所述編碼噪聲級(jí)可以由所考慮的編碼方案來引入。然后我們根據(jù)下面的等式10來將標(biāo)度因子SF[b]定義為MTnOTm值的反(o卯osite)，SF[b]=—MT加r邁[b]，bG[1，...，Nb](10)然后，減小標(biāo)度因子的值，以使掩蔽效應(yīng)被限制到預(yù)定的量。該模型可以預(yù)知標(biāo)度因子的可變的(自適應(yīng)于比特率)或固定的動(dòng)態(tài)范圍為a=20dB:(in還有可能將該動(dòng)態(tài)值鏈接到可用的數(shù)據(jù)速率。然后，為了使量化器將低頻分量作為重點(diǎn)，可以調(diào)整標(biāo)度因子以使在感知上的相關(guān)子帶上不會(huì)出現(xiàn)能量損失。典型地，增加用于最低子帶(500Hz以下的頻率)的低SF值(低于6dB)，以使它們將被編碼方案認(rèn)為是感知上相關(guān)的。參考圖7，將描述又一個(gè)實(shí)施例。存在與參考圖5所述的相同的步驟。另外，在由步驟210確定的變換系數(shù)被用于在步驟212中確定感知系數(shù)或者子帶之前，在步驟211中對(duì)其進(jìn)行歸一化。此外，適配標(biāo)度因子的步驟218還包括自適應(yīng)地壓擴(kuò)標(biāo)度因子的步驟219以及自適應(yīng)地平滑標(biāo)度因子的步驟220。這兩個(gè)步驟219、220也可以被自然地包括在圖5和圖6的實(shí)施例中。根據(jù)該實(shí)施例，根據(jù)本發(fā)明的方法附加地執(zhí)行頻譜信息到由變換域編解碼器所使用的量化器范圍的合適的映射。輸入頻譜范數(shù)的動(dòng)態(tài)變化被自適應(yīng)地映射到量化器范圍，以便優(yōu)化信號(hào)主要部分的編碼。這通過計(jì)算加權(quán)函數(shù)來實(shí)現(xiàn)，所述加權(quán)函數(shù)能夠?qū)⒃碱l譜范數(shù)壓擴(kuò)或擴(kuò)展到量化器范圍。這使得能夠在幾個(gè)數(shù)據(jù)速率(中間和低速率)下以高音頻質(zhì)量進(jìn)行全帶音頻編碼，而不改變最終的感知。本發(fā)明的一個(gè)強(qiáng)大的優(yōu)點(diǎn)還是加權(quán)函數(shù)的低復(fù)雜性計(jì)算，以便滿足非常低復(fù)雜性(以及低延遲)應(yīng)用的需求。根據(jù)該實(shí)施例，映射到量化器的信號(hào)對(duì)應(yīng)于在變換的譜域(例如頻域)中的輸入信號(hào)的范數(shù)(均方根)。這些范數(shù)(具有索引P的子帶)的子帶頻率分解(子帶邊界)必須映射到量化器頻率分辨率(具有索引b的子帶)。然后，對(duì)范數(shù)進(jìn)行大小調(diào)整，并且根據(jù)(前向和后向平滑的)相鄰范數(shù)和絕對(duì)最小能量來計(jì)算用于每個(gè)子帶b的主要范數(shù)。下面描述操作的細(xì)節(jié)。最初，將范數(shù)(Spe(p))映射到譜域。這根據(jù)下面的線性操作來執(zhí)行，參見等式12:<formula>formulaseeoriginaldocumentpage9</formula>其中BM是子帶的最大數(shù)目(對(duì)于該特定實(shí)施方式是20)。在基于使用了44個(gè)頻譜子帶的量化器的表1中定義了Hb、Tb和Jb的值。Jb是對(duì)應(yīng)于變換域子帶數(shù)目的總和間隔。表1頻譜映射常數(shù)<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>映射的頻譜BSpe(b)根據(jù)等式13來前向平滑BSpe(b)=max(BSpe(b)，BSpe(b_l)_4)，b=1.，B磁，(13)并且根據(jù)下面的等式14來后向平滑BSpe(b)=max(BSpe(b)，BSpe(b+l)-4)，b=Bmx_l，.，0(14)根據(jù)等式15來閾值化并且再次歸一化所得到的函數(shù)BSpe(b)=T(b)—max(BSpe(b)，A(b))，b=0，，BMX_1(15)其中A(b)由表1給出。根據(jù)頻譜的動(dòng)態(tài)范圍(在該特定實(shí)施方式中3=4)，進(jìn)一步由下面的等式16來自適應(yīng)地壓擴(kuò)或擴(kuò)展所得到的函數(shù)卿,=腿(卿,}:—稀)(16)根據(jù)信號(hào)的動(dòng)態(tài)變化(最小值和最大值)，計(jì)算加權(quán)函數(shù)，以使它在其動(dòng)態(tài)變化超過量化器范圍的情況下壓擴(kuò)該信號(hào)，并且在其動(dòng)態(tài)變化不能覆蓋量化器的全范圍的情況下擴(kuò)展該信號(hào)。最后，通過(基于變換域的原始邊界)使用逆子帶域映射，將加權(quán)函數(shù)應(yīng)用于原始范數(shù)以生成將饋給量化器的加權(quán)的范數(shù)。將參考圖8來描述用于實(shí)現(xiàn)本發(fā)明的方法的實(shí)施例的設(shè)備的實(shí)施例。該設(shè)備包括用于傳送和接收用于處理的音頻信號(hào)或音頻信號(hào)的表示的輸入/輸出單元I/O。另外，該設(shè)備包括變換確定裝置310，其適于確定表示所接收的時(shí)間分段的輸入音頻信號(hào)(或者這樣的音頻信號(hào)的表示)的時(shí)間到頻率的變換的變換系數(shù)。根據(jù)另一個(gè)實(shí)施例，變換確定單元可以適于或者連接到適于歸一化所確定的系數(shù)的范數(shù)單元311。這由圖8中的虛線指示。另外，該設(shè)備包括用于基于所確定的變換系數(shù)或歸一化的變換系數(shù)來確定輸入音頻信號(hào)或其表示的感知子帶的頻譜的單元312。掩蔽單元314被提供用來基于所述確定的頻譜來確定每個(gè)所述子帶的掩蔽閾值MT。最后，該設(shè)備包括用于基于所述確定的掩蔽閾值來計(jì)算每個(gè)所述子帶的標(biāo)度因子的單元316。該單元316可以被提供有或連接到適配裝置318，其用于適配每個(gè)所述子帶的所述計(jì)算的標(biāo)度因子以防止在感知上相關(guān)的子帶的能量損失。對(duì)于一個(gè)特定的實(shí)施例來說，適配單元318包括用于自適應(yīng)地壓擴(kuò)所確定的標(biāo)度因子的單元319、以及用于自適應(yīng)地平滑所確定的標(biāo)度因子的單元320。上述設(shè)備可以被包括在或者可連接到電信系統(tǒng)中的編碼器或編碼器設(shè)備。本發(fā)明的優(yōu)點(diǎn)包括具有高質(zhì)量全帶音頻的低復(fù)雜性計(jì)算，適于量化器的靈活頻率分辨率，標(biāo)度因子的自適應(yīng)壓擴(kuò)/擴(kuò)展。本領(lǐng)域技術(shù)人員將會(huì)理解，在不偏離本發(fā)明范圍的情況下可以對(duì)本發(fā)明進(jìn)行各種修改和改變，其中本發(fā)明的范圍由所附的權(quán)利要求來限定。參考文獻(xiàn)[1]J.D.Johnston,〃EstimationofPerceptualEntropyUsingNoiseMaskingCriteria〃，Proc.ICASSP，pp.2524-2527，Mai1988.[2]J.D.Johnston，"Transformcodingofaudiosignalsusingperc印tualnoisecriteria",IEEEJ.Select.AreasComm皿.，vol.6，pp.314-323，1988.[3]IS0/IECJTC/SC29/WG11，CD11172-3，"CodingofMovingPicturesandAssociatedAudioforDigitalStorageMediaatuptoabout1.5MBIT/s，Part3AUDI0"，1993.[4]IS0/IEC13818-7，"MPEG-2AdvancedAudioCoding,AAC"，1997.1權(quán)利要求一種對(duì)電信系統(tǒng)中的音頻信號(hào)進(jìn)行感知變換編碼的方法，其特征在于以下步驟確定表示時(shí)間分段的輸入音頻信號(hào)的時(shí)間到頻率的變換的變換系數(shù)；基于所述確定的變換系數(shù)來確定所述輸入音頻信號(hào)的感知子帶的頻譜；基于所述確定的頻譜來確定每個(gè)所述子帶的掩蔽閾值；基于所述確定的掩蔽閾值來計(jì)算每個(gè)所述子帶的標(biāo)度因子；適配每個(gè)所述子帶的所述計(jì)算的標(biāo)度因子以防止由于用于在感知上相關(guān)的子帶的編碼而產(chǎn)生的能量損失。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述適配步驟包括對(duì)每個(gè)所述子帶的所述計(jì)算的標(biāo)度因子執(zhí)行自適應(yīng)的壓擴(kuò)、擴(kuò)展和平滑。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，基于預(yù)定的量化器范圍來執(zhí)行所述適配步驟以實(shí)現(xiàn)編碼過程中高效的比特分配，這將允許在幾個(gè)數(shù)據(jù)速率下以高音頻質(zhì)量進(jìn)行全帶音頻編碼。4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述掩蔽閾值確定步驟還包括歸一化所述確定的掩蔽閾值，并且隨后基于所述歸一化的掩蔽閾值來計(jì)算所述標(biāo)度因子。5.根據(jù)權(quán)利要求2所述的方法，其特征在于歸一化所確定的變換系數(shù)并且基于所述歸一化的變換系數(shù)來執(zhí)行所有步驟的另一初始步驟。6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述頻譜至少部分地基于巴克譜。7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述頻譜進(jìn)一步基于所述信號(hào)中頻率的總數(shù)。8.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述歸一化步驟包括計(jì)算變換的譜域中的所述輸入音頻信號(hào)的均方根。9.一種用于對(duì)電信系統(tǒng)中的音頻信號(hào)進(jìn)行感知變換編碼的設(shè)備，其特征在于變換確定裝置，用于確定表示時(shí)間分段的輸入音頻信號(hào)的時(shí)間到頻率的變換的變換系數(shù)；頻譜裝置，用于基于所述確定的變換系數(shù)來確定用于所述輸入音頻信號(hào)的感知子帶的頻譜；掩蔽裝置，用于基于所述確定的頻譜來確定每個(gè)所述子帶的掩蔽閾值；標(biāo)度因子裝置，用于基于所述確定的掩蔽閾值來計(jì)算每個(gè)所述子帶的標(biāo)度因子；適配裝置，用于適配每個(gè)所述子帶的所述計(jì)算的標(biāo)度因子以防止在感知上相關(guān)的子帶的能量損失。10.根據(jù)權(quán)利要求9所述的設(shè)備，其特征在于，所述適配裝置還包括用于執(zhí)行所述計(jì)算的標(biāo)度因子的自適應(yīng)的壓擴(kuò)、擴(kuò)展和平滑的裝置。11.根據(jù)權(quán)利要求9所述的設(shè)備，其特征在于用于歸一化所述確定的變換系數(shù)的另一裝置。12.—種包括根據(jù)權(quán)利要求9所述的設(shè)備的編碼器。全文摘要在對(duì)電信系統(tǒng)中的音頻信號(hào)進(jìn)行感知變換編碼的方法中，執(zhí)行以下步驟確定表示時(shí)間分段的輸入音頻信號(hào)的時(shí)間到頻率的變換的變換系數(shù)；基于所述確定的變換系數(shù)來確定所述輸入音頻信號(hào)的感知子帶的頻譜；基于所述確定的頻譜來確定每個(gè)所述子帶的掩蔽閾值；基于所述確定的掩蔽閾值來計(jì)算每個(gè)所述子帶的標(biāo)度因子；以及最后，適配每個(gè)所述子帶的所述計(jì)算的標(biāo)度因子以防止在感知上相關(guān)的子帶的能量損失。文檔編號(hào)H04B1/66GK101790757SQ200880104834公開日2010年7月28日申請(qǐng)日期2008年8月26日優(yōu)先權(quán)日2007年8月27日發(fā)明者A·塔萊布,M·布賴恩德申請(qǐng)人:愛立信電話股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｍ.布賴恩德;Ａ.塔萊布
技術(shù)所有人：愛立信電話股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音與音頻編碼相關(guān)技術(shù)

語音與音頻編碼論文相關(guān)技術(shù)

音頻信號(hào)傅里葉變換相關(guān)技術(shù)

談?wù)務(wù)Z音信號(hào)編碼相關(guān)技術(shù)

語音信號(hào)編碼的歷史相關(guān)技術(shù)

語音信號(hào)編碼相關(guān)技術(shù)

語音信號(hào)的編碼相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音與音頻信號(hào)的改進(jìn)的變換編碼的制作方法