使用mdct頻譜的組合編碼的可縮放的語音和音頻編碼的制作方法

文檔序號：2829081閱讀：346來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：使用mdct頻譜的組合編碼的可縮放的語音和音頻編碼的制作方法
技術(shù)領(lǐng)域：
以下描述大體上涉及編碼器和解碼器，且具體來說，涉及一種作為可縮放的語音和音頻編解碼器的一部分而對修正型離散余弦變換(MDCT)頻譜進行譯碼的有效方式。
背景技術(shù)：
音頻譯碼的一個目標(biāo)為將音頻信號壓縮成所要有限信息量，同時盡可能地保持原始聲音質(zhì)量。在編碼過程中，將時域中的音頻信號變換成頻域。知覺音頻譯碼技術(shù)(例如，MPEG層3 (MP3)、MPEG_2和MPEG-4)利用人耳的信號掩蔽特性，以便減少數(shù)據(jù)量。通過這樣，以使量化噪聲由占優(yōu)勢的總信號掩蔽(即，其保持為不可聞的)的方式而將量化噪聲分布到頻帶?？捎^的存儲尺寸的減少是可能的，伴隨著很少或無可察覺的音頻質(zhì)量的損失。知覺音頻譯碼技術(shù)通常為可縮放的且產(chǎn)生具有基本或核心層和至少一個增強層的分層位流。此允許位速率可縮放性，即，在解碼器側(cè)處以不同音頻質(zhì)量水平進行解碼或在網(wǎng)絡(luò)中通過業(yè)務(wù)成形或調(diào)節(jié)來減少位速率。碼激勵線性預(yù)測(CELP)為廣泛地用于語音譯碼的一類算法，包括代數(shù)CELP (ACELP)、松馳CELP (RCELP)、低延遲(LD-CELP)和向量和激勵線性預(yù)測(VSELP)。CELP所背后的一個原理被稱作合成式分析(Analysis-by-Synthesis, AbS)且指通過在閉合回路中靠知覺優(yōu)化經(jīng)解碼(合成)信號來執(zhí)行編碼(分析)。理論上，將通過嘗試所有可能位的組合且選擇產(chǎn)生最佳音效的經(jīng)解碼信號的位組合來產(chǎn)生最佳CELP流。此實際上出于以下兩個原因而為明顯不可能的非常難以實施，且“最佳音效”選擇準(zhǔn)則暗示著人類收聽者。為了使用有限計算資源來實現(xiàn)實時編碼，使用靠知覺加權(quán)的函數(shù)而將CELP搜索分解成較小的更易管理的順序搜索。通常，編碼包括(a)計算和/或量化(通常作為線頻譜對)輸入音頻信號的線性預(yù)測譯碼系數(shù)、(b)使用碼簿來搜索最佳匹配以產(chǎn)生經(jīng)譯碼的信號、(c)產(chǎn)生作為經(jīng)譯碼信號與真實輸入信號之間的差異的誤差信號，和(d)在一個或一個以上層中對此誤差信號進行進一步編碼(通常在MDCT頻譜中)以改進經(jīng)重建或經(jīng)合成信號的質(zhì)量。
許多不同技術(shù)可用于基于CELP算法來實施語音和音頻編解碼器。在這些技術(shù)中的一些中，產(chǎn)生誤差信號，誤差信號隨后經(jīng)變換(通常使用DCT、MDCT或類似變換)和經(jīng)編碼以進一步改進經(jīng)編碼信號的質(zhì)量。然而，歸因于許多移動裝置和網(wǎng)絡(luò)的處理和帶寬限制，需要此MDCT頻譜譯碼的有效實施，以減少經(jīng)存儲或發(fā)射的信息的大小。

發(fā)明內(nèi)容
下文呈現(xiàn)對一個或一個以上實施例的簡化概述，以便提供對一些實施例的基本理解。此概述不為對所有所涵蓋實施例的廣泛綜述，且既不希望識別所有實施例的重要或關(guān)鍵元素，也不希望描繪任何或所有實施例的范圍。其唯一目的是以簡化形式來呈現(xiàn)一個或一個以上實施例的一些概念以作為稍后呈現(xiàn)的更詳細描述的序言。提供一種用于以可縮放的語音和音頻壓縮算法對MDCT (或類似基于變換的)頻譜進行編碼/解碼的有效技術(shù)。此技術(shù)利用靠知覺量化的MDCT頻譜的稀疏特性來界定碼的結(jié)構(gòu)，其包括描述非零頻譜線在經(jīng)編碼頻帶中的位置的元素，且使用組合列舉技術(shù)來計算此元素。在一個實例中，提供一種用于在可縮放的語音和音頻編解碼器中對MDCT頻譜進行編碼的方法。對變換頻譜的此編碼可通過編碼器硬件、編碼軟件和/或兩者的組合來執(zhí)行，且可在處理器、處理電路和/或機器可讀媒體中實施。從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號，其中殘余信號為原始音頻信號與原始音頻信號的經(jīng)重建版本之間的差異?？赏ㄟ^以下操作來獲得原始音頻信號的經(jīng)重建版本(a)合成來自基于CELP的編碼層的原始音頻信號的經(jīng)編碼版本以獲得經(jīng)合成信號、(b)重新強調(diào)經(jīng)合成信號，和/或(c)對經(jīng)重新強調(diào)信號進行上取樣以獲得原始音頻信號的經(jīng)重建版本。在離散余弦變換(DCT)型變換層處變換殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜。DCT型變換層可為修正型離散余弦變換(MDCT)層，且變換頻譜為MDCT頻譜。使用組合位置譯碼技術(shù)對變換頻譜頻譜線進行編碼。對變換頻譜頻譜線的編碼可包括基于針對非零頻譜線位置使用組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集的位置進行編碼。在一些實施方案中，可在編碼之前丟棄頻譜線集合以減少頻譜線的數(shù)目。在另一實例中，組合位置譯碼技術(shù)可包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示選定的頻譜線子集的位置的可能二進制串中的一者。詞典式索引可以比二進制串的長度少的位的二進制串來表示頻譜線。在另一實例中，組合位置譯碼技術(shù)可包括產(chǎn)生表示頻譜線在二進制串內(nèi)的位置的索引，基于組合公式對頻譜線的位置進行編碼
權(quán)利要求
1.一種用于在可縮放的語音和音頻編解碼器中進行編碼的方法，其包含從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異；在離散余弦變換(DCT)型變換層處變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜；以及使用組合位置譯碼技術(shù)對所述變換頻譜頻譜線進行編碼，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者。
2.根據(jù)權(quán)利要求I所述的方法，其中所述DCT型變換層為修正型離散余弦變換(MDCT)層，且所述變換頻譜為MDCT頻譜。
3.根據(jù)權(quán)利要求I所述的方法，其中對所述變換頻譜頻譜線的編碼包括基于針對非零頻譜線位置使用所述組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集的位置進行編碼。
4.根據(jù)權(quán)利要求I所述的方法，其進一步包含將所述多個頻譜線分裂成多個子帶；以及將連續(xù)子帶分組為若干區(qū)域。
5.根據(jù)權(quán)利要求4所述的方法，其進一步包含對選自所述區(qū)域中的所述子帶中的每一者的多個頻譜線的主脈沖進行編碼。
6.根據(jù)權(quán)利要求4所述的方法，其進一步包含基于針對非零頻譜線位置使用所述組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集在一區(qū)域內(nèi)的位置進行編碼；其中對所述變換頻譜頻譜線的編碼包括基于所述選定的頻譜線子集的所述位置而產(chǎn)生等于所述區(qū)域中的所有位置的長度的所有可能二進制串的陣列。
7.根據(jù)權(quán)利要求4所述的方法，其中所述區(qū)域是重疊的且每一區(qū)域包括多個連續(xù)子帶。
8.根據(jù)權(quán)利要求4所述的方法，其中所述頻譜線子集包括第一頻譜線子集，其包括來自子帶群組中的每一子帶的振幅最大的頻譜線；以及第二附加頻譜線子集，其基于其振幅選自所述子帶群組。
9.根據(jù)權(quán)利要求I所述的方法，其中所述詞典式索引以比所述二進制串的長度少的位的二進制串來表示非零頻譜線。
10.根據(jù)權(quán)利要求I所述的方法，其中所述組合位置譯碼技術(shù)包括產(chǎn)生表示頻譜線在二進制串內(nèi)的位置的索引，基于組合公式對所述頻譜線的所述位置進行編碼
11.根據(jù)權(quán)利要求I所述的方法，其進一步包含在編碼之前丟棄一非零頻譜線集合以減少頻譜線的數(shù)目。
12.根據(jù)權(quán)利要求I所述的方法，其中通過以下操作獲得所述原始音頻信號的所述經(jīng)重建版本合成來自所述基于CELP的編碼層的所述原始音頻信號的經(jīng)編碼版本以獲得經(jīng)合成信號; 重新強調(diào)所述經(jīng)合成信號；以及對所述經(jīng)重新強調(diào)信號進行上取樣以獲得所述原始音頻信號的所述經(jīng)重建版本。
13.一種可縮放的語音和音頻編碼器裝置，其包含實現(xiàn)離散余弦變換(DCT)型變換層模塊的第一電路，其適于從基于碼激勵線性預(yù)測(CELP)的編碼層模塊獲得殘余信號，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異；以及變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜；以及實現(xiàn)組合頻譜編碼器的第二電路，其適于使用組合位置譯碼技術(shù)對所述變換頻譜頻譜線進行編碼，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者。
14.根據(jù)權(quán)利要求13所述的裝置，其中所述DCT型變換層模塊為修正型離散余弦變換(MDCT)層模塊，且所述變換頻譜為MDCT頻譜。
15.根據(jù)權(quán)利要求13所述的裝置，其中對所述變換頻譜頻譜線的編碼包括基于針對非零頻譜線位置使用所述組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集的位置進行編碼。
16.根據(jù)權(quán)利要求13所述的裝置，其進一步包含實現(xiàn)子帶產(chǎn)生器的第三電路，其適于將所述多個頻譜線分裂成多個子帶；以及實現(xiàn)區(qū)域產(chǎn)生器的第四電路，其適于將連續(xù)子帶分組為若干區(qū)域。
17.根據(jù)權(quán)利要求16所述的裝置，其進一步包含實現(xiàn)主脈沖編碼器的第五電路，其適于對選自所述區(qū)域中的所述子帶中的每一者的多個頻譜線的主脈沖進行編碼。
18.根據(jù)權(quán)利要求16所述的裝置，其進一步包含實現(xiàn)子脈沖編碼器的第五電路，其適于基于針對非零頻譜線位置使用所述組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集在一區(qū)域內(nèi)的位置進行編碼；其中對所述變換頻譜頻譜線的編碼包括基于所述選定的頻譜線子集的所述位置而產(chǎn)生等于所述區(qū)域中的所有位置的長度的所有可能二進制串的陣列。
19.根據(jù)權(quán)利要求16所述的裝置，其中所述區(qū)域是重疊的且每一區(qū)域包括多個連續(xù)子帶。
20.根據(jù)權(quán)利要求13所述的裝置，其中所述詞典式索引以比所述二進制串的長度少的位的二進制串來表示非零頻譜線。
21.根據(jù)權(quán)利要求13所述的裝置，其中所述組合頻譜編碼器適于產(chǎn)生表示頻譜線在二進制串內(nèi)的位置的索引，所述頻譜線的所述位置基于組合公式而被編碼
22.根據(jù)權(quán)利要求13所述的裝置，其中所述原始音頻信號的所述經(jīng)重建版本是通過以下操作而獲得合成來自所述基于CELP的編碼層的所述原始音頻信號的經(jīng)編碼版本以獲得經(jīng)合成信號; 重新強調(diào)所述經(jīng)合成信號；以及對所述經(jīng)重新強調(diào)信號進行上取樣以獲得所述原始音頻信號的所述經(jīng)重建版本。
23.一種可縮放的語音和音頻編碼器裝置，其包含用于從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號的裝置，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異；用于在離散余弦變換(DCT)型變換層處變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜的裝置；以及用于使用組合位置譯碼技術(shù)對所述變換頻譜頻譜線進行編碼的裝置，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者。
24.一種包括可縮放的語音和音頻編碼電路的處理器，其適于從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異；在離散余弦變換(DCT)型變換層處變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜；以及使用組合位置譯碼技術(shù)對所述變換頻譜頻譜線進行編碼，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者。
25.一種包含針對可縮放的語音和音頻編碼而操作的指令的非易失性機器可讀媒體，所述指令在由一個或一個以上處理器執(zhí)行時致使所述處理器從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異；在離散余弦變換(DCT)型變換層處變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜；以及使用組合位置譯碼技術(shù)對所述變換頻譜頻譜線進行編碼，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者。
26.一種用于可縮放的語音和音頻解碼的方法，其包含獲得表示殘余信號的多個變換頻譜頻譜線的索引，其中所述殘余信號為原始音頻信號與來自基于碼激勵線性預(yù)測(CELP)的編碼層的所述原始音頻信號的經(jīng)重建版本之間的差巳升; 通過將用以對所述多個變換頻譜頻譜線進行編碼的組合位置譯碼技術(shù)反向而對所述索引進行解碼，其中所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索弓丨，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者；以及在反離散余弦變換(IDCT)型反變換層處使用所述經(jīng)解碼的多個變換頻譜頻譜線來合成所述殘余信號的版本。
27.根據(jù)權(quán)利要求26所述的方法，其進一步包含接收對所述原始音頻信號進行編碼的經(jīng)CELP編碼信號；對經(jīng)CELP編碼信號進行解碼以產(chǎn)生經(jīng)解碼信號；以及將所述經(jīng)解碼信號與所述殘余信號的所述經(jīng)合成版本組合以獲得所述原始音頻信號的經(jīng)重建版本。
28.根據(jù)權(quán)利要求26所述的方法，其中合成所述殘余信號的版本包括將反DCT型變換應(yīng)用于所述變換頻譜頻譜線以產(chǎn)生所述殘余信號的時域版本。
29.根據(jù)權(quán)利要求26所述的方法，其中對所述變換頻譜頻譜線的解碼包括基于針對非零頻譜線位置使用所述組合位置譯碼技術(shù)來表示頻譜線位置而對選定的頻譜線子集的位置進行解碼。
30.根據(jù)權(quán)利要求26所述的方法，其中所述索引以比所述二進制串的長度少的位的二進制串來表示非零頻譜線。
31.根據(jù)權(quán)利要求26所述的方法，其中所述DCT型反變換層為反修正型離散余弦變換(IMDCT)層，且所述變換頻譜為MDCT頻譜。
32.根據(jù)權(quán)利要求26所述的方法，其中所述所獲得的索引表示頻譜線在二進制串內(nèi)的位置，基于組合公式對所述頻譜線的所述位置進行編碼
33.根據(jù)權(quán)利要求26所述的方法，其中所述頻譜線子集包括第一頻譜線子集，其包括來自子帶群組中的每一子帶的振幅最大的頻譜線；以及第二附加頻譜線子集，其基于其振幅選自所述子帶群組。
34.一種可縮放的語音和音頻解碼器裝置，其包含實現(xiàn)組合頻譜解碼器的第一電路，其適于獲得表示殘余信號的多個變換頻譜頻譜線的索引，其中所述殘余信號為原始音頻信號與來自基于碼激勵線性預(yù)測(CELP)的編碼層的所述原始音頻信號的經(jīng)重建版本之間的差巳升；通過將用以對所述多個變換頻譜頻譜線進行編碼的組合位置譯碼技術(shù)反向而對所述索引進行解碼，其中所述索引為針對選定的頻譜線子集的詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者；以及實現(xiàn)反離散余弦變換(IDCT)型反變換層模塊的第二電路，其適于使用所述經(jīng)解碼的多個變換頻譜頻譜線來合成所述殘余信號的版本。
35.根據(jù)權(quán)利要求34所述的裝置，其進一步包含實現(xiàn)CELP解碼器的第三電路，其適于接收對所述原始音頻信號進行編碼的經(jīng)CELP編碼信號；對經(jīng)CELP編碼信號進行解碼以產(chǎn)生經(jīng)解碼信號；以及將所述經(jīng)解碼信號與所述殘余信號的所述經(jīng)合成版本組合以獲得所述原始音頻信號的經(jīng)重建版本。
36.根據(jù)權(quán)利要求34所述的裝置，其中在合成所述殘余信號的版本時，所述(IDCT)型反變換層模塊適于將反DCT型變換應(yīng)用于所述變換頻譜頻譜線以產(chǎn)生所述殘余信號的時域版本。
37.根據(jù)權(quán)利要求34所述的裝置，其中所述索引以比所述二進制串的長度少的位的二進制串來表示非零頻譜線。
38.一種可縮放的語音和音頻解碼器裝置，其包含用于獲得表示殘余信號的多個變換頻譜頻譜線的索引的裝置，其中所述殘余信號為原始音頻信號與來自基于碼激勵線性預(yù)測(CELP)的編碼層的所述原始音頻信號的經(jīng)重建版本之間的差異；用于通過將用以對所述多個變換頻譜頻譜線進行編碼的組合位置譯碼技術(shù)反向而對所述索引進行解碼的裝置，其中所述索引為針對選定的頻譜線子集的詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者；以及用于在反離散余弦變換(IDCT)型反變換層處使用所述經(jīng)解碼的多個變換頻譜頻譜線來合成所述殘余信號的版本的裝置。
39.一種包括可縮放的語音和音頻解碼電路的處理器，其適于獲得表示殘余信號的多個變換頻譜頻譜線的索引，其中所述殘余信號為原始音頻信號與來自基于碼激勵線性預(yù)測(CELP)的編碼層的所述原始音頻信號的經(jīng)重建版本之間的差巳升；通過將用以對所述多個變換頻譜頻譜線進行編碼的組合位置譯碼技術(shù)反向而對所述索引進行解碼，其中所述索引為針對選定的頻譜線子集的詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者；以及在反離散余弦變換(IDCT)型反變換層處使用所述經(jīng)解碼的多個變換頻譜頻譜線來合成所述殘余信號的版本。
40.一種包含針對可縮放的語音和音頻解碼而操作的指令的非易失性機器可讀媒體，所述指令在由一個或一個以上處理器執(zhí)行時致使所述處理器獲得表示殘余信號的多個變換頻譜頻譜線的索引，其中所述殘余信號為原始音頻信號與來自基于碼激勵線性預(yù)測(CELP)的編碼層的所述原始音頻信號的經(jīng)重建版本之間的差巳升；通過將用以對所述多個變換頻譜頻譜線進行編碼的組合位置譯碼技術(shù)反向而對所述索引進行解碼，其中所述索引為針對選定的頻譜線子集的詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的所述位置的可能二進制串中的一者；以及在反離散余弦變換(IDCT)型反變換層處使用所述經(jīng)解碼的多個變換頻譜頻譜線來合成所述殘余信號的版本。
全文摘要
本發(fā)明提供一種實施組合頻譜編碼的可縮放的語音和音頻編解碼器。從基于碼激勵線性預(yù)測(CELP)的編碼層獲得殘余信號，其中所述殘余信號為原始音頻信號與所述原始音頻信號的經(jīng)重建版本之間的差異。在離散余弦變換(DCT)型變換層處變換所述殘余信號以獲得具有多個頻譜線的對應(yīng)變換頻譜。使用組合位置譯碼技術(shù)來變換所述變換頻譜頻譜線。所述組合位置譯碼技術(shù)包括針對選定的頻譜線子集而產(chǎn)生詞典式索引，其中每一詞典式索引表示多個表示所述選定的頻譜線子集的位置的可能二進制串中的一者。所述詞典式索引以比所述二進制串的長度少的位的二進制串來表示非零頻譜線。
文檔編號G10L19/24GK102968998SQ20121040343
公開日2013年3月13日申請日期2008年10月22日優(yōu)先權(quán)日2007年10月22日
發(fā)明者尤里·列茲尼克, 黃鵬軍申請人:高通股份有限公司

完整全部詳細技術(shù)資料下載