雙聲道音頻信號的解碼的制作方法

文檔序號：2830406閱讀：544來源：國知局

專利名稱：：雙聲道音頻信號的解碼的制作方法
技術領域：
：本發(fā)明涉及空間音頻編碼，并且更具體地涉及對雙聲道音頻信號的解碼。
背景技術：
：在空間音頻編碼中，對雙信道/多信道音頻信號進行處理，以使得在互不相同的不同音頻信道上重現(xiàn)音頻信號，從而為收聽者提供圍繞音頻源的空間效果的印象。該空間效果可以通過將音頻直接記錄成用于多信道或者雙聲道重現(xiàn)的適當格式來生成，或者可以以任意雙信道/多信道音頻信號來模擬產(chǎn)生，其稱為空間化。通常已知的是，對于頭戴受話器，重現(xiàn)模擬空間化可以通過HRTF(頭部相關傳輸函數(shù))濾波來執(zhí)行，該HRTF濾波產(chǎn)生用于收聽者左耳和右耳的雙聲道信號。利用根據(jù)對應于聲源信號的來源方向的HRTF導出的濾波器對這些聲源信號進行濾波。HRTF是從自由場中的聲源至人耳或者模擬頭部測量的傳輸函數(shù)除以從聲源至放置在頭中部用于代替頭部的麥克風的傳輸函數(shù)?？梢詫⒛M的房間效果(例如早期反射和/或晚期混響)添加到空間化的信號中，以改善聲源的形象化和自然性。隨著音頻收聽和交互設備多樣性的增加，兼容性變得更加重要。在空間音頻格式中，通過上升混合和下降混合技術來力求兼容性。通常已知的是，存在將多信道音頻信號轉換成立體聲格式(例如，杜比數(shù)碼DolbyDighta^和杜比環(huán)繞DolbySurround)以及進一步將立體聲格式轉換成雙聲道信號的算法。然而，在這種處理中，不能完全重現(xiàn)原始多信道音頻信號的空間圖像。對于頭戴收聽而言用于轉換多信道音頻信號的更好的方式是通過利用HRTF濾波使用虛擬揚聲器來替換原始揚聲器以及通過那些虛擬揚聲器(例如，杜比頭戴受話器Dolbyheadphone)來播放該揚聲器信道信號。然而，該處理的缺點在于，為了產(chǎn)生雙聲道信號，首先總是需要多信道混合。即，首先對多信道(例如5+1個信道)信號進行解碼以及合成，然后將HRTF應用于每個信號，用來形成雙聲道信號。與直接從壓縮的多信道格式解碼成雙聲道格式相比，這是一種計算繁重的方法。雙耳線索編碼(BCC)是高度發(fā)展的參數(shù)化空間音頻編碼方法。BCC將空間多信道信號表示為單個(或若干)下降混合的音頻信道以及根據(jù)頻率和時間由原信號估計的一組感性相關信道間差值。該方法允許將針對任意揚聲器布局混合的空間音頻信號轉換為用于任意其他揚聲器布局，包括相同或者不同數(shù)量的揚聲器。因此，BCC是針對多信道揚聲器系統(tǒng)而設計的。然而，由BCC處理的單聲道信號及其邊信息生成雙聲道信號要求首先基于單聲道信號及其邊信息對多信道表示進行合成，且僅在那時才有可能由多信道表示生成用于空間頭戴受話器播放的雙聲道信號。很明顯，該方法在生成雙聲道信號方面也未優(yōu)化。
發(fā)明內(nèi)容現(xiàn)在，此處發(fā)明了一種改進的方法以及實現(xiàn)該方法的技術設備，其支持直接從參數(shù)化編碼的音頻信號生成雙聲道信號。本發(fā)明的各個方面包括解碼方法、解碼器、裝置以及計算機程序，它們的特征在于下面詳細地一般性公開的內(nèi)容。也公開了本發(fā)明的各種實施方式。根據(jù)本發(fā)明的第一方面，根據(jù)本發(fā)明的方法基于這樣的想法，即合成雙聲道音頻信號，以使得首先輸入?yún)?shù)化編碼的音頻信號，該音頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合。將該至少一個組合信號劃分到多個子帶，根據(jù)邊信息的所述集合來確定子帶的參數(shù)值。然后，以所述參數(shù)值確定的比例，將頭部相關傳輸函數(shù)濾波器的預定集合應用于至少一個組合信號，以便合成雙聲道音頻信號。根據(jù)實施方式，所述參數(shù)值通過根據(jù)由所述邊信息的集合所提供的下一個和前一個參數(shù)值對與特定子帶對應的參數(shù)值進行插值來確定。根據(jù)實施方式，可以根據(jù)頭部相關傳輸函數(shù)濾波器的預定集合，選擇將要應用的與原多信道揚聲器布局的每個揚聲器方向相對應的一對左右頭部相關傳輸函數(shù)濾波器。根據(jù)實施方式，邊信息的所述集合包括用于描述原聲音圖像的多信道音頻的信道信號的增益估計的集合。根據(jù)實施方式，原多信道音頻的增益估計根據(jù)時間和頻率來確定；以及對每個揚聲器信道的增益進行調(diào)整以使得每個增益值平方之和等于1。根據(jù)實施方式，至少一個組合信號被劃分到下列子帶類型之一多個QMF子帶；多個等效矩形帶寬(ERB)子帶；或者多個心理聲學激發(fā)的頻帶。根據(jù)實施方式，所述參數(shù)值是至少一個子帶的增益值。根據(jù)實施方式，確定子帶的增益值的步驟進一步包括確定描述原聲音圖像的多信道音頻的每個信道信號的增益值；以及根據(jù)每個信道信號的所述增益值對子帶的單個增益值進行插值。根據(jù)實施方式，通過將所述至少一個組合信號與至少一個增益值和預定頭部相關傳輸函數(shù)濾波器相乘來確定子帶的雙聲道信號的頻域表示。根據(jù)本發(fā)明的裝置提供了顯著的優(yōu)勢。主要優(yōu)勢是解碼過程的簡單化和低計算復雜度。從解碼器完全基于由編碼器給定的空間和編碼參數(shù)來執(zhí)行雙聲道合成的意義上講，該解碼器也是靈活的。另外，在轉換中，維持了與原信號的相等空間性。對于邊信息，原混合的增益估計的集合就足以了。最重要的是，本發(fā)明支持對參數(shù)化音頻編碼中提供的壓縮中間狀態(tài)的增強利用，從而提高了傳輸以及存儲音頻時的效率。如果根據(jù)邊信息來確定用于子帶的增益值，則雙聲道輸出信號的質量可以通過引入更加平滑的頻帶間增益值變化而得以改進。濾波也可以得到顯著簡化。本發(fā)明的其他方面包括各種裝置，其布置用于實現(xiàn)上述方法的本發(fā)明步驟。在下文中，將參考附圖對本發(fā)明的各種實施方式進行更加詳細的描述。圖1示出了根據(jù)現(xiàn)有技術的一般雙耳線索編碼(BCC)方案；圖2示出了根據(jù)現(xiàn)有技術的BCC合成方案的一般結構；圖3示出了根據(jù)本發(fā)明的實施方式的雙聲道解碼器的方框圖；圖4以簡化圖示出了根據(jù)本發(fā)明的實施方式的電子設備。具體實施例方式在下文中，將通過參考雙耳線索編碼(BCC)作為用于實現(xiàn)根據(jù)實施方式的解碼方法的示例性平臺來說明本發(fā)明。然而，應當注意的是，本發(fā)明并非僅局限于BCC型空間音頻編碼方法，而是還可以利用提供由一個或多個音頻信道的原集合組合的至少一個音頻信號以及適當空間邊信息的任意音頻編碼方案來實現(xiàn)。雙耳線索編碼(BCC)是空間音頻的參數(shù)化表示的一般原理，用于根據(jù)單個音頻信道加上一些邊信息來遞送具有任意數(shù)量信道的多信道輸出。圖1示出了該原理。通過下降混合過程將若干(M)輸入音頻信道組合成單個輸出(S:"求和")信號。并行地，從輸入信道提取描述該多信道聲音圖像的最突出的信道間線索，并將其密實地編碼為BCC邊信息。然后將求和信號和邊信息都傳送到接收方，可以使用適當?shù)牡捅忍芈室纛l編碼方案來編碼該求和信號。最后，BCC解碼器通過重新合成攜帶了相關信道間線索(諸如信道間時間差ICTD,信道間聲級差ICLD，以及信道間相干性ICC)的信道輸出信號，根據(jù)傳送的求和信號和空間線索信息生成用于揚聲器的多信道(N)輸出信號。因此依據(jù)對于特別用于揚聲器播放的多信道音頻信號的重建的優(yōu)化來選擇BCC邊信息，即信道間線索。有兩種BCC方案，即用于靈活呈現(xiàn)的BCC(類型IBCC)以及用于自然呈現(xiàn)的BCC(類型IIBCC),靈活呈現(xiàn)的BCC意在為了在接收方一側呈現(xiàn)而進行的大量獨立的源信號的傳送，自然呈現(xiàn)的BCC意在立體聲或者環(huán)繞信號的大量音頻信道的傳輸。靈活呈現(xiàn)的BCC采用獨立的音頻源信號(例如，語音信號，獨立記錄的儀器，多音軌記錄)作為輸入。而自然呈現(xiàn)的BCC采用"最終混合"立體聲或者多信道信號作為輸入(例如，CD音頻，或者DVD環(huán)繞)。如果通過傳統(tǒng)的編碼技術來執(zhí)行這些過程，則比特率與音頻信道的數(shù)量成比例或者至少接近比例的縮放，例如傳送5.1多信道系統(tǒng)的六個音頻信道需要接近一個音頻信道的6倍的比特率。然而，由于BCC邊信息僅需要非常低的比特率(例如2kb/s),所以兩種BCC方案都產(chǎn)生了比傳輸一個音頻信道所需的比特率略微高點的比特率。圖2示出了BCC合成方案的一般結構。首先在時域中對所傳送的單聲道信號("求和")加窗到幀中，然后通過FFT過程(快速傅立葉變換)和濾波器組FB將其映射到適當子帶的頻譜表示上。在播放信道的一般情況中，在信道對之間的每個子帶中，即對于相對于參考信道的每個信道，考慮ICLD和ICTD。選擇該子帶以使得實現(xiàn)足夠高的頻率分辨率，例如子帶帶寬等于ERB等級(等效矩形帶寬)的二倍通常被認為是適當?shù)?。針對將要產(chǎn)生的每個輸出信道，將單獨的時間延遲ICTD和聲級差ICLD強加在頻譜系數(shù)上，其后是相干性合成過程，其重新引入了合成音頻信道之間的相干性和/或相關(ICC)的最有關的方面。最后通過IFFT過程(逆FFT)將所有合成的輸出信道轉換回時域表示，結果得到多信道輸出。要獲得BCC方法的更力o詳細的描述，請參考F.Baumgarte和C.Faller的"BinauralCueCoding-PartI:PsychoacousticFundamentalsandDesignPrinciples",IEEETransactionsonSpeechandAudioProcessing,Vol.11,No.6,2003年11月，以及請參考C.Faller和F.Baumgarte的"BinauralCueCoding-PartII:SchemesandApplications",IEEETransactionsonSpeechandAudioProcessing,Vol.11,No.6,2003年11月。BCC是提供執(zhí)行根據(jù)實施方式的解碼方案的適當平臺的編碼方案的一個實例。根據(jù)一種實施方式的雙聲道解碼器接收單聲道信號和邊信息作為輸入。該想法是要利用與收聽位置相關的揚聲器的方向相對應的HRTF對替換在原混合中的每個揚聲器。按照由增益值的集合指示的比例將單聲道信號的每個頻率信道饋送到實現(xiàn)HRTF的每對濾波器，其中該增益值可以根據(jù)邊信息計算。因此，該處理可被認為是在雙聲道音頻場合下，實現(xiàn)與原揚聲器對應的一組虛擬揚聲器。相應地，通過除了慮及用于各種揚聲器布局的多信道音頻信號以外還慮及雙聲道音頻信號直接由參數(shù)化編碼空間音頻信號導出而無需任何中間BCC合成過程，本發(fā)明將值添加到BCC。在下面參考圖3示出了本發(fā)明的一些實施方式，該圖3示出了根據(jù)本發(fā)明的一個方面的雙聲道解碼器的方框圖。解碼器300包括用于單聲道信號的第一輸入302和用于邊信息的第二輸入304。出于對本發(fā)明進行說明的目的，將輸入302和304示出為不同的輸入，但是本領域技術人員將會理解，在實際實現(xiàn)中，可以經(jīng)由同一輸入來提供單聲道信號和邊信息。根據(jù)一種實施方式，該邊信息并不必包括如BCC方案中的信道間線索(即信道間時間差(ICTD),信道間聲級差(ICLD),以及信道間相干性(ICC)),而是僅僅包括用于在每個頻帶定義原混合信道間的聲壓分布的增益估計集合就足夠了。除了增益估計之外，邊信息優(yōu)選地包括原混合中與收聽位置相關的揚聲器的數(shù)量和位置，以及所利用的幀長度。根據(jù)一種實施方式，不是將增益估計作為來自編碼器的邊信息的一部分發(fā)送，而是在解碼器中根據(jù)BCC方案的信道間線索，例如ICLD,來計算增益估計。解碼器300進一步包括加窗單元306，其中首先將單聲道化的信號劃分到所使用幀長度的時間幀，然后對幀適當?shù)丶哟?，例如加正弦窗。應當調(diào)整合適的幀長度，以使得幀足夠長以用于離散傅立葉變換(DFT),同時又足夠短以管理信號中的快速變化。試驗已經(jīng)表明，適當?shù)膸L度大約是50ms。因此，如果使用了44.1KHz的采樣頻率(通常在各種音頻編碼方案中使用)，則幀可以包括例如2048個采樣，其產(chǎn)生了46.4ms的幀長度。優(yōu)選地執(zhí)行該加窗以使得相鄰窗口重疊50%,以便平滑因頻i普修改(等級和延遲)而導致的轉變。此后，在FFT單元308中將經(jīng)過加窗的單聲道信號轉換到頻域。在頻域中以效率計算為目標來執(zhí)行該處理，本領域技術人員應當理解，前面的信號處理步驟可以在實際的解碼器300之外執(zhí)行，即加窗單元306和FFT單元308可以實現(xiàn)在其中包括有解碼器的裝置中，當把將要處理的單聲道信號提供至解碼器時，該將要處理的單聲道信號已經(jīng)加窗且已經(jīng)轉換到頻域。出于高效計算頻域信號的目的，將信號饋送到濾波器組310,該濾波器組將信號劃分到心理聲學激發(fā)的頻帶上。根據(jù)一種實施方式，對濾波器組310進行設計，把該濾波器組布置為將信號劃分到遵照公認的等效矩形帶寬(ERB)等級(scale)的32個頻帶中，結果產(chǎn)生了所述32個頻帶上的信號分量X。，…，X31。解碼器300包括一組HRTF312、314作為預存儲的信息，根據(jù)該預存信息來選擇對應于每個揚聲器方向的左右對HRTF。出于說明的目的，在圖3中示出了兩組HRTF312、314,—組用于左側信號，一組用于右側信號。但是顯而易見的是，在實際實現(xiàn)中，一組HRTF就足夠了。為了調(diào)節(jié)所選擇的左右對HRTF以對應于每個揚聲器信道聲音等級，優(yōu)選地估計增益值G。正如前面提及的那樣，增益估計可以包括在從編碼器接收的邊信息內(nèi)，或者可以在解碼器中基于BCC邊信息來計算增益估計。因此，針對每個揚聲器信道，根據(jù)時間和頻率來估計增益，并且為了保持原混合的增益等級，優(yōu)選地調(diào)節(jié)每個揚聲器信道的增益，使得每個增益值平方之和等于1。這提供了如下優(yōu)勢如果N是實際將產(chǎn)生的信道的數(shù)量，則僅需要從編碼器傳送N-l個增益估計，并且可以基于該N-l個增益值來計算缺少的增益值。然而，本領域技術人員應當理解，本發(fā)明的操作并非必須將每個增益值平方之和調(diào)節(jié)為等于1,而是該解碼器可以縮放該增益值的平方，以使得其和等于l。然后按照增益G的集合所指示的比例對每對左右對HRTF濾波器312、314進行調(diào)節(jié)，結果得到經(jīng)過調(diào)節(jié)的HRTF濾波器312，、314，。再次需要說明的是，在實踐中，原HRTF濾波器幅值312、314僅僅根據(jù)增益值進行縮放，但是出于對實施方式進行說明的目的，在圖3中示出了HRTF312，、314，的"附加"集合。對于每個頻帶，將單聲道信號分量Xo，...，Xn饋送到經(jīng)過調(diào)節(jié)的HRTF濾波器312，、314，的每對左右對。然后在求和單元316、318中，針對兩個雙聲道信道，對用于左側信號和用于右側信號的濾波器輸出進行求和。再次對該求和的雙聲道信號加正弦窗，并通過在IFFT單元320、332中執(zhí)行的逆FFT處理將其變換回時域。在分析濾波器并未求和到1或者分析濾波器的相位響應為非線性的情況下，則優(yōu)選地使用適當?shù)暮铣蔀V波器組，以避免在最終雙聲道信號Br和B^上的失真。根據(jù)一實施方式，為了提高雙聲道信號的形象化，即頭部外定位，可以將適中的房間響應添加到雙聲道信號。出于該目的，解碼器可以包括混響單元，優(yōu)選地位于求和單元316、318和IFFT單元320、322之間。所添加的房間響應指示了在揚聲器收聽情形中的房間效果。然而，要求混響時間足夠短以使得沒有顯著增加計算復雜度。圖3中示出的雙聲道解碼器300還支持立體聲下降混合解碼的特定情況，其中使空間圖像變窄。對解碼器300的操作進行修改，以使得以預定增益來替代每個可調(diào)HRTF濾波器312、314,而在前面的實施方式中每個可調(diào)HRTF濾波器312、314只是根據(jù)增益值進行縮放。因此，通過恒定HRTF濾波器對單聲道信號進行處理，該HRTF濾波器由乘以基于邊信息而計算的增益值集合的單個增益構成。結果，將空間音頻下降混合成立體聲信號。該特定的情況提供如下優(yōu)勢，即可以使用空間邊信息根據(jù)組合信號來生成立體聲信號，而無需解碼該空間音頻，藉此立體聲解碼的過程與傳統(tǒng)BCC合成中的過程相比更為簡單。雙聲道解碼器300的結構在其他方面與圖3相同，僅僅可調(diào)HRTF濾波器312、314被具有用于立體聲下降混合的預定增益的下降混合濾波器所代替。如果雙聲道解碼器包括HRTF濾波器，例如，對于5.1環(huán)繞音頻配置，那么對于立體聲下降混合解碼的特定情況，HRTF濾波器的恒定增益例如可以如下表1所定義。<table>tableseeoriginaldocumentpage16</column></row><table>表l用于立體聲下降混合的HRTF濾波器根據(jù)本發(fā)明的布置提供了顯著的優(yōu)勢。主要優(yōu)勢是解碼過程的簡單化和低計算復雜度。從解碼器完全基于由編碼器給定的空間和編碼參數(shù)來執(zhí)行雙聲道上升混合的意義上講，該解碼器也是靈活的。另外，在轉換中，維持了與原信號的相等空間性。對于邊信息，原混合的增益估計的集合就足以了。從傳輸和存儲音頻的角度來講，當利用在參數(shù)化音頻編碼中提供的壓縮中間狀態(tài)時，通過提高的效率獲得了最顯著的優(yōu)勢。本領域技術人員應當理解，由于HRTF高度獨立且進行平均是不可能的，所以理想的再空間化僅可以通過測量收聽者自己唯一的HRTF集合來實現(xiàn)。因此，HRTF的使用必然使信號變?yōu)椴噬?，使得?jīng)過處理的音頻的質量與原始音頻不相等。然而，由于測量每個收聽者的HRTF是一種不現(xiàn)實的選擇，因此當使用仿制的集合或者從具有平均尺寸和顯著對稱性的頭部的人或頭部模型測量的集合時，可以得到最佳的可能結果。如前所述，根據(jù)一種實施方式，增益估計可以包括在從編碼器接收的邊信息中。因此，本發(fā)明的一方面涉及一種用于多信道空間音頻信號的編碼器，其用于根據(jù)頻率和時間來估計每個揚聲器信道的增益，并且將該增益估計包括在將沿著一個(或多個)組合信道傳輸?shù)倪呅畔⒅?。該編碼器例如可以是公知的BCC編碼器，該編碼器進一步被布置成附加在或代替計算描述多信道聲音圖像的信道間線索ICTD、ICLD和ICC來計算增益估計。然后，將至少包括增益估計的邊信息和求和信號都傳送到接收方一側，優(yōu)選地使用適當?shù)偷谋忍芈室纛l編碼方案來對求和信號進行編碼。根據(jù)一種實施方式，如果在編碼器中計算增益估計，則通過將每個單獨信道的增益等級與組合信道的累積增益等級相比較來執(zhí)行該計算。即，如果我們以X來指示增益等級，原揚聲器布局的各個信道以"m"來表示，采樣以"k"來表示，則對于每個信道，將增益估計計算為IXm(k)|/|XSUM(k)|。因此，增益估計確定了每個單獨信道與所有信道的總增益幅值相比較的比例增益幅值。根據(jù)一種實施方式，如果基于BCC邊信息在解碼器中計算增益估計，則該計算可以例如基于信道間聲級差ICLD的值來執(zhí)行。因此，如果N是將實際生成的"揚聲器"的數(shù)量，則首先基于ICLD值來組成包括N-1個未知變量的N-l個方程。然后將每個揚聲器方程平方之和設置為等于l，藉此，可以求解出一個單獨信道的增益估計，并且基于該求解出的增益估計，可以從N-1個方程求解出余下的增益估計。例如，如果實際將要生成的信道數(shù)量是5(N=5)，則N-l個方程可以如下形成L2=U+ICLD1,L3=L1+ICLD2，L4=L1+ICLD3，L5=U+ICLD4。則其平方之和被設置為等于1:Ll2+(L1+ICLD1)2+(L1+ICLD2)2+(L1+ICLD3)2+(L1+ICLD4)2=1。然后可以求解L1的值，并且基于L1的值，可以求解出余下的增益等級值L2-L5。根據(jù)另一實施方式，本發(fā)明的基本想法(即，直接從參數(shù)化編碼的音頻信號中生成雙聲道信號而無需首先將其解碼成多信道格式)可以以這樣的方式來實現(xiàn)，即，不是使用增益估計集合并將其應用至每個頻率子帶，而是僅僅將邊信息比特流中的信道等級信息(ICLD)部分與求和信號一起使用來構造雙聲道信號。因此，不是在解碼器中定義增益估計集合或在編碼器處將增益估計包括在BCC邊信息中，而是在解碼器中根據(jù)時間和頻率對每個原信道的傳統(tǒng)BCC邊信息的信道等級信息(ICLD)部分進行適當?shù)靥幚?。將原始求和信號劃分到適當?shù)念l率塊(frequencybin)，以及根據(jù)信道等級信息導出頻率塊的增益。該處理支持通過引入更加平滑的頻帶間增益值變化而進一步改善雙聲道輸出信號的質量。在此實施方式中，處理的預備步驟類似于前面描述的步驟將求和信號(單聲道或者立體聲)以及邊信息輸入到解碼器中，將求和信號劃分到所使用幀長度的時間幀，然后對其進行適當?shù)丶哟?，例如加正弦窗。另外，在分析中使?0%重疊的正弦窗，并使用FFT將時域信號有效地變換到頻域?，F(xiàn)在，如果分析窗的長度是N個采樣且該窗口是50%重疊，則在頻域中具有N/2個頻率塊。在該實施方式中，不是將信號劃分到心理聲學激發(fā)的頻帶，諸如根據(jù)ERB等級的子帶，而是將該處理應用于這些頻率塊。如上所述，BCC編碼器的邊信息提供了關于應該如何對求和信號進行縮放以得到每個單獨信道的信息。增益信息一般僅僅提供用于受限制的時間和頻率位置。在時間方向中，例如在具有2048個采樣的一幀中給予一次增益值。對于本實施方式的實現(xiàn)，需要在每個正弦窗口中間的以及用于每個頻率塊的增益值(即，位于每個正弦窗中間的N/2個增益值)。這可以利用插值來有效地實現(xiàn)。可替代地，可以在邊信息中所確定的時刻中提供該增益信息，并且也可以在邊信息中提供一幀內(nèi)時刻的數(shù)量。在此可替代的實現(xiàn)中，當更新增益值時，基于時刻和時刻的數(shù)量的知識對增益值進行插值。假設BCC多信道編碼器在時刻tm(m=0,1,2，...)提供Ng增益值。相對于當前時刻tw(當前正弦窗的中心)，搜索由BCC多信道編碼器所提供的下一個和前一個增益值集合，并以tpw和tnext來表示下一個和前一個增益值集合。使用例如線性插值，將Ng增益值插值到時刻tw,以使得在插值中使用從W到tpre和tnext的距離作為縮放因子。根據(jù)另一實施方式，簡單地選擇與時刻W更接近的增益值(Ve或t皿t)，其提供了用以確定最近似增益值的較為直接的方案。在已經(jīng)確定了當前時刻的Ng增益值的集合后，需要在頻率方向上對其進行插值，以獲得每N/2個頻率塊的單個增益值?？梢允褂煤唵蔚木€性插值來完成該任務，然而也可以4吏用例如sine插值。通常在低頻率處給予Ng增益值較高的分辨率(該分辨率可以遵照例如ERB等級)，這在插值時必須考慮。插值可以在線性或者對數(shù)域來執(zhí)行。經(jīng)過插值的增益集合的總數(shù)等于多信道解碼器中輸出信道的數(shù)量乘以求和信號的數(shù)量。另外，需要將原揚聲器方向的HRTF構造成雙聲道信號。同樣將HRTF轉換到頻域。為了使頻域處理更加簡單明了，在轉換時使用的幀長度(N個采樣)與用于將時域求和信號轉換到頻域(N/2個頻率塊)的幀長度相同。另YKn)和Y2(n)分別為雙聲道左、右信號的頻域表示。在一個求和信號的情況下(即，單聲道求和信號Xsuml(n))，雙聲道輸出如下構造<formula>formulaseeoriginaldocumentpage19</formula>〖("))其中，0=n<N/2。C為BCC多信道編碼器中信道的總數(shù)(例如，5.1音頻信號包括6個信道)，并且gj(n)是針對單聲道求和信號的經(jīng)過插值的增益值，用于在當前時刻tw構造信道c。Hj(n)和H2c(n)是針對多信道編碼器輸出信道c的用于左耳和右耳HRTF的DFT域表示，即每個原始信道的方向必需是已知的。當存在由BCC多信道編碼器提供的兩個求和信號(立體聲求和信號)時，兩個求和信號(Xsuw(n)和Xsum2(n))對兩個雙聲道輸出的作用如下<formula>formulaseeoriginaldocumentpage20</formula>其中0=n<N/2。現(xiàn)在gj(n)和g2e(n)是代表在多信道編碼器中左、右求和信號的增益，用于將輸出信道C構造為它們之和。此外，該處理的后面階段與上述類似利用IFFT過程將Y^n)和Y2(n)變換回時域，再一次對信號加正弦窗，并將重疊窗相加。上述實施方式的主要優(yōu)勢在于增益并未在頻率塊彼此之間迅速改變，而這在使用ERB(或者其他)子帶的情況下可能會發(fā)生。因此，雙聲道輸出信號的質量通常更好。另外，通過使用用于左耳和右耳的HRTF(!V(n)和H2e(n))的求和信號DFT域表示來代替用于多信道音頻的每個信道的特定左右HRTF對，可以顯著簡化濾波。在上述實施方式中，在DFT域中構造雙聲道信號，并且省去了利用濾波器組將信號劃分到根據(jù)ERB等級的子帶。盡管該實施有利地并不需要任何濾波器組，但本領域技術人員將理解，也可以使用除DFT之外的任何其他相關變換或者具有足夠高頻率分辨率的適當濾波器組結構。在那些情況下，必需修改上述構造等式Y!(n)和Y2(n)，使得HRTF濾波基于由所討論的變換或者濾波器組所設置的屬性而執(zhí)行。因此，如果應用了例如QMF濾波器組，那么該頻率分辨率由QMF子帶來限定。如果Ng增益值的集合小于QMF子帶的數(shù)量，則對增益值進行插值以得到用于每個子帶的單個增益。例如，通過非線性或線性插值，將與28個頻帶對應的用于邊信息中可用的給定時刻的28個增益值映射到105個QMF子帶，以避免相鄰狹窄子帶之間的突然改變。此后，也可以應用上述雙聲道左、右信號(Y^n)和Y2(n))的頻域表示等式，除了Hj(n)和H2e(n)是QMF域中矩陣形式的HRTF濾波器以及X隱"n)是單聲道信號的塊之外。在立體聲求和信號的情況下，HRTF濾波器是巻積矩陣形式，Xsum!(n)和Xsum2(n)分別是兩個求和信號的塊。在文檔IEEE0-7803-5041-3/99,LancianiC.A.等人的"SubbanddomainfilteringofMPEGaudiosignals"中，描述了QMF域中的實際濾波實現(xiàn)的實例。出于簡單的原因，將前面的多數(shù)實例描述成在編碼器中對輸入信道(M)進行下降混合，以形成單個組合(例如單聲道)信號。然而，這些實施方式同樣可以在替代的實施方式中實現(xiàn)，其中根據(jù)特定的音頻處理應用，對多個輸入信道(M)進行下降混合，以便形成兩個或更多獨立的組合信號(S)。如果下降混合生成了多個組合信道，則可以使用傳統(tǒng)音頻傳輸技術來傳輸組合信道數(shù)據(jù)。例如，如果生成了兩個組合信道，則可以使用傳統(tǒng)的立體聲傳輸技術。在這種情況下，BCC解碼器可以從這兩個組合信道中提取BCC代碼并使用該BCC代碼來合成雙聲道信號，這在結合上面的最后一個實施方式中進行了說明。根據(jù)一個實施方式，根據(jù)特定的應用，在合成雙聲道信號中實際產(chǎn)生的"揚聲器，，的數(shù)量(N)可以與輸入信道的數(shù)量(M)不同(大于或者小于)。例如，輸入音頻可以對應于7.1環(huán)繞聲，并且可以合成雙聲道輸出音頻對應于5.1環(huán)繞聲，或者輸入音頻對應于5.1環(huán)繞聲，而合成雙聲道輸出音頻對應于7.1環(huán)繞聲。上述實施方式總結如下本發(fā)明的實施方式允許將M個輸入音頻信道轉換成S個組合音頻信道以及一個或多個對應的邊信息集合，其中M>S，并允許乂人S個組合音頻信道和對應的邊信息集合生成N個輸出音頻信道，其中N〉S，N可以等于M或者與M不同。由于傳輸一個組合信道和必需的邊信息所需的比特率非常低，所以在可用帶寬是稀缺資源的系統(tǒng)中，諸如在無線通訊系統(tǒng)中，尤其可以較好地應用本發(fā)明。因此，在通常缺乏高質揚聲器的移動終端或者其他便攜設備中尤其可以利用這些實施方式，其中可以根據(jù)本發(fā)明的實施方式，通過頭戴受話器收聽雙聲道音頻信號而引入多信道環(huán)繞聲的特征?？尚袘玫牧硪活I域包括電話會議服務，其中可以通過給收聽者會議呼叫參與方位于會議室中的不同位置的印象來容易地辨別電話會議的參與者。圖4示出了數(shù)據(jù)處理設備(TE)的簡化結構，在其中可以實現(xiàn)根據(jù)本發(fā)明的雙聲道解碼系統(tǒng)。數(shù)據(jù)處理設備(TE)可以例如是移動終端、MP3播放器、PDA設備或者個人計算機(PC)等。該數(shù)據(jù)處理單元(TE)包括I/0裝置(I/O)、中央處理單元(CPU)和存儲器(MEM)。存儲器(MEM)包括只讀存儲器ROM部分和諸如隨機存取存儲器RAM和閃速(FLASH)存儲器的可重寫部分。用于與不同的外部各方(例如CD-ROM,其他設備和用戶)通信的信息通過I/O裝置(I/O)從中央處理單元(CPU)傳出或者傳入到中央處理單元(CPU)。如果該數(shù)據(jù)處理設備實現(xiàn)為移動臺，則其典型地包括收發(fā)信機(Tx/Rx),該收發(fā)信機與無線網(wǎng)絡通信，通常通過天線(ANT)與基站收發(fā)信臺(BTS)通信。用戶接口(UI)設備通常包括顯示器、鍵區(qū)、麥克風和用于頭戴受話器的連接裝置。該數(shù)據(jù)處理系統(tǒng)可以進一步包括連接裝置MMC，諸如用于各種硬件模塊的標準形式的插槽或者作為集成電路IC,其可以提供在數(shù)據(jù)處理設備中運行的各種應用。因此，根據(jù)本發(fā)明的雙聲道解碼系統(tǒng)可以在中央處理單元CPU中執(zhí)行，或者在數(shù)據(jù)處理設備的專用數(shù)字信號處理器DSP(參數(shù)化代碼處理器)中執(zhí)行，藉此數(shù)據(jù)處理設備接收參數(shù)化編碼音頻信號，該音頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合。該參數(shù)化編碼音頻信號可以從例如CD-ROM的存儲器裝置接收，或者經(jīng)由天線和收發(fā)信機Tx/Rx從無線網(wǎng)絡接收。該數(shù)據(jù)處理設備進一步包括適當?shù)臑V波器組和頭部相關傳輸函數(shù)濾波器的預定集合，藉此，該數(shù)據(jù)處理設備將組合信號變換到頻域，并按照邊信息的對應集合所確定的比例，將適合的一對左右頭部相關傳輸函數(shù)濾波器應用于組合信號，以合成雙聲道音頻信號，然后將其通過頭戴受話器重現(xiàn)。同樣，根據(jù)本發(fā)明的編碼系統(tǒng)也可以在中央處理單元CPU中執(zhí)行，或者在數(shù)據(jù)處理設備的專用數(shù)字信號處理器DSP中執(zhí)行，藉此數(shù)據(jù)處理設備產(chǎn)生參數(shù)化編碼音頻信號，該音頻信號包括多個音頻信道的至少一個組合信號以及包括用于多信道音頻的信道信號的增益評估的邊信息的一個或多個對應集合。本發(fā)明的功能性可以在終端設備中實現(xiàn)，諸如移動臺，也可以作為計算機程序來實現(xiàn)，當在中央處理單元CPU或者專用數(shù)字信號處理器DSP中執(zhí)行時，該計算機程序影響該終端設備以便實現(xiàn)本發(fā)明的過程。計算機程序SW的功能可以分布到彼此通信的若干獨立的程序部分。該計算機軟件可以存儲在任何存儲器裝置中，諸如PC的硬盤或者CD-ROM盤，從其可以將計算機軟件載入到移動終端的存儲器中。該計算機軟件還可以通過網(wǎng)絡來裝載，例如使用TCP/IP協(xié)議棧。還可能的是，使用硬件方案或者硬件和軟件方案的組合以實現(xiàn)本發(fā)明的裝置。因此，上述計算程序產(chǎn)品可以至少部分地在包括用于將模塊連接到電子設備的硬件模塊中作為硬件方案來實施，例如作為ASIC或者FPGA電路來實現(xiàn)，或者可以作為一個或多個集成電路IC來實現(xiàn)，該硬件模塊或者IC可以進一步包括用于執(zhí)行所述計算機程序代碼任務的各種裝置，所述裝置作為硬件和/或軟件來實現(xiàn)。對于本領域技術人員而言明顯的是，本發(fā)明并非僅僅局限于上面介紹的實施方式，而是可以在所附權利要求書的范圍內(nèi)改變。權利要求1.一種用于合成雙聲道音頻信號的方法，所述方法包括輸入?yún)?shù)化編碼音頻信號，該音頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合；將該至少一個組合信號劃分到多個子帶中；根據(jù)所述邊信息的集合確定用于子帶的參數(shù)值；按照由所述參數(shù)值確定的比例，將頭部相關傳輸函數(shù)濾波器的預定集合應用于該至少一個組合信號，以合成雙聲道音頻信號。2.根據(jù)權利要求1所述的方法，其中所述參數(shù)值通過根據(jù)由所述邊信息的集合所提供的下一個和前一個參數(shù)值對與特定子帶相對應的參數(shù)值進行插值來確定。3.根據(jù)權利要求1或2所述的方法，進一步包括根據(jù)頭部相關傳輸函數(shù)濾波器的所述預定集合，對應于原始多信道音頻的每個揚聲器方向應用一對左右頭部相關傳輸函數(shù)濾波器。4.根據(jù)前面權利要求任一項所述的方法，其中所述邊信息的集合包括描述原始聲音圖像的多信道音頻的信道信號的增益估計的集合。5.根據(jù)權利要求4所述的方法，其中所述邊信息的集合進一步包括原始多信道聲音圖像的與收聽位置相關的揚聲器的位置和數(shù)量以及所采用的幀長度。6.根據(jù)權利要求3所述的方法，其中所述邊信息的集合包括在雙耳線索編碼(BCC)方案中所使用的信道間線索，諸如信道間時間差(ICTD)、信道間聲級差(ICLD)以及信道間相干性(ICC),該方法進一步包括基于該BCC方案的所述信道間線索其中至少之一，計算原始多信道音頻的增益估計的集合。7.根據(jù)權利要求4-6任一項所述的方法，進一步包括根據(jù)時間和頻率來確定原始多信道音頻的增益估計的集合；以及調(diào)節(jié)每個揚聲器信道的增益，使得每個增益值平方之和等于1。8.根據(jù)權利要求1所述的方法，進一步包括將所述至少一個組合信號劃分到以下子帶類型之一多個QMF子帶；多個等效矩形帶寬(ERB)子帶；或者多個心理聲學激發(fā)的頻帶。9.根據(jù)權利要求8所述的方法，進一步包括在頻域中將所述至少一個組合信號劃分到遵照等效矩形帶寬(ERB)等級的32個頻帶。10.根據(jù)權利要求9所述的方法，進一步包括獨立地對用于左側信號和右側信號的每個所述頻帶的頭部相關傳輸函數(shù)濾波器的輸出進行求和；以及將求和的左側信號和求和的右側信號變換到時域，以生成雙聲道音頻信號的左側分量和右側分量。11.根據(jù)權利要求1所述的方法，其中所述參數(shù)值是用于至少一個子帶的增益值。12.根據(jù)權利要求11所述的方法，其中所述增益值通過選擇由所述邊信息的集合提供的最接近的增益值來確定。13.根據(jù)權利要求11或12所述的方法，其中將所述至少一個組合信號劃分到多個子帶的步驟進一步包括將所述至少一個組合信號劃分到包括預定數(shù)量的采樣的時間幀中，然后對該幀加窗；以及將所述至少一個組合信號變換到頻域，以生成多個頻率子帶。14.根據(jù)權利要求11-13任一項所述的方法，其中確定子帶的增益值的步驟進一步包括確定描述原始聲音圖像的多信道音頻的每個信道信號的增益值；以及根據(jù)每個信道信號的所述增益值對子帶的單個增益值進行插值。15.根據(jù)權利要求11-14任一項所述的方法，進一步包括通過將所述至少一個組合信號與至少一個增益值和預定頭部相關傳輸函數(shù)濾波器相乘來確定子帶的雙聲道信號的頻域表示。16.根據(jù)權利要求15所述的方法，其中每個頻率塊的雙聲道信號的所述頻域表示根據(jù)下式由單聲道求和信號Xsumi(n)確定X(")=u(")￡(")w("))&(")=lml(")f(//2c(w)g〖("))其中Y"n)和Y2(n)分別為雙聲道左、右信號的頻域表示，c為編碼器信道的數(shù)量，gj(n)是單聲道求和信號的經(jīng)過插值的增益值，用于在特定時刻W構造信道c，Hj(n)和H/(n)是針對編碼器輸出信道c的用于左耳和右耳的頭部相關傳輸函數(shù)濾波器的子帶域表示。17.根據(jù)權利要求15所述的方法，其中每個頻率塊的雙聲道信號的所述頻域表示根據(jù)下式由立體聲求和信號Xsum"n)和Xsum2(n)確定，)=u")f;few("))+x畫2(")ffe(")"("))，=x』)￡>2K("))+u")|;(//2c(")g2c("))其中YKn)和Y2(n)分別為雙聲道左、右信號的頻域表示，c為編碼器信道的數(shù)量，gj(n)是單聲道求和信號的經(jīng)過插值的增益值，用于在特定時刻tw構造信道c,Hj(n)和H2e(n)是針對編碼器輸出信道c的用于左耳和右耳的頭部相關傳輸函數(shù)濾波器的子帶域表示。18.根據(jù)權利要求11所述的方法，其中所述增益值通過根據(jù)由所述邊信息的集合提供的相鄰頻率子帶的增益值對與特定頻率子帶相對應的每個增益值進行插值來確定。19.一種參數(shù)化音頻解碼器，包括參數(shù)化編碼處理器，用于處理參數(shù)化編碼的音頻信號，該音頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合；用于將所述至少一個組合信號劃分到多個子帶中的裝置；用于根據(jù)所述邊信息的集合確定子帶的參數(shù)值的裝置；以及合成器，用于按照由所述參數(shù)值確定的比例，將頭部相關傳輸函數(shù)濾波器的預定集合應用于該至少一個組合信號，以合成雙聲道音頻信號。20.根據(jù)權利要求19所述的解碼器，其中所述參數(shù)值通過根據(jù)由所述邊信息的集合所提供的下一個和前一個參數(shù)值對與特定子帶相對應的每個參數(shù)值進行插值來確定。21.根據(jù)權利要求19或20所述的解碼器，其中所述合成器布置用于根據(jù)頭部相關傳輸函數(shù)濾波器的預定集合，應用與原始多信道音頻的每個揚聲器方向相對應的一對左右頭部相關傳輸函數(shù)濾波器。22.根據(jù)權利要求19-21任一項所述的解碼器，其中所述邊信息的集合包括描述原始聲音圖像的多信道音頻的信道信號的增益估計的集合。23.根據(jù)權利要求21所述的解碼器，其中所述邊信息的集合包括在雙耳線索編碼(BCC)方案中所使用的信道間線索，諸如信道間時間差(ICTD)、信道間聲級差(ICLD)以及信道間相干性(ICC)，該解碼器進一步布置用于基于該BCC方案的所述信道間線索其中至少之一，計算原始多信道音頻的增益估計的集合。24.根據(jù)權利要求19所述的解碼器，進一步包括用于將所述至少一個組合信號劃分到以下子帶類型之一的裝置多個QMF子帶；多個等效矩形帶寬(ERB)子帶；或者多個心理聲學激發(fā)的頻帶。25.根據(jù)權利要求24所述的解碼器，其中所述用于在頻域中將所述至少一個組合信號進行劃分的裝置包括濾波器組，該濾波器組布置為用于將該至少一個組合信號劃分5ij遵照等效矩形帶寬(ERB)等級的32個頻帶。26.根據(jù)權利要求25所述的解碼器，進一步包括求和單元，其用于獨立地對用于左側信號和右側信號的每個所述頻帶的頭部相關傳輸函數(shù)濾波器的輸出進行求和；以及變換單元，用于將求和的左側信號和求和的右側信號變換到時域，以生成雙聲道音頻信號的左側分量和右側分量。27.根據(jù)權利要求19所述的解碼器，其中所述參數(shù)值是用于至少一個子帶的增益值。28.根據(jù)權利要求27所述的解碼器，其中所述增益值通過選擇由所述邊信息的集合提供的最接近的增益值來確定。29.根據(jù)權利要求27或28所述的解碼器，其中所述用于確定至少一個子帶的增益值的裝置布置用于確定描述原始聲音圖像的多信道音頻的每個信道信號的增益值；以及根據(jù)每個信道的所述增益值對至少一個子帶的單個增益值進行插值。30.根據(jù)權利要求27-29任一項所述的解碼器，其中所述解碼器布置用于通過將所述至少一個組合信號與至少一個增益值和預定頭部相關傳輸函數(shù)濾波器相乘來確定至少一個子帶的雙聲道信號的頻域表示。31.—種計算機程序產(chǎn)品，其存儲在計算機可讀介質上，并且可頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合，該計算機程序產(chǎn)品包括用于將該至少一個組合信號劃分到多個子帶中的計算機程序代碼部分；用于根據(jù)所述邊信息的集合確定至少一個子帶的參數(shù)值的計算機程序代碼部分；用于按照由所述參數(shù)值確定的比例，將頭部相關傳輸函數(shù)濾波器的預定集合應用于該至少一個組合信號，以合成雙聲道音頻信號的計算機程序代碼部分。32.—種用于合成雙聲道音頻信號的裝置，該裝置包括用于輸入?yún)?shù)化編碼的音頻信號的裝置，該音頻信號包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合；用于將該至少一個組合信號劃分到多個子帶中的裝置；用于根據(jù)所述邊信息的集合確定至少一個子帶的參數(shù)值的裝置；用于按照由所述參數(shù)值確定的比例，將頭部相關傳輸函數(shù)濾波器的預定集合應用于該至少一個組合信號，以合成雙聲道音頻信號的裝置；以及用于在音頻重現(xiàn)裝置中提供該雙聲道音頻信號的裝置。33.根據(jù)權利要求32所述的裝置，所述裝置是移動終端、PDA設備或者個人計算機。全文摘要一種用于合成雙聲道音頻信號的方法，該方法包括輸入?yún)?shù)化編碼的音頻信號，其包括多個音頻信道的至少一個組合信號以及描述多信道聲音圖像的邊信息的一個或多個對應集合；以及將頭部相關傳輸函數(shù)濾波器的預定集合應用于通過邊信息的所述對應集合按比例確定的至少一個組合信號，以便合成雙聲道音頻信號。文檔編號G10L19/02GK101366081SQ200780002068公開日2009年2月11日申請日期2007年1月4日優(yōu)先權日2006年1月9日發(fā)明者J·蒂爾屈,M·塔米,M·瓦阿納南,P·奧雅拉申請人:諾基亞公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：P.奧雅拉;J.蒂爾屈;M.瓦阿納南;M.塔米
技術所有人：諾基亞公司
我是此專利的發(fā)明人

上一篇：雙聲道音頻信號的解碼的制作方法
上一篇：丟包后解碼器狀態(tài)的重新定相的制作方法

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

雙聲道音頻信號的解碼的制作方法