用于提供改進的音頻處理的方法、裝置及計算機程序產(chǎn)品的制作方法

文檔序號：7735305閱讀：273來源：國知局

專利名稱：用于提供改進的音頻處理的方法、裝置及計算機程序產(chǎn)品的制作方法
技術領域：
本發(fā)明的實施例總的來說涉及音頻處理技術，更具體地涉及用于提供改進的音頻編碼的方法、裝置及計算機程序產(chǎn)品。
背景技術：
現(xiàn)代通訊時代已經(jīng)帶來了有線和無線網(wǎng)絡的巨大擴展。計算機網(wǎng)絡、電視網(wǎng)絡和電話網(wǎng)絡正經(jīng)歷著一場由消費需求帶動的前所未有的技術擴張。無線和移動聯(lián)網(wǎng)技術已經(jīng) 解決了相關的消費需求，同時為信息傳遞提供更多的靈活性和即時性。當前和未來的聯(lián)網(wǎng)技術將繼續(xù)便于信息傳遞和方便用戶。其中需要提高信息傳遞的便利的一個領域涉及提供能遞送聲音內(nèi)容或聲音通信的優(yōu)質(zhì)的音頻表示的設備。多聲道音頻編碼涉及對兩個或更多的音頻聲道一起編碼，其是旨在改善關于提供優(yōu)質(zhì)音頻信號的設備能力的機制的一個例子。特別是，因為在許多使用情形下輸入信號的聲道可能會有相對類似的內(nèi)容，聲道的聯(lián)合編碼可以支持相對高效的編碼并且具有比用于以其他方式對每個聲道單獨編碼的比特率更低的比特率。最近的多聲道編碼方法稱為參數(shù)立體聲編碼，或參數(shù)多聲道編碼。參數(shù)多聲道編碼一般將一個或多個單聲道信號-通常被稱為縮混信號-計算作為輸入信號組的線性組合。每個單聲道信號可以使用傳統(tǒng)的單聲道音頻編碼器進行編碼。除了創(chuàng)建和編碼單聲道信號，參數(shù)多聲道音頻編碼器可以提取出輸入信號的聲道的參數(shù)表示。參數(shù)可以包括關于輸入聲道間的聲級、相位、時間、相干性差異等的信息。在解碼器端，參數(shù)信息可被用來從接收的解碼的單聲道信號創(chuàng)建多聲道輸出信號。參數(shù)多聲道編碼方法代表多聲道編碼方法的一個例子，比如雙耳線索編碼(BCC)，其使得可能以合理的比特率實現(xiàn)高品質(zhì)立體聲或多聲道重建。空間聲像的壓縮基于產(chǎn)生和傳輸從一組輸入信號導出的一個或多個縮混的信號，連同一組空間線索。由此，解碼器可利用接收的縮混的信號和空間線索以用于合成具有接收到的空間線索所描述的空間屬性的一組聲道，其中聲道的數(shù)目不一定與輸入信號中的相同。空間線索通常包括聲道間聲級差(ICLD)、聲道間時間差(ICTD)和聲道間相干性/ 相關性(ICC)。ICLD和ICTD通常描述源于實際的音頻源的信號，而ICC通常旨在通過引入音頻聲像的漫反射成分，如混響、環(huán)境音效等，來增強空間感。空間線索通常是針對每個頻帶單獨提供的。此外，空間線索可以在任意聲道對之間，例如在選定的參考聲道與每個“子聲道”之間被計算或提供。雙耳信號是代表三維音頻聲像的立體聲信號的特殊情況。這種信號針對聲道之間的時間差和“頭影效應”建立模型，這可例如通過在某些頻帶降低音量來完成。在某些情況下，雙耳音頻信號可以通過使用仿真人頭或其他類似裝置記錄音頻信號而被創(chuàng)建，或者可以從預先錄制的音頻信號通過使用特殊的濾波而被創(chuàng)建，其中該特殊濾波實現(xiàn)旨在對“頭影效應”建模的頭部相關傳遞函數(shù)(HRTF)，從而向兩只耳朵提供適當?shù)慕?jīng)修改的信號。由于經(jīng)編碼的音頻信號的聲道之間的時間和幅度的差異的正確表示對于通常在多聲道音頻編碼中并且特別地在雙耳編碼中所產(chǎn)生的感知的音頻質(zhì)量而言是重要因素，因此可能期望引入特別注意這些方面的機制。

發(fā)明內(nèi)容
因此，提供了方法、裝置和計算機程序產(chǎn)品以用于提供改善的音頻編碼/解碼機制。根據(jù)本發(fā)明示例實施例，通過聲道信號的時間對齊，多個聲道可以有效地組合成一個聲道。因此，例如，聲道間的時間差可以在編碼器端被移除并在解碼器端恢復。此外，本發(fā)明的實施例可以支持時間對齊，由于輸入信號可能在不同的時間和頻率位置上具有不同的時間對齊和/或具有占用相同的時間-頻率位置的若干信號源，因此上述時間對齊可以在不同的時間和不同的頻率位置上被跟蹤。在一個示例實施例，提供了提供改善的音頻編碼的方法。該方法可以包括將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶，針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道，確定針對至少一個聲道的至少一個譜帶的時移值，以及至少部分地基于所述時移值，時間對齊所述聲道。在另一示例實施例，提供了用于提供改善的音頻編碼的計算機程序產(chǎn)品。所述計算機程序產(chǎn)品包括至少一個計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)上存儲有計算機可執(zhí)行程序代碼部分。所述計算機可執(zhí)行程序代碼部分可包括第一、第二、第三和第四程序代碼部分。第一程序代碼部分用于將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶。第二程序代碼部分用于針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道。第三程序代碼部分用于確定針對至少一個聲道的至少一個譜帶的時移值。第四程序代碼部分用于至少部分地基于所述時移值，時間對齊所述聲道。在另一示例實施例，提供了用于提供改善的音頻編碼的裝置。所述裝置可包括處理器。所述處理器可配置為將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶，針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道，確定針對至少一個聲道的至少一個譜帶的時移值，以及至少部分地基于所述時移值來時間對齊所述聲道。在另一示例實施例，提供了提供改善的音頻編碼的方法。該方法可包括將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多聲道的相應分析幀的譜帶，針對譜帶中的每個譜帶、為主導聲道之外的聲道接收相對于主導聲道的時移值，以及使用所述時移值恢復在所述多聲道之間的時間差，以提供合成的多聲道輸出信號。在另一示例實施例中，提供了用于提供改善的音頻編碼的計算機程序產(chǎn)品。所述計算機程序產(chǎn)品包括至少一個計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)上存儲有計算機可執(zhí)行程序代碼部分。所述計算機可執(zhí)行程序代碼部分可包括第一、第二和第三程序代碼部分。第一程序代碼部分用于將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多聲道的相應分析幀的譜帶。第二程序代碼部分用于針對譜帶中的每個譜帶、為主導聲道之外的聲道接收相對于主導聲道的時移值。第三程序代碼部分用于使用所述時移值恢復在所述多聲道之間的時間差，以提供合成的多聲道輸出信號。在另一示例實施例，提供了用于提供改善的音頻編碼的裝置。所述裝置可包括處理器。所述處理器可配置為將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多聲道的相應分析幀的譜帶，針對譜帶中的每個譜帶、為主導聲道之外的聲道接收相對于主導聲道的時移值，以及使用所述時移值恢復在所述多聲道之間的時間差，以提供合成的多聲道輸出信號。本發(fā)明的實施例可提供用于在音頻編碼/解碼應用中使用的方法、裝置和計算機程序產(chǎn)品。因此，例如，移動終端及其他電子設備可得益于針對音頻編碼和解碼操作的改善的質(zhì)量。

上面已經(jīng)概括性地描述了本發(fā)明的實施例，現(xiàn)在將參考附圖，附圖并不一定按比例繪制，其中圖1示出了根據(jù)本發(fā)明的示例實施例的用于提供音頻處理的系統(tǒng)框圖；圖2示出了根據(jù)本發(fā)明的示例實施例的示例分析窗口；圖3示出了根據(jù)本發(fā)明的示例實施例的用于提供音頻處理的備選系統(tǒng)的框圖；圖4示出了根據(jù)本發(fā)明的示例實施例的用于提供音頻處理的裝置的框圖；圖5是根據(jù)本發(fā)明的示例實施例的用于提供音頻編碼的示例方法的流程圖；以及圖6是根據(jù)本發(fā)明的示例實施例的用于提供音頻解碼的示例方法的流程圖。
具體實施例方式現(xiàn)在參照附圖在下文更充分地描述本發(fā)明的實施例，其中示出了本發(fā)明的部分但并非全部的實施例。事實上，本發(fā)明可以體現(xiàn)為許多不同的形式，而不應被理解為局限于本文闡述的實施例，而是提供這些實施例使得這一公開滿足適用的法規(guī)要求。相同的參考數(shù) 字在全文是指相同的元件。代表同一音頻源的多聲道音頻信號的聲道互相間通常有相似之處。在許多情況下，聲道信號的區(qū)別主要在于幅度和相位。這對于雙耳信號可能尤其顯著，其中在雙耳信號中相位差是形成感知的空間音頻聲像的重要方面之一。在實踐中相位差可表示為不同聲道的信號之間的時間差。該時間差在不同頻帶可能是不同的，該時間差可能隨瞬間時刻的不同而變化。在典型的多聲道編碼方法中，其中單聲道信號-即縮混的信號-作為輸入信號的聲道的線性組合而被創(chuàng)建，單聲道信號可成為這樣的信號的組合，即這些信號可能具有基本上類似的內(nèi)容但相互間可能有時間差。從這種組合的信號可能無法生成在感知上具有相對于輸入信號同等特性的輸出信號的聲道。因此，可能有益的是，特別注意對相位-或時間差-信息的處理，以支持高品質(zhì)的重現(xiàn)，尤其是在雙耳信號的情況下。圖1示出了根據(jù)本發(fā)明的示例實施例的用于提供音頻處理的系統(tǒng)框圖。在這方面，圖1及其相應的描述代表了用于對雙耳信號和其他立體聲或多聲道信號進行編碼的現(xiàn) 有立體聲編碼方法的擴展，其中時間差可能存在于輸入聲道之間。關于時間差我們指的是在多聲道信號的聲道上相應的音頻事件的發(fā)生之間的時間上的差異-例如表示為毫秒或表示為信號抽樣數(shù)量。如圖1所示，本發(fā)明示例實施例可以估計時間差，并在啟動立體聲編碼之前對某些聲道施加適當?shù)臅r移以移除輸入聲道之間的時間差。在解碼端，可通過補償有可能施加在編碼器端的時移來復原輸入聲道之間的時間差，使得立體聲解碼器的輸出引入原來包括在編碼器端的輸入信號中的時間差。雖然本文提供的這個示例實施例使用兩個輸入和輸出聲道以及立體聲編碼器和立體聲解碼器進行描述，但是此描述同樣適用于由兩個或更多的聲道組成并采用多聲道編碼器和多聲道解碼器的任何多聲道信號?，F(xiàn)在參考圖1，用于提供音頻處理的系統(tǒng)包括延時移除設備10、立體聲編碼器12、立體聲解碼器14和延時恢復設備16。延時移除設備10、立體聲編碼器12、立體聲解碼器 14和延時恢復設備16中的每個可以是具體化為硬件、軟件或硬件和軟件的組合的任何裝置或設備，其用于分別執(zhí)行延時移除設備10、立體聲編碼器12、立體聲解碼器14和延時恢復設備16的相應功能。在示例實施例中，延時移除設備10被配置用于估計輸入聲道之間的時間差以及通過在需要時對某些輸入聲道施加時移來時間對齊輸入信號。在這方面，例如，如果輸入信號18包括兩個聲道，比如左聲道L和右聲道R，則延時移除設備10被配置用于移除左聲道 L和右聲道R的相應信號部分之間的任何時間差。此相應信號部分可以是在時間上偏移，例如，由于捕捉特定聲音事件的麥克風之間的距離(例如，在離聲源較近的麥克風位置聽到聲音的開始，幾毫秒后在離聲源較遠的麥克風位置聽到同一聲音的開始)?？刹捎迷S多替代的方法來移除和恢復時間差，其中的一些方法在本文以示例的方式而不是以限制的方式描述。在示例實施例中，使用重疊的塊或幀來執(zhí)行對輸入信號18的處理。但是，在替代的例子中，可以利用不重疊的塊，如在下面更詳細描述的。在示例實施例中，延時移除設備10可包括或具體化為濾波器組。在某些情況下，濾波器組可以是非均勻的，使得某些頻帶比其他頻帶更窄。例如，在低頻處濾波器組的頻帶可能較窄，而在高頻處濾波器組的頻帶可能較寬。這種劃分頻帶的一個例子是對所謂的臨界頻帶的劃分，這些頻帶為人類聽覺系統(tǒng)的特性建立了模型，其隨著頻率的增高引入降低的主觀頻率分辨率。濾波器組將輸入信號18的每個聲道(例如，左聲道L和右聲道R)劃分成特定數(shù)量的頻帶B。左聲道L的頻帶描述為L1, L2, L3,...，Lb。同樣，右聲道R的頻帶描述為禮，1 2，1 3，...，&。在頻帶數(shù)量B等于1的示例實施例中，濾波器組可能會或可能不會被采用。在示例實施例中，聲道在濾波器組之前或之后被劃分成塊或幀。信號在劃分過程中可能會或可能不會被加窗。此外，在使用加窗時，窗口可以或可以不在時間上重疊。還要注意，作為特殊情況，全為1且長度匹配幀長度的窗口引入了類似于不加窗和無重疊的情況。如上所述，在一個示例實施例中，塊或幀在時間上重疊。左聲道L加窗的塊、窗口 i和頻帶13可以被定義為1^(1貼10，1^ = 0，...，1。在這方面，變量N代表塊的有效長度。換言之這里的變量N表示當前塊的起始點與前一塊的起始點相差多少個抽樣。窗口的長度由變量I來表示。在示例實施例中，分析窗口被選為重疊的。因此，例如，可選擇以下形式的窗口
8
權利要求
1.一種方法，包括將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶；針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道；確定針對至少一個聲道的至少一個譜帶的時移值；以及至少部分地基于所述時移值來時間對齊所述聲道。
2.根據(jù)權利要求1的方法，其中所述時間對齊包括至少部分地基于相應的時移值，修改除了針對相應的譜帶選擇的主導聲道之外的至少一個聲道的至少一個譜帶的信號。
3.根據(jù)權利要求1的方法，其中劃分每個聲道的相應信號包括將每個聲道的相應信號劃分成對應于相應的重疊分析幀的譜帶。
4.根據(jù)權利要求1的方法，其中劃分每個聲道的相應信號包括將每個聲道的相應信號劃分成對應于相應的不重疊分析幀的譜帶。
5.根據(jù)權利要求1的方法，其中選擇所述主導聲道包括基于在哪個聲道首先檢測到事件的發(fā)生來選擇所述主導聲道。
6.根據(jù)權利要求1的方法，其中確定所述時移值包括為每個聲道確定單獨的時移值。
7.根據(jù)權利要求1的方法，還包括對時間對齊的聲道進行組合以用于進一步的處理。
8.根據(jù)權利要求1的方法，其中劃分每個聲道的相應信號包括使所述多聲道音頻輸入信號通過濾波器組，所述濾波器組不針對所述譜帶執(zhí)行向下采樣。
9.一種包括處理器的裝置，所述處理器被配置用于將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶；針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道；確定針對至少一個聲道的至少一個譜帶的時移值；以及至少部分地基于所述時移值來時間對齊所述聲道。
10.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過至少部分地基于相應的時移值，修改除了針對相應的譜帶選擇的主導聲道之外的至少一個聲道的至少一個譜帶的信號來進行時間對齊。
11.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過將每個聲道的相應信號劃分成對應于相應的重疊分析幀的譜帶來劃分每個聲道的相應信號。
12.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過將每個聲道的相應信號劃分成對應于相應的不重疊分析幀的譜帶來劃分每個聲道的相應信號。
13.根據(jù)權利要求9的裝置，其中所述處理器被配置用于對時間對齊的聲道進行組合以用于進一步的處理。
14.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過基于在哪個聲道首先檢測到事件的發(fā)生來選擇所述主導聲道，從而選擇所述主導聲道。
15.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過為每個聲道確定單獨的時移值來確定所述時移值。
16.根據(jù)權利要求9的裝置，其中所述處理器被配置用于通過使所述多聲道音頻輸入信號通過濾波器組來劃分每個聲道的相應信號，其中所述濾波器組不針對所述譜帶執(zhí)行向下采樣。
17.一種計算機程序產(chǎn)品，包括至少一個計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)上存儲有計算機可執(zhí)行程序代碼部分，所述計算機可執(zhí)行程序代碼部分包括第一程序代碼部分，用于將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶；第二程序代碼部分，用于針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道；第三程序代碼部分，用于確定針對至少一個聲道的至少一個譜帶的時移值；以及第四程序代碼部分，用于至少部分地基于所述時移值來時間對齊所述聲道。
18.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第四程序代碼部分包括用于至少部分地基于相應的時移值來修改除了針對相應的譜帶選擇的主導聲道之外的至少一個聲道的至少一個譜帶的信號的指令。
19.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第一程序代碼部分包括用于將每個聲道的相應信號劃分成對應于相應的重疊分析幀的譜帶的指令。
20.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第一程序代碼部分包括用于將每個聲道的相應信號劃分成對應于相應的不重疊分析幀的譜帶的指令。
21.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第二程序代碼部分包括用于基于在哪個聲道首先檢測到事件的發(fā)生來選擇所述主導聲道的指令。
22.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第三程序代碼部分包括用于為每個聲道確定單獨的時移值的指令。
23.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第四程序代碼部分包括用于對時間對齊的聲道進行組合以用于進一步的處理的指令。
24.根據(jù)權利要求17的計算機程序產(chǎn)品，其中所述第一程序代碼部分包括用于使所述多聲道音頻輸入信號通過濾波器組的指令，其中所述濾波器組不針對所述譜帶執(zhí)行向下采樣。
25.一種方法，包括將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多個聲道的相應分析幀的一個或多個譜帶；接收時間對齊信息，所述時間對齊信息包括用于一個或多個譜帶中的一個或多個聲道的時移值；以及使用所述時移值來恢復在所述多個聲道之間的時間差，以提供合成的多聲道輸出信號。
26.根據(jù)權利要求25的方法，其中劃分所述時間對齊的經(jīng)解碼的音頻輸入信號包括將每個聲道劃分成對應于相應的重疊或不重疊分析幀的譜帶。
27.一種包括處理器的裝置，所述處理器被配置用于將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多個聲道的相應分析幀的一個或多個譜帶；接收時間對齊信息，所述時間對齊信息包括用于一個或多個譜帶中的一個或多個聲道的時移值；以及使用所述時移值來恢復在所述多個聲道之間的時間差，以提供合成的多聲道輸出信號。
28.根據(jù)權利要求27的裝置，其中所述處理器被配置用于通過將每個聲道劃分成對應于相應的重疊或不重疊分析幀的譜帶來劃分所述時間對齊的經(jīng)解碼的音頻輸入信號。
29.一種計算機程序產(chǎn)品，包括至少一個計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)上存儲有計算機可執(zhí)行程序代碼部分，所述計算機可執(zhí)行程序代碼部分包括第一程序代碼部分，用于將時間對齊的經(jīng)解碼的音頻輸入信號劃分成對應于多個聲道的相應分析幀的一個或多個譜帶；第二程序代碼部分，用于接收時間對齊信息，所述時間對齊信息包括用于一個或多個譜帶中的一個或多個聲道的時移值；以及第三程序代碼部分，用于使用所述時移值來恢復在所述多個聲道之間的時間差，以提供合成的多聲道輸出信號。
30.根據(jù)權利要求四的計算機程序產(chǎn)品，其中所述第一程序代碼部分包括用于將每個聲道劃分成對應于相應的重疊或不重疊分析幀的譜帶的指令。
全文摘要
一種用于實現(xiàn)改善的音頻處理的裝置，其可包括處理器。該處理器可配置用于將多聲道音頻輸入信號的每個聲道的相應信號劃分成對應于相應的分析幀的一個或多個譜帶，針對至少一個譜帶從所述多聲道音頻輸入信號的聲道中選擇主導聲道，確定針對至少一個聲道的至少一個譜帶的時移值，以及至少部分地基于所述時移值，時間對齊所述聲道。
文檔編號H04S1/00GK102089809SQ200980127463
公開日2011年6月8日申請日期2009年4月21日優(yōu)先權日2008年6月13日
發(fā)明者M·塔米, M·維勒莫申請人:諾基亞公司

完整全部詳細技術資料下載