專利名稱:用于編碼和解碼基于對象的音頻信號的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種音頻編碼方法和裝置,以及一種音頻解碼方法和 裝置,其中每一個對象音頻信號的聲像可被定位于任何希望的位置。
背景技術(shù):
一般來說,在多聲道音頻編碼和解碼技術(shù)中,多聲道信號的多個 聲道信號被縮減混音進少數(shù)聲道信號中,傳輸關(guān)于原始聲道信號的邊 信息并且恢復(fù)具有和原始多聲道信號一樣多的聲道的多聲道信號。
基于對象的音頻編碼和解碼技術(shù)與多聲道音頻編碼和解碼技術(shù)在 將多個聲音源縮減混音進少數(shù)聲音源信號中,并傳輸關(guān)于原始聲音源 的邊信息方面是基本上相似的。然而,在基于對象的音頻編碼和解碼 技術(shù)中,對象信號,其為聲道信號的基本元素(例如樂器的聲音或人 的語音),被視為與多聲道音頻編碼和解碼技術(shù)中的聲道信號相同, 并且也可被編/解碼。
換句話說,在基于對象的音頻編碼和解碼技術(shù)中,每個對象信號
將被視為編/解碼的主體(entities)。在這點上,基于對象的音頻編碼 和解碼技術(shù)與多聲道音頻編碼和解碼技術(shù)是有區(qū)別的,該區(qū)別在于多 聲道音頻編/解碼是簡單的根據(jù)聲道間信息而被編/解碼的,而與要被編 /解碼的聲道信號中的元素數(shù)量無關(guān)。
發(fā)明內(nèi)容
技術(shù)問題
本發(fā)明提供了一種音頻編碼方法和裝置,以及一種音頻解碼方法 和裝置,其中可對音頻信號進行編碼或解碼以使每一個對象音頻信號的聲像可被定位于任何希望的位置。 技術(shù)方案
根據(jù)本發(fā)明的一個方面,其提供了一種音頻解碼方法,包括從 音頻信號中提取縮減混音信號和基于對象的邊信息;基于該縮減混音 信號和來自于該基于對象的邊信息的提取信息,生成修改后的縮減混 音信號;基于該基于對象的邊信息和用于渲染該縮減混音信號的控制 數(shù)據(jù)生成基于聲道的邊信息;以及基于該修改后的縮減混音信號和該
基于聲道的邊信息,生成多聲道音頻信號。
根據(jù)本發(fā)明的另一個方面,其提供了一種音頻解碼裝置,包括解 復(fù)用器,用于從音頻信號中提取縮減混音信號和基于對象的邊信息;
對象解碼器,用于基于該縮減混音信號和預(yù)定信息生成修改后的縮減 混音信號,并基于該基于對象的邊信息和用于渲染該縮減混音信號的 控制數(shù)據(jù)生成基于聲道的邊信息,該預(yù)定信息是從該基于對象的邊信
息中提取的;以及多聲道解碼器,用于基于該修改后的縮減混音信號 和該基于聲道的邊信息生成多聲道音頻信號。
根據(jù)本發(fā)明的另一個方面,其提供了一種計算機可讀記錄介質(zhì), 其上記錄了用于執(zhí)行音頻解碼方法的計算機程序,該音頻解碼方法包 括從音頻信號中提取縮減混音信號和基于對象的邊信息;基于該縮 減混音信號和從該基于對象的邊信息中所提取的預(yù)定信息,生成修改 后的縮減混音信號;基于該基于對象的邊信息和用于渲染該縮減混音 信號的控制數(shù)據(jù)生成基于聲道的邊信息;以及基于該修改后的縮減混 音信號和該基于聲道的邊信息,生成多聲道音頻信號。
根據(jù)本發(fā)明的另一個方面,其提供了一種計算機可讀記錄介質(zhì), 其上記錄了用于執(zhí)行音頻編碼方法的計算機程序,該音頻編碼方法包 括通過縮減混音對象音頻信號來生成縮減混音信號;通過提取關(guān)于 該對象音頻信號的信息以生成基于對象的邊信息,和把用于修改該縮減混音信號的預(yù)定信息插入到該基于對象的邊信息;以及通過組合其 中插入了該預(yù)定信息的該基于對象的邊信息和該縮減混音信號,生成 比特流。
有益效果
提供了一種音頻編碼方法和裝置,以及一種音頻解碼方法和裝置, 其中可對音頻信號進行編碼或解碼以使每一個對象音頻信號的聲像可
被定位于任何希望的位置。
通過以下的詳細描述和附圖,本發(fā)明將變得更加易于理解,附圖 只是示例性的,其并不構(gòu)成對本發(fā)明的限制,其中
圖1是典型的基于對象的音頻編碼/解碼系統(tǒng)的方框圖2是根據(jù)本發(fā)明第一實施例的音頻解碼裝置的方框圖3是根據(jù)本發(fā)明第二實施例的音頻解碼裝置的方框圖4用于解釋幅度差和時間差對于聲像定位的影響,其是相互獨
立的;
圖5是關(guān)于幅度差和時間差之間的對應(yīng)關(guān)系的函數(shù)圖,其中該幅
度差和時間差是將聲像定位于預(yù)定位置所需要的; 圖6表示包括諧波信息的控制數(shù)據(jù)的格式; 圖7是根據(jù)本發(fā)明第三實施例的音頻解碼裝置的方框圖; 圖8是可被應(yīng)用于如圖7所示的音頻解碼裝置中的藝術(shù)縮減混音
增益(ADG)模塊的方框圖9是根據(jù)本發(fā)明第四實施例的音頻解碼裝置的方框圖; 圖IO是根據(jù)本發(fā)明第五實施例的音頻解碼裝置的方框圖; 圖11是根據(jù)本發(fā)明第六實施例的音頻解碼裝置的方框圖; 圖12是根據(jù)本發(fā)明第七實施例的音頻解碼裝置的方框圖; 圖13是根據(jù)本發(fā)明第八實施例的音頻解碼裝置的方框圖; 圖14是用于解釋由圖13所示的音頻解碼裝置使用于幀的三維 (3D)信息的應(yīng)用的框圖;圖15是根據(jù)本發(fā)明第九實施例的音頻解碼裝置的方框圖; 圖16是根據(jù)本發(fā)明第十實施例的音頻解碼裝置的方框圖; 圖17-19是用于解釋根據(jù)本發(fā)明一個實施例的音頻解碼方法的框
圖20是根據(jù)本發(fā)明一個實施例的音頻編碼裝置的方框圖。
實施本發(fā)明的最佳模式
現(xiàn)在將參考附圖來詳細說明本發(fā)明,在附圖中已表示了本發(fā)明的 示例性實施例。
根據(jù)本發(fā)明的一種音頻編碼方法和裝置以及一種音頻解碼方法和 裝置可被應(yīng)用于基于對象的音頻處理操作,但是本發(fā)明并不限于此。 換句話說,該音頻編碼方法和裝置以及音頻解碼方法和裝置還可被應(yīng) 用于基于對象的音頻處理操作之外的各種信號處理操作。
圖1是典型的基于對象的音頻編碼/解碼系統(tǒng)的方框圖。通常來說, 輸入給基于對象的音頻編碼裝置的音頻信號與多聲道信號的聲道是不 對應(yīng)的,這些音頻信號是獨立的對象信號。在這點上,基于對象的音 頻編碼裝置與多聲道音頻編碼裝置是不同的,其區(qū)別在于多聲道音頻 編碼裝置輸入多聲道信號的聲道信號。
舉例來說,諸如5.1聲道信號的左前聲道信號和右前聲道信號之 類的聲道信號被輸入到多聲道音頻編碼裝置中,然而諸如人語音或樂 器聲音(例如小提琴或鋼琴的聲音)之類的比聲道信號小的主體的對 象音頻信號可被輸入到基于對象的音頻編碼裝置中。
參見圖1,該基于對象的音頻編碼/解碼系統(tǒng)包括基于對象的音 頻編碼裝置和基于對象的音頻解碼裝置?;趯ο蟮囊纛l編碼裝置包 括對象編碼器100,基于對象的音頻解碼裝置包括對象解碼器111和渲 染器113。對象編碼器100接收N個對象音頻信號,并且生成帶有一個或多 個聲道的基于對象的縮減混音信號和邊信息,上述邊信息包括從N個 對象音頻信號中提取的多條信息片,例如能量差,相位差和相關(guān)性值。 邊信息和基于對象的縮減混音信號被合并入一個單一比特流中,并且 該比特流被傳輸給基于對象的解碼裝置。
邊信息可包括指示是否執(zhí)行基于聲道的音頻編/解碼或基于對象 的音頻編/解碼的標(biāo)志,貝!J,可以根據(jù)邊信息的標(biāo)志來確定是執(zhí)行基于 聲道的音頻編/解碼還是執(zhí)行基于對象的音頻編/解碼。邊信息還可包括 關(guān)于對象信號的包絡(luò)信息、分組信息、靜止期信息和延遲信息。邊信 息還可包括對象電平差信息、對象間互相關(guān)信息、縮減混音增益信息、 縮減混音聲道電平差信息和絕對對象能量信息。
對象解碼器111接收來自基于對象音頻編碼裝置的基于對象的縮 減混音信號和邊信息,并且根據(jù)基于對象的縮減混音信號和邊信息來 恢復(fù)具有與N個對象音頻信號相似屬性的對象信號。由對象解碼器111 生成的對象信號并沒有被分配給多聲道空間中的任何位置。因此渲染 器113將由對象解碼器111生成的對象信號的每一個分配給多聲道空
間中的預(yù)定位置,并且渲染器113確定對象信號的電平,這樣可通過 由渲染器113指定的各個相應(yīng)位置和由渲染器113確定的各個相應(yīng)電
平來再現(xiàn)對象信號。與由對象解碼器111生成的每個對象信號相關(guān)的 控制信息可隨時間而改變,貝l」,由對象解碼器111生成的對象信號的 電平和空間位置可根據(jù)控制信號而改變。
圖2是根據(jù)本發(fā)明第一實施例的音頻解碼裝置120的方框圖。參 見圖2,該音頻解碼裝置120包括對象解碼器121,渲染器123,和 參數(shù)變換器125。該音頻解碼裝置120還包括解復(fù)用器(未示出),用 于從輸入的比特流中提取縮減混音信號和邊信息,并且該解復(fù)用器將 應(yīng)用于根據(jù)本發(fā)明的其它實施例的所有音頻解碼裝置中。對象解碼器121根據(jù)縮減混音信號和由參數(shù)變換器125提供的修
改后的邊信息來生成多個對象信號。渲染器123將由對象解碼器121
生成的對象信號的每一個分配到多聲道空間中的預(yù)定位置,并且根據(jù)
控制信息來確定由對象解碼器121生成的對象信號的電平。參數(shù)變換 器125通過組合邊信息和控制信息來生成修改后的邊信息。接著,參 數(shù)變換器125將修改后的邊信息傳輸給對象解碼器121。
對象解碼器121可通過分析修改后的邊信息中的控制信息來執(zhí)行 自適應(yīng)解碼。
舉例來說,如果控制信息指示第一對象信號和第二對象信號被分 配給多聲道空間中的相同的位置,并且具有相同的電平,則典型的音 頻解碼裝置可分別解碼第一和第二對象信號,接著通過混音/渲染操作 來將它們安排到多聲道空間中。
在另一方面,音頻解碼裝置120的對象解碼器121從修改后的邊 信息中的控制信息中得知第一和第二對象信號被分配到多聲道空間中 的相同位置,并且具有相同電平,如同第一和第二對象信號是一個單 獨的聲音源。從而,對象解碼器121將第一和第二對象信號看成一個 單獨的聲音源而解碼第一和第二對象信號,而不將它們分開解碼。這 樣的話,解碼的復(fù)雜度降低了。另外,因為需要處理的聲音源的數(shù)量 減少了,混音/渲染的復(fù)雜度也降低了。
音頻解碼裝置120可被有效的使用于當(dāng)對象信號的數(shù)量大于輸出 聲道的數(shù)量這種情況,因為多個對象信號很有可能被分配到相同的空 間位置。
可選的是,音頻解碼裝置120可被使用于當(dāng)?shù)谝粚ο笮盘柡偷诙?對象信號被分配到多聲道空間中的相同位置,但具有不同電平這種情況。這種情況下,音頻解碼裝置120將第一和第二對象信號視為一體 來解碼第一和第二對象信號,而不分別解碼第一和第二對象信號,并
且將解碼后的第一和第二對象信號傳輸給渲染器123。更具體來說,對 象解碼器121從修改后的邊信息中的控制信息得到關(guān)于第一和第二對
象信號的電平之間的差的信息,并根據(jù)獲得的信息來解碼第一和第二 對象信號。這樣的話,即使第一和第二對象信號具有不同電平,也可 將第一和第二對象信號當(dāng)成單一聲音源來進行解碼。
同樣可選的是,對象解碼器121可根據(jù)控制信息來調(diào)整由對象解 碼器121生成的對象信號的電平。接著,對象解碼器121可解碼調(diào)整 過電平的對象信號。從而,渲染器123不需要調(diào)整由對象解碼器121 提供的解碼后的對象信號,而只要簡單的將由對象解碼器121提供的 解碼后的對象信號安排到多聲道空間中。簡而言之,因為對象解碼器 121根據(jù)控制信息調(diào)整了由對象解碼器121生成的對象信號的電平,渲 染器123可容易的將由對象解碼器121生成的對象信號安排到多聲道 空間中,而不需要額外的調(diào)整由對象解碼器121生成的對象信號的電 平。因此,可以減少混音/渲染的復(fù)雜度。
根據(jù)圖2的實施例,音頻解碼裝置120的對象解碼器可通過對控 制信息的分析來自適應(yīng)的執(zhí)行解碼操作,從而減少解碼的復(fù)雜度和混 音/渲染的復(fù)雜度??墒褂糜梢纛l解碼裝置120執(zhí)行的上述方法的組合。
圖3是根據(jù)本發(fā)明第二實施例的音頻解碼裝置130的方框圖。參 見圖3,音頻解碼裝置130包括對象解碼器131和渲染器133。該音頻 解碼裝置130的特征在于其不僅提供邊信息給對象解碼器131,還提 供給渲染器133。
即使在存在相應(yīng)于靜止期的對象信號時,音頻解碼裝置130也可 有效的執(zhí)行解碼操作。舉例來說,第二至第四對象信號可能相應(yīng)于樂 器演奏的音樂演奏期,而第一對象信號可能相應(yīng)于伴奏演奏的靜止期。在這種情況下,指示多個對象信號中的哪一個對應(yīng)于靜止期的信息可 被包括在邊信息中,并且該邊信息可被提供給渲染器133和對象解碼 器131。
對象解碼器131可通過不對相應(yīng)于靜止期的對象信號進行解碼來 最小化解碼復(fù)雜度。對象解碼器131將一個對象信號設(shè)置為相應(yīng)于0
值,并且將該對象信號的電平傳輸給渲染器133。 一般來說,具有0值 的對象信號被視為與具有非0值的對象信號相同,并且一起進入混音/ 渲染操作。
在另一方面,音頻解碼裝置130傳輸包括指示多個對象物體相應(yīng) 于靜止期的信息的邊信息給渲染器133,接著阻止相應(yīng)于靜止期的對象 信號進入由渲染器133執(zhí)行的混音/渲染操作。因此,音頻解碼裝置130 可阻止混音/渲染的復(fù)雜度的不必要增加。
渲染器133可使用包括在控制信息中的混音參數(shù)信息來定義立體 聲場景中的每個對象信號的聲像?;煲魠?shù)信息可僅包括幅度信息或 包括幅度信息和時間信息?;煲魠?shù)信息不僅影響立體聲聲像的定位, 還影響用戶對于空間聲音質(zhì)量的心理聲學(xué)的感覺。
舉例來說,通過比較分別通過使用時間淘選方法和幅度淘選方法 生成的,及使用2聲道立體聲揚聲器在相同位置再現(xiàn)的兩個聲像,可 以得知幅度淘選方法可實現(xiàn)聲像的精確定位,而時間淘選方法可以提 供有空間深厚感的自然聲音。貝ij,如果渲染器133僅使用幅度淘選方 法來在多聲道空間中安排對象信號,渲染器133可以精確的定位每個 聲像,但是不能提供使用時間淘選方法時的聲音的深厚感。根據(jù)聲源 的類型,用戶有時會偏好聲音的精確定位而不是聲音的深厚感,反之 亦然。
圖4(a)和4(b)解釋在使用2聲道立體聲揚聲器來再現(xiàn)信號時強度
13差(幅度差)和時間差對于聲像定位的影響。參見圖4(a)和4(b),根據(jù)
互相獨立的幅度差和時間差,來將一個聲像定位到預(yù)定角度。例如,
可以使用大約8dB的幅度差,或與8dB的幅度差相等的大約0.5ms的時間差來將聲像定位在角度20。因此,即使僅提供了幅度差作為混音參數(shù)信息,也能夠通過將幅度差轉(zhuǎn)換為時間差來獲得具有不同屬性的多種聲音,其中時間差在聲像定位期間等同于幅度差。
圖5表示關(guān)于將聲像定位于角度10、 20和30所需要的幅度差和時間差之間對應(yīng)關(guān)系的函數(shù)。圖5中所示的函數(shù)可根據(jù)圖4(a)和4(b)獲得。參見圖5,多種幅度差-時間差的比較可被提供來將聲像定位于預(yù)定位置。例如,假設(shè)8dB的幅度差被提供為混音參數(shù)信息來將聲像定位在角度20。根據(jù)圖5所示的函數(shù),還可使用3dB的幅度差和0.3ms的時間差的組合來將聲像定位在角度20。在這種情況下,不僅提供幅度差信息還提供時間差信息作為混音參數(shù)信息,從而增強了空間感。
因此,為了在混音/渲染操作期間生成具有用戶期望的屬性的聲音,混音參數(shù)信息可被適當(dāng)?shù)霓D(zhuǎn)換,使得能夠執(zhí)行適合于用戶的幅度淘選和時間淘選中的任何一個。也就是說,如果混音參數(shù)信息僅包括幅度差信息,但用戶期望具有空間深厚感的聲音,該幅度差信息可參考心理聲學(xué)數(shù)據(jù)而被轉(zhuǎn)換為等同于幅度差信息的時間差信息??蛇x的是,如果用戶同時期望空間深厚感的聲音和聲像的精確定位,幅度差信息可被轉(zhuǎn)換為幅度差信息和等同于原始幅度信息的時間差信息的組合??蛇x的是,如果混音參數(shù)信息僅包括時間差信息,但用戶期望聲像的精確定位,該時間差信息可被轉(zhuǎn)換為等同于時間差信息的幅度差信息,或可被轉(zhuǎn)換為幅度差信息和時間差信息的組合,該組合可通過增強聲像的精確定位和空間感來滿足用戶的偏好。
仍然可選的是,如果混音參數(shù)信息包括幅度差信息和時間差信息,并且用戶選擇聲像的精確定位,幅度差信息和時間差信息的組合可被轉(zhuǎn)換為等同于原始幅度差信息和時間差信息的組合的幅度差信息。在另一方面,如果混音參數(shù)信息包括幅度差信息和時間差信息,并且用戶期望空間感的增強,幅度差信息和時間差信息的組合可被轉(zhuǎn)換為等同于幅度差信息和原始時間差信息組合的時間差信息。參見圖6,控制信息可包括關(guān)于一個或多個對象信號的混音/渲染信息和諧波信息。諧波信息可包括關(guān)于一個或多個對象信號的基音信息,基頻信息和主頻帶信息中的至少一個,以及每個對象信號的每個子帶的頻譜和能量的說明。
因為以子帶為單位執(zhí)行操作的渲染器的清晰度的不足,諧波信息可被使用于在渲染操作期間處理對象信號。
如果該諧波信息包括關(guān)于一個或多個對象信號的基音信息,可通過使用梳狀濾波器或逆梳狀濾波器來削弱或增強預(yù)定頻域來調(diào)整每個對象信號的增益。舉例來說,如果多個對象信號中的一個是嗓音信號,這些對象信號可通過僅削弱嗓音信號而被用于卡拉OK??蛇x的是,如果諧波信息包括關(guān)于一個或多個對象信號的主頻域信息,則可執(zhí)行削弱或增強主頻域的處理。仍然可選的是,如果諧波信息包括關(guān)于一個或多個對象信號的頻譜信息,可通過執(zhí)行不被任何子帶邊界限制的削弱或增強來控制每個對象信號的增益。
圖7是根據(jù)本發(fā)明另一個實施例的音頻解碼裝置140的方框圖。參見圖7,音頻解碼裝置140使用多聲道解碼器141來代替對象解碼器和渲染器,并且在對象信號被適當(dāng)?shù)陌才旁诙嗦暤揽臻g中后解碼多個對象信號。
具體來說,音頻解碼裝置140包括多聲道解碼器141和參數(shù)變換器145。多聲道解碼器141生成多聲道信號,這些多聲道信號的對象信號根據(jù)縮減混音信號和空間參數(shù)信息被安排到多聲道空間中,該空間參數(shù)信息是由參數(shù)變換器145提供的基于聲道的邊信息。參數(shù)變換器145分析由音頻編碼裝置(未示出)傳輸來的邊信息和控制信息,并且根據(jù)分析的結(jié)果生成空間參數(shù)信息。更具體的,參數(shù)變換器H5通過邊信息和控制信息來生成空間參數(shù)信息,該控制信息包括回放設(shè)置信
息和混音信息。也就是說,對應(yīng)于一至二(OTT)盒或二至三(TTT)盒,參數(shù)變換器145把邊信息和控制信息的組合變換為空間數(shù)據(jù)。
音頻解碼裝置140可執(zhí)行多聲道解碼操作,其中基于對象的解碼操作和混音/渲染操作被合并,并且可以跳過對每個對象信號的解碼。因此,可以降低解碼和/或混音/渲染的復(fù)雜度。
舉例來說,當(dāng)使用5.1聲道揚聲器再現(xiàn)系統(tǒng)來再現(xiàn)10個對象信號和根據(jù)這IO個對象信號而獲得的多聲道信號時,典型的基于對象的音頻解碼裝置根據(jù)縮減混音信號和邊信息來生成分別對應(yīng)于這10個對象信號的解碼后的信號,并且通過將這IO個對象信號適當(dāng)?shù)陌才诺蕉嗦暤揽臻g中來生成5.1聲道信號,則這些對象信號變得適于5.1聲道揚聲器環(huán)境。然而,在5.1聲道信號生成期間,生成10個對象信號的效率是很低的,并且這個問題在對象信號的數(shù)量和要生成的多聲道信號的聲道數(shù)量之間的差增加時變得更加嚴(yán)重。
在另一方面,根據(jù)圖7所示的實施例,音頻解碼裝置140根據(jù)邊信息和控制信息來生成適于5.1聲道信號的空間參數(shù)信息,并且將空間參數(shù)信息和縮減混音信號提供給多聲道解碼器141。接著,多聲道解碼器141根據(jù)空間參數(shù)信息和縮減混音信號生成5.1聲道信號。換句話說,當(dāng)要輸出的聲道數(shù)量是5.1聲道時,音頻解碼裝置140根據(jù)縮減混音信號可容易的生成5.1聲道信號,而不需要生成IO個對象信號,則該音頻解碼裝置相對于通常的音頻解碼裝置在復(fù)雜度方面更有效率。
當(dāng)通過分析由音頻編碼裝置傳輸來的邊信息和控制信息來計算對應(yīng)于每個OTT盒和TTT盒的空間參數(shù)信息所需的計算量小于在每個對象信號解碼之后執(zhí)行混音/渲染操作所需的計算量時,該音頻解碼裝置140更為有效。通過分析邊信息和控制信息來把用于生成空間參數(shù)信息的模塊加入到典型的多聲道音頻解碼裝置,可獲得該音頻解碼裝置140,并且可維持與典型的多聲道音頻解碼裝置的兼容性。同樣的,音頻解碼裝置140可通過使用典型的多聲道解碼裝置的現(xiàn)有的工具來提高聲音質(zhì)量,諸如包絡(luò)整形器,子帶時域處理(STP)工具和去相關(guān)器。通過上述內(nèi)容,可以推斷出典型的多聲道音頻解碼方法的所有優(yōu)點都可被輕松的應(yīng)用于基于對象的音頻解碼方法。
由參數(shù)變換器145傳輸給多聲道解碼器141的空間參數(shù)信息可被
壓縮以適于傳輸??蛇x的是,空間參數(shù)信息可具有與由典型的多聲道編碼裝置所傳輸?shù)臄?shù)據(jù)一樣的格式。也就是說,空間參數(shù)信息可進入霍夫曼解碼操作或?qū)ьl解碼操作,并且可作為未壓縮的空間線索數(shù)據(jù)
(space cue data)傳輸給每個模塊。前一種適于通過遙控來傳輸空間參數(shù)信息給多聲道音頻解碼裝置,后一種也很方便,因為不需要多聲道音頻解碼裝置把壓縮的空間線索數(shù)據(jù)轉(zhuǎn)換到更容易在解碼操作中使用的未壓縮的空間線索數(shù)據(jù)。
根據(jù)邊信息和控制信息的分析的空間參數(shù)信息的配置可能導(dǎo)致縮減混音信號和空間參數(shù)信息之間的延遲。為了避免這一點,可提供一個額外的緩沖器用于縮減混音信號或用于空間參數(shù)信息,這樣縮減混音信號和空間參數(shù)信息可彼此同步。然而這些方法是不方便的,因為需要提供額外的緩沖器??蛇x的是,邊信息可于縮減混音信號之前被傳輸,其已經(jīng)考慮了可能發(fā)生的縮減混音信號和空間參數(shù)信息之間的延遲。在這種情況下,通過組合邊信息和控制信息而得到的空間參數(shù)信息不需要再被調(diào)整而可被容易的使用。
如果縮減混音信號的多個對象信號具有不同電平,能直接補償縮減混音信號的藝術(shù)縮減混音增益(ADG)模塊可以確定對象信號的相關(guān)電平,并且可使用諸如聲道電平差信息,聲道間相關(guān)性(ICC)信息和聲道預(yù)測系數(shù)(CPC)信息之類的空間線索數(shù)據(jù)來將每個對象信號分 配到多聲道空間中的預(yù)定位置。
舉例來說,如果控制信息指示一個預(yù)定對象信號將被分配到多聲 道空間中的預(yù)定位置,并且該對象信號的電平高于其它對象信號,典 型的多聲道解碼器可計算縮減混音信號的聲道能量之間的差,并且根 據(jù)計算的結(jié)果將縮減混音信號劃分為若干輸出聲道。然而,典型的多 聲道解碼器不能增加或減小縮減混音信號中聲音的音量。換句話說, 典型的多聲道解碼器簡單的將縮減混音信號分配給若干輸出聲道,并 且不增加或減小縮減混音信號中聲音的音量。
根據(jù)控制信息將由對象編碼器生成的多個對象信號的每一個分配 到多聲道空間中的預(yù)定位置也是相對很簡單的。然而,增加或減小預(yù) 定對象信號的增幅則需要特殊的技術(shù)。換句話說,如果使用由對象編 碼器生成的縮減混音信號,減小縮減混音信號的每個對象信號的幅度 是困難的。
因此,根據(jù)本發(fā)明一個實施例,可使用如圖8中所示的ADG模塊 147根據(jù)控制信息來改變對象信號的相關(guān)幅度。更具體的說,可以通過 使用ADG模塊147來增加或減小由對象編碼器所傳輸?shù)目s減混音信號 的多個對象信號的任何一個的幅度。由ADG模塊147執(zhí)行補償所獲得 的縮減混音信號可被進行多聲道解碼。
如果使用ADG模塊147來適當(dāng)?shù)恼{(diào)整縮減混音信號的對象信號的 相對幅度,則可以使用典型的多聲道解碼器來執(zhí)行對象解碼。如果由 對象編碼器生成的縮減混音信號是單聲道或立體聲信號或具有三個或 更多聲道的多聲道信號,該縮減混音信號可被ADG模塊147處理。如 果由對象編碼器生成的縮減混音信號具有兩個或更多聲道,并且需要 由ADG模塊147來調(diào)整的預(yù)定對象信號僅存在于縮減混音信號中的一 個聲道中,則ADG模塊147可僅被應(yīng)用于包括該預(yù)定對象信號的聲道,而不是應(yīng)用于縮減混音信號的所有聲道。由ADG模塊147通過上述方
法處理后的縮減混音信號可很容易的使用典型的多聲道解碼器來處 理,而不需要修改多聲道解碼器的結(jié)構(gòu)。
即使當(dāng)最終輸出的信號不是可被多聲道揚聲器再現(xiàn)的多聲道信
號,而是雙耳信號,可以使用ADG模塊147去調(diào)整最終輸出信號的對 象信號的相關(guān)幅度。
作為使用ADG模塊147的替代,在多個對象信號的生成期間,控 制信息中可包括指定將要應(yīng)用于每個對象信號的增益值的增益信息。 為此,可能要修改典型的多聲道解碼器的結(jié)構(gòu)。即使需要修改現(xiàn)有多 聲道解碼器的結(jié)構(gòu),在解碼操作期間,通過將增益值應(yīng)用于每個對象 信號,而不需要計算ADG和補償每個對象信號,該方法在降低解碼復(fù) 雜度方面還是很方便的。
圖9是根據(jù)本發(fā)明第四實施例的音頻解碼裝置150的方框圖。參 見圖9,音頻解碼裝置150的特征在于生成雙耳信號。
具體來說,音頻解碼裝置150包括多聲道雙耳解碼器151,第一參 數(shù)變換器157和第二參數(shù)變換器159。
第二參數(shù)變換器159分析由音頻編碼裝置提供的邊信息和控制信 息,并且根據(jù)分析結(jié)果來配置空間參數(shù)信息。第一參數(shù)變換器157通 過增加三維(3D)信息,例如頭相關(guān)傳輸函數(shù)(HRTF)參數(shù)給空間參 數(shù)信息,來配置可被多聲道雙耳解碼器151使用的雙耳參數(shù)信息。多 聲道雙耳解碼器151通過應(yīng)用虛擬3D參數(shù)信息給縮減混音信號來生成 虛擬三維(3D)信號。
第一參數(shù)變換器157和第二參數(shù)變換器159可被一個單獨的模塊 所取代,即參數(shù)變換模塊155,其接收邊信息、控制信息和HRTF參數(shù),
19并且根據(jù)邊信息、控制信息和HRTF參數(shù)來配置雙耳參數(shù)信息。
通常來說,為了使用頭戴式耳機生成用于包括io個對象信號的縮
減混音信號的再現(xiàn)的雙耳信號,對象信號必須根據(jù)縮減混音信號和邊
信息來分別生成對應(yīng)于io個對象信號的IO個解碼后的信號。其后,
渲染器參考控制信號將IO個對象信號的每一個分配到多聲道空間中的 預(yù)定位置以適于5聲道揚聲器環(huán)境。其后,渲染器生成可使用5聲道 揚聲器再現(xiàn)的5聲道信號。其后,渲染器將HRTF參數(shù)應(yīng)用到5聲道 信號中,從而生成2聲道信號。簡而言之,上述通常的音頻解碼方法 包括再現(xiàn)10個對象信號,將這10個對象信號轉(zhuǎn)換為5聲道信號, 并且根據(jù)5聲道信號生成2聲道信號,可見其效率是很低的。
在另一方面,音頻解碼裝置150可根據(jù)對象音頻信號而容易的生 成可使用頭戴式耳機再現(xiàn)的雙耳信號。另外,音頻解碼裝置150通過 對邊信息和控制信息的分析來配置空間參數(shù)信息,并且使用典型的多 聲道雙耳解碼器來生成雙耳信號。然而,即便在其裝配有一體化參數(shù) 變換器時,音頻解碼裝置150仍然可以使用典型的多聲道雙耳解碼器, 該參數(shù)變換器接收邊信息、控制信息和HRTF參數(shù),并且根據(jù)邊信息、 制信息和HRTF參數(shù)來配置雙耳參數(shù)信息。
圖IO是根據(jù)本發(fā)明第五實施例的音頻解碼裝置160的方框圖。參 見圖10,音頻解碼裝置160包括縮減混音處理器161,多聲道解碼器 163,和參數(shù)變換器165??s減混音處理器161和參數(shù)變換器163可被 單一模塊167替代。
參數(shù)變換器165生成可被多聲道解碼器163使用的空間參數(shù)信息, 和被縮減混音處理器161使用的參數(shù)信息。縮減混音處理器161執(zhí)行 對縮減混音信號的預(yù)處理操作,并且傳輸預(yù)處理操作結(jié)果的縮減混音 信號給多聲道解碼器163。多聲道解碼器163對由縮減混音處理器161 傳輸來的縮減混音信號執(zhí)行解碼操作,從而輸出立體聲信號、雙耳立體聲信號或多聲道信號。縮減混音處理器161所執(zhí)行的預(yù)處理操作的 例子包括通過濾波在時域或頻域中修改或變換縮減混音信號。
如果輸入到音頻解碼裝置160中的縮減混音信號是立體聲信號的 話,在該縮減混音信號被輸入多聲道解碼器163前,該縮減混音信號 可被用于由縮減混音處理器161執(zhí)行的縮減混音處理,因為多聲道解
碼器163不能將縮減混音信號的分量映射到對應(yīng)的左聲道和右聲道,
其中左聲道是多聲道的一個,而右聲道是多聲道的另一個。因此,為 了能將分類到左聲道的對象信號轉(zhuǎn)移到右聲道的方向上,輸入給音頻
解碼裝置160的縮減混音信號可被進行縮減混音處理器預(yù)處理,預(yù)處 理后的縮減混音信號可被輸入給多聲道解碼器163。
可根據(jù)從邊信息和從控制信息處獲得的預(yù)處理信息來執(zhí)行立體聲 縮減混音信號的預(yù)處理。
圖11是根據(jù)本發(fā)明第六實施例的音頻解碼裝置170的方框圖。參 見圖11,音頻解碼裝置170包括多聲道解碼器171,聲道處理器173 和參數(shù)變換器175。
參數(shù)變換器175生成可被多聲道解碼器171使用的空間參數(shù)信息, 和可被聲道處理器173使用的參數(shù)信息。聲道處理器173執(zhí)行對由多 聲道解碼器171輸出的信號的后處理。多聲道解碼器171所輸出的信 號的例子包括立體聲信號,雙耳立體聲信號和多聲道信號。
聲道處理器173所執(zhí)行的后處理操作的例子包括修改或變換輸 出信號的每個聲道或所有聲道。舉例來說,如果邊信息包括關(guān)于預(yù)定 對象信號的基本頻率信息,聲道處理器173可參考該基本頻率信息從 預(yù)定對象信號中去除諧波分量。多聲道音頻解碼方法對于卡拉OK系統(tǒng) 來說可能不夠高效。然而,如果關(guān)于嗓音對象的基本頻率信息被包括 在邊信息中,且嗓音對象信號的諧波分量在后處理期間已被去除,通過使用圖11的實施例可實現(xiàn)高性能的卡拉OK系統(tǒng)。圖11的實施例也 可應(yīng)用于除嗓音對象信號之外的對象信號。舉例來說,可使用圖ll的 實施例來去除預(yù)定樂器的聲音。同樣,可以使用圖11的實施例來使用 關(guān)于對象信號的基本頻率信息來放大預(yù)定的諧波分量。
聲道處理器173可對縮減混音信號執(zhí)行額外的效果處理??蛇x的
是,聲道處理器173可把由額外的效果處理而獲得的信號加入到多聲 道解碼器ni輸出的信號。聲道處理器173可在任何需要的時候改變 對象的頻譜或修改縮減混音信號。如果直接執(zhí)行效果處理操作(諸如 對縮減混音信號的混響)并把效果處理操作所獲得的信號傳輸給多聲 道解碼器171不是很適當(dāng)?shù)脑挘暤捞幚砥?73可把經(jīng)效果處理操作 所獲得的信號加入到多聲道解碼器171的輸出,以代替對縮減混音信 號執(zhí)行效果處理。
音頻解碼裝置170可被設(shè)計為不僅包括聲道處理器173,還包括縮 減混音處理器。在這種情況下,縮減混音處理器可被安排在多聲道解 碼器171之前,并且聲道處理器173可被安排在多聲道解碼器171之 后。
圖12是根據(jù)本發(fā)明第七實施例的音頻解碼裝置210的方框圖。參 見圖12,音頻解碼裝置210使用多聲道解碼器213來代替對象解碼器。
具體而言,音頻解碼裝置210包括多聲道解碼器213,代碼轉(zhuǎn)換器 215,渲染器217和3D信息數(shù)據(jù)庫219。
渲染器217根據(jù)包括在控制信息中的對應(yīng)于索引數(shù)據(jù)的3D信息來 確定多個對象信號的3D位置。代碼轉(zhuǎn)換器215通過綜合關(guān)于多個對象 音頻信號的位置信息來生成基于聲道的邊信息,其中渲染器217將3D 信息應(yīng)用到了這些對象音頻信號中。多聲道解碼器213通過將基于聲 道的邊信息應(yīng)用到縮減混音信號來輸出3D信號。頭相關(guān)傳輸函數(shù)(HRTF)可作為一種3D信息被使用。HRTF是 一種傳輸函數(shù),其描述了在任意位置的聲源和耳朵之間的聲波的傳輸, 并且返回一個根據(jù)聲源的位置和高度而改變的值。如果使用HRTF來 濾波不帶方向性的信號,該信號可被聽成是從某個方向再現(xiàn)的。
當(dāng)接收到輸入比特流時,音頻解碼裝置210使用解復(fù)用器(未示 出)來從輸入比特流中提取基于對象的縮減混音信號和基于對象的參 數(shù)信息。接著,渲染器217從控制信息中提取用于確定多個對象音頻 信號位置的索引數(shù)據(jù),并且從3D信息數(shù)據(jù)庫219中抽出(withdraw) 與所提取的索引數(shù)據(jù)相對應(yīng)的3D信息。
具體來說,被音頻解碼裝置210所使用的包括在控制信息中的混 音參數(shù)信息不僅可以包括電平信息,還可以包括搜索3D信息所必須的 索引數(shù)據(jù)。混音參數(shù)信息還可包括關(guān)于聲道間時間差的時間信息,位 置信息和一個或多個通過適當(dāng)組合電平信息和時間信息所獲得的參 數(shù)。
可根據(jù)缺省的混音參數(shù)信息來初始確定對象音頻信號的位置,并 且隨后通過應(yīng)用相應(yīng)于用戶所期望的位置的3D信息給對象音頻信號 來改變位置??蛇x的是,如果用戶希望只將3D效果應(yīng)用到一些對象音 頻信號,關(guān)于其它用戶不希望應(yīng)用3D效果的對象音頻信號的電平信息 和時間信息可被使用為混音參數(shù)信息。
代碼轉(zhuǎn)換器215通過綜合由音頻編碼裝置所傳輸?shù)年P(guān)于N對象信 號的基于對象的參數(shù)信息和多個對象信號的位置信息來生成關(guān)于M聲 道的基于聲道的邊信息,渲染器217將諸如HRTF的3D信息應(yīng)用到了 上述對象信號的位置信息中。
多聲道解碼器213根據(jù)縮減混音信號和由代碼轉(zhuǎn)換器215所提供的基于聲道的邊信息來生成音頻信號,并且通過使用包括在基于聲道
的邊信息中的3D信息來執(zhí)行3D渲染操作而生成3D多聲道信號。
圖13是根據(jù)本發(fā)明第八實施例的音頻解碼裝置220的方框圖。參 見圖13,音頻解碼裝置220不同于圖12所示的音頻解碼裝置210,其 區(qū)別在于代碼轉(zhuǎn)換器225分離地傳輸基于聲道的邊信息和3D信息給多 聲道解碼器223。換句話說,音頻解碼裝置220的代碼轉(zhuǎn)換器225從關(guān) 于N個對象信號的基于對象的參數(shù)信息中獲得關(guān)于M個聲道的基于聲 道的邊信息,并且傳輸基于聲道的邊信息和應(yīng)用于N個對象信號的每 個的3D信息給多聲道解碼器223,然而音頻解碼裝置210的代碼轉(zhuǎn)換 器215傳輸包括3D信息的基于聲道的邊信息給多聲道解碼器213。
參見圖14,基于聲道的邊信息和3D信息可包括多個幀索引。因 此,多聲道解碼器223可參考每個基于聲道的邊信息和3D信息的幀索 引來同步基于聲道的邊信息和3D信息,并且可以應(yīng)用3D信息給對應(yīng) 于該3D信息的比特流的幀。例如,具有索引2的3D信息可被應(yīng)用到 具有索引2的幀2的開始。
因為基于聲道的邊信息和3D信息都包括幀索引,即使3D信息隨 著時間而更新,也可以有效地確定3D信息要被應(yīng)用到的基于聲道的邊 信息的臨時位置。換句話說,代碼轉(zhuǎn)換器225包括3D信息和基于聲道 的邊信息中的多個幀索引,因此多聲道解碼器223可容易地同步基于 聲道的邊信息和3D信息。
縮減混音處理器231,代碼轉(zhuǎn)換器235,渲染器237和3D信息數(shù) 據(jù)庫可由一個單獨的模塊239替代。
圖15是根據(jù)本發(fā)明第九實施例的音頻解碼裝置230的方框圖。參 見圖15,音頻解碼裝置230不同于圖13所示的音頻解碼裝置220,其 區(qū)別在于音頻解碼裝置230進一步包括縮減混音處理器231 。具體來說,音頻解碼裝置230包括代碼轉(zhuǎn)換器235,渲染器237, 3D信息數(shù)據(jù)庫238,多聲道解碼器233和縮減混音處理器231。代碼 轉(zhuǎn)換器235,渲染器237, 3D信息數(shù)據(jù)庫238和多聲道解碼器233與 圖13所示的對應(yīng)部分分別相同??s減混音處理器231對立體聲縮減混 音信號執(zhí)行預(yù)處理操作以調(diào)整位置。3D信息數(shù)據(jù)庫238可與渲染器237 合并。還可以提供用于應(yīng)用預(yù)定效果給縮減混音信號的模塊給音頻解 碼裝置230。
圖16表示根據(jù)本發(fā)明第十實施例的音頻解碼裝置240的方框圖。 參見圖16,音頻解碼裝置240不同于圖15所示的音頻解碼裝置230, 其區(qū)別在于音頻解碼裝置240包括多點控制單元組合器241。
也就是說,音頻解碼裝置240與音頻解碼裝置230 —樣,包括縮 減混音處理器243,多聲道解碼器244,代碼轉(zhuǎn)換器245,渲染器247 和3D信息數(shù)據(jù)庫249。多點控制單元組合器241組合由基于對象的編 碼所獲得的多個比特流,從而獲得單一的比特流。舉例來說,當(dāng)輸入 用于第一音頻信號的第一比特流和用于第二音頻信號的第二比特流 時,多點控制單元組合器241從第一比特流中提取第一縮減混音信號, 從第二比特流中提取第二縮減混音信號,并且通過組合第一和第二縮 減混音信號來生成第三縮減混音信號。此外,多點控制單元組合器241 從第一比特流中提取第一基于對象的邊信息,從第二比特流中提取第 二基于對象的邊信息,并且通過組合第一基于對象的邊信息和第二基 于對象的邊信息來生成第三基于對象的邊信息。其后,多點控制單元 組合器241通過組合第三縮減混音信號和第三基于對象的邊信息來生 成比特流,并且輸出所生成的比特流。
因此,根據(jù)本發(fā)明第十實施例,相比較于編碼或解碼每個對象信 號的情況,即使是由兩個或多個通信方傳輸?shù)男盘?,其也可以有效?被處理。多點控制單元組合器241為了能夠?qū)⒍鄠€從多個比特流中分別提取出來的,并且與不同壓縮編解碼相對應(yīng)的縮減混音信號合并到一個單獨的縮減混音信號中,這些縮減混音信號需要根據(jù)縮減混音信號的壓縮編解碼類型被轉(zhuǎn)換為脈沖編碼調(diào)制(PCM)信號或預(yù)定頻域中的信號,PCM信號或通過轉(zhuǎn)換所獲得的信號可能需要組合在一起,通過組合所獲得的信號需要使用預(yù)定壓縮編解碼來轉(zhuǎn)換。在這種情況下,
根據(jù)縮減混音信號是否被并入PCM信號或預(yù)定頻域中的信號,可能會
發(fā)生延遲。然而,該延遲可能無法被解碼器正確地估計。因此,該延遲可能需要被包括在比特流中并與比特流一起被傳輸。該延遲指示在
PCM信號中的延遲采樣的數(shù)量或在預(yù)定頻域中的延遲采樣的數(shù)量。
與在典型的多聲道編/解碼操作期間(例如5.1聲道或7.1聲道編/解碼操作)通常處理的輸入信號的數(shù)量相比,在基于對象的音頻編/解碼操作期間需要處理的輸入信號的數(shù)量有時會相當(dāng)大。因此,基于對象的音頻編/解碼方法比典型的基于聲道的音頻編/解碼需要更高的比特率。然而,因為基于對象的音頻編/解碼方法包括對比聲道信號更小的對象信號的處理,其可使用基于對象的音頻編/解碼方法來生成動態(tài)的輸出信號。
下面將參見附圖17-20來詳細解釋根據(jù)本發(fā)明一個實施例的音頻編碼方法。
在基于對象的音頻編碼方法中,對象信號可被定義為表示單獨的聲音,諸如人類的語音或樂器的聲音??蛇x的是,具有相同特征的聲音,諸如有弦樂器的聲音(例如小提琴,中提琴和大提琴),屬于相同頻帶的聲音,或根據(jù)聲源的方向和角度被分類到相同類別的聲音可被組合在一起,并且由相同的對象信號來定義。仍然可選的是,可使用上述方法的組合來定義對象信號。
26多個對象信號可作為縮減混音信號和邊信息而被傳輸。在將要被傳輸?shù)男畔⒌膭?chuàng)建期間,對縮減混音信號或縮減混音信號的多個對象信號的每一個的能量或功率被進行初始計算以用于檢測縮減混音信號的包絡(luò)。計算的結(jié)果可被用于傳輸對象信號或縮減混音信號或計算對象信號的電平比率。
線性預(yù)測編碼(LPC)算法可被用于更低比特率。具體來說,通
過信號分析來生成表示信號的包絡(luò)的多個LPC系數(shù),并且這些LPC系
數(shù)將被傳輸以代替?zhèn)鬏旉P(guān)于信號的包絡(luò)信息。該方法在比特率方面是
高效的。然而LPC參數(shù)很可能與信號的實際包絡(luò)有差異,該方法需要
額外的處理,諸如錯誤校正。簡而言之,涉及傳輸信號的包絡(luò)信息的方法可保證聲音的高質(zhì)量,但這導(dǎo)致了需要傳輸?shù)男畔⒘康脑黾?。?br>
另一方面,涉及使甩LPC系數(shù)的方法可減少需要傳輸?shù)男畔⒘浚切枰~外的處理,諸如錯誤校正,這將導(dǎo)致聲音質(zhì)量的降低。
根據(jù)本發(fā)明的一個實施例,可以使用這些方法的組合。換句話說,可以用信號的能量或功率或索引值或?qū)?yīng)于信號的能量或功率的另一個值,如LPC系數(shù)來表示信號的包絡(luò)。
關(guān)于信號的包絡(luò)信息能以時間段或頻率段為單位來獲得。具體來說,參見圖17,關(guān)于信號的包絡(luò)信息以幀為單元來獲得??蛇x的是,如果信號是由使用諸如正交鏡像濾波器(QMF)組的濾波器組的頻帶結(jié)構(gòu)所表示的,關(guān)于信號的包絡(luò)信息能以頻率子帶,頻率子帶的組,或頻率子帶分隔的組為單位來獲得,頻率子帶分隔是比頻率子帶更小
塊的實體。仍然可選的是,基于幀的方法,基于頻率子帶的方法,和基于頻率子帶分隔的方法的組合的使用也在本發(fā)明的保護范圍之內(nèi)。
仍然可選的是,假設(shè)信號的低頻分量具有比信號的高頻分量更多的信息,關(guān)于信號的低頻分量的包絡(luò)信息本身可被傳輸,然而,關(guān)于信號的高頻分量的包絡(luò)信息可由LPC系數(shù)或其它值來表示,并且傳輸LPC系數(shù)或其它值以代替關(guān)于信號的高頻分量的包絡(luò)信息。但是,信號的低頻分量不一定就比信號的高頻分量有更多的信息。因此需要根據(jù)實際情況靈活運用上述方法。
根據(jù)本發(fā)明一個實施例,對應(yīng)于信號的一部分(以下稱為主要部分)的包絡(luò)信息或索引數(shù)據(jù)將被傳輸,該信號的一部分是在時間/頻率軸上表現(xiàn)為主要部分??蛇x的是,表示信號的主要部分的能量和功率的值(例如LPC系數(shù))可被傳輸,并且不傳輸對應(yīng)于信號的非主要部分的這些值。仍然可選的是,可傳輸相應(yīng)于信號的主要部分的包絡(luò)信息或索引數(shù)據(jù),而也可傳輸表示信號的非主要部分的能量或功率的值。仍然可選的是,僅傳輸關(guān)于信號的主要部分的信息,這樣可根據(jù)關(guān)于信號的主要部分的信息來估計信號的非主要部分。仍然可選的是,可以使用上述方法的組合。
舉例來說,參見圖18,如果信號被劃分為主要時期和非主要時期,
關(guān)于信號的信息可使用標(biāo)記為(a)-(d)的四種不同的方法來傳輸。
為了傳輸縮減混音信號和邊信息的組合的多個對象信號,作為解碼操作的一部分,縮減混音信號需要被劃分為多個元素,例如,考慮了對象信號的電平的比率。為了保證縮減混音信號的元素之間的獨立性,需要額外的執(zhí)行去相關(guān)操作。
作為基于對象的編解碼方法中的編解碼單元的對象信號比作為多聲道編解碼方法中的編解碼單元的聲道信號具有更多獨立性。換句話說,聲道信號包括多個對象信號,所以需要被去相關(guān)。在另一個方面,對象信號之間是獨立的,所以可使用對象信號的特征而容易的執(zhí)行聲道分離而不需要去相關(guān)操作。
具體來說,參見圖19,對象信號A, B和C輪流作為頻率軸上的主要對象。在這種情況下,不需要根據(jù)對象信號A, B和C的電平比率而將縮減混音信號劃分為多個信號,也不需要執(zhí)行去相關(guān)。作為代替,關(guān)于對象信號A, B和C的主要時期的信息將被傳輸,或?qū)⒃鲆嬷祽?yīng)用到每個對象信號A, B和C的每個頻率分量上,從而跳過去相關(guān)。因此,其可以減少計算量,并且可以減少去相關(guān)所必需的邊信息所需要比特率。
簡而言之,為了跳過去相關(guān),關(guān)于包括每個對象信號的頻域的信息可作為邊信息被傳輸,該去相關(guān)被執(zhí)行以保證由根據(jù)縮減混音信號的對象信號率的比率來劃分縮減混音信號所獲得的多個信號之間的獨立性??蛇x的是,可以應(yīng)用不同增益值給主要時期和非主要時期,主要時期中每個對象信號都表現(xiàn)為主要,非主要時期中每個對象信號都
表現(xiàn)為不太主要,因此關(guān)于主要時期的信息可被主要提供為邊信息。仍然可選的是,關(guān)于主要時期的信息可作為邊信息被傳輸,并且不傳輸沒有關(guān)于非主要時期的信息。仍然可選的是,作為去相關(guān)方法的替代的上述方法的組合可被使用。
作為去相關(guān)方法的替代的上述方法可被應(yīng)用到所有信號對象,或僅被應(yīng)用到某些具有明顯可識別的主要周期的對象信號。同樣的,作為去相關(guān)方法的替代的上述方法可以幀為單位被應(yīng)用。
以下將詳細描述使用殘差信號的對象音頻信號的編碼。
一般來說,在基于對象的音頻編/解碼方法中,多個對象信號被編碼,并且編碼結(jié)果作為縮減混音信號和邊信息的組合被傳輸。接著,通過解碼根據(jù)邊信息從縮減混音信號中恢復(fù)多個對象信號,并且恢復(fù)后的對象信號被適當(dāng)?shù)幕煲?,例如,在用戶的請求中根?jù)控制信息生成最終聲道信號?;趯ο蟮囊纛l編/解碼方法一般致力于根據(jù)控制信號在混音器的幫助下自由的改變輸出聲道信號。然而,基于對象的音頻編/解碼方法還可被用于生成按照預(yù)定義方式的聲道輸出而不管控制
"f曰息。為此,邊信息不僅包括從縮減混音信號中獲得多個對象信號所必須的信息,還包括生成聲道信號所必須的混音參數(shù)信息。貝U,不需要混音器的幫助就可以生成最終聲道輸出信號。在這種情況下,可使用這種殘差編/解碼算法來提高聲音質(zhì)量。
典型的殘差編/解碼方法包括編/解碼信號和對編/解碼后的信號和原始信號之間的錯誤進行編/解碼,也就是殘差信號。在解碼操作期間,編碼后的信號被解碼,同時補償編碼后的信號和原始信號之間的錯誤,從而恢復(fù)與原始信號盡可能相同的信號。因為解碼后的信號和原始信號之間的錯誤通常來說是微不足道的,其可以減少執(zhí)行殘差編/解碼所必需的額外信息的量。
如果解碼器的最終聲道輸出被確定了,不僅要提供用于生成最終聲道信號所必需的混音參數(shù)信息,還要提供殘差編碼信息以作為邊信息。在這種情況下,其可以提高聲音質(zhì)量。
圖20是根據(jù)本發(fā)明一個實施例的音頻編碼裝置310的方框圖。參
照圖20,音頻編碼裝置310的特征在于其使用了殘差信號。
具體來說,音頻編碼裝置310包括編碼器311,解碼器313,第一混音器315,第二混音器319,加法器317和比特流生成器321。
第一混音器315執(zhí)行對于原始信號的混音操作,第二混音器319執(zhí)行對通過對原始信號執(zhí)行編碼操作和解碼操作所得到的信號的混音操作。加法器317計算第一混音器315輸出的信號和第二混音器319輸出的信號之間的殘差信號。比特流生成器321將殘差信號加入到邊信息中,并且傳輸加入后的結(jié)果。這樣的話,其可以提高聲音質(zhì)量。
殘差信號的計算可被應(yīng)用于信號的所有部分,或僅應(yīng)用于信號的低頻部分。可選的是,殘差信號的計算可被可變的僅應(yīng)用于包括基于幀到幀的主要信號的頻域中。仍然可選的是,可使用上述方法的組合。
因為包括殘差信號信息的邊信息的量比不包括殘差信號信息的邊信息的量要大,殘差信號的計算可僅被應(yīng)用于信號的那些直接影響聲音質(zhì)量的部分,從而防止比特率過多的增長。本發(fā)明可使用記錄在計算機可讀介質(zhì)上的計算機可讀代碼來實現(xiàn)。該計算機可讀記錄介質(zhì)可以是任何類型的記錄裝置,在其中數(shù)據(jù)以計算機可讀的方式被存儲。
計算機可讀記錄介質(zhì)的例子包括ROM, RAM, CD-ROM,磁盤,軟盤,
光學(xué)數(shù)據(jù)存儲器和載波(例如通過因特網(wǎng)的數(shù)據(jù)傳輸)。計算機可讀記錄介質(zhì)可通過連接到網(wǎng)絡(luò)上的多個計算機系統(tǒng)而被分配,所以計算機可讀代碼被寫入其中,并且以非集中方式被執(zhí)行。普通的本領(lǐng)域技術(shù)人員可容易的構(gòu)造出用于實現(xiàn)本發(fā)明的功能性程序、代碼和代碼段。
工業(yè)實用性
如上所述,根據(jù)本發(fā)明,通過受益于基于對象的音頻編碼和解碼方法的優(yōu)點,每個對象音頻信號的聲像可被定位。則,其可以通過對象音頻信號的再現(xiàn)來提供更真實的聲音。此外,本發(fā)明可被應(yīng)用于交互式游戲,并且可以提供更真實的虛擬實體經(jīng)歷給用戶。
盡管本發(fā)明已參照其優(yōu)選實施例進行了描述及說明,很明顯本領(lǐng)域的技術(shù)人員可做出多種形式上和細節(jié)上的改變,而不脫離由以下權(quán)利要求所定義的本發(fā)明的精神或范疇。
權(quán)利要求
1. 一種音頻解碼方法,其包括從音頻信號中提取縮減混音信號和基于對象的邊信息;基于所述縮減混音信號和來自于所述基于對象的邊信息的提取信息,生成修改后的縮減混音信號;基于所述基于對象的邊信息和用于渲染所述縮減混音信號的控制數(shù)據(jù)生成基于聲道的邊信息;以及基于所述修改后的縮減混音信號和所述基于聲道的邊信息,生成多聲道音頻信號。
2. 根據(jù)權(quán)利要求l所述的音頻解碼方法,其中,所述基于對象的 邊信息包括對象電平差信息、對象間互相關(guān)性信息、縮減混音增益信 息、縮減混音聲道電平差信息和絕對對象能量信息中的至少一個。
3. 根據(jù)權(quán)利要求1所述的音頻解碼方法,其中,所述提取信息包 括包絡(luò)信息、分組信息、增益信息、靜止期信息、電平差信息和對象 信號的殘差信號信息中的至少一個。
4. 根據(jù)權(quán)利要求3所述的音頻解碼方法,其中,所述包絡(luò)信息包 括線性預(yù)測編碼(LPC)系數(shù)信息、能量信息和功率信息中的至少一個。
5. 根據(jù)權(quán)利要求3所述的音頻解碼方法,其中,所述包絡(luò)信息包 括關(guān)于在時/頻軸上表現(xiàn)為主要的對象信號部分的包絡(luò)信息。
6. 根據(jù)權(quán)利要求l所述的音頻解碼方法,其中,所述基于對象的 邊信息包括關(guān)于所述縮減混音信號和所述基于對象的邊信息之間的延 遲信息。
7. 根據(jù)權(quán)利要求1所述的音頻解碼方法,其中,所述基于對象的邊信息包括表示是否通過基于對象的編碼或基于聲道的編碼已經(jīng)生成 所述音頻信號的信息。
8. —種音頻解碼裝置,其包括解復(fù)用器,用于從音頻信號中提取縮減混音信號和基于對象的邊 仏息;對象解碼器,用于基于所述縮減混音信號和預(yù)定信息生成修改后 的縮減混音信號,并基于所述基于對象的邊信息和用于渲染所述縮減 混音信號的控制數(shù)據(jù)生成基于聲道的邊信息,所述預(yù)定信息是從所述基于對象的邊信息中提取的;以及多聲道解碼器,用于基于所述修改后的縮減混音信號和所述基于 聲道的邊信息生成多聲道音頻信號。
9. 根據(jù)權(quán)利要求8所述的音頻解碼裝置,其中,所述基于對象的 邊信息包括對象電平差信息,對象間互相關(guān)性信息,縮減混音增益信 息,縮減混音聲道電平差信息和絕對對象能量信息中的至少一個。
10. 根據(jù)權(quán)利要求8所述的音頻解碼裝置,其中,所述預(yù)定信息 包括包絡(luò)信息、分組信息、增益信息、靜止期信息,電平差信息和對 象信號的殘差信號信息中的至少一個。
11. 根據(jù)權(quán)利要求IO所述的音頻解碼裝置,其中,所述包絡(luò)信息包括線性預(yù)測編碼(LPC)系數(shù)信息、能量信息和功率信息中的至少一 個。
12. 根據(jù)權(quán)利要求8所述的音頻解碼裝置,其中,所述基于對象 的邊信息包括關(guān)于所述縮減混音信號和所述基于對象的邊信息之間的 延遲信息。
13. 根據(jù)權(quán)利要求8所述的音頻解碼裝置,其中,所述基于對象的邊信息包括關(guān)于所述縮減混音信號和所述基于對象的邊信息之間的 延遲的信息。
14. 一種音頻編碼方法,其包括通過縮減混音對象音頻信號來生成縮減混音信號; 通過提取關(guān)于所述對象音頻信號的信息以生成基于對象的邊信息,和把用于修改所述縮減混音信號的預(yù)定信息插入到所述基于對象的邊信息;以及通過組合其中插入了所述預(yù)定信息的所述基于對象的邊信息和所 述縮減混音信號,生成比特流。
15. 根據(jù)權(quán)利要求14所述的音頻編碼方法,其中,所述用于修改縮減混音信號的信息包括包絡(luò)信息、分組信息、靜止期信息和對象信 號的殘差信號信息中的至少一個。
16. 根據(jù)權(quán)利要求14所述的音頻編碼方法,其中,所述用于修改 縮減混音信號的信息包括關(guān)于所述縮減混音信號和所述基于對象的邊 信息之間的延遲信息。
17. 根據(jù)權(quán)利要求14所述的音頻編碼方法,其進一步包括插入表示所述對象音頻信號已通過基于對象的編碼被編碼為所述比特流的 信息。
18. —種計算機可讀記錄介質(zhì),其上記錄了用于執(zhí)行音頻解碼方 法的計算機程序,所述音頻解碼方法包括從音頻信號中提取縮減混音信號和基于對象的邊信息; 基于所述縮減混音信號和從所述基于對象的邊信息中所提取的預(yù) 定信息,生成修改后的縮減混音信號;基于所述基于對象的邊信息和用于渲染所述縮減混音信號的控制數(shù)據(jù)生成基于聲道的邊信息;以及基于所述修改后的縮減混音信號和所述基于聲道的邊信息,生成 多聲道音頻信號。
19. 一種計算機可讀記錄介質(zhì),其上記錄了用于執(zhí)行音頻編碼方法的計算機程序,所述音頻解碼方法包括通過縮減混音對象音頻信號來生成縮減混音信號; 通過提取關(guān)于所述對象音頻信號的信息以生成基于對象的邊信息,和把用于修改所述縮減混音信號的預(yù)定信息插入到所述基于對象的邊信息;以及通過組合其中插入了所述預(yù)定信息的所述基于對象的邊信息和所 述縮減混音信號,生成比特流。
全文摘要
提供了一種音頻編碼方法和裝置以及一種音頻解碼方法和裝置。該音頻信號解碼方法包括從音頻信號中提取縮減混音信號和基于對象的邊信息;基于該縮減混音信號和從該基于對象的邊信息所提取的提取信息,生成修改后的縮減混音信號;基于該基于對象的邊信息和用于渲染該縮減混音信號的控制數(shù)據(jù)生成基于聲道的邊信息;以及基于該修改的縮減混音信號和該基于聲道的邊信息,生成多聲道音頻信號。
文檔編號G10L19/00GK101479786SQ200780024233
公開日2009年7月8日 申請日期2007年10月1日 優(yōu)先權(quán)日2006年9月29日
發(fā)明者尹圣龍, 房熙錫, 李顯國, 林宰顯, 金東秀 申請人:Lg電子株式會社