使用上混合的音頻編碼的制作方法

文檔序號(hào)：2831863閱讀：662來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：使用上混合的音頻編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及使用信號(hào)上混合(up-mixing)的音頻編碼。

背景技術(shù)：
已經(jīng)提出了許多音頻編碼算法，以對(duì)一聲道(即單聲道)音頻信號(hào)的音頻數(shù)據(jù)進(jìn)行有效的編碼和壓縮。利用心理聲學(xué)，可以對(duì)音頻采樣進(jìn)行適當(dāng)?shù)乜s放、量化或甚至將其設(shè)置為零，以從例如PCM編碼的音頻信號(hào)中去除不相關(guān)性。并執(zhí)行冗余刪除。
進(jìn)一步地，利用了立體聲音頻信號(hào)中的左和右聲道之間的相似性，以對(duì)立體聲音頻信號(hào)進(jìn)行有效的編碼/壓縮。
然而，即將來臨的應(yīng)用對(duì)音頻編碼算法提出了更多要求。例如，在電話會(huì)議、計(jì)算機(jī)游戲、音樂表演等中，必須并行傳送部分或甚至完全不相關(guān)的若干音頻信號(hào)。為了使用于對(duì)這些音頻信號(hào)進(jìn)行編碼的必要比特率保持足夠低，以與低比特率傳送應(yīng)用兼容，近來已經(jīng)提出了將多個(gè)輸入音頻信號(hào)下混合為下混合信號(hào)(如立體聲或甚至單聲道下混合信號(hào))的音頻編解碼器。例如，MPEG環(huán)繞標(biāo)準(zhǔn)以該標(biāo)準(zhǔn)所規(guī)定的方式，將輸入聲道下混合為下混合信號(hào)。下混合是使用所謂的OTT-1和TTT-1盒(box)予以實(shí)現(xiàn)的，OTT-1和TTT-1盒分別將兩個(gè)信號(hào)下混合為一個(gè)信號(hào)和將三個(gè)信號(hào)下混合為兩個(gè)信號(hào)。為了對(duì)四個(gè)以上的信號(hào)進(jìn)行下混合，使用這些盒的分級(jí)結(jié)構(gòu)。除了單聲道下混合信號(hào)之外，每個(gè)OTT-1盒輸出兩個(gè)輸入聲道之間的聲道聲級(jí)差、以及表示兩個(gè)輸入聲道之間的相干或互相關(guān)的聲道間相干/互相關(guān)參數(shù)。在MPEG環(huán)繞數(shù)據(jù)流中，這些參數(shù)與MPEG環(huán)繞編碼器的下混合信號(hào)一起輸出。類似地，每個(gè)TTT-1盒發(fā)送聲道預(yù)測(cè)系數(shù)，該聲道預(yù)測(cè)系數(shù)使得能夠從所產(chǎn)生的立體聲下混合信號(hào)恢復(fù)3個(gè)輸入聲道。在MPEG環(huán)繞數(shù)據(jù)流中，還將該聲道預(yù)測(cè)系數(shù)作為輔助信息來傳送。MPEG環(huán)繞解碼器使用所傳送的輔助信息對(duì)下混合信號(hào)進(jìn)行上混合，并恢復(fù)輸入至MPEG環(huán)繞編碼器的原始聲道。
然而，不幸的是，MPEG環(huán)繞不能滿足許多應(yīng)用所提出的全部要求。例如，MPEG環(huán)繞解碼器專門用于對(duì)MPEG環(huán)繞編碼器的下混合信號(hào)進(jìn)行上混合，以將MPEG環(huán)繞編碼器的輸入聲道恢復(fù)原樣。換言之，MPEG環(huán)繞數(shù)據(jù)流專門用于通過使用已用于編碼的揚(yáng)聲器配置來進(jìn)行回放。
然而，根據(jù)一些暗示，如果可以在解碼器側(cè)改變揚(yáng)聲器配置將是十分有利的。
為了滿足后者的需要，目前已設(shè)計(jì)了空間音頻對(duì)象編碼(SAOC)標(biāo)準(zhǔn)。每個(gè)聲道被視為單獨(dú)的對(duì)象，并將所有對(duì)象下混合為下混合信號(hào)。然而，此外，各獨(dú)立對(duì)象也可以包括獨(dú)立聲源，如樂器或聲樂音帶。然而，與MPEG環(huán)繞解碼器不同，SAOC解碼器能夠自由地對(duì)下混合信號(hào)進(jìn)行單獨(dú)的上混合，以將各獨(dú)立對(duì)象重放至任何揚(yáng)聲器配置。為了使SAOC解碼器能夠恢復(fù)已被編碼為SAOC數(shù)據(jù)流的各獨(dú)立對(duì)象，在SAOC比特流中，將對(duì)象聲級(jí)差，以及針對(duì)一起形成立體聲(或多聲道)信號(hào)的對(duì)象的對(duì)象間互相關(guān)參數(shù)作為輔助信息。此外，向SAOC解碼器/變碼器提供了啟示各獨(dú)立對(duì)象如何被下混合為下混合信號(hào)的信息。因此，在解碼器側(cè)，可以恢復(fù)各獨(dú)立SAOC聲道，并利用由用戶控制的呈現(xiàn)信息來將這些信號(hào)呈現(xiàn)至任何揚(yáng)聲器配置。
然而，雖然SAOC編解碼器被設(shè)計(jì)用于單獨(dú)地處理音頻對(duì)象，但是一些應(yīng)用的要求甚至更高。例如，卡拉OK應(yīng)用要求背景音頻信號(hào)與前景音頻信號(hào)的完全分離。反之，在獨(dú)唱(solo)模式下，必須將前景對(duì)象與背景對(duì)象分離。然而，由于同等地對(duì)待各獨(dú)立音頻對(duì)象，因此不可能分別從下混合信號(hào)中完全去除背景對(duì)象或前景對(duì)象。

發(fā)明內(nèi)容
因此，本發(fā)明的目的是提供一種分別使用音頻信號(hào)的下混合和上混合的音頻編解碼器，以更好地在例如卡拉OK/獨(dú)唱模式應(yīng)用中分離各獨(dú)立對(duì)象。
這個(gè)目的是通過根據(jù)權(quán)利要求19所述的解碼方法和根據(jù)權(quán)利要求20所述的程序來實(shí)現(xiàn)的。

參照附圖，更詳細(xì)地描述本申請(qǐng)的優(yōu)選實(shí)施例。附圖中圖1示出了可以在其中實(shí)現(xiàn)本發(fā)明的實(shí)施例的SAOC編碼器/解碼器配置的框圖；圖2示出了單聲道音頻信號(hào)的頻譜表示的示意和說明圖；圖3示出了根據(jù)本發(fā)明的實(shí)施例的音頻解碼器的框圖；圖4示出了根據(jù)本發(fā)明的實(shí)施例的音頻編碼器的框圖；圖5示出了作為對(duì)比實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖6示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖7a示出了根據(jù)對(duì)比實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器的框圖；圖7b示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器的框圖；圖8a和b示出了質(zhì)量測(cè)量結(jié)果圖；圖9示出了供對(duì)比用的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖10示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖11示出了根據(jù)另一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖12示出了根據(jù)另一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖；圖13a至h示出了反映根據(jù)本發(fā)明一實(shí)施例的用于SAOC比特流的可能語法的表格；圖14示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻解碼器的框圖；以及圖15示出了反映用于以信號(hào)告知傳送殘差信號(hào)所耗費(fèi)的數(shù)據(jù)量的可能語法的表格。

具體實(shí)施例方式 在以下更具體地描述本發(fā)明的實(shí)施例之前，為了更容易理解以下更詳細(xì)地概述的具體實(shí)施例，先對(duì)SAOC編解碼器和SAOC比特流中傳送的SAOC參數(shù)加以介紹。
圖1示出了SAOC編碼器10和SAOC解碼器12的總體配置。SAOC編碼器10接收N個(gè)對(duì)象(即音頻信號(hào)141至14N)作為輸入。具體地，編碼器10包括下混合器16，下混合器16接收音頻信號(hào)141至14N，并將其下混合為下混合信號(hào)18。在圖1中，將下混合信號(hào)示例性地示為立體聲下混合信號(hào)。然而，單聲道下混合信號(hào)也是可能的。將立體聲下混合信號(hào)18的聲道表示為L0和R0，在單聲道下混合的情況下，聲道僅表示為L0。為了使SAOC解碼器12能夠恢復(fù)各獨(dú)立對(duì)象141至14N，下混合器16向SAOC解碼器12提供了包括SAOC參數(shù)的輔助信息，該SAOC參數(shù)包括對(duì)象聲級(jí)差(OLD)、對(duì)象間互相關(guān)參數(shù)(IOC)、下混合增益值(DMG)、和下混合聲道聲級(jí)差(DCLD)。包括SAOC參數(shù)以及下混合信號(hào)18的輔助信息20形成了SAOC解碼器12所接收的SAOC輸出數(shù)據(jù)流。
SAOC解碼器12包括上混合器22，上混合器22接收下混合信號(hào)18以及輔助信息20，以恢復(fù)音頻信號(hào)141至14N，并將其呈現(xiàn)至任何用戶選擇的聲道集合241至24M，其中，輸入至SAOC解碼器12的呈現(xiàn)信息26規(guī)定了呈現(xiàn)方式。
音頻信號(hào)141至14N可以在任何編碼域(例如時(shí)域或頻譜域)被輸入下混合器16。在音頻信號(hào)141至14N在時(shí)域被饋入下混合器16的情況下(如經(jīng)PCM編碼)，下混合器16就使用濾波器組(如混合QMF組，即一組具有針對(duì)最低頻帶的奈奎斯特濾波器擴(kuò)展，以提高其中的頻率分辨率的復(fù)指數(shù)調(diào)制濾波器)，以特定濾波器組分辨率將信號(hào)轉(zhuǎn)移至頻譜域，在頻域域中，在與不同頻譜部分相關(guān)的若干子帶中表示音頻信號(hào)。如果音頻信號(hào)141至14N已經(jīng)是下混合器16所期望的表示形式，則下混合器16不必執(zhí)行頻譜分解。
圖2示出了剛剛提及的頻域中的音頻信號(hào)，可以看到，音頻信號(hào)被表示為多個(gè)子帶信號(hào)。子帶信號(hào)301至30P分別由小框32所表示的子帶值的序列構(gòu)成?？梢钥吹?，子帶信號(hào)301至30P的子帶值32在時(shí)間上相互同步，使得對(duì)于各個(gè)連續(xù)的濾波器組時(shí)隙34，每個(gè)子帶301至30P包括正好一個(gè)子帶值32。如頻率軸36所示，子帶信號(hào)301至30P與不同的頻率區(qū)域相關(guān)聯(lián)，如時(shí)間軸38所示，濾波器組時(shí)隙34在時(shí)間上連續(xù)排列。
如上所述，下混合器16根據(jù)輸入音頻信號(hào)141至14N來計(jì)算SAOC參數(shù)。下混合器16以某一時(shí)間/頻率分辨率執(zhí)行該計(jì)算，所述時(shí)間/頻率分辨率與由濾波器組時(shí)隙34和子帶分解所確定的原始時(shí)間/頻率分辨率相比，可以降低某一特定量，該特定量是通過相應(yīng)的語法元素bsFrameLength和bsFreqRes在輔助信息20中以信號(hào)告知給解碼器側(cè)的。例如，若干由連續(xù)濾波器組時(shí)隙34構(gòu)成的組可以形成幀40。換言之，可以將音頻信號(hào)劃分成例如在時(shí)間上重疊或在時(shí)間上緊鄰的幀。在這種情況下，bsFrameLength可以定義參數(shù)時(shí)隙41(即在SAOC幀40中用以計(jì)算SAOC參數(shù)(如OLD和IOC)的時(shí)間單元)的數(shù)目，bsFreqRes可以定義對(duì)其計(jì)算SAOC參數(shù)的處理頻帶的數(shù)目。通過這種方式，每個(gè)幀被劃分為圖2中以虛線42進(jìn)行示例的時(shí)間/頻率片(time/frequencytile)。
下混合器16根據(jù)以下公式來計(jì)算SAOC參數(shù)。具體地，下混合器16針對(duì)每個(gè)對(duì)象i計(jì)算對(duì)象聲級(jí)差其中，求和以及索引n和k分別遍歷所有濾波器組時(shí)隙34，以及屬于特定時(shí)間/頻率片42的所有濾波器組子帶30。因此，對(duì)音頻信號(hào)或?qū)ο骾的所有子帶值xi的能量進(jìn)行求和，并將求和結(jié)果對(duì)所有對(duì)象或音頻信號(hào)中能量值最大的片進(jìn)行歸一化。
此外，SAOC下混合器16能夠計(jì)算不同輸入對(duì)象141至14N對(duì)的對(duì)應(yīng)時(shí)間/頻率片的相似性度量。盡管SAOC下混合器16可以計(jì)算所有輸入對(duì)象141至14N對(duì)之間的相似性度量，但是，下混合器16也可以抑制對(duì)相似性度量的信號(hào)告知，或限制對(duì)形成公共立體聲聲道的左或右聲道的音頻對(duì)象141至14N的相似性度量的計(jì)算。不管怎樣，將該相似性度量稱為對(duì)象間互相關(guān)參數(shù)IOCi，j。按以下公式進(jìn)行計(jì)算其中，索引n和k再次遍歷屬于特定時(shí)間/頻率片42的所有子帶值，i和j表示音頻對(duì)象141至14N的特定對(duì)。
下混合器16通過使用應(yīng)用于每個(gè)對(duì)象141至14N的增益因子，對(duì)對(duì)象141至14N進(jìn)行下混合。也就是說，對(duì)對(duì)象i應(yīng)用增益因子Di，然后將所有這樣加權(quán)的對(duì)象141至14N求和，以獲得單聲道下混合信號(hào)。在圖1進(jìn)行示例的立體聲下混合信號(hào)的情況下，對(duì)對(duì)象i應(yīng)用增益因子D1，i，然后將所有這樣增益放大的對(duì)象求和，以獲得左下混合聲道L0，對(duì)對(duì)象i應(yīng)用增益因子D2，i，然后將所有這樣增益放大的對(duì)象求和以獲得右下混合聲道R0。
通過下混合增益DMGi(在立體聲下混合信號(hào)的情況下，通過下混合聲道聲級(jí)差DCLDi)將該下混合規(guī)則以信號(hào)告知給解碼器側(cè)。
根據(jù)以下公式來計(jì)算下混合增益 DMGi＝20log10(Di+ε)，(單聲道下混合)， (立體聲下混合)，其中ε是很小的數(shù)，如10-9。
對(duì)于DCLDs適用以下公式在正常模式下，下混合器16根據(jù)以下對(duì)應(yīng)公式來產(chǎn)生下混合信號(hào) 對(duì)于單聲道下混合或?qū)τ诹Ⅲw聲下混合因此，在上述公式中，參數(shù)OLD和IOC是音頻信號(hào)的函數(shù)，參數(shù)DMG和DCLD是D的函數(shù)。順帶一提的是，注意D可以隨時(shí)間變化。
因此，在正常模式下，下混合器16無側(cè)重地對(duì)所有對(duì)象141至14N進(jìn)行混合，即均等地對(duì)待所有對(duì)象141至14N。
上混合器22執(zhí)行下混合器過程的逆過程，并在一計(jì)算步驟，即中實(shí)現(xiàn)由矩陣A所表示的“呈現(xiàn)信息”，其中矩陣E是參數(shù)OLD和IOC的函數(shù)。
換言之，在正常模式下，不將對(duì)象141至14N分類為BGO(即背景對(duì)象)或FGO(即前景對(duì)象)。由呈現(xiàn)矩陣A來提供關(guān)于應(yīng)在上混合器22的輸出表示哪個(gè)對(duì)象的信息。例如，如果具有索引1的對(duì)象是立體聲背景對(duì)象的左聲道，具有索引2的對(duì)象是其右聲道，具有索引3的對(duì)象是前景對(duì)象，則呈現(xiàn)矩陣A可以是以產(chǎn)生卡拉OK類型的輸出信號(hào)。
然而，如上所述，通過使用SAOC編解碼器的這種正常模式來傳送BGO和FGO無法實(shí)現(xiàn)令人滿意的結(jié)果。
圖3和4描述了本發(fā)明的實(shí)施例，該實(shí)施例克服了剛剛描述的不足。這些圖中所描述的解碼器和編碼器及其相關(guān)功能可以表示圖1的SAOC編解碼器可切換至的附加模式，如“增強(qiáng)模式”。以下將介紹后一可能性的示例。
圖3示出了解碼器50。解碼器50包括用于計(jì)算預(yù)測(cè)系數(shù)的裝置52和用于對(duì)下混合信號(hào)進(jìn)行上混合的裝置54。
圖3的音頻解碼器50專門用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼，所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào)。第一類型音頻信號(hào)和第二類型音頻信號(hào)可以分別是單聲道或立體聲音頻信號(hào)。例如，第一類型音頻信號(hào)是背景對(duì)象而第二類型音頻信號(hào)是前景對(duì)象。也就是說，圖3和圖4的實(shí)施例未必局限于卡拉OK/獨(dú)唱模式應(yīng)用。相反，圖3的解碼器和圖4的編碼器可以有利地用于別處。
多音頻對(duì)象信號(hào)由下混合信號(hào)56和輔助信息58組成。輔助信息58包括聲級(jí)信息60，例如用于以第一預(yù)定時(shí)間/頻率分辨率(例如時(shí)間/頻率分辨率42)來描述第一類型音頻信號(hào)和第二類型音頻信號(hào)的頻譜能量。具體地，聲級(jí)信息60可以包括針對(duì)每對(duì)象和時(shí)間/頻率片的歸一化頻譜能量標(biāo)量值。該歸一化可以與在相應(yīng)時(shí)間/頻率片中第一和第二類型音頻信號(hào)中的最高頻譜能量值相關(guān)。后一可能性產(chǎn)生了用于表示聲級(jí)信息的OLD，這里也稱為聲級(jí)差信息。雖然以下的實(shí)施例使用OLD，但是，盡管這里沒有明確說明，但實(shí)施例可以使用其他歸一化的頻譜能量表示。
輔助信息58可選地包括殘差信息62，殘差信息62以第二預(yù)定時(shí)間/頻率分辨率指定了殘差聲級(jí)值，該第二預(yù)定時(shí)間/頻率分辨率可以等于或不同于第一預(yù)定時(shí)間/頻率分辨率。
用于計(jì)算預(yù)測(cè)系數(shù)的裝置52被配置為基于聲級(jí)信息60來計(jì)算預(yù)測(cè)系數(shù)。此外，裝置52還可以基于輔助信息58中也包括的互相關(guān)信息來計(jì)算預(yù)測(cè)系數(shù)。甚至，裝置52還可以使用輔助信息58中包括的時(shí)變下混合規(guī)則信息來計(jì)算預(yù)測(cè)系數(shù)。裝置52所計(jì)算的預(yù)測(cè)系數(shù)對(duì)于從下混合聲道56中恢復(fù)或上混合得到原始音頻對(duì)象或音頻信號(hào)是必需的。
相應(yīng)地，用于上混合的裝置54被配置為，基于從裝置52接收的預(yù)測(cè)系數(shù)64和(可選的)殘差信號(hào)62來對(duì)下混合信號(hào)56進(jìn)行上混合。當(dāng)使用殘差62時(shí)，解碼器50能夠更好地抑制從一種類型的音頻信號(hào)到另一種類型的音頻信號(hào)的串?dāng)_(cross talk)。裝置54也可以使用時(shí)變下混合規(guī)則來對(duì)下混合信號(hào)進(jìn)行上混合。此外，用于上混合的裝置54可以使用用戶輸入66，以決定在輸出68端實(shí)際輸出由下混合信號(hào)56恢復(fù)的音頻信號(hào)中的哪一個(gè)或以何種程度輸出。作為第一極端情況，用戶輸入66可以指示裝置54僅輸出與第一類型音頻信號(hào)近似的第一上混合信號(hào)。根據(jù)第二極端情況，相反地，裝置54僅輸出與第二類型音頻信號(hào)近似的第二上混合信號(hào)。折中情況也是可能的，根據(jù)折中情況，在輸出68呈現(xiàn)兩種上混合信號(hào)的混合。
圖4示出了適于產(chǎn)生由圖3的解碼器解碼的多音頻對(duì)象信號(hào)的音頻編碼器的實(shí)施例。圖4的編碼器由參考標(biāo)記80指示，該編碼器可以包括用于在要編碼的音頻信號(hào)84不在頻譜域中的情況下進(jìn)行頻譜分解的裝置82。在音頻信號(hào)84中，依次存在至少一個(gè)第一類型音頻信號(hào)和至少一個(gè)第二類型音頻信號(hào)。用于頻譜分解的裝置82被配置為，在頻譜上將每個(gè)這些信號(hào)84分解為例如如圖2所示的表示。也就是說，用于頻譜分解的裝置82以預(yù)定時(shí)間/音頻分辨率對(duì)音頻信號(hào)84進(jìn)行頻譜分解。裝置82可以包括濾波器組，如混合QMF組。
音頻編碼器80還包括用于計(jì)算聲級(jí)信息的裝置86、用于下混合的裝置88、以及(可選的)用于計(jì)算預(yù)測(cè)系數(shù)的裝置90和用于設(shè)置殘差信號(hào)的裝置92。此外，音頻編碼器80可以包括用于計(jì)算互相關(guān)信息的裝置，即裝置94。裝置86根據(jù)由裝置82可選地輸出的音頻信號(hào)，計(jì)算以第一預(yù)定時(shí)間/頻率分辨率描述第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)的聲級(jí)信息。類似地，裝置88對(duì)音頻信號(hào)進(jìn)行下混合。因此，裝置88輸出下混合信號(hào)56。裝置86也輸出聲級(jí)信息60。用于計(jì)算預(yù)測(cè)系數(shù)的裝置90的操作與裝置52類似。即裝置90根據(jù)聲級(jí)信息60來計(jì)算預(yù)測(cè)系數(shù)，并將預(yù)測(cè)系數(shù)64輸出至裝置92。裝置92接著基于下混合信號(hào)56、預(yù)測(cè)系數(shù)64、和第二預(yù)定時(shí)間/頻率分辨率下的原始音頻信號(hào)來設(shè)置殘差信號(hào)62，使得基于預(yù)測(cè)系數(shù)64和殘差信號(hào)62對(duì)下混合信號(hào)56進(jìn)行的上混合產(chǎn)生與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)，所述近似與不使用所述殘差信號(hào)62的情況相比有所改進(jìn)。
輔助信息58包括殘差信號(hào)62(如果存在)和聲級(jí)信息60，輔助信息58與下混合信號(hào)56一起形成了圖3解碼器所要解碼的多音頻對(duì)象信號(hào)。
如圖4所示，與圖3的描述類似，裝置90(如果存在)可以另外使用裝置94輸出的互相關(guān)信息和/或裝置88輸出的時(shí)變下混合規(guī)則來計(jì)算預(yù)測(cè)系數(shù)64。此外，用于設(shè)置殘差信號(hào)62的裝置92(如果存在)可以另外地使用裝置88輸出的時(shí)變下混合規(guī)則來適當(dāng)?shù)卦O(shè)置殘差信號(hào)62。
還應(yīng)注意，第一類型音頻信號(hào)可以是單聲道或立體聲音頻信號(hào)。對(duì)于第二類似的音頻信號(hào)也是如此。殘差信號(hào)62是可選的。然而如果存在殘差信號(hào)62，則在輔助信息中，可以以與用于計(jì)算例如聲級(jí)信息的參數(shù)時(shí)間/頻率分辨率相同的時(shí)間/頻率分辨率，或可以使用不同的時(shí)間/頻率分辨率，來以信號(hào)通知?dú)埐钚盘?hào)62。此外，可以將殘差信號(hào)的信號(hào)告知限于以信號(hào)告知了其聲級(jí)信息的時(shí)間/頻率片42所占的頻譜范圍的子部分。例如，可以在輔助信息58中，使用語法元素bsResidualBands和bsResidualFramesPerSAOCFrame來指示以信號(hào)告知?dú)埐钚盘?hào)所使用的時(shí)間/頻率分辨率。這兩個(gè)語法元素可以定義與形成片42的子劃分不同的另一個(gè)將幀劃分為時(shí)間/頻率片的子劃分。
順帶一提的是，注意，殘差信號(hào)62可以也可以不反映由潛在使用的核心編碼器96所導(dǎo)致的信息損失，音頻編碼器80可選地使用該核心編碼器96來對(duì)下混合信號(hào)56進(jìn)行編碼。如圖4所示，裝置92可以基于可由核心編碼器96的輸出或由輸入至核心編碼器96’的版本進(jìn)行重構(gòu)的下混合信號(hào)版本來執(zhí)行殘差信號(hào)62的設(shè)置。類似地，音頻解碼器50可以包括核心解碼器98，以對(duì)下混合信號(hào)56進(jìn)行解碼或解壓縮。
在多音頻對(duì)象信號(hào)中，將用于殘差信號(hào)62的時(shí)間/頻率分辨率設(shè)置為與用于計(jì)算聲級(jí)信息60的時(shí)間/頻率分辨率不同的時(shí)間/頻率分辨率的能力使得能夠?qū)崿F(xiàn)音頻質(zhì)量和多音頻對(duì)象信號(hào)的壓縮比之間的良好折衷。無論如何，殘差信號(hào)62使得能夠更好地根據(jù)用戶輸入66抑制要在輸出68輸出的第一和第二上混合信號(hào)中一音頻信號(hào)到另一音頻信號(hào)的串?dāng)_。
根據(jù)以下實(shí)施例，顯而易見，在對(duì)多于一個(gè)前景對(duì)象或第二類型音頻信號(hào)進(jìn)行編碼的情況下，可以在輔助信息中傳送兩個(gè)以上的殘差信號(hào)62。輔助信息可以允許單獨(dú)決定是否針對(duì)特定的第二類型音頻信號(hào)傳送殘差信號(hào)62。因此，殘差信號(hào)62的數(shù)目可以從一變化，最多為第二類型音頻信號(hào)的數(shù)目。
在圖3的音頻解碼器中，用于計(jì)算的裝置54可以被配置為，基于聲級(jí)信息(OLD)來計(jì)算由預(yù)測(cè)系數(shù)組成的預(yù)測(cè)系數(shù)矩陣C，裝置56可以被配置為，根據(jù)可由以下公式表示的計(jì)算，根據(jù)下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2 其中，根據(jù)d的聲道數(shù)目，“1”表示標(biāo)量或單位矩陣，D-1是由下混合規(guī)則唯一確定的矩陣，第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)該下混合規(guī)則被下混合為下混合信號(hào)的，輔助信息中也包括了該下混合規(guī)則，H是獨(dú)立于d但依賴于殘差信號(hào)的項(xiàng)(如果后者存在)。
如以上所述以及以下要進(jìn)一步描述的那樣，在輔助信息中，下混合規(guī)則可以隨時(shí)間變化和/或可在頻譜上變化。如果第一類型音頻信號(hào)是具有第一(L)和第二輸入聲道(R)的立體聲音頻信號(hào)，則聲級(jí)信息可以例如以時(shí)間/頻率分辨率42分別描述了第一輸入聲道(L)、第二輸入聲道(R)、以及第二類型音頻信號(hào)的歸一化頻譜能量。
上述計(jì)算(用于上混合的裝置56根據(jù)該計(jì)算來進(jìn)行上混合)甚至可表示為其中

是與L近似的第一上混合信號(hào)的第一聲道，

是與R近似的第一上混合信號(hào)的第二聲道，“1”在d為單聲道的情況下是標(biāo)量，在d為立體聲的情況下是2×2單位矩陣。如果下混合信號(hào)56是具有第一(L0)和第二輸出聲道(R0)的立體聲音頻信號(hào)，用于上混合的裝置56可以根據(jù)可由以下公式表示的計(jì)算來進(jìn)行上混合就依賴于殘差信號(hào)res的項(xiàng)H而言，用于上混合的裝置56可以根據(jù)可由以下公式表示的計(jì)算來進(jìn)行上混合多音頻對(duì)象信號(hào)甚至可以包括多個(gè)第二類型音頻信號(hào)，對(duì)每個(gè)第二類型音頻信號(hào)，輔助信息可以包括一個(gè)殘差信號(hào)。在輔助信息中可以存在殘差分辨率參數(shù)，該參數(shù)定義了頻譜范圍，輔助信息中在該頻譜范圍上傳送殘差信號(hào)。它甚至可以定義頻譜范圍的下限和上限。
此外，多音頻對(duì)象信號(hào)也可以包括空間呈現(xiàn)信息，用于在空間上將第一類型音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置。換言之，第一類型音頻信號(hào)可以是被下混合至立體聲的多聲道(多于兩個(gè)聲道)MPEG環(huán)繞信號(hào)。
以下，將描述的實(shí)施例利用了上述殘差信號(hào)信號(hào)通知。然而，注意術(shù)語“對(duì)象”通常用于雙重意義。有時(shí)，對(duì)象表示單獨(dú)的單聲道音頻信號(hào)。因此，立體聲對(duì)象可以具有形成立體聲信號(hào)的一個(gè)聲道的單聲道音頻信號(hào)。然而，在其他情況下，立體聲對(duì)象實(shí)際上可以表示兩個(gè)對(duì)象，即關(guān)于立體聲對(duì)象的右聲道的對(duì)象和關(guān)于左聲道的另一個(gè)對(duì)象。根據(jù)上下文，其實(shí)際意義將是顯而易見的。
在描述下一實(shí)施例之前，首先其動(dòng)力是2007年被選為參考模型0(RM0)的SAOC標(biāo)準(zhǔn)的基準(zhǔn)技術(shù)的不足。RM0允許以搖動(dòng)位置和放大/衰減的形式單獨(dú)操作多個(gè)聲音對(duì)象。在“卡拉OK”類型的應(yīng)用環(huán)境中表示了一種特殊場(chǎng)景。在這種情況下 ●單聲道、立體聲、或環(huán)繞背景情景(以下稱為背景對(duì)象BGO)從特定SAOC對(duì)象集合傳遞而來，背景對(duì)象BGO可以無改變地進(jìn)行再現(xiàn)，即通過具有未改變聲級(jí)的相同的輸出聲道再現(xiàn)每個(gè)輸入聲道信號(hào)，以及 ●有改變地再現(xiàn)感興趣的特定對(duì)象(以下稱為前景對(duì)象FGO)(通常是主唱)(典型地，F(xiàn)GO位于聲階的中部，可以將其消音，即嚴(yán)重衰減來允許跟唱)。
從主觀評(píng)價(jià)過程可以看到，并且從其下的技術(shù)原理可以預(yù)期到，對(duì)象位置的操作產(chǎn)生高質(zhì)量的結(jié)果，而對(duì)象聲級(jí)的操作一般地更加具有挑戰(zhàn)性。典型地，附加的信號(hào)放大/衰減越強(qiáng)，潛在的噪聲越多。就此而言，由于需要對(duì)FGO進(jìn)行極端(理想地完全)衰減，因此，卡拉OK場(chǎng)景的要求極高。
對(duì)偶的使用情形是僅再現(xiàn)FGO而不再現(xiàn)背景/MBO的能力，以下稱為獨(dú)唱模式。
然而，應(yīng)注意，如果包括了環(huán)繞背景情景，則被稱為多聲道背景對(duì)象(MBO)。圖5中示出的如下對(duì)于MBO的處理 ●使用常規(guī)5-2-5MPEG環(huán)繞樹(surround tree)102來對(duì)MBO進(jìn)行編碼。這導(dǎo)致產(chǎn)生立體聲MBO下混合信號(hào)104和MBO MPS輔助信息流106。
●接著，下級(jí)SAOC編碼器108將MBO下混合信號(hào)編碼為立體聲對(duì)象(即兩對(duì)象聲級(jí)差加聲道間相關(guān))以及所述(或多個(gè))FGO 110。這導(dǎo)致產(chǎn)生公共的下混合信號(hào)112和SAOC輔助信息流114。
在變碼器116中，對(duì)下混合信號(hào)112進(jìn)行預(yù)處理，將SAOC和MPS輔助信息流106、114轉(zhuǎn)換為單個(gè)MPS輸出側(cè)信息流118。目前，這是以不連續(xù)的方式發(fā)生的，即或者僅支持完全抑制FGO或僅支持完全抑制MBO。
最終，由MPEG環(huán)繞解碼器122來呈現(xiàn)所產(chǎn)生的下混合信號(hào)120和MPS輔助信息118。
在圖5中，將MBO下混合信號(hào)104和可控對(duì)象信號(hào)110組合為單個(gè)立體聲下混合信號(hào)112。可控對(duì)象110對(duì)下混合信號(hào)的這種“污染”導(dǎo)致難以恢復(fù)去除了可控對(duì)象110的、具有足夠高音頻質(zhì)量的卡拉OK版本。以下的建議旨在解決這一問題。
假定一個(gè)FGO(例如一個(gè)主唱)，以下圖6的實(shí)施例所使用的關(guān)鍵事實(shí)在于，SAOC下混合信號(hào)是BGO和FGO信號(hào)的組合，即對(duì)3個(gè)音頻信號(hào)進(jìn)行下混合并通過2個(gè)下混合聲道來傳送。理想地，這些信號(hào)應(yīng)當(dāng)在變碼器中再次分離，以產(chǎn)生純凈的卡拉OK信號(hào)(即去除FGO信號(hào))，或產(chǎn)生純凈的獨(dú)唱信號(hào)(即去除BGO信號(hào))。根據(jù)圖6的實(shí)施例，這是通過使用SAOC編碼器108中的“2至3”(TTT)編碼器元件124(正如在MPEG環(huán)繞規(guī)范中那樣被稱為TTT-1)，在SAOC編碼器中將BGO和FGO組合為單個(gè)SAOC下混合信號(hào)來實(shí)現(xiàn)的。這里FGO饋送了TTT-1盒124的“中央”信號(hào)輸入，BGO 104饋送了“左/右”TTT-1輸入L.R.。然后，變碼器116通過使用TTT解碼器元件126(正如在MPEG環(huán)繞中那樣被稱為TTT)來產(chǎn)生BGO 104的近似，即“左/右”TTT輸出L、R承載BGO的近似，而“中央”TTT輸出C承載FGO 110的近似。
當(dāng)將圖6的實(shí)施例與圖3和4中的編碼器和解碼器的實(shí)施例進(jìn)行比較時(shí)，參考標(biāo)記104與音頻信號(hào)84中的第一類型音頻信號(hào)相對(duì)應(yīng)，MPS編碼器102包括裝置82；參考標(biāo)記110與音頻信號(hào)84中的第二類型音頻信號(hào)相對(duì)應(yīng)，TTT-1盒124承擔(dān)了裝置88至92的功能職責(zé)，SAOC編碼器108實(shí)現(xiàn)了裝置86和94的功能；參考標(biāo)記112與參考標(biāo)記56相對(duì)應(yīng)；參考標(biāo)記114與輔助信息58減去殘差信號(hào)62相對(duì)應(yīng)；TTT盒126承擔(dān)了裝置52和54的功能職責(zé)，其中裝置54也包括混合盒128的功能。最后，信號(hào)120與在輸出68輸出的信號(hào)相對(duì)應(yīng)。此外，應(yīng)注意，圖6還示出了用于將下混合信號(hào)112從SAOC編碼器108傳送至SAOC變碼器116的核心編碼器/解碼器路徑131。該核心編碼器/解碼器路徑131與可選的核心編碼器96和核心解碼器98相對(duì)應(yīng)。如圖6所示，該核心編碼器/解碼器路徑131也可以對(duì)從編碼器108傳送至變碼器116的輔助信息進(jìn)行編碼/壓縮。
根據(jù)以下描述，引入圖6的TTT盒所產(chǎn)生的優(yōu)點(diǎn)將變得顯而易見。例如，通過 ●簡(jiǎn)單地將“左/右”TTT輸出L.R.饋入MPS下混合信號(hào)120(并將所傳送的MBO MPS比特流106傳遞至流118)，最終的MPS解碼器僅再現(xiàn)MBO。這與卡拉OK模式相對(duì)應(yīng)。
●簡(jiǎn)單地將“中央”TTT輸出C.饋入左和右MPS下混合信號(hào)120(并產(chǎn)生微小的MPS比特流118，將FGO 110呈現(xiàn)在期望的位置并呈現(xiàn)為期望的聲級(jí))，最終的MPS解碼器122僅再現(xiàn)FGO 110。這與獨(dú)唱模式相對(duì)應(yīng)。
在SAOC變碼器的“混合”盒128中執(zhí)行對(duì)3個(gè)輸出信號(hào)L.R.C.的處理。
與圖5相比，圖6的處理結(jié)構(gòu)提供了多種特別的優(yōu)點(diǎn) ●該框架提供了背景(MBO)100和FGO信號(hào)110的純凈的結(jié)構(gòu)分離。
●TTT元件126的結(jié)構(gòu)嘗試基于波形近可能好地重構(gòu)3個(gè)信號(hào)L.R.C.。因此，最終的MPS輸出信號(hào)130不僅由下混合信號(hào)的能量加權(quán)(和解相關(guān))形成，也由于TTT處理而在波形上更為接近。
●與MPEG環(huán)繞TTT盒126一起產(chǎn)生的是使用殘差編碼來增強(qiáng)重構(gòu)精度的可能性。按照這種方式，由于TTT-1124輸出的、并由用于上混合的TTT盒所使用的殘差信號(hào)132的殘差帶寬和殘差比特率增大，因此可以實(shí)現(xiàn)重構(gòu)質(zhì)量的顯著增強(qiáng)。理想地(即，在殘差編碼和下混合信號(hào)的編碼中量化無限細(xì)化)，可以消除背景(MBO)和FGO信號(hào)之間的干擾。
圖6的處理結(jié)構(gòu)具有多種特性 ●雙重卡拉OK/獨(dú)唱模式圖6的方法通過使用相同的技術(shù)裝置，提供了卡拉OK和獨(dú)唱的功能。也就是，重用(reuse)了例如SAOC參數(shù)。
●可改進(jìn)性通過控制TTT盒中使用的殘差編碼的信息量，可以根據(jù)需要來改進(jìn)卡拉OK/獨(dú)唱信號(hào)的質(zhì)量。例如，可以使用參數(shù)bsResidualSamplingFrequencyIndex、bsResidualBands以及bsResidualFramesPerSAOCFrame。
●下混合中FGO的定位當(dāng)使用如MPEG環(huán)繞規(guī)范中指定的TTT盒時(shí)，總是將FGO混入左右下混合聲道之間的中央位置。為了實(shí)現(xiàn)更靈活的定位，采用了一般化TTT編碼盒，其遵照相同的原理，但是允許非對(duì)稱地定位與“中央”輸入/輸出相關(guān)的信號(hào)。
●多FGO在所述的配置中，描述了僅使用一個(gè)FGO(這可以與最主要的應(yīng)用情況相對(duì)應(yīng))。然而，通過使用以下措施之一或其組合，所提出的概念也能夠提供多個(gè)FGO ○分組FGO與圖6所示的類似，與TTT盒的中央輸入/輸出連接的信號(hào)實(shí)際上可以是若干FGO信號(hào)之和而不僅是單個(gè)FGO信號(hào)。在多聲道輸出信號(hào)130中，可以對(duì)這些FGO進(jìn)行獨(dú)立的定位/控制(然而，當(dāng)以相同的方式對(duì)其進(jìn)行縮放/定位時(shí)，能夠?qū)崿F(xiàn)最大的質(zhì)量優(yōu)勢(shì))。它們?cè)诹Ⅲw聲下混合信號(hào)112中共享公共位置，并且只有一個(gè)殘差信號(hào)132。不管怎樣，都可以消除背景(MBO)與可控對(duì)象之間的干擾(盡管不是可控對(duì)象間的干擾)。
○級(jí)聯(lián)FGO通過擴(kuò)展圖6，可以克服關(guān)于下混合信號(hào)112中公共FGO位置的限制。通過對(duì)所述TTT結(jié)構(gòu)進(jìn)行多級(jí)級(jí)聯(lián)(每個(gè)級(jí)與一個(gè)FGO相對(duì)應(yīng)并產(chǎn)生殘差編碼流)，可以提供多個(gè)FGO。按照這種方式，理想地，也可以消除每個(gè)FGO之間的干擾。當(dāng)然，這種選項(xiàng)需要比使用分組FGO方法更高的比特率。稍后將對(duì)示例予以描述。
●SAOC輔助信息在MPEG環(huán)繞中，與TTT盒相關(guān)的輔助信息是聲道預(yù)測(cè)系數(shù)(CPC)對(duì)。相反，SAOC參數(shù)化和MBO/卡拉OK場(chǎng)景傳送每個(gè)對(duì)象信號(hào)的對(duì)象能量，以及MBO下混合的兩個(gè)聲道之間的信號(hào)間相關(guān)(即“立體聲對(duì)象”的參數(shù)化)。為了最小化相對(duì)于不帶增強(qiáng)型卡拉OK/獨(dú)唱模式的情況的參數(shù)化變化的數(shù)目，從而最小化比特流格式的改變，可以根據(jù)下混合信號(hào)(MBO下混合和FGO)的能量和MBO下混合立體聲對(duì)象的信號(hào)間相關(guān)來計(jì)算CPC。因此，不需要改變或增加所傳送的參數(shù)化，并且可以從所傳送的SAOC變碼器116中的SAOC參數(shù)化來計(jì)算CPC。按照這種方式，當(dāng)忽略殘差數(shù)據(jù)時(shí)，也可以使用常規(guī)模式的解碼器(不帶殘差編碼)來對(duì)使用增強(qiáng)型卡拉OK/獨(dú)唱模式的比特流進(jìn)行解碼。概括而言，圖6的實(shí)施例旨在對(duì)特定的選定對(duì)象(或不帶這些對(duì)象的情景)進(jìn)行增強(qiáng)型再現(xiàn)，并以以下方式，使用立體聲下混合擴(kuò)展當(dāng)前的SAOC編碼方法 ●在正常模式下，對(duì)每個(gè)對(duì)象信號(hào)，使用其在下混合矩陣中的條目來對(duì)其進(jìn)行加權(quán)(分別針對(duì)其對(duì)左右下混合聲道的貢獻(xiàn))。然后，對(duì)所有對(duì)左右下混合聲道的加權(quán)貢獻(xiàn)進(jìn)行求和，來形成左和右下混合聲道。
●對(duì)于增強(qiáng)型卡拉OK/獨(dú)唱性能，即在增強(qiáng)模式下，將所有對(duì)象貢獻(xiàn)分為形成前景對(duì)象(FGO)的對(duì)象貢獻(xiàn)集合和剩余對(duì)象貢獻(xiàn)(BGO)。對(duì)FGO貢獻(xiàn)求和形成單聲道下混合信號(hào)，對(duì)剩余背景貢獻(xiàn)求和形成立體聲下混合，使用一般化TTT編碼器元件對(duì)兩者進(jìn)行求和以形成公共的SAOC立體聲下混合。
因此，使用“TTT求和”(當(dāng)需要時(shí)可以級(jí)聯(lián))代替了常規(guī)的求和。
為了強(qiáng)調(diào)SAOC編碼器的正常模式和增強(qiáng)模式之間的剛剛提及的差別，參見圖7a和7b，其中圖7a關(guān)于正常模式，而圖7b關(guān)于增強(qiáng)模式?？梢钥吹?，在正常模式下，SAOC編碼器108使用前述DMX參數(shù)Dij來加權(quán)對(duì)象j，并將加權(quán)后的對(duì)象j添加至SAOC聲道i(即L0或R0)。在圖6的增強(qiáng)模式的情況下，僅需要DMX參數(shù)向量Di，即DMX參數(shù)Di指示了如何形成FGO 110的加權(quán)和，從而獲得TTT-1盒124的中央聲道C，并且DMX參數(shù)Di指示TTT-1盒如何將中央信號(hào)C分別分配給左MBO聲道和右MBO聲道，從而分別獲得LDMX或RDMX。
問題在于，對(duì)于非波形保持編解碼器(HE-AAC/SBR)，根據(jù)圖6的處理不能很好地工作。該問題的解決方案可以是一種針對(duì)HE-AAC和高頻的基于能量的一般化TTT模式。稍后，將描述解決該問題的實(shí)施例。
用于具有級(jí)聯(lián)TTT的可能的比特流格式如下以下是需要能夠在被認(rèn)為是“常規(guī)解碼模式”的情況下，被跳過的向SAOC比特流執(zhí)行的添加 numTTTs int for(ttt＝0；ttt＜numTTTs；ttt++) {no_TTT_obj[ttt] intTTT_bandwidth[ttt]； TTT_residual_stream[ttt] } 對(duì)于復(fù)雜度和存儲(chǔ)器要求，可以作出以下說明。從之前的說明可以看到，通過在編碼器和解碼器/變碼器中分別添加概念元件級(jí)(即一般化的TTT-1和TTT編碼器元件)來實(shí)現(xiàn)圖6的增強(qiáng)型卡拉OK/獨(dú)唱模式。兩個(gè)元件在復(fù)雜度方面與常規(guī)的“居中”TTT對(duì)應(yīng)物相同(系數(shù)值的改變不影響復(fù)雜度)。對(duì)于所設(shè)想的主要應(yīng)用(一個(gè)FGO作為主唱)，單個(gè)TTT就足夠了。
通過觀察整個(gè)MPEG環(huán)繞解碼器的結(jié)構(gòu)(對(duì)于相關(guān)立體聲下混合的情況(5-2-5配置)，由一個(gè)TTT元件和2個(gè)OTT元件組成)，可以理解該附加結(jié)構(gòu)與MPEG環(huán)繞系統(tǒng)的復(fù)雜度的關(guān)系。這已表明，所添加的功能在計(jì)算復(fù)雜度和存儲(chǔ)器消耗方面帶來了適度的代價(jià)(注意，使用殘差編碼的概念元件在平均意義上不比作為替代的包括解相關(guān)器在內(nèi)的對(duì)應(yīng)物更為復(fù)雜)。
圖6對(duì)MPEG SAOC參考模型的擴(kuò)展為特殊的獨(dú)唱或消音/卡拉OK類型的應(yīng)用提供了音頻質(zhì)量的改進(jìn)。再次應(yīng)注意的是，與圖5、6和7相對(duì)應(yīng)的描述所指的MBO是背景情景或BGO，一般地，MBO不局限于這種類型的對(duì)象，而也可以是單聲道或立體聲對(duì)象。
主觀評(píng)價(jià)過程解釋了在卡拉OK或獨(dú)唱應(yīng)用的輸出信號(hào)的音頻質(zhì)量方面的改進(jìn)。評(píng)價(jià)條件是 ●RM0 ●增強(qiáng)模式(res 0)(＝不使用殘差編碼) ●增強(qiáng)模式(res 6)(＝在最低的6個(gè)混合QMF頻帶使用殘差編碼) ●增強(qiáng)模式(res 12)(＝在最低的12個(gè)混合QMF頻帶使用殘差編碼) ●增強(qiáng)模式(res 24)(＝在最低的24個(gè)混合QMF頻帶使用殘差編碼) ●隱藏參考 ●較低的參考(3.5kHz頻帶受限版本的參考) 如果使用時(shí)不采用殘差編碼，則所提出的增強(qiáng)模式的比特率類似于RM0。所有其他增強(qiáng)模式對(duì)每6個(gè)殘差編碼頻帶需要約10kbit/s。
圖8a示出了對(duì)10個(gè)收聽主體進(jìn)行的消音/卡拉OK測(cè)試結(jié)果。所提出的方案的平均MUSHRA分?jǐn)?shù)總是高于RM0，并隨每級(jí)附加殘差編碼逐級(jí)增加。對(duì)于具有6個(gè)或更多頻帶殘差編碼的模式，可以清晰地觀察到相對(duì)RM0的性能在統(tǒng)計(jì)上的明顯改進(jìn)。
圖8b中對(duì)9個(gè)主體的獨(dú)唱測(cè)試的結(jié)果示出了所提出的方案的類似優(yōu)點(diǎn)。當(dāng)添加越來越多的殘差編碼時(shí)，平均MUSHRA分?jǐn)?shù)明顯增加。不使用和使用24個(gè)頻帶的殘差編碼的增強(qiáng)模式之間的增益幾乎為MUSHRA的50分。
總體上，對(duì)于卡拉OK應(yīng)用，可以比RM0高約10kbit/s的比特率實(shí)現(xiàn)良好的質(zhì)量。當(dāng)在RM0的最高比特率之上添加約40kbit/s時(shí)，可以實(shí)現(xiàn)優(yōu)秀的質(zhì)量。在給定最大固定比特率的實(shí)際應(yīng)用場(chǎng)景中，所提出的增強(qiáng)模式很好地支持用“無用比特率”來進(jìn)行殘差編碼，直到達(dá)到允許的最大比特率。因此，實(shí)現(xiàn)了盡可能好的總體音頻質(zhì)量。由于更智能地使用殘差比特率的緣故，對(duì)所提出的實(shí)驗(yàn)結(jié)果的進(jìn)一步改進(jìn)是可能的雖然所介紹的設(shè)置從直流到特定上界頻率始終使用殘差編碼，但是，增強(qiáng)型實(shí)現(xiàn)可以僅將比特用在與用于分離FGO和背景對(duì)象相關(guān)的頻率范圍上。
在之前的描述中，已經(jīng)描述了針對(duì)卡拉OK型應(yīng)用的SAOC技術(shù)的增強(qiáng)。以下將介紹用于MPEG SAOC的多聲道FGO音頻情景處理的增強(qiáng)型卡拉OK/獨(dú)唱模式的應(yīng)用的另外的詳細(xì)實(shí)施例。
與有所改變(alteration)地進(jìn)行再現(xiàn)的FGO相反，必須無改變地再現(xiàn)MBO信號(hào)，即通過相同的輸出聲道，以未改變的聲級(jí)再現(xiàn)每個(gè)輸入聲道信號(hào)。
由此，已提出了由MPEG環(huán)繞編碼器執(zhí)行的對(duì)MBO信號(hào)的預(yù)處理，該預(yù)處理產(chǎn)生立體聲下混合信號(hào)，用作要輸入至隨后的卡拉OK/獨(dú)唱模式處理級(jí)的(立體聲)背景對(duì)象(BGO)，所述處理級(jí)包括SAOC編碼器、MBO變碼器、和MPS解碼器。圖9再次示出了總體結(jié)構(gòu)圖。
可以看到，根據(jù)卡拉OK/獨(dú)唱模式編碼器結(jié)構(gòu)，輸入對(duì)象被分為立體聲背景對(duì)象(BGO)104和前景對(duì)象(FGO)110。
盡管在RM0中，由SAOC編碼器/變碼器系統(tǒng)來執(zhí)行對(duì)這些應(yīng)用場(chǎng)景的處理，但是，圖6的增強(qiáng)還利用了MPEG環(huán)繞結(jié)構(gòu)的基本構(gòu)成模塊。當(dāng)需要對(duì)特定音頻對(duì)象進(jìn)行較強(qiáng)的增大/衰減時(shí)，在編碼器中集成3至2(TTT-1)模塊并在變碼器中集成對(duì)應(yīng)的2至3(TTT)互補(bǔ)模塊改進(jìn)了性能。擴(kuò)展結(jié)構(gòu)的兩個(gè)主要特性是 -由于利用了殘差信號(hào)，實(shí)現(xiàn)了更好的(與RM0相比)信號(hào)分離， -通過一般化被表示為TTT-1盒中央輸入(即FGO)的信號(hào)的混合規(guī)則，對(duì)該信號(hào)進(jìn)行靈活定位。
由于TTT構(gòu)成模塊的直接實(shí)現(xiàn)涉及編碼器側(cè)的3個(gè)輸入信號(hào)，因此，圖6集中關(guān)注對(duì)作為如圖10所示的(下混合)單聲道信號(hào)的FGO的處理。也已經(jīng)說明了對(duì)多聲道FGO信號(hào)的處理，但是，在以下章節(jié)中將對(duì)其進(jìn)行更詳細(xì)地解釋。
從圖10可以看到，在圖6的增強(qiáng)模式中，將所有FGO的組合饋入TTT-1盒的中央聲道。
在如圖6和圖10的FGO單聲道下混合的情況下，編碼器側(cè)的TTT-1盒的配置包括被饋送至中央輸入的FGO、和提供左右輸入的BGO。
以下公式給出了基本的對(duì)稱矩陣該公式提供了下混合(L0 R0)T和信號(hào)F0 通過該線性系統(tǒng)獲得的第三信號(hào)被丟棄，但可以在集成了兩個(gè)預(yù)測(cè)系數(shù)c1和c2(CPC)的變碼器側(cè)，根據(jù)以下公式來對(duì)其進(jìn)行重構(gòu) 在變碼器中的逆過程由以下公式給出參數(shù)m1和m2對(duì)應(yīng)于 m1＝cos(μ)以及m2＝sin(μ) μ負(fù)責(zé)搖動(dòng)FGO在公共TTT下混合(L0 R0)T中的位置。可以使用所傳送的SAOC參數(shù)(即所有輸入音頻對(duì)象的對(duì)象音級(jí)差(OLD)和BGO下混合(MBO)信號(hào)的對(duì)象間相關(guān)(IOC))來估計(jì)變碼器側(cè)的TTT上混合單元所需的預(yù)測(cè)系數(shù)c1和c2。假定FGO和BGO信號(hào)統(tǒng)計(jì)獨(dú)立，對(duì)CPC估計(jì)，以下關(guān)系成立變量PLo、PRo、PLoRo、PLoFo和PRoFo可以按如下方式進(jìn)行估計(jì)，其中參數(shù)OLDL、OLDR和IOCLR與BGO相對(duì)應(yīng)，OLDF是FGO參數(shù) PLoRo＝IOCLR+m1m2OLDF PLoFo＝m1(OLDL-OLDF)+m2IOCLR PRoFo＝m2(OLDR-OLDF)+m1IOCLR 此外，可以在比特流內(nèi)傳送的殘差信號(hào)132表示了CPC的推導(dǎo)所引入的誤差，因此在某些應(yīng)用場(chǎng)景中，對(duì)所有FGO中的單個(gè)單聲道下混合進(jìn)行限制是不合適的，因此需要克服該問題。例如，可以將FGO劃分為在所傳送的立體聲下混合中位于不同位置和/或具有獨(dú)立衰減的兩個(gè)以上獨(dú)立的組。因此，圖11所示的級(jí)聯(lián)結(jié)構(gòu)暗示了兩個(gè)以上連續(xù)的TTT-1元件，在編碼器側(cè)產(chǎn)生了所有FGO組F1、F2的逐步的下混合，直至獲得所需的立體聲下混合112為止。每個(gè)(或至少一些)TTT-1盒124a、b(圖11中每個(gè)TTT-1盒)設(shè)置與TTT-1盒124a、b的各級(jí)分別對(duì)應(yīng)的殘差信號(hào)132a、132b。相反，變碼器通過使用各順序應(yīng)用的TTT盒126a、b(如有可能，集成對(duì)應(yīng)的CPC和殘差信號(hào))來執(zhí)行順序上混合。FGO處理的順序是由編碼器指定的，在變碼器側(cè)必須考慮。
以下描述圖11所示的兩級(jí)級(jí)聯(lián)所涉及的詳細(xì)的數(shù)學(xué)原理。
為了簡(jiǎn)化說明又不失一般性，以下的解釋基于如圖11所示的由兩個(gè)TTT元件組成的級(jí)聯(lián)。兩個(gè)對(duì)稱矩陣與FGO單聲道下混合類似，但是必須恰當(dāng)?shù)貞?yīng)用于各自的信號(hào) 以及這里，兩個(gè)CPC集合產(chǎn)生了以下信號(hào)重構(gòu) 以及逆過程可表示為以及兩級(jí)級(jí)聯(lián)的一種特殊情況包括一立體聲FGO，其左和右聲道被適當(dāng)?shù)厍蠛蜑锽GO的對(duì)應(yīng)聲道，使μ1＝0，
以及對(duì)于這種特別的搖動(dòng)風(fēng)格，通過忽略對(duì)象間相關(guān)(OLDLR＝0)，兩個(gè)CPC集合的估計(jì)可簡(jiǎn)化為 cL2＝0， cR1＝0，其中，OLDFL和OLDFR分別表示左右FGO信號(hào)的OLD。
一般的N級(jí)級(jí)聯(lián)情況是指依照以下公式的多聲道FGO下混合其中，每一級(jí)確定其自身的CPC和殘差信號(hào)的特征。
在變碼器側(cè)，逆級(jí)聯(lián)步驟由以下公式給出為了消除保持TTT元件的順序的必要性，通過將N個(gè)矩陣重新排列為單一對(duì)稱TTN矩陣的方式，可以將級(jí)聯(lián)結(jié)構(gòu)容易地轉(zhuǎn)換為等效的平行結(jié)構(gòu)，從而產(chǎn)生一般的TTN矩陣
其中，矩陣的前兩行表示要發(fā)送的立體聲下混合。另一方面，術(shù)語TTN(2至N)指變碼器側(cè)的上混合處理。
使用這種描述，進(jìn)行了特定搖動(dòng)的立體聲FGO的特殊情況將矩陣簡(jiǎn)化為相應(yīng)地，該單元可以被稱為2至4元件或TTF。
也可以產(chǎn)生重用SAOC立體聲預(yù)處理模塊的TTF結(jié)構(gòu)。
對(duì)于N＝4的限制，對(duì)現(xiàn)有SAOC系統(tǒng)的某些部分進(jìn)行重用的2至4(TTF)結(jié)構(gòu)的實(shí)現(xiàn)成為可能。以下段落中將描述該處理。
SAOC標(biāo)準(zhǔn)文本描述了針對(duì)“立體聲至立體聲代碼轉(zhuǎn)換模式”的立體聲下混合預(yù)處理。準(zhǔn)確地說，根據(jù)以下公式，由輸入立體聲信號(hào)X以及解相關(guān)信號(hào)Xd來計(jì)算輸出立體聲信號(hào)Y Y＝GModX+P2Xd 解相關(guān)分量Xd是原始呈現(xiàn)信號(hào)中已在編碼過程中被丟棄掉的部分的合成表示。根據(jù)圖12，使用合適的針對(duì)特定頻率范圍的由編碼器產(chǎn)生的殘差信號(hào)132來替換該解相關(guān)信號(hào)。
命名按如下方式定義 ●D是2×N下混合矩陣 ●A是2×N呈現(xiàn)矩陣 ●E是輸入對(duì)象S的N×N協(xié)方差模型 ●GMod(與圖12中的G相對(duì)應(yīng))是預(yù)測(cè)2×2上混合矩陣注意，GMod是D、A和E的函數(shù)。
為了計(jì)算殘差信號(hào)XRes，必須在編碼器中模仿解碼器處理，即確定GMod。一般地，場(chǎng)景A是未知的，但是，在卡拉OK場(chǎng)景的特殊情況下(例如具有一個(gè)立體聲背景和一個(gè)立體聲前景對(duì)象，N＝4)，假定這意味著僅呈現(xiàn)BGO。
為了估計(jì)前景對(duì)象，從下混合信號(hào)X中減去重構(gòu)的背景對(duì)象。在“混合”處理模塊中執(zhí)行該最終呈現(xiàn)。以下將介紹具體的細(xì)節(jié)。
呈現(xiàn)矩陣A被設(shè)置為其中，假定頭2列表示FGO的兩個(gè)聲道，后2列表示BGO的兩個(gè)聲道。
根據(jù)以下公式來計(jì)算BGO和FGO的立體聲輸出。
YBGO＝GModX+XRes 由于下混合權(quán)值矩陣D被定義為 D＝(DFGO|DBGO) 其中以及因此，F(xiàn)GO對(duì)象可以被設(shè)置為作為示例，對(duì)于下混合矩陣將其簡(jiǎn)化為 YFGO＝X-YBGO XRes是按上述方式得到的殘差信號(hào)。請(qǐng)注意，未添加解相關(guān)信號(hào)。
最終輸出Y由下式給出上述實(shí)施例也可以適用于使用單聲道FGO來替代立體聲FGO的情況。在這種情況下，根據(jù)以下內(nèi)容來改變處理。
呈現(xiàn)矩陣A被設(shè)置為其中，假定第一列表示單聲道FGO，隨后的列表表示BGO的兩個(gè)聲道。
根據(jù)以下公式來計(jì)算BGO和FGO的立體聲輸出。
YFGO＝GModX+XRes 由于下混合權(quán)值矩陣D被定義為 D＝(DFGO|DBGO) 其中以及因此，BGO對(duì)象可以被設(shè)置為作為示例，對(duì)于下混合矩陣將其簡(jiǎn)化為 XRes是按上述方式獲得的殘差信號(hào)。請(qǐng)注意，未添加解相關(guān)信號(hào)。最終輸出Y由以下公式給出對(duì)于5個(gè)以上FGO對(duì)象的處理，可以通過重組剛剛描述的處理步驟的并行級(jí)來擴(kuò)展上述實(shí)施例。
以上剛剛描述的實(shí)施例提供了針對(duì)多聲道FGO音頻情景的情況的增強(qiáng)型卡拉OK/獨(dú)唱模式的詳細(xì)描述。這樣的一般化旨在擴(kuò)大卡拉OK應(yīng)用場(chǎng)景的種類，對(duì)于卡拉OK應(yīng)用場(chǎng)景，可以通過應(yīng)用增強(qiáng)型卡拉OK/獨(dú)唱模式來進(jìn)一步改進(jìn)MPEG SAOC參考模型的聲音質(zhì)量。這種改進(jìn)是通過將一般NTT結(jié)構(gòu)引入SAOC編碼器的下混合部分，并將相應(yīng)的對(duì)應(yīng)物引入SAOCtoMPS變碼器來實(shí)現(xiàn)的。殘差信號(hào)的使用提高了質(zhì)量結(jié)果。
圖13a至13h示出了根據(jù)本發(fā)明的實(shí)施例的SAOC側(cè)信息比特流的可能語法。
在描述了與SAOC編解碼器的增強(qiáng)模式相關(guān)的一些實(shí)施例之后，應(yīng)注意，這些實(shí)施例中的一些涉及輸入至SAOC編碼器的音頻輸入不僅包含常規(guī)單聲道或立體聲聲源，而且包含多聲道對(duì)象的應(yīng)用場(chǎng)景。圖5至7b顯式地描述了這一點(diǎn)。這樣的多聲道背景對(duì)象MBO可以被看作包括較大且通常數(shù)目未知的聲源的復(fù)雜聲音情景，對(duì)于該情景不需要可控呈現(xiàn)功能。個(gè)別地，SAOC編碼器/解碼器架構(gòu)不能有效處理這些音頻源。因此，可以考慮擴(kuò)展SAOC架構(gòu)的概念，以處理這些復(fù)雜輸入信號(hào)(即MBO聲道)以及典型的SAOC音頻對(duì)象。因此，在剛剛提及的圖5至7b的實(shí)施例中，考慮將MPEG環(huán)繞編碼器包含于SAOC編碼器，如將SAOC編碼器108和MPS編碼器100圈住的虛線所示。所產(chǎn)生的下混合104用作輸入SAOC編碼器108的立體聲輸入對(duì)象，以可控SAOC對(duì)象110一起產(chǎn)生要發(fā)送至變碼器側(cè)的組合立體聲下混合112。在參數(shù)域中，將MPS比特流106和SAOC比特流104饋入SAOC變碼器116，SAOC變碼器116根據(jù)特定的MBO應(yīng)用場(chǎng)景，為MPEG環(huán)繞解碼器122提供合適的MPS比特流118。使用呈現(xiàn)信息或呈現(xiàn)矩陣并采用一些下混合預(yù)處理來執(zhí)行該任務(wù)，采用下混合預(yù)處理是為了將下混合信號(hào)112變換為用于MPS解碼器122的下混合信號(hào)120。
以下描述用于增強(qiáng)型卡拉OK/獨(dú)唱模式的另一個(gè)實(shí)施例。該實(shí)施例允許對(duì)多個(gè)音頻對(duì)象，在其聲級(jí)放大/衰減方面執(zhí)行獨(dú)立操作，而不會(huì)明顯降低結(jié)果聲音質(zhì)量。一種特殊的“卡拉OK類型”應(yīng)用場(chǎng)景需要完全抑制指定對(duì)象(通常是主唱，以下稱為前景對(duì)象FGO)，同時(shí)保持背景聲音情景的感知質(zhì)量不受損害。它同時(shí)需要單獨(dú)再現(xiàn)特定FGO信號(hào)而不再現(xiàn)靜態(tài)背景音頻情景(以下稱為背景對(duì)象BGO)的能力，該背景對(duì)象不需要搖動(dòng)方面的用戶可控性。這種場(chǎng)景被稱為“獨(dú)唱”模式。一種典型的應(yīng)用情況包含立體聲BGO和多達(dá)4個(gè)FGO信號(hào)，例如，這4個(gè)FGO信號(hào)可以表示兩個(gè)獨(dú)立的立體聲對(duì)象。
根據(jù)本實(shí)施例和圖14，增強(qiáng)型卡拉OK/獨(dú)唱模式變碼器150使用“2至N”(TTN)或“1至N”(OTN)元件152，TTN和OTN元件152均表示從MPEG環(huán)繞規(guī)范獲知的TTT盒的一般化和增強(qiáng)型修改。合適元件的選擇取決于所傳送的下混合聲道的數(shù)目，即TTN盒專門用于立體聲下混合信號(hào)，而OTN盒適用單聲道下混合信號(hào)。在SAOC編碼器中，對(duì)應(yīng)的TTN-1或OTN-1盒將BGO和FGO信號(hào)組合為公共的SAOC立體聲或單聲道下混合112，并產(chǎn)生比特流114。任一元件，即TTN或OTN 152支持下混合信號(hào)112中所有獨(dú)立FGO的任意預(yù)定義定位。在變碼器側(cè)，TTN或OTN盒152僅使用SAOC輔助信息114，并可選地結(jié)合殘差信號(hào)，根據(jù)下混合112恢復(fù)BGO 154或FGO信號(hào)156的任何組合(取決于從外部應(yīng)用的工作模式158)。使用所恢復(fù)的音頻對(duì)象154/156和呈現(xiàn)信息160來產(chǎn)生MPEG環(huán)繞比特流162和對(duì)應(yīng)的經(jīng)預(yù)處理的下混合信號(hào)164?；旌蠁卧?66對(duì)下混合信號(hào)112執(zhí)行處理，以獲得MPS輸入下混合164，MPS變碼器168負(fù)責(zé)將SAOC參數(shù)114轉(zhuǎn)換為SAOC參數(shù)162。TTN/OTN盒152和混合單元166一起執(zhí)行與圖3的裝置52和54相對(duì)應(yīng)的增強(qiáng)型卡拉OK/獨(dú)唱模式處理170，其中，裝置54包括混合單元的功能。
可以與上述相同的方式來對(duì)待MBO，即使用MPEG環(huán)繞編碼器對(duì)其進(jìn)行預(yù)處理，產(chǎn)生單聲道或立體聲下混合信號(hào)，用作要輸入至隨后的增強(qiáng)型SAOC編碼器的BGO。在這種情況下，變碼器必須與SAOC比特流相鄰的附加MPEG環(huán)繞比特流一起提供。
接下來解釋由TTN(OTN)元件執(zhí)行的計(jì)算。以第一預(yù)定時(shí)間/頻率分辨率42表達(dá)的TTN/OTN矩陣M是兩個(gè)矩陣的積 M＝D-1C 其中，D-1包括下混合信息，C含有每個(gè)FGO聲道的聲道預(yù)測(cè)系數(shù)(CPC)。C由裝置52和盒152分別計(jì)算，裝置54和盒152分別計(jì)算D-1，并將其與C一起應(yīng)用于SAOC下混合。根據(jù)以下公式來執(zhí)行該計(jì)算對(duì)于TTN元件，即立體聲下混合
對(duì)于OTN元件，及單聲道下混合
從所傳送的SAOC參數(shù)(即OLD、IOC、DMG和DCLD)導(dǎo)出CPC。對(duì)于一個(gè)特定FGO聲道j，可以使用以下公式來估計(jì)CPC 以及參數(shù)OLDL、OLDR和IOCLR與BGO相對(duì)應(yīng)，其余是FGO值。
系數(shù)mj和nj表示針對(duì)右和左下混合聲道的每個(gè)FGO j的下混合值，并由下混合增益DMG和下混合聲道聲級(jí)差DCLD導(dǎo)出以及對(duì)于OTN元件，第二CPC值cj2的計(jì)算是多余的。
為了重構(gòu)兩個(gè)對(duì)象組BGO和FGO，下混合矩陣D的求逆利用了下混合信息，所述下混合矩陣D被擴(kuò)展為進(jìn)一步規(guī)定信號(hào)F01至F0N的線性組合，即以下，闡述編碼器側(cè)的下混合在TTN-1元件中，擴(kuò)展下混合矩陣為對(duì)立體聲BGO
對(duì)單聲道BGO
對(duì)于OTN-1元件，有對(duì)立體聲BGO
對(duì)單聲道BGO
TTN/OTN元件的輸出對(duì)立體聲BGO和立體聲下混合產(chǎn)生在BGO和/或下混合為單聲道信號(hào)的情況下，線性方程組相應(yīng)地發(fā)生改變。
殘差信號(hào)resi(如果存在)與FGO對(duì)象i相對(duì)應(yīng)，如果沒有被SAOC流傳送(例如由于其位于殘差頻率范圍之外，或以信號(hào)告知完全沒有對(duì)FGO對(duì)象i傳送殘差信號(hào))，則resi被推定為零。

是與FGO對(duì)象i近似的重構(gòu)/上混合信號(hào)。在計(jì)算之后，可以將

通過合成濾波器組，以獲得FGO對(duì)象i的時(shí)域(如PCM編碼)版本。應(yīng)回顧到，L0和R0表示SAOC下混合信號(hào)的聲道，并能夠以比基本索引(n，k)的參數(shù)分辨率更高的時(shí)間/頻率分辨率加以使用/進(jìn)行信號(hào)告知。

和

是與BGO對(duì)象的左和右聲道近似的重構(gòu)/上混合信號(hào)。它可以與MPS輔助比特流一起呈現(xiàn)在原始數(shù)目的聲道上。
根據(jù)一實(shí)施例，在能量模式下使用以下TTN矩陣。
基于能量的編碼/解碼過程被設(shè)計(jì)用于對(duì)下混合信號(hào)進(jìn)行非波形保持編碼。因此，針對(duì)對(duì)應(yīng)能量模型的TTN上混合矩陣不依賴于具體波形，而是僅描述了輸入音頻對(duì)象的相對(duì)能量分布。根據(jù)以下公式，從對(duì)應(yīng)OLD獲得該矩陣MEnergy的元素對(duì)立體聲BGO 以及對(duì)于單聲道BGO 使得TTN元件的輸出分別產(chǎn)生或相應(yīng)地，對(duì)于單聲道下混合，基于能量的上混合矩陣MEnergy變?yōu)? 對(duì)立體聲BGO 以及對(duì)于單聲道BGO 使得OTN元件的輸出分別產(chǎn)生或因此，根據(jù)剛剛提及的實(shí)施例，在編碼器側(cè)將所有對(duì)象(Obj1...ObjN)分別分類為BGO和FGO。BGO可以是單聲道(L)或立體聲

對(duì)象。BGO下混合為下混合信號(hào)是固定的。對(duì)于FGO，其數(shù)目在理論上是不受限的。然而，對(duì)于多數(shù)應(yīng)用，總計(jì)4個(gè)FGO對(duì)象似乎就足夠了。單聲道和立體聲對(duì)象的任何組合都是可行的。通過參數(shù)mi(對(duì)左/單聲道下混合信號(hào)進(jìn)行加權(quán))和ni(對(duì)右下混合信號(hào)進(jìn)行加權(quán))，F(xiàn)GO下混合在時(shí)間上和頻率上均可變。由此，下混合信號(hào)可以是單聲道(L0)或立體聲
依舊不向解碼器/變碼器發(fā)送信號(hào)(F01...F0N)T。反之，在解碼器側(cè)通過上述CPC來預(yù)測(cè)該信號(hào)。
由此，再次注意，解碼器設(shè)置甚至可以丟棄殘差信號(hào)res，或者res甚至可以不存在，即其是可選的。在缺少殘差信號(hào)的情況下，解碼器(例如裝置52)根據(jù)以下公式，僅基于CPC來預(yù)測(cè)虛擬信號(hào) 立體聲下混合單聲道下混合然后，例如由裝置54通過編碼器的4種可能線性組合之一的逆運(yùn)算來獲得BGO和/或FGO，例如，其中D-1依然是參數(shù)DMG和DCLD的函數(shù)。
因此，總而言之，殘差忽略TTN(OTN)盒152計(jì)算兩個(gè)剛剛提及的計(jì)算步驟，例如注意，當(dāng)D為二次型時(shí)，可以直接獲得D的逆。在非二次型矩陣D的情況下，D的逆應(yīng)為偽逆，即pinv(D)＝D*(DD*)-1或pinv(D)＝(D*D)-1D*。在任一種情況下，D的逆存在。
最后，圖15示出了如何在輔助信息中設(shè)置用于傳送殘差數(shù)據(jù)的數(shù)據(jù)量的另一可能。根據(jù)該語法，輔助信息包括bsResidualSamplingFrequencyIndex，即表格的索引，所述表格將例如頻率分辨率與該索引相關(guān)聯(lián)。可選地，可以推定該分辨率為預(yù)定分辨率，如濾波器組的分辨率或參數(shù)分辨率。此外，輔助信息包括bsResidualFramesPerSAOCFrame，后者定義了傳送殘差信息所使用的時(shí)間分辨率。輔助信息還包括BsNumGroupsFGO，表示FGO的數(shù)目。對(duì)于每個(gè)FGO，傳送了語法元素bsResidualPresent，后者表示對(duì)于相應(yīng)的FGO，是否傳送了殘差信號(hào)。如果存在，bsResidualBands表示傳送殘差值的頻譜帶的數(shù)目。
根據(jù)實(shí)際實(shí)現(xiàn)方式的不同，可以以硬件或軟件來實(shí)現(xiàn)本發(fā)明的編碼/解碼方法。因此，本發(fā)明也涉及計(jì)算機(jī)程序，所述計(jì)算機(jī)程序可以存儲(chǔ)在諸如CD、盤或任何其他數(shù)據(jù)載體等計(jì)算機(jī)可讀介質(zhì)上。因此，本發(fā)明還是一種具有程序代碼的計(jì)算機(jī)程序，當(dāng)在計(jì)算機(jī)上執(zhí)行所述程序代碼時(shí)，執(zhí)行結(jié)合上述附圖描述的本發(fā)明的編碼方法或本發(fā)明的解碼方法。
權(quán)利要求
1.一種音頻解碼器，用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼，所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào)，所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成，所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息，所述音頻解碼器包括
用于基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣(C)的裝置；以及
用于基于所述預(yù)測(cè)系數(shù)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合，以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)的裝置，其中，用于上混合的裝置被配置為，利用可由以下公式表示的計(jì)算，根據(jù)下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2
其中，根據(jù)d的聲道數(shù)目，“1”表示標(biāo)量或單位矩陣，D-1是由下混合規(guī)則唯一確定的矩陣，第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為下混合信號(hào)的，且所述下混合規(guī)則還包含于所述輔助信息，H是獨(dú)立于d的項(xiàng)。
2.如權(quán)利要求1所述的音頻解碼器，其中，所述下混合規(guī)則在所述輔助信息中隨時(shí)間而變化。
3.如權(quán)利要求1或2所述的音頻解碼器，其中，所述下混合規(guī)則指示了加權(quán)，所述下混合信號(hào)是基于第一類型音頻信號(hào)和第二類型音頻信號(hào)，利用所述加權(quán)來混合而成的。
4.如權(quán)利要求1至3中任一項(xiàng)所述的音頻解碼器，其中，所述第一類型音頻信號(hào)是具有第一和第二輸入聲道的立體聲音頻信號(hào)，或僅具有第一輸入聲道的單聲道音頻信號(hào)，其中，所述聲級(jí)信息以所述第一預(yù)定時(shí)間/頻率分辨率分別描述所述第一輸入聲道、所述第二輸入聲道與第二類型音頻信號(hào)之間的聲級(jí)差，其中，所述輔助信息還包括互相關(guān)信息，所述互相關(guān)信息以第三預(yù)定時(shí)間/頻率分辨率定義了第一和第二輸入聲道之間的聲級(jí)相似性，其中，用于計(jì)算的裝置被配置為，還基于所述互相關(guān)信息來執(zhí)行計(jì)算。
5.如權(quán)利要求4所述的音頻解碼器，其中，所述第一和第三時(shí)間/頻率分辨率是由所述輔助信息中共同的語法元素決定的。
6.如權(quán)利要求4或5所述的音頻解碼器，其中，用于上混合的裝置根據(jù)可以被表示為以下公式的計(jì)算來執(zhí)行上混合
其中
是與第一類型音頻信號(hào)的第一輸入聲道近似的第一上混合信號(hào)的第一聲道，
是與第一類型音頻信號(hào)的第二輸入聲道近似的第一上混合信號(hào)的第二聲道。
7.如權(quán)利要求6所述的音頻解碼器，其中，所述下混合信號(hào)是具有第一輸出聲道L0和第二輸出聲道R0的立體聲音頻信號(hào)，用于上混合的裝置根據(jù)可以被表示為以下公式的計(jì)算來執(zhí)行上混合
8.如權(quán)利要求6所述的音頻解碼器，其中，所述下混合信號(hào)是單聲道信號(hào)。
9.如權(quán)利要求4或5所述的音頻解碼器，其中，所述下混合信號(hào)和所述第一類型音頻信號(hào)是單聲道信號(hào)。
10.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器，其中，所述輔助信息還包括以第二預(yù)定時(shí)間/頻率分辨率指定殘差聲級(jí)值的殘差信號(hào)res，其中，用于上混合的裝置執(zhí)行可以被表示為以下公式的上混合
11.如權(quán)利要求10所述的音頻解碼器，其中，所述多音頻對(duì)象信號(hào)包括多個(gè)第二類型音頻信號(hào)，所述輔助信息針對(duì)每個(gè)第二類型音頻信號(hào)均包括一個(gè)殘差信號(hào)。
12.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器，其中，所述第二預(yù)定時(shí)間/頻率分辨率通過所述輔助信息中包含的殘差分辨率參數(shù)，與所述第一預(yù)定時(shí)間/頻率分辨率相關(guān)，其中，所述音頻解碼器包括用于從所述輔助信息中導(dǎo)出所述殘差分辨率參數(shù)的裝置。
13.如權(quán)利要求12所述的音頻解碼器，其中，所述殘差分辨率參數(shù)定義了頻譜范圍，所述輔助信息中，所述殘差信號(hào)在所述頻譜范圍上傳送。
14.如權(quán)利要求13所述的音頻解碼器，其中，所述殘差分辨率參數(shù)定義了所述頻譜范圍的上限和下限。
15.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器，其中，用于計(jì)算預(yù)測(cè)系數(shù)(CPC)的裝置被配置為，針對(duì)第一時(shí)間/頻率分辨率的每個(gè)時(shí)間/頻率片(l，m)，所述下混合信號(hào)的每個(gè)輸出聲道i，以及第二類型音頻信號(hào)的每個(gè)聲道j，按以下公式計(jì)算聲道預(yù)測(cè)系數(shù)cj，il，m
以及
其中
其中，在第一類型音頻信號(hào)是立體聲信號(hào)的情況下，OLDL表示各時(shí)間/頻率片中第一類型音頻信號(hào)的第一輸入聲道的歸一化頻譜能量，OLDR表示各時(shí)間/頻率片中第一類型音頻信號(hào)的第二輸入聲道的歸一化頻譜能量，IOCLR表示互相關(guān)信息，所述互相關(guān)信息定義了各時(shí)間/頻率片內(nèi)的第一和第二輸入聲道之間的頻譜能量相似性，或者，在第一類型音頻信號(hào)是單聲道信號(hào)的情況下，OLDL表示各時(shí)間/頻率片內(nèi)的第一類型音頻信號(hào)的歸一化頻譜能量，OLDR和IOCLR為0，
其中，OLDj表示各時(shí)間/頻率片中第二類型音頻信號(hào)的聲道j的歸一化頻譜能量，IOCij表示互相關(guān)信息，所述互相關(guān)信息定義了各時(shí)間/頻率片內(nèi)的第二類型音頻信號(hào)的聲道i和聲道j之間的頻譜能量的相似性，
其中
以及
其中DCLD和DMG是下混合規(guī)則，
其中，用于上混合的裝置被配置為，通過
根據(jù)下混合信號(hào)d和每個(gè)第二上混合信號(hào)S2，i的殘差信號(hào)resi來產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2，i，其中，根據(jù)dn，k的聲道數(shù)目，左上角的“1”表示標(biāo)量或單位矩陣，右下角的“1”是大小為N的單位矩陣，同樣根據(jù)dn，k的聲道數(shù)目，“0”表示零向量或矩陣，D-1是由下混合規(guī)則唯一確定的矩陣，第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為所述下混合信號(hào)的，且所述下混合規(guī)則還包含于所述輔助信息，dn，k和resin，k分別是時(shí)間/頻率片(n，k)中下混合信號(hào)和第二上混合信號(hào)S2，i的殘差信號(hào)，其中，所述輔助信息中未包括的resin，k被設(shè)置為零。
16.如權(quán)利要求15所述的音頻解碼器，其中，在所述下混合信號(hào)為立體聲信號(hào)且S1為立體聲信號(hào)的情況下，D-1是以下矩陣的逆
在所述下混合信號(hào)為立體聲信號(hào)且S1為單聲道信號(hào)的情況下，D-1是以下矩陣的逆
在所述下混合信號(hào)為單聲道信號(hào)且S1為立體聲信號(hào)的情況下，D-1是以下矩陣的逆
或者
在所述下混合信號(hào)為單聲道信號(hào)且S1為單聲道信號(hào)的情況下，D-1是以下矩陣的逆
17.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器，其中，所述多音頻對(duì)象信號(hào)包括空間呈現(xiàn)信息，用于在空間上將第一類型音頻信號(hào)呈現(xiàn)至預(yù)定的揚(yáng)聲器配置。
18.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器，其中，用于上混合的裝置被配置為，在空間上將與所述第二上混合音頻信號(hào)分離的所述第一上混合音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置，在空間上將與所述第一上混合音頻信號(hào)分離的所述第二上混合音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置，或?qū)⑺龅谝簧匣旌弦纛l信號(hào)和所述第二上混合音頻信號(hào)進(jìn)行混合，并在空間上將其混合后的版本呈現(xiàn)至預(yù)定揚(yáng)聲器配置。
19.一種用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼的方法，所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào)，所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成，所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息(60)，所述方法包括
基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣(C)；以及
基于所述預(yù)測(cè)系數(shù)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合，以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)，其中，上混合被配置為利用可由以下公式表示的計(jì)算，根據(jù)上混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2
其中，根據(jù)d的聲道數(shù)目，“1”表示標(biāo)量或單位矩陣，D-1是由下混合規(guī)則唯一確定的矩陣，第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則來下混合為下混合信號(hào)的，且所述下混合規(guī)則還包含于所述輔助信息，H是獨(dú)立于d的項(xiàng)。
20.一種具有程序代碼的程序，當(dāng)所述程序代碼在處理器上運(yùn)行時(shí)，執(zhí)行根據(jù)權(quán)利要求19所述的方法。
全文摘要
一種用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼的方法，所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào)，所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成，所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息(60)，所述方法包括基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣C；以及基于所述預(yù)測(cè)系數(shù)和殘差信號(hào)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合，以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)的裝置，其中，上混合根據(jù)以下公式表示的計(jì)算，由下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2其中，根據(jù)d的聲道數(shù)目，“1”表示標(biāo)量或單位矩陣，D-1是由下混合規(guī)則唯一確定的矩陣，第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為下混合信號(hào)的，所述輔助信息中也包括所述下混合規(guī)則，H是獨(dú)立于d的項(xiàng)。
文檔編號(hào)G10L19/00GK101821799SQ200880111395
公開日2010年9月1日申請(qǐng)日期2008年10月17日優(yōu)先權(quán)日2007年10月17日
發(fā)明者奧立弗·赫內(nèi)穆特, 于爾根·赫勒, 萊奧尼德·特倫茨, 安德烈亞斯·赫爾蒂, 科尼爾德·費(fèi)爾施, 約翰內(nèi)斯·希爾伯特申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：奧立弗.赫內(nèi)穆特;于爾根.赫勒;萊奧尼德.特倫茨;安德烈亞斯.赫爾蒂;科尼爾德.費(fèi)爾施;約翰內(nèi)斯.希爾伯特
技術(shù)所有人：弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)
我是此專利的發(fā)明人

上一篇：用于處理信號(hào)的方法和裝置的制作方法
上一篇：耳式集音罩的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音頻編碼相關(guān)技術(shù)

語音與音頻編碼相關(guān)技術(shù)

音頻編解碼相關(guān)技術(shù)

音頻編解碼芯片相關(guān)技術(shù)

音頻編碼器相關(guān)技術(shù)

音頻編碼格式相關(guān)技術(shù)

音視頻編碼相關(guān)技術(shù)

音視頻編碼器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用上混合的音頻編碼的制作方法