亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用上混合的音頻編碼的制作方法

文檔序號(hào):2831863閱讀:662來源:國知局
專利名稱:使用上混合的音頻編碼的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及使用信號(hào)上混合(up-mixing)的音頻編碼。

背景技術(shù)
已經(jīng)提出了許多音頻編碼算法,以對(duì)一聲道(即單聲道)音頻信號(hào)的音頻數(shù)據(jù)進(jìn)行有效的編碼和壓縮。利用心理聲學(xué),可以對(duì)音頻采樣進(jìn)行適當(dāng)?shù)乜s放、量化或甚至將其設(shè)置為零,以從例如PCM編碼的音頻信號(hào)中去除不相關(guān)性。并執(zhí)行冗余刪除。
進(jìn)一步地,利用了立體聲音頻信號(hào)中的左和右聲道之間的相似性,以對(duì)立體聲音頻信號(hào)進(jìn)行有效的編碼/壓縮。
然而,即將來臨的應(yīng)用對(duì)音頻編碼算法提出了更多要求。例如,在電話會(huì)議、計(jì)算機(jī)游戲、音樂表演等中,必須并行傳送部分或甚至完全不相關(guān)的若干音頻信號(hào)。為了使用于對(duì)這些音頻信號(hào)進(jìn)行編碼的必要比特率保持足夠低,以與低比特率傳送應(yīng)用兼容,近來已經(jīng)提出了將多個(gè)輸入音頻信號(hào)下混合為下混合信號(hào)(如立體聲或甚至單聲道下混合信號(hào))的音頻編解碼器。例如,MPEG環(huán)繞標(biāo)準(zhǔn)以該標(biāo)準(zhǔn)所規(guī)定的方式,將輸入聲道下混合為下混合信號(hào)。下混合是使用所謂的OTT-1和TTT-1盒(box)予以實(shí)現(xiàn)的,OTT-1和TTT-1盒分別將兩個(gè)信號(hào)下混合為一個(gè)信號(hào)和將三個(gè)信號(hào)下混合為兩個(gè)信號(hào)。為了對(duì)四個(gè)以上的信號(hào)進(jìn)行下混合,使用這些盒的分級(jí)結(jié)構(gòu)。除了單聲道下混合信號(hào)之外,每個(gè)OTT-1盒輸出兩個(gè)輸入聲道之間的聲道聲級(jí)差、以及表示兩個(gè)輸入聲道之間的相干或互相關(guān)的聲道間相干/互相關(guān)參數(shù)。在MPEG環(huán)繞數(shù)據(jù)流中,這些參數(shù)與MPEG環(huán)繞編碼器的下混合信號(hào)一起輸出。類似地,每個(gè)TTT-1盒發(fā)送聲道預(yù)測(cè)系數(shù),該聲道預(yù)測(cè)系數(shù)使得能夠從所產(chǎn)生的立體聲下混合信號(hào)恢復(fù)3個(gè)輸入聲道。在MPEG環(huán)繞數(shù)據(jù)流中,還將該聲道預(yù)測(cè)系數(shù)作為輔助信息來傳送。MPEG環(huán)繞解碼器使用所傳送的輔助信息對(duì)下混合信號(hào)進(jìn)行上混合,并恢復(fù)輸入至MPEG環(huán)繞編碼器的原始聲道。
然而,不幸的是,MPEG環(huán)繞不能滿足許多應(yīng)用所提出的全部要求。例如,MPEG環(huán)繞解碼器專門用于對(duì)MPEG環(huán)繞編碼器的下混合信號(hào)進(jìn)行上混合,以將MPEG環(huán)繞編碼器的輸入聲道恢復(fù)原樣。換言之,MPEG環(huán)繞數(shù)據(jù)流專門用于通過使用已用于編碼的揚(yáng)聲器配置來進(jìn)行回放。
然而,根據(jù)一些暗示,如果可以在解碼器側(cè)改變揚(yáng)聲器配置將是十分有利的。
為了滿足后者的需要,目前已設(shè)計(jì)了空間音頻對(duì)象編碼(SAOC)標(biāo)準(zhǔn)。每個(gè)聲道被視為單獨(dú)的對(duì)象,并將所有對(duì)象下混合為下混合信號(hào)。然而,此外,各獨(dú)立對(duì)象也可以包括獨(dú)立聲源,如樂器或聲樂音帶。然而,與MPEG環(huán)繞解碼器不同,SAOC解碼器能夠自由地對(duì)下混合信號(hào)進(jìn)行單獨(dú)的上混合,以將各獨(dú)立對(duì)象重放至任何揚(yáng)聲器配置。為了使SAOC解碼器能夠恢復(fù)已被編碼為SAOC數(shù)據(jù)流的各獨(dú)立對(duì)象,在SAOC比特流中,將對(duì)象聲級(jí)差,以及針對(duì)一起形成立體聲(或多聲道)信號(hào)的對(duì)象的對(duì)象間互相關(guān)參數(shù)作為輔助信息。此外,向SAOC解碼器/變碼器提供了啟示各獨(dú)立對(duì)象如何被下混合為下混合信號(hào)的信息。因此,在解碼器側(cè),可以恢復(fù)各獨(dú)立SAOC聲道,并利用由用戶控制的呈現(xiàn)信息來將這些信號(hào)呈現(xiàn)至任何揚(yáng)聲器配置。
然而,雖然SAOC編解碼器被設(shè)計(jì)用于單獨(dú)地處理音頻對(duì)象,但是一些應(yīng)用的要求甚至更高。例如,卡拉OK應(yīng)用要求背景音頻信號(hào)與前景音頻信號(hào)的完全分離。反之,在獨(dú)唱(solo)模式下,必須將前景對(duì)象與背景對(duì)象分離。然而,由于同等地對(duì)待各獨(dú)立音頻對(duì)象,因此不可能分別從下混合信號(hào)中完全去除背景對(duì)象或前景對(duì)象。


發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種分別使用音頻信號(hào)的下混合和上混合的音頻編解碼器,以更好地在例如卡拉OK/獨(dú)唱模式應(yīng)用中分離各獨(dú)立對(duì)象。
這個(gè)目的是通過根據(jù)權(quán)利要求19所述的解碼方法和根據(jù)權(quán)利要求20所述的程序來實(shí)現(xiàn)的。



參照附圖,更詳細(xì)地描述本申請(qǐng)的優(yōu)選實(shí)施例。附圖中 圖1示出了可以在其中實(shí)現(xiàn)本發(fā)明的實(shí)施例的SAOC編碼器/解碼器配置的框圖; 圖2示出了單聲道音頻信號(hào)的頻譜表示的示意和說明圖; 圖3示出了根據(jù)本發(fā)明的實(shí)施例的音頻解碼器的框圖; 圖4示出了根據(jù)本發(fā)明的實(shí)施例的音頻編碼器的框圖; 圖5示出了作為對(duì)比實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖6示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖7a示出了根據(jù)對(duì)比實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器的框圖; 圖7b示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器的框圖; 圖8a和b示出了質(zhì)量測(cè)量結(jié)果圖; 圖9示出了供對(duì)比用的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖10示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖11示出了根據(jù)另一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖12示出了根據(jù)另一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻編碼器/解碼器配置的框圖; 圖13a至h示出了反映根據(jù)本發(fā)明一實(shí)施例的用于SAOC比特流的可能語法的表格; 圖14示出了根據(jù)一實(shí)施例的用于卡拉OK/獨(dú)唱模式應(yīng)用的音頻解碼器的框圖;以及 圖15示出了反映用于以信號(hào)告知傳送殘差信號(hào)所耗費(fèi)的數(shù)據(jù)量的可能語法的表格。

具體實(shí)施例方式 在以下更具體地描述本發(fā)明的實(shí)施例之前,為了更容易理解以下更詳細(xì)地概述的具體實(shí)施例,先對(duì)SAOC編解碼器和SAOC比特流中傳送的SAOC參數(shù)加以介紹。
圖1示出了SAOC編碼器10和SAOC解碼器12的總體配置。SAOC編碼器10接收N個(gè)對(duì)象(即音頻信號(hào)141至14N)作為輸入。具體地,編碼器10包括下混合器16,下混合器16接收音頻信號(hào)141至14N,并將其下混合為下混合信號(hào)18。在圖1中,將下混合信號(hào)示例性地示為立體聲下混合信號(hào)。然而,單聲道下混合信號(hào)也是可能的。將立體聲下混合信號(hào)18的聲道表示為L0和R0,在單聲道下混合的情況下,聲道僅表示為L0。為了使SAOC解碼器12能夠恢復(fù)各獨(dú)立對(duì)象141至14N,下混合器16向SAOC解碼器12提供了包括SAOC參數(shù)的輔助信息,該SAOC參數(shù)包括對(duì)象聲級(jí)差(OLD)、對(duì)象間互相關(guān)參數(shù)(IOC)、下混合增益值(DMG)、和下混合聲道聲級(jí)差(DCLD)。包括SAOC參數(shù)以及下混合信號(hào)18的輔助信息20形成了SAOC解碼器12所接收的SAOC輸出數(shù)據(jù)流。
SAOC解碼器12包括上混合器22,上混合器22接收下混合信號(hào)18以及輔助信息20,以恢復(fù)音頻信號(hào)141至14N,并將其呈現(xiàn)至任何用戶選擇的聲道集合241至24M,其中,輸入至SAOC解碼器12的呈現(xiàn)信息26規(guī)定了呈現(xiàn)方式。
音頻信號(hào)141至14N可以在任何編碼域(例如時(shí)域或頻譜域)被輸入下混合器16。在音頻信號(hào)141至14N在時(shí)域被饋入下混合器16的情況下(如經(jīng)PCM編碼),下混合器16就使用濾波器組(如混合QMF組,即一組具有針對(duì)最低頻帶的奈奎斯特濾波器擴(kuò)展,以提高其中的頻率分辨率的復(fù)指數(shù)調(diào)制濾波器),以特定濾波器組分辨率將信號(hào)轉(zhuǎn)移至頻譜域,在頻域域中,在與不同頻譜部分相關(guān)的若干子帶中表示音頻信號(hào)。如果音頻信號(hào)141至14N已經(jīng)是下混合器16所期望的表示形式,則下混合器16不必執(zhí)行頻譜分解。
圖2示出了剛剛提及的頻域中的音頻信號(hào),可以看到,音頻信號(hào)被表示為多個(gè)子帶信號(hào)。子帶信號(hào)301至30P分別由小框32所表示的子帶值的序列構(gòu)成??梢钥吹?,子帶信號(hào)301至30P的子帶值32在時(shí)間上相互同步,使得對(duì)于各個(gè)連續(xù)的濾波器組時(shí)隙34,每個(gè)子帶301至30P包括正好一個(gè)子帶值32。如頻率軸36所示,子帶信號(hào)301至30P與不同的頻率區(qū)域相關(guān)聯(lián),如時(shí)間軸38所示,濾波器組時(shí)隙34在時(shí)間上連續(xù)排列。
如上所述,下混合器16根據(jù)輸入音頻信號(hào)141至14N來計(jì)算SAOC參數(shù)。下混合器16以某一時(shí)間/頻率分辨率執(zhí)行該計(jì)算,所述時(shí)間/頻率分辨率與由濾波器組時(shí)隙34和子帶分解所確定的原始時(shí)間/頻率分辨率相比,可以降低某一特定量,該特定量是通過相應(yīng)的語法元素bsFrameLength和bsFreqRes在輔助信息20中以信號(hào)告知給解碼器側(cè)的。例如,若干由連續(xù)濾波器組時(shí)隙34構(gòu)成的組可以形成幀40。換言之,可以將音頻信號(hào)劃分成例如在時(shí)間上重疊或在時(shí)間上緊鄰的幀。在這種情況下,bsFrameLength可以定義參數(shù)時(shí)隙41(即在SAOC幀40中用以計(jì)算SAOC參數(shù)(如OLD和IOC)的時(shí)間單元)的數(shù)目,bsFreqRes可以定義對(duì)其計(jì)算SAOC參數(shù)的處理頻帶的數(shù)目。通過這種方式,每個(gè)幀被劃分為圖2中以虛線42進(jìn)行示例的時(shí)間/頻率片(time/frequencytile)。
下混合器16根據(jù)以下公式來計(jì)算SAOC參數(shù)。具體地,下混合器16針對(duì)每個(gè)對(duì)象i計(jì)算對(duì)象聲級(jí)差 其中,求和以及索引n和k分別遍歷所有濾波器組時(shí)隙34,以及屬于特定時(shí)間/頻率片42的所有濾波器組子帶30。因此,對(duì)音頻信號(hào)或?qū)ο骾的所有子帶值xi的能量進(jìn)行求和,并將求和結(jié)果對(duì)所有對(duì)象或音頻信號(hào)中能量值最大的片進(jìn)行歸一化。
此外,SAOC下混合器16能夠計(jì)算不同輸入對(duì)象141至14N對(duì)的對(duì)應(yīng)時(shí)間/頻率片的相似性度量。盡管SAOC下混合器16可以計(jì)算所有輸入對(duì)象141至14N對(duì)之間的相似性度量,但是,下混合器16也可以抑制對(duì)相似性度量的信號(hào)告知,或限制對(duì)形成公共立體聲聲道的左或右聲道的音頻對(duì)象141至14N的相似性度量的計(jì)算。不管怎樣,將該相似性度量稱為對(duì)象間互相關(guān)參數(shù)IOCi,j。按以下公式進(jìn)行計(jì)算 其中,索引n和k再次遍歷屬于特定時(shí)間/頻率片42的所有子帶值,i和j表示音頻對(duì)象141至14N的特定對(duì)。
下混合器16通過使用應(yīng)用于每個(gè)對(duì)象141至14N的增益因子,對(duì)對(duì)象141至14N進(jìn)行下混合。也就是說,對(duì)對(duì)象i應(yīng)用增益因子Di,然后將所有這樣加權(quán)的對(duì)象141至14N求和,以獲得單聲道下混合信號(hào)。在圖1進(jìn)行示例的立體聲下混合信號(hào)的情況下,對(duì)對(duì)象i應(yīng)用增益因子D1,i,然后將所有這樣增益放大的對(duì)象求和,以獲得左下混合聲道L0,對(duì)對(duì)象i應(yīng)用增益因子D2,i,然后將所有這樣增益放大的對(duì)象求和以獲得右下混合聲道R0。
通過下混合增益DMGi(在立體聲下混合信號(hào)的情況下,通過下混合聲道聲級(jí)差DCLDi)將該下混合規(guī)則以信號(hào)告知給解碼器側(cè)。
根據(jù)以下公式來計(jì)算下混合增益 DMGi=20log10(Di+ε),(單聲道下混合), (立體聲下混合), 其中ε是很小的數(shù),如10-9。
對(duì)于DCLDs適用以下公式 在正常模式下,下混合器16根據(jù)以下對(duì)應(yīng)公式來產(chǎn)生下混合信號(hào) 對(duì)于單聲道下混合 或?qū)τ诹Ⅲw聲下混合 因此,在上述公式中,參數(shù)OLD和IOC是音頻信號(hào)的函數(shù),參數(shù)DMG和DCLD是D的函數(shù)。順帶一提的是,注意D可以隨時(shí)間變化。
因此,在正常模式下,下混合器16無側(cè)重地對(duì)所有對(duì)象141至14N進(jìn)行混合,即均等地對(duì)待所有對(duì)象141至14N。
上混合器22執(zhí)行下混合器過程的逆過程,并在一計(jì)算步驟,即 中實(shí)現(xiàn)由矩陣A所表示的“呈現(xiàn)信息”,其中矩陣E是參數(shù)OLD和IOC的函數(shù)。
換言之,在正常模式下,不將對(duì)象141至14N分類為BGO(即背景對(duì)象)或FGO(即前景對(duì)象)。由呈現(xiàn)矩陣A來提供關(guān)于應(yīng)在上混合器22的輸出表示哪個(gè)對(duì)象的信息。例如,如果具有索引1的對(duì)象是立體聲背景對(duì)象的左聲道,具有索引2的對(duì)象是其右聲道,具有索引3的對(duì)象是前景對(duì)象,則呈現(xiàn)矩陣A可以是 以產(chǎn)生卡拉OK類型的輸出信號(hào)。
然而,如上所述,通過使用SAOC編解碼器的這種正常模式來傳送BGO和FGO無法實(shí)現(xiàn)令人滿意的結(jié)果。
圖3和4描述了本發(fā)明的實(shí)施例,該實(shí)施例克服了剛剛描述的不足。這些圖中所描述的解碼器和編碼器及其相關(guān)功能可以表示圖1的SAOC編解碼器可切換至的附加模式,如“增強(qiáng)模式”。以下將介紹后一可能性的示例。
圖3示出了解碼器50。解碼器50包括用于計(jì)算預(yù)測(cè)系數(shù)的裝置52和用于對(duì)下混合信號(hào)進(jìn)行上混合的裝置54。
圖3的音頻解碼器50專門用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼,所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào)。第一類型音頻信號(hào)和第二類型音頻信號(hào)可以分別是單聲道或立體聲音頻信號(hào)。例如,第一類型音頻信號(hào)是背景對(duì)象而第二類型音頻信號(hào)是前景對(duì)象。也就是說,圖3和圖4的實(shí)施例未必局限于卡拉OK/獨(dú)唱模式應(yīng)用。相反,圖3的解碼器和圖4的編碼器可以有利地用于別處。
多音頻對(duì)象信號(hào)由下混合信號(hào)56和輔助信息58組成。輔助信息58包括聲級(jí)信息60,例如用于以第一預(yù)定時(shí)間/頻率分辨率(例如時(shí)間/頻率分辨率42)來描述第一類型音頻信號(hào)和第二類型音頻信號(hào)的頻譜能量。具體地,聲級(jí)信息60可以包括針對(duì)每對(duì)象和時(shí)間/頻率片的歸一化頻譜能量標(biāo)量值。該歸一化可以與在相應(yīng)時(shí)間/頻率片中第一和第二類型音頻信號(hào)中的最高頻譜能量值相關(guān)。后一可能性產(chǎn)生了用于表示聲級(jí)信息的OLD,這里也稱為聲級(jí)差信息。雖然以下的實(shí)施例使用OLD,但是,盡管這里沒有明確說明,但實(shí)施例可以使用其他歸一化的頻譜能量表示。
輔助信息58可選地包括殘差信息62,殘差信息62以第二預(yù)定時(shí)間/頻率分辨率指定了殘差聲級(jí)值,該第二預(yù)定時(shí)間/頻率分辨率可以等于或不同于第一預(yù)定時(shí)間/頻率分辨率。
用于計(jì)算預(yù)測(cè)系數(shù)的裝置52被配置為基于聲級(jí)信息60來計(jì)算預(yù)測(cè)系數(shù)。此外,裝置52還可以基于輔助信息58中也包括的互相關(guān)信息來計(jì)算預(yù)測(cè)系數(shù)。甚至,裝置52還可以使用輔助信息58中包括的時(shí)變下混合規(guī)則信息來計(jì)算預(yù)測(cè)系數(shù)。裝置52所計(jì)算的預(yù)測(cè)系數(shù)對(duì)于從下混合聲道56中恢復(fù)或上混合得到原始音頻對(duì)象或音頻信號(hào)是必需的。
相應(yīng)地,用于上混合的裝置54被配置為,基于從裝置52接收的預(yù)測(cè)系數(shù)64和(可選的)殘差信號(hào)62來對(duì)下混合信號(hào)56進(jìn)行上混合。當(dāng)使用殘差62時(shí),解碼器50能夠更好地抑制從一種類型的音頻信號(hào)到另一種類型的音頻信號(hào)的串?dāng)_(cross talk)。裝置54也可以使用時(shí)變下混合規(guī)則來對(duì)下混合信號(hào)進(jìn)行上混合。此外,用于上混合的裝置54可以使用用戶輸入66,以決定在輸出68端實(shí)際輸出由下混合信號(hào)56恢復(fù)的音頻信號(hào)中的哪一個(gè)或以何種程度輸出。作為第一極端情況,用戶輸入66可以指示裝置54僅輸出與第一類型音頻信號(hào)近似的第一上混合信號(hào)。根據(jù)第二極端情況,相反地,裝置54僅輸出與第二類型音頻信號(hào)近似的第二上混合信號(hào)。折中情況也是可能的,根據(jù)折中情況,在輸出68呈現(xiàn)兩種上混合信號(hào)的混合。
圖4示出了適于產(chǎn)生由圖3的解碼器解碼的多音頻對(duì)象信號(hào)的音頻編碼器的實(shí)施例。圖4的編碼器由參考標(biāo)記80指示,該編碼器可以包括用于在要編碼的音頻信號(hào)84不在頻譜域中的情況下進(jìn)行頻譜分解的裝置82。在音頻信號(hào)84中,依次存在至少一個(gè)第一類型音頻信號(hào)和至少一個(gè)第二類型音頻信號(hào)。用于頻譜分解的裝置82被配置為,在頻譜上將每個(gè)這些信號(hào)84分解為例如如圖2所示的表示。也就是說,用于頻譜分解的裝置82以預(yù)定時(shí)間/音頻分辨率對(duì)音頻信號(hào)84進(jìn)行頻譜分解。裝置82可以包括濾波器組,如混合QMF組。
音頻編碼器80還包括用于計(jì)算聲級(jí)信息的裝置86、用于下混合的裝置88、以及(可選的)用于計(jì)算預(yù)測(cè)系數(shù)的裝置90和用于設(shè)置殘差信號(hào)的裝置92。此外,音頻編碼器80可以包括用于計(jì)算互相關(guān)信息的裝置,即裝置94。裝置86根據(jù)由裝置82可選地輸出的音頻信號(hào),計(jì)算以第一預(yù)定時(shí)間/頻率分辨率描述第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)的聲級(jí)信息。類似地,裝置88對(duì)音頻信號(hào)進(jìn)行下混合。因此,裝置88輸出下混合信號(hào)56。裝置86也輸出聲級(jí)信息60。用于計(jì)算預(yù)測(cè)系數(shù)的裝置90的操作與裝置52類似。即裝置90根據(jù)聲級(jí)信息60來計(jì)算預(yù)測(cè)系數(shù),并將預(yù)測(cè)系數(shù)64輸出至裝置92。裝置92接著基于下混合信號(hào)56、預(yù)測(cè)系數(shù)64、和第二預(yù)定時(shí)間/頻率分辨率下的原始音頻信號(hào)來設(shè)置殘差信號(hào)62,使得基于預(yù)測(cè)系數(shù)64和殘差信號(hào)62對(duì)下混合信號(hào)56進(jìn)行的上混合產(chǎn)生與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào),所述近似與不使用所述殘差信號(hào)62的情況相比有所改進(jìn)。
輔助信息58包括殘差信號(hào)62(如果存在)和聲級(jí)信息60,輔助信息58與下混合信號(hào)56一起形成了圖3解碼器所要解碼的多音頻對(duì)象信號(hào)。
如圖4所示,與圖3的描述類似,裝置90(如果存在)可以另外使用裝置94輸出的互相關(guān)信息和/或裝置88輸出的時(shí)變下混合規(guī)則來計(jì)算預(yù)測(cè)系數(shù)64。此外,用于設(shè)置殘差信號(hào)62的裝置92(如果存在)可以另外地使用裝置88輸出的時(shí)變下混合規(guī)則來適當(dāng)?shù)卦O(shè)置殘差信號(hào)62。
還應(yīng)注意,第一類型音頻信號(hào)可以是單聲道或立體聲音頻信號(hào)。對(duì)于第二類似的音頻信號(hào)也是如此。殘差信號(hào)62是可選的。然而如果存在殘差信號(hào)62,則在輔助信息中,可以以與用于計(jì)算例如聲級(jí)信息的參數(shù)時(shí)間/頻率分辨率相同的時(shí)間/頻率分辨率,或可以使用不同的時(shí)間/頻率分辨率,來以信號(hào)通知?dú)埐钚盘?hào)62。此外,可以將殘差信號(hào)的信號(hào)告知限于以信號(hào)告知了其聲級(jí)信息的時(shí)間/頻率片42所占的頻譜范圍的子部分。例如,可以在輔助信息58中,使用語法元素bsResidualBands和bsResidualFramesPerSAOCFrame來指示以信號(hào)告知?dú)埐钚盘?hào)所使用的時(shí)間/頻率分辨率。這兩個(gè)語法元素可以定義與形成片42的子劃分不同的另一個(gè)將幀劃分為時(shí)間/頻率片的子劃分。
順帶一提的是,注意,殘差信號(hào)62可以也可以不反映由潛在使用的核心編碼器96所導(dǎo)致的信息損失,音頻編碼器80可選地使用該核心編碼器96來對(duì)下混合信號(hào)56進(jìn)行編碼。如圖4所示,裝置92可以基于可由核心編碼器96的輸出或由輸入至核心編碼器96’的版本進(jìn)行重構(gòu)的下混合信號(hào)版本來執(zhí)行殘差信號(hào)62的設(shè)置。類似地,音頻解碼器50可以包括核心解碼器98,以對(duì)下混合信號(hào)56進(jìn)行解碼或解壓縮。
在多音頻對(duì)象信號(hào)中,將用于殘差信號(hào)62的時(shí)間/頻率分辨率設(shè)置為與用于計(jì)算聲級(jí)信息60的時(shí)間/頻率分辨率不同的時(shí)間/頻率分辨率的能力使得能夠?qū)崿F(xiàn)音頻質(zhì)量和多音頻對(duì)象信號(hào)的壓縮比之間的良好折衷。無論如何,殘差信號(hào)62使得能夠更好地根據(jù)用戶輸入66抑制要在輸出68輸出的第一和第二上混合信號(hào)中一音頻信號(hào)到另一音頻信號(hào)的串?dāng)_。
根據(jù)以下實(shí)施例,顯而易見,在對(duì)多于一個(gè)前景對(duì)象或第二類型音頻信號(hào)進(jìn)行編碼的情況下,可以在輔助信息中傳送兩個(gè)以上的殘差信號(hào)62。輔助信息可以允許單獨(dú)決定是否針對(duì)特定的第二類型音頻信號(hào)傳送殘差信號(hào)62。因此,殘差信號(hào)62的數(shù)目可以從一變化,最多為第二類型音頻信號(hào)的數(shù)目。
在圖3的音頻解碼器中,用于計(jì)算的裝置54可以被配置為,基于聲級(jí)信息(OLD)來計(jì)算由預(yù)測(cè)系數(shù)組成的預(yù)測(cè)系數(shù)矩陣C,裝置56可以被配置為,根據(jù)可由以下公式表示的計(jì)算,根據(jù)下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2 其中,根據(jù)d的聲道數(shù)目,“1”表示標(biāo)量或單位矩陣,D-1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)該下混合規(guī)則被下混合為下混合信號(hào)的,輔助信息中也包括了該下混合規(guī)則,H是獨(dú)立于d但依賴于殘差信號(hào)的項(xiàng)(如果后者存在)。
如以上所述以及以下要進(jìn)一步描述的那樣,在輔助信息中,下混合規(guī)則可以隨時(shí)間變化和/或可在頻譜上變化。如果第一類型音頻信號(hào)是具有第一(L)和第二輸入聲道(R)的立體聲音頻信號(hào),則聲級(jí)信息可以例如以時(shí)間/頻率分辨率42分別描述了第一輸入聲道(L)、第二輸入聲道(R)、以及第二類型音頻信號(hào)的歸一化頻譜能量。
上述計(jì)算(用于上混合的裝置56根據(jù)該計(jì)算來進(jìn)行上混合)甚至可表示為 其中

是與L近似的第一上混合信號(hào)的第一聲道,

是與R近似的第一上混合信號(hào)的第二聲道,“1”在d為單聲道的情況下是標(biāo)量,在d為立體聲的情況下是2×2單位矩陣。如果下混合信號(hào)56是具有第一(L0)和第二輸出聲道(R0)的立體聲音頻信號(hào),用于上混合的裝置56可以根據(jù)可由以下公式表示的計(jì)算來進(jìn)行上混合 就依賴于殘差信號(hào)res的項(xiàng)H而言,用于上混合的裝置56可以根據(jù)可由以下公式表示的計(jì)算來進(jìn)行上混合 多音頻對(duì)象信號(hào)甚至可以包括多個(gè)第二類型音頻信號(hào),對(duì)每個(gè)第二類型音頻信號(hào),輔助信息可以包括一個(gè)殘差信號(hào)。在輔助信息中可以存在殘差分辨率參數(shù),該參數(shù)定義了頻譜范圍,輔助信息中在該頻譜范圍上傳送殘差信號(hào)。它甚至可以定義頻譜范圍的下限和上限。
此外,多音頻對(duì)象信號(hào)也可以包括空間呈現(xiàn)信息,用于在空間上將第一類型音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置。換言之,第一類型音頻信號(hào)可以是被下混合至立體聲的多聲道(多于兩個(gè)聲道)MPEG環(huán)繞信號(hào)。
以下,將描述的實(shí)施例利用了上述殘差信號(hào)信號(hào)通知。然而,注意術(shù)語“對(duì)象”通常用于雙重意義。有時(shí),對(duì)象表示單獨(dú)的單聲道音頻信號(hào)。因此,立體聲對(duì)象可以具有形成立體聲信號(hào)的一個(gè)聲道的單聲道音頻信號(hào)。然而,在其他情況下,立體聲對(duì)象實(shí)際上可以表示兩個(gè)對(duì)象,即關(guān)于立體聲對(duì)象的右聲道的對(duì)象和關(guān)于左聲道的另一個(gè)對(duì)象。根據(jù)上下文,其實(shí)際意義將是顯而易見的。
在描述下一實(shí)施例之前,首先其動(dòng)力是2007年被選為參考模型0(RM0)的SAOC標(biāo)準(zhǔn)的基準(zhǔn)技術(shù)的不足。RM0允許以搖動(dòng)位置和放大/衰減的形式單獨(dú)操作多個(gè)聲音對(duì)象。在“卡拉OK”類型的應(yīng)用環(huán)境中表示了一種特殊場(chǎng)景。在這種情況下 ●單聲道、立體聲、或環(huán)繞背景情景(以下稱為背景對(duì)象BGO)從特定SAOC對(duì)象集合傳遞而來,背景對(duì)象BGO可以無改變地進(jìn)行再現(xiàn),即通過具有未改變聲級(jí)的相同的輸出聲道再現(xiàn)每個(gè)輸入聲道信號(hào),以及 ●有改變地再現(xiàn)感興趣的特定對(duì)象(以下稱為前景對(duì)象FGO)(通常是主唱)(典型地,F(xiàn)GO位于聲階的中部,可以將其消音,即嚴(yán)重衰減來允許跟唱)。
從主觀評(píng)價(jià)過程可以看到,并且從其下的技術(shù)原理可以預(yù)期到,對(duì)象位置的操作產(chǎn)生高質(zhì)量的結(jié)果,而對(duì)象聲級(jí)的操作一般地更加具有挑戰(zhàn)性。典型地,附加的信號(hào)放大/衰減越強(qiáng),潛在的噪聲越多。就此而言,由于需要對(duì)FGO進(jìn)行極端(理想地完全)衰減,因此,卡拉OK場(chǎng)景的要求極高。
對(duì)偶的使用情形是僅再現(xiàn)FGO而不再現(xiàn)背景/MBO的能力,以下稱為獨(dú)唱模式。
然而,應(yīng)注意,如果包括了環(huán)繞背景情景,則被稱為多聲道背景對(duì)象(MBO)。圖5中示出的如下對(duì)于MBO的處理 ●使用常規(guī)5-2-5MPEG環(huán)繞樹(surround tree)102來對(duì)MBO進(jìn)行編碼。這導(dǎo)致產(chǎn)生立體聲MBO下混合信號(hào)104和MBO MPS輔助信息流106。
●接著,下級(jí)SAOC編碼器108將MBO下混合信號(hào)編碼為立體聲對(duì)象(即兩對(duì)象聲級(jí)差加聲道間相關(guān))以及所述(或多個(gè))FGO 110。這導(dǎo)致產(chǎn)生公共的下混合信號(hào)112和SAOC輔助信息流114。
在變碼器116中,對(duì)下混合信號(hào)112進(jìn)行預(yù)處理,將SAOC和MPS輔助信息流106、114轉(zhuǎn)換為單個(gè)MPS輸出側(cè)信息流118。目前,這是以不連續(xù)的方式發(fā)生的,即或者僅支持完全抑制FGO或僅支持完全抑制MBO。
最終,由MPEG環(huán)繞解碼器122來呈現(xiàn)所產(chǎn)生的下混合信號(hào)120和MPS輔助信息118。
在圖5中,將MBO下混合信號(hào)104和可控對(duì)象信號(hào)110組合為單個(gè)立體聲下混合信號(hào)112。可控對(duì)象110對(duì)下混合信號(hào)的這種“污染”導(dǎo)致難以恢復(fù)去除了可控對(duì)象110的、具有足夠高音頻質(zhì)量的卡拉OK版本。以下的建議旨在解決這一問題。
假定一個(gè)FGO(例如一個(gè)主唱),以下圖6的實(shí)施例所使用的關(guān)鍵事實(shí)在于,SAOC下混合信號(hào)是BGO和FGO信號(hào)的組合,即對(duì)3個(gè)音頻信號(hào)進(jìn)行下混合并通過2個(gè)下混合聲道來傳送。理想地,這些信號(hào)應(yīng)當(dāng)在變碼器中再次分離,以產(chǎn)生純凈的卡拉OK信號(hào)(即去除FGO信號(hào)),或產(chǎn)生純凈的獨(dú)唱信號(hào)(即去除BGO信號(hào))。根據(jù)圖6的實(shí)施例,這是通過使用SAOC編碼器108中的“2至3”(TTT)編碼器元件124(正如在MPEG環(huán)繞規(guī)范中那樣被稱為TTT-1),在SAOC編碼器中將BGO和FGO組合為單個(gè)SAOC下混合信號(hào)來實(shí)現(xiàn)的。這里FGO饋送了TTT-1盒124的“中央”信號(hào)輸入,BGO 104饋送了“左/右”TTT-1輸入L.R.。然后,變碼器116通過使用TTT解碼器元件126(正如在MPEG環(huán)繞中那樣被稱為TTT)來產(chǎn)生BGO 104的近似,即“左/右”TTT輸出L、R承載BGO的近似,而“中央”TTT輸出C承載FGO 110的近似。
當(dāng)將圖6的實(shí)施例與圖3和4中的編碼器和解碼器的實(shí)施例進(jìn)行比較時(shí),參考標(biāo)記104與音頻信號(hào)84中的第一類型音頻信號(hào)相對(duì)應(yīng),MPS編碼器102包括裝置82;參考標(biāo)記110與音頻信號(hào)84中的第二類型音頻信號(hào)相對(duì)應(yīng),TTT-1盒124承擔(dān)了裝置88至92的功能職責(zé),SAOC編碼器108實(shí)現(xiàn)了裝置86和94的功能;參考標(biāo)記112與參考標(biāo)記56相對(duì)應(yīng);參考標(biāo)記114與輔助信息58減去殘差信號(hào)62相對(duì)應(yīng);TTT盒126承擔(dān)了裝置52和54的功能職責(zé),其中裝置54也包括混合盒128的功能。最后,信號(hào)120與在輸出68輸出的信號(hào)相對(duì)應(yīng)。此外,應(yīng)注意,圖6還示出了用于將下混合信號(hào)112從SAOC編碼器108傳送至SAOC變碼器116的核心編碼器/解碼器路徑131。該核心編碼器/解碼器路徑131與可選的核心編碼器96和核心解碼器98相對(duì)應(yīng)。如圖6所示,該核心編碼器/解碼器路徑131也可以對(duì)從編碼器108傳送至變碼器116的輔助信息進(jìn)行編碼/壓縮。
根據(jù)以下描述,引入圖6的TTT盒所產(chǎn)生的優(yōu)點(diǎn)將變得顯而易見。例如,通過 ●簡(jiǎn)單地將“左/右”TTT輸出L.R.饋入MPS下混合信號(hào)120(并將所傳送的MBO MPS比特流106傳遞至流118),最終的MPS解碼器僅再現(xiàn)MBO。這與卡拉OK模式相對(duì)應(yīng)。
●簡(jiǎn)單地將“中央”TTT輸出C.饋入左和右MPS下混合信號(hào)120(并產(chǎn)生微小的MPS比特流118,將FGO 110呈現(xiàn)在期望的位置并呈現(xiàn)為期望的聲級(jí)),最終的MPS解碼器122僅再現(xiàn)FGO 110。這與獨(dú)唱模式相對(duì)應(yīng)。
在SAOC變碼器的“混合”盒128中執(zhí)行對(duì)3個(gè)輸出信號(hào)L.R.C.的處理。
與圖5相比,圖6的處理結(jié)構(gòu)提供了多種特別的優(yōu)點(diǎn) ●該框架提供了背景(MBO)100和FGO信號(hào)110的純凈的結(jié)構(gòu)分離。
●TTT元件126的結(jié)構(gòu)嘗試基于波形近可能好地重構(gòu)3個(gè)信號(hào)L.R.C.。因此,最終的MPS輸出信號(hào)130不僅由下混合信號(hào)的能量加權(quán)(和解相關(guān))形成,也由于TTT處理而在波形上更為接近。
●與MPEG環(huán)繞TTT盒126一起產(chǎn)生的是使用殘差編碼來增強(qiáng)重構(gòu)精度的可能性。按照這種方式,由于TTT-1124輸出的、并由用于上混合的TTT盒所使用的殘差信號(hào)132的殘差帶寬和殘差比特率增大,因此可以實(shí)現(xiàn)重構(gòu)質(zhì)量的顯著增強(qiáng)。理想地(即,在殘差編碼和下混合信號(hào)的編碼中量化無限細(xì)化),可以消除背景(MBO)和FGO信號(hào)之間的干擾。
圖6的處理結(jié)構(gòu)具有多種特性 ●雙重卡拉OK/獨(dú)唱模式圖6的方法通過使用相同的技術(shù)裝置,提供了卡拉OK和獨(dú)唱的功能。也就是,重用(reuse)了例如SAOC參數(shù)。
●可改進(jìn)性通過控制TTT盒中使用的殘差編碼的信息量,可以根據(jù)需要來改進(jìn)卡拉OK/獨(dú)唱信號(hào)的質(zhì)量。例如,可以使用參數(shù)bsResidualSamplingFrequencyIndex、bsResidualBands以及bsResidualFramesPerSAOCFrame。
●下混合中FGO的定位當(dāng)使用如MPEG環(huán)繞規(guī)范中指定的TTT盒時(shí),總是將FGO混入左右下混合聲道之間的中央位置。為了實(shí)現(xiàn)更靈活的定位,采用了一般化TTT編碼盒,其遵照相同的原理,但是允許非對(duì)稱地定位與“中央”輸入/輸出相關(guān)的信號(hào)。
●多FGO在所述的配置中,描述了僅使用一個(gè)FGO(這可以與最主要的應(yīng)用情況相對(duì)應(yīng))。然而,通過使用以下措施之一或其組合,所提出的概念也能夠提供多個(gè)FGO ○分組FGO與圖6所示的類似,與TTT盒的中央輸入/輸出連接的信號(hào)實(shí)際上可以是若干FGO信號(hào)之和而不僅是單個(gè)FGO信號(hào)。在多聲道輸出信號(hào)130中,可以對(duì)這些FGO進(jìn)行獨(dú)立的定位/控制(然而,當(dāng)以相同的方式對(duì)其進(jìn)行縮放/定位時(shí),能夠?qū)崿F(xiàn)最大的質(zhì)量優(yōu)勢(shì))。它們?cè)诹Ⅲw聲下混合信號(hào)112中共享公共位置,并且只有一個(gè)殘差信號(hào)132。不管怎樣,都可以消除背景(MBO)與可控對(duì)象之間的干擾(盡管不是可控對(duì)象間的干擾)。
○級(jí)聯(lián)FGO通過擴(kuò)展圖6,可以克服關(guān)于下混合信號(hào)112中公共FGO位置的限制。通過對(duì)所述TTT結(jié)構(gòu)進(jìn)行多級(jí)級(jí)聯(lián)(每個(gè)級(jí)與一個(gè)FGO相對(duì)應(yīng)并產(chǎn)生殘差編碼流),可以提供多個(gè)FGO。按照這種方式,理想地,也可以消除每個(gè)FGO之間的干擾。當(dāng)然,這種選項(xiàng)需要比使用分組FGO方法更高的比特率。稍后將對(duì)示例予以描述。
●SAOC輔助信息在MPEG環(huán)繞中,與TTT盒相關(guān)的輔助信息是聲道預(yù)測(cè)系數(shù)(CPC)對(duì)。相反,SAOC參數(shù)化和MBO/卡拉OK場(chǎng)景傳送每個(gè)對(duì)象信號(hào)的對(duì)象能量,以及MBO下混合的兩個(gè)聲道之間的信號(hào)間相關(guān)(即“立體聲對(duì)象”的參數(shù)化)。為了最小化相對(duì)于不帶增強(qiáng)型卡拉OK/獨(dú)唱模式的情況的參數(shù)化變化的數(shù)目,從而最小化比特流格式的改變,可以根據(jù)下混合信號(hào)(MBO下混合和FGO)的能量和MBO下混合立體聲對(duì)象的信號(hào)間相關(guān)來計(jì)算CPC。因此,不需要改變或增加所傳送的參數(shù)化,并且可以從所傳送的SAOC變碼器116中的SAOC參數(shù)化來計(jì)算CPC。按照這種方式,當(dāng)忽略殘差數(shù)據(jù)時(shí),也可以使用常規(guī)模式的解碼器(不帶殘差編碼)來對(duì)使用增強(qiáng)型卡拉OK/獨(dú)唱模式的比特流進(jìn)行解碼。概括而言,圖6的實(shí)施例旨在對(duì)特定的選定對(duì)象(或不帶這些對(duì)象的情景)進(jìn)行增強(qiáng)型再現(xiàn),并以以下方式,使用立體聲下混合擴(kuò)展當(dāng)前的SAOC編碼方法 ●在正常模式下,對(duì)每個(gè)對(duì)象信號(hào),使用其在下混合矩陣中的條目來對(duì)其進(jìn)行加權(quán)(分別針對(duì)其對(duì)左右下混合聲道的貢獻(xiàn))。然后,對(duì)所有對(duì)左右下混合聲道的加權(quán)貢獻(xiàn)進(jìn)行求和,來形成左和右下混合聲道。
●對(duì)于增強(qiáng)型卡拉OK/獨(dú)唱性能,即在增強(qiáng)模式下,將所有對(duì)象貢獻(xiàn)分為形成前景對(duì)象(FGO)的對(duì)象貢獻(xiàn)集合和剩余對(duì)象貢獻(xiàn)(BGO)。對(duì)FGO貢獻(xiàn)求和形成單聲道下混合信號(hào),對(duì)剩余背景貢獻(xiàn)求和形成立體聲下混合,使用一般化TTT編碼器元件對(duì)兩者進(jìn)行求和以形成公共的SAOC立體聲下混合。
因此,使用“TTT求和”(當(dāng)需要時(shí)可以級(jí)聯(lián))代替了常規(guī)的求和。
為了強(qiáng)調(diào)SAOC編碼器的正常模式和增強(qiáng)模式之間的剛剛提及的差別,參見圖7a和7b,其中圖7a關(guān)于正常模式,而圖7b關(guān)于增強(qiáng)模式??梢钥吹?,在正常模式下,SAOC編碼器108使用前述DMX參數(shù)Dij來加權(quán)對(duì)象j,并將加權(quán)后的對(duì)象j添加至SAOC聲道i(即L0或R0)。在圖6的增強(qiáng)模式的情況下,僅需要DMX參數(shù)向量Di,即DMX參數(shù)Di指示了如何形成FGO 110的加權(quán)和,從而獲得TTT-1盒124的中央聲道C,并且DMX參數(shù)Di指示TTT-1盒如何將中央信號(hào)C分別分配給左MBO聲道和右MBO聲道,從而分別獲得LDMX或RDMX。
問題在于,對(duì)于非波形保持編解碼器(HE-AAC/SBR),根據(jù)圖6的處理不能很好地工作。該問題的解決方案可以是一種針對(duì)HE-AAC和高頻的基于能量的一般化TTT模式。稍后,將描述解決該問題的實(shí)施例。
用于具有級(jí)聯(lián)TTT的可能的比特流格式如下 以下是需要能夠在被認(rèn)為是“常規(guī)解碼模式”的情況下,被跳過的向SAOC比特流執(zhí)行的添加 numTTTs int for(ttt=0;ttt<numTTTs;ttt++) {no_TTT_obj[ttt] intTTT_bandwidth[ttt]; TTT_residual_stream[ttt] } 對(duì)于復(fù)雜度和存儲(chǔ)器要求,可以作出以下說明。從之前的說明可以看到,通過在編碼器和解碼器/變碼器中分別添加概念元件級(jí)(即一般化的TTT-1和TTT編碼器元件)來實(shí)現(xiàn)圖6的增強(qiáng)型卡拉OK/獨(dú)唱模式。兩個(gè)元件在復(fù)雜度方面與常規(guī)的“居中”TTT對(duì)應(yīng)物相同(系數(shù)值的改變不影響復(fù)雜度)。對(duì)于所設(shè)想的主要應(yīng)用(一個(gè)FGO作為主唱),單個(gè)TTT就足夠了。
通過觀察整個(gè)MPEG環(huán)繞解碼器的結(jié)構(gòu)(對(duì)于相關(guān)立體聲下混合的情況(5-2-5配置),由一個(gè)TTT元件和2個(gè)OTT元件組成),可以理解該附加結(jié)構(gòu)與MPEG環(huán)繞系統(tǒng)的復(fù)雜度的關(guān)系。這已表明,所添加的功能在計(jì)算復(fù)雜度和存儲(chǔ)器消耗方面帶來了適度的代價(jià)(注意,使用殘差編碼的概念元件在平均意義上不比作為替代的包括解相關(guān)器在內(nèi)的對(duì)應(yīng)物更為復(fù)雜)。
圖6對(duì)MPEG SAOC參考模型的擴(kuò)展為特殊的獨(dú)唱或消音/卡拉OK類型的應(yīng)用提供了音頻質(zhì)量的改進(jìn)。再次應(yīng)注意的是,與圖5、6和7相對(duì)應(yīng)的描述所指的MBO是背景情景或BGO,一般地,MBO不局限于這種類型的對(duì)象,而也可以是單聲道或立體聲對(duì)象。
主觀評(píng)價(jià)過程解釋了在卡拉OK或獨(dú)唱應(yīng)用的輸出信號(hào)的音頻質(zhì)量方面的改進(jìn)。評(píng)價(jià)條件是 ●RM0 ●增強(qiáng)模式(res 0)(=不使用殘差編碼) ●增強(qiáng)模式(res 6)(=在最低的6個(gè)混合QMF頻帶使用殘差編碼) ●增強(qiáng)模式(res 12)(=在最低的12個(gè)混合QMF頻帶使用殘差編碼) ●增強(qiáng)模式(res 24)(=在最低的24個(gè)混合QMF頻帶使用殘差編碼) ●隱藏參考 ●較低的參考(3.5kHz頻帶受限版本的參考) 如果使用時(shí)不采用殘差編碼,則所提出的增強(qiáng)模式的比特率類似于RM0。所有其他增強(qiáng)模式對(duì)每6個(gè)殘差編碼頻帶需要約10kbit/s。
圖8a示出了對(duì)10個(gè)收聽主體進(jìn)行的消音/卡拉OK測(cè)試結(jié)果。所提出的方案的平均MUSHRA分?jǐn)?shù)總是高于RM0,并隨每級(jí)附加殘差編碼逐級(jí)增加。對(duì)于具有6個(gè)或更多頻帶殘差編碼的模式,可以清晰地觀察到相對(duì)RM0的性能在統(tǒng)計(jì)上的明顯改進(jìn)。
圖8b中對(duì)9個(gè)主體的獨(dú)唱測(cè)試的結(jié)果示出了所提出的方案的類似優(yōu)點(diǎn)。當(dāng)添加越來越多的殘差編碼時(shí),平均MUSHRA分?jǐn)?shù)明顯增加。不使用和使用24個(gè)頻帶的殘差編碼的增強(qiáng)模式之間的增益幾乎為MUSHRA的50分。
總體上,對(duì)于卡拉OK應(yīng)用,可以比RM0高約10kbit/s的比特率實(shí)現(xiàn)良好的質(zhì)量。當(dāng)在RM0的最高比特率之上添加約40kbit/s時(shí),可以實(shí)現(xiàn)優(yōu)秀的質(zhì)量。在給定最大固定比特率的實(shí)際應(yīng)用場(chǎng)景中,所提出的增強(qiáng)模式很好地支持用“無用比特率”來進(jìn)行殘差編碼,直到達(dá)到允許的最大比特率。因此,實(shí)現(xiàn)了盡可能好的總體音頻質(zhì)量。由于更智能地使用殘差比特率的緣故,對(duì)所提出的實(shí)驗(yàn)結(jié)果的進(jìn)一步改進(jìn)是可能的雖然所介紹的設(shè)置從直流到特定上界頻率始終使用殘差編碼,但是,增強(qiáng)型實(shí)現(xiàn)可以僅將比特用在與用于分離FGO和背景對(duì)象相關(guān)的頻率范圍上。
在之前的描述中,已經(jīng)描述了針對(duì)卡拉OK型應(yīng)用的SAOC技術(shù)的增強(qiáng)。以下將介紹用于MPEG SAOC的多聲道FGO音頻情景處理的增強(qiáng)型卡拉OK/獨(dú)唱模式的應(yīng)用的另外的詳細(xì)實(shí)施例。
與有所改變(alteration)地進(jìn)行再現(xiàn)的FGO相反,必須無改變地再現(xiàn)MBO信號(hào),即通過相同的輸出聲道,以未改變的聲級(jí)再現(xiàn)每個(gè)輸入聲道信號(hào)。
由此,已提出了由MPEG環(huán)繞編碼器執(zhí)行的對(duì)MBO信號(hào)的預(yù)處理,該預(yù)處理產(chǎn)生立體聲下混合信號(hào),用作要輸入至隨后的卡拉OK/獨(dú)唱模式處理級(jí)的(立體聲)背景對(duì)象(BGO),所述處理級(jí)包括SAOC編碼器、MBO變碼器、和MPS解碼器。圖9再次示出了總體結(jié)構(gòu)圖。
可以看到,根據(jù)卡拉OK/獨(dú)唱模式編碼器結(jié)構(gòu),輸入對(duì)象被分為立體聲背景對(duì)象(BGO)104和前景對(duì)象(FGO)110。
盡管在RM0中,由SAOC編碼器/變碼器系統(tǒng)來執(zhí)行對(duì)這些應(yīng)用場(chǎng)景的處理,但是,圖6的增強(qiáng)還利用了MPEG環(huán)繞結(jié)構(gòu)的基本構(gòu)成模塊。當(dāng)需要對(duì)特定音頻對(duì)象進(jìn)行較強(qiáng)的增大/衰減時(shí),在編碼器中集成3至2(TTT-1)模塊并在變碼器中集成對(duì)應(yīng)的2至3(TTT)互補(bǔ)模塊改進(jìn)了性能。擴(kuò)展結(jié)構(gòu)的兩個(gè)主要特性是 -由于利用了殘差信號(hào),實(shí)現(xiàn)了更好的(與RM0相比)信號(hào)分離, -通過一般化被表示為TTT-1盒中央輸入(即FGO)的信號(hào)的混合規(guī)則,對(duì)該信號(hào)進(jìn)行靈活定位。
由于TTT構(gòu)成模塊的直接實(shí)現(xiàn)涉及編碼器側(cè)的3個(gè)輸入信號(hào),因此,圖6集中關(guān)注對(duì)作為如圖10所示的(下混合)單聲道信號(hào)的FGO的處理。也已經(jīng)說明了對(duì)多聲道FGO信號(hào)的處理,但是,在以下章節(jié)中將對(duì)其進(jìn)行更詳細(xì)地解釋。
從圖10可以看到,在圖6的增強(qiáng)模式中,將所有FGO的組合饋入TTT-1盒的中央聲道。
在如圖6和圖10的FGO單聲道下混合的情況下,編碼器側(cè)的TTT-1盒的配置包括被饋送至中央輸入的FGO、和提供左右輸入的BGO。
以下公式給出了基本的對(duì)稱矩陣 該公式提供了下混合(L0 R0)T和信號(hào)F0 通過該線性系統(tǒng)獲得的第三信號(hào)被丟棄,但可以在集成了兩個(gè)預(yù)測(cè)系數(shù)c1和c2(CPC)的變碼器側(cè),根據(jù)以下公式來對(duì)其進(jìn)行重構(gòu) 在變碼器中的逆過程由以下公式給出 參數(shù)m1和m2對(duì)應(yīng)于 m1=cos(μ)以及m2=sin(μ) μ負(fù)責(zé)搖動(dòng)FGO在公共TTT下混合(L0 R0)T中的位置。可以使用所傳送的SAOC參數(shù)(即所有輸入音頻對(duì)象的對(duì)象音級(jí)差(OLD)和BGO下混合(MBO)信號(hào)的對(duì)象間相關(guān)(IOC))來估計(jì)變碼器側(cè)的TTT上混合單元所需的預(yù)測(cè)系數(shù)c1和c2。假定FGO和BGO信號(hào)統(tǒng)計(jì)獨(dú)立,對(duì)CPC估計(jì),以下關(guān)系成立 變量PLo、PRo、PLoRo、PLoFo和PRoFo可以按如下方式進(jìn)行估計(jì),其中參數(shù)OLDL、OLDR和IOCLR與BGO相對(duì)應(yīng),OLDF是FGO參數(shù) PLoRo=IOCLR+m1m2OLDF PLoFo=m1(OLDL-OLDF)+m2IOCLR PRoFo=m2(OLDR-OLDF)+m1IOCLR 此外,可以在比特流內(nèi)傳送的殘差信號(hào)132表示了CPC的推導(dǎo)所引入的誤差,因此 在某些應(yīng)用場(chǎng)景中,對(duì)所有FGO中的單個(gè)單聲道下混合進(jìn)行限制是不合適的,因此需要克服該問題。例如,可以將FGO劃分為在所傳送的立體聲下混合中位于不同位置和/或具有獨(dú)立衰減的兩個(gè)以上獨(dú)立的組。因此,圖11所示的級(jí)聯(lián)結(jié)構(gòu)暗示了兩個(gè)以上連續(xù)的TTT-1元件,在編碼器側(cè)產(chǎn)生了所有FGO組F1、F2的逐步的下混合,直至獲得所需的立體聲下混合112為止。每個(gè)(或至少一些)TTT-1盒124a、b(圖11中每個(gè)TTT-1盒)設(shè)置與TTT-1盒124a、b的各級(jí)分別對(duì)應(yīng)的殘差信號(hào)132a、132b。相反,變碼器通過使用各順序應(yīng)用的TTT盒126a、b(如有可能,集成對(duì)應(yīng)的CPC和殘差信號(hào))來執(zhí)行順序上混合。FGO處理的順序是由編碼器指定的,在變碼器側(cè)必須考慮。
以下描述圖11所示的兩級(jí)級(jí)聯(lián)所涉及的詳細(xì)的數(shù)學(xué)原理。
為了簡(jiǎn)化說明又不失一般性,以下的解釋基于如圖11所示的由兩個(gè)TTT元件組成的級(jí)聯(lián)。兩個(gè)對(duì)稱矩陣與FGO單聲道下混合類似,但是必須恰當(dāng)?shù)貞?yīng)用于各自的信號(hào) 以及 這里,兩個(gè)CPC集合產(chǎn)生了以下信號(hào)重構(gòu) 以及 逆過程可表示為 以及 兩級(jí)級(jí)聯(lián)的一種特殊情況包括一立體聲FGO,其左和右聲道被適當(dāng)?shù)厍蠛蜑锽GO的對(duì)應(yīng)聲道,使μ1=0,
以及 對(duì)于這種特別的搖動(dòng)風(fēng)格,通過忽略對(duì)象間相關(guān)(OLDLR=0),兩個(gè)CPC集合的估計(jì)可簡(jiǎn)化為 cL2=0, cR1=0, 其中,OLDFL和OLDFR分別表示左右FGO信號(hào)的OLD。
一般的N級(jí)級(jí)聯(lián)情況是指依照以下公式的多聲道FGO下混合 其中,每一級(jí)確定其自身的CPC和殘差信號(hào)的特征。
在變碼器側(cè),逆級(jí)聯(lián)步驟由以下公式給出 為了消除保持TTT元件的順序的必要性,通過將N個(gè)矩陣重新排列為單一對(duì)稱TTN矩陣的方式,可以將級(jí)聯(lián)結(jié)構(gòu)容易地轉(zhuǎn)換為等效的平行結(jié)構(gòu),從而產(chǎn)生一般的TTN矩陣
其中,矩陣的前兩行表示要發(fā)送的立體聲下混合。另一方面,術(shù)語TTN(2至N)指變碼器側(cè)的上混合處理。
使用這種描述,進(jìn)行了特定搖動(dòng)的立體聲FGO的特殊情況將矩陣簡(jiǎn)化為 相應(yīng)地,該單元可以被稱為2至4元件或TTF。
也可以產(chǎn)生重用SAOC立體聲預(yù)處理模塊的TTF結(jié)構(gòu)。
對(duì)于N=4的限制,對(duì)現(xiàn)有SAOC系統(tǒng)的某些部分進(jìn)行重用的2至4(TTF)結(jié)構(gòu)的實(shí)現(xiàn)成為可能。以下段落中將描述該處理。
SAOC標(biāo)準(zhǔn)文本描述了針對(duì)“立體聲至立體聲代碼轉(zhuǎn)換模式”的立體聲下混合預(yù)處理。準(zhǔn)確地說,根據(jù)以下公式,由輸入立體聲信號(hào)X以及解相關(guān)信號(hào)Xd來計(jì)算輸出立體聲信號(hào)Y Y=GModX+P2Xd 解相關(guān)分量Xd是原始呈現(xiàn)信號(hào)中已在編碼過程中被丟棄掉的部分的合成表示。根據(jù)圖12,使用合適的針對(duì)特定頻率范圍的由編碼器產(chǎn)生的殘差信號(hào)132來替換該解相關(guān)信號(hào)。
命名按如下方式定義 ●D是2×N下混合矩陣 ●A是2×N呈現(xiàn)矩陣 ●E是輸入對(duì)象S的N×N協(xié)方差模型 ●GMod(與圖12中的G相對(duì)應(yīng))是預(yù)測(cè)2×2上混合矩陣 注意,GMod是D、A和E的函數(shù)。
為了計(jì)算殘差信號(hào)XRes,必須在編碼器中模仿解碼器處理,即確定GMod。一般地,場(chǎng)景A是未知的,但是,在卡拉OK場(chǎng)景的特殊情況下(例如具有一個(gè)立體聲背景和一個(gè)立體聲前景對(duì)象,N=4),假定 這意味著僅呈現(xiàn)BGO。
為了估計(jì)前景對(duì)象,從下混合信號(hào)X中減去重構(gòu)的背景對(duì)象。在“混合”處理模塊中執(zhí)行該最終呈現(xiàn)。以下將介紹具體的細(xì)節(jié)。
呈現(xiàn)矩陣A被設(shè)置為 其中,假定頭2列表示FGO的兩個(gè)聲道,后2列表示BGO的兩個(gè)聲道。
根據(jù)以下公式來計(jì)算BGO和FGO的立體聲輸出。
YBGO=GModX+XRes 由于下混合權(quán)值矩陣D被定義為 D=(DFGO|DBGO) 其中 以及 因此,F(xiàn)GO對(duì)象可以被設(shè)置為 作為示例,對(duì)于下混合矩陣 將其簡(jiǎn)化為 YFGO=X-YBGO XRes是按上述方式得到的殘差信號(hào)。請(qǐng)注意,未添加解相關(guān)信號(hào)。
最終輸出Y由下式給出 上述實(shí)施例也可以適用于使用單聲道FGO來替代立體聲FGO的情況。在這種情況下,根據(jù)以下內(nèi)容來改變處理。
呈現(xiàn)矩陣A被設(shè)置為 其中,假定第一列表示單聲道FGO,隨后的列表表示BGO的兩個(gè)聲道。
根據(jù)以下公式來計(jì)算BGO和FGO的立體聲輸出。
YFGO=GModX+XRes 由于下混合權(quán)值矩陣D被定義為 D=(DFGO|DBGO) 其中 以及 因此,BGO對(duì)象可以被設(shè)置為 作為示例,對(duì)于下混合矩陣 將其簡(jiǎn)化為 XRes是按上述方式獲得的殘差信號(hào)。請(qǐng)注意,未添加解相關(guān)信號(hào)。最終輸出Y由以下公式給出 對(duì)于5個(gè)以上FGO對(duì)象的處理,可以通過重組剛剛描述的處理步驟的并行級(jí)來擴(kuò)展上述實(shí)施例。
以上剛剛描述的實(shí)施例提供了針對(duì)多聲道FGO音頻情景的情況的增強(qiáng)型卡拉OK/獨(dú)唱模式的詳細(xì)描述。這樣的一般化旨在擴(kuò)大卡拉OK應(yīng)用場(chǎng)景的種類,對(duì)于卡拉OK應(yīng)用場(chǎng)景,可以通過應(yīng)用增強(qiáng)型卡拉OK/獨(dú)唱模式來進(jìn)一步改進(jìn)MPEG SAOC參考模型的聲音質(zhì)量。這種改進(jìn)是通過將一般NTT結(jié)構(gòu)引入SAOC編碼器的下混合部分,并將相應(yīng)的對(duì)應(yīng)物引入SAOCtoMPS變碼器來實(shí)現(xiàn)的。殘差信號(hào)的使用提高了質(zhì)量結(jié)果。
圖13a至13h示出了根據(jù)本發(fā)明的實(shí)施例的SAOC側(cè)信息比特流的可能語法。
在描述了與SAOC編解碼器的增強(qiáng)模式相關(guān)的一些實(shí)施例之后,應(yīng)注意,這些實(shí)施例中的一些涉及輸入至SAOC編碼器的音頻輸入不僅包含常規(guī)單聲道或立體聲聲源,而且包含多聲道對(duì)象的應(yīng)用場(chǎng)景。圖5至7b顯式地描述了這一點(diǎn)。這樣的多聲道背景對(duì)象MBO可以被看作包括較大且通常數(shù)目未知的聲源的復(fù)雜聲音情景,對(duì)于該情景不需要可控呈現(xiàn)功能。個(gè)別地,SAOC編碼器/解碼器架構(gòu)不能有效處理這些音頻源。因此,可以考慮擴(kuò)展SAOC架構(gòu)的概念,以處理這些復(fù)雜輸入信號(hào)(即MBO聲道)以及典型的SAOC音頻對(duì)象。因此,在剛剛提及的圖5至7b的實(shí)施例中,考慮將MPEG環(huán)繞編碼器包含于SAOC編碼器,如將SAOC編碼器108和MPS編碼器100圈住的虛線所示。所產(chǎn)生的下混合104用作輸入SAOC編碼器108的立體聲輸入對(duì)象,以可控SAOC對(duì)象110一起產(chǎn)生要發(fā)送至變碼器側(cè)的組合立體聲下混合112。在參數(shù)域中,將MPS比特流106和SAOC比特流104饋入SAOC變碼器116,SAOC變碼器116根據(jù)特定的MBO應(yīng)用場(chǎng)景,為MPEG環(huán)繞解碼器122提供合適的MPS比特流118。使用呈現(xiàn)信息或呈現(xiàn)矩陣并采用一些下混合預(yù)處理來執(zhí)行該任務(wù),采用下混合預(yù)處理是為了將下混合信號(hào)112變換為用于MPS解碼器122的下混合信號(hào)120。
以下描述用于增強(qiáng)型卡拉OK/獨(dú)唱模式的另一個(gè)實(shí)施例。該實(shí)施例允許對(duì)多個(gè)音頻對(duì)象,在其聲級(jí)放大/衰減方面執(zhí)行獨(dú)立操作,而不會(huì)明顯降低結(jié)果聲音質(zhì)量。一種特殊的“卡拉OK類型”應(yīng)用場(chǎng)景需要完全抑制指定對(duì)象(通常是主唱,以下稱為前景對(duì)象FGO),同時(shí)保持背景聲音情景的感知質(zhì)量不受損害。它同時(shí)需要單獨(dú)再現(xiàn)特定FGO信號(hào)而不再現(xiàn)靜態(tài)背景音頻情景(以下稱為背景對(duì)象BGO)的能力,該背景對(duì)象不需要搖動(dòng)方面的用戶可控性。這種場(chǎng)景被稱為“獨(dú)唱”模式。一種典型的應(yīng)用情況包含立體聲BGO和多達(dá)4個(gè)FGO信號(hào),例如,這4個(gè)FGO信號(hào)可以表示兩個(gè)獨(dú)立的立體聲對(duì)象。
根據(jù)本實(shí)施例和圖14,增強(qiáng)型卡拉OK/獨(dú)唱模式變碼器150使用“2至N”(TTN)或“1至N”(OTN)元件152,TTN和OTN元件152均表示從MPEG環(huán)繞規(guī)范獲知的TTT盒的一般化和增強(qiáng)型修改。合適元件的選擇取決于所傳送的下混合聲道的數(shù)目,即TTN盒專門用于立體聲下混合信號(hào),而OTN盒適用單聲道下混合信號(hào)。在SAOC編碼器中,對(duì)應(yīng)的TTN-1或OTN-1盒將BGO和FGO信號(hào)組合為公共的SAOC立體聲或單聲道下混合112,并產(chǎn)生比特流114。任一元件,即TTN或OTN 152支持下混合信號(hào)112中所有獨(dú)立FGO的任意預(yù)定義定位。在變碼器側(cè),TTN或OTN盒152僅使用SAOC輔助信息114,并可選地結(jié)合殘差信號(hào),根據(jù)下混合112恢復(fù)BGO 154或FGO信號(hào)156的任何組合(取決于從外部應(yīng)用的工作模式158)。使用所恢復(fù)的音頻對(duì)象154/156和呈現(xiàn)信息160來產(chǎn)生MPEG環(huán)繞比特流162和對(duì)應(yīng)的經(jīng)預(yù)處理的下混合信號(hào)164?;旌蠁卧?66對(duì)下混合信號(hào)112執(zhí)行處理,以獲得MPS輸入下混合164,MPS變碼器168負(fù)責(zé)將SAOC參數(shù)114轉(zhuǎn)換為SAOC參數(shù)162。TTN/OTN盒152和混合單元166一起執(zhí)行與圖3的裝置52和54相對(duì)應(yīng)的增強(qiáng)型卡拉OK/獨(dú)唱模式處理170,其中,裝置54包括混合單元的功能。
可以與上述相同的方式來對(duì)待MBO,即使用MPEG環(huán)繞編碼器對(duì)其進(jìn)行預(yù)處理,產(chǎn)生單聲道或立體聲下混合信號(hào),用作要輸入至隨后的增強(qiáng)型SAOC編碼器的BGO。在這種情況下,變碼器必須與SAOC比特流相鄰的附加MPEG環(huán)繞比特流一起提供。
接下來解釋由TTN(OTN)元件執(zhí)行的計(jì)算。以第一預(yù)定時(shí)間/頻率分辨率42表達(dá)的TTN/OTN矩陣M是兩個(gè)矩陣的積 M=D-1C 其中,D-1包括下混合信息,C含有每個(gè)FGO聲道的聲道預(yù)測(cè)系數(shù)(CPC)。C由裝置52和盒152分別計(jì)算,裝置54和盒152分別計(jì)算D-1,并將其與C一起應(yīng)用于SAOC下混合。根據(jù)以下公式來執(zhí)行該計(jì)算 對(duì)于TTN元件,即立體聲下混合
對(duì)于OTN元件,及單聲道下混合
從所傳送的SAOC參數(shù)(即OLD、IOC、DMG和DCLD)導(dǎo)出CPC。對(duì)于一個(gè)特定FGO聲道j,可以使用以下公式來估計(jì)CPC 以及 參數(shù)OLDL、OLDR和IOCLR與BGO相對(duì)應(yīng),其余是FGO值。
系數(shù)mj和nj表示針對(duì)右和左下混合聲道的每個(gè)FGO j的下混合值,并由下混合增益DMG和下混合聲道聲級(jí)差DCLD導(dǎo)出 以及 對(duì)于OTN元件,第二CPC值cj2的計(jì)算是多余的。
為了重構(gòu)兩個(gè)對(duì)象組BGO和FGO,下混合矩陣D的求逆利用了下混合信息,所述下混合矩陣D被擴(kuò)展為進(jìn)一步規(guī)定信號(hào)F01至F0N的線性組合,即 以下,闡述編碼器側(cè)的下混合 在TTN-1元件中,擴(kuò)展下混合矩陣為 對(duì)立體聲BGO
對(duì)單聲道BGO
對(duì)于OTN-1元件,有 對(duì)立體聲BGO
對(duì)單聲道BGO
TTN/OTN元件的輸出對(duì)立體聲BGO和立體聲下混合產(chǎn)生 在BGO和/或下混合為單聲道信號(hào)的情況下,線性方程組相應(yīng)地發(fā)生改變。
殘差信號(hào)resi(如果存在)與FGO對(duì)象i相對(duì)應(yīng),如果沒有被SAOC流傳送(例如由于其位于殘差頻率范圍之外,或以信號(hào)告知完全沒有對(duì)FGO對(duì)象i傳送殘差信號(hào)),則resi被推定為零。

是與FGO對(duì)象i近似的重構(gòu)/上混合信號(hào)。在計(jì)算之后,可以將

通過合成濾波器組,以獲得FGO對(duì)象i的時(shí)域(如PCM編碼)版本。應(yīng)回顧到,L0和R0表示SAOC下混合信號(hào)的聲道,并能夠以比基本索引(n,k)的參數(shù)分辨率更高的時(shí)間/頻率分辨率加以使用/進(jìn)行信號(hào)告知。



是與BGO對(duì)象的左和右聲道近似的重構(gòu)/上混合信號(hào)。它可以與MPS輔助比特流一起呈現(xiàn)在原始數(shù)目的聲道上。
根據(jù)一實(shí)施例,在能量模式下使用以下TTN矩陣。
基于能量的編碼/解碼過程被設(shè)計(jì)用于對(duì)下混合信號(hào)進(jìn)行非波形保持編碼。因此,針對(duì)對(duì)應(yīng)能量模型的TTN上混合矩陣不依賴于具體波形,而是僅描述了輸入音頻對(duì)象的相對(duì)能量分布。根據(jù)以下公式,從對(duì)應(yīng)OLD獲得該矩陣MEnergy的元素 對(duì)立體聲BGO 以及對(duì)于單聲道BGO 使得TTN元件的輸出分別產(chǎn)生 或 相應(yīng)地,對(duì)于單聲道下混合,基于能量的上混合矩陣MEnergy變?yōu)? 對(duì)立體聲BGO 以及對(duì)于單聲道BGO 使得OTN元件的輸出分別產(chǎn)生 或 因此,根據(jù)剛剛提及的實(shí)施例,在編碼器側(cè)將所有對(duì)象(Obj1...ObjN)分別分類為BGO和FGO。BGO可以是單聲道(L)或立體聲

對(duì)象。BGO下混合為下混合信號(hào)是固定的。對(duì)于FGO,其數(shù)目在理論上是不受限的。然而,對(duì)于多數(shù)應(yīng)用,總計(jì)4個(gè)FGO對(duì)象似乎就足夠了。單聲道和立體聲對(duì)象的任何組合都是可行的。通過參數(shù)mi(對(duì)左/單聲道下混合信號(hào)進(jìn)行加權(quán))和ni(對(duì)右下混合信號(hào)進(jìn)行加權(quán)),F(xiàn)GO下混合在時(shí)間上和頻率上均可變。由此,下混合信號(hào)可以是單聲道(L0)或立體聲
依舊不向解碼器/變碼器發(fā)送信號(hào)(F01...F0N)T。反之,在解碼器側(cè)通過上述CPC來預(yù)測(cè)該信號(hào)。
由此,再次注意,解碼器設(shè)置甚至可以丟棄殘差信號(hào)res,或者res甚至可以不存在,即其是可選的。在缺少殘差信號(hào)的情況下,解碼器(例如裝置52)根據(jù)以下公式,僅基于CPC來預(yù)測(cè)虛擬信號(hào) 立體聲下混合 單聲道下混合 然后,例如由裝置54通過編碼器的4種可能線性組合之一的逆運(yùn)算來獲得BGO和/或FGO, 例如, 其中D-1依然是參數(shù)DMG和DCLD的函數(shù)。
因此,總而言之,殘差忽略TTN(OTN)盒152計(jì)算兩個(gè)剛剛提及的計(jì)算步驟, 例如 注意,當(dāng)D為二次型時(shí),可以直接獲得D的逆。在非二次型矩陣D的情況下,D的逆應(yīng)為偽逆,即pinv(D)=D*(DD*)-1或pinv(D)=(D*D)-1D*。在任一種情況下,D的逆存在。
最后,圖15示出了如何在輔助信息中設(shè)置用于傳送殘差數(shù)據(jù)的數(shù)據(jù)量的另一可能。根據(jù)該語法,輔助信息包括bsResidualSamplingFrequencyIndex,即表格的索引,所述表格將例如頻率分辨率與該索引相關(guān)聯(lián)。可選地,可以推定該分辨率為預(yù)定分辨率,如濾波器組的分辨率或參數(shù)分辨率。此外,輔助信息包括bsResidualFramesPerSAOCFrame,后者定義了傳送殘差信息所使用的時(shí)間分辨率。輔助信息還包括BsNumGroupsFGO,表示FGO的數(shù)目。對(duì)于每個(gè)FGO,傳送了語法元素bsResidualPresent,后者表示對(duì)于相應(yīng)的FGO,是否傳送了殘差信號(hào)。如果存在,bsResidualBands表示傳送殘差值的頻譜帶的數(shù)目。
根據(jù)實(shí)際實(shí)現(xiàn)方式的不同,可以以硬件或軟件來實(shí)現(xiàn)本發(fā)明的編碼/解碼方法。因此,本發(fā)明也涉及計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可以存儲(chǔ)在諸如CD、盤或任何其他數(shù)據(jù)載體等計(jì)算機(jī)可讀介質(zhì)上。因此,本發(fā)明還是一種具有程序代碼的計(jì)算機(jī)程序,當(dāng)在計(jì)算機(jī)上執(zhí)行所述程序代碼時(shí),執(zhí)行結(jié)合上述附圖描述的本發(fā)明的編碼方法或本發(fā)明的解碼方法。
權(quán)利要求
1.一種音頻解碼器,用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼,所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào),所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成,所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息,所述音頻解碼器包括
用于基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣(C)的裝置;以及
用于基于所述預(yù)測(cè)系數(shù)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合,以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)的裝置,其中,用于上混合的裝置被配置為,利用可由以下公式表示的計(jì)算,根據(jù)下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2
其中,根據(jù)d的聲道數(shù)目,“1”表示標(biāo)量或單位矩陣,D-1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為下混合信號(hào)的,且所述下混合規(guī)則還包含于所述輔助信息,H是獨(dú)立于d的項(xiàng)。
2.如權(quán)利要求1所述的音頻解碼器,其中,所述下混合規(guī)則在所述輔助信息中隨時(shí)間而變化。
3.如權(quán)利要求1或2所述的音頻解碼器,其中,所述下混合規(guī)則指示了加權(quán),所述下混合信號(hào)是基于第一類型音頻信號(hào)和第二類型音頻信號(hào),利用所述加權(quán)來混合而成的。
4.如權(quán)利要求1至3中任一項(xiàng)所述的音頻解碼器,其中,所述第一類型音頻信號(hào)是具有第一和第二輸入聲道的立體聲音頻信號(hào),或僅具有第一輸入聲道的單聲道音頻信號(hào),其中,所述聲級(jí)信息以所述第一預(yù)定時(shí)間/頻率分辨率分別描述所述第一輸入聲道、所述第二輸入聲道與第二類型音頻信號(hào)之間的聲級(jí)差,其中,所述輔助信息還包括互相關(guān)信息,所述互相關(guān)信息以第三預(yù)定時(shí)間/頻率分辨率定義了第一和第二輸入聲道之間的聲級(jí)相似性,其中,用于計(jì)算的裝置被配置為,還基于所述互相關(guān)信息來執(zhí)行計(jì)算。
5.如權(quán)利要求4所述的音頻解碼器,其中,所述第一和第三時(shí)間/頻率分辨率是由所述輔助信息中共同的語法元素決定的。
6.如權(quán)利要求4或5所述的音頻解碼器,其中,用于上混合的裝置根據(jù)可以被表示為以下公式的計(jì)算來執(zhí)行上混合
其中
是與第一類型音頻信號(hào)的第一輸入聲道近似的第一上混合信號(hào)的第一聲道,
是與第一類型音頻信號(hào)的第二輸入聲道近似的第一上混合信號(hào)的第二聲道。
7.如權(quán)利要求6所述的音頻解碼器,其中,所述下混合信號(hào)是具有第一輸出聲道L0和第二輸出聲道R0的立體聲音頻信號(hào),用于上混合的裝置根據(jù)可以被表示為以下公式的計(jì)算來執(zhí)行上混合
8.如權(quán)利要求6所述的音頻解碼器,其中,所述下混合信號(hào)是單聲道信號(hào)。
9.如權(quán)利要求4或5所述的音頻解碼器,其中,所述下混合信號(hào)和所述第一類型音頻信號(hào)是單聲道信號(hào)。
10.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中,所述輔助信息還包括以第二預(yù)定時(shí)間/頻率分辨率指定殘差聲級(jí)值的殘差信號(hào)res,其中,用于上混合的裝置執(zhí)行可以被表示為以下公式的上混合
11.如權(quán)利要求10所述的音頻解碼器,其中,所述多音頻對(duì)象信號(hào)包括多個(gè)第二類型音頻信號(hào),所述輔助信息針對(duì)每個(gè)第二類型音頻信號(hào)均包括一個(gè)殘差信號(hào)。
12.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中,所述第二預(yù)定時(shí)間/頻率分辨率通過所述輔助信息中包含的殘差分辨率參數(shù),與所述第一預(yù)定時(shí)間/頻率分辨率相關(guān),其中,所述音頻解碼器包括用于從所述輔助信息中導(dǎo)出所述殘差分辨率參數(shù)的裝置。
13.如權(quán)利要求12所述的音頻解碼器,其中,所述殘差分辨率參數(shù)定義了頻譜范圍,所述輔助信息中,所述殘差信號(hào)在所述頻譜范圍上傳送。
14.如權(quán)利要求13所述的音頻解碼器,其中,所述殘差分辨率參數(shù)定義了所述頻譜范圍的上限和下限。
15.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中,用于計(jì)算預(yù)測(cè)系數(shù)(CPC)的裝置被配置為,針對(duì)第一時(shí)間/頻率分辨率的每個(gè)時(shí)間/頻率片(l,m),所述下混合信號(hào)的每個(gè)輸出聲道i,以及第二類型音頻信號(hào)的每個(gè)聲道j,按以下公式計(jì)算聲道預(yù)測(cè)系數(shù)cj,il,m
以及
其中
其中,在第一類型音頻信號(hào)是立體聲信號(hào)的情況下,OLDL表示各時(shí)間/頻率片中第一類型音頻信號(hào)的第一輸入聲道的歸一化頻譜能量,OLDR表示各時(shí)間/頻率片中第一類型音頻信號(hào)的第二輸入聲道的歸一化頻譜能量,IOCLR表示互相關(guān)信息,所述互相關(guān)信息定義了各時(shí)間/頻率片內(nèi)的第一和第二輸入聲道之間的頻譜能量相似性,或者,在第一類型音頻信號(hào)是單聲道信號(hào)的情況下,OLDL表示各時(shí)間/頻率片內(nèi)的第一類型音頻信號(hào)的歸一化頻譜能量,OLDR和IOCLR為0,
其中,OLDj表示各時(shí)間/頻率片中第二類型音頻信號(hào)的聲道j的歸一化頻譜能量,IOCij表示互相關(guān)信息,所述互相關(guān)信息定義了各時(shí)間/頻率片內(nèi)的第二類型音頻信號(hào)的聲道i和聲道j之間的頻譜能量的相似性,
其中
以及
其中DCLD和DMG是下混合規(guī)則,
其中,用于上混合的裝置被配置為,通過
根據(jù)下混合信號(hào)d和每個(gè)第二上混合信號(hào)S2,i的殘差信號(hào)resi來產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2,i,其中,根據(jù)dn,k的聲道數(shù)目,左上角的“1”表示標(biāo)量或單位矩陣,右下角的“1”是大小為N的單位矩陣,同樣根據(jù)dn,k的聲道數(shù)目,“0”表示零向量或矩陣,D-1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為所述下混合信號(hào)的,且所述下混合規(guī)則還包含于所述輔助信息,dn,k和resin,k分別是時(shí)間/頻率片(n,k)中下混合信號(hào)和第二上混合信號(hào)S2,i的殘差信號(hào),其中,所述輔助信息中未包括的resin,k被設(shè)置為零。
16.如權(quán)利要求15所述的音頻解碼器,其中,在所述下混合信號(hào)為立體聲信號(hào)且S1為立體聲信號(hào)的情況下,D-1是以下矩陣的逆
在所述下混合信號(hào)為立體聲信號(hào)且S1為單聲道信號(hào)的情況下,D-1是以下矩陣的逆
在所述下混合信號(hào)為單聲道信號(hào)且S1為立體聲信號(hào)的情況下,D-1是以下矩陣的逆
或者
在所述下混合信號(hào)為單聲道信號(hào)且S1為單聲道信號(hào)的情況下,D-1是以下矩陣的逆
17.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中,所述多音頻對(duì)象信號(hào)包括空間呈現(xiàn)信息,用于在空間上將第一類型音頻信號(hào)呈現(xiàn)至預(yù)定的揚(yáng)聲器配置。
18.如前述權(quán)利要求中任一項(xiàng)所述的音頻解碼器,其中,用于上混合的裝置被配置為,在空間上將與所述第二上混合音頻信號(hào)分離的所述第一上混合音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置,在空間上將與所述第一上混合音頻信號(hào)分離的所述第二上混合音頻信號(hào)呈現(xiàn)至預(yù)定揚(yáng)聲器配置,或?qū)⑺龅谝簧匣旌弦纛l信號(hào)和所述第二上混合音頻信號(hào)進(jìn)行混合,并在空間上將其混合后的版本呈現(xiàn)至預(yù)定揚(yáng)聲器配置。
19.一種用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼的方法,所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào),所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成,所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息(60),所述方法包括
基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣(C);以及
基于所述預(yù)測(cè)系數(shù)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合,以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào),其中,上混合被配置為利用可由以下公式表示的計(jì)算,根據(jù)上混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2
其中,根據(jù)d的聲道數(shù)目,“1”表示標(biāo)量或單位矩陣,D-1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則來下混合為下混合信號(hào)的,且所述下混合規(guī)則還包含于所述輔助信息,H是獨(dú)立于d的項(xiàng)。
20.一種具有程序代碼的程序,當(dāng)所述程序代碼在處理器上運(yùn)行時(shí),執(zhí)行根據(jù)權(quán)利要求19所述的方法。
全文摘要
一種用于對(duì)多音頻對(duì)象信號(hào)進(jìn)行解碼的方法,所述多音頻對(duì)象信號(hào)中編碼有第一類型音頻信號(hào)和第二類型音頻信號(hào),所述多音頻對(duì)象信號(hào)由下混合信號(hào)(112)和輔助信息組成,所述輔助信息包括第一預(yù)定時(shí)間/頻率分辨率(42)下第一類型音頻信號(hào)和第二類型音頻信號(hào)的聲級(jí)信息(60),所述方法包括基于所述聲級(jí)信息(OLD)來計(jì)算預(yù)測(cè)系數(shù)矩陣C;以及基于所述預(yù)測(cè)系數(shù)和殘差信號(hào)來對(duì)所述下混合信號(hào)(56)進(jìn)行上混合,以獲得與第一類型音頻信號(hào)近似的第一上混合音頻信號(hào)和/或與第二類型音頻信號(hào)近似的第二上混合音頻信號(hào)的裝置,其中,上混合根據(jù)以下公式表示的計(jì)算,由下混合信號(hào)d產(chǎn)生第一上混合信號(hào)S1和/或第二上混合信號(hào)S2其中,根據(jù)d的聲道數(shù)目,“1”表示標(biāo)量或單位矩陣,D-1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號(hào)和第二類型音頻信號(hào)是根據(jù)所述下混合規(guī)則被下混合為下混合信號(hào)的,所述輔助信息中也包括所述下混合規(guī)則,H是獨(dú)立于d的項(xiàng)。
文檔編號(hào)G10L19/00GK101821799SQ200880111395
公開日2010年9月1日 申請(qǐng)日期2008年10月17日 優(yōu)先權(quán)日2007年10月17日
發(fā)明者奧立弗·赫內(nèi)穆特, 于爾根·赫勒, 萊奧尼德·特倫茨, 安德烈亞斯·赫爾蒂, 科尼爾德·費(fèi)爾施, 約翰內(nèi)斯·希爾伯特 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1