專利名稱:使用下混合的音頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及使用信號下混合(down-mixing)的音頻編碼。
背景技術(shù):
已經(jīng)提出了許多音頻編碼算法,以對一聲道(即單聲道)音頻信號的音頻數(shù)據(jù)進(jìn) 行有效的編碼和壓縮。利用心理聲學(xué),可以對音頻采樣進(jìn)行適當(dāng)?shù)乜s放、量化或甚至將其設(shè) 置為零,以從例如PCM編碼的音頻信號中去除不相關(guān)性。并執(zhí)行冗余刪除。進(jìn)一步地,利用了立體聲音頻信號中的左和右聲道之間的相似性,以對立體聲音 頻信號進(jìn)行有效的編碼/壓縮。然而,即將來臨的應(yīng)用對音頻編碼算法提出了更多要求。例如,在電話會議、計算 機(jī)游戲、音樂表演等中,必須并行傳送部分或甚至完全不相關(guān)的若干音頻信號。為了使用于 對這些音頻信號進(jìn)行編碼的必要比特率保持足夠低,以與低比特率傳送應(yīng)用兼容,近來已 經(jīng)提出了將多個輸入音頻信號下混合為下混合信號(如立體聲或甚至單聲道下混合信號) 的音頻編解碼器。例如,MPEG環(huán)繞標(biāo)準(zhǔn)以該標(biāo)準(zhǔn)所規(guī)定的方式,將輸入聲道下混合為下混合 信號。下混合是使用所謂的0ΤΓ1和ΤΤΓ1盒(box)予以實現(xiàn)的,OTr1和ΤΤΓ1盒分別將兩 個信號下混合為一個信號和將三個信號下混合為兩個信號。為了對四個以上的信號進(jìn)行下 混合,使用這些盒的分級結(jié)構(gòu)。除了單聲道下混合信號之外,每個OIT1盒輸出兩個輸入聲 道之間的聲道聲級差、以及表示兩個輸入聲道之間的相干或互相關(guān)的聲道間相干/互相關(guān) 參數(shù)。在MPEG環(huán)繞數(shù)據(jù)流中,這些參數(shù)與MPEG環(huán)繞編碼器的下混合信號一起輸出。類似 地,每個ΤΤΓ1盒發(fā)送聲道預(yù)測系數(shù),該聲道預(yù)測系數(shù)使得能夠從所產(chǎn)生的立體聲下混合信 號恢復(fù)3個輸入聲道。在MPEG環(huán)繞數(shù)據(jù)流中,還將該聲道預(yù)測系數(shù)作為輔助信息來傳送。 MPEG環(huán)繞解碼器使用所傳送的輔助信息對下混合信號進(jìn)行上混合,并恢復(fù)輸入至MPEG環(huán) 繞編碼器的原始聲道。然而,不幸的是,MPEG環(huán)繞不能滿足許多應(yīng)用所提出的全部要求。例如,MPEG環(huán)繞 解碼器專門用于對MPEG環(huán)繞編碼器的下混合信號進(jìn)行上混合,以將MPEG環(huán)繞編碼器的輸 入聲道恢復(fù)原樣。換言之,MPEG環(huán)繞數(shù)據(jù)流專門用于通過使用已用于編碼的揚聲器配置來 進(jìn)行回放。然而,根據(jù)一些暗示,如果可以在解碼器側(cè)改變揚聲器配置將是十分有利的。為了滿足后者的需要,目前已設(shè)計了空間音頻對象編碼(SAOC)標(biāo)準(zhǔn)。每個聲道被 視為單獨的對象,并將所有對象下混合為下混合信號。然而,此外,各獨立對象也可以包括 獨立聲源,如樂器或聲樂音帶。然而,與MPEG環(huán)繞解碼器不同,SAOC解碼器能夠自由地對 下混合信號進(jìn)行單獨的上混合,以將各獨立對象重放至任何揚聲器配置。為了使SAOC解碼 器能夠恢復(fù)已被編碼為SAOC數(shù)據(jù)流的各獨立對象,在SAOC比特流中,將對象聲級差,以及 針對一起形成立體聲(或多聲道)信號的對象的對象間互相關(guān)參數(shù)作為輔助信息。此外, 向SAOC解碼器/變碼器提供了啟示各獨立對象如何被下混合為下混合信號的信息。因此, 在解碼器側(cè),可以恢復(fù)各獨立SAOC聲道,并利用由用戶控制的呈現(xiàn)信息來將這些信號呈現(xiàn)至任何揚聲器配置。然而,雖然SAOC編解碼器被設(shè)計用于單獨地處理音頻對象,但是一些應(yīng)用的要求甚至更高。例如,卡拉OK應(yīng)用要求背景音頻信號與前景音頻信號的完全分離。反之,在獨 唱(solo)模式下,必須將前景對象與背景對象分離。然而,由于同等地對待各獨立音頻對 象,因此不可能分別從下混合信號中完全去除背景對象或前景對象。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是,提供一種使用音頻信號的下混合的音頻編解碼器,以更好 地在例如卡拉OK/獨唱模式應(yīng)用中分離各獨立對象。這個目的是通過根據(jù)權(quán)利要求1所述的音頻解碼器、根據(jù)權(quán)利要求18所述的音頻 編碼器、根據(jù)權(quán)利要求20所述的解碼方法、根據(jù)權(quán)利要求21所述的編碼方法、以及根據(jù)權(quán) 利要求23所述的多音頻對象信號來實現(xiàn)的。
參照附圖,更詳細(xì)地描述本申請的優(yōu)選實施例。附圖中圖1示出了可以在其中實現(xiàn)本發(fā)明的實施例的SAOC編碼器/解碼器配置的框圖;圖2示出了單聲道音頻信號的頻譜表示的示意和說明圖;圖3示出了根據(jù)本發(fā)明的實施例的音頻解碼器的框圖;圖4示出了根據(jù)本發(fā)明的實施例的音頻編碼器的框圖;圖5示出了作為對比實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼器 配置的框圖;圖6示出了根據(jù)一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼器配 置的框圖;圖7a示出了根據(jù)對比實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器的框 圖;圖7b示出了根據(jù)一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器的框圖;圖8a和b示出了質(zhì)量測量結(jié)果圖;圖9示出了供對比用的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼器配置的 框圖;圖10示出了根據(jù)一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼器 配置的框圖;圖11示出了根據(jù)另一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼 器配置的框圖;圖12示出了根據(jù)另一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻編碼器/解碼 器配置的框圖;圖13a至h示出了反映根據(jù)本發(fā)明一實施例的用于SAOC比特流的可能語法的表 格;圖14示出了根據(jù)一實施例的用于卡拉OK/獨唱模式應(yīng)用的音頻解碼器的框圖;以 及
圖15示出了反映用于以信號告知傳送殘差信號所耗費的數(shù)據(jù)量的可能語法的表 格。
具體實施例方式在以下更具體地描述本發(fā)明的實施例之前,為了更容易理解以下更詳細(xì)地概述的 具體實施例,先對SAOC編解碼器和SAOC比特流中傳送的SAOC參數(shù)加以介紹。圖1示出了 SAOC編碼器10和SAOC解碼器12的總體配置。SAOC 編碼器10接收 N個對象(即音頻信號H1至14n)作為輸入。具體地,編碼器10包括下混合器16,下混合 器16接收音頻信號H1至14N,并將其下混合為下混合信號18。在圖1中,將下混合信號示 例性地示為立體聲下混合信號。然而,單聲道下混合信號也是可能的。將立體聲下混合信 號18的聲道表示為LO和R0,在單聲道下混合的情況下,聲道僅表示為L0。為了使SAOC解 碼器12能夠恢復(fù)各獨立對象H1至14n,下混合器16向SAOC解碼器12提供了包括SAOC參 數(shù)的輔助信息,該SAOC參數(shù)包括對象聲級差(OLD)、對象間互相關(guān)參數(shù)(IOC)、下混合增益 值(DMG)、和下混合聲道聲級差(DCLD)。包括SAOC參數(shù)以及下混合信號18的輔助信息20 形成了 SAOC解碼器12所接收的SAOC輸出數(shù)據(jù)流。SAOC解碼器12包括上混合器22,上混合器22接收下混合信號18以及輔助信息 20,以恢復(fù)音頻信號H1至14N,并將其呈現(xiàn)至任何用戶選擇的聲道集合21至24M,其中,輸 入至SAOC解碼器12的呈現(xiàn)信息26規(guī)定了呈現(xiàn)方式。音頻信號H1至1、可以在任何編碼域(例如時域或頻譜域)被輸入下混合器16。 在音頻信號H1至14n在時域被饋入下混合器16的情況下(如經(jīng)PCM編碼),下混合器16 就使用濾波器組(如混合QMF組,即一組具有針對最低頻帶的奈奎斯特濾波器擴(kuò)展,以提高 其中的頻率分辨率的復(fù)指數(shù)調(diào)制濾波器),以特定濾波器組分辨率將信號轉(zhuǎn)移至頻譜域,在 頻域域中,在與不同頻譜部分相關(guān)的若干子帶中表示音頻信號。如果音頻信號H1至14n已 經(jīng)是下混合器16所期望的表示形式,則下混合器16不必執(zhí)行頻譜分解。圖2示出了剛剛提及的頻域中的音頻信號,可以看到,音頻信號被表示為多個子 帶信號。子帶信號301至30[)分別由小框32所表示的子帶值的序列構(gòu)成。可以看到,子帶 信號SO1至30P的子帶值32在時間上相互同步,使得對于各個連續(xù)的濾波器組時隙34,每 個子帶SO1至30P包括正好一個子帶值32。如頻率軸36所示,子帶信號SO1至30P與不同 的頻率區(qū)域相關(guān)聯(lián),如時間軸38所示,濾波器組時隙34在時間上連續(xù)排列。如上所述,下混合器16根據(jù)輸入音頻信號H1至14n來計算SAOC參數(shù)。下混合器 16以某一時間/頻率分辨率執(zhí)行該計算,所述時間/頻率分辨率與由濾波器組時隙34和子 帶分解所確定的原始時間/頻率分辨率相比,可以降低某一特定量,該特定量是通過相應(yīng) 的語法元素bsFrameLength和bsFreqRes在輔助信息20中以信號告知給解碼器側(cè)的。例 如,若干由連續(xù)濾波器組時隙34構(gòu)成的組可以形成幀40。換言之,可以將音頻信號劃分成 例如在時間上重疊或在時間上緊鄰的幀。在這種情況下,bsFrameLength可以定義參數(shù)時隙 41 (即在SAOC幀40中用以計算SAOC參數(shù)(如OLD和I0C)的時間單元)的數(shù)目,bsFreqRes 可以定義對其計算SAOC參數(shù)的處理頻帶的數(shù)目。通過這種方式,每個幀被劃分為圖2中以 虛線42進(jìn)行示例的時間/頻率片(time/frequencytile)。下混合器16根據(jù)以下公式來計算SAOC參數(shù)。具體地,下混合器16針對每個對象i計算對象聲級差 其中,求和以及索引η和k分別遍歷所有濾波器組時隙34,以及屬于特定時間/頻 率片42的所有濾波器組子帶30。因此,對音頻信號或?qū)ο骾的所有子帶值Xi的能量進(jìn)行 求和,并將求和結(jié)果對所有對象或音頻信號中能量值最大的片進(jìn)行歸一化。此外,SAOC下混合器16能夠計算不同輸入對象H1至14N對的對應(yīng)時間/頻率片 的相似性度量。盡管SAOC下混合器16可以計算所有輸入對象H1至14n對之間的相似性 度量,但是,下混合器16也可以抑制對相似性度量的信號告知,或限制對形成公共立體聲 聲道的左或右聲道的音頻對象H1至14n的相似性度量的計算。不管怎樣,將該相似性度量 稱為對象間互相關(guān)參數(shù)IOCi,」。按以下公式進(jìn)行計算 其中,索引n和k再次遍歷屬于特定時間/頻率片42的所有子帶值,i和j表示 音頻對象H1至14n的特定對。下混合器16通過使用應(yīng)用于每個對象H1至14n的增益因子,對對象H1至1、進(jìn) 行下混合。也就是說,對對象i應(yīng)用增益因子Di,然后將所有這樣加權(quán)的對象H1至14n求 和,以獲得單聲道下混合信號。在圖1進(jìn)行示例的立體聲下混合信號的情況下,對對象i應(yīng) 用增益因子Du,然后將所有這樣增益放大的對象求和,以獲得左下混合聲道L0,對對象i 應(yīng)用增益因子D2,i,然后將所有這樣增益放大的對象求和以獲得右下混合聲道R0。通過下混合增益DMGi (在立體聲下混合信號的情況下,通過下混合聲道聲級差 DCLDi)將該下混合規(guī)則以信號告知給解碼器側(cè)。根據(jù)以下公式來計算下混合增益DMGi = 201og10 (Di+ ε ),(單聲道下混合),
(立體聲下混合),其中ε是很小的數(shù),如10_9。對于DCLDs適用以下公式 在正常模式下,下混合器16根據(jù)以下對應(yīng)公式來產(chǎn)生下混合信號對于單聲道下 混合 或?qū)τ诹Ⅲw聲下混合 因此,在上述公式中,參數(shù)OLD和IOC是音頻信號的函數(shù),參數(shù)DMG和DCLD是D的 函數(shù)。順帶一提的是,注意D可以隨時間變化。因此,在正常模式下,下混合器16無側(cè)重地對所有對象H1至14n進(jìn)行混合,即均 等地對待所有對象H1至14n。上混合器22執(zhí)行下混合器過程的逆過程,并在一計算步驟,即 中實現(xiàn)由矩陣A所表示的“呈現(xiàn)信息”,其中矩陣E是參數(shù)OLD和IOC的函數(shù)。換言之,在正常模式下,不將對象H1至14n分類為BGO (即背景對象)或陽0(即 前景對象)。由呈現(xiàn)矩陣A來提供關(guān)于應(yīng)在上混合器22的輸出表示哪個對象的信息。例 如,如果具有索引1的對象是立體聲背景對象的左聲道,具有索引2的對象是其右聲道,具 有索引3的對象是前景對象,則呈現(xiàn)矩陣A可以是 以產(chǎn)生卡拉OK類型的輸出信號。然而,如上所述,通過使用SAOC編解碼器的這種正常模式來傳送BGO和TOO無法 實現(xiàn)令人滿意的結(jié)果。圖3和4描述了本發(fā)明的實施例,該實施例克服了剛剛描述的不足。這些圖中所 描述的解碼器和編碼器及其相關(guān)功能可以表示圖1的SAOC編解碼器可切換至的附加模式, 如“增強(qiáng)模式”。以下將介紹后一可能性的示例。圖3示出了解碼器50。解碼器50包括用于計算預(yù)測系數(shù)的裝置52和用于對下混 合信號進(jìn)行上混合的裝置54。圖3的音頻解碼器50專門用于對多音頻對象信號進(jìn)行解碼,所述多音頻對象信號 中編碼有第一類型音頻信號和第二類型音頻信號。第一類型音頻信號和第二類型音頻信號 可以分別是單聲道或立體聲音頻信號。例如,第一類型音頻信號是背景對象而第二類型音 頻信號是前景對象。也就是說,圖3和圖4的實施例未必局限于卡拉OK/獨唱模式應(yīng)用。相 反,圖3的解碼器和圖4的編碼器可以有利地用于別處。
多音頻對象信號由下混合信號56和輔助信息58組成。輔助信息58包括聲級信 息60,例如用于以第一預(yù)定時間/頻率分辨率(例如時間/頻率分辨率42)來描述第一類 型音頻信號和第二類型音頻信號的頻譜能量。具體地,聲級信息60可以包括針對每對象 和時間/頻率片的歸一化頻譜能量標(biāo)量值。該歸一化可以與在相應(yīng)時間/頻率片中第一和 第二類型音頻信號中的最高頻譜能量值相關(guān)。后一可能性產(chǎn)生了用于表示聲級信息的OLD, 這里也稱為聲級差信息。雖然以下的實施例使用OLD,但是,盡管這里沒有明確說明,但實施 例可以使用其他歸一化的頻譜能量表示。輔助信息58也包括殘差信號62,殘差信號62以第二預(yù)定時間/頻率分辨率指定了殘差聲級值,該第二預(yù)定時間/頻率分辨率可以等于或不同于第一預(yù)定時間/頻率分辨率。用于計算預(yù)測系數(shù)的裝置52被配置為,基于聲級信息60來計算預(yù)測系數(shù)。此外,裝置52還可以基于還包含于輔助信息58中的互相關(guān)信息來計算預(yù)測系數(shù)。甚至,裝置52 還可以使用輔助信息58中包括的時變下混合規(guī)則信息來計算預(yù)測系數(shù)。裝置52所計算的 預(yù)測系數(shù)對于根據(jù)下混合聲道56恢復(fù)或上混合原始音頻對象或音頻信號是必要的。相應(yīng)地,用于上混合的裝置54被配置為,基于從裝置52接收的預(yù)測系數(shù)64和殘 差信號62來對下混合信號56進(jìn)行上混合。通過使用殘差62,解碼器50能夠更好地抑制從 一種類型的音頻信號到另一種類型的音頻信號的串?dāng)_(cross talk)。除了殘差信號62之外,裝置54可以使用時變下混合規(guī)則來對下混合信號進(jìn)行上混合。此外,用于上混合的裝 置54可以使用用戶輸入66,以決定在輸出68端實際輸出由下混合信號56恢復(fù)的音頻信號 中的哪一個或以何種程度輸出。作為第一極端情況,用戶輸入66可以指示裝置54僅輸出 與第一類型音頻信號近似的第一上混合信號。根據(jù)第二極端情況,相反地,裝置54僅輸出 與第二類型音頻信號近似的第二上混合信號。折中情況也是可能的,根據(jù)折中情況,在輸出 68呈現(xiàn)兩種上混合信號的混合。圖4示出了適于產(chǎn)生由圖3的解碼器解碼的多音頻對象信號的音頻編碼器的實施 例。圖4的編碼器由參考標(biāo)記80指示,該編碼器可以包括用于在要編碼的音頻信號84不 在頻譜域中的情況下進(jìn)行頻譜分解的裝置82。在音頻信號84中,依次存在至少一個第一 類型音頻信號和至少一個第二類型音頻信號。用于頻譜分解的裝置82被配置為,在頻譜上 將每個這些信號84分解為例如如圖2所示的表示。也就是說,用于頻譜分解的裝置82以 預(yù)定時間/音頻分辨率對音頻信號84進(jìn)行頻譜分解。裝置82可以包括濾波器組,如混合 QMF 組。音頻編碼器80還包括用于計算聲級信息的裝置86、用于下混合的裝置88、用于 計算預(yù)測系數(shù)的裝置90、以及用于設(shè)置殘差信號的裝置92。此外,音頻編碼器80可以包括 用于計算互相關(guān)信息的裝置,即裝置94。裝置86根據(jù)由裝置82可選地輸出的音頻信號,計 算以第一預(yù)定時間/頻率分辨率描述第一類型音頻信號和第二類型音頻信號的聲級的聲 級信息。類似地,裝置88對音頻信號進(jìn)行下混合。因此,裝置88輸出下混合信號56。裝置 86也輸出聲級信息60。用于計算預(yù)測系數(shù)的裝置90的操作與裝置52類似。即裝置90根 據(jù)聲級信息60來計算預(yù)測系數(shù),并將預(yù)測系數(shù)64輸出至裝置92。裝置92接著基于下混 合信號56、預(yù)測系數(shù)64、和第二預(yù)定時間/頻率分辨率下的原始音頻信號來設(shè)置殘差信號 62,使得基于預(yù)測系數(shù)64和殘差信號62對下混合信號56進(jìn)行的上混合產(chǎn)生與第一類型音頻信號近似的第一上混合音頻信號和與第二類型音頻信號近似的第二上混合音頻信號,所述近似與不使用所述殘差信號62的情況相比有所改進(jìn)。輔助信息58包括殘差信號62和聲級信息60,輔助信息58與下混合信號56 —起 形成了圖3解碼器所要解碼的多音頻對象信號。如圖4所示,與圖3的描述類似,裝置90可以另外使用裝置94輸出的互相關(guān)信息 和/或裝置88輸出的時變下混合規(guī)則來計算預(yù)測系數(shù)64。此外,用于設(shè)置殘差信號62的 裝置92可以另外地使用裝置88輸出的時變下混合規(guī)則來適當(dāng)?shù)卦O(shè)置殘差信號62。還應(yīng)注意,第一類型音頻信號可以是單聲道或立體聲音頻信號。對于第二類似的 音頻信號也是如此。在輔助信息中,可以以與用于計算例如聲級信息的參數(shù)時間/頻率分 辨率相同的時間/頻率分辨率,或可以使用不同的時間/頻率分辨率,來以信號告知殘差信 號62。此外,可以將殘差信號的信號告知限于以信號告知了其聲級信息的時間/頻率片42 所占的頻譜范圍的子部分。例如,可以在輔助信息58中,使用語法元素bsResidualBands 和bsResidualFramesPerSAOCFrame來指示以信號告知殘差信號所使用的時間/頻率分辨 率。這兩個語法元素可以定義與形成片42的子劃分不同的另一個將幀劃分為時間/頻率 片的子劃分。順帶一提的是,注意,殘差信號62可以也可以不反映由潛在使用的核心編碼器96 所導(dǎo)致的信息損失,音頻編碼器80可選地使用該核心編碼器96來對下混合信號56進(jìn)行編 碼。如圖4所示,裝置92可以基于可由核心編碼器96的輸出或由輸入至核心編碼器96’ 的版本進(jìn)行重構(gòu)的下混合信號版本來執(zhí)行殘差信號62的設(shè)置。類似地,音頻解碼器50可 以包括核心解碼器98,以對下混合信號56進(jìn)行解碼或解壓縮。在多音頻對象信號中,將用于殘差信號62的時間/頻率分辨率設(shè)置為與用于計算 聲級信息60的時間/頻率分辨率不同的時間/頻率分辨率的能力使得能夠?qū)崿F(xiàn)音頻質(zhì)量 和多音頻對象信號的壓縮比之間的良好折衷。無論如何,殘差信號62使得能夠更好地根據(jù) 用戶輸入66抑制要在輸出68輸出的第一和第二上混合信號中一音頻信號到另一音頻信號 的串?dāng)_。根據(jù)以下實施例,顯而易見,在對多于一個前景對象或第二類型音頻信號進(jìn)行編 碼的情況下,可以在輔助信息中傳送兩個以上的殘差信號62。輔助信息可以允許單獨決定 是否針對特定的第二類型音頻信號傳送殘差信號62。因此,殘差信號62的數(shù)目可以從一變 化,最多為第二類型音頻信號的數(shù)目。在圖3的音頻解碼器中,用于計算的裝置54可以被配置為,基于聲級信息(OLD) 來計算由預(yù)測系數(shù)組成的預(yù)測系數(shù)矩陣C,裝置56可以被配置為,根據(jù)可由以下公式表示 的計算,根據(jù)下混合信號d產(chǎn)生第一上混合信號S1和/或第二上混合信號S2 其中,根據(jù)d的聲道數(shù)目,“1”表示標(biāo)量或單位矩陣,D—1是由下混合規(guī)則唯一確定 的矩陣,第一類型音頻信號和第二類型音頻信號是根據(jù)該下混合規(guī)則被下混合為下混合信 號的,輔助信息中也包括了該下混合規(guī)則,H是獨立于d但依賴于殘差信號的項。如以上所述以及以下要進(jìn)一步描述的那樣,在輔助信息中,下混合規(guī)則可以隨時間變化和/或可在頻譜上變化。如果第一類型音頻信號是具有第一(L)和第二輸入聲道 (R)的立體聲音頻信號,則聲級信息可以例如以時間/頻率分辨率42分別描述了第一輸入 聲道(L)、第二輸入聲道(R)、以及第二類型音頻信號的歸一化頻譜能量。上述計算(用于上混合的裝置56根據(jù)該計算來進(jìn)行上混合)甚至可表示為
( 其中Z是與L近似的第一上混合信號的第一聲道,^是與R近似的第一上混合信號 的第二聲道,“1”在d為單聲道的情況下是標(biāo)量,在d為立體聲的情況下是2X2單位矩陣。 如果下混合信號56是具有第一(LO)和第二輸出聲道(RO)的立體聲音頻信號,用于上混合 的裝置56可以根據(jù)可由以下公式表示的計算來進(jìn)行上混合 就依賴于殘差信號res的項H而言,用于上混合的裝置56可以根據(jù)可由以下公式 表示的計算來進(jìn)行上混合 多音頻對象信號甚至可以包括多個第二類型音頻信號,對每個第二類型音頻信 號,輔助信息可以包括一個殘差信號。在輔助信息中可以存在殘差分辨率參數(shù),該參數(shù)定義 了頻譜范圍,輔助信息中在該頻譜范圍上傳送殘差信號。它甚至可以定義頻譜范圍的下限 和上限。此外,多音頻對象信號也可以包括空間呈現(xiàn)信息,用于在空間上將第一類型音頻 信號呈現(xiàn)至預(yù)定揚聲器配置。換言之,第一類型音頻信號可以是被下混合至立體聲的多聲 道(多于兩個聲道)MPEG環(huán)繞信號。以下,將描述的實施例利用了上述殘差信號信號通知。然而,注意術(shù)語“對象”通 常用于雙重意義。有時,對象表示單獨的單聲道音頻信號。因此,立體聲對象可以具有形成 立體聲信號的一個聲道的單聲道音頻信號。然而,在其他情況下,立體聲對象實際上可以表 示兩個對象,即關(guān)于立體聲對象的右聲道的對象和關(guān)于左聲道的另一個對象。根據(jù)上下文, 其實際意義將是顯而易見的。在描述下一實施例之前,首先其動力是2007年被選為參考模型0 (RMO)的SAOC標(biāo) 準(zhǔn)的基準(zhǔn)技術(shù)的不足。RMO允許以搖動位置和放大/衰減的形式單獨操作多個聲音對象。 在“卡拉0Κ”類型的應(yīng)用環(huán)境中表示了一種特殊場景。在這種情況下 單聲道、立體聲、或環(huán)繞背景情景(以下稱為背景對象BG0)從特定SAOC對象集 合傳遞而來,背景對象BGO可以無改變地進(jìn)行再現(xiàn),即通過具有未改變聲級的相同的輸出 聲道再現(xiàn)每個輸入聲道信號,以及
有改變地再現(xiàn)感興趣的特定對象(以下稱為前景對象reo)(通常是主唱)(典 型地,F(xiàn)GO位于聲階的中部,可以將其消音,即嚴(yán)重衰減來允許跟唱)。從主觀評價過程可以看到,并且從其下的技術(shù)原理可以預(yù)期到,對象位置的操作 產(chǎn)生高質(zhì)量的結(jié)果,而對象聲級的操作一般地更加具有挑戰(zhàn)性。典型地,附加的信號放大/ 衰減越強(qiáng),潛在的噪聲越多。就此而言,由于需要對reo進(jìn)行極端(理想地完全)衰減,因 此,卡拉οκ場景的要求極高。對偶的使用情形是僅再現(xiàn)reo而不再現(xiàn)背景/MBO的能力,以下稱為獨唱模式。 然而,應(yīng)注意,如果包括了環(huán)繞背景情景,則被稱為多聲道背景對象(MBO)。圖5中 示出的如下對于MBO的處理 使用常規(guī)5-2-5MPEG環(huán)繞樹(surround tree) 102來對MBO進(jìn)行編碼。這導(dǎo)致 產(chǎn)生立體聲MBO下混合信號104和MBO MPS輔助信息流106。 接著,下級SAOC編碼器108將MBO下混合信號編碼為立體聲對象(即兩對象聲 級差加聲道間相關(guān))以及所述(或多個)reo 110。這導(dǎo)致產(chǎn)生公共的下混合信號112和 SAOC輔助信息流114。在變碼器116中,對下混合信號112進(jìn)行預(yù)處理,將SAOC和MPS輔助信息流106、 114轉(zhuǎn)換為單個MPS輸出側(cè)信息流118。目前,這是以不連續(xù)的方式發(fā)生的,即或者僅支持 完全抑制reo或僅支持完全抑制MBO。最終,由MPEG環(huán)繞解碼器122來呈現(xiàn)所產(chǎn)生的下混合信號120和MPS輔助信息 118。在圖5中,將MBO下混合信號104和可控對象信號110組合為單個立體聲下混合信 號112??煽貙ο?10對下混合信號的這種“污染”導(dǎo)致難以恢復(fù)去除了可控對象110的、 具有足夠高音頻質(zhì)量的卡拉OK版本。以下的建議旨在解決這一問題。假定一個reo(例如一個主唱),以下圖6的實施例所使用的關(guān)鍵事實在于,SAOC 下混合信號是BGO和reo信號的組合,即對3個音頻信號進(jìn)行下混合并通過2個下混合聲 道來傳送。理想地,這些信號應(yīng)當(dāng)在變碼器中再次分離,以產(chǎn)生純凈的卡拉OK信號(即去 除reo信號),或產(chǎn)生純凈的獨唱信號(即去除BGO信號)。根據(jù)圖6的實施例,這是通過 使用SAOC編碼器108中的“2至3”(TTT)編碼器元件124(正如在MPEG環(huán)繞規(guī)范中那樣被 稱為ΤΤΓ1),在SAOC編碼器中將BGO和TOO組合為單個SAOC下混合信號來實現(xiàn)的。這里 FGO饋送了 ΤΤΓ1盒124的“中央”信號輸入,BGO 104饋送了“左/右” ΤΤΓ1輸入L. R.。然 后,變碼器116通過使用TTT解碼器元件126 (正如在MPEG環(huán)繞中那樣被稱為TTT)來產(chǎn)生 BGO 104的近似,即“左/右” TTT輸出L、R承載BGO的近似,而“中央” TTT輸出C承載FGO 110的近似。當(dāng)將圖6的實施例與圖3和4中的編碼器和解碼器的實施例進(jìn)行比較時,參考標(biāo) 記104與音頻信號84中的第一類型音頻信號相對應(yīng),MPS編碼器102包括裝置82 ;參考標(biāo) 記110與音頻信號84中的第二類型音頻信號相對應(yīng),ΤΤΓ1盒124承擔(dān)了裝置88至92的 功能職責(zé),SAOC編碼器108實現(xiàn)了裝置86和94的功能;參考標(biāo)記112與參考標(biāo)記56相對 應(yīng);參考標(biāo)記114與輔助信息58減去殘差信號62相對應(yīng);TTT盒126承擔(dān)了裝置52和54 的功能職責(zé),其中裝置54也包括混合盒128的功能。最后,信號120與在輸出68輸出的信 號相對應(yīng)。此外,應(yīng)注意,圖6還示出了用于將下混合信號112從SAOC編碼器108傳送至SAOC變碼器116的核心編碼器/解碼器路徑131。該核心編碼器/解碼器路徑131與可選 的核心編碼器96和核心解碼器98相對應(yīng)。如圖6所示,該核心編碼器/解碼器路徑131 也可以對從編碼器108傳送至變碼器116的輔助信息進(jìn)行編碼/壓縮。根據(jù)以下描述,引入圖6的TTT盒所產(chǎn)生的優(yōu)點將變得顯而易見。例如,通過 簡單地將“左/右” TTT輸出L. R.饋入MPS下混合信號120 (并將所傳送的MBO MPS比特流106傳遞至流118),最終的MPS解碼器僅再現(xiàn)ΜΒ0。這與卡拉OK模式相對應(yīng)。 簡單地將“中央” TTT輸出C.饋入左和右MPS下混合信號120 (并產(chǎn)生微小的 MPS比特流118,將reo 110呈現(xiàn)在期望的位置并呈現(xiàn)為期望的聲級),最終的MPS解碼器 122僅再現(xiàn)reo 110。這與獨唱模式相對應(yīng)。在SAOC變碼器的“混合”盒128中執(zhí)行對3個輸出信號L. R. C.的處理。與圖5相比,圖6的處理結(jié)構(gòu)提供了多種特別的優(yōu)點 該框架提供了背景(MBO) 100和TOO信號110的純凈的結(jié)構(gòu)分離?!?TTT元件126的結(jié)構(gòu)嘗試基于波形近可能好地重構(gòu)3個信號L. R. C.。因此,最 終的MPS輸出信號130不僅由下混合信號的能量加權(quán)(和解相關(guān))形成,也由于TTT處理 而在波形上更為接近。 與MPEG環(huán)繞TTT盒126 —起產(chǎn)生的是使用殘差編碼來增強(qiáng)重構(gòu)精度的可能性。 按照這種方式,由于TIT1UA輸出的、并由用于上混合的TTT盒所使用的殘差信號132的殘 差帶寬和殘差比特率增大,因此可以實現(xiàn)重構(gòu)質(zhì)量的顯著增強(qiáng)。理想地(即,在殘差編碼和 下混合信號的編碼中量化無限細(xì)化),可以消除背景(MBO)和reo信號之間的干擾。圖6的處理結(jié)構(gòu)具有多種特性眷雙重卡拉OK/獨唱樽式圖6的方法通過使用相同的技術(shù)裝置,提供了卡拉OK 和獨唱的功能。也就是,重用(reuse) 了例如SAOC參數(shù)。眷可改講件通過控制TTT盒中使用的殘差編碼的信息量,可以根據(jù)需要來改講 卡拉OK/獨唱信號的質(zhì)量。例如,可以使用參數(shù)bsResidualSamplingFrequencylndex、 bsResidualBands 以及 bsResidualFramesPerSAOCFrame。眷下混合中FGO的定位當(dāng)使用如MPEG環(huán)繞規(guī)范中指定的TTT盒時,總是將TOO 混入左右下混合聲道之間的中央位置。為了實現(xiàn)更靈活的定位,采用了一般化TTT編碼盒, 其遵照相同的原理,但是允許非對稱地定位與“中央”輸入/輸出相關(guān)的信號。眷多FGO:在所述的配置中,描述了僅使用一個FGO(這可以與最主要的應(yīng)用情況 相對應(yīng))。然而,通過使用以下措施之一或其組合,所提出的概念也能夠提供多個reo O分組FGO 與圖6所示的類似,與TTT盒的中央輸入/輸出連接的信號實際上可 以是若干reo信號之和而不僅是單個reo信號。在多聲道輸出信號130中,可以對這些reo 進(jìn)行獨立的定位/控制(然而,當(dāng)以相同的方式對其進(jìn)行縮放/定位時,能夠?qū)崿F(xiàn)最大的質(zhì) 量優(yōu)勢)。它們在立體聲下混合信號112中共享公共位置,并且只有一個殘差信號132。不 管怎樣,都可以消除背景(MBO)與可控對象之間的干擾(盡管不是可控對象間的干擾)。O級聯(lián)FGO 通過擴(kuò)展圖6,可以克服關(guān)于下混合信號112中公共TOO位置的限制。 通過對所述TTT結(jié)構(gòu)進(jìn)行多級級聯(lián)(每個級與一個reo相對應(yīng)并產(chǎn)生殘差編碼流),可以提 供多個reo。按照這種方式,理想地,也可以消除每個reo之間的干擾。當(dāng)然,這種選項需要 比使用分組reo方法更高的比特率。稍后將對示例予以描述。
· SAOC輔助信息在MPEG環(huán)繞中,與TTT盒相關(guān)的輔助信息是聲道預(yù)測系數(shù) (CPC)對。相反,SAOC參數(shù)化和MBO/卡拉OK場景傳送每個對象信號的對象能量,以及MBO 下混合的兩個聲道之間的信號間相關(guān)(即“立體聲對象”的參數(shù)化)。為了最小化相對于不 帶增強(qiáng)型卡拉OK/獨唱模式的情況的參數(shù)化變化的數(shù)目,從而最小化比特流格式的改變, 可以根據(jù)下混合信號(ΜΒ0下混合和TOO)的能量和MBO下混合立體聲對象的信號間相關(guān)來 計算CPC。因此,不需要改變或增加所傳送的參數(shù)化,并且可以從所傳送的SAOC變碼器116 中的SAOC參數(shù)化來計算CPC。按照這種方式,當(dāng)忽略殘差數(shù)據(jù)時,也可以使用常規(guī)模式的解 碼器(不帶殘差編碼)來對使用增強(qiáng)型卡拉OK/獨唱模式的比特流進(jìn)行解碼。概括而言, 圖6的實施例旨在對特定的選定對象(或不帶這些對象的情景)進(jìn)行增強(qiáng)型再現(xiàn),并以以 下方式,使用立體聲下混合擴(kuò)展當(dāng)前的SAOC編碼方法 在正常模式下,對每個對象信號,使用其在下混合矩陣中的條目來對其進(jìn)行加 權(quán)(分別針對其對左右下混合聲道的貢獻(xiàn))。然后,對所有對左右下混合聲道的加權(quán)貢獻(xiàn)進(jìn) 行求和,來形成左和右下混合聲道。 對于增強(qiáng)型卡拉OK/獨唱性能,即在增強(qiáng)模式下,將所有對象貢獻(xiàn)分為形成前 景對象(reo)的對象貢獻(xiàn)集合和剩余對象貢獻(xiàn)(BGO)。對reo貢獻(xiàn)求和形成單聲道下混合 信號,對剩余背景貢獻(xiàn)求和形成立體聲下混合,使用一般化τττ編碼器元件對兩者進(jìn)行求 和以形成公共的SAOC立體聲下混合。因此,使用“TTT求和”(當(dāng)需要時可以級聯(lián))代替了常規(guī)的求和。為了強(qiáng)調(diào)SAOC編碼器的正常模式和增強(qiáng)模式之間的剛剛提及的差別,參見圖7a 和7b,其中圖7a關(guān)于正常模式,而圖7b關(guān)于增強(qiáng)模式。可以看到,在正常模式下,SAOC編 碼器108使用前述DMX參數(shù)Dij來加權(quán)對象j,并將加權(quán)后的對象j添加至SAOC聲道i (即 LO或RO)。在圖6的增強(qiáng)模式的情況下,僅需要DMX參數(shù)向量Di,即DMX參數(shù)Di指示了如 何形成TOO 110的加權(quán)和,從而獲得TIT1盒124的中央聲道C,并且DMX參數(shù)Di指示ΤΤΓ1 盒如何將中央信號C分別分配給左MBO聲道和右MBO聲道,從而分別獲得Ldmx或Rdmx。問題在于,對于非波形保持編解碼器(HE-AAC/SBR),根據(jù)圖6的處理不能很好地 工作。該問題的解決方案可以是一種針對HE-AAC和高頻的基于能量的一般化TTT模式。稍 后,將描述解決該問題的實施例。用于具有級聯(lián)TTT的可能的比特流格式如下以下是需要能夠在被認(rèn)為是“常規(guī)解碼模式”的情況下,被跳過的向SAOC比特流 執(zhí)行的添加numTTTs intfor(ttt = O ;ttt < numTTTs ;ttt++){ no_TTT_ob j [ttt] intTTT_bandwidth[ttt];TTT_residual_stream[ttt]}對于復(fù)雜度和存儲器要求,可以作出以下說明。從之前的說明可以看到,通過在編 碼器和解碼器/變碼器中分別添加概念元件級(即一般化的TIT1和TTT編碼器元件)來 實現(xiàn)圖6的增強(qiáng)型卡拉OK/獨唱模式。兩個元件在復(fù)雜度方面與常規(guī)的“居中”TTT對應(yīng)物相同(系數(shù)值的改變不影響復(fù)雜度)。對于所設(shè)想的主要應(yīng)用(一個reo作為主唱),單個 τττ就足夠了。通過觀察整個MPEG環(huán)繞解碼器的結(jié)構(gòu)(對于相關(guān)立體聲下混合的情況(5-2-5配 置),由一個TTT元件和2個OTT元件組成),可以理解該附加結(jié)構(gòu)與MPEG環(huán)繞系統(tǒng)的復(fù) 雜度的關(guān)系。這已表明,所添加的功能在計算復(fù)雜度和存儲器消耗方面帶來了適度的代價 (注意,使用殘差編碼的概念元件在平均意義上不比作為替代的包括解相關(guān)器在內(nèi)的對應(yīng) 物更為復(fù)雜)。圖6對MPEG SAOC參考模型的擴(kuò)展為特殊的獨唱或消音/卡拉OK類型的應(yīng)用提 供了音頻質(zhì)量的改進(jìn)。再次應(yīng)注意的是,與圖5、6和7相對應(yīng)的描述所指的MBO是背景情 景或BGO,一般地,MBO不局限于這種類型的對象,而也可以是單聲道或立體聲對象。主觀評價過程解釋了在卡拉OK或獨唱應(yīng)用的輸出信號的音頻質(zhì)量方面的改進(jìn)。 評價條件是 · RMO 增強(qiáng)模式(res 0)(=不使用殘差編碼) 增強(qiáng)模式(res 6)(=在最低的6個混合QMF頻帶使用殘差編碼) 增強(qiáng)模式(res 12)(=在最低的12個混合QMF頻帶使用殘差編碼) 增強(qiáng)模式(res 24)(=在最低的24個混合QMF頻帶使用殘差編碼) 隱藏參考 較低的參考(3. 5kHz頻帶受限版本的參考)如果使用時不采用殘差編碼,則所提出的增強(qiáng)模式的比特率類似于冊0。所有其他 增強(qiáng)模式對每6個殘差編碼頻帶需要約lOkbit/s。圖8a示出了對10個收聽主體進(jìn)行的消音/卡拉OK測試結(jié)果。所提出的方案的 平均MUSHRA分?jǐn)?shù)總是高于RMO,并隨每級附加殘差編碼逐級增加。對于具有6個或更多頻 帶殘差編碼的模式,可以清晰地觀察到相對RMO的性能在統(tǒng)計上的明顯改進(jìn)。圖8b中對9個主體的獨唱測試的結(jié)果示出了所提出的方案的類似優(yōu)點。當(dāng)添加 越來越多的殘差編碼時,平均MUSHRA分?jǐn)?shù)明顯增加。不使用和使用24個頻帶的殘差編碼 的增強(qiáng)模式之間的增益幾乎為MUSHRA的50分??傮w上,對于卡拉OK應(yīng)用,可以比RMO高約lOkbit/s的比特率實現(xiàn)良好的質(zhì)量。 當(dāng)在RMO的最高比特率之上添加約40kbit/s時,可以實現(xiàn)優(yōu)秀的質(zhì)量。在給定最大固定比 特率的實際應(yīng)用場景中,所提出的增強(qiáng)模式很好地支持用“無用比特率”來進(jìn)行殘差編碼, 直到達(dá)到允許的最大比特率。因此,實現(xiàn)了盡可能好的總體音頻質(zhì)量。由于更智能地使用 殘差比特率的緣故,對所提出的實驗結(jié)果的進(jìn)一步改進(jìn)是可能的雖然所介紹的設(shè)置從直 流到特定上界頻率始終使用殘差編碼,但是,增強(qiáng)型實現(xiàn)可以僅將比特用在與用于分離reo 和背景對象相關(guān)的頻率范圍上。在之前的描述中,已經(jīng)描述了針對卡拉OK型應(yīng)用的SAOC技術(shù)的增強(qiáng)。以下將介 紹用于MPEG SAOC的多聲道TOO音頻情景處理的增強(qiáng)型卡拉OK/獨唱模式的應(yīng)用的另外的 詳細(xì)實施例。與有所改變(alteration)地進(jìn)行再現(xiàn)的TOO相反,必須無改變地再現(xiàn)MBO信號, 即通過相同的輸出聲道,以未改變的聲級再現(xiàn)每個輸入聲道信號。
由此,已提出了由MPEG環(huán)繞編碼器執(zhí)行的對MBO信號的預(yù)處理,該預(yù)處理產(chǎn)生立 體聲下混合信號,用作要輸入至隨后的卡拉OK/獨唱模式處理級的(立體聲)背景對象 (BGO),所述處理級包括SA0C編碼器、MBO變碼器、和MPS解碼器。圖9再次示出了總體結(jié) 構(gòu)圖??梢钥吹?,根據(jù)卡拉OK/獨唱模式編碼器結(jié)構(gòu),輸入對象被分為立體聲背景對象 (BGO) 104 和前景對象(reo)iio。盡管在RMO中,由SAOC編碼器/變碼器系統(tǒng)來執(zhí)行對這些應(yīng)用場景的處理,但是, 圖6的增強(qiáng)還利用了 MPEG環(huán)繞結(jié)構(gòu)的基本構(gòu)成模塊。當(dāng)需要對特定音頻對象進(jìn)行較強(qiáng)的 增大/衰減時,在編碼器中集成3至ZCnr1)模塊并在變碼器中集成對應(yīng)的2至3(ΤΤΤ)互 補(bǔ)模塊改進(jìn)了性能。擴(kuò)展結(jié)構(gòu)的兩個主要特性是-由于利用了殘差信號,實現(xiàn)了更好的(與RMO相比)信號分離,_通過一般化被表示為ΤΤΓ1盒中央輸入(即reo)的信號的混合規(guī)則,對該信號 進(jìn)行靈活定位。由于TTT構(gòu)成模塊的直接實現(xiàn)涉及編碼器側(cè)的3個輸入信號,因此,圖6集中關(guān)注 對作為如圖10所示的(下混合)單聲道信號的reo的處理。也已經(jīng)說明了對多聲道reo 信號的處理,但是,在以下章節(jié)中將對其進(jìn)行更詳細(xì)地解釋。
從圖10可以看到,在圖6的增強(qiáng)模式中,將所有reo的組合饋入ΤΤΓ1盒的中央聲 道。在如圖6和圖10的reo單聲道下混合的情況下,編碼器側(cè)的ΤΤΓ1盒的配置包括 被饋送至中央輸入的reo、和提供左右輸入的BG0。以下公式給出了基本的對稱矩陣 該公式提供了下混合(LO RO)τ和信號FO 通過該線性系統(tǒng)獲得的第三信號被丟棄,但可以在集成了兩個預(yù)測系數(shù)C1和 C2(CPC)的變碼器側(cè),根據(jù)以下公式來對其進(jìn)行重構(gòu) 在變碼器中的逆過程由以下公式給出
{ W1-C1m2-c2 J參數(shù)Iii1和m2對應(yīng)于Iii1 = cos ( μ )以及 m2 = sin ( μ )
μ負(fù)責(zé)搖動reo在公共TTT下混合(LORO)T中的位置。可以使用所傳送的SAOC 參數(shù)(即所有輸入音頻對象的對象音級差(OLD)和BGO下混合(MBO)信號的對象間相關(guān) (IOC))來估計變碼器側(cè)的TTT上混合單元所需的預(yù)測系數(shù)C1和c2。假定TOO和BGO信號 統(tǒng)計獨立,對CPC估計,以下關(guān)系成立 變量P^ Peo, Ploeo, Plofo和PK。F??梢园慈缦路绞竭M(jìn)行估計,其中參數(shù)0U\、OLDe和 IOCle與BGO相對應(yīng),OLDf是TOO參數(shù)Plo = OLDl + m2xOLDFPro = OLDr + M12OLDfPloeo = IOCl^1IIi1II2OLDfPlofo = Iii1 (OLDl-OLDf) +m21 OClePeofo = m2 (OLDe-OLDf) +Hi1IOCle此外,可以在比特流內(nèi)傳送的殘差信號132表示了 CPC的推導(dǎo)所引入的誤差,因 此res = FO - FO在某些應(yīng)用場景中,對所有reo中的單個單聲道下混合進(jìn)行限制是不合適的,因 此需要克服該問題。例如,可以將reo劃分為在所傳送的立體聲下混合中位于不同位置和 /或具有獨立衰減的兩個以上獨立的組。因此,圖11所示的級聯(lián)結(jié)構(gòu)暗示了兩個以上連續(xù) 的ΤΤΓ1元件,在編碼器側(cè)產(chǎn)生了所有reo組Fp F2的逐步的下混合,直至獲得所需的立體 聲下混合112為止。每個(或至少一些KTr1盒124a、b (圖11中每個ΤΤΓ1盒)設(shè)置與 ΤΤΓ1盒124a、b的各級分別對應(yīng)的殘差信號132a、132b。相反,變碼器通過使用各順序應(yīng)用 的TTT盒126a、b (如有可能,集成對應(yīng)的CPC和殘差信號)來執(zhí)行順序上混合。TOO處理 的順序是由編碼器指定的,在變碼器側(cè)必須考慮。以下描述圖11所示的兩級級聯(lián)所涉及的詳細(xì)的數(shù)學(xué)原理。為了簡化說明又不失一般性,以下的解釋基于如圖11所示的由兩個TTT元件組成 的級聯(lián)。兩個對稱矩陣與reo單聲道下混合類似,但是必須恰當(dāng)?shù)貞?yīng)用于各自的信號 這里,兩個CPC集合產(chǎn)生了以下信號重構(gòu) 逆過程可表示為
1 ( 1 +W22!+cnmn -mum2i+c12mu、 兩級級聯(lián)的一種特殊情況包括一立體聲reo,其左和右聲道被適當(dāng)?shù)厍蠛蜑锽GO 的對應(yīng)聲道,使并非P1 = O,/^=* 對于這種特別的搖動風(fēng)格,通過忽略對象間相關(guān)(OLDui = 0),兩個CPC集合的估 計可簡化為
其中,0LDFl和OLDra分別表示左右FGO信號的OLD。一般的N級級聯(lián)情況是指依照以下公式的多聲道reo下混合 其中,每一級確定其自身的CPC和殘差信號的特征。在變碼器側(cè),逆級聯(lián)步驟由以下公式給出 為了消除保持TTT元件的順序的必要性,通過將N個矩陣重新排列為單一對稱TTN 矩陣的方式,可以將級聯(lián)結(jié)構(gòu)容易地轉(zhuǎn)換為等效的平行結(jié)構(gòu),從而產(chǎn)生一般的TTN矩陣 其中,矩陣的前兩行表示要發(fā)送的立體聲下混合。另一方面,術(shù)語TTN(2至N)指 變碼器側(cè)的上混合處理。使用這種描述,進(jìn)行了特定搖動的立體聲reo的特殊情況將矩陣簡化為 相應(yīng)地,該單元可以被稱為2至4元件或TTF。也可以產(chǎn)生重用SAOC立體聲預(yù)處理模塊的TTF結(jié)構(gòu)。對于N = 4的限制,對現(xiàn)有SAOC系統(tǒng)的某些部分進(jìn)行重用的2至4(TTF)結(jié)構(gòu)的 實現(xiàn)成為可能。以下段落中將描述該處理。SAOC標(biāo)準(zhǔn)文本描述了針對“立體聲至立體聲代碼轉(zhuǎn)換模式”的立體聲下混合預(yù)處 理。準(zhǔn)確地說,根據(jù)以下公式,由輸入立體聲信號X以及解相關(guān)信號Xd來計算輸出立體聲 信號Y:Y = GModX+P2Xd解相關(guān)分量Xd是原始呈現(xiàn)信號中已在編碼過程中被丟棄掉的部分的合成表示。根 據(jù)圖12,使用合適的針對特定頻率范圍的由編碼器產(chǎn)生的殘差信號132來替換該解相關(guān)信 號。命名按如下方式定義· D是2 X N下混合矩陣·Α是2XN呈現(xiàn)矩陣· E是輸入對象S的NXN協(xié)方差模型· GMod (與圖12中的G相對應(yīng))是預(yù)測2 X 2上混合矩陣注意,6_是0、六和E的函數(shù)。為了計算殘差信號XKes,必須在編碼器中模仿解碼器處理,即確定GM。d。一般地,場 景A是未知的,但是,在卡拉OK場景的特殊情況下(例如具有一個立體聲背景和一個立體 聲前景對象,N = 4),假定 這意味著僅呈現(xiàn)BG0。為了估計前景對象,從下混合信號X中減去重構(gòu)的背景對象。在“混合”處理模塊 中執(zhí)行該最終呈現(xiàn)。以下將介紹具體的細(xì)節(jié)。
呈現(xiàn)矩陣A被設(shè)置為 其中,假定頭2列表示reo的兩個聲道,后2列表示BGO的兩個聲道。根據(jù)以下公式來計算BGO和TOO的立體聲輸出。YBGO = GModX+XEes由于下混合權(quán)值矩陣D被定義為D= (DfgoIDbgo)其中 以及 因此,F(xiàn)GO對象可以被設(shè)置為
作為示例,對于下混合矩陣 「10 10) 將其簡化為Yfgo = X-YbgoXEes是按上述方式得到的殘差信號。請注意,未添加解相關(guān)信號。最終輸出Y由下式給出 上述實施例也可以適用于使用單聲道reo來替代立體聲reo的情況。在這種情況 下,根據(jù)以下內(nèi)容來改變處理。呈現(xiàn)矩陣A被設(shè)置為 其中,假定第一列表示單聲道reo,隨后的列表表示BGO的兩個聲道。根據(jù)以下公式來計算BGO和TOO的立體聲輸出。Yfgo = GModX+XEes由于下混合權(quán)值矩陣D被定義為D = (DfgoIDbgo)
其中 以及 因此,BGO對象可以被設(shè)置為
作為示例,對于下混合矩陣 將其簡化為 Xses是按上述方式獲得的殘差信號。請注意,未添加解相關(guān)信號。最終輸出Y由以下公式給出 對于5個以上TOO對象的處理,可以通過重組剛剛描述的處理步驟的并行級來擴(kuò) 展上述實施例。以上剛剛描述的實施例提供了針對多聲道reo音頻情景的情況的增強(qiáng)型卡拉OK/ 獨唱模式的詳細(xì)描述。這樣的一般化旨在擴(kuò)大卡拉OK應(yīng)用場景的種類,對于卡拉OK應(yīng)用 場景,可以通過應(yīng)用增強(qiáng)型卡拉OK/獨唱模式來進(jìn)一步改進(jìn)MPEG SAOC參考模型的聲音質(zhì) 量。這種改進(jìn)是通過將一般NTT結(jié)構(gòu)引入SAOC編碼器的下混合部分,并將相應(yīng)的對應(yīng)物引 入SAOCtoMPS變碼器來實現(xiàn)的。殘差信號的使用提高了質(zhì)量結(jié)果。圖13a至13h示出了根據(jù)本發(fā)明的實施例的SAOC側(cè)信息比特流的可能語法。在描述了與SAOC編解碼器的增強(qiáng)模式相關(guān)的一些實施例之后,應(yīng)注意,這些實施 例中的一些涉及輸入至SAOC編碼器的音頻輸入不僅包含常規(guī)單聲道或立體聲聲源,而且 包含多聲道對象的應(yīng)用場景。圖5至7b顯式地描述了這一點。這樣的多聲道背景對象MBO 可以被看作包括較大且通常數(shù)目未知的聲源的復(fù)雜聲音情景,對于該情景不需要可控呈現(xiàn) 功能。個別地,SAOC編碼器/解碼器架構(gòu)不能有效處理這些音頻源。因此,可以考慮擴(kuò)展 SAOC架構(gòu)的概念,以處理這些復(fù)雜輸入信號(即MBO聲道)以及典型的SAOC音頻對象。因 此,在剛剛提及的圖5至7b的實施例中,考慮將MPEG環(huán)繞編碼器包含于SAOC編碼器,如將 SAOC編碼器108和MPS編碼器100圈住的虛線所示。所產(chǎn)生的下混合104用作輸入SAOC 編碼器108的立體聲輸入對象,以可控SAOC對象110 —起產(chǎn)生要發(fā)送至變碼器側(cè)的組合立體聲下混合112。在參數(shù)域中,將MPS比特流106和SAOC比特流104饋入SAOC變碼器116, SAOC變碼器116根據(jù)特定的MBO應(yīng)用場景,為MPEG環(huán)繞解碼器122提供合適的MPS比特流 118。使用呈現(xiàn)信息或呈現(xiàn)矩陣并采用一些下混合預(yù)處理來執(zhí)行該任務(wù),采用下混合預(yù)處理 是為了將下混合信號112變換為用于MPS解碼器122的下混合信號120。以下描述用于增強(qiáng)型卡拉OK/獨唱模式的另一個實施例。該實施例允許對多個音 頻對象,在其聲級放大/衰減方面執(zhí)行獨立操作,而不會明顯降低結(jié)果聲音質(zhì)量。一種特殊 的“卡拉OK類型”應(yīng)用場景需要完全抑制指定對象(通常是主唱,以下稱為前景對象reo), 同時保持背景聲音情景的感知質(zhì)量不受損害。它同時需要單獨再現(xiàn)特定reo信號而不再現(xiàn) 靜態(tài)背景音頻情景(以下稱為背景對象BGO)的能力,該背景對象不需要搖動方面的用戶可 控性。這種場景被稱為“獨唱”模式。一種典型的應(yīng)用情況包含立體聲BGO和多達(dá)4個reo 信號,例如,這4個reo信號可以表示兩個獨立的立體聲對象。根據(jù)本實施例和圖14,增強(qiáng)型卡拉OK/獨唱模式變碼器150使用“2至N” (TTN) 或“ 1至N” (OTN)元件152,TTN和OTN元件152均表示從MPEG環(huán)繞規(guī)范獲知的TTT盒的 一般化和增強(qiáng)型修改。合適元件的選擇取決于所傳送的下混合聲道的數(shù)目,即TTN盒專門 用于立體聲下混合信號,而OTN盒適用單聲道下混合信號。在SAOC編碼器中,對應(yīng)的TTN"1 或OTN—1盒將BGO和TOO信號組合為公共的SAOC立體聲或單聲道下混合112,并產(chǎn)生比特 流114。任一元件,即TTN或OTN 152支持下混合信號112中所有獨立TOO的任意預(yù)定義 定位。在變碼器側(cè),TTN或OTN盒152僅使用SAOC輔助信息114,并可選地結(jié)合殘差信號, 根據(jù)下混合112恢復(fù)BGO 154或TOO信號156的任何組合(取決于從外部應(yīng)用的工作模 式158)。使用所恢復(fù)的音頻對象154/156和呈現(xiàn)信息160來產(chǎn)生MPEG環(huán)繞比特流162和 對應(yīng)的經(jīng)預(yù)處理的下混合信號164?;旌蠁卧?66對下混合信號112執(zhí)行處理,以獲得MPS 輸入下混合164,MPS變碼器168負(fù)責(zé)將SAOC參數(shù)114轉(zhuǎn)換為SAOC參數(shù)162。TTN/OTN盒 152和混合單元166 —起執(zhí)行與圖3的裝置52和54相對應(yīng)的增強(qiáng)型卡拉OK/獨唱模式處理170,其中,裝置54包括混合單元的功能??梢耘c上述相同的方式來對待MBO,即使用MPEG環(huán)繞編碼器對其進(jìn)行預(yù)處理,產(chǎn) 生單聲道或立體聲下混合信號,用作要輸入至隨后的增強(qiáng)型SAOC編碼器的BGO。在這種情 況下,變碼器必須與SAOC比特流相鄰的附加MPEG環(huán)繞比特流一起提供。接下來解釋由TTN(OTN)元件執(zhí)行的計算。以第一預(yù)定時間/頻率分辨率42表達(dá) 的TTN/OTN矩陣M是兩個矩陣的積M = D^-1C其中,D—1包括下混合信息,C含有每個TOO聲道的聲道預(yù)測系數(shù)(CPC)。C由裝置 52和盒152分別計算,裝置54和盒152分別計算D、并將其與C 一起應(yīng)用于SAOC下混合。 根據(jù)以下公式來執(zhí)行該計算對于TTN元件,即立體聲下混合 對于OTN元件,及單聲道下混合 從所傳送的SAOC參數(shù)(即OLD、IOC、DMG和DCLD)導(dǎo)出CPC。對于一個特定!7GO 聲道j,可以使用以下公式來估計CPC 參數(shù)0LDL、OLDe和IOCui與BGO相對應(yīng),其余是FGO值。系數(shù)Hij和Iij表示針對右和左下混合聲道的每個TOO j的下混合值,并由下混合增 益DMG和下混合聲道聲級差DCLD導(dǎo)出 對于OTN元件,第二 CPC值Cj2的計算是多余的。為了重構(gòu)兩個對象組BGO和TOO,下混合矩陣D的求逆利用了下混合信息,所述下 混合矩陣D被擴(kuò)展為進(jìn)一步規(guī)定信號FO1至FOn的線性組合,即
以下,闡沭編碼器側(cè)的下混合在TTN—1元件中,擴(kuò)展下混合矩陣為對立體聲 對單聲道 對于0ΤΝ—1元件,有對立體聲 對單聲道 ΤΤΝ/0ΤΝ元件的輸出對立體聲BGO和立體聲下混合產(chǎn)生 在BGO和/或下混合為單聲道信號的情況下,線性方程組相應(yīng)地發(fā)生改變。殘差信號reSi與TOO對象i相對應(yīng),如果沒有被SAOC流傳送(例如由于其位于殘 差頻率范圍之外,或以信號告知完全沒有對reo對象i傳送殘差信號),則reSi被推定為零。 β;是與reo對象i近似的重構(gòu)/上混合信號。在計算之后,可以將通過合成濾波器組,以 獲得reo對象i的時域(如PCM編碼)版本。應(yīng)回顧到,LO和RO表示SAOC下混合信號的 聲道,并能夠以比基本索引(n,k)的參數(shù)分辨率更高的時間/頻率分辨率加以使用/進(jìn)行 信號告知。Z和為是與BGO對象的左和右聲道近似的重構(gòu)/上混合信號。它可以與MPS輔 助比特流一起呈現(xiàn)在原始數(shù)目的聲道上。根據(jù)一實施例,在能量模式下使用以下TTN矩陣?;谀芰康木幋a/解碼過程被設(shè)計用于對下混合信號進(jìn)行非波形保持編碼。因 此,針對對應(yīng)能量模型的TTN上混合矩陣不依賴于具體波形,而是僅描述了輸入音頻對象 的相對能量分布。根據(jù)以下公式,從對應(yīng)OLD獲得該矩陣MEnCTgy的元素對立體聲BGO 以及對于單聲道BGO
使得TTN元件的輸出分別產(chǎn)生 相應(yīng)地,對于單聲道下混合,基于能量的上混合矩陣MEnCTgy變?yōu)閷αⅢw聲BGO 以及對于單聲道BGO 使得OTN元件的輸出分別產(chǎn)生
因此,根據(jù)剛剛提及的實施例,在編碼器側(cè)將所有對象(Obj1. . . ObjN)分別分類為 BGO和reo。BGO可以是單聲道(L)或立體聲 對象。BGO下混合為下混合信號是固定的。
對于reo,其數(shù)目在理論上是不受限的。然而,對于多數(shù)應(yīng)用,總計4個reo對象似乎就足 夠了。單聲道和立體聲對象的任何組合都是可行的。通過參數(shù)Hli (對左/單聲道下混合信 號進(jìn)行加權(quán))和Iii (對右下混合信號進(jìn)行加權(quán)),F(xiàn)GO下混合在時間上和頻率上均可變。由
此,下混合信號可以是單聲道(LO)或立體聲 。 依舊不向解碼器/變碼器發(fā)送信號(F(V..FOn)t。反之,在解碼器側(cè)通過上述CPC 來預(yù)測該信號。由此,再次注意,解碼器設(shè)置甚至可以丟棄殘差信號res。在這種情況下,解碼器 (例如裝置52)根據(jù)以下公式,僅基于CPC來預(yù)測虛信號立體聲下混合 單聲道下混合 然后,例如由裝置54通過編碼器的4種可能線性組合之一的逆運算來獲得BGO和 / 或 reo,
例如 其中D—1依然是參數(shù)DMG和DCLD的函數(shù)。因此,總而言之,殘差忽略TTN(OTN)盒152計算兩個剛剛提及的計算步驟,例如 注意,當(dāng)D為二次型時,可以直接獲得D的逆。在非二次型矩陣D的情況下,D的逆 應(yīng)為偽逆,即Pinv(D) =D*(DD*)—1或Pinv(D) = (DiD)-1D*.在任一種情況下,D的逆存在。最后,圖15示出了如何在輔助信息中設(shè)置用于傳送殘差數(shù)據(jù)的數(shù)據(jù)量的另一可 能。根據(jù)該語法,輔助信息包括bsResidualSamplingFrequencylndex,即表格的索引,所述 表格將例如頻率分辨率與該索引相關(guān)聯(lián)??蛇x地,可以推定該分辨率為預(yù)定分辨率,如濾波 器組的分辨率或參數(shù)分辨率。此外,輔助信息包括bsResidualFramesPerSAOCFrame,后者定 義了傳送殘差信息所使用的時間分辨率。輔助信息還包括BsNumGroupsreO,表示TOO的數(shù) 目。對于每個TOO,傳送了語法元素bsResidualPresent,后者表示對于相應(yīng)的TO0,是否傳 送了殘差信號。如果存在,bsResidualBands表示傳送殘差值的頻譜帶的數(shù)目。根據(jù)實際實現(xiàn)方式的不同,可以以硬件或軟件來實現(xiàn)本發(fā)明的編碼/解碼方法。 因此,本發(fā)明也涉及計算機(jī)程序,所述計算機(jī)程序可以存儲在諸如CD、盤或任何其他數(shù)據(jù)載 體等計算機(jī)可讀介質(zhì)上。因此,本發(fā)明還是一種具有程序代碼的計算機(jī)程序,當(dāng)在計算機(jī)上 執(zhí)行所述程序代碼時,執(zhí)行結(jié)合上述附圖描述的本發(fā)明的編碼方法或本發(fā)明的解碼方法。
權(quán)利要求
一種音頻解碼器,用于對多音頻對象信號進(jìn)行解碼,所述多音頻對象信號中編碼有第一類型音頻信號和第二類型音頻信號,所述多音頻對象信號由下混合信號(56)和輔助信息(58)組成,所述輔助信息包括第一預(yù)定時間/頻率分辨率(42)下第一類型音頻信號和第二類型音頻信號的聲級信息(60)、以及以第二預(yù)定時間/頻率分辨率指定殘差聲級值的殘差信號(62),所述音頻解碼器包括用于基于所述聲級信息(60)來計算預(yù)測系數(shù)(64)的裝置(52);以及用于基于所述預(yù)測系數(shù)(64)和所述殘差信號(62)來對所述下混合信號(56)進(jìn)行上混合,以獲得與第一類型音頻信號近似的第一上混合音頻信號和/或與第二類型音頻信號近似的第二上混合音頻信號的裝置(54)。
2.如權(quán)利要求1所述的音頻解碼器,其中,所述輔助信息(58)還包括下混合規(guī)則,第 一類型音頻信號和第二類型音頻信號是根據(jù)所述下混合規(guī)則被下混合為所述下混合信號 (56)的,其中,用于上混合的裝置被配置為還基于所述下混合規(guī)則來進(jìn)行上混合。
3.如權(quán)利要求2所述的音頻解碼器,其中,所述下混合規(guī)則在所述輔助信息中隨時間 而變化。
4.如權(quán)利要求2或3所述的音頻解碼器,其中,所述下混合規(guī)則在所述輔助信息中以比 幀尺寸粒度更大的時間分辨率隨時間而變化。
5.如權(quán)利要求2至4中任一項所述的音頻解碼器,其中,所述下混合規(guī)則指示了加權(quán), 所述下混合信號是基于第一類型音頻信號和第二類型音頻信號,利用所述加權(quán)來混合而成 的。
6.如權(quán)利要求1至5中任一項所述的音頻解碼器,其中,所述第一類型音頻信號是具有 第一和第二輸入聲道的立體聲音頻信號,或僅具有第一輸入聲道的單聲道音頻信號,所述 下混合信號是具有第一和第二輸出聲道的立體聲音頻信號,或僅具有第一輸出聲道的單聲 道音頻信號,其中,所述聲級信息以所述第一預(yù)定時間/頻率分辨率分別描述所述第一輸 入聲道、所述第二輸入聲道與第二類型音頻信號之間的聲級差,其中,所述輔助信息還包括 互相關(guān)信息,所述互相關(guān)信息以第三預(yù)定時間/頻率分辨率定義了第一和第二輸入聲道之 間的聲級相似性,其中,用于計算的裝置被配置為,還基于所述互相關(guān)信息來執(zhí)行計算。
7.如權(quán)利要求6所述的音頻解碼器,其中,所述第一和第三時間/頻率分辨率是由所述 輔助信息中公共的語法元素決定的。
8.如權(quán)利要求6或7所述的音頻解碼器,其中,用于計算的裝置和用于上混合的裝置被 配置為,使上混合能夠被表示為將由所述下混合信號和所述殘差信號組成的向量施加于 第一和第二矩陣的序列,所述第一矩陣(C)由所述預(yù)測系數(shù)組成,所述第二矩陣(D)由下混 合規(guī)則來定義,第一類型音頻信號和第二類型音頻信號是根據(jù)所述下混合規(guī)則被下混合為 所述下混合信號的,且所述下混合規(guī)則還包含于所述輔助信息中。
9.如權(quán)利要求8所述的音頻解碼器,其中,用于計算的裝置和用于上混合的裝置被配 置為,使所述第一矩陣將所述向量映射為中間向量,所述中間向量具有針對第一類型音頻 信號的第一分量和/或針對第二類型音頻信號第二分量,所述中間向量被定義為,使所述 下混合信號以一一對應(yīng)的方式被映射到所述第一分量上,并使所述殘差信號和所述下混合 信號的線性組合被映射到所述第二分量上。
10.如前述任一權(quán)利要求所述的音頻解碼器,其中,所述多音頻對象信號包括多個第二類型音頻信號,所述輔助信息針對每個第二類型音頻信號均包括一個殘差信號。
11.如前述任一權(quán)利要求所述的音頻解碼器,其中,所述第二預(yù)定時間/頻率分辨率通 過所述輔助信息中包含的殘差分辨率參數(shù),與所述第一預(yù)定時間/頻率分辨率相關(guān),其中, 所述音頻解碼器包括用于從所述輔助信息中導(dǎo)出所述殘差分辨率參數(shù)的裝置。
12.如權(quán)利要求11所述的音頻解碼器,其中,所述殘差分辨率參數(shù)定義了頻譜范圍,所 述輔助信息中,所述殘差信號在所述頻譜范圍上傳送。
13.如權(quán)利要求12所述的音頻解碼器,其中,所述殘差分辨率參數(shù)定義了所述頻譜范 圍的上限和下限。
14.如前述任一權(quán)利要求所述的音頻解碼器,其中,用于基于所述聲級信息來計算預(yù)測 系數(shù)的裝置被配置為,針對第一時間/頻率分辨率的每個時間/頻率片(l,m),所述下混合 信號的每個輸出聲道i,以及第二類型音頻信號的每個聲道j,按以下公式計算聲道預(yù)測系 數(shù)…," 其中 其中,在第一類型音頻信號是立體聲信號的情況下,ou\表示各時間/頻率片中第一類 型音頻信號的第一輸入聲道的歸一化頻譜能量,OLDk表示各時間/頻率片中第一類型音頻 信號的第二輸入聲道的歸一化頻譜能量,IOCui表示互相關(guān)信息,所述互相關(guān)信息定義了各 時間/頻率片內(nèi)的第一和第二輸入聲道之間的頻譜能量的相似性,或者,在第一類型音頻 信號是單聲道信號的情況下,0U\表示各時間/頻率片內(nèi)的第一類型音頻信號的歸一化頻 譜能量,OLDk和IOCLK為0,其中,OLA表示各時間/頻率片中第二類型音頻信號的聲道j的歸一化頻譜能量,IOCij 表示互相關(guān)信息,所述互相關(guān)信息定義了各時間/頻率片內(nèi)的第二類型音頻信號的聲道i 和聲道j之間的頻譜能量的相似性,其中 其中DCLD和DMG是下混合規(guī)則,其中,用于上混合的裝置被配置為,通過 根據(jù)下混合信號d和每個第二上混合信號S2, i的殘差信號reSi來產(chǎn)生第一上混合信 號S1和/或第二上混合信號S2, i,其中,根據(jù)dn’k的聲道數(shù)目,左上角的“ 1,,表示標(biāo)量或單 位矩陣,右下角的“ 1,,是大小為N的單位矩陣,同樣根據(jù)dn’k的聲道數(shù)目,“O”表示零向量 或矩陣,D—1是由下混合規(guī)則唯一確定的矩陣,第一類型音頻信號和第二類型音頻信號是根 據(jù)所述下混合規(guī)則被下混合為所述下混合信號的,且所述下混合規(guī)則還包含于所述輔助信 息中,(Γ Π res廣k分別是時間/頻率片(n,k)中下混合信號和第二上混合信號S2,,的殘 差信號,其中,所述輔助信息中未包括的res廣k被設(shè)置為零。
15.如權(quán)利要求14所述的音頻解碼器,其中,在所述下混合信號為立體聲信號且S1為 立體聲信號的情況下,D-1是以下矩陣的逆 在所述下混合信號為立體聲信號且S1為單聲道信號的情況下,D—1是以下矩陣的逆 在所述下混合信號為單聲道信號且S1為立體聲信號的情況下,D—1是以下矩陣的逆 在所述下混合信號為單聲道信號且S1為單聲道信號的情況下,D—1是以下矩陣的逆
16.如前述任一權(quán)利要求所述的音頻解碼器,其中,所述多音頻對象信號包括空間呈現(xiàn) 信息,用于在空間上將第一類型音頻信號呈現(xiàn)至預(yù)定的揚聲器配置。
17.如前述任一權(quán)利要求所述的音頻解碼器,其中,用于上混合的裝置被配置為,在空 間上將與所述第二上混合音頻信號分離的所述第一上混合音頻信號呈現(xiàn)至預(yù)定揚聲器配 置,在空間上將與所述第一上混合音頻信號分離的所述第二上混合音頻信號呈現(xiàn)至預(yù)定揚 聲器配置,或?qū)⑺龅谝簧匣旌弦纛l信號和所述第二上混合音頻信號進(jìn)行混合,并在空間 上將其混合后的版本呈現(xiàn)至預(yù)定揚聲器配置。
18.一種音頻對象編碼器,包括用于計算第一預(yù)定時間/頻率分辨率下第一類型音頻信號和第二類型音頻信號的聲 級信息的裝置;用于基于所述聲級信息來計算預(yù)測系數(shù)的裝置;用于對第一類型音頻信號和第二類型音頻信號進(jìn)行下混合以獲得下混合信號的裝置;用于設(shè)置以第二預(yù)定時間/頻率分辨率指定殘差聲級值的殘差信號,使得基于所述預(yù) 測系數(shù)和所述殘差信號對所述下混合信號進(jìn)行的上混合產(chǎn)生與第一類型音頻信號近似的 第一上混合音頻信號和與第二類型音頻信號近似的第二上混合音頻信號的裝置,所述近似 與不使用所述殘差信號的情況相比有所改進(jìn),與所述下混合信號一起形成多音頻對象信號的輔助信息包括所述聲級信息和所述殘 差信號。
19.根據(jù)權(quán)利要求18所述的音頻對象編碼器,還包括用于在頻譜上分解第一類型音頻信號和第二類型音頻信號的裝置。
20.一種用于對多音頻對象信號進(jìn)行解碼的方法,所述多音頻對象信號中編碼有第一 類型音頻信號和第二類型音頻信號,所述多音頻對象信號由下混合信號(56)和輔助信息 (58)組成,所述輔助信息包括第一預(yù)定時間/頻率分辨率(42)下第一類型音頻信號和第二 類型音頻信號的聲級信息(60),以及以第二預(yù)定時間/頻率分辨率指定殘差聲級值的殘差 信號(62),所述方法包括基于所述聲級信息(60)來計算預(yù)測系數(shù)(64);以及基于所述預(yù)測系數(shù)(64)和所述殘差信號(62)來對所述下混合信號(56)進(jìn)行上混合, 以獲得與第一類型音頻信號近似的第一上混合音頻信號和/或與第二類型音頻信號近似 的第二上混合音頻信號。
21.一種多音頻對象編碼方法,包括計算第一預(yù)定時間/頻率分辨率下第一類型音頻信號和第二類型音頻信號的聲級信息;基于所述聲級信息來計算預(yù)測系數(shù);對第一類型音頻信號和第二類型音頻信號進(jìn)行下混合以獲得下混合信號; 設(shè)置以第二預(yù)定時間/頻率分辨率指定殘差聲級值的殘差信號,使得基于所述預(yù)測系 數(shù)和所述殘差信號對所述下混合信號進(jìn)行的上混合產(chǎn)生與第一類型音頻信號近似的第一 上混合音頻信號和與第二類型音頻信號近似的第二上混合音頻信號,所述近似與不使用所 述殘差信號的情況相比有所改進(jìn), 與所述下混合信號一起形成多音頻對象信號的輔助信息包括所述聲級信息和所述殘 差信號。
22.—種具有程序代碼的程序,當(dāng)所述程序代碼在處理器上運行時,執(zhí)行根據(jù)權(quán)利要求 20或權(quán)利要求21所述的方法。
23.一種多音頻對象信號,編碼有第一類型音頻信號和第二類型音頻信號,所述多音頻 對象信號由下混合信號和輔助信息組成,所述輔助信息包括第一預(yù)定時間/頻率分辨率下 第一類型音頻信號和第二類型音頻信號的聲級信息,以及以第二預(yù)定時間/頻率分辨率指 定殘差聲級值的殘差信號,其中,所述殘差信號被設(shè)置為,使得基于所述聲級信息計算預(yù)測 系數(shù)、以及基于所述預(yù)測系數(shù)和所述殘差信號對所述下混合信號進(jìn)行的上混合產(chǎn)生與第一 類型音頻信號近似的第一上混合音頻信號和與第二類型音頻信號近似的第二上混合音頻 信號。
全文摘要
一種音頻解碼器,用于對多音頻對象信號進(jìn)行解碼,所述多音頻對象信號中編碼有第一類型音頻信號和第二類型音頻信號,所述多音頻對象信號由下混合信號(56)和輔助信息(58)組成,所述輔助信息包括第一類型音頻信號和第二類型音頻信號的第一預(yù)定時間/頻率分辨率(42)的聲級信息(60),以及以第二預(yù)定時間/頻率分辨率指定殘差聲級值的殘差信號(62),所述音頻解碼器包括用于基于所述聲級信息(60)計算預(yù)測系數(shù)(64)的裝置(52);以及用于基于所述預(yù)測系數(shù)(64)和所述殘差信號(62)來對所述下混合信號(56)進(jìn)行上混合,以獲得與第一類型音頻信號近似的第一上混合音頻信號和/或與第二類型音頻信號近似的第二上混合音頻信號的裝置(54)。
文檔編號G10L19/00GK101849257SQ200880111872
公開日2010年9月29日 申請日期2008年10月17日 優(yōu)先權(quán)日2007年10月17日
發(fā)明者于爾根·赫勒, 奧立弗·赫爾穆特, 安德烈亞斯·赫爾蒂, 科爾尼德·費爾施, 約翰內(nèi)斯·希爾珀特, 萊奧尼德·特倫茨 申請人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會