專利名稱:多通道參數(shù)轉(zhuǎn)換的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多通道參數(shù)的轉(zhuǎn)換,具體涉及根據(jù)基于對象參數(shù)
的空間音頻場景的表示來產(chǎn)生相干性參數(shù)和電平(level)參數(shù),所述相干性參數(shù)和電平參數(shù)指示兩個音頻信號之間的空間特性。
背景技術(shù):
存在對多通道音頻信號進行參數(shù)編碼的多種方法,例如"參數(shù)立體聲(Parametric Stereo) (PS)"、"針對自然呈現(xiàn)的雙耳提示編碼(Binaural Cue Coding) (BCC),,以及"MPEG環(huán)繞",這些方法的目的
在于利用下混合信號(其可以是單聲道的或者包括多個通道)以及
以感知空間聲級(sound stage)為特性的參數(shù)側(cè)信息(空間提示),來表示多通道音頻信號。
可以將這些技術(shù)稱作是基于通道的(channel-based), g卩,這些技術(shù)試圖傳輸已經(jīng)存在的、或以比特率高效的方式產(chǎn)生的多通道信號;即,在傳輸信號之前將空間音頻場景(scene)混合至預(yù)定數(shù)目的通道,以匹配預(yù)定的揚聲器設(shè)置(set-up),并且這些技術(shù)的目的在于壓縮與獨立揚聲器相關(guān)聯(lián)的音頻通道。
參數(shù)編碼技術(shù)依賴于下混合信號,所述下混合信號承載有音頻內(nèi)容以及描述原始空間音頻場景的空間特性并在接收側(cè)用于重建多通道信號或空間音頻場景的參數(shù)。
緊密相關(guān)的技術(shù)組,例如"針對彈性呈現(xiàn)的BCC"用于對于獨立的音頻對象而非對相同多通道信號的通道進行編碼,以便將這些獨立的音頻對象交互地呈現(xiàn)到任意的空間位置,并且獨立地放大或者抑制單個對象而不需要事先對所述對象的編碼器有任何的了解。相較于常見的參數(shù)多通道音頻編碼技術(shù)(這些技術(shù)會從編碼器向解碼器傳送給定的通道信號集合),這樣的對象編碼技術(shù)允許將已解碼的對象呈現(xiàn)到任
9何再現(xiàn)裝置(setup), B口,在該解碼側(cè)的用戶根據(jù)他的偏好自由選擇 再現(xiàn)裝置(例如,立體聲、5.1環(huán)繞)。
按照對象編碼構(gòu)思,可以定義對音頻對象在空間中的位置加以標(biāo) 識的參數(shù),以允許在該接收側(cè)進行彈性呈現(xiàn)。在接收側(cè)呈現(xiàn)的優(yōu)點在 于,甚至可以使用非理想的揚聲器設(shè)置或者任意的揚聲器來再現(xiàn)具有 高品質(zhì)的空間音頻場景。此外,例如,必須傳輸諸如與獨立對象相關(guān) 聯(lián)的音頻通道的下混合之類的音頻信號,這是在接收側(cè)再現(xiàn)的基礎(chǔ)。
上述兩種方法皆依賴于接收側(cè)的多通道揚聲器設(shè)置,以允許高品
質(zhì)再現(xiàn)原始空間音頻場景的空間印象(spatial impression)。
如前述的,已經(jīng)存在多種對多通道音頻信號進行參數(shù)編碼的現(xiàn)有 最新技術(shù),這些現(xiàn)有最新技術(shù)可以再現(xiàn)空間聲像(sound image),所 述空間聲像(依賴于可用的數(shù)據(jù)速率)或多或少系與原始音頻內(nèi)容類
^然而,在給定某一預(yù)編碼音頻材料(即,由給定個數(shù)的再現(xiàn)通道 信號描述的空間聲音)的情況下,這樣的編解碼器并不提供根據(jù)收聽 者的喜好對單個音頻對象進行后驗和交互式呈現(xiàn)的任何手段。另一方 面,也存在專為后者而設(shè)計的空間音頻對象編碼技術(shù),但是由于在這 樣的系統(tǒng)中所使用的參數(shù)表示系與針對多通道音頻信號的參數(shù)表示不 同,因此如果希望可以同時受益于兩種技術(shù),則需要單獨的解碼器。 這種情況所造成的缺點是,雖然兩種系統(tǒng)的后端(back end)皆可以 完成相同的任務(wù),從而在給定的揚聲器裝置上呈現(xiàn)空間音頻場景,但 是它們必須以冗余的方式實現(xiàn),目卩,要提供兩種功能必須用到兩個獨 立的解碼器。
現(xiàn)有技術(shù)的對象編碼技術(shù)的另一個限制是缺乏一種以后向相容
(backwards compatible)的方式來儲存和/或傳輸預(yù)呈現(xiàn)的空間音頻對 象場景的手段。當(dāng)涉及將迅速呈現(xiàn)的音頻場景相同地再現(xiàn)時,結(jié)果證
明以下特征是缺點使能對空間音頻對象編碼范例所提供的單個音頻
對象進行交互式定位。
總結(jié)上述,面臨的不幸情況是雖然可以提出實現(xiàn)上述方法之一 的多通回放放環(huán)境,但是可能需要另一回放環(huán)境來另外實現(xiàn)第二種方法。值得注意的是,根據(jù)較長遠的歷史,基于通道的編碼方案是更為
普遍的,例如,儲存于DVD等上的著名的5.1或7.1/7.2多通道信號。
艮口,即使存在多通道解碼器以及關(guān)聯(lián)的回放裝備(放大器級以及 揚聲器),當(dāng)用戶想要回放基于對象的已編碼音頻數(shù)據(jù)時,用戶仍需要 另外的完整設(shè)置,g卩,至少音頻解碼器。通常,所述多通道音頻解碼 器直接與所述放大器級相關(guān)聯(lián),并且用戶無法直接使用用于驅(qū)動揚聲 器的放大器級。即,例如,在大多數(shù)一般可用的多通道音頻或多媒體 接收機中的情況。根據(jù)現(xiàn)有的消費性電子產(chǎn)品,期望可以收聽以上述 兩種方法編碼的音頻內(nèi)容的用戶將甚至需要完整的另一組放大器,這 當(dāng)然是一種不令人滿意的情況。
發(fā)明內(nèi)容
因此,希望提供一種可以降低系統(tǒng)復(fù)雜度的方法,該方法可以對 參數(shù)多通道音頻流以及參數(shù)編碼的空間音頻對象流進行解碼。
本發(fā)明的實施例是一種用以產(chǎn)生電平參數(shù)的多通道參數(shù)轉(zhuǎn)換器, 所述電平參數(shù)指示多通道空間音頻信號表示的第一音頻信號與第二音
頻信號之間的能量關(guān)系,多通道參數(shù)轉(zhuǎn)換器包括對象參數(shù)提供器, 用于針對與下混合通道相關(guān)聯(lián)的多個音頻對象,根據(jù)與音頻對象相關(guān) 聯(lián)的對象音頻信號,提供對象參數(shù),所述對象參數(shù)包括針對每一個音
頻對象的能量參數(shù),所述能量參數(shù)指示對象音頻信號的能量信息;以
及參數(shù)產(chǎn)生器,用于通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對象呈現(xiàn) 參數(shù)相組合來得到電平參數(shù)。
根據(jù)本發(fā)明的另一實施例,所述參數(shù)轉(zhuǎn)換器產(chǎn)生相干性參數(shù)和電 平參數(shù),所述相干性參數(shù)和電平參數(shù)指示與多通道揚聲器配置相關(guān)聯(lián) 的多通道音頻信號的第一音頻信號與第二音頻信號之間的相關(guān)性或相 干性以及能量關(guān)系。針對與下混合通道相關(guān)聯(lián)的至少一個音頻對象, 根據(jù)已提供的對象參數(shù)來產(chǎn)生相關(guān)性參數(shù)和電平參數(shù),所述下混合通 道本身是使用與該音頻對象相關(guān)聯(lián)的對象音頻信號來產(chǎn)生的,其中所 述對象參數(shù)包括指示對象音頻信號的能量的能量參數(shù)。為得到相干性 和電平參數(shù),使用參數(shù)產(chǎn)生器,該參數(shù)產(chǎn)生器將能量參數(shù)以及另外的對象呈現(xiàn)參數(shù)相結(jié)合,所述呈現(xiàn)參數(shù)受回放配置的影響。根據(jù)某些具 體實施例,對象呈現(xiàn)參數(shù)包括揚聲器參數(shù),所述揚聲器參數(shù)指示相對 于收聽地點的回放揚聲器位置。根據(jù)一些實施例,對象呈現(xiàn)參數(shù)包括 對象位置參數(shù),對象位置參數(shù)指示相對于收聽地點的對象位置。為此, 參數(shù)產(chǎn)生器利用從兩種空間音頻編碼范例所得到的協(xié)同效應(yīng)。
根據(jù)本發(fā)明的另一實施例,多通道參數(shù)轉(zhuǎn)換器用于得到符合
MPEG環(huán)繞的相干性參數(shù)和電平參數(shù)(ICC與CLD),所述相干性參數(shù) 和電平參數(shù)(ICC與CLD)還可以用以操縱MPEG環(huán)繞解碼器。應(yīng)注意 的是,通道間相干性/互相關(guān)性(ICC)表示兩個輸入通道之間的相干 性或互相關(guān)性。在不包含時間差時,相干性和相關(guān)性是相同的。換言 之,當(dāng)不使用通道間時間差或通道間相位差時,這兩個術(shù)語代表相同 的特征。
這樣,多通道參數(shù)轉(zhuǎn)換器與標(biāo)準(zhǔn)的MPEG環(huán)繞轉(zhuǎn)換器一起可以用 于再現(xiàn)基于對象的已編碼音頻信號。這具有的優(yōu)點是,僅需一種另外 的參數(shù)轉(zhuǎn)換器,所述另外的轉(zhuǎn)換器接收空間音頻對象編碼(spatial audio object coded, SAOC)音頻信號,并且轉(zhuǎn)換對象參數(shù),使得標(biāo)準(zhǔn) MPEG環(huán)繞解碼器可以使用這些對象參數(shù)來經(jīng)由現(xiàn)有回放裝備再現(xiàn)多 通道音頻信號。因此,在沒有重大修改的情況下,也可以使用一般回 放設(shè)備來再現(xiàn)空間音頻對象編碼內(nèi)容。
根據(jù)本發(fā)明的另一實施例,將所產(chǎn)生的相干性參數(shù)和電平參數(shù)與 相關(guān)聯(lián)的下混合通道復(fù)用成為符合MPEG環(huán)繞的比特流。然后可以將 該比特流饋送至標(biāo)準(zhǔn)MPEG環(huán)繞解碼器,而不需對現(xiàn)有的回放環(huán)境做 任何其他修改。
根據(jù)本發(fā)明的另一具體實施例,將所產(chǎn)生的相干性和電平參數(shù)直 接傳輸至略微修改過的MPEG環(huán)繞解碼器,使得可以保持多通道參數(shù) 轉(zhuǎn)換器的計算復(fù)雜度很低。
根據(jù)本發(fā)明的另一實施例,所產(chǎn)生的多通道參數(shù)(相干性參數(shù)和 電平參數(shù))在產(chǎn)生之后被儲存起來,使得多通道參數(shù)轉(zhuǎn)換器還可以用 作對場景呈現(xiàn)過程之中得到的空間信息加以存儲的裝置。例如,也可 以在產(chǎn)生信號時在音樂空間(music studio)中執(zhí)行這樣的場景呈現(xiàn),使得可以使用以下段落中更詳細描述的多通道參數(shù)轉(zhuǎn)換器在不需要任 何其他努力的情況下產(chǎn)生多通道相容信號。因此,可使用舊式的
(legacy)裝備來再現(xiàn)預(yù)呈現(xiàn)的場景。
在更詳細描述本發(fā)明的多個具體實施例之前,將給出多通道音頻 編碼和對象音頻編碼技術(shù)、以及空間音頻對象編碼技術(shù)的簡要回顧。 為此,也將參考附圖。
圖la示出了現(xiàn)有技術(shù)的多通道音頻編碼方案;
圖lb示出現(xiàn)有技術(shù)的對象編碼方案;
圖2示出了空間音頻對象編碼方案;
圖3示出了多通道參數(shù)轉(zhuǎn)換器的實施例;
圖4示出了用于回放空間音頻內(nèi)容的多通道揚聲器配置的示例;
以及
圖5示出了空間音頻內(nèi)容的可能多通道參數(shù)表示的示例;
圖6a和6b示出了空間音頻對象編碼內(nèi)容的應(yīng)用情況;
圖7示出了多通道參數(shù)轉(zhuǎn)換器的實施例;以及
圖8示出了產(chǎn)生相干性參數(shù)以及相關(guān)性參數(shù)的方法的示例。
具體實施例方式
圖la示出了多通道音頻編碼和解碼方案的示意圖,而圖lb顯示傳 統(tǒng)音頻對象編碼方案的示意圖。多通道編碼方案使用多個已提供的通 道,g卩,已經(jīng)混合成符合預(yù)定數(shù)目揚聲器的音頻通道。多通道編碼器4 (SAC)產(chǎn)生下混合信號6,下混合信號6是使用音頻通道2a至2d產(chǎn)生 的音頻信號。例如,該下混合信號6可以是單聲道音頻通道或兩個音頻 通道,g卩,立體聲信號。為了部分補償在下混合過程中的信息損耗, 多通道編碼器4提取多通道參數(shù),所述多通道參數(shù)描述音頻通道2a至2d 的信號的空間相互關(guān)系。將該信息作為所謂的側(cè)信息8與下混合信號6 一起傳輸至多通道解碼器10。多通道解碼器10利用側(cè)信息8的多通道參 數(shù)創(chuàng)建通道12a至12d,以盡可能精確地重建通道2a至2d。例如,這可以通過傳輸電平參數(shù)和相關(guān)性參數(shù)來達成,其中,所述電平參數(shù)和相
關(guān)性參數(shù)描述原始通道2a和2d的獨立通道對之間的能量關(guān)系,并提供 通道2a至2d的通道對之間的相關(guān)性量度。
在解碼時,該信息可以用于將包括在下混合信號中的音頻通道重 新分配至已重建的音頻通道12a至12d。值得注意的是,將普通多通道 方案實現(xiàn)為再現(xiàn)已重建的通道12a至12d,所述已重建的通道12a至12d 的數(shù)目與輸入至多通道音頻編碼器4中的原始音頻通道2a至2d的數(shù)目 相同。然而,也可以實現(xiàn)其它的解碼方案,再現(xiàn)比原始音頻通道2a至 2d的數(shù)目更多或更少的通道。
這樣,可以將圖la中示意性概述的多通道音頻技術(shù)(例如,最近 標(biāo)準(zhǔn)化的MPEG空間音頻編碼方案,g卩,MPEG環(huán)繞)理解為現(xiàn)有音
頻分配基礎(chǔ)設(shè)施向多通道音頻/環(huán)繞的比特率高效且兼容的擴展。
圖lb詳細說明了基于對象的音頻編碼的現(xiàn)有方法。例如,聲音對 象的編碼以及"基于內(nèi)容的可交互性"的能力是MPEG-4構(gòu)思的一部分。 在圖lb中示意性概述的傳統(tǒng)音頻對象編碼技術(shù)依據(jù)不同的方法,因為 該傳統(tǒng)音頻對象編碼技術(shù)并未視圖傳輸多個已有的音頻通道,而是傳 輸在空間中分配有多個音頻對象22a至22d的整個音頻場景。為此,使 用傳統(tǒng)音頻對象編碼器20將多個音頻對象22a至22d編碼進基本流24a 至24d,每一個音頻對象具有關(guān)聯(lián)的基本流。例如,可以由單聲道音頻 通道以及關(guān)聯(lián)的能量參數(shù)來表示音頻對象22a至22d (音頻源),所述能 量參數(shù)指示音頻對象相對于場景中剩余音頻對象的相對電平。當(dāng)然, 在更復(fù)雜的實現(xiàn)中,音頻對象不限于由單聲道音頻通道來表示。取而 代之的是,例如,可以對立體聲音頻對象或多通道音頻對象進行編碼。 傳統(tǒng)音頻對象解碼器28的目的在于再現(xiàn)音頻對象22a至22d,以得 到已重建的音頻對象28a至28d。傳統(tǒng)音頻對象解碼器中的場景構(gòu)成器 (composer) 30允許對已重建的音頻對象28a至28d (源)進行離散定 位以及調(diào)整各種揚聲器設(shè)置。場景完全由場景描述34以及關(guān)聯(lián)的音頻 對象來定義。 一些傳統(tǒng)的場景構(gòu)成器30以標(biāo)準(zhǔn)化的語言例如BIFS (針 對場景描述的二進制格式)來預(yù)期場景描述。在該解碼器側(cè),可與存 在任意的揚聲器設(shè)置,解碼器將通道32a至32e提供給獨立的揚聲器,由于關(guān)于音頻場景的全部信息都在解碼器側(cè)可用,所以這些獨立的揚 聲器最適合音頻場景的重建。例如,雙耳呈現(xiàn)是可行的,這導(dǎo)致兩個 通道的產(chǎn)生,以在經(jīng)由耳機收聽時提供空間印象。
與場景構(gòu)成器30的可選用戶交互使能在再現(xiàn)側(cè)重新定位/重新掃
視(repanning)獨立的音頻對象。此外,可以對特別選擇的音頻對象 的位置或電平進行修改,以便例如當(dāng)在會議中環(huán)境噪音對象或與不同 講話者有關(guān)的其它音頻對象受到抑制(即,電平降低)時提高講話者 的可理解性(intelligibility)。
換言之,傳統(tǒng)的音頻對象編碼器將多個音頻對象編碼進基本流, 每一個流與單個音頻對象相關(guān)聯(lián)。在場景描述(BIFS)的控制下并可 選地根據(jù)用戶交互,傳統(tǒng)的解碼器將這些流解碼并且構(gòu)成音頻場景。 就實際應(yīng)用的角度而言,該方法有以下缺點由于對每一個獨立的音 頻(聲音)對象進行單獨編碼,所以傳輸整個場景所需要的比特率明 顯比用于單聲道/立體聲傳輸已壓縮音頻的比特率高。顯然,所需要的 比特率近似地與所傳輸?shù)囊纛l對象的數(shù)目成比例地增長,即,與音頻 場景的復(fù)雜度成比例地增長。
因此,由于對每一個聲音對象的單獨解碼,使得解碼過程的計算 復(fù)雜度明顯超過一般單聲道/立體聲音頻解碼器的解碼過程的計算復(fù) 雜度。解碼所需要的計算復(fù)雜度也近似地與所傳輸?shù)膶ο蟮臄?shù)目成比 例地增長(假設(shè)低復(fù)雜度的構(gòu)成過程)。當(dāng)使用高級構(gòu)成能力時,艮P, 使用不同計算節(jié)點時,與相應(yīng)音頻節(jié)點的同步有關(guān)的復(fù)雜度以及與運 行結(jié)構(gòu)化音頻引擎(structured audio engine)時的總體復(fù)雜度有關(guān)的復(fù)
雜度將導(dǎo)致這些缺點的進一步增加。
此外,由于整體系統(tǒng)包括若干音頻解碼器部件以及基于BIFS的構(gòu)
成單元,所以所需結(jié)構(gòu)的復(fù)雜度妨礙了在現(xiàn)實應(yīng)用中的實現(xiàn)。高級構(gòu) 成能力還需要實現(xiàn)具有上述復(fù)雜性之結(jié)構(gòu)化音頻引擎。
圖2示出了本發(fā)明的空間音頻對象編碼構(gòu)思的實施例,允許進行 高效率音頻對象編碼,避免了前述一般實現(xiàn)的缺點。
如根據(jù)以下圖3的討論將看出的,可以通過修改己有的MPEG環(huán)繞 結(jié)構(gòu)來實現(xiàn)該構(gòu)思。然而,MPEG環(huán)繞架構(gòu)的使用并非強制性的,因為還可以使用其他一般的多通道編碼/解碼架構(gòu)來實現(xiàn)本發(fā)明的構(gòu)思。 使用現(xiàn)有的多通道音頻編碼結(jié)構(gòu),例如MPEG環(huán)繞,本發(fā)明的構(gòu) 思發(fā)展成現(xiàn)有音頻分配基礎(chǔ)設(shè)施比特率高效且兼容的擴展,從而可以
使用基于對象的表示。為了與音頻對象編碼(AOC)和空間音頻編碼 (多通道音頻編碼)的現(xiàn)有方法相區(qū)別,在下文中將使用術(shù)語"空間音 頻對象編碼"或其縮寫SAOC來表示本發(fā)明的實施例。
圖2所示的空間音頻對象編碼方案使用獨立的輸入音頻對象50a 至50d??臻g音頻對象編碼器52得到一個或更多個下混合信號54(例如, 單聲道或者立體聲信號)以及側(cè)信息55,該側(cè)信息55具有原始音頻場 景的特性的信息。
SAOC解碼器56接收下混合信號54以及側(cè)信息55。根據(jù)該下混合 信號54以及該側(cè)信息55,空間音頻對象解碼器56重建一組音頻對象58a 至58d。將已重建的音頻對象58a至58d輸入至混合器/呈現(xiàn)級60,混合 器/呈現(xiàn)級60將獨立的音頻對象58a至58d的音頻內(nèi)容混合,以產(chǎn)生期望 數(shù)目的輸出通道62a至62b,通道62a至62b—般而言與要用于回放的多 通道揚聲器設(shè)置相對應(yīng)。
可選地,混合器/呈現(xiàn)器60的參數(shù)可以根據(jù)用戶交互或控制64而受
影響,以允許交互式音頻構(gòu)成,從而維持音頻對象編碼的高靈活性。
與其他多通道重建情況相比,圖2所示的空間音頻對象編碼構(gòu)思 具有多個重大的優(yōu)點。
因為使用下混合信號以及伴隨的對象參數(shù),所以傳輸是非常比特 率高效的。即,將基于對象的側(cè)信息與下混合信號一起傳輸,所述下 混合信號由與獨立的音頻對象相關(guān)聯(lián)的音頻信號構(gòu)成。因此,與對每 一個獨立音頻對象的信號進行單獨編碼和傳輸?shù)姆椒ㄏ啾?,比特率?求顯著降低。此外,該構(gòu)思與已有的傳輸結(jié)構(gòu)后向相容。舊式的設(shè)備
僅需簡單地呈現(xiàn)(組成)下混合信號。
可以將已重建的音頻對象58a至58d直接傳送至混合器/呈現(xiàn)器60 (場景構(gòu)成器)。 一般而言,已重建的音頻對象58a至58d可以連接至任 何外部混合設(shè)備(混合器/呈現(xiàn)器60),使得可以很容易地將本發(fā)明的 構(gòu)思實現(xiàn)到已有的回放環(huán)境中。原則上獨立的音頻對象58a…d可以用作單獨呈現(xiàn)(solo presentation), g卩,被再現(xiàn)為單個音頻流,盡管它們 通常并不旨在充當(dāng)高品質(zhì)的單獨再現(xiàn)。
與單獨的SAOC解碼以及后續(xù)的混合相比,組合的SAOC解碼器和 混合器/呈現(xiàn)器是非常吸引人的,這是因為所述組合的SAOC解碼器和 混合器/呈現(xiàn)器導(dǎo)致了非常低的實現(xiàn)復(fù)雜度。與直接的方法相比,作為 中間表示可以避免對象58a至58d的完全解碼/重建。必要的計算主要與 預(yù)期的輸出呈現(xiàn)通道62a至62b的數(shù)目有關(guān)。如從圖2中可以明顯看出, 與SAOC解碼器相關(guān)聯(lián)的混合器/呈現(xiàn)器60原則上可以是適于將單個音 頻對象組合成場景(即,適于產(chǎn)生與多通道揚聲器設(shè)置的獨立揚聲器 相關(guān)聯(lián)的輸出音頻通道62a和62b)的任何算法。例如,這可以包括混 合器,所述混合器執(zhí)行幅度掃視(panning)(或者幅度和延遲掃視)、 基于向量的幅度掃視(vector based amplitude panning, VBAP方案)、 以及雙耳呈現(xiàn),目卩,意欲僅利用兩個揚聲器或耳機來提供空間收聽體 驗的呈現(xiàn)。例如,MPEG環(huán)繞使用這樣的雙耳呈現(xiàn)方式。
一般而言,可以將傳輸與相應(yīng)音頻對象信息55相關(guān)聯(lián)的下混合信 號54與任意的多通道音頻編碼技術(shù)相結(jié)合,舉例而言,例如參數(shù)立體 聲、雙耳提示編碼或MPEG環(huán)繞。
圖3示出了本發(fā)明的實施例,其中將對象參數(shù)與下混合信號一起 傳輸。在SAOC解碼器結(jié)構(gòu)120中,MPEG環(huán)繞解碼器可以與多通道參 數(shù)轉(zhuǎn)換器一起使用,所述多通道參數(shù)轉(zhuǎn)換器使用接收到的對象參數(shù)來 產(chǎn)生MPEG參數(shù)。這種組合得到了具有非常低復(fù)雜度的空間音頻對象 解碼器120。換言之,該具體示例提供一種方法,用以將與每一個音頻 對象相關(guān)聯(lián)的(空間音頻)對象參數(shù)和掃視信息轉(zhuǎn)換成符合于標(biāo)準(zhǔn)的 MPEG環(huán)繞比特流,從而從再現(xiàn)多通道音頻內(nèi)容向交互式呈現(xiàn)空間音 頻對象編碼場景,擴展傳統(tǒng)MPEG環(huán)繞解碼器的應(yīng)用。這是在不需要 對MPEG環(huán)繞解碼器本身進行修改的情況下實現(xiàn)的。
圖3所示的實施例通過將多通道參數(shù)轉(zhuǎn)換器與MPEG環(huán)繞解碼器 一起使用,避免了傳統(tǒng)技術(shù)的缺點。MPEG環(huán)繞解碼器是一種普遍可 用的技術(shù),而多通道參數(shù)轉(zhuǎn)換器提供了從SAOC至MPEG環(huán)繞的代碼轉(zhuǎn) 換(transcode)能力。這將在以下段落中詳細說明,將另外參考圖4和5,說明組合的技術(shù)的特定方面。
在圖3中,SAOC解碼器120具有MPEG環(huán)繞解碼器100, MPEG環(huán)
繞解碼器100接收具有音頻內(nèi)容的下混合信號102??梢酝ㄟ^以逐采樣 的方式將每一個音頻對象的音頻對象信號組合(例如相加),利用編碼 器側(cè)的下混合器來產(chǎn)生下混合信號??蛇x地,組合操作也可以發(fā)生在 譜域或濾波器組域中。下混合通道可以與參數(shù)比特流122分離,或可以 與參數(shù)比特流在相同的比特流中。
MPEG環(huán)繞解碼器100還接收MPEG環(huán)繞比特流的空間提示104, 如相干性參數(shù)ICC和電平參數(shù)CLD,這兩個參數(shù)皆表示在MPEG環(huán)繞編 碼/解碼方案中兩個音頻信號之間的信號特性,圖5示出了所述MPEGG 環(huán)繞編碼/解碼方案,并且將在下文中更詳細地解釋所述MPEGG環(huán)繞 編碼/解碼方案。
多通道參數(shù)轉(zhuǎn)換器106接收與音頻對象相關(guān)的SAOC參數(shù)(對象參 數(shù))122,所述SAOC參數(shù)122指示包括在該下混合信號102中的關(guān)聯(lián)的 音頻對象的特性。此外,轉(zhuǎn)換器106經(jīng)由對象呈現(xiàn)參數(shù)輸入來接收對象 呈現(xiàn)參數(shù)。這些參數(shù)可以是呈現(xiàn)矩陣的參數(shù),或可以是有助于將音頻 對象映射至呈現(xiàn)情況的參數(shù)。根據(jù)示范性地由用戶調(diào)整并且輸入至塊 12的對象位置,將由塊112來計算呈現(xiàn)矩陣。然后將塊112的輸出輸入 至塊106,具體輸入至用于計算空間音頻參數(shù)的參數(shù)產(chǎn)生器108。當(dāng)揚 聲器配置改變時,該呈現(xiàn)矩陣或一般而言至少一些對象呈現(xiàn)參數(shù)也改 變。因此,呈現(xiàn)參數(shù)依賴于呈現(xiàn)配置,所述呈現(xiàn)配置包括揚聲器配置/ 回放配置、或者所傳輸?shù)牡幕蛴脩羲x擇的對象位置,這兩者皆可以 輸入至塊112中。
參數(shù)產(chǎn)生器108根據(jù)對象參數(shù)得到MPEG環(huán)繞空間提示104,其中 所述對象參數(shù)是由對象參數(shù)提供器(SAOC剖析器(parser)) IIO提供 的。參數(shù)產(chǎn)生器108另外使用由加權(quán)因子產(chǎn)生器112提供的呈現(xiàn)參數(shù)。
所述呈現(xiàn)參數(shù)當(dāng)中的一些或者全部是加權(quán)參數(shù),所述加權(quán)參數(shù)描述包 括在下混合信號102中的音頻對象對于空間音頻對象解碼器120所創(chuàng)建
的通道的貢獻。例如,可以以矩陣的形式來組織加權(quán)參數(shù),因為這些 加權(quán)參數(shù)將用于將N個音頻對象映射至M個通道,這M個通道與用于回放的多通道揚聲器設(shè)置的獨立揚聲器相關(guān)聯(lián)。對于多通道參數(shù)轉(zhuǎn)換器
(SAOC 2 MPS代碼轉(zhuǎn)換器)而言,有兩種類型的輸入數(shù)據(jù)。第一輸 入是SAOC比特流122,所述SAOC比特流122具有與獨立的音頻對象相 關(guān)聯(lián)的對象參數(shù),所述對象參數(shù)指示與所傳輸?shù)亩鄬ο笠纛l場景相關(guān) 聯(lián)的音頻對象的空間特性(例如,能量信息)。第二輸入是呈現(xiàn)參數(shù)(加 權(quán)參數(shù))124,所述呈現(xiàn)參數(shù)(加權(quán)參數(shù))124用于將N個對象映射至 M個通道。
如前述的,SAOC比特流122包括有關(guān)于以下音頻對象的參數(shù)信 息己經(jīng)將所述音頻對象混合在一起以創(chuàng)建輸入至MPEG環(huán)繞解碼器 100的該下混合信號102。針對與下混合通道102相關(guān)聯(lián)的至少一個音頻 對象提供SAOC比特流122的對象參數(shù),使用與該音頻對象相關(guān)聯(lián)的至 少一個對象音頻信號產(chǎn)生該下混合通道102。例如,合適的參數(shù)是能量 參數(shù),能量參數(shù)指示對象音頻信號的能量,即,對象音頻信號貢獻于 下混合102的強度。如果使用立體聲下混合,則可以提供方向參數(shù),所 述方向參數(shù)指示音頻對象在立體聲下混合內(nèi)的位置。然而,顯然其他 對象參數(shù)也是合適的,從而可以用于實現(xiàn)。
所傳輸?shù)南禄旌喜⒉恍枰欢ㄊ菃温暤佬盘?。例如,所傳輸?shù)南?混合也可以是立體聲信號。在該情況中,可以傳輸兩個能量參數(shù)作為 對象參數(shù),每一個參數(shù)指示每一個對象對立體聲信號的兩個通道之一 的貢獻。即,例如,如果使用20個音頻對象產(chǎn)生立體聲下混合信號, 則將傳輸40個能量參數(shù)作為對象參數(shù)。
將SAOC比特流122饋送至SAOC剖析塊,艮卩,饋送至對象參數(shù)提 供器IIO,所述對象參數(shù)提供器110取回(regain)該參數(shù)信息,除了所 處理的實際數(shù)目的音頻對象之外,所述參數(shù)信息還主要包括對象電平 包絡(luò)(object level envelope) (OLE)參數(shù),所述對象電平包絡(luò)參數(shù)描 述出現(xiàn)的每一個音頻對象的時變譜包絡(luò)(spectral envelope)。
典型地,SAOC參數(shù)強烈地時間相關(guān)(time dependent),因為這些 SAOC參數(shù)運送關(guān)于以下情況的信息例如,當(dāng)特定的對象發(fā)出 (emanate)或其它對象離開該場景時,多通道音頻場景如何隨著時間 變化。反之,呈現(xiàn)矩陣124的加權(quán)參數(shù)并不經(jīng)常具有強時間或頻率相依性。當(dāng)然,如果對象進入或者離開該場景,則所需要的參數(shù)的數(shù)目會 突然改變,以匹配場景的音頻對象的數(shù)目。此外,在采用交互式用戶 控制應(yīng)用中,矩陣元素可以是時變的,因為矩陣元素依賴于用戶的實 際輸入。
在本發(fā)明的另外的實施例中,導(dǎo)引所述加權(quán)參數(shù)或者所述對象呈 現(xiàn)參數(shù)或者時變對象呈現(xiàn)參數(shù)(加權(quán)參數(shù))的變化量之參數(shù)本身,可
以以SAOC比特流來傳送引導(dǎo)加權(quán)參數(shù)、或?qū)ο蟪尸F(xiàn)參數(shù)、或時變對 象呈現(xiàn)參數(shù)(加權(quán)參數(shù))自身發(fā)生變化的參數(shù),以引起呈現(xiàn)矩陣124 的變化。如果期望頻率相關(guān)(frequency dependent)的呈現(xiàn)特性(例如, 當(dāng)期望特定對象的頻率選擇性增益時),則加權(quán)因子或呈現(xiàn)矩陣元素可 以是頻率相關(guān)的。
在圖3的實施例中,根據(jù)有關(guān)于回放配置的信息(即,場景描述), 利用加權(quán)因子產(chǎn)生器112 (呈現(xiàn)矩陣產(chǎn)生塊)來產(chǎn)生(計算)呈現(xiàn)矩陣。 一方面,這可以是回放配置信息,例如揚聲器參數(shù),所述揚聲器參數(shù) 指示用于回放的多通道揚聲器配置的多個揚聲器當(dāng)中獨立揚聲器的位 置或者空間定位。還根據(jù)對象呈現(xiàn)參數(shù)來計算呈現(xiàn)矩陣,例如,根據(jù) 指示音頻對象的位置以及指示音頻對象信號的放大或者衰減的信息, 來計算呈現(xiàn)矩陣。另一方面,如果期望逼真(realistic)再現(xiàn)多通道音 頻場景,則可以在該SAOC比特流之內(nèi)提供對象呈現(xiàn)參數(shù)??蛇x地, 還可以經(jīng)由用戶接口交互地地提供對象呈現(xiàn)參數(shù)(例如位置參數(shù)以及 放大信息(掃視參數(shù)))。自然,也可以與對象一起傳輸期望的呈現(xiàn)矩 陣,即,期望的加權(quán)參數(shù),以便以音頻場景的自然發(fā)聲(sounding) 再現(xiàn)開始,作為在解碼器側(cè)進行交互式呈現(xiàn)的起始點。
參數(shù)產(chǎn)生器(場景呈現(xiàn)引擎)108接收加權(quán)因子以及對象參數(shù)(例 如該能量參數(shù)OLE),以計算N個音頻對象至M個輸出通道的一種映 射,其中M可以大于、小于或者等于N,并且此外還可以隨著時間而 變化。當(dāng)使用標(biāo)準(zhǔn)MPEG環(huán)繞解碼器100時,可以通過符合標(biāo)準(zhǔn)的環(huán)繞 比特流將得到的空間提示(例如,相干性和電平參數(shù))傳輸至該MPEG 解碼器100,其中所述符合標(biāo)準(zhǔn)的環(huán)繞比特流匹配與SAOC比特流一起 傳輸?shù)南禄旌闲盘枴H缜笆龅?,使用多通道參?shù)轉(zhuǎn)換器106,使得允許使用標(biāo)準(zhǔn)MPEG 環(huán)繞解碼器來處理下混合信號以及由參數(shù)轉(zhuǎn)換器106提供的轉(zhuǎn)換后的 參數(shù),從而經(jīng)由給定的所述揚聲器來回放音頻場景的重建。這是以音 頻對象編碼方法的高靈活性實現(xiàn)的,即,通過允許在回放側(cè)進行嚴謹 的用戶交互來實現(xiàn)的。
作為多通道揚聲器設(shè)置的回放的備選方案,可以使用MPEG環(huán)繞 解碼器的雙耳解碼模式以經(jīng)由耳機回放該信號。
然而,如果對MPEG環(huán)繞解碼器100的微小修改是可接受的,例如, 在軟件實現(xiàn)之內(nèi),則還可以在參數(shù)域中直接執(zhí)行將空間提示向MPEG 環(huán)繞解碼器的傳輸。即,可以省略將參數(shù)復(fù)用成MPEG環(huán)繞兼容的比 特流的計算工作量(computational effort)。除了計算復(fù)雜度降低之外, 另一個優(yōu)點是避免了由于符合MPEG的參數(shù)量化而造成的品質(zhì)下降, 因為在這種情況下不再需要這種對所產(chǎn)生的空間提示的量化。如同己 經(jīng)在先前所提過的,該優(yōu)點需要更靈活的MPEG環(huán)繞解碼器實現(xiàn),從 而提供直接參數(shù)饋送而非純粹比特流饋送的可能性。
在本發(fā)明的另一實施例中,通過對所產(chǎn)生的空間提示以及下混合 信號進行復(fù)用來創(chuàng)建MPEG環(huán)繞兼容的比特流,從而提供經(jīng)由舊式裝 備來進行回放的可能性。多通道參數(shù)轉(zhuǎn)換器106因此也可以用于在編碼 器側(cè)將音頻對象編碼數(shù)據(jù)轉(zhuǎn)換成多通道編碼數(shù)據(jù)。根據(jù)圖3的多通道參 數(shù)轉(zhuǎn)換器,將在下文中對于特定的對象音頻以及多通道實現(xiàn)來描述本 發(fā)明的其它實施例。在圖4和5中說迷宮了這些實現(xiàn)的重要方面。
圖4示出了實現(xiàn)幅度掃視的方法,根據(jù)一個具體實現(xiàn),使用方向 (位置)參數(shù)作為對象呈現(xiàn)參數(shù)以及使用能量參數(shù)作為對象參數(shù)。所 述對象呈現(xiàn)參數(shù)指示音頻對象的位置。在接下來的所述段落中,角度 (Xil50將用作對象呈現(xiàn)(位置)參數(shù),其描述了音頻對象152相對于收 聽地點154的原始方向。在接下來的示例中,將假設(shè)簡化的二維情況, 使得可以使用一單個參數(shù)(即,角度)將與音頻對象相關(guān)聯(lián)的音頻信 號的來源方向明確地參數(shù)化。然而,不言可喻,可以在不需要實行大 幅度改變的情況下實現(xiàn)一般的三維情況。即,例如在三維空間中,可 以使用向量來指示音頻對象在空間音頻場景內(nèi)的位置。因為將在下文中使用MPEG環(huán)繞解碼器來實現(xiàn)本發(fā)明的構(gòu)思,因此圖4還示出了5通 道MPEG多通道揚聲器配置的揚聲器位置。如果將中央揚聲器156a(C) 的位置定義在0。,則右前揚聲器156b位于30。、右環(huán)繞揚聲器156c位于 110°、左環(huán)繞揚聲器156d位于-110。、以及左前揚聲器156e位于-30。。
以下示例將進一步依賴于如在MPEG環(huán)繞標(biāo)準(zhǔn)中所指定的多通道 音頻信號的5.1通道表示,所述MPEG環(huán)繞標(biāo)準(zhǔn)定義了兩種可能的參數(shù) 化,可以將這兩種可能的參數(shù)化形象化為圖5中所描繪的所述樹狀結(jié) 構(gòu)。
在單聲道下混合160的傳輸?shù)那闆r中,MPEG環(huán)繞解碼器使用樹狀 結(jié)構(gòu)的參數(shù)化。對于第一參數(shù)化,樹由所謂的OTT元素(element)(盒) 162a至162e構(gòu)成,對于第二參數(shù)化,樹由164a至164e構(gòu)成。
每一個OTT元素將單聲道輸入上混合成兩個輸出音頻信號。為執(zhí) 行該上混合,每一個OTT元素使用ICC參數(shù)和CLD參數(shù),所述ICC參數(shù) 描述輸出信號之間期望的互相關(guān)性,所述CLD參數(shù)描述每一個OTT元 素的兩個輸出信號之間的相對電平差。
雖然結(jié)構(gòu)上系相似,但圖5中的兩個參數(shù)化從單聲道下混合160分 配通道內(nèi)容的方式是不同的。例如,在左側(cè)的樹狀結(jié)構(gòu)中,第一OTT 元素162a產(chǎn)生第一輸出通道166a和第二輸出通道166b。根據(jù)圖5中的形 象化(visualization),第一輸出通道166a包括與左前、右前、中央的 通道以及低頻增強通道有關(guān)的信息。第二輸出信號166b僅包括關(guān)于環(huán) 繞通道(左環(huán)繞和右環(huán)繞通道)的信息。與第二實現(xiàn)方式相比時,第 一OTT元素的輸出在所包括的音頻通道方面顯著不同。
然而,可以根據(jù)這兩種實現(xiàn)中的任一種來實現(xiàn)多通道參數(shù)轉(zhuǎn)換 器。 一旦理解了本發(fā)明的構(gòu)思,本發(fā)明的構(gòu)思就也可以應(yīng)用于除了下 文中將敘述的多通道配置以外的其它多通道配置。為了簡潔起見,不 失一般性,在本發(fā)明接下來的實施例將重點放在圖5中左邊的參數(shù)化。 還應(yīng)注意,圖5僅充當(dāng)MPEG音頻構(gòu)思的適當(dāng)形象化,并且,雖然圖5 的形象化可能誘使人們認為以循序的方式進行計算,但通常不以循序 的方式進行計算。 一般而言,可以并行地執(zhí)行計算,即,可以在一單 個計算步驟中得到輸出通道。在接下來的所述段落簡短討論的實施例中,SAOC比特流包括下
混合信號中每一個音頻對象的(相對)電平(分別對于每一個時間-
頻率片(tile),如同在使用例如濾波器組或時間至頻率轉(zhuǎn)換的頻域架 構(gòu)中的一般慣例一樣)。
此外,本發(fā)明并不限于對象的特定的電平表示,下面的敘述僅闡 明了一種方法,該方法根據(jù)可以從SAOC對象參數(shù)化得到對象功率量 度來計算針對MPEG環(huán)繞比特流的空間提示。
如從圖3中明顯看出來的,呈現(xiàn)矩陣W具有多個加權(quán)參數(shù),其中, 所述呈現(xiàn)矩陣W是由加權(quán)參數(shù)產(chǎn)生的,參數(shù)產(chǎn)生器108使用所述呈現(xiàn)矩 陣W將對象Oj映射至所需數(shù)目(例如揚聲器的數(shù)目)的輸出通道s,所 述加權(quán)參數(shù)依賴于具體對象索引i以及通道索引s。因此,加權(quán)參數(shù)K^ 系表示對象/ (B匕N)至揚聲器s (1&《M)的混合增益。S卩,W將對 象。=[。,...。,f映射至揚聲器,產(chǎn)生針對每一個揚聲器(此處假設(shè) 5.1設(shè)置)的輸出信號7 = [~ & ~£ &坧r,因此
"『0
參數(shù)產(chǎn)生器(呈現(xiàn)引擎108)使用該呈現(xiàn)矩陣W來根據(jù)SAOC數(shù)據(jù) 一估計所有CLD以及ICC參數(shù)。相對于圖5的形象化,顯然必須針對每 一個OTT元素獨立地執(zhí)行該過程。將主要關(guān)于第一OTT元素162a進行 詳細的討論,因為在接下來的段落中的教義可以適用于其余的OTT元
素而不用另外的發(fā)明技巧。
可以觀察到,利用OTT元素162b、 162c和162d對OTT元素162a的 第一輸出信號166a進行進一步處理,最后得到輸出通道LF、 RF、 C以 及LFE。利用OTT元素162e對第二輸出通道166b進行進一步處理,得 到輸出通道LS與RS。將圖5的OTT元素替換成單個呈現(xiàn)矩陣W是可以 通過使用下列矩陣W來執(zhí)行的
<formula>formula see original document page 23</formula>- '+ .l + w<,'l +… w + w + wcw + w,,
'
矩陣W的列數(shù)N不是固定的,因為N是音頻對象的數(shù)目,所述音
頻對象的數(shù)目可能是變化的。
得到針對OTT元素162a的空間提示(CLD與ICC)的一種可能性 是通過對W中的相應(yīng)元素求和,得到每一個對象對OTT元素O的兩個 輸出的相應(yīng)貢獻。該求和給出了OTT元素O的子呈現(xiàn)矩陣Wo:
現(xiàn)在問題被簡化成了估計子呈現(xiàn)矩陣Wo(以及以類似的方式定義 的、分別與OTT元素l、 2、 3和4有關(guān)的子呈現(xiàn)矩陣W,、 W2、 \¥3和\¥4) 的電平差和相關(guān)性。
假設(shè)完全不相干的(即,互相獨立的)對象信號,OTT元素O的 第一輸出的估計功率 ^是由以下方程給出的
的:
類似地,OTT元素0的第二輸出的估計功率P。,2是由以下方程給出 互功率(cross power) ^是由以下方程給出的
那么OTT元素O的CLD參數(shù)是由以下方程給出的 C叫=101og1()年
以及ICC參數(shù)是由以下方程給出的
/CC0 =
當(dāng)考慮圖5的左邊部分時,如上所示確定了其 0,1和?0,2的兩個信號 皆為虛擬信號,因為這些信號表示揚聲器信號的組合且并不構(gòu)成實際 發(fā)生的音頻信號。在這一點上強調(diào)的是,在圖5的樹狀結(jié)構(gòu)并不用以產(chǎn)生信號。這意味著在MPEG環(huán)繞解碼器中,不存在在一轉(zhuǎn)二盒
(one-to-two boxes)之間的任何信號。取而代之的是,存在大的上混
合矩陣,該上混合矩陣使用下混合以及不同的參數(shù)來或多或少直接產(chǎn)
生揚聲器信號。
以下將對圖5中左側(cè)配置的通道的分組和標(biāo)識加以描述。 對于盒162a,第一虛擬信號是表示揚聲器信號lf、 rf、 c、 lfe的組
合的信號。第二虛擬信號是表示ls與rs的組合的虛擬信號。
對于盒162b,第一音頻信號是虛擬信號,表示包括左前通道和右
前通道在內(nèi)的組,第二音頻信號是虛擬信號,表示包括中央通道和lfe
通道在內(nèi)的組。
對于盒162e,第一音頻信號是左環(huán)繞通道的揚聲器信號,第二音 頻信號是右環(huán)繞通道的揚聲器信號。
對于盒162c,第一音頻信號是左前通道的揚聲器信號,第二音頻 信號是右前通道的揚聲器信號。
對于盒162d,第一音頻信號是中央通道的揚聲器信號,第二音頻 信號是低頻增強通道的揚聲器信號。
在這些盒中,如同稍后將概略描述的,通過將與由第一音頻信號 或第二音頻信號表示的通道相關(guān)聯(lián)的對象呈現(xiàn)參數(shù)相組合,得到第一 音頻信號或第二音頻信號的加權(quán)參數(shù)。
以下將對圖5右側(cè)配置中的通道的分組和標(biāo)識加以描述。
對于盒164a,第一音頻信號是虛擬信號,表示包括左前通道、左 環(huán)繞通道、右前通道以及右環(huán)繞通道在內(nèi)的組,第二音頻信號為虛擬 信號,表示包括中央通道和低頻增強通道在內(nèi)的組。
對于盒164b,第一音頻信號是虛擬信號,表示包括左前通道和左 環(huán)繞通道在內(nèi)的組,第二音頻信號為虛擬信號,表示包括右前通道和 右環(huán)繞通道在內(nèi)的組。
對于盒164e,第一音頻信號是中央通道的揚聲器信號,第二音頻 信號是低頻增強通道的揚聲器信號。
對于盒164c,第一音頻信號是左前通道的揚聲器信號,第二音頻 信號是左環(huán)繞通道的揚聲器信號。對于盒164d,第一音頻信號是右前通道的揚聲器信號,第二音頻 信號是右環(huán)繞通道的揚聲器信號。
在這些盒中,如同稍后將概略描述的,通過將與由第一音頻信號 或第二音頻信號表示的通道相關(guān)聯(lián)的對象呈現(xiàn)參數(shù)相組合,得到第一 音頻信號或第二音頻信號的加權(quán)參數(shù)。
上述虛擬信號是虛擬的,因為它們并不要出現(xiàn)在實施例中。這些 虛擬信號用于說明功率值的產(chǎn)生或能量的分配,所述能量是由例如針
對所有盒的CLD通過使用不同的子呈現(xiàn)矩陣Wi而確定的。同樣,首先 描述圖5的左側(cè)。
在前文中,已經(jīng)示出了針對盒162a的子呈現(xiàn)矩陣Wo。
對于盒162b,將子呈現(xiàn)矩陣定義為
<formula>formula see original document page 26</formula>
對于盒162e,將子呈現(xiàn)矩陣定義為<formula>formula see original document page 26</formula>
對于盒162C,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 26</formula>
對于盒162d,將子呈現(xiàn)矩陣定義為
<formula>formula see original document page 26</formula>
對于圖5的右側(cè)配置,情況如下-對于盒164a,將子呈現(xiàn)矩陣定義為:<formula>formula see original document page 27</formula>
對于盒164b,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對于盒164e,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對于盒164c,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
對于盒164d,將子呈現(xiàn)矩陣定義為:
<formula>formula see original document page 27</formula>
根據(jù)實現(xiàn),可以將相應(yīng)的CLD和ICC參數(shù)量化以及格式化,以符 合MPEG環(huán)繞比特流,可以將所述MPEG環(huán)繞比特流饋送至MPEG環(huán)繞 解碼器100中。可選地,可以在參數(shù)級別(parameter level)上將參數(shù) 值傳送至MPEG環(huán)繞解碼器,g卩,并不量化和格式化成比特流。為了 不僅實現(xiàn)對象的重新掃視(即,適當(dāng)?shù)胤峙溥@些信號能量,這是可以 利用圖5的MPEG-2結(jié)構(gòu)使用上述方法來實現(xiàn)的)還實現(xiàn)衰減或者放 大,可以產(chǎn)生所謂的任意下混合增益(arbitrary down-mix gain),以修 改下混合信號能量。任意下混合增益(ADG)允許在利用所述OTT元 素之一對下混合信號進行處理之前對所述下混合信號本身進行譜修 改。即,就其本身而言,任意下混合增益是頻率相關(guān)的。對于高效的 實現(xiàn),采用與CLD參數(shù)相同的頻率解析度和相同的量化器步(quantizerstep)來表示任意下混合增益ADG。施行ADGs的一般性目的是對所傳 輸?shù)南禄旌线M行修改,使得下混合輸入信號中的能量分配類似于所呈 現(xiàn)的系統(tǒng)輸出的下混合的能量。使用呈現(xiàn)矩陣W的加權(quán)參數(shù)Wk,i以及 所傳輸?shù)膶ο蠊β蔨,可以使用下列的方程計算適當(dāng)?shù)腁DG:
爿DG [, = 101og
10
并且假設(shè)輸入下混合信號的功率等于對象功率之和0=對象索引
k-通道索引)。
如同在先前所討論的,使用加權(quán)參數(shù)來CLD和ICC參數(shù)的計算,
'士
所述加權(quán)參數(shù)指示與多通道揚聲器配置的揚聲器相關(guān)聯(lián)的對象音頻f 號的能量的一部分。這些加權(quán)因子一般而言將依賴于場景數(shù)據(jù)以及回 放配置數(shù)據(jù),即,依賴于音頻對象與多通道揚聲器設(shè)置的揚聲器的相
對位置。在接下來的所述段落中將提供一種可能性根據(jù)圖4所引入的 對象音頻參數(shù)化,將方位角和增益量度用作與每一個音頻對象相關(guān)聯(lián) 的對象參數(shù),從而得到加權(quán)參數(shù)。
如同己經(jīng)在之前概略敘述的,對于每一個時間/頻率片存在獨立的 呈現(xiàn)矩陣;然而,為了清楚起見,在下文中僅考慮單個時間/頻率片。 呈現(xiàn)矩陣W具有M行(每一行對應(yīng)一個輸出通道)N列(每一列對應(yīng) 一個音頻對象),其中,第s行且第i列的矩陣元素表示混合權(quán)重,特定 的音頻對象以該混合權(quán)重貢獻于相應(yīng)的輸出通道
『=
根據(jù)以下場景描述和揚聲器配置參數(shù)來計算矩陣元素:
場景描述(這些參數(shù)可以隨著時間改變)
* 音頻對象的數(shù)目
* 每一個音頻對象的方位角OCi (1S《N)* 每一個對象的增益值gi (ld《N) 揚聲器配置(通常這些參數(shù)是非時變的)
* 輸出通道的數(shù)目(=揚聲器)
* 每一個揚聲器的方位角0s(l^S《M)
* es幼wVs其中l(wèi)《S《M-l 通過對每一個音頻對象i進行下述的方案,根據(jù)這些參數(shù)得到混合
矩陣的元素
* 找出索引s, (i"sm),其中es《o^es'+, (eM+1:=e1+2;[)
* 在揚聲器s'與s'+l之間(若s^M,則在揚聲器M與1 之間),施行幅度掃視(例如,正切定理(tangent law))。在接 下來的敘述中,變量v是掃視權(quán)重,即,例如在圖4中所描繪的, 當(dāng)在兩個通道之間分配信號時將施加于該信號上的縮放因子
關(guān)于上述方程,值得注意的是,在該二維情況中,將在多通道揚 聲器配置的兩個揚聲器之間分配與空間音頻場景的音頻對象相關(guān)聯(lián)的 對象音頻信號,這兩個揚聲器系最接近所述音頻對象。然而,針對上 述實現(xiàn)而選擇的對象參數(shù)并非是可以用于實現(xiàn)本發(fā)明其他實施例的僅 有的對象參數(shù)。例如,在三維的情況中,指示揚聲器或音頻對象的位 置的對象參數(shù)可以是三維向量。 一般而言,當(dāng)應(yīng)該明確地定義位置時, 二維的情況需要兩個參數(shù),三維的情況需要三個參數(shù)。然而,即使在 該二維的情況中,也可以使用不同的參數(shù)化,例如在直角座標(biāo)系內(nèi)傳 輸兩個座標(biāo)??梢詰?yīng)注意的是,在1到2的范圍之內(nèi)的可選掃視規(guī)則參 數(shù)p是被設(shè)置為反映再現(xiàn)系統(tǒng)/空間(room)的空間聲音特性、并且 根據(jù)本發(fā)明的一些具體實施例另外可應(yīng)用的任意掃視規(guī)則參數(shù)。最后,
在根據(jù)上述方程得到了掃視權(quán)重^i以及K2,i之后,可以根據(jù)以下公式
得到加權(quán)參數(shù)Ww。矩陣元素最終由以下方程給定w、、,=
0 其他
在上文中所介紹的可選地與每一個音頻對象相關(guān)聯(lián)的增益因子gi 可以用于強調(diào)或抑制獨立的對象。例如,這是可以在該接收側(cè)執(zhí)行的, 即,在解碼器側(cè)執(zhí)行,以提高獨立選擇的音頻對象的可理解性。
圖4的音頻對象152的以下示例將再一次地用以闡明前述的方程 的應(yīng)用。該示例使用前述符合ITU-RBS.775-l的3/2-通道設(shè)置。目的是 得到音頻對象i的期望掃視方向,所述期望掃視方向的特征是具有方向 角a「60。,具有等于l (即,OdB)的任意掃視增益g,。對于該示例, 回放空間應(yīng)呈現(xiàn)由掃視規(guī)則參數(shù)p-2參數(shù)化的某回響。根據(jù)圖4,顯然 最接近的揚聲器是右前揚聲器156b以及右環(huán)繞揚聲器156c。因此,可
以通過求解下列方程而得到掃視權(quán)重
tan 10。
A, — v2, . rl-r
'v,2. + v,2. =1
tan 40° v,., +v2,, v
在經(jīng)過一些數(shù)學(xué)計算之后,將得到解 = 0.8374; 、,, = 0.5466
因此,根據(jù)上列的所述指示,得到與位于方向Oli的特定音頻對象 相關(guān)聯(lián)的加權(quán)參數(shù)(矩陣元素)是
wl = w2 = w3 = 0; w4 = 0.8374; w5 = 0.5466
在上述段落中詳細說明的本發(fā)明實施例僅使用可以由單聲道信 號表示的音頻對象,即,點狀源(point-like source)。然而,靈活的構(gòu) 思并不局限于采用單聲道音頻源的應(yīng)用。反之,被視為空間上"擴散 (diffuse)"的一個或更多個對象也可以很好地符合本發(fā)明的構(gòu)思。當(dāng) 要表示非點狀源或音頻對象時,必須以適當(dāng)?shù)姆绞降玫蕉嗤ǖ绤?shù)。 對一個或更多個音頻對象之間的擴散(diffuseness)的量加以量化的 適當(dāng)量度是關(guān)于對象的互相關(guān)參數(shù)ICC。
在目前為止所討論的SAOC系統(tǒng)中,認為所有的音頻對象均為點 源,即,沒有任何空間廣度(extent)的、逐對不相關(guān)的單聲道源(mono source)。然而,也有應(yīng)用情況希望允許包括不止一個音頻通道在內(nèi)的音頻對象呈現(xiàn)出一定程度的逐對(解)相關(guān)。其中最簡單而且也可能 是最重要的情況是立體聲對象(即,由屬于一起的兩個或多或少系相 關(guān)的通道所構(gòu)成的對象)來表示的。作為示例,這樣的對象可以表示
由交響樂團所產(chǎn)生的空間圖像(spatial image)。
如上所述,為了平滑地將立體聲對象整合到基于單聲道音頻對象 的系統(tǒng)中,將立體聲對象的兩個通道都當(dāng)作獨立的對象來處理。由另 外的互相關(guān)參數(shù)來反映兩個部分的對象之間的相互關(guān)系,其中所述另 外的互相關(guān)性參數(shù)是根據(jù)與用于得到子頻帶功率值^的時間/頻率格
柵(grid)相同的時間/頻率格柵而計算出來的。換言之由每時間/
頻率片三元參數(shù)集合(a set of parameter triplet) {CT'2, CT,/<1:(:"}來定 義立體聲對象,其中/CC^表示在一個對象的兩種實現(xiàn)之間的逐對相關(guān) 性。這兩種實現(xiàn)是由具有逐對相關(guān)性/CG,的獨立對象i和j表示。
為了正確地呈現(xiàn)立體聲對象,SAOC解碼器必須提供用于建立在 參與立體聲對象呈現(xiàn)的這些回放通道之間的正確相關(guān)性的手段,使所
述立體聲對象對于相應(yīng)通道的貢獻表現(xiàn)出如相應(yīng)的/0^,參數(shù)所要求 的相關(guān)性??梢蕴幚矶鄠€立體聲對象的SAOC至MPEG環(huán)繞代碼轉(zhuǎn)換器 必須得到參與再現(xiàn)相關(guān)回放信號的OTT盒的ICC參數(shù),使得在MPEG環(huán) 繞解碼器的輸出通道之間的解相關(guān)的量滿足這種條件。
為達成此目的,與本文獻的先前章節(jié)所給出的示例相比,功率A),, 和A),2以及互功率&的計算必須改變。假設(shè)一起建立立體聲對象的兩個 音頻對象的所述索引是/,和/2,公式以下列方式改變
<formula>formula see original document page 31</formula>可以很容易觀察到,如果冗(^,2=0 V /^/2
這些方程與在上一節(jié)所給的方程相同。
或否則/CC =1<formula>formula see original document page 31</formula>可以使用立體聲對象具有明顯的優(yōu)點當(dāng)可以適當(dāng)?shù)靥幚沓它c 狀源以外的音頻源時,可以明顯地提高空間音頻場景的再現(xiàn)品質(zhì)。此 外,當(dāng)可以使用廣泛適用于很多音頻對象的、預(yù)先混合的音頻信號時, 可以更高效地執(zhí)行空間音頻場景的產(chǎn)生。
以下考慮還將示出,本發(fā)明的構(gòu)思允許對具有"固有(inherent)" 擴散的點狀源進行整合。并非如前述示例中一樣以對象來表示點狀源, 而是還可以將一個或更多個對象視為在空間上"擴散"。擴散的量可以 利用關(guān)于對象的互相關(guān)性參數(shù)/CCy來表征。對于/CG,廣l,對象/表示 點狀源,而對于/CC,廣0,對象最大地擴散??梢酝ㄟ^填入正確的/CC,, 值在以上給定的方程中將對象相關(guān)的擴散加以整合。
當(dāng)使用立體聲對象時,必須對矩陣M的加權(quán)因子的獲得加以調(diào) 整。然而,可以不用本發(fā)明的技術(shù)來執(zhí)行調(diào)整,例如關(guān)于操縱立體聲 對象,將兩個方位角位置(azimuth position)(表示該立體聲對象的左 側(cè)以及右側(cè)"邊緣"的方位角值)變換成為呈現(xiàn)矩陣元素。
如同已經(jīng)提到的,無論所使用的音頻對象類型是什么,通常針對 不同的時間/頻率片獨立地定義呈現(xiàn)矩陣元素,并且呈現(xiàn)矩陣元素通常 彼此不相同。例如,隨時間的變化可以反映用戶交互,通過所述用戶 交互針對每個獨立對象的掃視角度和增益值可以隨時間任意地改變。 隨頻率的變化允許不同的特征影響音頻場景的空間感知性,例如,均 衡(equalization )。
使用多通道參數(shù)轉(zhuǎn)換器實現(xiàn)本發(fā)明的構(gòu)思允許全新的、在以前不 可行的應(yīng)用。由于一般情況下SAOC的功能性的特點是音頻對象的高 效編碼和交互式呈現(xiàn),因此需要交互式音頻的許多應(yīng)用可以受益于本 發(fā)明構(gòu)思,S卩,本發(fā)明的多通道參數(shù)轉(zhuǎn)換器、或本發(fā)明的多通道參數(shù) 轉(zhuǎn)換方法的實現(xiàn)。
例如,全新的交互式電話會議情況變得可行。目前的電信基礎(chǔ)設(shè) 施(電話、電話會議等)是單聲道的。目卩,傳統(tǒng)的對象音頻編碼無法 實行,因為這需要針對要傳輸?shù)拿恳粋€音頻對象傳輸一個基本流。然 而,通過引入具有單個下混合通道的SAOC可以擴展這些傳統(tǒng)傳輸通 道的功能性。配備有SAOC擴展(主要具有多通道參數(shù)轉(zhuǎn)換器或本發(fā)器)的電信終端可以獲取(pickup)若干聲源
(對象)并將它們混合成單個的單聲道下混合信號,其中,使用現(xiàn)有 的編碼器(例如,語音編碼器)以兼容的方式傳輸所述單個的單聲道
下混合信號??梢圆捎秒[式的(hidden)、后向兼容的方式來運送側(cè)信 息(空間音頻對象參數(shù)或?qū)ο髤?shù))。這樣的先進終端產(chǎn)生包括若干音 頻對象的輸出對象流,而舊式的終端將再現(xiàn)下混合信號。反之,舊式 的終端所產(chǎn)生的輸出(即,僅有下混合信號)將被SAOC代碼轉(zhuǎn)換器 視為一單個音頻對象。
圖6a說明了原理。在第一電話會議地點200可以存在A個對象(講 話者),而在第二電話會議地點202可以存在B個對象(講話者)。根據(jù) SAOC,可以將對象參數(shù)與關(guān)聯(lián)的下混合信號204—起從第一電話會議 地點200傳輸,而可以將下混合信號206從第二會議地點202傳輸至第一 會議地點200,關(guān)聯(lián)有針對第二會議地點202處B個對象當(dāng)中每一個對 象的音頻對象參數(shù)。這具有極大的優(yōu)點可以僅使用一單個下混合信 號來傳輸多個講話者的輸出,此外,由于結(jié)合下混合信號來傳輸與獨 立的講話者相關(guān)聯(lián)的另外的音頻對象參數(shù),因而可以在接收地點強調(diào) 另外的講話者。
例如,這允許用戶通過應(yīng)用關(guān)于對象的增益值g,來強調(diào)感興趣的 特定講話者,從而使得幾乎聽不見其余的講話者。當(dāng)使用傳統(tǒng)的多通 道音頻技術(shù)時這是不可能的,因為這些技術(shù)將嘗試盡可能自然地再現(xiàn) 原始空間音頻場景,而不可能允許用戶交互以強調(diào)所選擇的音頻對象。
圖6b說明了更復(fù)雜的情況,其中在三個電話會議地點200、 202以 及208當(dāng)中進行電話會議。由于每一個地點僅可以接收和發(fā)送一個音頻 對象,所以基礎(chǔ)設(shè)施使用所謂的多點控制單元(multi-point control unit) MCU 210。每一個地點200、 202和208連接至MCU 210。從每一個地 點至MCU 210,單個上行流(upstream)包括來自于該地點的信號。 每一個地點的下行流(upstream)是所有其它地點的信號的混合,可 能不包括該地點本身的信號(所謂的"N-1信號")。
根據(jù)先前所討論的構(gòu)思以及本發(fā)明的參數(shù)代碼轉(zhuǎn)換器,SAOC比 特流格式支持以計算上高效的方式(即,不需要在先完全重構(gòu)發(fā)送地點的空間音頻場景的方式)將兩個或者更多個對象流(即,具有下混 合通道以及關(guān)聯(lián)的音頻對象參數(shù)的兩個流)組合成單個流的能力。根 據(jù)本發(fā)明,支持這樣的組合,而不用將對象解碼/重新編碼。在使用低
延遲MPEG通訊編碼器(例如低延遲AAC)時,這樣的空間音頻對象 編碼情況尤其吸引人。
本發(fā)明構(gòu)思的另一感興趣的領(lǐng)域是針對游戲(gaming)或類似應(yīng) 用的交互式音頻。由于其低計算復(fù)雜度并且獨立于特定的呈現(xiàn)設(shè)置, SAOC理想地適于表示交互式音頻的聲音,例如游戲應(yīng)用。此外,還 可以根據(jù)輸出終端的能力來呈現(xiàn)音頻。作為一個實例,用戶/玩家可以 直接影響當(dāng)前音頻場景的呈現(xiàn)/混合。通過調(diào)整呈現(xiàn)參數(shù)來反映虛擬場 景中的四處移動(moving around)。使用靈活的SAOC序列/比特流集 合,使得可以再現(xiàn)由用戶交互控制的非線性游戲故事(gamestory)。
根據(jù)本發(fā)明的另一實施例,本發(fā)明的SAOC編碼應(yīng)用于多人游戲 中,其中用戶與相同虛擬世界/場景中的其它玩家進行交互。對于每一 個用戶,視頻和音頻場景依賴于該用戶在該虛擬世界中的位置和方位, 并且據(jù)此在該用戶的本地終端上呈現(xiàn)所述視頻和音頻場景。在使用共 同的游戲服務(wù)器的不同的玩家之間交換一般游戲參數(shù)和特定用戶數(shù)據(jù) (位置、獨立的音頻、聊天等)。利用舊式的技術(shù),必須對游戲場景中 在每一個客戶游戲設(shè)備上默認不可用的每個獨立音頻源(具體地,用 戶聊天、特殊音效)進行編碼并作為獨立的音頻流發(fā)送至游戲場景的 每一個玩家。使用SAOC,可以在游戲服務(wù)器上容易地構(gòu)成/組合針對 每一個玩家的有關(guān)音頻流,將其作為單個音頻流傳輸至該玩家(包括 所有有關(guān)的對象),并呈現(xiàn)在每一個音頻對象(=其他游戲玩家的音頻) 的正確空間位置上。
根據(jù)本發(fā)明的另 一 實施例,SAOC用于回放對象聲跡 (soundtrack),其中,利用根據(jù)收聽者的喜好來調(diào)整儀器(instrument) 的相對電平、空間位置以及可聽度(audibility)的可能性,使用與多 通道混合臺(mixing desk)相類似的方式來進行控制。這樣,用戶可 以
*抑制/衰減用于共同播放(play along)的特定儀器(卡拉OK類型的應(yīng)用)
* 修改原始混合,以反映用戶的偏好(例如,對于舞會 而言較大的鼓聲和較小的弦樂,或?qū)τ诜潘傻囊魳范暂^小的 鼓聲和較大的歌唱聲)
* 根據(jù)用戶的偏好,在不同的歌唱聲軌(vocal track)
之間進行選擇(女性主唱經(jīng)由男性主唱) 如同已將在上述的實例中所顯示的,本發(fā)明構(gòu)思的應(yīng)用開啟了多 種多樣新的、原本并不適用的應(yīng)用領(lǐng)域。當(dāng)使用圖7的本發(fā)明多通道參 數(shù)轉(zhuǎn)換器時,或當(dāng)實現(xiàn)如圖8所示產(chǎn)生相干性參數(shù)(指示在第一音頻信 號與第二音頻信號之間的相關(guān)性)和電平參數(shù)時的方法時,這些應(yīng)用 變成可能。
第7圖示出了本發(fā)明的另一實施例。多通道參數(shù)轉(zhuǎn)換器300包括對 象參數(shù)提供器302,所述對象參數(shù)提供器302用以提供與下混合通道相 關(guān)聯(lián)的至少一個音頻對象的對象參數(shù),所述下混合通道的是使用與該 音頻對象相關(guān)聯(lián)的對象音頻信號產(chǎn)生的。多通道參數(shù)轉(zhuǎn)換器300還包括 參數(shù)產(chǎn)生器304,所述參數(shù)產(chǎn)生器304用以得到相干性參數(shù)和電平參數(shù), 所述相干性參數(shù)指示與多通道揚聲器配置相關(guān)聯(lián)的多通道音頻信號表 示的第一音頻信號與第二音頻信號之間的相關(guān)性,所述電平參數(shù)指示 音頻信號之間的能量關(guān)系。使用對象參數(shù)和另外的揚聲器參數(shù)來產(chǎn)生 多通道參數(shù),所述揚聲器參數(shù)指示要用于回放的多通道揚聲器配置的 揚聲器位置。
圖8示出了本發(fā)明的方法的實現(xiàn)示例,本發(fā)明的方法用以產(chǎn)生相 干性參數(shù),所述相干性參數(shù)指示與多通道揚聲器配置相關(guān)聯(lián)的多通道 音頻信號表示的第一音頻信號與第二音頻信號之間的相關(guān)性;以及用 以產(chǎn)生電平參數(shù),所述電平參數(shù)指示音頻信號之間的能量關(guān)系。在提 供步驟310中,提供與下混合通道相關(guān)聯(lián)的至少一個音頻對象的對象參 數(shù),所述下混合通道是使用與該音頻對象相關(guān)聯(lián)的對象音頻信號產(chǎn)生 的,所述對象參數(shù)系包括指示音頻對象的位置的方向參數(shù),以及指 示對象音頻信號的能量的能量參數(shù)。
在轉(zhuǎn)換步驟312中,將方向參數(shù)和該能量參數(shù)與另外的揚聲器參數(shù)相組合,得到相干性參數(shù)和電平參數(shù),所述揚聲器參數(shù)指示要用于 回放的多通道揚聲器配置的揚聲器的位置。
其他實施例包括對象參數(shù)轉(zhuǎn)換器,所述對象參數(shù)轉(zhuǎn)換器用以產(chǎn)生 相干性參數(shù),所述相干性參數(shù)指示與多通道揚聲器配置相關(guān)聯(lián)的多通
道音頻信號表示的兩個音頻信號之間的相關(guān)性;以及用以產(chǎn)生電平參
數(shù),所述電平參數(shù)根據(jù)空間音頻對象編碼比特流指示兩個音頻信號之
間的能量關(guān)系。該設(shè)備包括比特流分解器,用以從空間音頻對象編 碼比特流中提取下混合通道以及與關(guān)聯(lián)的對象參數(shù);以及如述的多通
道參數(shù)轉(zhuǎn)換器。
可選地或此外,對象參數(shù)代碼轉(zhuǎn)換器包括多通道比特流產(chǎn)生器, 用以將下混合通道、相干性參數(shù)以及電平參數(shù)相組合,以得到多通道 信號的多通道表示;或輸出接口,用于直接輸出電平參數(shù)和相干性參
數(shù),而不進行任何量化和/或熵編碼。
另一對象與該參數(shù)代碼轉(zhuǎn)換器具有輸出接口,還可以用于與相
干性參數(shù)和電平參數(shù)相結(jié)合輸出下混合通道;或者具有儲存接口,連
接至輸出接口,用以將電平參數(shù)和相干性參數(shù)存儲在儲存介質(zhì)上。 此外,該對象參數(shù)代碼轉(zhuǎn)換器具有如前述的多通道參數(shù)轉(zhuǎn)換器,
用于針對表示多通道揚聲器配置的不同揚聲器的不同音頻信號對得到
多個相干性參數(shù)和電平參數(shù)對。
根據(jù)本發(fā)明方法的特定實現(xiàn)需求,可以在硬件或軟件中實現(xiàn)本發(fā)
明的方法??梢允褂脭?shù)字儲存介質(zhì)來執(zhí)行該實現(xiàn),所述數(shù)字儲存介質(zhì)
具體是指其上存儲有電可讀控制信號的光盤、DVD或者CD,這些電 可讀控制信號與可編程計算機系統(tǒng)協(xié)作以便執(zhí)行本發(fā)明的方法。通常, 本發(fā)明從而是具有存儲在機器可讀載體(carrier)上的程序代碼的計 算機程序產(chǎn)品;所述程序代碼用于當(dāng)計算機程序產(chǎn)品在計算機上運行 時執(zhí)行本發(fā)明方法。換言之,本發(fā)明方法因此是具有程序代碼的計算 機程序,所述程序代碼用于當(dāng)計算機程序在計算機上運行時執(zhí)行本發(fā) 明方法當(dāng)中的至少一種方法。
雖然前面參考本發(fā)明的具體實施例具體示出和描述了本發(fā)明,然 而本領(lǐng)域技術(shù)人員將理解,在不脫離本發(fā)明的精神和范圍的前提下,可以進行形式和細節(jié)上的各種其他改變。應(yīng)理解,在不脫離此處公開 的并由以下權(quán)利要求所包含的更寬構(gòu)思的前提下,可以進行各種改變 以適應(yīng)不同的實施例。
權(quán)利要求
1、一種用于產(chǎn)生電平參數(shù)的多通道參數(shù)轉(zhuǎn)換器,所述電平參數(shù)指示多通道空間音頻信號表示的第一音頻信號與第二音頻信號之間的能量關(guān)系,該多通道參數(shù)轉(zhuǎn)換器包括對象參數(shù)提供器,用于針對與下混通道相關(guān)聯(lián)的多個音頻對象,根據(jù)與所述音頻對象相關(guān)聯(lián)的對象音頻信號,提供對象參數(shù),所述對象參數(shù)包括針對每一個音頻對象的能量參數(shù),所述能量參數(shù)指示對象音頻信號的能量信息;以及參數(shù)產(chǎn)生器,用于通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對象呈現(xiàn)參數(shù)相組合來得到電平參數(shù)。
2. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,適于另外產(chǎn)生相干性 參數(shù),所述相干性參數(shù)指示多通道音頻信號表示的第一音頻信號與第 二音頻信號之間的相關(guān)性,其中所述參數(shù)產(chǎn)生器適于根據(jù)對象呈現(xiàn)參 數(shù)以及能量參數(shù)來得到相干性參數(shù)。
3. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對象呈現(xiàn) 參數(shù)系依賴于指示音頻對象位置的對象位置參數(shù)。
4. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述呈現(xiàn)配置 包括多通道揚聲器配置,所述對象呈現(xiàn)參數(shù)依賴于指示多通道揚聲器 配置的揚聲器位置的揚聲器參數(shù)。
5. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對象參數(shù) 提供器用于提供另外包括方向參數(shù)的對象參數(shù),所述方向參數(shù)指示相 對于收聽地點的對象位置;以及所述參數(shù)產(chǎn)生器用于根據(jù)揚聲器參數(shù)以及根據(jù)方向參數(shù)來使用 對象呈現(xiàn)參數(shù),所述揚聲器參數(shù)指示相對于收聽地點的揚聲器位置。
6. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對象參數(shù) 提供器用于接收用戶輸入對象參數(shù),所述用戶輸入對象參數(shù)另外包括 對揚聲器配置內(nèi)相對于收聽地點的用戶所選對象位置加以指示的方向 參數(shù);以及所述參數(shù)產(chǎn)生器用于根據(jù)揚聲器參數(shù)以及根據(jù)方向參數(shù)來使用對象呈現(xiàn)參數(shù),所述揚聲器參數(shù)指示相對于收聽地點的揚聲器位置。
7. 根據(jù)權(quán)利要求4所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對象參數(shù)提供器和所述參數(shù)產(chǎn)生器用于使用指示參考平面內(nèi)角度的方向參數(shù), 所述參考平面包括收聽地點,還包括具有由揚聲器參數(shù)所指示的位置 的揚聲器。
8. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生 器適于使用第一加權(quán)參數(shù)和第二加權(quán)參數(shù)作為對象呈現(xiàn)參數(shù),所述第 一加權(quán)參數(shù)和第二加權(quán)參數(shù)指示要分配給多通道揚聲器配置的第一揚 聲器和第二揚聲器的對象音頻信號的能量的一部分,所述第一加權(quán)參 數(shù)和第二加權(quán)參數(shù)依賴于對多通道揚聲器配置的揚聲器位置加以指示 的揚聲器參數(shù),使得當(dāng)揚聲器參數(shù)指示第一揚聲器和第二揚聲器在相 對于音頻對象位置具有最小距離的揚聲器當(dāng)中時,所述加權(quán)參數(shù)不等 于零。
9. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生 器適于使用加權(quán)參數(shù),當(dāng)揚聲器參數(shù)指示第一揚聲器與音頻對象的位 置之間的距離小于第二揚聲器與音頻對象的位置時,所述加權(quán)參數(shù)指 示針對第一揚聲器的音頻信號的能量的一部分更大。
10. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器包括加權(quán)因子產(chǎn)生器,用于根據(jù)針對第一揚聲器和第二揚聲器的揚聲 器參數(shù)0,和02,以及根據(jù)音頻對象的方向參數(shù)a,來提供第一加權(quán)參 數(shù)w,和第二加權(quán)參數(shù)W2,其中揚聲器參數(shù)0,和02以及方向參數(shù)a指示相對于收聽地點的揚聲器和音頻對象的位置的方向。
11. 根據(jù)權(quán)利要求10所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于提供加權(quán)參數(shù)W,和W2,使得滿足以下方程<formula>formula see original document page 3</formula>其中/ 是可選的掃視規(guī)則參數(shù),將^設(shè)置為反映再現(xiàn)系統(tǒng)/空間的空間聲音特性,并將/ 定義為1^^2。
12. 根據(jù)權(quán)利要求10所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于通過應(yīng)用與音頻對象相關(guān)聯(lián)的共同乘法增益值來對加權(quán) 參數(shù)進行另外的縮放。
13. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器用于根據(jù)與第一音頻信號相關(guān)聯(lián)的第一功率估計pk,p以及根據(jù)與第二音頻信號相關(guān)聯(lián)的第二功率估計Pk,2,得到電平參數(shù)或相干性參數(shù),所述第一音頻信號供揚聲器使用或者是表示一組揚聲器信號的虛 擬信號,所述第二音頻信號供不同的揚聲器使用或者是表示不同組揚 聲器信號的虛擬信號,其中,第一音頻信號的第一功率估計pk,,依賴于 與第一音頻信號相關(guān)聯(lián)的能量參數(shù)和加權(quán)參數(shù),與第二音頻信號相關(guān)聯(lián)的第二功率估計Pk,2依賴于與第二音頻信號相關(guān)聯(lián)的能量參數(shù)和加 權(quán)參數(shù),k是指示由不同的第一信號和第二信號組成的多對當(dāng)中的一對的整數(shù),所述加權(quán)參數(shù)依賴于對象呈現(xiàn)參數(shù)。
14. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于針對由不同的第一音頻信號和第二音頻信號組成的k個對計 算電平參數(shù)或相干性參數(shù),其中與第一音頻信號和第二音頻信號相關(guān) 聯(lián)的第一功率估計和第二功率估計Pkj和Pk,2基于以下方程,依賴于能 量參數(shù)^、與第一音頻信號相關(guān)聯(lián)的加權(quán)參數(shù)w,,,以及與第二音頻信號 相關(guān)聯(lián)的加權(quán)參數(shù)w^:其中i是指示多個音頻對象中的音頻對象的索引,k是指示由不同的第一信號和第二信號組成的多對中的一對的整數(shù)。
15.根據(jù)權(quán)利要求14所述的多通道參數(shù)轉(zhuǎn)換器,其中,k等于O,第一音頻信號是虛擬信號,表示包括左前通道、右前通道、中央通道以及低頻增強通道在內(nèi)的組,第二音頻信號虛擬信號,表示包括左環(huán)繞通道和右環(huán)繞通道在內(nèi)的組,或k等于l,第一音頻信號是虛擬信號,表示包括左前通道和右前通 道在內(nèi)的組,第二音頻信號是虛擬信號,表示包括中央通道和低頻增 強通道在內(nèi)的組,或k等于2,第一音頻信號是左環(huán)繞通道的揚聲器信號,第二音頻信 號是右環(huán)繞通道的揚聲器信號,或k等于3,第一音頻信號是左前通道的揚聲器信號,第二音頻信號 是右前通道的揚聲器信號,或k等于4,第一音頻信號是中央通道的揚聲器信號,第二音頻信號是低頻增強通道的揚聲器信號,以及通過將與第一音頻信號或第二音頻信號所表示的通道相關(guān)聯(lián)的 對象呈現(xiàn)參數(shù)相組合,得到第一音頻信號或第二音頻信號的加權(quán)參數(shù)。
16. 根據(jù)權(quán)利要求14所述的多通道參數(shù)轉(zhuǎn)換器,其中,k等于0,第一音頻信號是虛擬信號,表示包括左前通道、左環(huán)繞 通道、右前通道以及右環(huán)繞通道在內(nèi)的組,第二通道是虛擬信號,表 示包括中央通道和低頻增強通道在內(nèi)的組,或k等于l,第一音頻信號是虛擬信號,表示包括左前通道和左環(huán)繞 通道在內(nèi)的組,第二通道是虛擬信號,表示包括右前通道和右環(huán)繞通 道在內(nèi)的組,或者k等于2,第一音頻信號是中央通道的揚聲器信號,第二音頻信號 是低頻增強通道的揚聲器信號,或k等于3,第一音頻信號是左前通道的揚聲器信號,第二音頻信號 是左環(huán)繞通道的揚聲器信號,或k等于4,第一音頻信號是右前通道的揚聲器信號,第二音頻信號 是右環(huán)繞通道的揚聲器信號,以及通過將與第一音頻信號或第二音頻信號所表示的通道相關(guān)聯(lián)的 對象呈現(xiàn)參數(shù)相組合,得到第一音頻信號或第二音頻信號的加權(quán)參數(shù)。
17. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器適于根據(jù)以下方程得到電平參數(shù)CLDk:<formula>formula see original document page 6</formula>
18. 根據(jù)權(quán)利要求13所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器適于根據(jù)與第一音頻信號和第二音頻信號相關(guān)聯(lián)的互功率估計Rk 得到相干性參數(shù),所述互功率估計Rk依賴于能量參數(shù)《、與第一音頻信號相關(guān)聯(lián)的加權(quán)參數(shù)W,以及與第二音頻信號相關(guān)聯(lián)的加權(quán)參數(shù)W2,其中i是指示多個音頻對象中的音頻對象的索引。
19. 根據(jù)權(quán)利要求18所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器適于根據(jù)以下方程使用或得到互功率估計Rk:
20. 根據(jù)權(quán)利要求18所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于根據(jù)以下方程得到相干性參數(shù)ICC:凡
21. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)提 供器用于針對每一個音頻對象以及針對每一個或多個頻帶,提供能量 參數(shù),以及所述參數(shù)產(chǎn)生器用于計算針對每一個頻帶的電平參數(shù)或相干性 參數(shù)。
22. 根據(jù)權(quán)利要求1所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn) 生器用于針對對象音頻信號的不同時間部分使用不同的對象呈現(xiàn)參 數(shù)。
23. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述加權(quán)因 子產(chǎn)生器用于基于以下方程,根據(jù)對象方向參數(shù)a,和揚聲器參數(shù)0r,針對每一個音頻對象i得到第r個揚聲器的加權(quán)因子w,i: 對于索引s',其中l(wèi)《s、M,<formula>formula see original document page 7</formula> ;所述參數(shù)產(chǎn)生器用于通過另外使用第二能:o,其它
24. 根據(jù)權(quán)利要求8所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述對象參數(shù)提供器適于提供立體聲對象的參數(shù),所述立體聲對象具有第一立體聲子對象和第二立體聲子對象,所述能量參數(shù)具有針對立體聲音頻對象的第一子對象的第一能量參數(shù)、針對立體聲音頻對象的第二子對象的第二能量參數(shù)、以及立體聲相關(guān)性參數(shù),所述立體聲相關(guān)性參數(shù)指示立體聲對象的子對象之間的相關(guān)性;以及:參數(shù)和立體聲相關(guān)性參數(shù)來得到相干性參數(shù)或電平參數(shù)。
25. 根據(jù)權(quán)利要求24所述的多通道參數(shù)轉(zhuǎn)換器,其中,所述參數(shù)產(chǎn)生器用于使用第一能量參數(shù)^、第二能量參數(shù)^以及立體聲相關(guān)性參數(shù)ICCi,j,根據(jù)與第一音頻信號相關(guān)聯(lián)的功率估計P。.1、與第二音頻信號相關(guān)聯(lián)的功率估計P"以及互功率相關(guān)性K。,得到電平參數(shù)和相干性參數(shù),使得功率估計以及互相關(guān)性估計的特征在于以下方程-<formula>formula see original document page 7</formula>
26.—種產(chǎn)生電平參數(shù)的方法,所述電平參數(shù)指示多通道空間音頻信號表示的第一音頻信號與第二音頻信號之間的能量關(guān)系,該方法包括針對與下混通道相關(guān)聯(lián)的多個音頻對象,根據(jù)與所述音頻對象相關(guān)聯(lián)的對象音頻信號,提供對象參數(shù),所述對象參數(shù)包括針對每一個音頻對象的能量參數(shù),所述能量參數(shù)指示對象音頻信號的能量信息;以及通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對象呈現(xiàn)參數(shù)相組合,得到電平參數(shù)。
27.—種具有程序代碼的計算機程序,所述程序代碼用于在計算機上運行所述計算機程序時執(zhí)行一種產(chǎn)生電平參數(shù)的方法,所述電平參數(shù)指示多通道空間音頻信號表示的第一音頻信號與第二音頻信號之間的能量關(guān)系,所述方法包括針對與下混通道相關(guān)聯(lián)的多個音頻對象,根據(jù)與所述音頻對象相關(guān)聯(lián)的對象音頻信號,提供對象參數(shù),所述對象參數(shù)包括針對每一個音頻對象的能量參數(shù),所述能量參數(shù)指示對象音頻信號的能量信息;以及通過將能量參數(shù)以及與呈現(xiàn)配置有關(guān)的對象呈現(xiàn)參數(shù)相組合,得到電平參數(shù)。
全文摘要
一種產(chǎn)生電平參數(shù)的參數(shù)轉(zhuǎn)換器,所述電平參數(shù)指示與多通道揚聲器配置相關(guān)聯(lián)的多通道音頻信號的第一音頻通道與第二音頻通道之間的能量關(guān)系。根據(jù)與下混合通道相關(guān)聯(lián)的音頻對象的對象參數(shù)產(chǎn)生電平參數(shù),所述下混合通道是使用與音頻對象相關(guān)聯(lián)的對象音頻信號來產(chǎn)生的。對象參數(shù)包括指示對象音頻信號的能量的能量參數(shù)。為得到相干性參數(shù)和電平參數(shù),使用參數(shù)產(chǎn)生器,所述參數(shù)產(chǎn)生器將能量參數(shù)以及依賴于期望呈現(xiàn)配置的對象呈現(xiàn)參數(shù)相組合。
文檔編號G10L19/14GK101529504SQ200780038472
公開日2009年9月9日 申請日期2007年10月5日 優(yōu)先權(quán)日2006年10月16日
發(fā)明者于爾根·赫勒, 克里斯托弗·薛林, 卡斯滕·林茨邁爾, 安德烈亞斯·赫爾蒂, 拉爾夫·施佩爾施奈德, 拉斯·維爾默斯, 海斯·朋哈根, 約納斯·恩德加德, 約翰內(nèi)斯·希爾珀特, 維爾納·烏姆恩, 耶羅恩·布里巴特 申請人:弗勞恩霍夫應(yīng)用研究促進協(xié)會;杜比瑞典公司;皇家飛利浦電子股份有限公司