專利名稱:用于產(chǎn)生音頻片段或音頻數(shù)據(jù)流的已編碼立體聲信號(hào)的裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多聲道音頻技術(shù),特別涉及與耳機(jī)技術(shù)相關(guān)的多聲道音頻應(yīng)用。
背景技術(shù):
國(guó)際專利申請(qǐng)WO 99/49574及WO 99/14983公開(kāi)了用于驅(qū)動(dòng)一對(duì) 相對(duì)設(shè)置的耳機(jī)揚(yáng)聲器的音頻信號(hào)處理技術(shù),使得使用者能夠經(jīng)由兩 只耳機(jī)獲得音頻場(chǎng)景的空間感覺(jué),其不僅是立體聲表示而且是多聲道 表示。因此,收聽(tīng)者將經(jīng)由他或她的耳機(jī)獲得音頻片段的空間感覺(jué), 在最佳狀況下所述空間感覺(jué)等效于使用者坐在例如配置了 5.1音頻系 統(tǒng)的再現(xiàn)室中時(shí)他或她的空間感覺(jué)。為此,對(duì)于每個(gè)耳機(jī)揚(yáng)聲器來(lái)說(shuō), 如圖2所示,多聲道音頻片段或多聲道音頻數(shù)據(jù)流的每個(gè)聲道被提供 給分離的濾波器,于是如下文所述,原本在一起的各個(gè)濾波聲道被求 和。在圖2的左側(cè),有多聲道輸入20,其共同表示了音頻片段或音頻 數(shù)據(jù)流的多聲道表示。圖10示意性地舉例示出了這樣的場(chǎng)景。圖10 示出了再現(xiàn)空間200,其中配置了所謂的5.1音頻系統(tǒng)。5.1音頻系統(tǒng) 包括中央揚(yáng)聲器201、左前揚(yáng)聲器202、右前揚(yáng)聲器203、左后揚(yáng)聲器 204以及右后揚(yáng)聲器205。 5.1音頻系統(tǒng)包括附加的重低音揚(yáng)聲器206, 其通常被稱為低頻增強(qiáng)聲道。在再現(xiàn)空間200的所謂"甜蜜點(diǎn)(sweet spot)"上,存在收聽(tīng)者207,其戴著包括左耳機(jī)揚(yáng)聲器209及右耳機(jī) 揚(yáng)聲器210的耳機(jī)208。形成圖2所示的處理裝置,以通過(guò)濾波器HjL對(duì)多聲道輸入20的 每個(gè)聲道1、 2、 3進(jìn)行濾波,其描述了圖10中從揚(yáng)聲器至左揚(yáng)聲器 209的聲音聲道,并另外通過(guò)濾波器H^對(duì)同一個(gè)聲道進(jìn)行濾波,其表
示從五個(gè)揚(yáng)聲器之一至右耳或耳機(jī)208的右揚(yáng)聲器210的聲音。例如,如果圖2中的聲道1是圖10中的揚(yáng)聲器202所發(fā)出的左 前聲道,則濾波器HiL表示虛線212所指示的聲道,而濾波器H化表 示虛線213所指示的聲道。如圖10中虛線214所示例性指示的,左耳 機(jī)揚(yáng)聲器209不僅接收直達(dá)聲音,還接收在再現(xiàn)空間的邊緣處的早期 反射,當(dāng)然也會(huì)接收表示為擴(kuò)散混響(diffuse reverberation)的晚期反 射。圖11中描述了這樣的濾波器表示。特別是,圖11示出了諸如圖 2中的濾波器H^的濾波器的沖激響應(yīng)的示意示例,圖11中線212所 描述的直達(dá)或原始聲音由濾波器起始處的峰值表示,而圖10中214 所示例性描述的早期反射則以圖11中具有多個(gè)(離散的)小峰值的中央 區(qū)域所重現(xiàn)。 一般不再針對(duì)個(gè)別峰值分解擴(kuò)散混響,因?yàn)閾P(yáng)聲器202 的聲音原則上被任意地、頻繁地反射,其中能量當(dāng)然會(huì)隨著每次反射 及額外的傳播距離而減少,如同圖11中稱為"擴(kuò)散混響"的后段部份中 的減少的能量所描述的。-圖2所示的每個(gè)濾波器因此包括濾波器沖激響應(yīng),其粗略地具有 如圖11所示意性描述的沖激響應(yīng)所示出的曲線。顯然,各個(gè)濾波器沖 激響應(yīng)將取決于再現(xiàn)空間、揚(yáng)聲器的位置、諸如現(xiàn)場(chǎng)的人員或是再現(xiàn) 空間中的家具所導(dǎo)致的再現(xiàn)空間中可能的衰減特性、以及理想情況下 各個(gè)揚(yáng)聲器201 206的特性。圖2中的加法器22、 23描述了所有揚(yáng)聲器的信號(hào)在收聽(tīng)者207 的耳中被疊加的事實(shí)。因此,每個(gè)聲道被左耳的對(duì)應(yīng)濾波器所濾波, 接著簡(jiǎn)單地求和預(yù)定用于左耳的濾波器輸出的信號(hào),以獲得左耳L的 耳機(jī)輸出信號(hào)。以此類推,由用于右耳的加法器23或圖IO中的右耳 機(jī)揚(yáng)聲器210執(zhí)行加法,用于通過(guò)對(duì)右耳的對(duì)應(yīng)濾波器所濾波的所有 揚(yáng)聲器信號(hào)進(jìn)行疊加而獲得右耳的耳機(jī)輸出信號(hào)。由于除了直達(dá)聲音之外還存在早期反射特別是擴(kuò)散混響,其對(duì)于 空間感覺(jué)來(lái)說(shuō)是特別重要的,為了要讓聲調(diào)聽(tīng)起來(lái)不會(huì)過(guò)于虛假或是" 怪異",而是要向收聽(tīng)者提供他或她實(shí)際上坐在具有音響特性的音樂(lè)廳 之中的感覺(jué),因此各個(gè)濾波器21的沖激響應(yīng)將都具有相當(dāng)大的長(zhǎng)度。具有兩個(gè)濾波器的多聲道表示的每個(gè)單個(gè)多聲道的巻積己導(dǎo)致了大量 的計(jì)算工作。由于每個(gè)單個(gè)多聲道需要兩個(gè)濾波器,也即一個(gè)用于左 耳而另一個(gè)用于右耳,因此當(dāng)重低音揚(yáng)聲器聲道也以分離方式設(shè)置時(shí),5.1多聲道表示的耳機(jī)再現(xiàn)需要總量為12個(gè)的完全不同的濾波器。由圖11可明顯獲知,所有濾波器具有非常長(zhǎng)的沖激響應(yīng),其不僅能夠考 慮直達(dá)聲音,還包括了早期反射以及擴(kuò)散混響,其實(shí)際上只是給音頻 片段提供了適當(dāng)?shù)穆曇粼佻F(xiàn)以及良好的空間感受。為了實(shí)施眾所周知的概念,除了如圖10所示的多聲道播放器220 之外,還需要非常復(fù)雜的虛擬聲音處理222,其將信號(hào)提供給兩個(gè)揚(yáng) 聲器209和210,在圖10中以線224和226表示。用于產(chǎn)生多聲道耳機(jī)聲音的耳機(jī)系統(tǒng)是復(fù)雜、笨重、且昂貴的, 這是由于高計(jì)算功率、髙計(jì)算功率所需的高電流需求、以及將要執(zhí)行 的對(duì)沖激響應(yīng)的估計(jì)的高工作內(nèi)存需求和與之相連的播放器的大體積 或昂貴的組件。這種應(yīng)用因此常用于家用個(gè)人計(jì)算機(jī)聲卡或筆記型計(jì) 算機(jī)聲卡或家用立體聲系統(tǒng)。特別地,對(duì)于市場(chǎng)持續(xù)增長(zhǎng)的例如移動(dòng)CD播放器的移動(dòng)播放器、 或特別是硬件播放器來(lái)說(shuō),多聲道耳機(jī)聲音是難以達(dá)到的,這是因?yàn)?在這種價(jià)格區(qū)間中不能實(shí)現(xiàn)通過(guò)例如12個(gè)不同的濾波器對(duì)多聲道進(jìn) 行濾波的計(jì)算需求,其既與處理器資源無(wú)關(guān)也與傳統(tǒng)電池驅(qū)動(dòng)裝置的 電流需求無(wú)關(guān)。這涉及階層底端(較低端)的價(jià)格區(qū)間。然而,恰好這 種價(jià)格區(qū)間會(huì)因?yàn)閿?shù)量龐大而在經(jīng)濟(jì)上倍受關(guān)注。發(fā)明內(nèi)容本發(fā)明的目的是提供一種有效的信號(hào)處理構(gòu)思,允許在簡(jiǎn)單再現(xiàn) 裝置上耳機(jī)再現(xiàn)多聲道質(zhì)量。上述目的可通過(guò)根據(jù)權(quán)利要求l的用于產(chǎn)生已編碼立體聲信號(hào)的 裝置、或者根據(jù)權(quán)利要求11的用于產(chǎn)生已編碼立體聲信號(hào)的方法、或 者根據(jù)權(quán)利要求12的計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)。本發(fā)明基于以下發(fā)現(xiàn)通過(guò)使音頻片段或音頻數(shù)據(jù)流的多聲道表示(例如音頻片段的5.1表示)經(jīng)過(guò)硬件播放器外部(例如在提供商的具有高計(jì)算功率的計(jì)算機(jī)中)的耳機(jī)信號(hào)處理,可獲得適用于所有可用的播放器(例如CD播放器或硬件播放器)的高質(zhì)量且有吸引力的多聲道耳機(jī)聲音。然而,根據(jù)本發(fā)明,不是簡(jiǎn)單地播放耳機(jī)信號(hào)處理的結(jié)果,而是將其提供給傳統(tǒng)的音頻立體聲編碼器,該音頻立體聲編碼器接著從左耳機(jī)聲道和右耳機(jī)聲道產(chǎn)生已編碼立體聲信號(hào)。 如同任何其它不包括多聲道表示的已編碼立體聲信號(hào)一樣,接著將該己編碼立體聲信號(hào)提供給硬件播放器或諸如CD形式的移動(dòng)CD 播放器。再現(xiàn)或重放裝置接著將耳機(jī)多聲道聲音提供給使用者,不必 向現(xiàn)有裝置添加任何額外的資源或裝置。創(chuàng)造性在于,耳機(jī)信號(hào)處理 的結(jié)果,也即左耳機(jī)信號(hào)及右耳機(jī)信號(hào),不會(huì)如同現(xiàn)有技術(shù)般在耳機(jī) 中被再現(xiàn),而是被編碼并作為已編碼立體聲數(shù)據(jù)輸出。這樣的輸出可以是儲(chǔ)存、傳輸?shù)?。接著便可容易地將這樣的具有 已編碼立體聲數(shù)據(jù)的文件提供給任何設(shè)計(jì)用于立體聲再現(xiàn)的再現(xiàn)裝 置,而無(wú)須使用者對(duì)其裝置執(zhí)行任何改變。因此,從耳機(jī)信號(hào)處理結(jié)果中產(chǎn)生已編碼立體聲信號(hào)的發(fā)明構(gòu)思 允許多聲道表示向使用者提供極大地改善了的且更為真實(shí)的質(zhì)量,其 也應(yīng)用于所有簡(jiǎn)單且廣泛使用的、特別是在未來(lái)更為廣泛使用的硬件 播放器中。在本發(fā)明的優(yōu)選實(shí)施例中,起點(diǎn)為已編碼多聲道表示,也即包括 一個(gè)或典型的兩個(gè)基本聲道、還包括參數(shù)數(shù)據(jù)的參數(shù)表示,用于基于 基本聲道及參數(shù)數(shù)據(jù)來(lái)產(chǎn)生多聲道表示的多聲道。由于用于多聲道譯 碼的基于頻域的方法是優(yōu)選的,因此根據(jù)本發(fā)明,耳機(jī)信號(hào)處理并非 通過(guò)沖激響應(yīng)對(duì)時(shí)間信號(hào)進(jìn)行巻積而在時(shí)域中執(zhí)行,而是通過(guò)濾波器 的傳輸函數(shù)進(jìn)行乘法操作而在頻域中執(zhí)行。這可以節(jié)約在耳機(jī)信號(hào)處理之前的至少一個(gè)再轉(zhuǎn)換,這在隨后的 立體聲編碼器也工作在頻域中時(shí)是特別有益的,以便以前未進(jìn)入時(shí)域 的耳機(jī)立體聲信號(hào)的立體聲編碼也可在不進(jìn)入時(shí)域的情況下進(jìn)行。在無(wú)須時(shí)域參與或通過(guò)至少減少轉(zhuǎn)換數(shù)量的情況之下,從多聲道表示至 已編碼立體聲信號(hào)的處理不僅在計(jì)算時(shí)間效率方面令人關(guān)注,還可限 制質(zhì)量損耗,這是因?yàn)楦俚奶幚黼A段將更少的失真引入音頻信號(hào)。 特別是在執(zhí)行對(duì)于立體聲編碼器是優(yōu)選的考慮心理聲學(xué)掩蔽閾 值的量化的基于塊的方法中,重要的是盡可能地防止串連的編碼失真。 在本發(fā)明的特別的優(yōu)選實(shí)施例中,具有一個(gè)或優(yōu)選為兩個(gè)的基本聲道的BCC (技術(shù)心理聲學(xué)編碼,Binaural Cue Coding)表示用作多 聲道表示。由于技術(shù)心理聲學(xué)編碼方法工作于頻域,因此在合成之后 多聲道不會(huì)如同通常在BCC解碼器中所做的一樣被轉(zhuǎn)換至?xí)r域。相反 地,使用塊形式的多聲道的頻譜表示并經(jīng)過(guò)耳機(jī)信號(hào)處理。為此,濾 波器的轉(zhuǎn)換函數(shù)(也即沖激響應(yīng)的傅立葉轉(zhuǎn)換)用于通過(guò)濾波器轉(zhuǎn)換 函數(shù)來(lái)執(zhí)行與多聲道的頻譜表示的相乘。當(dāng)濾波器的沖激響應(yīng)在時(shí)間 上大于在BCC解碼器的輸出處的頻譜分量的塊時(shí),逐塊的濾波器處理 是優(yōu)選的,其中,在時(shí)域中分離濾波器的沖激響應(yīng),且逐塊地將其轉(zhuǎn) 換,以便接著執(zhí)行這種措施所需要的相應(yīng)的頻譜加權(quán),如同例如WO 94/01933所公開(kāi)的一樣。
下面參照附圖詳細(xì)說(shuō)明本發(fā)明的優(yōu)選實(shí)施例,其中圖1示出了本發(fā)明的用于產(chǎn)生已編碼立體聲信號(hào)的裝置的電路框圖;圖2是圖1的耳機(jī)信號(hào)處理的實(shí)施的詳細(xì)示意圖;圖3示出了現(xiàn)有的用于產(chǎn)生聲道數(shù)據(jù)及參數(shù)多聲道信息的聯(lián)合立 體聲編碼器的示意圖;圖4是用于確定BCC編碼/譯碼的ICLD、 ICTD及ICC參數(shù)的方 案的示意圖;圖5是BCC編碼/譯碼鏈路的框圖;圖6示出了圖5的BCC合成模塊的實(shí)現(xiàn)的框圖;圖7示出了多聲道解碼器與耳機(jī)信號(hào)處理之間無(wú)須任何到時(shí)域的 轉(zhuǎn)換的串聯(lián)示意圖;圖8示出了耳機(jī)信號(hào)處理與立體聲編碼器之間無(wú)須任何到時(shí)域的 轉(zhuǎn)換的串聯(lián)示意圖;圖9示出了優(yōu)選的立體聲編碼器的原理框圖; 圖10是用于確定圖2的濾波器函數(shù)的再現(xiàn)場(chǎng)景的原理示意圖;以及圖11是根據(jù)圖10所確定的濾波器的預(yù)期沖激響應(yīng)的原理示意圖。
具體實(shí)施方式
圖1示出了本發(fā)明的用于產(chǎn)生音頻片段或音頻數(shù)據(jù)流的已編碼立 體聲信號(hào)的裝置的原理電路框圖。未編碼形式的立體聲信號(hào)包括未編 碼的第一立體聲信道10a以及未編碼的第二立體聲信道10b,其產(chǎn)生 自音頻片段或音頻數(shù)據(jù)流的多聲道表示,其中多聲道表示包括與超過(guò) 兩個(gè)的多聲道有關(guān)的信息。如將隨后描述的,多聲道表示可以是未編 碼或已編碼形式。如果多聲道表示是未編碼形式,它將包括三個(gè)或更 多的多聲道。在優(yōu)選的應(yīng)用場(chǎng)景中,多聲道表示包括五個(gè)聲道以及一 個(gè)重低音聲道。然而,如果多聲道表示是已編碼形式,該已編碼形式一般將包括 一個(gè)或多個(gè)基本聲道以及用于根據(jù)一個(gè)或兩個(gè)基本聲道來(lái)合成三個(gè)或 更多的多聲道的參數(shù)。因此,多聲道解碼器11是用于從多聲道表示中 提供多于兩個(gè)的多聲道的裝置的例子。然而,如果多聲道表示已經(jīng)處 于未編碼形式,也即例如處于5+1脈沖編碼調(diào)制(PCM)聲道的形式, 則提供裝置對(duì)應(yīng)于裝置12的輸入端,裝置12用于執(zhí)行耳機(jī)信號(hào)處理, 以產(chǎn)生具有未編碼的第一立體聲信道10a及未編碼的第二立體聲信道 10b的未編碼立體聲信號(hào)。優(yōu)選地,用于執(zhí)行耳機(jī)信號(hào)處理的裝置12形成用于評(píng)估多聲道 表示的多聲道,每一聲道的評(píng)估是通過(guò)第一立體聲通道的第一濾波器 功能及第二立體聲通道的第二濾波器功能進(jìn)行的,并且對(duì)各個(gè)已評(píng)估 的多聲道求和以獲得未編碼的第一立體聲信道以及未編碼的第二立體 聲信道,如圖2所示。用于執(zhí)行耳機(jī)信號(hào)處理的裝置12的下游是立體 聲編碼器13,立體聲編碼器13形成用于對(duì)未編碼的第一立體聲信道 10a及未編碼的第二立體聲信道10b進(jìn)行編碼,以在立體聲編碼器13 的輸出14處獲得已編碼立體聲信號(hào)。立體聲編碼器執(zhí)行數(shù)據(jù)速率的降 低,從而用于傳輸已編碼立體聲信號(hào)所需的數(shù)據(jù)速率小于用于傳輸未 編碼立體聲信號(hào)所需的數(shù)據(jù)速率。根據(jù)本發(fā)明,所達(dá)成的概念允許經(jīng)由簡(jiǎn)單播放器(例如硬件播放 器)給立體聲耳機(jī)提供多聲道聲調(diào)(也被稱為"環(huán)繞")。某些聲道的求和可以示例性地被形成為簡(jiǎn)單的耳機(jī)信號(hào)處理,以 獲得用于立體聲數(shù)據(jù)的輸出聲道。改進(jìn)的方法通過(guò)更為復(fù)雜的算法來(lái) 操作,其相應(yīng)地獲得改善的再現(xiàn)質(zhì)量。將要提及的是,本發(fā)明構(gòu)思允許用于多聲道譯碼以及用于執(zhí)行耳 機(jī)信號(hào)處理的計(jì)算集中步驟無(wú)須在播放器本身中執(zhí)行,而是在外部執(zhí)行。本發(fā)明構(gòu)思的結(jié)果是已編碼立體聲文件,其可以是MP3文件、 AAC文件、HE-AAC文件或是某些其它的立體聲文件。在其它實(shí)施例中,多聲道譯碼、耳機(jī)信號(hào)處理及立體聲編碼可以 在不同的裝置上執(zhí)行,這是因?yàn)楦鱾€(gè)塊的輸出數(shù)據(jù)及輸入數(shù)據(jù)分別可 以容易地進(jìn)出,并且以標(biāo)準(zhǔn)方式產(chǎn)生和儲(chǔ)存。接著,請(qǐng)參考圖7,圖7示出了本發(fā)明的優(yōu)選實(shí)施例,其中,多 聲道解碼器11包括濾波器組或快速傅里葉變換(FFT)函數(shù),從而在 頻域中提供多聲道表示。特別是,單獨(dú)的多聲道被作為每個(gè)聲道的頻 譜值的塊而產(chǎn)生。創(chuàng)造性地,耳機(jī)信號(hào)處理并非在時(shí)域中通過(guò)濾波器 沖激響應(yīng)對(duì)時(shí)間聲道進(jìn)行巻積而執(zhí)行,而是通過(guò)濾波器沖激響應(yīng)的頻 譜表示與多聲道的頻域表示相乘來(lái)執(zhí)行。在耳機(jī)信號(hào)處理的輸出處獲 得未編碼立體聲信號(hào),然而該信號(hào)并非位于時(shí)域中,而是包括左立體 聲聲道和右立體聲聲道,其中,這樣的立體聲聲道被提供作為頻譜值 的塊序列,每個(gè)頻譜值的塊表示立體聲通道的短期(short term)頻譜。在圖8所示的實(shí)施例中,在耳機(jī)信號(hào)處理模塊12的輸入側(cè)提供 時(shí)域或頻域數(shù)據(jù)。在輸出側(cè)處,在頻域中產(chǎn)生未編碼立體聲信道,也 即也作為頻譜值的塊序列。在這種情況下優(yōu)選地以基于轉(zhuǎn)換的立體聲 編碼器作為立體聲編碼器13,也即在不需要耳機(jī)信號(hào)處理12以及立 體聲編碼器13之間的頻率/時(shí)間轉(zhuǎn)換以及后續(xù)的頻率/時(shí)間轉(zhuǎn)換的情況 下處理頻譜值的立體聲編碼器。在輸出側(cè)處,立體聲編碼器13接著輸 出具有已編碼立體聲信號(hào)的文件,除了輔助信息之外,所述文件還包 括已編碼形式的頻譜值。在本發(fā)明的特別的優(yōu)選實(shí)施例中,在從圖1的模塊11的輸入處 的多聲道表示至圖1的裝置的輸出14處的已編碼立體聲文件的路徑上 執(zhí)行連續(xù)頻域處理,不需要轉(zhuǎn)換到時(shí)域以及可能的再轉(zhuǎn)換到頻域。當(dāng)MP3編碼器或是AAC編碼器用作立體聲編碼器時(shí),優(yōu)選地將耳機(jī)信 號(hào)處理模塊的輸出處的傅立葉頻譜轉(zhuǎn)換為MDCT頻譜。因此,根據(jù)本 發(fā)明可以確保耳機(jī)信號(hào)處理模塊中聲道的巻積/評(píng)估所需的精確的相 位信息被轉(zhuǎn)換為MDCT表示,而不按照這樣一種相位修正方式工作, 也即,與正常MP3編碼器或是正常AAC編碼器相反,立體聲編碼器 不需要從時(shí)域轉(zhuǎn)換為頻域(即MDCT頻譜)的裝置。圖9示出了優(yōu)選的立體聲編碼器的概括的電路框圖。在立體聲編 碼器的輸入側(cè)包括聯(lián)合立體聲模塊(joint stereo module)15,模塊15優(yōu) 選地以適應(yīng)性方式?jīng)Q定(例如以中央/輔助編碼形式的)普通立體聲編 碼是否可與分離處理左聲道和右聲道相比提供更高的編碼增益。聯(lián)合 立體聲模塊15還可形成用于執(zhí)行強(qiáng)度立體聲編碼(Intensity stereo encoding),其中特別是具有較高頻率的強(qiáng)度立體聲編碼提供相當(dāng)大的 編碼增益而不會(huì)出現(xiàn)聽(tīng)得到的失真。然后進(jìn)一步使用其它不同的冗余 減少措施,例如時(shí)域噪聲整形(TNS)濾波、噪聲代替等,處理聯(lián)合 立體聲模塊15的輸出,接著將結(jié)果提供給量化器16,量化器16使用 心理聲學(xué)掩蔽(masking)閾值來(lái)實(shí)現(xiàn)頻譜值的量化。這里選擇量化器 步長(zhǎng)的大小,以便通過(guò)量化所引入的噪聲保持低于心理聲學(xué)掩蔽閾值, 以實(shí)現(xiàn)數(shù)據(jù)速率降低而不會(huì)聽(tīng)到由有損量化所引入的失真。量化器16 的下游具有熵編碼器17,用于執(zhí)行量化頻譜值的無(wú)損熵編碼。在熵編 碼器的輸出處是已編碼立體聲信號(hào),除了熵編碼頻譜值之外,已編碼 立體聲信號(hào)還包括用于譯碼所需的輔助信息。接著,參照?qǐng)D3至圖6來(lái)說(shuō)明多聲道解碼器的優(yōu)選實(shí)施方式以及 優(yōu)選的多聲道。有數(shù)種技術(shù)可用于減少傳輸多聲道音頻信號(hào)所需的數(shù)據(jù)量。這些 技術(shù)也被稱為聯(lián)合立體聲技術(shù)。為此,參考圖3,圖3示出了聯(lián)合立 體聲裝置60。例如,該裝置可以是實(shí)施強(qiáng)度立體聲(IS)技術(shù)或技術(shù)心
理聲學(xué)編碼(BCC)的裝置,這樣的裝置一般接收至少兩個(gè)聲道CH1、 CH2、……、CHn作為輸入信號(hào),并輸出單個(gè)載波聲道和參數(shù)多聲道 信息。定義參數(shù)數(shù)據(jù),以便可以在解碼器中計(jì)算原始聲道(CH1、 CH2、 ......、 CHn)的近似。一般地,載波聲道包括子頻帶采樣、頻譜系數(shù)、時(shí)域采樣等等, 其提供根本信號(hào)的相對(duì)好的表示,而參數(shù)數(shù)據(jù)不包括這些采樣或頻譜 系數(shù),而是包括用于控制某重建算法的控制參數(shù),例如乘法的權(quán)重、 時(shí)間推移、頻率推移等。因此,參數(shù)多聲道信息包括信號(hào)或相關(guān)聲道 的相對(duì)粗略的表示。以數(shù)量來(lái)表示,載波聲道所需的數(shù)據(jù)量在60至 70kbits/s的范圍內(nèi),而聲道的參數(shù)輔助信息所需的數(shù)據(jù)量在1.5至 2.5kbits/sec的范圍內(nèi)。需要注意的是,上述數(shù)量適用于壓縮數(shù)據(jù)。非 壓縮CD聲道當(dāng)然需要大約十倍的數(shù)據(jù)速率。參數(shù)數(shù)據(jù)的一個(gè)例子是 公知的縮放因子、強(qiáng)度立體聲信息或如下文所述的BCC參數(shù)。在J. Herre, K.H. Brandenburg, D. Lederer于1994年2月在 Amsterdam的AES Preprint 3799的題為"Intensity Stereo Coding"中描 述了強(qiáng)度立體聲編碼技術(shù)。 一般地,強(qiáng)度立體聲的概念基于應(yīng)用于兩 個(gè)立體聲效果音頻聲道的數(shù)據(jù)的主軸轉(zhuǎn)換。如果大部份的數(shù)據(jù)點(diǎn)集中 于第一主軸附近,便可以在進(jìn)行編碼之前通過(guò)將兩個(gè)信號(hào)旋轉(zhuǎn)某一角 度而實(shí)現(xiàn)編碼增益。然而,這并總適用于實(shí)際立體聲效果的再現(xiàn)技術(shù)。 因此,這種技術(shù)可修改為排除第二正交分量在比特流中的傳輸。因此, 用于左聲道及右聲道的重建信號(hào)包括相同傳輸信號(hào)的不同加權(quán)或縮放 的版本。但是,重建信號(hào)振幅不同,但其相位信息是相同的。然而, 通過(guò)一般以頻率選擇方式操作的選擇性縮放操作,保持兩個(gè)原始音頻 聲道的能量時(shí)間包絡(luò)。這對(duì)應(yīng)于人類在高頻處的聲音感覺(jué),其中主要 的空間信息由能量包絡(luò)所確定。此外,在實(shí)際實(shí)現(xiàn)方式中,傳輸信號(hào)(也即載波聲道)產(chǎn)生自左 聲道及右聲道的和信號(hào),而非對(duì)兩個(gè)分量的旋轉(zhuǎn)。此外,這種處理(也 即產(chǎn)生于執(zhí)行縮放操作的強(qiáng)度立體聲參數(shù))是以頻率選擇性方式執(zhí)行 的,也即對(duì)于每個(gè)縮放因子頻帶(對(duì)于每個(gè)編碼器頻率劃分)獨(dú)立地 執(zhí)行。優(yōu)選地,組合兩個(gè)聲道,以形成組合的或"載波"聲道、以及除 了組合的聲道之外的強(qiáng)度立體聲信息。強(qiáng)度立體聲信息取決于第一聲 道的能量、第二聲道的能量或組合聲道的能量。T. Faller, F. Baumgarte于2002年05月在Munich在AES Convention Paper 5574的題為"Binaural Cue Coding applied to stereo and multichannel audio compression"中描述了 BCC技術(shù)。在BCC編碼 中,使用基于DFT的轉(zhuǎn)換,利用重迭窗,將多個(gè)音頻輸入聲道轉(zhuǎn)換成 頻譜表示。將所產(chǎn)生的頻譜分成非重迭部份,其中每個(gè)重迭部份具有 索引。每個(gè)劃分具有與等效右角帶寬(ERB)成比例的帶寬。針對(duì)每個(gè) 劃分及每個(gè)幀k,確定聲道間電平差(ICLD)及聲道間時(shí)間差(ICTD)。 ICLD及ICTD被量化和編碼,以最終實(shí)現(xiàn)作為輔助信息的BCC比特 流。針對(duì)每個(gè)聲道,關(guān)于參考聲道,提供聲道間電平差及聲道間時(shí)間 差。然后,根據(jù)預(yù)定公式,基于待處理的信號(hào)的特定劃分,來(lái)計(jì)算參" 在解碼器側(cè),解碼器一般接收單聲道信號(hào)和BCC比特流。單聲 道信號(hào)被轉(zhuǎn)換至頻域且被輸入空間合成模塊,空間合成模塊也接收己 解碼的ICLD和ICTD值。在空間合成模塊中,ICLD及ICTD用于 執(zhí)行單聲道信號(hào)的加權(quán)操作,以合成多聲道信號(hào),多聲道信號(hào)在頻率/ 時(shí)間轉(zhuǎn)換之后表示原始多聲道音頻信號(hào)的重建。在BCC的情況下,聯(lián)合立體聲模塊60可操作用于輸出聲道輔助 信息,從而參數(shù)聲道數(shù)據(jù)是量化且編碼的ICLD或ICTD參數(shù),其中 原始聲道之一用作用于對(duì)聲道輔助信息進(jìn)行編碼的參考聲道。一般地,載波信號(hào)由參與的原始聲道的之和形成。上述的技術(shù)當(dāng)然僅提供用于解碼器的單聲道表示,該解碼器僅能 夠處理載波聲道而無(wú)法處理用于產(chǎn)生超過(guò)一個(gè)輸入聲道的一個(gè)或多個(gè) 近似的參數(shù)數(shù)據(jù)。在美國(guó)專利公開(kāi)號(hào)US 2003/0219130 Al、 US 2003/0026441 Al以 及US 2003/0035553 Al中也描述了 BCC技術(shù)。此外,還可參考T. Faller 及F. Baumgarte于2003年11月出版在IEEE Trans. On Audio and Speech Proc., Vol. 11, No. 6的專家刊物"Binaural Cue Coding. Part II: Schemes and Applications"。
接著,參照?qǐng)D4至圖6更為詳細(xì)地描述用于多聲道音頻編碼的典 型BCC方案。圖5示出了用于編碼/傳輸多聲道音頻信號(hào)的BCC方案。在所謂 的下混模塊114中下混在BCC編碼器112的輸入110處的多聲道音頻 輸入信號(hào)。對(duì)于此實(shí)施例,在輸入110處的原始多聲道信號(hào)是具有左 前聲道、右前聲道、左環(huán)繞聲道、右環(huán)繞聲道以及中央聲道的5聲道 環(huán)繞信號(hào)。在本發(fā)明的優(yōu)選實(shí)施例中,下混模塊114通過(guò)將這5個(gè)聲 道簡(jiǎn)單求和為單聲道信號(hào),而產(chǎn)生和信號(hào)。其它的下混方案在現(xiàn)有技術(shù)中是已知的,因此,通過(guò)使用多聲道 輸入信號(hào),可獲得具有單聲道的下混聲道。在和信號(hào)線115上輸出單聲道。在輔助信息線117上輸出從BCC 分析模塊116獲得的輔助信息。如上文所述,在BCC分析模塊中計(jì)算聲道間電平差(ICLD)及聲 道間時(shí)間差(ICTD)?,F(xiàn)在,BCC分析模塊116還能夠計(jì)算聲道間關(guān)聯(lián) 值(ICC值)。以量化且已編碼的形式將和信號(hào)及輔助信息傳輸至BCC 解碼器120。 BCC解碼器將所傳輸?shù)暮托盘?hào)劃分為多個(gè)子頻帶,并執(zhí) 行縮放、延遲及更進(jìn)一步的處理步驟,以提供待輸出的多聲道音頻聲 道的子頻帶。執(zhí)行這種處理,以便輸出121處的重建多聲道信號(hào)的 ICLD、 LCTD及ICC參數(shù)(提示(cue))與BCC編碼器112的輸入110 處的原始多聲道信號(hào)的對(duì)應(yīng)提示匹配。為此,BCC解碼器120包括 BCC合成模塊122以及輔助信息處理模塊123。接著,參照?qǐng)D6描述BCC合成模塊122的內(nèi)部設(shè)置。線115上 的和信號(hào)被提供給時(shí)間/頻率轉(zhuǎn)換單元或?yàn)V波器組FB 125。在模塊125 的輸出處具有N個(gè)子頻帶信號(hào),或是(在極端情形下的)頻譜系數(shù)塊, 此時(shí),音頻濾波器組125執(zhí)行1:1轉(zhuǎn)換,也即從N個(gè)時(shí)域采樣中產(chǎn)生 N個(gè)頻譜系數(shù)的轉(zhuǎn)換。BCC合成模塊122還包括延遲級(jí)126、電平修正級(jí)127、關(guān)聯(lián)處 理級(jí)128以及反向?yàn)V波器組級(jí)IFB 129。如圖5或圖4所示,在級(jí)129 的輸出處,在5聲道環(huán)繞系統(tǒng)的情況下,具有五個(gè)聲道的重建多聲道 音頻信號(hào)可被輸出至一組揚(yáng)聲器124。 輸入信號(hào)sn被組件125轉(zhuǎn)換至頻域或?yàn)V波器組域。組件125所輸 出的信號(hào)被復(fù)制,以獲得相同信號(hào)的多個(gè)版本,如復(fù)制節(jié)點(diǎn)130所示。 原始信號(hào)的版本數(shù)目等于輸出信號(hào)中輸出聲道的數(shù)目。然后,節(jié)點(diǎn)130 處原始信號(hào)的每個(gè)版本經(jīng)過(guò)某一延遲dl、 d2、…、di、…dN。延遲參 數(shù)由圖5的輔助信息處理模塊123計(jì)算,且可從圖5的BCC分析模塊 116所計(jì)算的聲道間時(shí)間差中導(dǎo)出。這同樣應(yīng)用于乘法參數(shù)a" a2、…、ai、…、aN,它們由輔助信息 處理模塊123基于BCC分析模塊116所計(jì)算的聲道間電平差進(jìn)行計(jì) 算。由BCC分析模塊116所計(jì)算的ICC參數(shù)用于控制模塊128的功 能,使得在模塊128的輸出處獲得己延遲的且經(jīng)過(guò)電平操作的信號(hào)之 間的某些關(guān)聯(lián)。這里需要注意的是,126、 127、 128各級(jí)的次序可不 同于圖6所示的次序。還需要注意的是,在音頻信號(hào)的逐幀處理中,也可逐幀地執(zhí)行 BCC分析,也即在時(shí)間上可變,此外,如同可從圖6的濾波器組劃分 所看出的,還獲得逐頻率的BCC分析。這意味著對(duì)于每個(gè)頻帶,獲得 BCC參數(shù)。這也意味著,在音頻濾波器組125將輸入信號(hào)分解成諸如 32個(gè)帶通信號(hào)的情況下,針對(duì)32個(gè)頻帶中的每個(gè),BCC分析模塊可 獲得一組BCC參數(shù)。當(dāng)然,圖5中的BCC合成模塊122 (在圖6中 更詳細(xì)地描述了)也同樣基于所提及的示例性的32個(gè)頻帶,執(zhí)行重建。接著,參照?qǐng)D4描述用于確定各個(gè)BCC參數(shù)的場(chǎng)景。 一般地, 在聲道對(duì)之間定義ICLD、 ICTD以及ICC參數(shù)。然而,優(yōu)選地是在參 考聲道以及每個(gè)其它的聲道之間定義ICLD及ICTD參數(shù)。這在圖4A 中描述了。ICC參數(shù)也可以以不同的方式定義。 一般地,可以在編碼器中在 所有可能的聲道對(duì)之間確定ICC參數(shù),如圖4B所示。已存在的構(gòu)想 是在任何時(shí)刻僅計(jì)算兩個(gè)最強(qiáng)的聲道之間的ICC參數(shù),如圖4C所示, 圖4C示出了在任何時(shí)刻下計(jì)算聲道1及2之間的ICC參數(shù)以及在另 一時(shí)刻下計(jì)算聲道1及5之間的ICC參數(shù)的例子。接著解碼器合成解 碼器中最強(qiáng)聲道之間的聲道間關(guān)聯(lián),并使用某種啟發(fā)式規(guī)則,計(jì)算并
合成剩余聲道對(duì)的聲道間統(tǒng)一性。關(guān)于諸如基于所傳輸?shù)腎CLD參數(shù)的乘法參數(shù)a" aw的計(jì)算,請(qǐng) 參閱AES Convention Paper No. 5574。 ICLD參數(shù)表示原始多聲道信號(hào) 的能量分配。在不喪失一般性的情況下,如圖4A所示,優(yōu)選地采用 表示各個(gè)聲道與左前聲道之間的能量差的4個(gè)ICLD參數(shù)。在輔助信 息處理模塊122中,乘法參數(shù)a,、、 aN從ICLD參數(shù)中導(dǎo)出,以使 所有重建輸出聲道的總能量相等(或是與所傳輸?shù)暮托盘?hào)的能量成比 例)。在圖7所示的實(shí)施例中,省略了由圖6的反向?yàn)V波器組IFB129 所獲得的頻率/時(shí)間轉(zhuǎn)換。取而代之的,使用在這些反向?yàn)V波器組的輸 入處的各個(gè)聲道的頻譜表示,并將其提供給圖7中的耳機(jī)信號(hào)處理裝 置,以便在不進(jìn)行額外頻率/時(shí)間轉(zhuǎn)換的情況下,通過(guò)每個(gè)多聲道兩個(gè) 濾波器,執(zhí)行各個(gè)多聲道的評(píng)估。關(guān)于發(fā)生于頻域中的完全處理,需要注意的是,在這種情況下, 多聲道解碼器(也即例如圖6的濾波器組125)以及立體聲編碼器應(yīng) 具有相同的時(shí)間/頻率分辨率。此外,優(yōu)選地使用同一個(gè)濾波器組,這 對(duì)于如圖1所示的整個(gè)處理僅需要單個(gè)濾波器組的情況特別有益。在 這種情況下,其結(jié)果是處理特別有效,這是因?yàn)椴辉傩枰?jì)算多聲道 解碼器及立體聲編碼器中的轉(zhuǎn)換。因此,在本發(fā)明構(gòu)思中,輸入數(shù)據(jù)及輸出數(shù)據(jù)優(yōu)選地通過(guò)轉(zhuǎn)換/ 濾波器組而在頻域中被編碼,并且在心理聲學(xué)指導(dǎo)方針下使用掩蔽效 應(yīng)被編碼,其中特別地,在解碼器中應(yīng)該是信號(hào)的頻譜表示。其示例 為MP3文件、AAC文件、或AC3文件。然而,輸入數(shù)據(jù)及輸出數(shù)據(jù) 也可分別通過(guò)形成和值以及差值而被編碼,如同所謂矩陣處理的情況。 其示例是Dolby ProLogic、 Logic7或是Circle Surround。特別地,多 聲道表示還可以通過(guò)參數(shù)方法被編碼,如同在MP3環(huán)繞的情況下,其 中該方法基于BCC技術(shù)。取決于情況,本發(fā)明的生成方法可以以硬件或軟件來(lái)實(shí)施??稍?數(shù)字儲(chǔ)存介質(zhì)中實(shí)施,特別是在具有可通過(guò)電子方式讀取的控制信號(hào) 的光盤或CD中,其可與可編程計(jì)算機(jī)系統(tǒng)協(xié)作以執(zhí)行該方法。 一般
地,本發(fā)明也可在具有儲(chǔ)存在機(jī)器可讀介質(zhì)中的程序代碼的計(jì)算機(jī)程 序產(chǎn)品中,用于當(dāng)在計(jì)算機(jī)上執(zhí)行該計(jì)算機(jī)程序產(chǎn)品時(shí)執(zhí)行本發(fā)明的 方法。換言之,本發(fā)明也可實(shí)現(xiàn)為具有程序代碼的計(jì)算機(jī)程序,用于 當(dāng)在計(jì)算機(jī)上運(yùn)行該計(jì)算機(jī)程序時(shí)執(zhí)行該方法。
權(quán)利要求
1、一種裝置,用于根據(jù)包括與兩個(gè)以上多聲道有關(guān)的信息的音頻片段或音頻數(shù)據(jù)流的多聲道表示,產(chǎn)生具有第一立體聲聲道及第二立體聲聲道的音頻片段或音頻數(shù)據(jù)流的已編碼立體聲信號(hào),該裝置包括用于根據(jù)所述多聲道表示來(lái)提供兩個(gè)以上多聲道的裝置(11);用于執(zhí)行耳機(jī)信號(hào)處理以產(chǎn)生具有未編碼的第一立體聲聲道(10a)及未編碼的第二立體聲聲道(10b)的未編碼立體聲信號(hào)的裝置(12);以及立體聲編碼器(13),用于對(duì)未編碼的第一立體聲聲道(10a)及未編碼的第二立體聲聲道(10b)編碼,以獲得已編碼立體聲信號(hào)(14),所述立體聲編碼器形成使得用于發(fā)送已編碼立體聲信號(hào)所需的數(shù)據(jù)速率小于用于發(fā)送未編碼立體聲信號(hào)所需的數(shù)據(jù)速率。
2、 如權(quán)利要求l所述的裝置,其中執(zhí)行裝置(12)形成用于 針對(duì)每個(gè)多聲道,通過(guò)用于第一立體聲聲道的第一濾波器功能(HiO以及用于第二立體聲聲道的第二濾波器功能(Hij0來(lái)評(píng)估每個(gè)多 聲道,以產(chǎn)生第一已評(píng)估聲道以及第二已評(píng)估聲道;對(duì)所有已評(píng)估的第一聲道求和(22)以獲得未編碼的第一立體聲聲 道(10a);以及對(duì)所有已評(píng)估的第二聲道求和(23)以獲得未編碼的第二立體聲聲 道(10b)。
3、 如權(quán)利要求2所述的裝置,其中一對(duì)分離的第一及第二濾波 器功能與每個(gè)多聲道相關(guān)其中第一濾波器功能是從用于再現(xiàn)多聲道的揚(yáng)聲器的虛擬位置 以及聆聽(tīng)者的虛擬第一耳朵位置導(dǎo)出的;以及其中第二濾波器功能是從揚(yáng)聲器的虛擬位置以及聆聽(tīng)者的虛擬 第二耳朵位置導(dǎo)出的,該聆聽(tīng)者的兩個(gè)虛擬耳朵位置不同。
4、 如前述權(quán)利要求之一所述的裝置,其中多聲道表示包括一個(gè)或多個(gè)基本聲道以及用于根據(jù)一個(gè)或 多個(gè)基本聲道來(lái)計(jì)算多聲道的參數(shù)信息;以及其中提供裝置(ll)形成用于根據(jù)一個(gè)或多個(gè)基本聲道以及所述參 數(shù)信息來(lái)計(jì)算至少三個(gè)多聲道。
5、 如權(quán)利要求4所述的裝置,其中提供裝置(1)形成用于在輸出側(cè)提供每個(gè)多聲道的塊形式的頻域表示;以及其中執(zhí)行裝置(12)形成用于通過(guò)第一和第二濾波器功能的頻域表 示來(lái)評(píng)估塊形式的頻域表示。
6、 如前述權(quán)利要求之一所述的裝置,其中執(zhí)行裝置(12)形成用于提供未編碼的第一立體聲聲道及未編 碼的第二立體聲聲道的塊形式的頻域表示;以及其中立體聲編碼器(13)是基于轉(zhuǎn)換的編碼器,并且還形成用于處 理未編碼的第一立體聲聲道及未編碼的第二立體聲聲道的塊形式的頻 域表示,而不需要由頻域表示轉(zhuǎn)換為時(shí)間表示。
7、 如前述權(quán)利要求之一的裝置,其中立體聲編碼器(13)用于執(zhí)行第一及第二立體聲聲道的共同立 體聲編碼(15)。
8、 如前述權(quán)利要求之一所述的裝置,其中立體聲編碼器(13)形成用于使用心理聲學(xué)掩蔽閾值,對(duì)頻譜 值的塊進(jìn)行量化(16),并使其經(jīng)過(guò)熵編碼(17),以獲得已編碼立體聲信號(hào)
9、 如前述權(quán)利要求之一所述的裝置, 其中提供裝置(11)形成為技術(shù)心理聲學(xué)BCC譯碼器。
10、 如前述權(quán)利要求之一所述的裝置,其中提供裝置(ll)形成為包括具有多個(gè)輸出的濾波器組的多聲道 譯碼器;其中執(zhí)行裝置(12)形成用于通過(guò)第一及第二濾波器功能來(lái)評(píng)估濾 波器組輸出處的信號(hào);以及其中立體聲編碼器(13)形成用于對(duì)頻域中的未編碼的第一立體聲 聲道以及頻域中的未編碼的第二立體聲聲道進(jìn)行量化(16),并使其經(jīng) 過(guò)熵編碼(17)以獲得已編碼立體聲信號(hào)。
11、 一種方法,用于根據(jù)包括與兩個(gè)以上多聲道有關(guān)的信息的 音頻片段或音頻數(shù)據(jù)流的多聲道表示,產(chǎn)生具有第一立體聲聲道及第 二立體聲聲道的音頻片段或音頻數(shù)據(jù)流的已編碼立體聲信號(hào),該方法 包括如下步驟根據(jù)多聲道表示來(lái)提供(ll)兩個(gè)以上多聲道;執(zhí)行(12)耳機(jī)信號(hào)處理,以產(chǎn)生具有未編碼的第一立體聲聲道(10a)及未編碼的第二立體聲聲道(10b)的未編碼立體聲信號(hào);以及對(duì)未編碼的第一立體聲聲道(10a)及未編碼的第二立體聲聲道 (10b)進(jìn)行立體聲編碼(13),以獲得已編碼立體聲信號(hào)(14),執(zhí)行該立 體聲編碼步驟,使得發(fā)送己編碼立體聲信號(hào)所需的數(shù)據(jù)速率小于發(fā)送 未編碼立體聲信號(hào)所需的數(shù)據(jù)速率。
12、 一種計(jì)算機(jī)程序,具有程序代碼,該程序代碼用于當(dāng)在計(jì) 算機(jī)上運(yùn)行該計(jì)算機(jī)程序時(shí),執(zhí)行根據(jù)權(quán)利要求11的用于產(chǎn)生已編碼 立體聲信號(hào)的方法。
全文摘要
一種根據(jù)多聲道表示來(lái)產(chǎn)生已編碼立體聲信號(hào)的裝置,包括多聲道解碼器(11),用于根據(jù)至少一個(gè)基本聲道和參數(shù)信息來(lái)產(chǎn)生三個(gè)或更多個(gè)多聲道。使所述三個(gè)或更多個(gè)多聲道經(jīng)過(guò)耳機(jī)信號(hào)處理(12),以產(chǎn)生未編碼的第一立體聲聲道和未編碼的第二立體聲聲道,未編碼的第一及第二立體聲聲道接著被提供給立體聲編碼器(13),以在輸出側(cè)產(chǎn)生已編碼的立體聲文件。已編碼的立體聲文件可被提供給任何適用的具有CD播放器或硬件播放器形式的播放器,使得播放器的使用者不僅得到正常的立體聲效果,還得到多聲道效果。
文檔編號(hào)G10L19/00GK101133680SQ200680007035
公開(kāi)日2008年2月27日 申請(qǐng)日期2006年2月22日 優(yōu)先權(quán)日2005年3月4日
發(fā)明者哈拉德·波普, 哈拉德·蒙特, 珍·普洛斯提斯 申請(qǐng)人:弗勞恩霍夫應(yīng)用研究促進(jìn)協(xié)會(huì)