專利名稱:基于后期混響的聽覺場景的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻信號編碼及從編碼的音頻數(shù)據(jù)的聽覺場景的后繼合成。
對相關(guān)申請的交叉參考本申請要求作為代理人提要no.Faller 12在02/12/04提交的美國臨時申請No.60/544,287的權(quán)益。這一申請的主題涉及以下專利申請的主題,作為代理人提要no.Faller 5在05/04/2001提交的序號09/848,877美國專利申請(“877申請”),作為代理人提要no.Baumgarte 1-6-8在11/07/2001提交的序號10/045,458美國專利申請(“458申請”),以及作為代理人提要no.Baumgarte 2-10(“437申請”)在05/24/2002提交的序號10/155,437美國專利申請。并參見C.Faller andF.Baumgarte,“Binaural Cue Coding Applied to Stereo andMulti-Channel Audio Compression,”Preprint 112th Conv.Aud.Eng.Soc.,May,2002。
背景技術(shù):
當人聽到由一特定的音頻源產(chǎn)生的音頻信號(即聲音)時,音頻信號一般將在不同的時間并以兩個不同的音頻(例如分貝)級到達人的左和右耳,其中不同的時間和級分別是音頻信號行進到達左和右耳的路徑差別的函數(shù)。人的大腦解釋這種時間和級別的這些差,以向人給出這樣的感覺,即接收的音頻信號是由位于相對于人特定的位置(例如方向和距離)的音頻源產(chǎn)生的。聽覺場景是同時聽到由位于相對于人的一個或多個不同位置的一個或多個不同音頻源產(chǎn)生的音頻信號的人的凈效果。
由大腦進行的這一處理的存在能夠用來合成聽覺場景,其中來自一個或多個不同音頻源的音頻信號被故意修改以產(chǎn)生左和右音頻信號,給出不同音頻源相對于收聽者位于不同位置的感覺。
圖1示出傳統(tǒng)的雙耳信號合成器100的高級框圖,該合成器把單個的音頻源信號(例如單聲道信號)轉(zhuǎn)換為雙耳信號的左和右音頻信號,其中雙耳信號定義為在收聽者的耳鼓收到的兩個信號。除了音頻源信號之外,合成器100接收一組對應于相對于收聽者的音頻源所需位置的空間線索。在典型的實現(xiàn)方法中,這組空間線索包括聲道間的電平差(ICLD)值(該值標識分別作為左和右耳收到的左和右音頻信號之間音頻電平差),以及聲道間的時間差(ICTD)值(其標識分別作為左和右耳收到的左和右音頻信號之間到達的時間差)。此外或作為替代實現(xiàn),某些合成技術(shù)涉及對于從信號源到耳鼓的聲音的與方向有關(guān)的傳遞函數(shù),還涉及與頭部相關(guān)的傳遞函數(shù)(HRTF)。例如參見J.Blauert,The Psychophysics of Human Sound Lacalization,MIT Press,1983。
使用圖1的雙耳信號合成器100,由單聲源產(chǎn)生的單聲道音頻信號被這樣處理,當通過頭戴耳機收聽時,通過施加一組適當?shù)目臻g線索(例如ICLD,ICTD,和/或HRTF)在空間放置聲源以產(chǎn)生用于每一耳的音頻信號。例如參見,D.R.Begault,3-d Sound for VirtualReality and Multimedia,Academic Press,Cambridge,MA,1994。
圖1的雙耳信號合成器100產(chǎn)生最簡單類型的聽覺場景其具有相對于收聽者定位的單音頻源。使用聽覺場景合成器能夠產(chǎn)生更復雜的聽覺場景,包括相對于收聽者位于不同位置的兩個或多個音頻源,這種合成器主要是使用多個雙耳信號合成器樣品實現(xiàn)的,其中每一雙耳信號合成器樣品產(chǎn)生對應于不同音頻源的雙耳信號。由于每一不同的音頻源有相對于收聽者不同的位置,對每一不同音頻源使用不同的空間線索集合產(chǎn)生雙耳音頻信號。
圖2示出傳統(tǒng)聽覺場景合成器200的高級框圖,其對每一不同音頻源使用不同空間線索集合,把多個音頻源信號(例如多個單聲道信號)轉(zhuǎn)換為單個組合的雙耳信號的左和右音頻信號。然后左音頻信號被組合(例如通過簡單的相加)以對于結(jié)果的聽覺場景產(chǎn)生左音頻信號,并對于右音頻信號類似。
聽覺場景合成的應用之一是會議。例如假設(shè)有多個參加者的桌面會議,每一參加者在不同城市坐在他或她的個人計算機(PC)前。除了PC監(jiān)視器之外,每一參加者的PC裝有(1)一麥克風,其產(chǎn)生對應于該參加者對會議音頻部分貢獻的單音頻源信號,以及(2)用于播放該音頻部分的一組頭戴耳機。在每一參加者PC監(jiān)視器上顯示作為從坐在桌子一端的人的視界所觀察的會議桌的圖像。在桌面不同位置顯示的是其他會議參加者的實時視頻圖像。
在傳統(tǒng)的單聲道會議系統(tǒng)中,服務(wù)器把來自所有參加者的單聲道信號組合為單個的組合的單聲道信號,該信號被傳送回每一參加者。為了使對每一參加者的感覺更加真實,使得他或她與其他參加者似乎坐在房間中實際會議桌旁,服務(wù)器可實現(xiàn)一種聽覺場景合成器,諸如圖2的合成器200,把適當?shù)目臻g線索集合施加到來自每一不同參加者的單聲道音頻信號,并然后組合不同左和右音頻信號,以對每一聽覺場景產(chǎn)生單個組合的雙耳信號的左和右音頻信號。然后用于這一組合的雙耳信號的左和右音頻信號被傳送到每一參加者。使用這種傳統(tǒng)的立體聲會議系統(tǒng)的問題之一涉及到傳輸帶寬,因為服務(wù)器必須向每一會議參加者傳送左音頻信號和右音頻信號。
發(fā)明內(nèi)容
‘877和‘458申請描述了合成聽覺場景技術(shù),該技術(shù)涉及現(xiàn)有技術(shù)的傳輸帶寬問題。根據(jù)‘877申請,對應于位于相對于收聽者不同位置的多個音頻源的聽覺場景,是使用兩個或多個不同的聽覺場景參數(shù)(例如空間線索,諸如聲道間電平差(ICLD)值,聲道間時間時延(ICTD)值,和/或與頭相關(guān)的傳遞函數(shù)(HRTF))從單個組合(例如單聲道)的音頻信號合成的。這樣,在上述基于PC的會議的情形下,可實現(xiàn)一種解決方案,其中每一參加者的PC只接收對應于來自所有參加者(加不同的聽覺場景參數(shù))的單聲道音頻源信號的單個的音頻信號。
‘877申請中所述的技術(shù)基于這樣的假設(shè),對于來自特定音頻源的源信號的能量單聲道音頻信號中所有其他源信號能量占優(yōu)勢的那些頻率子頻帶,就收聽者的觀點來看,單音頻信號能夠如同其只對應于該特定音頻源那樣被處理。根據(jù)這一技術(shù)的實現(xiàn),不同的聽覺場景參數(shù)集合(每一個對應于一特定的音頻源)施加到單聲道音頻信號中不同頻率子帶,以合成聽覺場景。
‘877申請中所述的技術(shù)從一個單聲道音頻信號與兩個或多個不同聽覺場景參數(shù)的集合產(chǎn)生聽覺場景?!?77申請描述了單聲道音頻信號及其對應的聽覺場景參數(shù)集合是如何產(chǎn)生的。用于產(chǎn)生單聲道音頻信號及其對應的聽覺場景參數(shù)集合的該技術(shù)在本說明書中稱為雙耳線索編碼(BCC)。BCC技術(shù)與在‘877和‘458申請中所述的空間線索(PCSC)技術(shù)的感知編碼相同。
根據(jù)‘458申請,采用BCC技術(shù)以產(chǎn)生組合的(例如單聲道)音頻信號,其中在組合的音頻信號中嵌入不同的聽覺場景參數(shù)集合,使得結(jié)果的BCC信號能夠由基于BCC的解碼器或傳統(tǒng)的(即以前的或非BCC)接收器處理。當通過基于BCC的解碼器處理時,基于BCC的解碼器抽取嵌入的聽覺場景參數(shù),并采用‘877申請的聽覺場景合成技術(shù)產(chǎn)生雙耳(或較高)的信號。聽覺場景參數(shù)嵌入在BCC信號中,使得對于傳統(tǒng)的接收器是透明的,該接收器處理BCC信號如同傳統(tǒng)的(或單聲道)音頻信號那樣。這樣,通過基于BCC的解碼器在‘458申請中所描述的技術(shù)支持‘877申請的BCC處理,同時提供向后兼容性,以使BCC信號能夠由傳統(tǒng)的接收器按傳統(tǒng)方式處理。
‘877和‘458申請中所述的BCC技術(shù),通過在BCC編碼器把雙耳輸入信號(例如左和右音頻聲道)轉(zhuǎn)換為單個的單聲道音頻聲道,以及與單聲道信號平行傳輸(或頻帶內(nèi)或頻帶外)的雙耳線索編碼(BCC)參數(shù)流,有效地降低了傳輸帶寬的需求。例如單聲道信號能夠以大約對應的兩聲道立體聲信號所需的大約50-80%位速率傳輸。對于BCC參數(shù)附加的位速率只是幾千位/秒(即大于比編碼音頻聲道小的量級)。在BCC解碼器,從接收的單聲道信號和BCC參數(shù)合成雙耳信號的左和右聲道。
雙耳信號的相干性與感覺的音頻源寬度有關(guān)。音頻源越寬,結(jié)果的雙耳信號左和右聲道之間的相干性越低。例如,對應于散布在演奏廳舞臺上的管弦樂的雙耳信號的相干性一般比對應于單個的小提琴獨奏的雙耳信號相干性低。一般來說,通常感覺較低相干性的音頻信號在聽覺空間散布得更多。
‘877和‘458申請的BCC技術(shù)產(chǎn)生雙耳信號,其中左和右聲道之間的相干性接近最大可能的值1。如果最初的雙耳輸入信號有小于最大的相干性,則BCC解碼器將不再生有相同相干性的立體聲信號。其結(jié)果是聽覺圖像常常以產(chǎn)生太窄的圖像而出錯,這產(chǎn)生太“干”的聲學印象。
特別地,左和右輸出聲道將具有高的相干性,因為它們是從同一單聲道信號通過在聽覺臨界頻帶慢變化電平修改產(chǎn)生的。把聽覺范圍劃分為離散數(shù)目的音頻子帶的臨界頻帶模型,心理聲學中用來解釋聽覺系統(tǒng)的譜融合。對于耳機回放,左和右輸出聲道分別是左和右耳輸入信號。如果耳信號具有高相干性,則在信號中獲得的聽覺對象將被感覺為非常“局部化”,且它們在聽覺空間圖像中只有很小的散布。對于揚聲器回放,揚聲器信號只是直接確定耳信號,因為必須考慮從左揚聲器到右耳以及從右揚聲器到左耳的串音。此外,房間的反射對于感知的聽覺圖像也能夠起到重要作用。然而,對于揚聲器回放,類似于耳機回放,高相干信號的聽覺圖像是非常窄且局部的。
根據(jù)‘437申請,‘877和‘437申請的BCC技術(shù)延伸到包含基于輸入音頻信號相干性的BCC參數(shù)。相干性參數(shù)從BCC編碼器與其他BCC參數(shù)與編碼的單聲道信號平行傳送到BCC解碼器。BCC解碼器解碼器采用相干性參數(shù)與其他BCC參數(shù)組合,以合成一種帶有聽覺對象的聽覺場景(例如雙耳信號的左和右聲道),這些對象的感知寬度更精確地匹配產(chǎn)生最初輸入到BCC編碼器的音頻信號的聽覺對象的寬度。
與由‘877和‘437申請的BCC技術(shù)產(chǎn)生聽覺對象的窄圖像寬度相關(guān)的問題,是對不精確估計聽覺空間線索(即BCC參數(shù))的敏感性。特別是使用耳機回放,應當處于空間中穩(wěn)定位置的聽覺對象趨向隨機運動。無意識在附近的運動的對象的感知可能是令人討厭的,并實質(zhì)上降低了感知的音頻質(zhì)量。當采用‘437申請的實施例時,這一問題如果不是完全但基本上消失了。
‘437申請的基于相干的技術(shù)在相對高的頻率比在相對低的頻率趨向工作得更好。根據(jù)本發(fā)明一定的實施例,‘437申請的基于相干的技術(shù)對于一個或多個—并可能所有的--頻率子帶由回響技術(shù)代替。在一個混合的實施例中,對于低頻(例如低于規(guī)定的(例如憑經(jīng)驗確定的)閾值頻率的頻率子帶)實現(xiàn)了回響技術(shù),而對于高頻(例如大于閾值頻率的頻率子帶)實現(xiàn)‘437申請的基于相干的技術(shù)。
在一個實施例中,本發(fā)明是用于合成聽覺場景的一種方法。至少一個輸入聲道被處理以產(chǎn)生兩個或多個被處理的輸入信號,且至少一個聲道被濾波以產(chǎn)生兩個或多個漫射的信號。兩個或多個漫射信號與兩個或多個被處理的輸入信號組合,以為聽覺場景產(chǎn)生多個輸出聲道。
在另一實施例中,本發(fā)明用于合成聽覺場景的一種設(shè)備。該設(shè)備包括至少一個時域到頻域(TD-FD)轉(zhuǎn)換器與多個濾波器的一種配置,其中該配置適于從至少一個TD輸入聲道產(chǎn)生兩個或多個被處理的FD輸入信號和兩個或多個漫射的FD信號。該設(shè)備還具有(a)兩個或多個組合器,其適于組合兩個或多個漫射FD信號與兩個或多個被處理的FD輸入信號,以產(chǎn)生多個合成的FD信號,以及(b)兩個或多個頻域到時域(TD-FD)轉(zhuǎn)換器,其適于把合成的FD信號轉(zhuǎn)換為用于聽覺場景的多個TD輸出聲道。
從以下詳細的說明,所附的權(quán)利要求,及伴隨的圖示,本發(fā)明的其他方式,特征和優(yōu)點將更為充分地表現(xiàn)出來,其中圖1示出傳統(tǒng)的雙耳信號合成器的高級框圖,其把單音頻源信號(例如單聲道信號)轉(zhuǎn)換為雙耳信號的左和右音頻信號;
圖2示出傳統(tǒng)的聽覺場景合成器的高級框圖,其把多個頻源信號(例如多個單聲道信號)轉(zhuǎn)換為單個組合雙耳信號的左和右音頻信號;圖3示出進行雙耳線索編碼的一種音頻處理系統(tǒng)的框圖;圖4示出根據(jù)‘437申請的一個實施例圖3對應于相干度量產(chǎn)生的BCC分析器的處理部分的框圖;圖5示出由圖3的BCC合成器的一個實施例進行的音頻處理的框圖,使用基于相干音頻合成把單個組合聲道轉(zhuǎn)換為兩個或多個合成的音頻輸出聲道;圖6(A)-(E)表示有不同線索編碼的信號的感知;圖7示出由圖3的BCC合成器進行的音頻處理的框圖,根據(jù)本發(fā)明的一個實施例使用基于回響的音頻合成,把單個組合聲道轉(zhuǎn)換為(至少)兩個合成的音頻輸出聲道;圖8-10表示一示例性五聲道音頻系統(tǒng);圖11和12圖示出后期混響(late reverberation)濾波與DFT變換的定時;圖13示出由圖3的BCC合成器進行的音頻處理的一框圖,根據(jù)本發(fā)明另一實施例使用基于回響的音頻合成,把單個組合聲道轉(zhuǎn)換為兩個合成的音頻示出聲道,其中LR處理在頻率域中實現(xiàn)。
具體實施例方式
基于BCC的音頻處理圖3示出進行雙耳線索編碼(BCC)的音頻處理系統(tǒng)300的框圖。BCC系統(tǒng)300有一個BCC編碼器302,其接收C音頻輸入聲道308,其來自例如分布在音樂廳內(nèi)不同位置的C個不同的麥克風306的每一個。BCC編碼器302有一個下降混頻器(downmixer)310,其把C個音頻輸入聲道轉(zhuǎn)換為(例如求平均)一個或多個但少于C個組合的聲道312。此外,BCC編碼器302具有一BCC分析器314,其對于C個輸入聲道產(chǎn)生BCC線索代碼數(shù)據(jù)流316。
在一種可能的實現(xiàn)中,對于每一輸入聲道BCC線索代碼包含聲道之間電平差(ICLD),聲道之間的時間差(ICTD),以及聲道之間的相關(guān)(ICC)數(shù)據(jù)。BCC分析器314最好進行模擬‘877‘458申請中所述的基于頻帶的處理,以便對于音頻輸入聲道的一個或多個不同的頻率子帶產(chǎn)生ICLD和ICTD數(shù)據(jù)。此外,BCC分析器314最好對每一頻率子帶產(chǎn)生相干度量作為ICC數(shù)據(jù)。這些相干度量在本說明書的下節(jié)中更詳細描述。
BCC編碼器302向BCC系統(tǒng)300的BCC解碼器304傳送一個或多個組合聲道312與BCC線索代碼數(shù)據(jù)流316(例如對于組合聲道頻帶內(nèi)或頻帶外側(cè)的信息)。BCC解碼器304具有輔助信息處理器318,其處理數(shù)據(jù)流316以便恢復BCC線索代碼320(例如ICLD,ICTD,及ICC數(shù)據(jù))。BCC解碼器304還具有一個BCC合成器322,其使用恢復的BCC線索代碼320從一個或多個組合的聲道312合成C個音頻輸出聲道324,用于分別通過C個揚聲器326播放。
從BCC編碼器302到BCC解碼器304的數(shù)據(jù)傳輸?shù)亩x將依賴于音頻處理系統(tǒng)300具體的應用。例如,諸如音樂會現(xiàn)場廣播等某些應用中,傳輸可能涉及用于在遠方立即回放的數(shù)據(jù)的實時傳輸。在其他應用中,“傳輸”可能涉及向CD或其他適當?shù)拇鎯橘|(zhì)供后來(即非實時)回放的數(shù)據(jù)的存儲。當然,其他的應用也是可能的。
在音頻處理系統(tǒng)300的一種可能的應用中,BCC編碼器302把傳統(tǒng)的5.1環(huán)繞聲(即五個通常的音頻聲道+一個低頻效果(LFE)聲道,也稱為亞低音聲道)的六個音頻輸入聲道,轉(zhuǎn)換為單個的組合聲道312及對應的BCC線索代碼316,且BCC編碼器304從單個的組合聲道312和BCC線索代碼316,產(chǎn)生合成的5.1環(huán)繞聲(即五個合成的普通的音頻聲道+一個合成的LFE聲道)。包含7.1環(huán)繞聲或10.2環(huán)繞聲的許多其他應用也可能的。
此外,雖然C個輸入聲道可下降混頻為單個的組合聲道312,但在另一實現(xiàn)中,C個輸入聲道可下降混頻為兩個或多個不同的組合聲道,這取決于具體的音頻處理應用。某些應用中,當下降混頻產(chǎn)生兩個組合聲道時,可使用傳統(tǒng)的立體聲音頻傳輸機制傳送組合的聲道數(shù)據(jù)。這樣又可提供向后兼容性,其中使用傳統(tǒng)(即非基于BCC)的立體聲解碼器回放兩個BCC組合聲道。當產(chǎn)生單個的BCC組合聲道時,可對單聲道解碼器提供類似的向后兼容性。
雖然BCC系統(tǒng)300可有與音頻輸出聲道相同數(shù)目的音頻輸入聲道,但在另一實施例中,輸入聲道的數(shù)目可或大于或小于輸出聲道的數(shù)目,這取決于具體的應用。
取決于具體的實現(xiàn),由圖3的BCC編碼器302與BCC解碼器304接收和產(chǎn)生的各種信號,可以是任何包含全模擬或全數(shù)字的模擬和/或數(shù)字信號的適當組合。雖然圖3中未示出,但業(yè)內(nèi)專業(yè)人員將理解,一個或多個組合的聲道312與BCC線索數(shù)據(jù)流316可進一步通過BCC編碼器302被編碼,并對應地通過BCC解碼器304例如基于某種適當壓縮方案(例如ADPCM)被解碼,以進一步降低傳輸數(shù)據(jù)量。
相干估計圖4示出根據(jù)‘437申請的一個實施例圖3對應于相干度量產(chǎn)生的BCC分析器314的處理部分的框圖。如圖4中所示,BCC分析器314包括兩個時間-頻率(TF)變換塊402和404,其采用適當?shù)淖儞Q,諸如長度1024的短時離散付立葉變換(DFT),把左和右輸入音頻聲道L和R從時域分別轉(zhuǎn)換到頻域。每一變換塊產(chǎn)生對應于輸入音頻聲道不同頻率子帶的數(shù)個輸出。相干估計器406特征體現(xiàn)了每一個不同的考慮的臨界帶(以下標記為子帶)的相干。業(yè)內(nèi)專業(yè)人員將理解,在最優(yōu)的基于DFT的實現(xiàn)中,看作為一個臨界帶的數(shù)個DFT系數(shù)從臨界帶變?yōu)橛休^低頻率臨界帶的臨界帶,其一般比高頻率臨界帶具有較少系數(shù)。
在一種實現(xiàn)中,估計每一DFT系數(shù)的相干。左聲道DFT譜的譜分量KL的實部和虛部可分別標記為Re{KL}和Im{KL},對于右聲道是類似的。這種情形下,對于左和右聲道的功率估計PLL和PRR可分別由以下方程式(1)和(2)表示PLL=(1-α)PLL+α(Re2{KL}+Im2{KL})(1)PRR=(1-α)PRR+α(Re2{KR}+Im2{KR})(2)
實和虛交叉項PLR,Re和PLR,Im分別由以下方程式(3)和(4)給出PLR,Re=(1-α)PLR+α(Re{KL}Re{KR}-Im{KL}Im{KR})(3)PLR,Im=(1-α)PLR+α(Re{KL}Im{KR}+Im{KL}Re{KR})(4)因子α確定了估計窗口持續(xù)時間,并對于32kHz音頻采樣率和512采樣的幀位移能夠選擇為α=0.1。如從方程式(1)-(4)所推導,對于子帶的相干估計γ由以下方程式(5)給出γ=(PLR,Re2+PLR,Im2)/(PLLPRR)---(5)]]>如上所述,在每一臨界帶上相干估計器406對系數(shù)相干估計γ求平均。對于這求平均,最好在求平均之前向子帶相干估計施加一加權(quán)函數(shù)??梢允辜訖?quán)與由方程式(1)和(2)給出的功率估計成比例。對于包含譜分量n1,n1+1,...,n2的一個臨界帶p,求平均的加權(quán)相干γp可使用以下方程式(6)計算γ‾p=Σn=n1n2{(PLL(n)+PRR(n))γ(n)}Σn=n1n2{(PLL(n)+PRR(n))}---(6)]]>其中PLL(n),PRR(n)和γ(n)為對于分別由方程式(1),(2)和(6)給出的譜系數(shù)n的左聲道功率,右聲道功率,與相干估計。注意,方程式(1)-(6)對于每一譜系數(shù)n適用。
在圖3的BCC編碼器302的一種可能的實現(xiàn)中,對于包含在傳輸?shù)紹CC解碼器304的BCC參數(shù)流,通過BCC分析器314產(chǎn)生對于不同臨界帶的平均加權(quán)相干估計γp。
基于相干的音頻合成圖5示出由圖3的BCC合成器322的一實施例進行的音頻處理的框圖,使用基于相干的音頻合成把單個組合聲道312(S(n))轉(zhuǎn)換為C個合成的音頻輸出聲道324(x^1(n),x^2(n),...,x^C(n)).]]>具體來說,BCC合成器322有一個聽覺濾波器組(AFB)塊502,其進行時間-頻率(TF)變換(例如快速付立葉變換(FFT)),把時域組合聲道312轉(zhuǎn)換為C個對應的頻域信號504的拷貝 頻域信號504的每一拷貝,基于從由圖3的輔助信息處理器318恢復的對應的聲道間時間差(ICTD)數(shù)據(jù)推導的時延值(di(k)),在對應的時延塊506被時延。每一結(jié)果的時延信號508通過對應的乘法器510,基于輔助信息處理器318恢復的對應的聲道電平差(ICLD)數(shù)據(jù)推導的換算(即增益)因子(ai(k))被換算。
結(jié)果的換算信號512施加到相干處理器514,其基于由輔助信息處理器318恢復的ICC相干數(shù)據(jù)施加相干處理。以產(chǎn)生C個合成的頻域信號516(x^~1(n),x^~2(n),...,x^~C(n)),]]>每一輸出聲道一個。然后每一合成的頻域信號516施加到對應的逆AFB(IAFB)塊518,以產(chǎn)生不同的時域輸出聲道324 在一優(yōu)選的實現(xiàn)中,每一時延塊506,每一乘法器510及相干處理器514的處理是基于頻帶的,其中潛在不同的時延值、換算因子、與相干度量施加到施加到頻域信號的每一不同拷貝的每一不同頻率子帶。對每一子帶給定估計的相干,量值在子帶內(nèi)按一頻率的函數(shù)變化。另一可能性是按估計的相干函數(shù)在分割中改變作為頻率函數(shù)的相位。在一優(yōu)選實現(xiàn)中,改變相位以便作為子帶內(nèi)頻率的函數(shù)施加不同的時延或組時延。而且,最好這樣進行量值和/或時延(或組時延)變化,使得在每一臨界帶中修改的平均值為零。其結(jié)果是,在子帶內(nèi)的ICLD和ICTD不會被相干合成所改變。
在一優(yōu)選的實現(xiàn)中,引入的量值的幅度g(或變化)或相位的變化基于左和右聲道估計的相干被控制。對于較小的相干,增益g應當作為相干γ的適當?shù)暮瘮?shù)f(γ)被正確地映射。一般來說,如果相干大(例如接近最大可能的值+1),則輸入聽覺場景中對象狹窄。這種情形下,增益g應當小(例如接近最小可能值0),使得在子帶內(nèi)實際上沒有量值或相位修改。另一方面,如果相干小(例如接近最小可能值0),則輸入聽覺場景中的對象寬。這種情形下,增益g應當大,使得有明顯的量值和/或相位修改,結(jié)果是在修改的子帶信號之間有低相干。
對于一具體臨界帶量值g的適當?shù)挠成浜瘮?shù)f(γ)由以下方程式(7)給出g=5(1-γ) (7)其中γ是對于對應的臨界帶估計的相干,其作為BCC參數(shù)流的一部分傳輸?shù)紹CC解碼器304。根據(jù)這一線性映射函數(shù),當估計的相干γ為1時增益g為0,并當γ=1時g=5。在另一實施例中,增益g可以是相干的非線性函數(shù)。
雖然已經(jīng)在基于偽隨機序列修改加權(quán)因子wL和wR的情形下描述了基于相干的音頻合成,但該技術(shù)不限于此。一般來說,基于相干的音頻合成適用于較大(例如臨界)帶的子帶之間任何感知的空間線索的修改。修改的函數(shù)不限于隨機序列。例如,修改函數(shù)可基于正弦函數(shù),其中(方程式(9)的)ICLD在子帶內(nèi)作為頻率的函數(shù)以正弦方式變化。在某些實現(xiàn)中,正弦波的周期從臨界帶向臨界帶作為對應的臨界帶寬度的函數(shù)變化(例如在每一臨界帶內(nèi)對應的正弦波的一個或多個全周期)。在其他實現(xiàn)中,正弦波的周期在整個頻率范圍上不變。在這兩種實現(xiàn)中,正弦修改函數(shù)最好在臨界帶之間連續(xù)。
修改函數(shù)的另一例子是鋸齒形或三角形函數(shù),它們在正最大值和對應的負最小值之間線性地斜坡上升和下降。這里也與實現(xiàn)相關(guān),相關(guān)函數(shù)的周期可從臨界頻帶到臨界頻帶變化,或在整個頻率范圍不變,但在任何情形下在臨界頻帶之間最好是連續(xù)的。
雖然已經(jīng)在隨機,正弦的和三角形函數(shù)情形下描述了基于相干的音頻合成,但在每一臨界頻帶內(nèi)修改加權(quán)因子的其他函數(shù)也是可能的。如同正弦和三角形函數(shù)那樣,這些其他修改函數(shù)可能但并非必須在臨界頻帶之間是連續(xù)的。
根據(jù)上述基于相干的音頻合成的實施例,通過在音頻信號的臨界頻帶子頻帶之間引入修改水平差實現(xiàn)空間表現(xiàn)力。另外或加之,可采用基于修改的音頻合成以修改時間差,作為真實的感知空間線索。具體來說,可如下對時間差采用類似于上述對于水平差生成聽覺對象的較寬空間圖像的技術(shù)。
如‘877和‘458申請中所定義,兩個音頻聲道之間的子頻帶s的時間差標記為τs。根據(jù)基于相干的音頻合成的一定的實現(xiàn),可引入時延位移ds和增益因子gc,以根據(jù)以下方程式(8)對于子頻帶s產(chǎn)生修改的時間差τs’。
τs′=gcds+τs(8)時延位移ds對于每一子頻帶最好對時間不變,但在子頻帶之間有變化,并能夠選擇為零平均隨機序列或較平滑的函數(shù),在每一臨界頻帶中最好具有零平均值。如同方程式(9)的增益因子gc,相同的增益因子gc可用于落入每一臨界頻帶c內(nèi)的所有的子頻帶n,但增益因子可從臨界頻帶到臨界頻帶變化。增益因子gc是使用映射函數(shù)從相干估計推導的,這函數(shù)最好與方程式(7)的線性映射函數(shù)成正比。于是,gc=ag,其中常數(shù)值a通過實驗調(diào)節(jié)確定。在另一些實施例中,增益gc可以是相干的非線性函數(shù)。BCC合成器322采用修改的時間差τs’代替原來的時間差τs。為了增加聽覺對象的圖像寬度,可即采用水平差又采用時間差修改。
雖然已經(jīng)在產(chǎn)生立體聲音頻場景的左和右頻道的情形下描述了基于相干的處理,但該技術(shù)可擴展到任意數(shù)目的合成輸出聲道。
基于回響的音頻合成定義,符號與變量對于有時間下標k的兩音頻頻道的對應的頻域輸入子頻帶信號 和 以下度量用于ICLD,ICTD及ICCoICLD(dB)ΔL12(k)=10log10(px~2(k)px~1(k))---(9)]]>其中 和 分別是信號 和 的短時間估計。
oICTD(采樣)τ12(k)=argmaxd{Φ12(d,k)}---(10)]]>使用短時間標準化互相關(guān)函數(shù)估計
Φ12(d,k)=px~1x~2(d,k)px~1(k-d1)px~2(k-d2)---(11)]]>其中d1=max{-d,0}d2=max{d,0} (12)并且px~1x~2(d,k)]]>是x~1(k-d1)x~2(k-d2)]]>平均的短時間估計。
oICCc12(k)=maxd|Φ12(d,k)|---(13)]]>注意,考慮了標準化互相關(guān)的絕對值,且c12(k)的范圍是
。不必考慮負值,因為ICTD包含了由c12(k)的符號表示的相位信息。
本說明書中使用以下符號和變量*卷積算子i音頻聲道下標k子頻帶信號時間下標(也是STFT譜的時間下標)C編碼器輸入聲道數(shù),也是解碼器輸出聲道數(shù)xi(n)時域編碼器輸入音頻聲道(例如圖3的聲道308之一) xi(n)的一個頻域子頻帶信號(例如圖4從TF變換402或404的輸出之一)s(n)被傳輸?shù)臅r域組合聲道(例如圖3的合聲道312) s(n)的頻域子頻帶信號(例如圖7的信號704)si(n)去相關(guān)的時域組合聲道(例如圖7被濾波的聲道722) si(n)的頻域子頻帶信號(例如圖7對應的信號726) 時域編碼器輸出音頻聲道(例如圖3的信號324) 的一個頻域子頻帶信號(例如圖7對應的信號716) 功率的短時估計hi(n)用于輸出聲道i的后期回響(LR)濾波器(例如圖7的LR濾波器)M LR濾波器hi(n)的長度ICLD聲道間電平差
ICTD聲道間時間差I(lǐng)CC聲道間相關(guān)ΔL1i(k)聲道1與聲道i之間的ICLDτ1i(k)聲道1與聲道i之間的ICTDc1i(k)聲道1與聲道i之間的ICCSTFT短時付立葉變換Xi(jω)信號的STFT譜ICLD,ICTD和ICC的感知圖6(A)-(E)示出有不同線索代碼的信號感知。具體來說,圖6(A)表示一對揚聲器信號之間的ICLD和ICTD如何確定聽覺事件的感知角度。圖6(B)示出一對耳機信號之間的ICLD和ICTD如何確定出現(xiàn)在頭上部前方部分的聽覺事件的位置。圖6(C)示出,在揚聲器信號之間的ICC降低時,聽覺事件的范圍如何增加(從區(qū)域1到區(qū)域3)。圖6(D)示出,當左和右耳機信號之間的ICC降低時,聽覺對象的范圍如何增加(從區(qū)域1到區(qū)域3),直到兩個不同的聽覺事件在側(cè)面出現(xiàn)(區(qū)域4)。圖6(E)示出,對于多揚聲器回放,在信號之間的ICC降低時,環(huán)繞收聽者的聽覺事件范圍如何增加(從區(qū)域1到區(qū)域4)。
相干的信號(ICC=1)圖6(A)和6(B)示出,對于相干揚聲器和耳機信號不同的ICLD和ICTD值感知的聽覺事件。振幅搖動(panning)是為表現(xiàn)用于揚聲器與耳機回放的音頻信號最常用的技術(shù)。當左和右揚聲器或耳機信號相干(即ICC=1),有相同的電平(即ICLD=0),及沒有時延(即ICTD=0)時,在中心出現(xiàn)聽覺事件,如圖6(A)與6(B)中區(qū)域1所示。注意,對于圖6(A)的揚聲器回放,聽覺事件出現(xiàn)在兩個揚聲器之間,而對于圖6(B)的耳機回放,出現(xiàn)在上半頭的前方部分。
通過增加一側(cè)的電平,例如右側(cè)聽覺事件向該側(cè)移動,如圖6(A)和6(B)中區(qū)域2所示。在極限的情形下,例如當只有左側(cè)信號有效時,聽覺事件出現(xiàn)在左側(cè),如圖6(A)和6(B)中區(qū)域3所示。ICTD可類似地用來控制聽覺事件的位置。對于耳機回放,為此可采用ICTD。然而,由于幾個原因ICTD最好不用于揚聲器回放。當收聽者準確地在最有效點時,ICTD值在自由場中最有效。在封閉的環(huán)境中由于反射,ICTD(范圍小,例如±1ms)將對聽覺事件感知的方向影響很小。
部分相干信號(ICC<1)當通過一對揚聲器同時發(fā)射相干(ICC=1)寬帶聲音時,感知到相對緊湊的聽覺事件。當ICC在這些信號之間降低時,聽覺事件的范圍如圖6(C)所示從區(qū)域1到區(qū)域3增加。對于耳機回放,如圖6(D)所示可觀察到類似的趨勢。當由耳機發(fā)射兩個等同的信號(ICC)時,如同在區(qū)域1那樣感知到相對緊湊的聽覺事件。在耳機信號之間的ICC降低時,如同在區(qū)域2和3,聽覺事件的范圍增加,如同區(qū)域4直到在這些側(cè)感知到兩個不同的聽覺事件。
一般來說,ICLD和ICTD確定感知的聽覺事件的位置,且ICC確定聽覺事件的范圍或漫射性。此外,有收聽的情形,這時收聽者不僅在一定距離感知到聽覺事件,而且通過漫射聲音感知被環(huán)繞。這一現(xiàn)象被稱為收聽者包絡(luò)。例如這種情形在音樂廳中出現(xiàn),其中后期混響從所有的方向到達收聽者的耳朵。如圖6(E)所示,通過從分布在收聽者周圍的所有揚聲器發(fā)射獨立噪聲信號能夠引起類似的體驗。在這種情景下,在ICC與環(huán)繞收聽者的聽覺事件范圍之間有一種關(guān)系,如同區(qū)域1到4。
上述的感知可通過混合數(shù)個有低ICC的去相關(guān)音頻聲道產(chǎn)生。下節(jié)描述了用于產(chǎn)生這種效果的基于回響的技術(shù)。
從單個組合聲道產(chǎn)生漫射聲音如前所述,音樂廳是收聽者感知漫射聲音一種典型的情景。在后期混響期間,聲音從隨機角度以隨機強度到達耳朵,使得兩個耳朵輸入信號之間的相關(guān)低。這給出用于通過以對后期混響建模的濾波器,對給定的組合音頻聲道s(n)濾波,產(chǎn)生數(shù)個去相關(guān)音頻聲道的動機。本說明書中結(jié)果的濾波聲道還稱為“漫射聲道”。
通過以下方程式(14)獲得C個漫射聲道si(n),(1≤i≤C)si(n)=hi(n)*s(n) (14)
其中*標記卷積,而hi(n)是對后期混響建模的濾波器。后期混響能夠通過以下方程式(15)建模 其中而ni(n)(1≤i≤C)是獨立駐定的高斯白噪聲信號,T是以秒計脈沖響應的以秒計的指數(shù)衰減的時間常數(shù),fs是采樣頻率,而M是采樣脈沖響應的長度。選擇一指數(shù)衰減,是因為后期混響的強度一般在時間上是指數(shù)衰減的。
許多音樂廳的回響衰減范圍是1.5到3.5秒。為了使漫射音頻聲道充分獨立以便產(chǎn)生音樂廳錄音的漫射,T是這樣選擇的,使得hi(n)的回響時間在相同的范圍。這是T=0.4秒的情形(結(jié)果是回響時間大約2.8秒)。
通過作為s(n)和si(n)(1≤i≤C)的加權(quán)和計算每一耳機或揚聲器信號聲道,可產(chǎn)生有所需漫射的信號(當使用si(n)時帶有類似于音樂廳最大的漫射)。如下節(jié)所示,BCC合成最好在每一子帶分別采用這種處理。
基于回響的示例性音頻合成器圖7示出由圖3的BCC合成器322進行的音頻處理的框圖,其根據(jù)本發(fā)明的一實施例,使用基于回響的音頻合成,把信號組合聲道312(s(n))轉(zhuǎn)換為(至少)兩個合成的音頻輸出聲道324(x^1(n),x^2(n),...).]]>如圖7所示并類似于圖5的BCC合成器322中的處理,AFB塊702把時間域組合聲道312轉(zhuǎn)換為對應的頻域信號704 的兩個拷貝。頻域信號704的每一個拷貝,基于從由圖3的輔助信息處理器318恢復的對應的聲道間時間差(ICTD)數(shù)據(jù)推導的時延值(di(k)),在對應的時延塊706被時延。每一結(jié)果的時延信號708,基于從由輔助信息處理器318恢復的線索代碼數(shù)據(jù)推導的換算因子,由對應的乘法器710換算。這些換算因子的推導在以下進一步詳細說明。結(jié)果的換算時延信號712施加到求和結(jié)點714。
除了施加到AFB塊702之外,組合聲道312的拷貝還施加到后期混響(LR)處理器720。在某些實現(xiàn)中,LR處理器產(chǎn)生一信號,其類似于假如組合聲道312在該音樂廳中回放在音樂廳引起的后期混響。此外,LR處理器可用來產(chǎn)生對應于音樂廳中不同位置的后期混響,使得它們的輸出信號是去相關(guān)的。這種情形下,組合聲道312和漫射LR輸出聲道722(s1(n),s2(n))將具有高度的獨立性(即ICC值接近零)。
如上節(jié)使用方程式(14)和(15)所述,漫射LR聲道722可通過對組合的信號312濾波產(chǎn)生。另外,LR處理器可基于任何其他適當?shù)幕仨懠夹g(shù)實現(xiàn),諸如在以下文獻所述,M.R.Schroeder,“自然發(fā)聲人工回響,”J.Aud.Eng.Soc.vol.10,no.3,pp.219-223,1962,以及W.G.Gardner,Applications of Digital Signal Processing to Audio and Acoustics,Kluwer Academic Publishing,Norwell,MA,USA,1998。一般來說,優(yōu)選的LR濾波器是具有基本上隨機的頻率響應的濾波器,其譜包絡(luò)是基本上是平緩的。
漫射LR聲道722用于AFB塊724,這把時域LR聲道722轉(zhuǎn)換為頻域LR信號726 AFB塊702和724最好是可逆的濾波器組,其帶寬等于或正比于聽覺系統(tǒng)的臨界帶寬。對于輸入信號s(n),s1(n)和s2(n)的每一子頻帶信號分別標記為 或 不同的時間下標k用于分解的信號,而不是輸入聲道時間下標n,因為子帶信號通常以比原來的輸入聲道低的采樣頻率表示。
乘法器728使頻域LR信號726乘以從由輔助信息處理器318恢復的線索代碼數(shù)據(jù)推導的換算因子(bi(k))。這些換算因子的推導在以下進一步詳細說明。結(jié)果的換算LR信號730施加到求和結(jié)點714。
求和結(jié)點714把來自乘法器728的換算的LR信號加到來自乘法器710的對應的換算的、時延的信號712,以對于不同的輸出聲道產(chǎn)生頻域信號716 在求和結(jié)點714產(chǎn)生的子帶信號716由以下方程式(16)給出
x^~1(k)=a1s~(k-d1)+b1s~1(k)]]>x^~2(k)=axs~(k-d2)+b2s~2(k)---(16)]]>其中換算因子(a1,a2,b1,b2)與時延(d1,d2)確定為所需的ICLDΔL12(k),ICTDτ12(k),與ICC c12(k)的函數(shù)。(為了簡潔省略了換算因子與時延的時間下標)。信號 對所有子帶產(chǎn)生。雖然圖7的實施例依賴于求和結(jié)點組合換算的LR信號與對應的換算,時延信號,在另一實施例中,可使用與求和結(jié)點不同的組合器組合信號??商娲慕M合器的例子包括進行加權(quán)求和,量值求和或最大值選擇的組合器。
ICTDτ12(k)通過對 施以不同的時延被合成。這些時延通過方程式(10)以d=τ12(n)計算。為了使輸出子帶信號具有等于方程式(9)的ΔL12(k)的ICLD,換算因子(a1,a2,b1,b2)應當滿足以下方程式(17)a12ps~(k)+b12ps~1(k)a22ps~(k)+b22ps~2(k)=10ΔL12(k)10---(17)]]>其中ps~(k),ps~1(k),ps~2(k)]]>分別是子帶信號s~(k),s~1(k),s~2(k)]]>的短時功率估計。
為了使輸出子帶信號具有方程式(13)的ICC c12(k),換算因子(a1,a2,b1,b2)應當滿足以下方程式(18)(a12+a22)ps~(k)(a12ps~(k)+b12ps~1(k))(a22ps~(k)+b22ps2~(k))=c12(k)---(18)]]>假設(shè)s~(k),s~1,s~2(k)]]>是獨立的。
每一IAFB塊718把一組頻域信號716轉(zhuǎn)換為用于輸出聲道之一的時域聲道324。由于每一LR處理器720能夠用于對從音樂廳中不同方向發(fā)出的后期混響建模,可對不同的后期混響建模用于圖3音頻處理系統(tǒng)300不同的揚聲器326。
BCC合成通常標稱化其輸出信號,使得所有輸出聲道的功率和等于輸入組合信號的功率。這對增益因子產(chǎn)生了另一方程式(a12+a12)ps~(k)+b12ps~1(k)+b22ps~2(k)=ps~(k)---(19)]]>由于有四個增益因子和三個方程式,在選擇增益因子中仍然有一個自由度。這樣附加的條件可以公式表示為b12ps~1(k)=b22ps~2(k)---(20)]]>方程式(20)意味著漫射音量在兩個聲道總是相同的。有幾個為這樣作的動機。首先,漫射音在音樂廳如同后期混響具有幾乎與位置無關(guān)的電平那樣出現(xiàn)(對于相對小的位移)。這樣,兩個聲道之間的漫射音的電平差總是大約為0dB。其次,這有美好的邊效果,即當ΔL12(k)很大時,只有漫射音混入緊弱的聲道。這樣,較強聲道的聲音被最小地修改,降低了長回旋的負面效果,諸如瞬時的時間散布。
方程式(17)-(20)的非負解產(chǎn)生以下用于換算因子的方程式a1=10ΔL12(k)10+c12(k)10ΔL12(k)20-12(10ΔL12(k)10+1)]]>a2=-10ΔL12(k)10+c12(k)10ΔL12(k)20+12(10ΔL12(k)10+1)]]>b1=(10ΔL12(k)10+c12(k)-10ΔL12(k)20+1)ps~(k)2(10ΔL12(k)10+1)ps~1(k)---(21)]]>b2=(10ΔL12(k)10+c12(k)-10ΔL12(k)20+1)ps~(k)2(10ΔL12(k)10+1)ps~2(k)]]>多聲道BCC合成雖然圖7所示的配置產(chǎn)生兩個輸出聲道,但通過替代圖7虛線塊中所示的配置,該配置可擴展到任何更大數(shù)目的輸出聲道。注意,在本發(fā)明的這些實施例中,有一個LR處理器720用于每一輸出聲道。還要注意,在這些實施例中,每一LR處理器的實現(xiàn)是在時域中對組合的聲道工作。
圖8表示一示例性五聲道音頻系統(tǒng)。只要在基準聲道(例如聲道號1)與其它四聲道中每一個之間定義ICLD和IDTD即可,其中ΔL1i(k)與τ1i(k)標記基準聲道1與聲道i之間的ICLD和ICTD,2≤i≤5。
與ICLD和ICTD相反,ICC有更多的自由度。一般來說,ICC在所有可能的輸入聲道對之間可具有不同的值。對于C個聲道,有C(C-1)/2個可能的聲道對。例如,對于五聲道,有十個聲道對,如圖9所示。
給定組合信號s(n)的子帶 加C-1漫射聲道 的子帶,其中(1≤i≤C-1),并假設(shè)漫射聲道是獨立的,能夠產(chǎn)生C個子帶信號,使得每一可能的聲道對之間的ICC與在原始信號對應的子帶中估計的ICC相同。然而,這種方案將涉及對每一子帶在每一時間下標估計和傳輸C(C-1)/2個ICC值,結(jié)果造成相對高的計算復雜性和相對高的位速率。
對于每一子帶,ICLD和ICTD確定子帶中對應的信號分量的聽覺事件被表現(xiàn)的方向。因而原則上,應當只添加一個ICC參數(shù)即可,該參數(shù)確定聽覺事件范圍或漫射。這樣,在一實施例中,對于每一子帶,在每一時間下標k,只估計對應于該子帶中具有最大功率電平的兩個聲道的一個ICC值。這表示在圖10中,其中在時刻k-1,聲道對(3,4)對于一特定的子帶具有最大功率電平,而在時刻k,聲道對(1,2)對于同一子帶具有最大的功率電平。一般來說,可對每一子帶在每一時間段傳輸一個或多個ICC值。
類似于兩聲道(例如立體聲)的情形,作為組合信號與漫射音頻聲道的子帶信號的加權(quán)和,計算多聲道輸出子帶信號如下x^~1(k)=a1s~(k-d1)+b1s~1(k)]]>x^~2(k)=a2s~(k-d2)+b2s~2(k)---(22)]]>_ _x^~C(k)=aCs~(k-dC)+bCs~C(k)]]>從ICTD如下確定時延di=-min1≤l<Cτ1l(k)i=1τ1l(k)+d12≤i≤C---(23)]]>
在方程式(22)中需要2C個方程式確定2C個換算因子。以下的討論描述導致這些方程式的條件。
oICLD在聲道對之間表示出類似于方程式(17)的C-1個方程式,使得輸出子帶信號具有所需的ICLD線索。
o用于兩個最強的聲道的ICC表示出類似于兩個最強的音頻聲道i1和i2之間的方程式(18)與(20)的兩個方程式,使得(1)這些聲道之間的ICC與編碼器中估計的ICC相同,以及(2)在兩個聲道中的漫射音量分別相同。
o標稱化通過把方程式(19)擴展到C個聲道獲得如下的另一方程式Σi=1Cai2ps~(k)+Σi=1Cbi2ps~i(k)=ps~(k)---(24)]]>o用于C-2個最弱的聲道的ICC選擇對于最弱的C-2個聲道(i≠i1∧i≠i2)漫射音對非漫射音之間的比例與對于次最強聲道i2相同,使得bi2ps~i(k)ai2ps~(k)=bi22ps~i2(k)ai22ps~(k)---(25)]]>結(jié)果是對于全部2C個方程式得到另外的C-2個方程式。換算因子是所述2C個方程式的非負解。
降低計算復雜性如上所述,為了重放自然發(fā)出的漫射聲音,方程式(15)的脈沖響應應當長達幾百毫秒,結(jié)果造成高度計算復雜性。此外,如圖7所示,對于每一hi(t)(1≤i≤C),BCC合成需要附加的濾波器組。
使用用于產(chǎn)生后期混響的人工回響算法并對si(t)使用該結(jié)果,能夠降低計算復雜性。另一可能性是通過采用降低計算復雜性的基于快速付立葉變換(FFT)的算法進行卷積。而另一可能性是在頻域中進行方程式(14)的卷積,而不引入過量的時延。這種情形下,帶有重疊窗口的相同的短時付立葉變換(STFT)可用于卷積也可用于BCC處理。這結(jié)果是卷積計算較低的計算復雜性,且對每一hi(t)不需要使用附加的濾波器組。該技術(shù)是對于單個組合信號s(t)與一般脈沖響應h(t)推導的。
STFT對信號s(t)的開窗口部分施加離散付立葉變換(DFT)。開窗口以標記為窗口跳躍大小N的規(guī)則間隔施加。結(jié)果帶有窗口位置下標k的開窗口信號為 其中W是窗口長度。Hann窗口可使用長度W=512采樣,且窗口跳躍大小為N=W/2采樣??墒褂脻M足以下條件(在以下假設(shè))其他窗口s(t)=Σk=-∞∞sk(t)---(27)]]>首先,考慮在頻域中實現(xiàn)開窗口信號sk(t)的卷積的簡單情形。圖11(A)示出長度M的脈沖響應h(t)的非零跨度。類似地,在圖11(B)中示出sk(t)的非零跨度。容易驗證,h(t)*sk(t)具有如圖11(C)所示的W+M-1樣本的非零跨度。
圖12(A)-(C)示出,長度W+M-1的下標DFT在何時分別施加到信號h(t),sk(t)和h(t)*sk(t)。圖12(A)示出,H(jω)標記通過在時間下標t=0開始向h(t)施加DFT獲得的頻譜。圖12(B)和12(C)示出,通過在時間下標t=Kn開始施加DFT分別從sk(t)和h(t)*sk(t)計算Xk(jω)和Yk(jω)。容易證明,Yk(jω)=H(jω)Xk(jω)。就是說,因為在信號h(t)和sk(t)的末端的零,結(jié)果是圓周卷積通過等于線性卷積的譜乘積施加到信號。
從卷積和方程式(27)的線性,得出h(t)*s(t)=Σk=-∞∞h(t)*sk(t)---(28)]]>這樣,能夠通過在每一時間t計算乘積H(jω)Xk(jω)并施加逆的STFT(逆的DFT加重疊/加),在STFT的域中實現(xiàn)卷積。長度W+M-1(或更長)的DFT應當以如圖12所示零填充使用。所述的技術(shù)類似于推廣的重疊/加卷積,可使用重疊窗口(帶有任何滿足方程式(27)條件的窗口)。
所述方法對于長脈沖響應(例如M>>W(wǎng))是不實用,因為這時需要使用比W大得多的DFT。以下,所述方法被擴展,使得只需要使用大小W+N-1的DFT。
長度M=LN的長脈沖響應h(t)被劃分為L個較短脈沖響應hl(t),其中 如果mod(M,N)≠0,則N-mod(M,N)零被加到h(t)的尾部。這時以h(t)的卷積可寫為如下較短卷積之和h(t)*s(t)=Σl=0L-1hl(t)*s(t-lN)---(30)]]>同時采樣方程式(29)和(30),產(chǎn)生h(t)*s(t)=Σk=-∞∞Σl=0L-1hl(t)*sk(t-lN)---(31)]]>方程式(31)中作為k和l的函數(shù)的一個卷積的非零時間跨度h(t)*sk(t-lN)是(k+l)N≤t<(k+l+1)N+W。這樣,為獲得其頻譜 DFT施加到這一區(qū)間(對應于DFT位置下標k+1)??梢宰C明,Y~kl(jω)=Hl(jω)Xk(jω),]]>其中Xk(jω)按以前以M=N定義,且Hl(jω)類似于H(jω)定義,但是對于脈沖響應hl(t)。
帶有相同DFT位置下標i=k+l的所有 的和如下Yi(jω)=Σk+l=iY~k+l(jω)]]>=Σl=0L-1Hl(jω)Xi-l(jω)---(32)]]>這樣,在STFT域中通過在每一譜下標i采用方程式(32)而獲得Yi(jω)實現(xiàn)卷積h(t)*sk(t)。施加到Y(jié)i(jω)的逆STFT(逆DFT加重疊/加)如所希望等于卷積h(t)*s(t)。
注意,與h(t)的長度無關(guān),零填充量以N-1為上界(小于STFT窗口跳躍大小的一個采樣)。如果需要,可使用大于W+N-1的DFT(例如使用長度等于二的冪的FFT)。
如上所述,低復雜性BCC合成能夠在STFT域中工作。這種情形下,ICLD,ICTD和ICC合成施加到表示譜分量的STFT箱的組,其帶寬等于或與臨界頻帶的帶寬成比例(其中箱組標記為“分割”)。在這一系統(tǒng)中,為了降低復雜性,代替向方程式(32)施加逆STFT,方程式(32)的譜直接在頻域中用作為漫射音。
圖13示出根據(jù)本發(fā)明的另一實施例,由圖3的BCC合成器322進行的音頻處理的框圖,以便使用基于回響的音頻合成把信號組合聲道312(s(t))轉(zhuǎn)換為兩個合成的音頻輸出聲道324(x^1(t),x^2(t)),]]>其中LR處理是在頻域中實現(xiàn)的。具體來說,如圖13所示,AFB塊1302把時域組合聲道312轉(zhuǎn)換為對應的頻域信號1304 的四個拷貝。頻域信號1304的四個拷貝的兩個施加到時延塊1306,同時另兩個拷貝施加到LR處理器1320,其頻域LR輸出信號1326施加到乘法器1328。圖13的BCC合成器其余的組件和處理類似于圖7的BCC合成器。
當在頻域中實現(xiàn)LR濾波器諸如圖13的LR濾波器1320時,其有可能對不同的頻率的子帶使用不同濾波器長度,例如在較高頻率較短的濾波器。這可用來降低整個的計算復雜性。
混合的實施例即使如圖13當LR處理器在頻域中實現(xiàn)時,BCC合成器的計算復雜性仍然可能相當高。例如如果使用脈沖響應對后期混響建模,則脈沖響應應當相當長,以獲得高質(zhì)量的漫射音。另一方面,‘437申請基于相干的音頻合成一般計算復雜性較小,并對高頻提供良好的性能。這導致能夠?qū)崿F(xiàn)混合的音頻處理系統(tǒng),其對低頻采用本發(fā)明基于回響的處理(例如大約1-3kHz以下的頻率),同時對高頻采用‘437申請基于相干的處理(例如大約1-3kHz以上的頻率),從而實現(xiàn)在整個頻率范圍提供良好性能同時降低了整個計算復雜性的系統(tǒng)。
替代的實施例雖然已就基于回響的BCC處理并還依賴于ICLD和IDTD數(shù)據(jù)的情形下描述了本發(fā)明,但本發(fā)明不限于此。理論上,本發(fā)明的BCC處理能夠在沒有ICLD和/或ICTD數(shù)據(jù),帶有或沒有其他適當線索代碼,諸如與頭相關(guān)的傳遞函數(shù)相關(guān)聯(lián)的代碼下實現(xiàn)。
如前所述,本發(fā)明能夠在產(chǎn)生一個以上的“組合”聲道的BCC編碼的情形下實現(xiàn)。例如,BCC編碼能夠用于5.1環(huán)繞聲的六個輸入聲道,以產(chǎn)生兩個組合聲道一個基于左和左后聲道,一個基于于右和右后聲道。在一種可能的實現(xiàn)中,每一組合的聲道還能夠基于兩個其他的5.1聲道(即中心聲道和LFE聲道)。換言之,第一組合聲道可基于左,后左,中心和LFE聲道之和,而第二組合聲道可基于右,后右,中心和LFE聲道之和。這種情形下,可能有兩組不同的BCC線索代碼一個用于產(chǎn)生第一組合聲道的聲道,一個用于產(chǎn)生第二組合聲道的聲道,使用BCC解碼器有選擇地向兩個組合聲道施加這些線索代碼,一般在接收器產(chǎn)生合成的5.1環(huán)繞聲。這一方案最好使兩個組合聲道能夠作為傳統(tǒng)的左和右聲道在傳統(tǒng)的立體聲接收器上回放。
注意,理論上當有多個“組合”聲道時,一個或多個組合聲道實際上基于單個的輸入聲道。例如,BCC編碼能夠施加到7.1環(huán)繞聲以產(chǎn)生5.1環(huán)繞信號及適當?shù)腂CC代碼,其中例如5.1信號中的LFE聲道可簡單地是7.1信號中LFE聲道的復制。
還就兩個或多個輸出聲道從一個或多個組合聲道合成的音頻合成技術(shù)的情形對本發(fā)明進行了描述,其中有一個濾波器用于每一不同的輸出聲道。在另一實施例中,能夠使用少于C個LR濾波器合成C個輸出聲道。這能夠通過使用一個或多個組合聲道組合少于C個LR濾波器漫射聲道輸出而實現(xiàn),以產(chǎn)生C個合成的輸出聲道。例如,得以產(chǎn)生一個或多個輸出聲道,而無須任何回響,或通過組合結(jié)果的漫射聲道與一個或多個組合聲道的不同的換算、時延版本,一個LR濾波器可用來產(chǎn)生兩個或多個輸出聲道。
另外,這能夠通過采用先前對于一定的輸出聲道描述的回響技術(shù)實現(xiàn)。其他可適用于這種混合實現(xiàn)的基于相干的合成技術(shù)在以下文獻中有述,E.Schuijers,W.Oomen,B.den Brinker,and J.Breebaart,“Advances in parametric coding for high-quality audio,”Preprint114thConvention Aud.Eng.Soc.,March 2003,and Audio Subgroup,Parametric coding for High Quality Audio,ISO/IECJTC1/SC29/WG11 MPEG2002/N5381,December 2002.
雖然已經(jīng)就傳輸聲道的情形描述了圖3中BCC編碼器302和BCC解碼器304之間的接口,但業(yè)內(nèi)專業(yè)人員將理解,此外或替代地該接口可包含一存儲介質(zhì)。取決于具體的實現(xiàn),傳輸聲道可以是有線的或無線的,并可使用定制的或標準化的協(xié)議(例如IP)。諸如CD,DVD,數(shù)字磁帶錄像機及固態(tài)存儲器等介質(zhì)可用作為存儲器。此外,傳輸和/或存儲器可以但不是必須包含聲道編碼。類似地,雖然已就數(shù)字音頻系統(tǒng)的情形描述了本發(fā)明,但業(yè)內(nèi)專業(yè)人員將理解,本發(fā)明還可在模擬音頻系統(tǒng)諸如AM無線廣播,F(xiàn)M無線廣播,及模擬電視廣播的音頻部分的情形實現(xiàn),其中每一個支持包含附加的帶內(nèi)低位速率傳輸聲道。
本發(fā)明能夠?qū)τ谠S多不同的應用實現(xiàn),諸如音樂復制,廣播,及電話技術(shù)。例如,本發(fā)明可對于數(shù)字無線廣播/TV/因特網(wǎng)(例如Web廣播)廣播,諸如Sirius Satellite Radio或XM。其他應用包括通過IP,PSTN的語音或其他語音網(wǎng)絡(luò),模擬廣播及因特網(wǎng)無線廣播。
取決于具體的應用,可采用不同的技術(shù)把BCC參數(shù)集嵌入單聲道音頻信號以實現(xiàn)本發(fā)明的BCC信號。任何具體技術(shù)的可用性至少部分地取決于具體的用于BCC信號的傳輸/存儲介質(zhì)。例如,數(shù)字無線廣播的協(xié)議通常支持包含附加的“增強”位(例如在數(shù)據(jù)包的標頭部分),這通常被傳統(tǒng)的接收器忽略。這些附加位可用來表示聽覺場景參數(shù)集以產(chǎn)生BCC信號。一般來說,本發(fā)明可使用任何適當?shù)挠糜谝纛l信號水印的技術(shù)實現(xiàn),其中對應于聽覺場景參數(shù)集的數(shù)據(jù)嵌入到音頻信號中,以形成BCC信號。例如,這些技術(shù)可能涉及隱藏在感知隱蔽曲線之下的數(shù)據(jù),或隱藏在偽隨機噪聲中的數(shù)據(jù)。偽隨機噪聲可作為“舒服的噪聲”被感知。和可使用類似于在用于帶內(nèi)傳信的TDM(時分多路復用)傳輸?shù)姆椒▽崿F(xiàn)數(shù)據(jù)嵌入。另一可能的技術(shù)mu-law LSB位倒向,其中使用最低有效位傳輸數(shù)據(jù)。
本發(fā)明的BCC編碼器可用來把雙耳信號的左和右音頻聲道轉(zhuǎn)換為一個編碼的單聲道信號及對應的BCC參數(shù)流。類似地,本發(fā)明的BCC解碼器能夠用來基于編碼的單聲道信號與對應的BCC參數(shù)流產(chǎn)生合成的雙耳信號的左和右音頻聲道。然而本發(fā)明不限于此。一般來說,本發(fā)明的BCC編碼器可在轉(zhuǎn)換M個輸入音頻聲道為N個組合音頻聲道及一個或多個對應的BCC參數(shù)集的情形下實現(xiàn),其中M>N。類似地,本發(fā)明的BCC解碼器可在從N個組合的聲道與對應的BCC參數(shù)集合產(chǎn)生P個輸出音頻聲道的情形實現(xiàn),其中P>N,且P可以與M相同或不同。
雖然已就帶有嵌入的聽覺場景參數(shù)的單個組合(例如單聲道)音頻信號傳輸/存儲的情形描述了本發(fā)明,但本發(fā)明還可對于其他聲道數(shù)實現(xiàn)。例如,本發(fā)明可用來傳輸帶有嵌入的聽覺場景參數(shù)的兩聲道音頻信號,其音頻信號可以傳統(tǒng)的兩聲道立體聲接收器回放。這種情形下,BCC解碼器可抽取并使用聽覺場景參數(shù)以合成環(huán)繞聲(例如基于5.1格式)。一般來說,本發(fā)明可用來從帶有嵌入的聽覺場景參數(shù)的N個音頻聲道產(chǎn)生M個音頻聲道,其中M>N。
雖然已在采用‘877及‘458申請的技術(shù)合成聽覺場景的BCC解碼器的情形下描述了本發(fā)明,但本發(fā)明還可在采用其他合成聽覺場景技術(shù)的BCC解碼器的情形下實現(xiàn),其不必依賴于‘877及‘458申請的技術(shù)。
本發(fā)明可作為基于電路的處理實現(xiàn),其包括在單個集成電路上可能的實現(xiàn)。對于業(yè)內(nèi)專業(yè)人員明顯的是,電路元件的各種功能還可作為軟件程序中的處理步驟實現(xiàn)。這種軟件例如可在數(shù)字信號處理器、微控制器、或通用計算機中采用。
本發(fā)明可以方法或?qū)嵺`這些方法的設(shè)備的形式實施。本發(fā)明還可以有形的介質(zhì)程序代碼的形式實施,諸如軟盤,CD-ROM,硬盤,或任何其他機器可讀存儲介質(zhì),其中當程序代碼加載到諸如計算機等機器并由其執(zhí)行時,該機器就成為用于實踐本發(fā)明的設(shè)備。本發(fā)明還可程序代碼的形式實施,例如或者存儲在存儲介質(zhì)中,加載到機器和/或由其執(zhí)行,或者通過某種傳輸介質(zhì)或載體傳輸,諸如通過電線或電纜傳送,通過光纖,或通過電磁輻射,其中當程序代碼加載到諸如計算機等機器并由其執(zhí)行時,該機器就成為實踐本發(fā)明的設(shè)備。當在通用處理器上實現(xiàn)時,程序代碼部分與處理器組合以提供唯一的裝置,其操作類似于專用邏輯電路。
進而還能夠理解,在已經(jīng)描述并為解釋本發(fā)明性質(zhì)的細節(jié)、材料和部件排布上,可由業(yè)內(nèi)專業(yè)人員在不背離以下權(quán)利要求表示的本發(fā)明范圍之下作出各種變化。
權(quán)利要求
1.一種用于合成聽覺場景的方法,包括處理至少一個輸入聲道以產(chǎn)生兩個或多個被處理的輸入信號;對至少一個輸入聲道濾波以產(chǎn)生兩個或多個漫射信號;以及組合這兩個或多個漫射信號與兩個或多個被處理的輸入信號,以產(chǎn)生用于聽覺場景的多個輸出聲道。
2.權(quán)利要求1的發(fā)明,其中處理至少一個輸入聲道包括把至少一個輸入聲道從時域轉(zhuǎn)換到頻域,以產(chǎn)生多個頻域(FD)輸入信號;以及延遲并換算FD輸入信號,以產(chǎn)生多個換算的時延的FD信號。
3.權(quán)利要求2的發(fā)明,其中漫射信號是FD信號;以及對于每一輸出聲道,組合包括對換算、延遲的FD信號之一以及對應的FD漫射輸入信號之一求和,以產(chǎn)生一個FD輸出信號;以及把FD輸出信號從頻域轉(zhuǎn)換為時域,以產(chǎn)生輸出聲道。
4.權(quán)利要求3的發(fā)明,其中對至少一個輸入聲道濾波包括向至少一個輸入聲道施加兩個或多個后期混響濾波器,以產(chǎn)生多個漫射聲道;把漫射聲道從時域轉(zhuǎn)換到頻域,以產(chǎn)生多個FD漫射信號;以及換算FD漫射信號以產(chǎn)生多個換算的FD漫射信號,其中換算的FD漫射信號與換算的、延遲的FD輸入信號組合,以產(chǎn)生FD輸出信號。
5.權(quán)利要求3的發(fā)明,其中至少一個輸入聲道包括向FD輸入信號施加兩個或多個FD后期混響濾波器,以產(chǎn)生多個漫射FD信號;以及換算漫射FD信號以產(chǎn)生多個換算的漫射FD信號,其中換算的漫射FD信號與換算的、延遲的FD輸入信號組合,以產(chǎn)生FD輸出信號。
6.權(quán)利要求1的發(fā)明,其中該方法對小于規(guī)定閾值頻率的輸入聲道頻率施以處理、濾波與組合;以及該方法進而對大于規(guī)定閾值頻率的輸入聲道頻率施以替換的聽覺場景合成處理。
7.權(quán)利要求6的發(fā)明,其中替換的聽覺場景合成處理涉及基于相干的沒有濾波的BCC編碼,其施加到小于規(guī)定閾值頻率的輸入聲道頻率。
8.一種用于合成聽覺場景的設(shè)備,包括用于處理至少一個輸入聲道的裝置,以產(chǎn)生兩個或多個處理的輸入信號;用于濾波至少一個輸入聲道的裝置,以產(chǎn)生兩個或多個漫射信號;以及用于組合兩個或多個漫射信號與兩個或多個處理的輸入信號的裝置,以產(chǎn)生用于聽覺場景的多個輸出聲道。
9.一種用于合成聽覺場景的設(shè)備,包括至少一個時域到頻域(TD-FD)轉(zhuǎn)換器和多個濾波器的配置,該配置適于從至少一個TD輸入聲道產(chǎn)生兩個或多個處理的FD輸入信號及兩個或多個漫射FD信號;兩個或多個組合器,適于組合兩個或多個漫射FD信號與兩個或多個處理的FD輸入信號,以產(chǎn)生多個合成的FD信號;以及兩個或多個頻域到時域(FD-TD)轉(zhuǎn)換器,適于把合成的FD信號轉(zhuǎn)換為用于聽覺場景的多個TD輸出聲道。
10.權(quán)利要求9的發(fā)明,其中至少兩個濾波器具有不同的濾波器長度。
全文摘要
一種聲道間相關(guān)(ICC)(正規(guī)化交叉相關(guān))線索的立體聲和多聲道合成方案,用于參量立體聲和多聲道編碼。該方案合成ICC線索,使得它們逼近原始的線索。為此,產(chǎn)生漫射音頻聲道并與傳輸?shù)慕M合(例如求和)信號(多)混合。最好使用以指數(shù)衰減高斯脈沖響應的相對長的濾波器產(chǎn)生漫射音頻聲道。這種脈沖響應產(chǎn)生類似于回響的漫射聲。提出了另一種可選的用于降低計算復雜性的實現(xiàn),其中聲道間電平差(ICLD),聲道間時間差(ICTD),及ICC合成,包括用于漫射聲產(chǎn)生的濾波,都在單個短時付立葉變換(STFT)域中進行。
文檔編號H04S7/00GK1655651SQ20051000825
公開日2005年8月17日 申請日期2005年2月7日 優(yōu)先權(quán)日2004年2月12日
發(fā)明者弗蘭克·鮑姆加特, 克里斯多夫·法勒 申請人:艾格瑞系統(tǒng)有限公司