專利名稱:音頻信號解碼裝置及音頻信號編碼裝置的制作方法
技術(shù)領域:
本發(fā)明涉及在編碼處理時,從音頻信號抽出雙聲列(binauralcue),生成縮混信號的編碼裝置,以及解碼處理時,把上述雙聲列附加于上述縮混信號來解碼多聲道信號的音頻信號解碼裝置。
本發(fā)明涉及在進行編碼處理中的雙聲列編碼方法,使用QMF(Quadrature Mirror Filter正交鏡像對稱濾波器)濾波器組,將多聲道音頻信號變換為時間-頻率(T/F)表現(xiàn)方式。
背景技術(shù):
本發(fā)明涉及多聲道音頻信號的編碼及解碼。本發(fā)明的主要目的在于,即使比特率有限制時,也可以一邊最大限度地保持數(shù)字音頻信號在知覺上的品質(zhì)一邊進行該數(shù)字音頻信號的編碼。其有利之處為比特率變低時,可將傳送帶寬及存儲容量變小。
以往,如上所述用于實現(xiàn)降低比特率的方法已經(jīng)大量存在。
使用“MS(mid-side)立體聲”的方法時,立體聲聲道L及R,以它們的“和”(L+R)以及“差分”(L-R)聲道的形式來表現(xiàn)。在這些立體聲聲道的相關(guān)性高的情況下,“差分”信號中包含比“和”信號少的比特、可非細致量化的重要程度低的信息。在L=R這樣極端的例子中,沒有必要發(fā)送有關(guān)差分信號的信息。
使用“強度立體聲”方法時,利用耳朵具有的音響心理學上的特性,對高頻區(qū)域,與具有頻率依賴性的比例因子一起只發(fā)送“和”信號,在解碼器側(cè)把此比例因子適用于“和”信號,合成L聲道及R聲道。
使用“雙聲列編碼”的方法時,為了在解碼處理中形成縮混信號,而生成雙聲列。雙聲列,譬如是聲道間強度/強度差(ILD)、聲道間相位/延遲差(IPD)、聲道間干擾性/相關(guān)性(ICC)等。從ILD列能測定相對的信號的強度,從IPD列能測定聲音到達兩耳為止的時間差,從ICC列能測定類似性。一般,根據(jù)強度/強度列及相位/延遲列能控制聲音的平衡和定位,根據(jù)干擾性/相關(guān)性列能控制聲音的幅度和擴張。這些列成為一體,成為幫助聽者在腦海中構(gòu)成音響學上的場面的空間上的參數(shù)。
圖1是示出使用由雙聲列編碼的編碼及解碼方法的典型的編碼解碼器的構(gòu)成的圖。在編碼處理中,音頻信號按每幀被處理。縮混部(500)將左聲道L和右聲道R進行縮混,生成M=(L+R)/2。雙聲列抽出模塊(502),處理L、R以及M,生成雙聲列。雙聲列抽出模塊(502)通常包括時間-頻率變換模塊。時間-頻率變換模塊,將L、R以及M,變換成譬如快速傅立葉變換(FFTFast Fourier Transform),修正離散余弦變換(MDCTModified Discrete Cosine Transform)等完全頻譜表現(xiàn)方式,或變換成如同QMF等時間和頻率的混合表現(xiàn)方式。代替上述方法,也可以取以頻譜方式表現(xiàn)的L及R的平均值,從而在進行頻譜變換后,從L和R生成M。雙聲列是可以通過在每個頻譜帶中分別對以上述方式所表現(xiàn)的L、R及M以每個頻譜帶為單位進行比較后獲得的。
音頻編碼器(504)編碼M信號生成壓縮比特流。作為音頻編碼器的例子,可舉出MP3(MPEG-l Audio LayerIII)、AAC(Advanced Audio Codec)等編碼器。雙聲列在(506)中被量化之后,多路復用到已被壓縮的M,形成完全的比特流。在解碼處理中,多路分配器(508)把M的比特流從雙聲列信息中分離出來。音頻解碼器(510)解碼M的比特流,復原縮混信號M。多聲道合成模塊(512)處理該縮混信號及被逆量化了的雙聲列,復原多聲道信號。作為有關(guān)現(xiàn)有技術(shù)的文獻,可列舉以下幾個文獻。
非專利文獻1[1]ISO/IEC 14496-32001/FDAM2,“ParametricCoding for high Quality Audio”專利文獻1[2]WO03/007656A1,“Efficient and ScalableParametric StereoCoding for Low Bitrate Application”專利文獻2[3]WO03/090208A1,“Parametric Representation ofSpatial Audio”專利文獻3[4]US6252965B1,“Multichannel Spectral MappingAudio Apparatus and Method”專利文獻4[5]US2003/0219130A1,“Coherence-based AudioCoding and Synthesis”專利文獻5[6]US2003/0035553A1,“Backwards-CompatiblePerceptual Coding of Spatial Cues”專利文獻6[7]US2003/0235317A1,“Equalization For AudioMixing”專利文獻7[8]US2003/0236583A1,“Hybrid Multi-channel/CueCoding/Decoding of Audio Signals”現(xiàn)有技術(shù)[1](參照非專利文獻1)中,混合縮混信號和“混響信號”來實現(xiàn)聲音的擴張?;祉懶盘柺怯肧hroeder的全通鏈接(All-passlink)處理縮混信號而得到的。此濾波器的系數(shù),全部在解碼處理中被決定。在音頻信號包括變化快的特征的情況下,為了消除過度的回音效果,對該混響信號另外進行過渡衰減處理來抑制混響(余音)的擴張。然而如此另外進行過濾處理的話,就會產(chǎn)生更多的計算負擔。
現(xiàn)有技術(shù)[5](參照專利文獻4)中,對ILD列和IPD列插入“隨機序列”,從而實現(xiàn)聲音的擴散性(即環(huán)繞效果)。隨機序列由ICC列所控制。
圖2是示出以往的標準的時間段的分割方法的圖。為了計算ILD列,在現(xiàn)有技術(shù)[1]的方法中,把以T/F所表現(xiàn)的L、R及M(被“時間邊界線601”所劃分)分割為時間段,在每個時間段計算一個ILD。然而,這個方法不能說是完全有效利用了耳朵具有的音響心理學上的特性。
在現(xiàn)有技術(shù)[1]中,對縮混信號的全部頻譜進行了雙聲列編碼。但是采用這個方法不能夠充分實現(xiàn)高比特率且“具有透明感”的音質(zhì)。根據(jù)現(xiàn)有技術(shù)[8](參照專利文獻7),在比特率高的情況下,以低于1.5kHz低頻來編碼原音。但是因為用中間的比特率不能得到最適合的音質(zhì),所以用固定的橫渡頻率(即1.5kHz)不能說是有利的。
發(fā)明內(nèi)容
本發(fā)明的目的在于改良現(xiàn)有技術(shù)中根據(jù)雙聲列編碼的方法。
在本發(fā)明的實施方式1中,提出變更對混響的擴張有影響的濾波系數(shù)而直接控制混響的擴張。并且,提出通過ICC列及過渡檢測模塊來控制這些濾波系數(shù)。
在實施方式2中,首先把T/F表現(xiàn)方式按頻譜方向分割為多個“頻段”。使時間邊界的最大容許數(shù)在每頻段都不同,而且對屬于高頻域的頻段,使時間邊界的容許數(shù)變少。這樣做能更細致地進行在低頻域的信號的細分化,既能抑制比特率的急劇變化,又能更正確地進行強度調(diào)整。
在實施方式3中,提出橫渡頻率按照比特率而改變。另外,在估計原音的編碼由于比特率的限制而非細致地進行的情況下,提出用低頻率來混合原音信號和縮混信號。并且為了控制混合的比例,提出使用ICC列。
本發(fā)明成功再現(xiàn)了被壓縮的原音具有的多聲道獨特的效果,該原音是在抽出雙聲列、縮混原音的編碼處理中被壓縮的。這樣使在解碼處理中,把上述雙聲列附加于縮混信號變得可能。
圖1是示出現(xiàn)有的典型的雙聲列編碼系統(tǒng)的構(gòu)成的圖。
圖2是示出針對各種各樣的頻率段的現(xiàn)有的典型的時間分割方法的圖。
圖3是示出關(guān)于本發(fā)明的編碼裝置構(gòu)成的方框圖。
圖4是示出針對各種各樣的頻率段的時間分割方法的圖。
圖5是示出關(guān)于本發(fā)明的實施方式1的解碼裝置的構(gòu)成的方框圖。
圖6是示出關(guān)于本發(fā)明的實施方式3的解碼裝置的構(gòu)成的方框圖。
圖7是示出有關(guān)本發(fā)明的實施方式3的編碼系統(tǒng)的構(gòu)成的方框圖。
符號說明100變換模塊102縮混模塊104能量包絡分析器(Energy envelope analyzer)106算出IPDL(b)的模塊108算出IPDR(b)的模塊110算出ICC(b)的模塊200變換模塊202混響生成器204過渡檢測器206、208相位調(diào)整器
210、212混合器2214、216能量調(diào)整器218反向變換模塊300變換模塊302混響生成器304過渡檢測器306、308相位調(diào)整器310、312混合器2314、316能量調(diào)整器318反向變換模塊320低通濾波器322、324混合器1326高通濾波器400頻帶402頻段0404頻段2406邊界410縮混部411AAC編碼器412雙聲列編碼器413第2編碼器414AAC解碼器415預混部416信號分離部417混合部418聲道分離部
419相位調(diào)整部500縮混部502雙聲列抽出部504音頻編碼器506多路復用器508多路分配器510音頻解碼器512多聲道合成部601邊界具體實施方式
(實施方式1)以下表示的實施方式,僅例舉本發(fā)明的各種各樣的進步性的原理,如果是同行業(yè)者很容易理解以下表示的詳細說明可以加上種種變化。因此,本發(fā)明是僅由權(quán)利要求的范圍所限制,不被以下詳細的具體例子所限制。
并且,在這里雖然例舉雙聲道-單聲道的例子,但是本發(fā)明不受上述限制。這可以用M個原聲道以及N個縮混聲道而普遍化。
圖3是示出實施方式1的編碼裝置的構(gòu)成的方框圖。圖3示出涉及本發(fā)明的編碼處理。本實施方式的編碼裝置包括變換模塊100、縮混模塊102、用于L(t,f)和R(t,f)的2個能量包絡分析器104、算出左聲道的聲道間相位列IPDL(b)的模塊106、算出右聲道的IPDR(b)的模塊108以及算出ICC(b)的模塊110。變換模塊(100)處理以下由時間的函數(shù)L(t)和R(t)所示出的原聲道。獲得各自的時間-頻率表現(xiàn)方式L(t,f)和R(t,f)。在這里,t表示時間指標,f表示頻率指標。變換模塊(100)譬如是指在MPEG Audio Extension 1及2中使用的復數(shù)QMF濾波器組等。L(t,f)及R(t,f)含有連續(xù)的多個子頻帶,各子頻帶表示原信號的窄的頻帶。QMF濾波器組使低頻率子頻通過窄的頻帶,使高頻率子頻帶通過寬的頻帶,從而能以多個階層來構(gòu)成。
縮混模塊(102)處理L(t,f)及R(t,f),生成縮混信號M(t,f)??s混的方法有很多,本實施方式示出了使用“平均化”的方法。
在本發(fā)明中,取代ILD而采用能量列進行強度調(diào)整。為了計算能量列,左聲道能量包絡分析模塊(104)進一步處理L(t,f),生成能量包絡EL(l,b)和BorderL。圖4是示出用于調(diào)整混合后的音頻聲道信號的能量包絡的時間-頻率段的分割方法的圖。如圖4所示,首先將時間-頻率表現(xiàn)方式L(t,f)在頻率方向上分割為多個頻帶(400)。各個頻帶包含多個子頻帶。利用耳朵具有的音響心理學上的特性,低頻帶的子頻帶數(shù)比高頻帶的少。譬如把子頻帶分為頻帶時,可以用在音響心理學領域中廣為所知的“巴克(Bark)尺度”或“臨界頻帶”。
并且L(t,f)用BorderL在時間方向上被分割為頻帶(l,b),對此計算EL(l,b)。在這里,l是時間上區(qū)分的指標,b表示頻帶的指標。BorderL的最適合的配置位置是,估計L(t,f)的能量的變化大,且用解碼處理而形成的信號的能量變化大的時間上的位置。
在解碼處理中,EL(l,b)用于縮混信號的能量包絡在每個頻帶形成,根據(jù)相同的臨界頻帶邊界及BorderL來決定其邊界。能量EL(l,b)如下定義。
(公式1)EL(l,b)=Σf⋐bΣt⋐l|L(t,f)|2]]>用同樣的方法,右聲道能量包絡分析模塊(104)處理R(t,f),生成ER(l,b)和BorderR。
為了取得左聲道的聲道間相位列,左聲道間相位列算出模塊(106)處理L(t,f)及M(t,f),用以下的公式算出IPDL(b)。
(公式2)IPDL(b)=∠Σf⋐bΣt⋐FRAMESIZEL(t,f)M*(t,f)]]>在這里,M*(t,f)表示M(t,f)的復數(shù)共軛。右聲道間相位列算出模塊(108),用同樣方法算出右聲道的聲道間相位列IPDR(b)。
(公式3)IPDR(b)=∠Σf⋐bΣt⋐FRAMESIZER(t,f)M*(t,f)]]>最后,在編碼處理中為了算出左聲道和右聲道的聲道間干擾性列,模塊(110)處理L(t,f)和R(t,f),用下列公式算出ICC(b)。
(公式4)ICC(b)=|Σf⋐bΣt⋐FRAMESIZEL(t,f)R*(t,f)|Σf⋐bΣt⋐FRAMESIZEL(t,f)L*(t,f)Σf⋐bΣt⋐FRAMESIZER(t,f)R*(t,f)]]>上述雙聲列全部為編碼處理中的副信息的一部分。
圖5是示出實施方式1解碼裝置的構(gòu)成的方框圖。本實施方式1的解碼裝置包括變換模塊(200)、混響生成器(202)、過渡檢測器(204)、相位調(diào)整器(206、208)、混合器2(210、212)、能量調(diào)整器(214、216)及反向變換模塊(218)。圖5示出利用如上述所生成的雙聲列,可估計到的解碼處理。變換模塊(200)處理縮混信號M(t),變換成時間-頻率表現(xiàn)方式M(t,f)。本實施方式表示的變換模塊(200),是復數(shù)QMF濾波器組。
混響生成器(202)處理M(t,f),生成被稱為MD(t,f)的M(t,f)的“擴散版本”。此擴散版本,根據(jù)把“回音”插入M(t,f),而產(chǎn)生更“立體聲”的印象(多聲道的情況下為“環(huán)繞立體聲”的印象)?,F(xiàn)有技術(shù)中,單純利用延遲或利用分數(shù)延遲全通濾波(all-passfiltering)來生成這種混響印象的裝置多數(shù)存在。本發(fā)明,為了得到混響效果使用分數(shù)延遲全通濾波。通常使用多個全通濾波器的層疊方式(做為Schroeder的全通鏈接而眾所周知)。
(公式5)Hf(z)=Πm=0m=L-1Q(f,m)z-d(m)-slope(f,m)1-slope(f,m)Q(f,m)z-d(m)]]>在這里,L表示鏈接的數(shù)量,d(m)表示各自鏈接的濾波器的乘方。通常這些被構(gòu)成為互質(zhì)數(shù)。Q(f,m)表示提高回音密度的分數(shù)延遲,slope(f,m)控制混響的衰減率。slope(f,m)越大混響的衰減越小。有關(guān)這些參數(shù)設計的具體處理為本發(fā)明的范圍外。在現(xiàn)有的技術(shù)中,這些參數(shù)不受雙聲列控制。
現(xiàn)有技術(shù)中混響衰減率的控制方法,并不對所有信號的特征最適合。譬如由變化快的信號“尖峰信號波形”構(gòu)成的信號,為了避免回音效果過剩最好混響少?,F(xiàn)有技術(shù)中采用過渡衰減裝置,另在某種程度上抑制了混響。
最后的問題是,原音是真正的“單聲”的情況下(譬如a monospeech),混響過剩的話,被解碼的信號和原音可能聽起來有很大差異。為了解決這個問題的現(xiàn)有技術(shù)和裝置不存在。
本發(fā)明,用ICC列適應性地控制slope(f,m)參數(shù)。為了應對上述問題,如下述使用new_slope(f,m)來代替slope(f,m)。
(公式6)Hf(z)=Πm=0m=L-1Q(f,m)z-d(m)-new_slope(f,m)1-new_slope(f,m)Q(f,m)z-d(m)]]>在這里,new_slope(f,m)作為過渡檢測模塊(204)的輸出函數(shù)被定義,ICC(b)被定義如下。
(公式7)new_slope(f,m)=slope(f,m)*(1-α·ICC(b))*Tr_flag(b)在這里a是調(diào)諧參數(shù)。在信號的對象幀是真正的單聲的情況下,評價該幀的右聲道和左聲道之間的相關(guān)性的ICC(b)會變得相當高。為了減少混響,使slope(f,m)根據(jù)(1-ICC(b))大幅度地降低。并且相反的情況下也一樣。
在信號中的對象幀是由變化急速的信號尖峰信號波所構(gòu)成的情況下,過渡檢測模塊(204)為了降低slope(f,m),將0.1等微小的Tr_flag(b)還給混響生成器。根據(jù)這個能減少混響。另一方面,是變化平穩(wěn)的信號的情況時,過渡檢測模塊(204)將象0.99那樣的大的Tr_flag(b)的值還給混響生成器。根據(jù)這個可以保持希望的混響量。能夠在解碼處理中分析M(t,f)而生成Tr_flag(b)?;蛞材軌蛟诰幋a處理中生成Tr_flag(b),并作為副信息發(fā)送給解碼處理側(cè)。
z區(qū)域中被表示的混響信號MD(t,f),是將M(t,f)和Hf(z)進行卷積運算而生成的(卷積運算是指在z區(qū)域中的乘法)。
(公式8)MD(z,f)=M(z,f)*Hf(z)Lreverb(t,f)和Rreverb(t,f),分別是將相位IPDL(b)和IPDR(b)通過相位調(diào)整模塊(206)和(208)附加于MD(t,f)而生成的。通過進行此處理,能夠恢復在編碼處理中的原音和縮混信號的相位關(guān)系。
適用公式如下。
(公式9)Lreverb(t,f)=MD(t,f)*eIPDL(b)Rreverb(t,f)=MD(f,f)*eIPDR(b)在這里被附加的相位,使用以前被處理過的音頻幀的相位,在附加它們之前能對它們進行插值。譬如在Lreverb(t,f)的情況下,左聲道相位調(diào)整模塊(208)的公式變更為如下。
(公式10)Lreverb(t,f)=MD(t,f)*a-2eIPDL(fr-2,b)+α-1eIPDL(fr-1,b)+α0eIPDL(fr,b)}在這里,a-2,a-1及a0是插值系數(shù),fr表示音頻幀的指標。通過插值,能防止Lreverb(t,f)的相位急劇變化,聲音全體穩(wěn)定。
右聲道相位調(diào)整模塊(206)也同樣進行插值,從MD(t,從f)生成Rreverb(t,f)。
Lreverb(t,f)和Rreverb(t,f)通過左聲道能量調(diào)整模塊(214)、右聲道能源調(diào)整模塊(216)而形成。通過此形成,使得在由BorderL、BorderR、或(如圖4所示)規(guī)定的頻率段的邊界所劃分的各種各樣的頻帶中的能量包絡,成為和原音的能量包絡類似。關(guān)于左聲道來說明的話,針對頻帶(l,b)如下計算增益系數(shù)GL(l,b)。
(公式11)GL(l,b)=EL(l,b)Σt⋐tΣf⋐b|Lreverb(t,f)|2]]>其次對于該頻帶中所有采樣,Lreverb(t,f)乘以增益系數(shù)。右聲道能源調(diào)整模塊(216)對右聲道進行同樣的處理。
(公式12)Ladj(t,f)=Lreverb(t,f)*GL(l,b)Radj(t,f)=Rreverb(t,f)*GR(l,b)因為Lreverb(t,f)和Rreverb(t,f)不過是人工的混響信號,所以根據(jù)情況不同,就將它們直接作為多聲道信號使用的話可能不算最合適。而且為了在某種程度上減少混響,調(diào)整參數(shù)slope(f,m)來配合new_slope(f,m),但是這不能改變以全通濾波器的順序所決定的回音的主要成分。本發(fā)明在進行能量調(diào)整之前,在作為混合模塊的左聲道混合器2(210)和右聲道混合器2(212)中,混合Lreverb(t,f)、Rreverb(t,f)以及縮混信號M(t,f),來提供擴大控制幅度的選項?;祉懶盘朙reverb(t,f)、Rreverb(t,f)以及縮混信號M(t,f)的比例,由ICC(b)控制,譬如下述。
(公式13)Lreverb(t,f)=(1-ICC(b))*Lreverb(t,f)+ICC(b)*M(t,f)Rreverb(t,f)=(1-ICC(b))*Rreverb(t,f)+ICC(b)*M(t,f)
ICC(b)表示左聲道和右聲道間的相關(guān)關(guān)系。上述公式,在相關(guān)性高的情況下,把更多的M(t,f)和Lreverb(t,f)以及Rreverb(t,f)混合。并且相反的情況也一樣。
模塊(218)將被進行能量調(diào)整了的Ladj(t,f)和Radj(t,f)逆變換,生成在時間軸上的信號。在這里采用逆QMF處理。在多階層QMF的情況下,有必要涉及數(shù)階層進行逆變換處理。
(實施方式2)實施方式2涉及圖3示出的能量包絡分析模塊(104)。圖2示出的分割方法例中,沒能利用耳朵具有的音響心理學上的特性。于是本實施方式中如圖4所示,利用對高頻率的聲音靈敏度低這一耳朵的特性,對低頻率進行細致分割,對高頻率降低分割的精度。
為了實現(xiàn)這個,將L(t,f)的頻帶,進一步分割為“頻段”(402)。圖4表示從頻段0(402)~頻段2(404)為止的3個頻段。高頻率段,譬如最多只能有1個邊界(404),根據(jù)這個該頻率段被分割為2部分。為了進一步節(jié)減比特數(shù),不允許分割最高頻的頻率段。在這樣的情況下,對此頻段利用現(xiàn)有技術(shù)中有名的“強度立體聲”。分割的精度,越向耳朵的靈敏度變得高的低頻段而變得越高。
副信息的一部分也可以成為頻段的邊界,也可以根據(jù)編碼的比特率事先定好。但是各頻段時間的邊界(406)成為副信息BorderL的一部分。
另外,對象幀的第一邊界沒有必要一定是那個幀開始的邊界??梢允惯B續(xù)的2個幀,共有跨過多個幀邊界的同一能量包絡。在這種情況下,為了使此處理成為可能,需要進行2個音頻幀的緩沖。
(實施方式3)在比特率高的情況下,只是使用混響信號導出多聲道信號,不能夠獲得高比特率所期待的透明度。因此,在實施方式3,進行了非細致量化的差分信號Llf(t)和Rlf(t)與縮混信號分別編碼后送到解碼裝置,并對從縮混信號分離出的音頻聲道信號和原音聲道信號的偏差用解碼裝置來進行校正。圖6是示出實施方式3的解碼裝置構(gòu)成的方框圖。同圖中,虛線圍著的部分是信號分離部,它把在混合器1(322,324)進行預混所得的用于對預混聲道信號的相位進行調(diào)整的Lreverb、Rreverb,在混響生成器(302)中從縮混信號進行分離。此解碼裝置包括上述的信號分離部、變換模塊(300)、混合器1(322、324),低通濾波器(320)、混合器2(310、312)、能量調(diào)整器(314、316)以及逆變換模塊(318)。圖6中表示的本實施方式3的解碼裝置,對進行了非細致量化的多聲道信號和在低頻域的混響信號進行混合。進行非細致量化是因為比特率有限制。
進行了非細致量化的Llf(t)和Rlf(t),在作為QMF濾波器組的變換模塊(300)中,與縮混信號M(t)一起,被進行時間-頻率變換,分別表現(xiàn)為Llf(t,f)和Rlf(t,f)。到達通過低頻過濾器(320)決定的某一定的橫渡頻率fx為止,作為預混模塊的左側(cè)混合器1(322)及右側(cè)混合器1(324),分別把右聲道Rlf(t,f)和左聲道Llf(t,f)附加于縮混信號M(t,f)進行預混。根據(jù)這個,生成預混聲道信號LM(t,f)和RM(t,f)。譬如進行下述預混。
(公式14)LM(t,f)=(1-ICC(b))*Llf(t,f)+ICC(b)*M(t,f)RM(t,f)=(1-ICC(b))*Rlf(t,f)+ICC(b)*M(t,f)在這里,ICC(b)表示聲道間的相關(guān),表示Llf(t,f)和Rlf(t,f)分別與M(t,f)進行混合的比例。譬如,ICC(b)=1時,ICC(b)表示進行了非細致量化并變換為時間-頻率表現(xiàn)方式后的Llf(t,f)和Rlf(t,f),分別和M(t,f)非常相似。即ICC(b)=1時,只用M(t,f)就能高精度地復原混合聲道信號LM(t,f)和RM(t,f)。
針對比橫渡頻率fx高頻的頻域的以后的處理步驟,和圖4中示出的實施方式2相同。對Llf(t)和Rlf(t)進行非細致量化的方法之一如下,(公式15)Llf(t)=L(t)-M(t)Rlf(t)=R(t)-M(t)對Llf(t)和Rlf(t)計算差分信號,只對到應對音響心理學模型而決定的fx為止的主要的頻率成分進行編碼。為了進一步降低比特率,可以采用規(guī)定的量化步驟。另外,上述的公式15,計算Llf(t)=L(t)-M(t)、Rlf(t)=R(t)-M(t)作為差分信號,但是本發(fā)明不受此限定。譬如代替上述算式15中的M(t),也可以將分離后的各聲道信號減去。即也可以算出Llf(t)=L(t)-Lreverb(t)、Rlf(t)=R(t)-Rreverb(t)后,將Llf(t)、Rlf(t)加在分離后的各聲道信號中來補正信號的偏差。
低通濾波器(320)及高通濾波器(326)用的橫渡頻率fx是比特率的函數(shù)。在比特率非常低這樣的極端情況下,用于進行Llf(t)和Rlf(t)的量化的比特率不充分,因此不能進行混合。譬如fx為零的情況下。在實施方式3中,只針對比fx更高的高頻進行雙聲列編碼。
圖7是示出包括本實施方式3的編碼裝置和解碼裝置的編碼系統(tǒng)構(gòu)成的方框圖。實施方式3的編碼系統(tǒng)在編碼側(cè)包括縮混部(410)、AAC編碼器(411)、雙聲列編碼器(412)和第2編碼器(413);在解碼側(cè)包括AAC解碼器(414)、預混部(415)、信號分離部(416)和混合部(417)。信號分離部(416)包括聲道分離部(418)和相位調(diào)整部(419)。
縮混部(410)譬如與圖1表示的縮混部(102)同樣。譬如縮混部(410)生成由M(t)=(L(t)+R(t))/2所表示的縮混信號。這樣生成的縮混信號M(t)在AAC編碼器(411)中,被進行修正離散余弦(MDCT)變換,以每個子頻帶為單位被量化,被可變長編碼,編入編碼位流。
雙聲列編碼器(412),由QMF將音頻聲道L(t)、R(t)及M(t)先變換成時間-頻率表現(xiàn)方式后,對各自的聲道信號進行比較,算出雙聲列。雙聲列編碼器(412)將算出的雙聲列編碼后使其多路復用為代碼串。
并且第2編碼器(413),譬如算出公式15所示的右聲道信號R(t)和左聲道信號L(t)分別與縮混信號M(t)的差分信號Llf(t)和Rlf(t),并在非細致地量化后進行編碼。第2編碼器(413),不一定必須以與AAC編碼器(411)同樣的編碼形式進行編碼。
AAC解碼器(414)將用AAC方式編碼的縮混信號進行解碼之后,把被解碼的縮混信號用QMF變換為時間-頻率表現(xiàn)方式M(t,f)。
信號分離部(416)包括聲道分離部(418)和相位調(diào)整部(419)。聲道分離部(418)把被雙聲列編碼器(412)編碼的雙聲列參數(shù)和被第2編碼器(413)編碼的差分信號Llf(t)、Rlf(t)解碼后,將差分信號Llf(t)、Rlf(t)變換為時間-頻率表現(xiàn)方式。此后,聲道分離部(418)、譬如按照ICC(b),對作為AAC解碼器(414)的輸出的縮混信號M(t,f)和被變換為時間-頻率表現(xiàn)方式的差分信號Llf(t,f)、Rlf(t,f)進行預混,將由此得出的預混聲道信號LM、RM輸出到混合部417。
相位調(diào)整部(419)對縮混信號M(t,f)進行了必要的混響成分的生成和附加之后,調(diào)整此相位,作為相位調(diào)整信號Lrev和Rrev輸出到混合部(417)。
混合部(417)關(guān)于左聲道,將預混聲道信號LM和相位調(diào)整信號Lrev進行混合,對所得的混合信號進行逆QMF,輸出以時間的函數(shù)表示的輸出信號L″。另外,關(guān)于右聲道,將預混聲道信號RM和相位調(diào)整信號Rrev進行混合,對所得到的混合信號進行逆QMF,輸出以時間的函數(shù)表示的輸出信號R″。
并且在對上述圖7所示的編碼系統(tǒng)中,也可以將左右的差分信號Llf(t)、Rlf(t)做為原音聲道信號L(t)、R(t)和根據(jù)相位調(diào)整得到的輸出信號Lrev(t)、Rlf(t)的差分。即也可以做為Llf(t)=L(t)-Lrev(t),Rlf(t)=R(t)-Rrev(t)。
本發(fā)明可以適用于家庭劇院系統(tǒng)、車輛音頻系統(tǒng)、電子游戲系統(tǒng)等。
權(quán)利要求
1.一種音頻信號解碼裝置,對縮混多個音頻聲道信號所得到的縮混聲道信號進行解碼,得出上述多個音頻聲道信號,其特征在于,包括縮混信號變換單元,把縮混聲道信號變換成沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;音頻聲道信號變換單元,把被量化為低比特量的音頻聲道信號變換為上述時間-頻率表現(xiàn)方式;預混單元,把變換后的上述縮混聲道信號和變換后的上述音頻聲道信號按上述每個頻帶進行預混,從而生成預混聲道信號;混合單元,把上述縮混聲道信號和被生成了的上述預混聲道信號按上述每個頻帶進行混合,從而生成混合聲道信號,上述縮混聲道信號根據(jù)表示音頻聲道信號間的空間特征的空間音頻信息,被進行了規(guī)定處理;以及混合聲道信號變換單元,把上述混合聲道信號變換為多個上述音頻聲道信號。
2.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,針對按時間軸方向的邊界和頻率方向的邊界而被劃分了的區(qū)域,分別給予上述空間音頻信息。
3.根據(jù)權(quán)利要求2所述的音頻信號解碼裝置,其特征在于,上述時間方向的邊界的數(shù)量,按頻率方向所設定的頻段的不同而不同。
4.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,上述空間音頻信息進一步包括表示聲道間干擾性的成分,上述混合單元,根據(jù)上述表示聲道間干擾性的成分所表示的比例來進行混合。
5.根據(jù)權(quán)利要求4所述的音頻信號解碼裝置,其特征在于,根據(jù)上述空間音頻信息的規(guī)定處理包括針對縮混信號生成并附加混響成分的處理;生成混響成分的上述處理,由上述表示聲道間干擾性的成分來控制。
6.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,為了在所有頻帶導出上述混合聲道信號的增益系數(shù),算出上述混合聲道信號的能量,并將上述增益系數(shù)和上述頻帶中的混合信號相乘。
7.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,到一定的上限頻率為止的上述音頻聲道信號,被量化為低比特量之后,被進行編碼。
8.根據(jù)權(quán)利要求4所述的音頻信號解碼裝置,其特征在于,上述上限頻率,按照編碼的比特率而被決定。
9.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,上述預混是對到上述上限頻率為止的時間-頻率信號進行的預混。
10.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,上述混合是對比上述上限頻率更高的頻域的時間-頻率信號進行的。
11.根據(jù)權(quán)利要求1所述的音頻信號解碼裝置,其特征在于,上述縮混信號變換單元以及音頻聲道信號變換單元是正交鏡像對稱濾波器(QMF)單元,上述混合聲道信號變換單元是逆正交鏡像對稱濾波器(逆QMF)單元。
12.一種音頻信號編碼裝置,把多個音頻聲道信號與空間音頻信息一起進行編碼,上述空間音頻信息表示上述音頻聲道信號間的空間特征,其特征在于,包括縮混單元,把多個上述音頻聲道信號進行縮混,從而生成縮混聲道信號;信號變換單元,把多個上述音頻聲道信號和被生成了的上述縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;空間音頻信息算出單元,在每個規(guī)定的時間-頻域中,比較多個上述音頻聲道信號,并算出上述空間音頻信息;第1編碼單元,把上述縮混聲道信號和上述空間音頻信息進行編碼;以及第2編碼單元,把多個上述音頻聲道信號量化為低比特量后,進行編碼。
13.根據(jù)權(quán)利要求12所述的音頻信號編碼裝置,其特征在于,上述時間-頻域的時間邊界,被配置在上述音頻聲道信號及上述縮混聲道信號中任一種信號的能量發(fā)生急劇變化的時間上的位置。
14.根據(jù)權(quán)利要求12所述的音頻信號編碼裝置,其特征在于,上述空間音頻信息,按照由上述時間邊界和上述頻率的邊界所劃分的每個區(qū)域被算出。
15.根據(jù)權(quán)利要求12所述的音頻信號編碼裝置,其特征在于,上述空間音頻信息中,表示聲音傳達到兩耳的時間差的成分,按照每個音頻聲道的頻帶被算出。
16.根據(jù)權(quán)利要求12所述的音頻信號編碼裝置,其特征在于,上述空間音頻信息中,表示上述音頻聲道信號間的干擾性的成分,作為上述多個音頻聲道信號的相關(guān)性被算出。
17.一種音頻信號解碼方法,對縮混多個音頻聲道信號所得到的縮混聲道信號進行解碼,得出上述多個音頻信號,其特征在于,把縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;把被量化為低比特量的音頻聲道信號變換為上述時間-頻率表現(xiàn)方式;把變換后的上述縮混聲道信號和變換后的上述音頻聲道信號按上述每個頻帶進行預混,從而生成預混聲道信號;把上述縮混聲道信號和被生成了的上述預混聲道信號按上述每個頻帶進行混合,從而生成混合聲道信號,上述縮混聲道信號根據(jù)表示音頻聲道信號間的空間特征的空間音頻信息,被進行了規(guī)定處理;把上述混合聲道信號變換為多個上述音頻聲道信號。
18.一種音頻信號編碼方法,把多個音頻聲道信號與空間音頻信息一起進行編碼,上述空間音頻信息表示上述音頻聲道信號間的空間特征,其特征在于,縮混多個上述音頻聲道信號從而生成縮混聲道信號;把多個上述音頻聲道信號和被生成了的上述縮混聲道信號,變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;在每個規(guī)定的時間-頻域中,比較多個上述音頻聲道信號,并算出上述空間音頻信息;將上述縮混聲道信號和上述空間音頻信息進行編碼;把多個上述音頻聲道信號量化為低比特量之后,進行編碼。
19.一種程序,用于對縮混多個音頻聲道信號所得到的縮混聲道信號進行解碼,得出上述多個音頻聲道信號的音頻信號解碼裝置的程序,使計算機執(zhí)行下述步驟變換步驟,把縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;另一變換步驟,把被量化為低比特量的音頻聲道信號變換為上述時間-頻率表現(xiàn)方式;預混聲道信號生成步驟,把變換后的上述縮混聲道信號和變換后的上述音頻聲道信號按上述每個頻帶進行預混,生成預混聲道信號;混合聲道信號生成步驟,把上述縮混聲道信號和被生成了的上述預混聲道信號按上述每個頻帶進行混合,從而生成混合聲道信號,上述縮混聲道信號根據(jù)表示音頻聲道信號間的空間特征的空間音頻信息,被進行了規(guī)定處理;以及又一變換步驟,把上述混合聲道信號變換為多個上述音頻聲道信號。
20.一種程序,用于把多個音頻聲道信號與空間音頻信息一起進行編碼的音頻信號編碼裝置的程序,上述空間音頻信息表示上述音頻聲道信號間的空間特征,使計算機執(zhí)行下述步驟縮混聲道信號生成步驟,把多個上述音頻聲道信號進行縮混,從而生成縮混聲道信號;變換步驟,把多個上述音頻聲道信號和被生成的上述縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;算出步驟,在每個規(guī)定的時間-頻域中,比較多個上述音頻聲道信號,并算出上述空間音頻信息;一編碼步驟,把上述縮混聲道信號和上述空間音頻信息進行編碼;以及另一編碼步驟,把多個上述音頻聲道信號量化為低比特量后,進行編碼。
21.一種計算機可讀取的記錄媒體,記錄有用于使計算機執(zhí)行下述步驟的程序變換步驟,把縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;另一變換步驟,把被量化為低比特量的音頻聲道信號變換為上述時間-頻率表現(xiàn)方式;預混聲道信號生成步驟,把變換后的上述縮混聲道信號和變換后的上述音頻聲道信號按每個上述頻帶進行預混,從而生成預混聲道信號;混合聲道信號生成步驟,把上述縮混聲道信號和被生成了的上述預混聲道信號按上述每個頻帶進行混合,從而生成混合聲道信號,上述縮混聲道信號根據(jù)表示音頻聲道信號間的空間特征的空間音頻信息,被進行了規(guī)定處理;以及又一變換步驟,把上述混合聲道信號變換為多個上述音頻聲道信號。
22.一種計算機可讀取的記錄媒體,記錄有用于使計算機執(zhí)行下述步驟的程序縮混聲道信號生成步驟,把多個上述音頻聲道信號進行縮混,從而生成縮混聲道信號;變換步驟,把多個上述音頻聲道信號和被生成的上述縮混聲道信號變換為沿著頻率軸被分割了的多個頻帶中的時間-頻率表現(xiàn)方式;算出步驟,在每個規(guī)定的時間-頻域中,比較多個上述音頻聲道信號,并算出上述空間音頻信息;一編碼步驟,把上述縮混聲道信號和上述空間音頻信息進行編碼;以及另一編碼步驟,把多個上述音頻聲道信號量化為低比特量后,進行編碼。
全文摘要
現(xiàn)有的編碼多聲道音頻信號進行的發(fā)明中3個主要的處理為使用全通濾波器來生成混響信號;以調(diào)整強度為目的,在時間和頻率軸上分割信號;混合被編碼的雙聲列信號和被編碼到固定的橫渡頻率數(shù)的原音信號。這些處理,包含著在本發(fā)明中所提及的問題。本發(fā)明,提出3個實施方式。通過使用聲道間干擾性列動態(tài)地調(diào)整全通濾波器系數(shù),從而控制混響的擴張;在時間軸上分割信號時,對低頻細致地分割,對高頻非細致地分割;用比特率控制用于混合的橫渡頻率,在原音的量化為非細致的情況下,用由聲道間干擾性列所決定的比例來混合縮混信號和原音信號。
文檔編號G10L19/00GK1981326SQ20058002266
公開日2007年6月13日 申請日期2005年6月28日 優(yōu)先權(quán)日2004年7月2日
發(fā)明者張國成, 田中直也, 梁世豐, 津島峰生 申請人:松下電器產(chǎn)業(yè)株式會社