專利名稱:音頻編碼器、音頻編碼方法和程序的制作方法
技術(shù)領(lǐng)域:
本技術(shù)涉及一種音頻編碼器、音頻編碼方法以及程序,更具體地,涉及能夠在高效地對多個聲道的音頻信號進(jìn)行編碼時防止由于編碼而導(dǎo)致聲音質(zhì)量劣化的音頻編碼器、音頻編碼方法和程序。
背景技術(shù):
在用于對由多個聲道的音頻信號構(gòu)成的立體聲音頻信號進(jìn)行編碼的公知技術(shù)當(dāng)中,存在通過利用聲道之間的關(guān)系來提高編碼效率的Μ/S立體聲編碼技術(shù)、強(qiáng)度立體聲編碼技術(shù)等。在下文中,為了便于說明,立體聲音頻信號的聲道數(shù)量是兩個,即左聲道和右聲道,但是該說明同樣可以適用于數(shù)量是三個或更多個的情況。
Μ/S立體聲編碼生成構(gòu)成立體聲音頻信號的右聲道的音頻信號和左聲道的音頻信號之間的和分量以及差分量作為編碼結(jié)果。因此,由于當(dāng)右聲道的音頻信號和左聲道的音頻信號彼此類似時差分量較小,因此編碼效率較高。然而,由于當(dāng)右聲道的音頻信號和左聲道的音頻信號彼此顯著不同時差分量較大,因此難以獲得高編碼效率。這會在編碼之后的量化時引起量化噪聲,從而在解碼時引起人工噪聲。在強(qiáng)度立體聲編碼中,基于如下原理執(zhí)行編碼人類聽覺在高頻域?qū)ο辔贿t鈍,并且主要基于頻譜之間的水平比(level ratio)來感測位置(例如,參見IS0/IEC 13818-7Information technology^Generic coding of moving pictures and associated audioinformation Part 7〃,Advanced Audio Coding (AAC))。具體地,對于低于預(yù)定頻率 Fis 的頻率,強(qiáng)度立體聲編碼按原樣提供右聲道和左聲道的頻譜作為編碼結(jié)果。另一方面,對于等于或大于預(yù)定頻率Fis的頻率,強(qiáng)度立體聲編碼生成通過混合右聲道和左聲道的頻譜而獲得的共同譜以及各個聲道的頻譜的水平作為編碼結(jié)果。因此,對于低于頻率Fis的頻率,解碼器將作為編碼結(jié)果的右聲道和左聲道的頻譜按原樣提供作為解碼結(jié)果。另一方面,對于等于或大于頻率FIS的頻率,解碼器將各個聲道的頻譜的水平應(yīng)用于作為編碼結(jié)果的共同譜,以生成解碼結(jié)果。另外,對于這樣的強(qiáng)度立體聲編碼,假定與Μ/S立體聲編碼的情況類似,右聲道的音頻信號和左聲道的音頻信號彼此類似。因此,當(dāng)右聲道的音頻信號和左聲道的音頻信號彼此完全不同時,例如,當(dāng)左聲道的音頻信號是鈸(cymbals)的音頻信號而右聲道的音頻信號是小號(trumpet)的音頻信號時,由于共同譜不同于右聲道和左聲道的頻譜,因此在解碼時會出現(xiàn)人工噪聲。因此,提出了計算右聲道的音頻信號的頻譜與左聲道的音頻信號的頻譜之間的距離的尺度,并且當(dāng)該尺度等于或小于閾值時,執(zhí)行諸如Μ/S立體聲編碼的共同編碼,并且當(dāng)該尺度等于或大于閾值時,單獨(dú)地執(zhí)行編碼(例如,參見日本專利第3421726號,在下文中將其稱為專利文獻(xiàn)I)。此外,還提出了針對預(yù)定頻帶將立體聲音頻信號的頻譜劃分成段(piece),并且對于每個頻帶,使用特定的哈夫曼碼本號來傳送被應(yīng)用了強(qiáng)度立體聲編碼的索引(例如,參見日本專利第3622982號,這在下文中被稱為專利文獻(xiàn)2)。因而,可以針對每個預(yù)定頻帶而在開與關(guān)之間切換強(qiáng)度立體聲編碼。然而,在專利文獻(xiàn)I和2的技術(shù)的情況下,當(dāng)在開與關(guān)之間頻繁切換共同編碼或強(qiáng)度立體聲編碼時,感測位置會變得不穩(wěn)定或者會出現(xiàn)異常聲音。另外,存在對于編碼期望高壓縮率的情形。即使在右聲道的音頻信號和左聲道的音頻信號彼此顯著不同時,該情形也可能強(qiáng)制要求采用強(qiáng)度立體聲編碼以提高編碼效率。在該情況下,在解碼時肯定會出現(xiàn)可感測的人工噪聲。同時,認(rèn)為針對帶而被劃分成段的立體聲音頻信號基于編碼的失真系數(shù)、以混合比率混合從而將其編碼(例如,參見日本專利第3951690號)。在該情況下,由于基于失真系數(shù)連續(xù)地控制右邊和左邊的編碼對象的分離(立體聲感覺),因此可以防止感測位置不穩(wěn)定或者可以防止異常聲音的出現(xiàn)。圖I是示出執(zhí)行這樣的編碼的音頻編碼器的配置的一個示例的框圖。 圖I中的音頻編碼器10被配置成包括濾波器組11、濾波器組12、自適應(yīng)混合部13、T/F變換部14、T/F變換部15、編碼控制部16、編碼部17、多路復(fù)用器18以及失真系數(shù)檢測部19。作為左聲道的時間信號的音頻信號^和作為右聲道的時間信號的音頻信號xK作為編碼對象的立體聲音頻信號被輸入到圖I中的音頻編碼器10。音頻編碼器10的濾波器組11將被輸入作為編碼對象的音頻信號&劃分成相應(yīng)的B個頻帶(帶)的音頻信號。濾波器組11將所劃分的具有帶號b (b=l,2,…,B)的子帶信號提供到自適應(yīng)混合部13。類似地,濾波器組12將被輸入作為編碼對象的音頻信號xK劃分成相應(yīng)的B個帶的音頻信號。濾波器組12將所劃分的具有帶號b (b=l,2,...,B)的子帶信號xbK提供到自適應(yīng)混合部13。自適應(yīng)混合部13基于從失真系數(shù)檢測部19提供的并且用于對過去的編碼對象編碼的失真系數(shù),確定從濾波器組11提供的子帶信號1\與從濾波器組12提供的子帶信號xbK的混合比率。具體地,自適應(yīng)混合部13使得混合比率隨著失真系數(shù)越大(即,S/N比率越小)而越大。因而,要通過進(jìn)行混合而獲得的子帶信號針對右邊和左邊的分離(立體聲感覺)變小,并且將提高編碼效率。另一方面,自適應(yīng)混合部13使得混合比率隨著失真系數(shù)越小(B卩,S/N比率越大)而越小。因而,要通過進(jìn)行混合而獲得的子帶信號針對右邊和左邊的分離(立體聲感覺)變大。自適應(yīng)混合部13基于所確定的子帶信號1\的混合比率而針對每個帶混合子帶信號X\和子帶信號xbK,以生成子帶信號X\mix。類似地,自適應(yīng)混合部13基于所確定的子帶信號xbK的混合比率而針對每個帶混合子帶信號xbL和子帶信號xbK,以生成子帶信號xbKmix。自適應(yīng)混合部13將所生成的子帶信號x\mix提供到T/F變換部14,并且將子帶信號Xbsmix提供到T/F變換部15。T/F變換部14對子帶信號x\mix執(zhí)行諸如MDCT (改進(jìn)的離散余弦變換)的時頻變換,并且將所得到的頻譜\提供到編碼控制部16和編碼部17。類似地,T/F變換部15對子帶信號Xbftllix執(zhí)行諸如MDCT的時頻變換,并且將所得到的頻譜Xk提供到編碼控制部16和編碼部17。編碼控制部16基于從T/F變換部14提供的頻譜與從T/F變換部15提供的頻譜Xk之間的關(guān)聯(lián),選擇Μ/S立體聲編碼和強(qiáng)度編碼這兩種編碼中的任一種編碼方案。編碼控制部16將所選擇的編碼方案提供到編碼部17。編碼部17使用從編碼控制部16提供的編碼方案對從T/F變換部14提供的頻譜Xl和從T/F變換部15提供的頻譜Xk中的每一個進(jìn)行編碼。編碼部17將通過編碼所獲得的編碼譜和關(guān)于編碼的附加信息提供到多路復(fù)用器18。多路復(fù)用器18以預(yù)定格式對從編碼部17提供的編碼譜、關(guān)于編碼的附加信息等進(jìn)行多路復(fù)用,并且輸出所得到的編碼數(shù)據(jù)。失真系數(shù)檢測部19檢測編碼部17的編碼的失真系數(shù),并且將其提供到自適應(yīng)混合部13。
發(fā)明內(nèi)容
然而,在圖I的音頻編碼器10中,由于基于過去的編碼對象的失真系數(shù)來確定混合比率,因此該混合比率不一定適合于當(dāng)前編碼對象的特征。結(jié)果,會出現(xiàn)由于編碼而導(dǎo)致的聲音質(zhì)量的劣化。例如,即使當(dāng)右聲道的音頻信號和左聲道的音頻信號彼此顯著不同時,也會出現(xiàn)由于未充分混合右聲道和左聲道的頻譜而弓I起的解碼時的噪聲。本技術(shù)是鑒于上述情形而做出的,并且期望在高效地對立體聲音頻信號進(jìn)行編碼時防止由于編碼而導(dǎo)致的聲音質(zhì)量的劣化。根據(jù)本技術(shù)的一方面,提供了一種音頻編碼器,包括確定部,基于多個聲道的音頻信號的頻譜,確定混合比率,該混合比率為針對多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率;混合部,基于確定部確定的混合比率,針對每個聲道混合多個聲道的頻譜;以及編碼部,對經(jīng)混合部混合后的多個聲道的頻譜進(jìn)行編碼。根據(jù)本技術(shù)的一方面,提供了一種與根據(jù)本技術(shù)的第一方面的音頻編碼器對應(yīng)的音頻編碼方法和程序。在根據(jù)本技術(shù)的一方面,基于多個聲道的音頻信號的頻譜,確定混合比率,該混合比率為針對多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率;基于所確定的混合比率,針對每個聲道混合多個聲道的頻譜;以及對混合后的多個聲道的頻譜進(jìn)行編碼。根據(jù)本技術(shù)的一方面,可以在高效地對多個聲道的音頻信號進(jìn)行編碼時防止由于編碼而導(dǎo)致的聲音質(zhì)量的劣化。
圖I是示出過去的音頻編碼器的配置的一個示例的框圖;圖2是示出應(yīng)用了本技術(shù)的音頻編碼器的一個實施例的構(gòu)成示例的框圖;圖3是用于說明圖2中的關(guān)聯(lián)/能量計算部中的帶的圖;圖4是示出圖2中的自適應(yīng)混合部的構(gòu)成示例的圖;圖5是示出混合比率Iii1的示例的圖;圖6是示出混合比率m2的示例的圖7是示出混合比率m3的示例的圖;圖8是示出圖2中的編碼部的構(gòu)成示例的框圖;圖9是用于說明編碼處理的流程圖;圖10是用于詳細(xì)地說明圖9中的混合處理的流程圖;以及圖11是示出計算機(jī)的一個實施例的構(gòu)成示例的圖。
具體實施例方式<實施例>(音頻編碼器的一個實施例的構(gòu)成示例)圖2是示出應(yīng)用了本技術(shù)的音頻編碼器的一個實施例的構(gòu)成示例的框圖。圖2中的音頻編碼器30被配置成包括輸入端子31和輸入端子32、T/F變換部33和T/F變換部34、關(guān)聯(lián)/能量計算部35、自適應(yīng)混合部36、編碼部37、多路復(fù)用器38以及輸出端子39。音頻編碼器30以基于立體聲音頻信號的頻譜的混合比率來對頻譜進(jìn)行混合,以執(zhí)行強(qiáng)度立體聲編碼。具體地,編碼對象的立體聲音頻信號之中作為左聲道的時間信號的音頻信號^被輸入到音頻編碼器30的輸入端子31,并且被提供到T/F變換部33。此外,編碼對象的立體聲音頻信號之中作為右聲道的時間信號的音頻信號xK被輸入到輸入端子32,并且被提供到T/F變換部34。T/F變換部33針對每個預(yù)定的變換幀,對從輸入端子31提供的音頻信號執(zhí)行諸如MDCT變換的時頻變換。T/F變換部33將所得到的頻譜(系數(shù))提供到關(guān)聯(lián)/能量計算部35和自適應(yīng)混合部36。類似地,T/F變換部34針對每個預(yù)定的變換幀,對從輸入端子32提供的音頻信號Xe執(zhí)行諸如MDCT變換的時頻變換。T/F變換部34將所得到的頻譜Xk (系數(shù))提供到關(guān)聯(lián)/能量計算部35和自適應(yīng)混合部36。關(guān)聯(lián)/能量計算部35針對各預(yù)定頻帶(帶)將從T/F變換部33提供的頻譜和從T/F變換部34提供的頻譜Xk中的每一個劃分成段。另外,按照頻率的升序而順序地為各個帶給出帶號b (b=l, 2, ···, B)0 另外,關(guān)聯(lián)/能量計算部35根據(jù)以下等式(I),針對每個帶計算具有帶號b的帶的頻譜Xl的能量El (b)和頻譜Xe的能量Ee (b)。
權(quán)利要求
1.一種音頻編碼器,包括 確定部,基于多個聲道的音頻信號的頻譜,確定混合比率,所述混合比率為針對所述多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率; 混合部,基于所述確定部確定的所述混合比率,針對每個聲道混合所述多個聲道的頻譜;以及 編碼部,對經(jīng)所述混合部混合之后的所述多個聲道的頻譜進(jìn)行編碼。
2.根據(jù)權(quán)利要求I所述的音頻編碼器,其中, 所述確定部基于所述多個聲道的頻譜之間的關(guān)聯(lián),確定所述混合比率。
3.根據(jù)權(quán)利要求2所述的音頻編碼器,其中, 所述確定部以下述方式確定所述混合比率所述混合比率隨著所述關(guān)聯(lián)越接近O而變得越大,并且所述混合比率隨著所述關(guān)聯(lián)越接近-I而變得越小。
4.根據(jù)權(quán)利要求2所述的音頻編碼器,其中, 當(dāng)所述關(guān)聯(lián)小于預(yù)定負(fù)閾值時,所述確定部確定所述混合比率是O,其中所述預(yù)定負(fù)閾值大于-I。
5.根據(jù)權(quán)利要求I所述的音頻編碼器,其中, 所述確定部基于所述多個聲道的頻譜之間的水平比,確定所述混合比率。
6.根據(jù)權(quán)利要求5所述的音頻編碼器,其中, 所述確定部以下述方式確定所述混合比率所述混合比率隨著所述水平比越大而變得越小。
7.根據(jù)權(quán)利要求5所述的音頻編碼器,其中, 當(dāng)所述多個聲道中的至少一個聲道的頻譜的水平小于預(yù)定閾值時,所述確定部確定所述混合比率是O,而當(dāng)所述多個聲道的所有頻譜的水平都等于或大于所述預(yù)定閾值時,所述確定部基于所述水平比確定所述混合比率。
8.根據(jù)權(quán)利要求5所述的音頻編碼器,其中, 所述確定部基于所述多個聲道的頻譜之間的能量比,確定所述混合比率。
9.根據(jù)權(quán)利要求I所述的音頻編碼器,其中, 所述確定部針對各個預(yù)定頻帶將所述多個聲道的各個頻譜劃分成段,并且基于針對每個頻帶的所述多個聲道的頻譜確定每個頻帶的混合比率,以及 所述混合部基于所述確定部確定的針對每個頻帶的混合比率,針對每個聲道和每個頻帶而混合所述多個聲道的頻譜。
10.根據(jù)權(quán)利要求9所述的音頻編碼器,其中, 所述確定部基于每個頻帶的頻譜和該頻帶的頻率,確定每個頻帶的混合比率。
11.根據(jù)權(quán)利要求I所述的音頻編碼器,其中, 所述編碼器對經(jīng)所述混合部混合后的所述多個聲道的頻譜執(zhí)行強(qiáng)度立體聲編碼。
12.—種音頻編碼方法,包括通過音頻編碼器執(zhí)行如下步驟 基于多個聲道的音頻信號的頻譜,確定混合比率,該混合比率為針對所述多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率; 基于通過確定步驟的處理而確定的所述混合比率,針對每個聲道混合所述多個聲道的頻譜;以及對通過混合步驟的處理混合后的所述多個聲道的頻譜進(jìn)行編碼。
13.一種使得計算機(jī)執(zhí)行以下步驟的程序 基于多個聲道的音頻信號的頻譜,確定混合比率,該混合比率為針對所述多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率; 基于通過確定步驟的處理而確定的所述混合比率,針對每個聲道混合所述多個聲道的頻譜;以及 對通過混合步驟的處理混合后的所述多個聲道的頻譜進(jìn)行編碼。
全文摘要
本發(fā)明公開了一種音頻編碼器、音頻編碼方法和程序,該音頻編碼器包括確定部,基于多個聲道的音頻信號的頻譜,確定混合比率,該混合比率為針對多個聲道中的每個聲道,其它聲道的頻譜相對于該聲道的混合后頻譜的比率;混合部,基于確定部確定的混合比率,針對每個聲道混合多個聲道的頻譜;以及編碼部,對經(jīng)混合部混合之后的多個聲道的頻譜進(jìn)行編碼。
文檔編號G10L19/008GK102855876SQ201210212498
公開日2013年1月2日 申請日期2012年6月21日 優(yōu)先權(quán)日2011年7月1日
發(fā)明者戶栗康裕, 前田祐兒, 松本淳, 鈴木志朗, 松村祐樹 申請人:索尼公司