立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法

文檔序號(hào)：2836897閱讀：502來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法
技術(shù)領(lǐng)域：
本發(fā)明涉及立體聲編碼裝置、立體聲解碼裝置、以及立體聲編碼方法，用于在諸如移動(dòng)通信系統(tǒng)或使用因特網(wǎng)協(xié)議(IP: Internet Protocol)的分組通信系統(tǒng)中，對(duì)立體聲話音(speech)信號(hào)或立體聲音頻信號(hào)進(jìn)行編碼及解碼。
背景技術(shù)：
在諸如移動(dòng)通信系統(tǒng)或使用IP的分組通信系統(tǒng)中，DSP (Digital Signal Processor:數(shù)字信號(hào)處理器)對(duì)于數(shù)字信號(hào)處理速度及帶寬的限制正逐漸變得寬松。隨著傳輸速率更進(jìn)一步的高比特率化，將能夠確保用于多信道傳輸的頻帶，因此，即使在以單聲道方式為主流的話音通信中，也將可以期待基于立體聲方式的通信(立體聲通信)的普及?，F(xiàn)在的移動(dòng)電話已經(jīng)可以搭載具有立體聲功能的多媒體播放器或FM收音機(jī)等功能。因此，向第四代的移動(dòng)電話及IP電話等不僅追加立體聲音頻信號(hào)的錄音及播放功能，并且追加立體聲話音信號(hào)的錄音及播放等功能將是很自然的事情。以前，提起對(duì)立體聲信號(hào)進(jìn)行編碼，存在多種方法，代表性的有非專利文獻(xiàn)1所記載的MPEG-2 AAC (Moving Picture Experts Group-2 Advanced Audio Coding:活動(dòng)圖像專家組-2高級(jí)音頻編碼)。MPEG-2 AAC能夠?qū)⑿盘?hào) 編碼成單聲道、立體聲、及多聲道。MPEG-2 AAC利用MDCT (Modified Discrete Cosine Transform:改進(jìn)離散余弦變換)處理將時(shí)域信號(hào)變換為頻域信號(hào)，并基于人類聽覺系統(tǒng)的原理，對(duì)編碼引起的噪聲進(jìn)行掩蔽而將其抑制在人類的可聽范圍以下的水平，由此實(shí)現(xiàn)高音質(zhì)。非專利文獻(xiàn)1 ISO/IEC 13818-7: 1997-MPEG-2 Advanced Audio Coding ( AAC )
發(fā)明內(nèi)容
發(fā)明要解決的課題然而，MPEG-2 AAC存在一個(gè)問題，即它更適合于音頻信號(hào)，而不適合于話音信號(hào)。MPEG-2 AAC通過抑制音頻信號(hào)通信中不重要的頻譜信息的量化比特?cái)?shù)，由此在實(shí)現(xiàn)具有立體感的良好音質(zhì)的同時(shí)，將比特率向低抑制。但是，由于比特率的減少引起的話音信號(hào)的音質(zhì)的惡化相比于音頻信號(hào)更大，因此即使是在音頻信號(hào)的情況下能夠得非常良好的音質(zhì)的MPEG-2AAC，當(dāng) 將其適用到話音信號(hào)時(shí)，則有可能得不到滿意的音質(zhì)。MPEG-2 AAC的另一個(gè)問題是起因于算法的延遲。用于MPEG-2AAC的幀的大小為1024樣本/幀。例如，如果采樣頻率超過32kHz,則幀的延遲將為 32毫秒以下，這對(duì)實(shí)時(shí)語(yǔ)音通信系統(tǒng)來(lái)說是可以容許的延遲。但是，MPEG-2 AAC為了對(duì)編碼信號(hào)進(jìn)行解碼，必須進(jìn)行MDCT處理，而對(duì)相鄰的兩個(gè)幀進(jìn)行重疊相加(overlap and add )，因此必然產(chǎn)生此算法引起的處理延遲，而不適合于實(shí)時(shí)通信系統(tǒng)。另夕卜，為了降低比特率，也可以進(jìn)行AMR-WB ( Adaptive Multi-Rate Wide Band:自適應(yīng)多速率寬帶)方式的編碼，根據(jù)此方法，較之于MPEG-2AAC 只需要二分之一以下的比特率即可。但是，AMR-WB方式的編碼存在一個(gè)問題，即它只支持單聲道語(yǔ)音信號(hào)。本發(fā)明的目的在于提供一種能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼，并能夠抑制諸如語(yǔ)音通信等中的延遲的立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法。用于解決課題的手段本發(fā)明的立體聲編碼裝置所采用的結(jié)構(gòu)包括時(shí)域評(píng)價(jià)(estimation)單元，對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià)，并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼；以及頻域評(píng)價(jià)單元，將所述第一聲道信號(hào)的頻帶分割成多個(gè)，對(duì)各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)，并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼。發(fā)明的效果根據(jù)本發(fā)明，能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼，并能夠抑制諸如語(yǔ)音通信等中的延遲。

圖1為表示本發(fā)明的實(shí)施方式的立體聲編碼裝置的主要結(jié)構(gòu)的方框圖、圖2為表示本發(fā)明的實(shí)施方式的時(shí)域評(píng)價(jià)單元的主要結(jié)構(gòu)的方框圖、圖3為表示本發(fā)明的實(shí)施方式的頻域評(píng)價(jià)單元的主要結(jié)構(gòu)的方框圖、圖4為用于說明本發(fā)明的實(shí)施方式的比特分配控制單元的動(dòng)作的流程圖、以及圖5為表示本發(fā)明的實(shí)施方式的立體聲解碼裝置的主要結(jié)構(gòu)的方框圖。
具體實(shí)施方式
下面，參照附圖詳細(xì)說明本發(fā)明的實(shí)施方式。圖1為表示本發(fā)明的實(shí)施方式的立體聲編碼裝置100的主要結(jié)構(gòu)的方框圖。立體聲編碼裝置100采用分層結(jié)構(gòu)，主要由第一層110及第二層120構(gòu)成。在第一層110中，基于構(gòu)成立體聲話音信號(hào)的左聲道信號(hào)L及右聲道信號(hào)R生成單聲道信號(hào)M,并對(duì)此單聲道信號(hào)進(jìn)行編碼生成編碼信息Pa及単聲道驅(qū)動(dòng)聲源信號(hào)eM。第一層110由單聲道合成單元101及單聲道編碼單元 102構(gòu)成，各單元進(jìn)行以下處理。單聲道合成單元101基于左聲道信號(hào)L及右聲道信號(hào)R合成單聲道信號(hào) M。這里，通過求左聲道信號(hào)L及右聲道信號(hào)R的平均值而合成單聲道信號(hào) M。用公式表示此方法，則為M二(L+R)/2。另外，作為單聲道信號(hào)的合成方法，使用其它方法亦可，用公式表示其中一例，為MNw,L+w2r。在此公式中，w, 、 w2為滿足w,+w產(chǎn)l .0關(guān)系的加權(quán)系數(shù)。單聲道編碼單元102采用AMR-WB方式的編碼裝置的結(jié)構(gòu)。單聲道編碼單元102對(duì)從單聲道合成單元101輸出的單聲道信號(hào)M以AMR-WB方式進(jìn)行編碼，求出編碼信息pa并輸出到復(fù)用單元108。另外，單聲道編碼單元 102將編碼過程中所得到的單聲道驅(qū)動(dòng)聲源信號(hào)eM輸出到第二層120。在第二層120中，對(duì)立體聲話音信號(hào)進(jìn)行時(shí)域及頻域上的評(píng)價(jià)及預(yù)測(cè) (prediction and estimation),生成各種編碼信息。在此處理中，首先檢測(cè)并計(jì) 算出構(gòu)成立體聲話音信號(hào)的左聲道信號(hào)L所具有的空間性信息。立體聲話音信號(hào)基于此空間性信息產(chǎn)生現(xiàn)場(chǎng)感(擴(kuò)音感)。接著，通過將此空間性信息賦予單聲道信號(hào)，生成與左聲道信號(hào)L相似的評(píng)價(jià)信號(hào)。然后，將關(guān)于各個(gè)處理的信息作為編碼信息輸出。第二層120由濾波單元103、時(shí)域評(píng)價(jià)單元104、頻域評(píng)價(jià)單元105、殘差編碼單元106、及比特分配控制單元107構(gòu)成，各單元進(jìn)行如下的動(dòng)作。濾波單元103通過LPC ( Linear Predictive Coding:線性預(yù)測(cè)編碼)分析，基于左聲道信號(hào)L生成LPC系數(shù)，并作為編碼信息PF輸出到復(fù)用單元108。另外，濾波單元103利用左聲道信號(hào)L及LPC系數(shù)生成左聲道驅(qū)動(dòng)聲源信號(hào) e^，并輸出到時(shí)域評(píng)價(jià)單元104。時(shí)域評(píng)價(jià)單元104對(duì)在第一層110的單聲道編碼單元102中生成的單聲道驅(qū)動(dòng)聲源信號(hào)eM及在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)e^進(jìn)行時(shí) 域上的評(píng)價(jià)及預(yù)測(cè)，生成時(shí)域評(píng)價(jià)信號(hào)eestl,并輸出到頻域評(píng)價(jià)單元105。即，時(shí)域評(píng)價(jià)單元104檢測(cè)并計(jì)算出單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)et之間在時(shí)域上的空間性信息。頻域評(píng)價(jià)單元105對(duì)在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)&及在時(shí)域評(píng)價(jià)單元104中生成的時(shí)域評(píng)價(jià)信號(hào)eestl進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè)，生成頻域評(píng)價(jià)信號(hào)eest2,并輸出到殘差編碼單元106。即，頻域評(píng)價(jià)單元105 檢測(cè)并計(jì)算出時(shí)域評(píng)價(jià)信號(hào)eestl與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間在頻域上的空間性信息。殘差編碼單元106求在頻域評(píng)價(jià)單元105中生成的頻域評(píng)價(jià)信號(hào)e^與在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)ei之間的殘差信號(hào)，并對(duì)該信號(hào)進(jìn)行編碼，生成編碼信息PE，并輸出到復(fù)用單元108。比特分配控制單元107根據(jù)在單聲道編碼單元102中生成的單聲道驅(qū)動(dòng) 聲源信號(hào)eM與在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)eL的相似情況，向時(shí)域評(píng)價(jià)單元104、頻域評(píng)價(jià)單元105、及殘差編碼單元106分配編碼比特。另夕卜，比特分配控制單元107對(duì)關(guān)于分配到各單元的比特?cái)?shù)的信息進(jìn)行編碼，并輸出所得到的編碼信息PB。復(fù)用單元108將Pa到Pp的編碼信息進(jìn)行復(fù)用，并輸出經(jīng)過復(fù)用的比特'、六與立體聲編碼裝置IOO相對(duì)應(yīng)的立體聲解碼裝置取得在第一層110中生成的單聲道信號(hào)的編碼信息PA、以及在第二層120中生成的左聲道信號(hào)的編碼信息Pb至Pf，基于這些編碼信息能夠解碼出單聲道信號(hào)及左聲道信號(hào)。而且，基于解碼出的單聲道信號(hào)及左聲道信號(hào)還能夠生成右聲道信號(hào)。圖2為表示時(shí)域評(píng)價(jià)單元104的主要結(jié)構(gòu)的方框圖。時(shí)域評(píng)價(jià)單元104 輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM作為目標(biāo)信號(hào)，并輸入左聲道驅(qū)動(dòng)聲源信號(hào)eL 作為參照信號(hào)。時(shí)域評(píng)價(jià)單元104在話音信號(hào)處理的每一幀，；險(xiǎn)測(cè)并計(jì)算一次單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息，并將這些結(jié)果編碼，輸出編碼信息Pc。這里，時(shí)域上的空間性信息由振幅信息oc及延遲信息t構(gòu)成。能量計(jì)算單元141-1輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM，計(jì)算該信號(hào)在時(shí)域上的能量。能量計(jì)算單元141-2輸入左聲道驅(qū)動(dòng)聲源信號(hào)eL,通過與能量計(jì)算單元 141-1同樣的處理，計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)eL在時(shí)域上的能量。比率計(jì)算單元142輸入分別在能量計(jì)算單元141-1及141-2中算出的能量值，計(jì)算單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的能量比，作為單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息(振幅信息a )輸出。相關(guān)值計(jì)算單元143輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM及左聲道驅(qū)動(dòng)聲源信號(hào) eL,計(jì)算這兩個(gè)信號(hào)之間的互相關(guān)值(cross correlation )。延遲檢測(cè)單元144輸入在相關(guān)值計(jì)算單元143中算出的互相關(guān)值，檢測(cè) 出左聲道驅(qū)動(dòng)聲源信號(hào)eL與單聲道驅(qū)動(dòng)聲源信號(hào)eM之間的時(shí)間延遲，作為單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息(延遲信息 t)輸出。評(píng)價(jià)信號(hào)生成單元145基于在比率計(jì)算單元142中算出的振幅信息a及在延遲檢測(cè)單元144中算出的延遲信息t,從單聲道驅(qū)動(dòng)聲源信號(hào)eM生成與左聲道驅(qū)動(dòng)聲源信號(hào)et相似的時(shí)域評(píng)價(jià)信號(hào)eestl。這樣，時(shí)域評(píng)價(jià)單元104在話音信號(hào)處理的每一幀，；險(xiǎn)測(cè)并計(jì)算一次單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間在時(shí)域上的空間性信息，并輸出所得到的編碼信息Pc。這里，空間性信息由振幅信息a及延遲信息t 構(gòu)成。另外，時(shí)域評(píng)價(jià)單元104將該空間性信息賦予單聲道驅(qū)動(dòng)聲源信號(hào)eM，而生成與左聲道驅(qū)動(dòng)聲源信號(hào)eL相似的時(shí)域評(píng)價(jià)信號(hào)eestl。圖3為表示頻域評(píng)價(jià)單元105的主要結(jié)構(gòu)的方框圖。頻域評(píng)價(jià)單元105 輸入由時(shí)域評(píng)價(jià)單元104生成的時(shí)域評(píng)價(jià)信號(hào)eestI作為目標(biāo)信號(hào)，并輸入左聲道驅(qū)動(dòng)聲源信號(hào)e^作為參照信號(hào)，進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè)，并對(duì)這些結(jié) 果進(jìn)行編碼，輸出編碼信息Po。這里，頻域上的空間性信息由頻譜的振幅信息卩及相位差信息e構(gòu)成。FFT單元151-1通過高速傅立葉變換(FFT),將時(shí)域信號(hào)的左聲道驅(qū)動(dòng)聲源信號(hào)et變換為頻域信號(hào)(頻譜)。分割單元152-1將在FFT單元151-1中生成的頻域信號(hào)的頻帶分割成多個(gè)頻帶(子帶)。各子帶可以依循與人類聽覺系統(tǒng)相應(yīng)的吼叫范圍(Bark Scale),也可以在頻寬內(nèi)進(jìn)行等分。能量計(jì)算單元153-1按從分割單元152-1輸出的各子帶計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)eL的頻譜能量。FFT單元151-2通過與FFT單元151-1相同的處理，將時(shí)域評(píng)價(jià)信號(hào)eestl 變換為頻域信號(hào)。分割單元152-2通過與分割單元152-1相同的處理，將在FFT單元151-2 中生成的頻域信號(hào)的頻帶分割成多個(gè)子帶。能量計(jì)算單元153-2通過與能量計(jì)算單元153-1相同的處理，按從分割單元152-2輸出的各子帶計(jì)算時(shí)域評(píng)價(jià)信號(hào)eestl的頻譜能量。比率計(jì)算單元154利用在能量計(jì)算單元153-1及能量計(jì)算單元153-2中算出的各子帶的頻譜能量，按各子帶計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)ei與時(shí)域評(píng)價(jià)信號(hào)eestl之間的頻譜能量比，作為構(gòu)成編碼信息PD的一部分的振幅信息卩輸出。相位計(jì)算單元155-1計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)eL在各子帶上的各頻譜的相位。相位選擇單元156為了削減編碼信息的信息量，從各子帶上的頻譜的相位中，選擇一個(gè)適合于編碼的相位。相位計(jì)算單元155-2通過與相位計(jì)算單元155-1同樣的處理，計(jì)算時(shí)域評(píng) 價(jià)信號(hào)e^在各子帶上的各頻譜的相位。相位差計(jì)算單元157在由相位選擇單元156選擇的各子帶上的相位上，計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eesu之間的相位差，作為構(gòu)成編碼信息PD的一部分的相位差信息e輸出。評(píng)價(jià)信號(hào)生成單元158基于左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eestl 之間的振幅信息(3,以及左聲道驅(qū)動(dòng)聲源信號(hào)ei與時(shí)域評(píng)價(jià)信號(hào)eesu之間的相位差信息e的兩方面，從時(shí)域評(píng)價(jià)信號(hào)eestl生成頻域評(píng)價(jià)信號(hào)eest2。這樣，頻域評(píng)價(jià)單元105將左聲道驅(qū)動(dòng)聲源信號(hào)ei及在時(shí)域評(píng)價(jià)單元104 中生成的時(shí)域評(píng)價(jià)信號(hào)eestl分別分割成多個(gè)子帶，按各子帶計(jì)算時(shí)域評(píng)價(jià)信號(hào)eestl與左聲道驅(qū)動(dòng)聲源信號(hào)e^之間的頻譜能量比及相位差。由于時(shí)域上的時(shí)間延遲等價(jià)于頻域上的相位差，通過計(jì)算出頻域上的相位差，并準(zhǔn)確地調(diào)整及控制該相位差，能夠借助于頻域，對(duì)在時(shí)域沒能充分編碼的特征進(jìn)行編碼，從而進(jìn)一步提高編碼精度。頻域評(píng)價(jià)單元105將通過頻域評(píng)價(jià)算出的細(xì)微的差異賦給通過時(shí)域評(píng)價(jià)得到的與左聲道驅(qū)動(dòng)聲源信號(hào)相似的時(shí)域評(píng)價(jià) 信號(hào)eesu,而生成與左聲道驅(qū)動(dòng)聲源信號(hào)eL更加相似的頻域評(píng)價(jià)信號(hào)eest2。另外，頻域評(píng)價(jià)單元105將該空間性信息賦予時(shí)域評(píng)價(jià)信號(hào)eestl,而生成與左聲道驅(qū)動(dòng)聲源信號(hào)eL更加相似的頻域評(píng)價(jià)信號(hào)eest2。接著，詳細(xì)說明比特分配控制單元107的動(dòng)作。對(duì)于話音信號(hào)的各個(gè)幀，用于編碼所分配的比特?cái)?shù)是事先預(yù)定好的。比特分配控制單元107為了以該預(yù)定的比特率實(shí)現(xiàn)最優(yōu)的話音質(zhì)量，根據(jù)左聲道驅(qū)動(dòng)聲源信號(hào)e^與單聲道驅(qū) 動(dòng)聲源信號(hào)eM是否相似，自適應(yīng)地決定分配給各處理單元的比特?cái)?shù)。圖4為用于說明比特分配控制單元107的動(dòng)作的流程圖。在ST (步驟)1071中，比特分配控制單元107將單聲道驅(qū)動(dòng)聲源信號(hào) eM與左聲道驅(qū)動(dòng)聲源信號(hào)e^進(jìn)行比較，判斷在時(shí)域上的這兩個(gè)信號(hào)的相似情況。具體地，比特分配控制單元107計(jì)算單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū) 動(dòng)聲源信號(hào)et的均方誤差，將其與既定的閾值進(jìn)行比較，如果為閾值以下，則判斷這兩個(gè)信號(hào)相似。當(dāng)單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL相似時(shí)(ST1072: 是)，這兩個(gè)信號(hào)在時(shí)域上的差較小，而對(duì)較小的差進(jìn)行編碼則只需要較少的比特?cái)?shù)。即，如果進(jìn)行不均勻的比特分配，比如向時(shí)域評(píng)價(jià)單元104分配較少的比特，而向其它各單元(頻域評(píng)價(jià)單元105、殘差編碼單元106),尤其是頻域評(píng)價(jià)單元105分配較多的比特，則因?yàn)槭歉咝У谋忍胤峙洌跃幋a 效率將得到改善。因此，比特分配控制單元107當(dāng)在ST1072中判斷為相似時(shí)，則在ST1073中向時(shí)域評(píng)價(jià)分配較少數(shù)目的比特，而在ST1074中將其余的比特均勻地分配給其它處理。另一方面，當(dāng)單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)ei不相似時(shí) (ST1072:否)，兩個(gè)時(shí)域信號(hào)之間的差則較大，時(shí)域評(píng)價(jià)只能評(píng)價(jià)到一定程度為止的相似性，而為了提高評(píng)價(jià)信號(hào)的精度，頻域上的信號(hào)評(píng)價(jià)也很重要。因此，時(shí)域評(píng)價(jià)及頻域評(píng)價(jià)的兩方面同等地重要。另外，此時(shí)，即使在頻域評(píng)價(jià)之后，評(píng)價(jià)信號(hào)與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間還有可能留有差異，因此對(duì)殘差也進(jìn)行編碼并得到編碼信息這一處理很重要。所以，比特分配控制單元107當(dāng)在ST1072中判斷出單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)e^不相似時(shí)，在ST1075中視所有的處理同等地重要，而向所有的處理均勻地分配比特。圖5為表示本實(shí)施方式的立體聲解碼裝置200的主要結(jié)構(gòu)的方框圖。立體聲解碼裝置200也同立體聲編碼裝置IOO—樣采用分層結(jié)構(gòu)，主要由第一層210及第二層220構(gòu)成。而且，立體聲解碼裝置200中的各種處理，基本上與立體聲編碼裝置100中相應(yīng)的各種處理相反。即立體聲解碼裝置200 利用從立體聲編碼裝置IOO發(fā)送來(lái)的編碼信息，從單聲道信號(hào)預(yù)測(cè)并生成左聲道信號(hào)，進(jìn)一步利用單聲道信號(hào)及左聲道信號(hào)生成右聲道信號(hào)。分離單元201將輸入的比特流分離為Pa至Pp的編碼信息。第一層210由單聲道解碼單元202構(gòu)成。單聲道解碼單元202對(duì)編碼信息PA進(jìn)行解碼，生成單聲道信號(hào)M'及單聲道驅(qū)動(dòng)聲源信號(hào)eM，。第二層220由比特分配信息解碼單元203、時(shí)域評(píng)^T單元204、頻域評(píng)價(jià) 單元205、及殘差解碼單元206構(gòu)成，各單元進(jìn)行以下動(dòng)作。比特分配信息解碼單元203對(duì)編碼信息Ps進(jìn)行解碼，輸出分別用于時(shí)域評(píng)價(jià)單元204、頻域評(píng)價(jià)單元205、及殘差解碼單元206的比特?cái)?shù)。時(shí)域評(píng)價(jià)單元204利用在單聲道解碼單元202中生成的單聲道驅(qū)動(dòng)聲源信號(hào)eM，、從分離單元201輸出的編碼信息Pc、及從比特分配信息解碼單元 203輸出的比特?cái)?shù)，進(jìn)行時(shí)域上的評(píng)價(jià)及預(yù)測(cè)，生成時(shí)域評(píng)價(jià)信號(hào)eestl'。頻域評(píng)價(jià)單元205利用在時(shí)域評(píng)價(jià)單元204中生成的時(shí)域評(píng)價(jià)信號(hào)eestl'、從分離單元201輸出的編碼信息PD、及從比特分配信息解碼單元203傳來(lái)的比特?cái)?shù)，進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè)，生成頻域評(píng)價(jià)信號(hào)eest2，。頻域評(píng)價(jià)單元 205同立體聲編碼裝置100的頻域評(píng)價(jià)單元105 —樣，具有FFT單元，在進(jìn) 行頻域上的評(píng)價(jià)及預(yù)測(cè)之前，進(jìn)行頻率變換。殘差解碼單元206利用從分離單元201輸出的編碼信息PE、及從比特分配信息解碼單元203傳來(lái)的比特?cái)?shù)解碼出殘差信號(hào)。另外，殘差解碼單元206 將解碼出的該殘差信號(hào)賦給在頻域評(píng)價(jià)單元205中生成的頻域評(píng)價(jià)信號(hào)eest2' 而生成左聲道驅(qū)動(dòng)聲源信號(hào)eL，。合成濾波單元207從編碼信息Pj:解碼出LPC系數(shù)，并將該LPC系數(shù)與在殘差解碼單元206中生成的左聲道驅(qū)動(dòng)聲源信號(hào)eL，進(jìn)行合成，從而生成左聲道信號(hào)L，。立體聲變換單元208利用在單聲道解碼單元202中解碼出的單聲道信號(hào)M，、及在合成濾波單元207中生成的左聲道信號(hào)L，生成右聲道信號(hào)R，。這樣，根據(jù)本實(shí)施方式的立體聲編碼裝置，對(duì)作為編碼對(duì)象的立體聲話音信號(hào)，首先在時(shí)域進(jìn)行評(píng)價(jià)及預(yù)測(cè)之后，在頻域進(jìn)行更詳細(xì)的評(píng)價(jià)及預(yù)測(cè)，將有關(guān)于這兩個(gè)階段的評(píng)價(jià)及預(yù)測(cè)的信息作為編碼信息輸出。因此，對(duì)于利用時(shí)域上的評(píng)價(jià)及預(yù)測(cè)沒能充分表達(dá)的信息，能夠在頻域進(jìn)行補(bǔ)充性的評(píng)價(jià) 及預(yù)測(cè)，能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼。又，根據(jù)本實(shí)施方式，在時(shí)域評(píng)價(jià)單元104中的時(shí)域評(píng)價(jià)相當(dāng)于對(duì)全頻帶中的信號(hào)的空間性信息的平均水平進(jìn)行評(píng)價(jià)。例如，作為空間性信息在時(shí)域評(píng)價(jià)單元104中求得的能量比及時(shí)間延遲，是將一個(gè)幀的編碼對(duì)象的信號(hào) 直接作為一個(gè)信號(hào)進(jìn)行處理而求得的該信號(hào)整個(gè)的或平均的能量比及時(shí)間延遲。另一方面，在頻域評(píng)價(jià)單元105中的頻域評(píng)價(jià)則將編碼對(duì)象信號(hào)的頻帶分割成多個(gè)子帶，并對(duì)該該細(xì)化了的各個(gè)信號(hào)進(jìn)行評(píng)價(jià)。換言之，根據(jù)本實(shí) 施方式，先在時(shí)域?qū)αⅢw聲話音信號(hào)進(jìn)行大概的評(píng)價(jià)之后，再通過在頻域進(jìn) 行更進(jìn)一步的評(píng)價(jià)，進(jìn)行評(píng)價(jià)信號(hào)的細(xì)微調(diào)整。因此，對(duì)于將編碼對(duì)象的信號(hào)看作一個(gè)信號(hào)處理時(shí)沒能充分表達(dá)出來(lái)的信息，細(xì)分為多個(gè)信號(hào)，進(jìn)行更進(jìn)一步的評(píng)價(jià)，從而能夠提高立體聲話音信號(hào)的編碼精度。又，在本實(shí)施方式中，根據(jù)單聲道信號(hào)與左聲道信號(hào)(或右聲道信號(hào)) 的相似情況，即根據(jù)立體聲信號(hào)的狀態(tài)，在預(yù)定的比特率的范圍內(nèi)，對(duì)時(shí)域評(píng)價(jià)、頻域評(píng)價(jià)等各個(gè)處理自適應(yīng)地分配比特。由此，能夠進(jìn)行高效且高精度的編碼，同時(shí)能夠?qū)崿F(xiàn)比特率的可擴(kuò)展(scalability )。又，根據(jù)本實(shí)施方式，因?yàn)椴辉傩枰獙?duì)于MPEG-2 AAC來(lái)說必須的MDCT 處理，所以在諸如實(shí)時(shí)話音通信系統(tǒng)等中，能夠?qū)r(shí)間延遲抑制在容許范圍限度之內(nèi)。又，根據(jù)本實(shí)施方式，因?yàn)樵跁r(shí)域評(píng)價(jià)中，利用如能量比及時(shí)間延遲這樣的較少的參數(shù)進(jìn)行編碼，所以能夠削減比特率。又，根據(jù)本實(shí)施方式，因?yàn)椴捎糜蓛?層構(gòu)成的分層結(jié)構(gòu)，所以能夠從單聲道水平擴(kuò)展(scaling)到立體聲水平。因此，即使在由于某種原因不能夠解碼出有關(guān)于頻域評(píng)價(jià)的信息時(shí)，也能夠通過只解碼出有關(guān)于時(shí)域評(píng)價(jià)的信息，來(lái)解碼出雖然質(zhì)量有所惡化但為預(yù)定質(zhì)量的立體聲話音信號(hào)，從而能夠提高可擴(kuò)展性。又，根據(jù)本實(shí)施方式，因?yàn)樵诘谝粚永肁MR-WB方式對(duì)單聲道信號(hào)進(jìn)行編碼，所以能夠向低抑制比特率。另外，可以對(duì)本實(shí)施方式的立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法進(jìn)行各種變更而進(jìn)行實(shí)施。比如，雖然在本實(shí)施方式中以這樣一種情形為例進(jìn)行了說明，即在立體聲編碼裝置100中以單聲道信號(hào)及左聲道信號(hào)作為編碼對(duì)象，而立體聲解碼裝置200通過解碼出單聲道信號(hào)及左聲道信號(hào)并合成這些解碼信號(hào)，解碼出右聲道信號(hào)，但立體聲編碼裝置IOO的編碼對(duì)象的信號(hào)并不限于此，也可以在立體聲編碼裝置100中將單聲道信號(hào)及右聲道信號(hào)作為編碼對(duì)象，而立體聲解碼裝置200通過合成解碼出的右聲道信號(hào)及單聲道信號(hào)，生成左聲道信號(hào)又，在本實(shí)施方式的濾波單元103中，作為L(zhǎng)PC系數(shù)的編碼信息，也可以使用將LPC系數(shù)進(jìn)行變換而得的其它的等價(jià)的參數(shù)(例如LSP參數(shù))。又，雖然在本實(shí)施方式中，由比特分配控制單元107將預(yù)定數(shù)目的比特分配給各個(gè)處理，^旦也可以不進(jìn)行比特分配控制處理，而進(jìn)行固定比特分配，即事先定好各單元所使用的比特?cái)?shù)。此時(shí)，立體聲編碼裝置100中將不再需要比特分配控制單元107。另外，該固定的比特分配的比例對(duì)于立體聲編碼裝置100及立體聲解碼裝置200是共同的，從而立體聲解碼裝置200中也將不再需要比特分配信息解碼單元203。又，雖然本實(shí)施方式的比特分配控制單元107根據(jù)立體聲話音信號(hào)的情況自適應(yīng)地進(jìn)行比特分配，但也可以根據(jù)網(wǎng)絡(luò)的情況自適應(yīng)地進(jìn)行比特分配。又，如果使本實(shí)施方式的殘差編碼單元106使用由比特分配控制單元107 所分配的預(yù)定數(shù)目的比特進(jìn)行編碼，則可得到損耗(lossy)系統(tǒng)。作為使用預(yù)定數(shù)目的比特的編碼，例如有矢量量化。一般，殘差編碼單元根據(jù)編碼方法的不同，可得到不同特性的所謂的損耗系統(tǒng)或無(wú)損耗(lossless)系統(tǒng)。較之于損耗系統(tǒng)，無(wú)損耗系統(tǒng)雖然具有在解碼裝置能夠更加準(zhǔn)確地對(duì)信號(hào)進(jìn)行解碼的特性，但因壓縮率較低，所以比特率變高。例如，在殘差編碼單元106 中，如果使用霍夫曼(Huffman)編碼、賴斯(Rice )編碼等無(wú)噪聲(noiseless ) 編碼方法對(duì)殘差信號(hào)進(jìn)行編碼，則可得到無(wú)損耗系統(tǒng)。又，雖然在本實(shí)施方式中，比率計(jì)算單元142計(jì)算出單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)et之間的能量比作為振幅信息cc ,但也可以計(jì)算出能量差來(lái)代替能量比作為振幅信息a 。又，雖然在本實(shí)施方式中，比率計(jì)算單元154計(jì)算出各子帶上的左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)e^之間的頻鐠能量比(3作為振幅信息卩，但也可以計(jì)算出能量差來(lái)代替能量比作為振幅信息(3。又，雖然在本實(shí)施方式中，單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間在時(shí)域上的空間性信息由振幅信息a及延遲信息i;構(gòu)成，但該空間性信息也可以進(jìn)一步包含其它的信息，或者由完全不同于振幅信息a及延遲信息T等的其它信息構(gòu)成。又，雖然在本實(shí)施方式中，左聲道驅(qū)動(dòng)聲源信號(hào)eL與時(shí)域評(píng)價(jià)信號(hào)e^ 之間在頻域上的空間性信息由振幅信息(3及相位差信息e構(gòu)成，但該空間性信息也可以進(jìn)一步包含其它的信息，也可以由完全不同于振幅信息卩及相位差信息e等的其它信息構(gòu)成。又，雖然在本實(shí)施方式中，時(shí)域評(píng)價(jià)單元104按各個(gè)幀檢測(cè)并計(jì)算單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息，但也可以在一個(gè)幀內(nèi)多次進(jìn)行該處理。又，雖然在本實(shí)施方式中，相位選擇單元156在各子帶中選擇一個(gè)頻譜相位，但也可以選擇多個(gè)頻譜相位。此時(shí)，相位差計(jì)算單元157計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eest,之間在該多個(gè)相位上的相位差9的平均，并輸出到評(píng)價(jià)信號(hào)生成單元158。又，雖然在本實(shí)施方式中，殘差編碼單元106對(duì)殘差信號(hào)進(jìn)行時(shí)域編碼， 4旦也可以進(jìn)4于頻域編碼。又，雖然在本實(shí)施方式中，以編碼對(duì)象是話音信號(hào)的情形為例進(jìn)行了說明，但本發(fā)明立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法除了話音信號(hào)以外，也可以適用于音頻信號(hào)。以上，對(duì)本發(fā)明的實(shí)施方式進(jìn)行了說明。本發(fā)明的立體聲編碼裝置及立體聲解碼裝置可以搭載到移動(dòng)通信系統(tǒng)中的通信終端裝置及基站裝置上，由此可以提供具有與上述同樣的作用效果的通信終端裝置、基站裝置、及移動(dòng)通信系統(tǒng)。又，此處，雖然以用硬件實(shí)現(xiàn)本發(fā)明的情形為例進(jìn)行了說明，但本發(fā)明也可以用軟件實(shí)現(xiàn)。例如，可以用編程語(yǔ)言記述本發(fā)明的立體聲編碼方法及立體聲解碼方法的算法，將此程序存儲(chǔ)于存儲(chǔ)器中，通過用信息處理單元執(zhí) 行，可以實(shí)現(xiàn)與本發(fā)明的立體聲編碼裝置及立體聲解碼裝置相同的功能。又，用來(lái)說明上述各實(shí)施方式的各功能模塊，典型地由集成電路LSI(大規(guī)模集成電路)來(lái)實(shí)現(xiàn)。這些功能塊既可以分別實(shí)行單芯片化，也可以包括其中一部分或者全部而實(shí)行單芯片化。這里，雖然稱作LSI,但根據(jù)集成度的不同也可以稱為IC (集成電路)、系統(tǒng)LSI (系統(tǒng)大規(guī)模集成電路)、超大LSI (超大規(guī)模集成電路)、極大LSI (極大規(guī)模集成電路)等。另外，集成電路化的技術(shù)不限于LSI，也可以使用專用電路或通用處理器來(lái)實(shí)現(xiàn)。也可以利用制造LSI后能夠編程的FPGA(Field Programmable Gate Array,現(xiàn)場(chǎng)可編程門陣列)，或可以利用能夠?qū)SI內(nèi)部的電路塊連接或設(shè)定重新配置的可重構(gòu)處理器(Reconfigurable Processor )。再有，如果隨著半導(dǎo)體技術(shù)的進(jìn)步或者其他技術(shù)的派生，出現(xiàn)了替換LSI 集成電路的技術(shù)，當(dāng)然，也可以利用該技術(shù)來(lái)實(shí)現(xiàn)功能塊的集成化。也有應(yīng) 用生物工程學(xué)技術(shù)等的可能性。本說明書基于2005年8月31日申請(qǐng)的日本專利申請(qǐng)?zhí)卦傅?005 -252778號(hào)。該內(nèi)容全部包括此處。工業(yè)實(shí)用性本發(fā)明的立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法適用于移動(dòng)電話、IP電話、電視會(huì)議等。
權(quán)利要求
1、一種立體聲編碼裝置，包括時(shí)域評(píng)價(jià)單元，對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià)，并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼；以及頻域評(píng)價(jià)單元，將所述第一聲道信號(hào)的頻帶分割成多個(gè)，對(duì)各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)，并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼。
2、如權(quán)利要求1所述的立體聲編碼裝置，包括第一層編碼單元，對(duì)基于所述立體聲信號(hào)生成的單聲道信號(hào)進(jìn)行編碼；以及第二層編碼單元，包括所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元；而進(jìn)行可擴(kuò)展性編碼。
3、如權(quán)利要求2所述的立體聲編碼裝置，其中，所述時(shí)域評(píng)價(jià)單元利用所述單聲道信號(hào)進(jìn)行所述時(shí)域上的評(píng)價(jià)，生成與所述第一聲道信號(hào)相似的時(shí)域評(píng)價(jià)信號(hào)；所述頻域評(píng)價(jià)單元與所述第一聲道信號(hào)同樣地將所述時(shí)域評(píng)價(jià)信號(hào)的頻帶也分割成多個(gè)，利用各頻帶的所述時(shí)域評(píng)價(jià)信號(hào)進(jìn)行所述頻域上的評(píng)價(jià)，生成與所述第一聲道信號(hào)相似的頻域評(píng)價(jià)信號(hào)。
4、如權(quán)利要求2所述的立體聲編碼裝置，還包括比特分配單元，根據(jù)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似程度，對(duì)所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元分配比特。
5、如權(quán)利要求4所述的立體聲編碼裝置，其中，所述比特分配單元，當(dāng)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似度為預(yù)定值以上時(shí)，將更多的比特分配給所述頻域評(píng)價(jià)單元。
6、如權(quán)利要求4所述的立體聲編碼裝置，其中，所述比特分配單元，當(dāng)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似度不足預(yù)定值時(shí)，對(duì)所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元均勻地分配比特。
7、如權(quán)利要求3所述的立體聲編碼裝置，還包括殘差編碼單元，對(duì)所述第一聲道信號(hào)及所述頻域評(píng)價(jià)信號(hào)之間的殘差進(jìn) 行編碼。
8、如權(quán)利要求3所述的立體聲編碼裝置，其中，所述時(shí)域評(píng)價(jià)單元在所述時(shí)域上的評(píng)價(jià)中，求所述第一聲道信號(hào)與所述單聲道信號(hào)之間的空間性信息；所述頻域評(píng)價(jià)單元在所述頻域上的評(píng)價(jià)中，求所述第一聲道信號(hào)與所述時(shí)域評(píng)價(jià)信號(hào)之間的空間性信息。
9、一種立體聲解碼裝置，包括時(shí)域解碼單元，對(duì)編碼信息進(jìn)行解碼，該編碼信息是對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià)，并對(duì)該評(píng)價(jià)的結(jié)果進(jìn)行編碼而得到的；以及頻域解碼單元，對(duì)編碼信息進(jìn)行解碼，該編碼信息是對(duì)評(píng)價(jià)結(jié)果進(jìn)行編碼而得到的，該評(píng)價(jià)結(jié)果是將所述第一聲道信號(hào)的頻帶分割成多個(gè)，并對(duì)各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)而得到的。
10、一種立體聲編碼方法，包括對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià)的步驟；對(duì)所述時(shí)域上的評(píng)價(jià)結(jié)果進(jìn)行編碼的步驟；將所述第一聲道信號(hào)的頻帶分割成多個(gè)的步驟；對(duì)分割后的各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)的步驟；以及將所述頻域上的評(píng)價(jià)結(jié)果進(jìn)行編碼的步驟。
全文摘要
公開了立體聲編碼裝置，能夠以低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼，抑制語(yǔ)音通信中的延遲。在此裝置的第一層(110)中，進(jìn)行單聲道編碼。在第二層(120)中，濾波單元(103)生成LPC(Linear Predictive Coding線性預(yù)測(cè)編碼)系數(shù)，并生成左聲道驅(qū)動(dòng)聲源信號(hào)。時(shí)域評(píng)價(jià)單元(104)及頻域評(píng)價(jià)單元(105)在兩個(gè)域上進(jìn)行信號(hào)的評(píng)價(jià)及預(yù)測(cè)，殘差編碼單元(106)對(duì)殘差信號(hào)進(jìn)行編碼。比特分配控制單元(107)根據(jù)話音信號(hào)的條件，自適應(yīng)地對(duì)時(shí)域評(píng)價(jià)單元(104)、頻域評(píng)價(jià)單元(105)、以及殘差編碼單元(106)分配比特。
文檔編號(hào)G10L19/008GK101253557SQ200680031948
公開日2008年8月27日申請(qǐng)日期2006年8月30日優(yōu)先權(quán)日2005年8月31日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載