專利名稱:立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及立體聲編碼裝置、立體聲解碼裝置、以及立體聲編碼方法,用于在諸如移動(dòng)通信系統(tǒng)或使用因特網(wǎng)協(xié)議(IP: Internet Protocol)的分組通 信系統(tǒng)中,對(duì)立體聲話音(speech)信號(hào)或立體聲音頻信號(hào)進(jìn)行編碼及解碼。
背景技術(shù):
在諸如移動(dòng)通信系統(tǒng)或使用IP的分組通信系統(tǒng)中,DSP (Digital Signal Processor:數(shù)字信號(hào)處理器)對(duì)于數(shù)字信號(hào)處理速度及帶寬的限制正逐漸變 得寬松。隨著傳輸速率更進(jìn)一步的高比特率化,將能夠確保用于多信道傳輸 的頻帶,因此,即使在以單聲道方式為主流的話音通信中,也將可以期待基 于立體聲方式的通信(立體聲通信)的普及?,F(xiàn)在的移動(dòng)電話已經(jīng)可以搭載具有立體聲功能的多媒體播放器或FM收 音機(jī)等功能。因此,向第四代的移動(dòng)電話及IP電話等不僅追加立體聲音頻信 號(hào)的錄音及播放功能,并且追加立體聲話音信號(hào)的錄音及播放等功能將是很 自然的事情。以前,提起對(duì)立體聲信號(hào)進(jìn)行編碼,存在多種方法,代表性的有非專利 文獻(xiàn)1所記載的MPEG-2 AAC (Moving Picture Experts Group-2 Advanced Audio Coding:活動(dòng)圖像專家組-2高級(jí)音頻編碼)。MPEG-2 AAC能夠?qū)⑿盘?hào) 編碼成單聲道、立體聲、及多聲道。MPEG-2 AAC利用MDCT (Modified Discrete Cosine Transform:改進(jìn)離散余弦變換)處理將時(shí)域信號(hào)變換為頻域 信號(hào),并基于人類聽覺系統(tǒng)的原理,對(duì)編碼引起的噪聲進(jìn)行掩蔽而將其抑制 在人類的可聽范圍以下的水平,由此實(shí)現(xiàn)高音質(zhì)。非專利文獻(xiàn)1 ISO/IEC 13818-7: 1997-MPEG-2 Advanced Audio Coding ( AAC )
發(fā)明內(nèi)容
發(fā)明要解決的課題然而,MPEG-2 AAC存在一個(gè)問題,即它更適合于音頻信號(hào),而不適合于話音信號(hào)。MPEG-2 AAC通過抑制音頻信號(hào)通信中不重要的頻譜信息的量 化比特?cái)?shù),由此在實(shí)現(xiàn)具有立體感的良好音質(zhì)的同時(shí),將比特率向低抑制。 但是,由于比特率的減少引起的話音信號(hào)的音質(zhì)的惡化相比于音頻信號(hào)更大, 因此即使是在音頻信號(hào)的情況下能夠得非常良好的音質(zhì)的MPEG-2AAC,當(dāng) 將其適用到話音信號(hào)時(shí),則有可能得不到滿意的音質(zhì)。MPEG-2 AAC的另一個(gè)問題是起因于算法的延遲。用于MPEG-2AAC的 幀的大小為1024樣本/幀。例如,如果采樣頻率超過32kHz,則幀的延遲將為 32毫秒以下,這對(duì)實(shí)時(shí)語(yǔ)音通信系統(tǒng)來(lái)說是可以容許的延遲。但是,MPEG-2 AAC為了對(duì)編碼信號(hào)進(jìn)行解碼,必須進(jìn)行MDCT處理,而對(duì)相鄰的兩個(gè)幀 進(jìn)行重疊相加(overlap and add ),因此必然產(chǎn)生此算法引起的處理延遲,而 不適合于實(shí)時(shí)通信系統(tǒng)。另夕卜,為了降低比特率,也可以進(jìn)行AMR-WB ( Adaptive Multi-Rate Wide Band:自適應(yīng)多速率寬帶)方式的編碼,根據(jù)此方法,較之于MPEG-2AAC 只需要二分之一以下的比特率即可。但是,AMR-WB方式的編碼存在一個(gè)問 題,即它只支持單聲道語(yǔ)音信號(hào)。本發(fā)明的目的在于提供一種能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的 編碼,并能夠抑制諸如語(yǔ)音通信等中的延遲的立體聲編碼裝置、立體聲解碼 裝置、及立體聲編碼方法。用于解決課題的手段本發(fā)明的立體聲編碼裝置所采用的結(jié)構(gòu)包括時(shí)域評(píng)價(jià)(estimation)單 元,對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià),并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行 編碼;以及頻域評(píng)價(jià)單元,將所述第一聲道信號(hào)的頻帶分割成多個(gè),對(duì)各頻 帶的所述第 一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià),并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼。發(fā)明的效果根據(jù)本發(fā)明,能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼,并能夠 抑制諸如語(yǔ)音通信等中的延遲。
圖1為表示本發(fā)明的實(shí)施方式的立體聲編碼裝置的主要結(jié)構(gòu)的方框圖、 圖2為表示本發(fā)明的實(shí)施方式的時(shí)域評(píng)價(jià)單元的主要結(jié)構(gòu)的方框圖、 圖3為表示本發(fā)明的實(shí)施方式的頻域評(píng)價(jià)單元的主要結(jié)構(gòu)的方框圖、圖4為用于說明本發(fā)明的實(shí)施方式的比特分配控制單元的動(dòng)作的流程 圖、以及圖5為表示本發(fā)明的實(shí)施方式的立體聲解碼裝置的主要結(jié)構(gòu)的方框圖。
具體實(shí)施方式
下面,參照附圖詳細(xì)說明本發(fā)明的實(shí)施方式。圖1為表示本發(fā)明的實(shí)施方式的立體聲編碼裝置100的主要結(jié)構(gòu)的方框圖。立體聲編碼裝置100采用分層結(jié)構(gòu),主要由第一層110及第二層120構(gòu)成。在第一層110中,基于構(gòu)成立體聲話音信號(hào)的左聲道信號(hào)L及右聲道信 號(hào)R生成單聲道信號(hào)M,并對(duì)此單聲道信號(hào)進(jìn)行編碼生成編碼信息Pa及単 聲道驅(qū)動(dòng)聲源信號(hào)eM。第一層110由單聲道合成單元101及單聲道編碼單元 102構(gòu)成,各單元進(jìn)行以下處理。單聲道合成單元101基于左聲道信號(hào)L及右聲道信號(hào)R合成單聲道信號(hào) M。這里,通過求左聲道信號(hào)L及右聲道信號(hào)R的平均值而合成單聲道信號(hào) M。用公式表示此方法,則為M二(L+R)/2。另外,作為單聲道信號(hào)的合成 方法,使用其它方法亦可,用公式表示其中一例,為MNw,L+w2r。在此公式 中,w, 、 w2為滿足w,+w產(chǎn)l .0關(guān)系的加權(quán)系數(shù)。單聲道編碼單元102采用AMR-WB方式的編碼裝置的結(jié)構(gòu)。單聲道編 碼單元102對(duì)從單聲道合成單元101輸出的單聲道信號(hào)M以AMR-WB方式 進(jìn)行編碼,求出編碼信息pa并輸出到復(fù)用單元108。另外,單聲道編碼單元 102將編碼過程中所得到的單聲道驅(qū)動(dòng)聲源信號(hào)eM輸出到第二層120。在第二層120中,對(duì)立體聲話音信號(hào)進(jìn)行時(shí)域及頻域上的評(píng)價(jià)及預(yù)測(cè) (prediction and estimation),生成各種編碼信息。在此處理中,首先檢測(cè)并計(jì) 算出構(gòu)成立體聲話音信號(hào)的左聲道信號(hào)L所具有的空間性信息。立體聲話音 信號(hào)基于此空間性信息產(chǎn)生現(xiàn)場(chǎng)感(擴(kuò)音感)。接著,通過將此空間性信息賦 予單聲道信號(hào),生成與左聲道信號(hào)L相似的評(píng)價(jià)信號(hào)。然后,將關(guān)于各個(gè)處 理的信息作為編碼信息輸出。第二層120由濾波單元103、時(shí)域評(píng)價(jià)單元104、 頻域評(píng)價(jià)單元105、殘差編碼單元106、及比特分配控制單元107構(gòu)成,各單 元進(jìn)行如下的動(dòng)作。濾波單元103通過LPC ( Linear Predictive Coding:線性預(yù)測(cè)編碼)分析, 基于左聲道信號(hào)L生成LPC系數(shù),并作為編碼信息PF輸出到復(fù)用單元108。 另外,濾波單元103利用左聲道信號(hào)L及LPC系數(shù)生成左聲道驅(qū)動(dòng)聲源信號(hào) e^,并輸出到時(shí)域評(píng)價(jià)單元104。時(shí)域評(píng)價(jià)單元104對(duì)在第一層110的單聲道編碼單元102中生成的單聲 道驅(qū)動(dòng)聲源信號(hào)eM及在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)e^進(jìn)行時(shí) 域上的評(píng)價(jià)及預(yù)測(cè),生成時(shí)域評(píng)價(jià)信號(hào)eestl,并輸出到頻域評(píng)價(jià)單元105。即, 時(shí)域評(píng)價(jià)單元104檢測(cè)并計(jì)算出單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信 號(hào)et之間在時(shí)域上的空間性信息。頻域評(píng)價(jià)單元105對(duì)在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)&及 在時(shí)域評(píng)價(jià)單元104中生成的時(shí)域評(píng)價(jià)信號(hào)eestl進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè), 生成頻域評(píng)價(jià)信號(hào)eest2,并輸出到殘差編碼單元106。即,頻域評(píng)價(jià)單元105 檢測(cè)并計(jì)算出時(shí)域評(píng)價(jià)信號(hào)eestl與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間在頻域上的空 間性信息。殘差編碼單元106求在頻域評(píng)價(jià)單元105中生成的頻域評(píng)價(jià)信號(hào)e^與 在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)ei之間的殘差信號(hào),并對(duì)該信 號(hào)進(jìn)行編碼,生成編碼信息PE,并輸出到復(fù)用單元108。比特分配控制單元107根據(jù)在單聲道編碼單元102中生成的單聲道驅(qū)動(dòng) 聲源信號(hào)eM與在濾波單元103中生成的左聲道驅(qū)動(dòng)聲源信號(hào)eL的相似情況, 向時(shí)域評(píng)價(jià)單元104、頻域評(píng)價(jià)單元105、及殘差編碼單元106分配編碼比特。 另夕卜,比特分配控制單元107對(duì)關(guān)于分配到各單元的比特?cái)?shù)的信息進(jìn)行編碼, 并輸出所得到的編碼信息PB。復(fù)用單元108將Pa到Pp的編碼信息進(jìn)行復(fù)用,并輸出經(jīng)過復(fù)用的比特'、六與立體聲編碼裝置IOO相對(duì)應(yīng)的立體聲解碼裝置取得在第一層110中生 成的單聲道信號(hào)的編碼信息PA、以及在第二層120中生成的左聲道信號(hào)的編 碼信息Pb至Pf,基于這些編碼信息能夠解碼出單聲道信號(hào)及左聲道信號(hào)。而 且,基于解碼出的單聲道信號(hào)及左聲道信號(hào)還能夠生成右聲道信號(hào)。圖2為表示時(shí)域評(píng)價(jià)單元104的主要結(jié)構(gòu)的方框圖。時(shí)域評(píng)價(jià)單元104 輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM作為目標(biāo)信號(hào),并輸入左聲道驅(qū)動(dòng)聲源信號(hào)eL 作為參照信號(hào)。時(shí)域評(píng)價(jià)單元104在話音信號(hào)處理的每一幀,;險(xiǎn)測(cè)并計(jì)算一次單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息,并將 這些結(jié)果編碼,輸出編碼信息Pc。這里,時(shí)域上的空間性信息由振幅信息oc及延遲信息t構(gòu)成。能量計(jì)算單元141-1輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM,計(jì)算該信號(hào)在時(shí)域上 的能量。能量計(jì)算單元141-2輸入左聲道驅(qū)動(dòng)聲源信號(hào)eL,通過與能量計(jì)算單元 141-1同樣的處理,計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)eL在時(shí)域上的能量。比率計(jì)算單元142輸入分別在能量計(jì)算單元141-1及141-2中算出的能量 值,計(jì)算單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的能量比,作 為單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息(振幅 信息a )輸出。相關(guān)值計(jì)算單元143輸入單聲道驅(qū)動(dòng)聲源信號(hào)eM及左聲道驅(qū)動(dòng)聲源信號(hào) eL,計(jì)算這兩個(gè)信號(hào)之間的互相關(guān)值(cross correlation )。延遲檢測(cè)單元144輸入在相關(guān)值計(jì)算單元143中算出的互相關(guān)值,檢測(cè) 出左聲道驅(qū)動(dòng)聲源信號(hào)eL與單聲道驅(qū)動(dòng)聲源信號(hào)eM之間的時(shí)間延遲,作為單 聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息(延遲信息 t)輸出。評(píng)價(jià)信號(hào)生成單元145基于在比率計(jì)算單元142中算出的振幅信息a及 在延遲檢測(cè)單元144中算出的延遲信息t,從單聲道驅(qū)動(dòng)聲源信號(hào)eM生成與 左聲道驅(qū)動(dòng)聲源信號(hào)et相似的時(shí)域評(píng)價(jià)信號(hào)eestl。這樣,時(shí)域評(píng)價(jià)單元104在話音信號(hào)處理的每一幀,;險(xiǎn)測(cè)并計(jì)算一次單 聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間在時(shí)域上的空間性信息, 并輸出所得到的編碼信息Pc。這里,空間性信息由振幅信息a及延遲信息t 構(gòu)成。另外,時(shí)域評(píng)價(jià)單元104將該空間性信息賦予單聲道驅(qū)動(dòng)聲源信號(hào)eM, 而生成與左聲道驅(qū)動(dòng)聲源信號(hào)eL相似的時(shí)域評(píng)價(jià)信號(hào)eestl。圖3為表示頻域評(píng)價(jià)單元105的主要結(jié)構(gòu)的方框圖。頻域評(píng)價(jià)單元105 輸入由時(shí)域評(píng)價(jià)單元104生成的時(shí)域評(píng)價(jià)信號(hào)eestI作為目標(biāo)信號(hào),并輸入左 聲道驅(qū)動(dòng)聲源信號(hào)e^作為參照信號(hào),進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè),并對(duì)這些結(jié) 果進(jìn)行編碼,輸出編碼信息Po。這里,頻域上的空間性信息由頻譜的振幅信息卩及相位差信息e構(gòu)成。FFT單元151-1通過高速傅立葉變換(FFT),將時(shí)域信號(hào)的左聲道驅(qū)動(dòng)聲源信號(hào)et變換為頻域信號(hào)(頻譜)。分割單元152-1將在FFT單元151-1中生成的頻域信號(hào)的頻帶分割成多 個(gè)頻帶(子帶)。各子帶可以依循與人類聽覺系統(tǒng)相應(yīng)的吼叫范圍(Bark Scale),也可以在頻寬內(nèi)進(jìn)行等分。能量計(jì)算單元153-1按從分割單元152-1輸出的各子帶計(jì)算左聲道驅(qū)動(dòng)聲 源信號(hào)eL的頻譜能量。FFT單元151-2通過與FFT單元151-1相同的處理,將時(shí)域評(píng)價(jià)信號(hào)eestl 變換為頻域信號(hào)。分割單元152-2通過與分割單元152-1相同的處理,將在FFT單元151-2 中生成的頻域信號(hào)的頻帶分割成多個(gè)子帶。能量計(jì)算單元153-2通過與能量計(jì)算單元153-1相同的處理,按從分割單 元152-2輸出的各子帶計(jì)算時(shí)域評(píng)價(jià)信號(hào)eestl的頻譜能量。比率計(jì)算單元154利用在能量計(jì)算單元153-1及能量計(jì)算單元153-2中算 出的各子帶的頻譜能量,按各子帶計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)ei與時(shí)域評(píng)價(jià)信 號(hào)eestl之間的頻譜能量比,作為構(gòu)成編碼信息PD的一部分的振幅信息卩輸出。相位計(jì)算單元155-1計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)eL在各子帶上的各頻譜的 相位。相位選擇單元156為了削減編碼信息的信息量,從各子帶上的頻譜的相 位中,選擇一個(gè)適合于編碼的相位。相位計(jì)算單元155-2通過與相位計(jì)算單元155-1同樣的處理,計(jì)算時(shí)域評(píng) 價(jià)信號(hào)e^在各子帶上的各頻譜的相位。相位差計(jì)算單元157在由相位選擇單元156選擇的各子帶上的相位上, 計(jì)算左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eesu之間的相位差,作為構(gòu)成編 碼信息PD的一部分的相位差信息e輸出。評(píng)價(jià)信號(hào)生成單元158基于左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eestl 之間的振幅信息(3,以及左聲道驅(qū)動(dòng)聲源信號(hào)ei與時(shí)域評(píng)價(jià)信號(hào)eesu之間的 相位差信息e的兩方面,從時(shí)域評(píng)價(jià)信號(hào)eestl生成頻域評(píng)價(jià)信號(hào)eest2。這樣,頻域評(píng)價(jià)單元105將左聲道驅(qū)動(dòng)聲源信號(hào)ei及在時(shí)域評(píng)價(jià)單元104 中生成的時(shí)域評(píng)價(jià)信號(hào)eestl分別分割成多個(gè)子帶,按各子帶計(jì)算時(shí)域評(píng)價(jià)信 號(hào)eestl與左聲道驅(qū)動(dòng)聲源信號(hào)e^之間的頻譜能量比及相位差。由于時(shí)域上的 時(shí)間延遲等價(jià)于頻域上的相位差,通過計(jì)算出頻域上的相位差,并準(zhǔn)確地調(diào)整及控制該相位差,能夠借助于頻域,對(duì)在時(shí)域沒能充分編碼的特征進(jìn)行編 碼,從而進(jìn)一步提高編碼精度。頻域評(píng)價(jià)單元105將通過頻域評(píng)價(jià)算出的細(xì)微的差異賦給通過時(shí)域評(píng)價(jià)得到的與左聲道驅(qū)動(dòng)聲源信號(hào)相似的時(shí)域評(píng)價(jià) 信號(hào)eesu,而生成與左聲道驅(qū)動(dòng)聲源信號(hào)eL更加相似的頻域評(píng)價(jià)信號(hào)eest2。另 外,頻域評(píng)價(jià)單元105將該空間性信息賦予時(shí)域評(píng)價(jià)信號(hào)eestl,而生成與左 聲道驅(qū)動(dòng)聲源信號(hào)eL更加相似的頻域評(píng)價(jià)信號(hào)eest2。接著,詳細(xì)說明比特分配控制單元107的動(dòng)作。對(duì)于話音信號(hào)的各個(gè)幀, 用于編碼所分配的比特?cái)?shù)是事先預(yù)定好的。比特分配控制單元107為了以該 預(yù)定的比特率實(shí)現(xiàn)最優(yōu)的話音質(zhì)量,根據(jù)左聲道驅(qū)動(dòng)聲源信號(hào)e^與單聲道驅(qū) 動(dòng)聲源信號(hào)eM是否相似,自適應(yīng)地決定分配給各處理單元的比特?cái)?shù)。圖4為用于說明比特分配控制單元107的動(dòng)作的流程圖。在ST (步驟)1071中,比特分配控制單元107將單聲道驅(qū)動(dòng)聲源信號(hào) eM與左聲道驅(qū)動(dòng)聲源信號(hào)e^進(jìn)行比較,判斷在時(shí)域上的這兩個(gè)信號(hào)的相似情 況。具體地,比特分配控制單元107計(jì)算單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū) 動(dòng)聲源信號(hào)et的均方誤差,將其與既定的閾值進(jìn)行比較,如果為閾值以下, 則判斷這兩個(gè)信號(hào)相似。當(dāng)單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL相似時(shí)(ST1072: 是),這兩個(gè)信號(hào)在時(shí)域上的差較小,而對(duì)較小的差進(jìn)行編碼則只需要較少的 比特?cái)?shù)。即,如果進(jìn)行不均勻的比特分配,比如向時(shí)域評(píng)價(jià)單元104分配較 少的比特,而向其它各單元(頻域評(píng)價(jià)單元105、殘差編碼單元106),尤其 是頻域評(píng)價(jià)單元105分配較多的比特,則因?yàn)槭歉咝У谋忍胤峙洌跃幋a 效率將得到改善。因此,比特分配控制單元107當(dāng)在ST1072中判斷為相似時(shí), 則在ST1073中向時(shí)域評(píng)價(jià)分配較少數(shù)目的比特,而在ST1074中將其余的比 特均勻地分配給其它處理。另一方面,當(dāng)單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)ei不相似時(shí) (ST1072:否),兩個(gè)時(shí)域信號(hào)之間的差則較大,時(shí)域評(píng)價(jià)只能評(píng)價(jià)到一定程 度為止的相似性,而為了提高評(píng)價(jià)信號(hào)的精度,頻域上的信號(hào)評(píng)價(jià)也很重要。 因此,時(shí)域評(píng)價(jià)及頻域評(píng)價(jià)的兩方面同等地重要。另外,此時(shí),即使在頻域 評(píng)價(jià)之后,評(píng)價(jià)信號(hào)與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間還有可能留有差異,因此 對(duì)殘差也進(jìn)行編碼并得到編碼信息這一處理很重要。所以,比特分配控制單 元107當(dāng)在ST1072中判斷出單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)e^不相似時(shí),在ST1075中視所有的處理同等地重要,而向所有的處理均勻地分配比特。圖5為表示本實(shí)施方式的立體聲解碼裝置200的主要結(jié)構(gòu)的方框圖。立體聲解碼裝置200也同立體聲編碼裝置IOO—樣采用分層結(jié)構(gòu),主要 由第一層210及第二層220構(gòu)成。而且,立體聲解碼裝置200中的各種處理, 基本上與立體聲編碼裝置100中相應(yīng)的各種處理相反。即立體聲解碼裝置200 利用從立體聲編碼裝置IOO發(fā)送來(lái)的編碼信息,從單聲道信號(hào)預(yù)測(cè)并生成左 聲道信號(hào),進(jìn)一步利用單聲道信號(hào)及左聲道信號(hào)生成右聲道信號(hào)。分離單元201將輸入的比特流分離為Pa至Pp的編碼信息。第一層210由單聲道解碼單元202構(gòu)成。單聲道解碼單元202對(duì)編碼信 息PA進(jìn)行解碼,生成單聲道信號(hào)M'及單聲道驅(qū)動(dòng)聲源信號(hào)eM,。第二層220由比特分配信息解碼單元203、時(shí)域評(píng)^T單元204、頻域評(píng)價(jià) 單元205、及殘差解碼單元206構(gòu)成,各單元進(jìn)行以下動(dòng)作。比特分配信息解碼單元203對(duì)編碼信息Ps進(jìn)行解碼,輸出分別用于時(shí)域 評(píng)價(jià)單元204、頻域評(píng)價(jià)單元205、及殘差解碼單元206的比特?cái)?shù)。時(shí)域評(píng)價(jià)單元204利用在單聲道解碼單元202中生成的單聲道驅(qū)動(dòng)聲源 信號(hào)eM,、從分離單元201輸出的編碼信息Pc、及從比特分配信息解碼單元 203輸出的比特?cái)?shù),進(jìn)行時(shí)域上的評(píng)價(jià)及預(yù)測(cè),生成時(shí)域評(píng)價(jià)信號(hào)eestl'。頻域評(píng)價(jià)單元205利用在時(shí)域評(píng)價(jià)單元204中生成的時(shí)域評(píng)價(jià)信號(hào)eestl'、 從分離單元201輸出的編碼信息PD、及從比特分配信息解碼單元203傳來(lái)的 比特?cái)?shù),進(jìn)行頻域上的評(píng)價(jià)及預(yù)測(cè),生成頻域評(píng)價(jià)信號(hào)eest2,。頻域評(píng)價(jià)單元 205同立體聲編碼裝置100的頻域評(píng)價(jià)單元105 —樣,具有FFT單元,在進(jìn) 行頻域上的評(píng)價(jià)及預(yù)測(cè)之前,進(jìn)行頻率變換。殘差解碼單元206利用從分離單元201輸出的編碼信息PE、及從比特分 配信息解碼單元203傳來(lái)的比特?cái)?shù)解碼出殘差信號(hào)。另外,殘差解碼單元206 將解碼出的該殘差信號(hào)賦給在頻域評(píng)價(jià)單元205中生成的頻域評(píng)價(jià)信號(hào)eest2' 而生成左聲道驅(qū)動(dòng)聲源信號(hào)eL,。合成濾波單元207從編碼信息Pj:解碼出LPC系數(shù),并將該LPC系數(shù)與 在殘差解碼單元206中生成的左聲道驅(qū)動(dòng)聲源信號(hào)eL,進(jìn)行合成,從而生成 左聲道信號(hào)L,。立體聲變換單元208利用在單聲道解碼單元202中解碼出的單聲道信號(hào)M,、及在合成濾波單元207中生成的左聲道信號(hào)L,生成右聲道信號(hào)R,。這樣,根據(jù)本實(shí)施方式的立體聲編碼裝置,對(duì)作為編碼對(duì)象的立體聲話 音信號(hào),首先在時(shí)域進(jìn)行評(píng)價(jià)及預(yù)測(cè)之后,在頻域進(jìn)行更詳細(xì)的評(píng)價(jià)及預(yù)測(cè), 將有關(guān)于這兩個(gè)階段的評(píng)價(jià)及預(yù)測(cè)的信息作為編碼信息輸出。因此,對(duì)于利 用時(shí)域上的評(píng)價(jià)及預(yù)測(cè)沒能充分表達(dá)的信息,能夠在頻域進(jìn)行補(bǔ)充性的評(píng)價(jià) 及預(yù)測(cè),能夠用低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼。又,根據(jù)本實(shí)施方式,在時(shí)域評(píng)價(jià)單元104中的時(shí)域評(píng)價(jià)相當(dāng)于對(duì)全頻帶中的信號(hào)的空間性信息的平均水平進(jìn)行評(píng)價(jià)。例如,作為空間性信息在時(shí)域評(píng)價(jià)單元104中求得的能量比及時(shí)間延遲,是將一個(gè)幀的編碼對(duì)象的信號(hào) 直接作為一個(gè)信號(hào)進(jìn)行處理而求得的該信號(hào)整個(gè)的或平均的能量比及時(shí)間延 遲。另一方面,在頻域評(píng)價(jià)單元105中的頻域評(píng)價(jià)則將編碼對(duì)象信號(hào)的頻帶 分割成多個(gè)子帶,并對(duì)該該細(xì)化了的各個(gè)信號(hào)進(jìn)行評(píng)價(jià)。換言之,根據(jù)本實(shí) 施方式,先在時(shí)域?qū)αⅢw聲話音信號(hào)進(jìn)行大概的評(píng)價(jià)之后,再通過在頻域進(jìn) 行更進(jìn)一步的評(píng)價(jià),進(jìn)行評(píng)價(jià)信號(hào)的細(xì)微調(diào)整。因此,對(duì)于將編碼對(duì)象的信 號(hào)看作一個(gè)信號(hào)處理時(shí)沒能充分表達(dá)出來(lái)的信息,細(xì)分為多個(gè)信號(hào),進(jìn)行更 進(jìn)一步的評(píng)價(jià),從而能夠提高立體聲話音信號(hào)的編碼精度。又,在本實(shí)施方式中,根據(jù)單聲道信號(hào)與左聲道信號(hào)(或右聲道信號(hào)) 的相似情況,即根據(jù)立體聲信號(hào)的狀態(tài),在預(yù)定的比特率的范圍內(nèi),對(duì)時(shí)域 評(píng)價(jià)、頻域評(píng)價(jià)等各個(gè)處理自適應(yīng)地分配比特。由此,能夠進(jìn)行高效且高精 度的編碼,同時(shí)能夠?qū)崿F(xiàn)比特率的可擴(kuò)展(scalability )。又,根據(jù)本實(shí)施方式,因?yàn)椴辉傩枰獙?duì)于MPEG-2 AAC來(lái)說必須的MDCT 處理,所以在諸如實(shí)時(shí)話音通信系統(tǒng)等中,能夠?qū)r(shí)間延遲抑制在容許范圍 限度之內(nèi)。又,根據(jù)本實(shí)施方式,因?yàn)樵跁r(shí)域評(píng)價(jià)中,利用如能量比及時(shí)間延遲這 樣的較少的參數(shù)進(jìn)行編碼,所以能夠削減比特率。又,根據(jù)本實(shí)施方式,因?yàn)椴捎糜蓛?層構(gòu)成的分層結(jié)構(gòu),所以能夠從單 聲道水平擴(kuò)展(scaling)到立體聲水平。因此,即使在由于某種原因不能夠 解碼出有關(guān)于頻域評(píng)價(jià)的信息時(shí),也能夠通過只解碼出有關(guān)于時(shí)域評(píng)價(jià)的信 息,來(lái)解碼出雖然質(zhì)量有所惡化但為預(yù)定質(zhì)量的立體聲話音信號(hào),從而能夠 提高可擴(kuò)展性。又,根據(jù)本實(shí)施方式,因?yàn)樵诘谝粚永肁MR-WB方式對(duì)單聲道信號(hào)進(jìn)行編碼,所以能夠向低抑制比特率。另外,可以對(duì)本實(shí)施方式的立體聲編碼裝置、立體聲解碼裝置、及立體 聲編碼方法進(jìn)行各種變更而進(jìn)行實(shí)施。比如,雖然在本實(shí)施方式中以這樣一種情形為例進(jìn)行了說明,即在立體 聲編碼裝置100中以單聲道信號(hào)及左聲道信號(hào)作為編碼對(duì)象,而立體聲解碼裝置200通過解碼出單聲道信號(hào)及左聲道信號(hào)并合成這些解碼信號(hào),解碼出 右聲道信號(hào),但立體聲編碼裝置IOO的編碼對(duì)象的信號(hào)并不限于此,也可以 在立體聲編碼裝置100中將單聲道信號(hào)及右聲道信號(hào)作為編碼對(duì)象,而立體 聲解碼裝置200通過合成解碼出的右聲道信號(hào)及單聲道信號(hào),生成左聲道信號(hào)又,在本實(shí)施方式的濾波單元103中,作為L(zhǎng)PC系數(shù)的編碼信息,也可 以使用將LPC系數(shù)進(jìn)行變換而得的其它的等價(jià)的參數(shù)(例如LSP參數(shù))。又,雖然在本實(shí)施方式中,由比特分配控制單元107將預(yù)定數(shù)目的比特 分配給各個(gè)處理,^旦也可以不進(jìn)行比特分配控制處理,而進(jìn)行固定比特分配, 即事先定好各單元所使用的比特?cái)?shù)。此時(shí),立體聲編碼裝置100中將不再需 要比特分配控制單元107。另外,該固定的比特分配的比例對(duì)于立體聲編碼 裝置100及立體聲解碼裝置200是共同的,從而立體聲解碼裝置200中也將 不再需要比特分配信息解碼單元203。又,雖然本實(shí)施方式的比特分配控制單元107根據(jù)立體聲話音信號(hào)的情 況自適應(yīng)地進(jìn)行比特分配,但也可以根據(jù)網(wǎng)絡(luò)的情況自適應(yīng)地進(jìn)行比特分配。又,如果使本實(shí)施方式的殘差編碼單元106使用由比特分配控制單元107 所分配的預(yù)定數(shù)目的比特進(jìn)行編碼,則可得到損耗(lossy)系統(tǒng)。作為使用 預(yù)定數(shù)目的比特的編碼,例如有矢量量化。 一般,殘差編碼單元根據(jù)編碼方 法的不同,可得到不同特性的所謂的損耗系統(tǒng)或無(wú)損耗(lossless)系統(tǒng)。較 之于損耗系統(tǒng),無(wú)損耗系統(tǒng)雖然具有在解碼裝置能夠更加準(zhǔn)確地對(duì)信號(hào)進(jìn)行 解碼的特性,但因壓縮率較低,所以比特率變高。例如,在殘差編碼單元106 中,如果使用霍夫曼(Huffman)編碼、賴斯(Rice )編碼等無(wú)噪聲(noiseless ) 編碼方法對(duì)殘差信號(hào)進(jìn)行編碼,則可得到無(wú)損耗系統(tǒng)。又,雖然在本實(shí)施方式中,比率計(jì)算單元142計(jì)算出單聲道驅(qū)動(dòng)聲源信 號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)et之間的能量比作為振幅信息cc ,但也可以計(jì)算 出能量差來(lái)代替能量比作為振幅信息a 。又,雖然在本實(shí)施方式中,比率計(jì)算單元154計(jì)算出各子帶上的左聲道驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)e^之間的頻鐠能量比(3作為振幅信息卩, 但也可以計(jì)算出能量差來(lái)代替能量比作為振幅信息(3。又,雖然在本實(shí)施方式中,單聲道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信 號(hào)eL之間在時(shí)域上的空間性信息由振幅信息a及延遲信息i;構(gòu)成,但該空間 性信息也可以進(jìn)一步包含其它的信息,或者由完全不同于振幅信息a及延遲信息T等的其它信息構(gòu)成。又,雖然在本實(shí)施方式中,左聲道驅(qū)動(dòng)聲源信號(hào)eL與時(shí)域評(píng)價(jià)信號(hào)e^ 之間在頻域上的空間性信息由振幅信息(3及相位差信息e構(gòu)成,但該空間性 信息也可以進(jìn)一步包含其它的信息,也可以由完全不同于振幅信息卩及相位差信息e等的其它信息構(gòu)成。又,雖然在本實(shí)施方式中,時(shí)域評(píng)價(jià)單元104按各個(gè)幀檢測(cè)并計(jì)算單聲 道驅(qū)動(dòng)聲源信號(hào)eM與左聲道驅(qū)動(dòng)聲源信號(hào)eL之間的空間性信息,但也可以在 一個(gè)幀內(nèi)多次進(jìn)行該處理。又,雖然在本實(shí)施方式中,相位選擇單元156在各子帶中選擇一個(gè)頻譜 相位,但也可以選擇多個(gè)頻譜相位。此時(shí),相位差計(jì)算單元157計(jì)算左聲道 驅(qū)動(dòng)聲源信號(hào)e^與時(shí)域評(píng)價(jià)信號(hào)eest,之間在該多個(gè)相位上的相位差9的平均, 并輸出到評(píng)價(jià)信號(hào)生成單元158。又,雖然在本實(shí)施方式中,殘差編碼單元106對(duì)殘差信號(hào)進(jìn)行時(shí)域編碼, 4旦也可以進(jìn)4于頻域編碼。又,雖然在本實(shí)施方式中,以編碼對(duì)象是話音信號(hào)的情形為例進(jìn)行了說 明,但本發(fā)明立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法除了話 音信號(hào)以外,也可以適用于音頻信號(hào)。以上,對(duì)本發(fā)明的實(shí)施方式進(jìn)行了說明。本發(fā)明的立體聲編碼裝置及立體聲解碼裝置可以搭載到移動(dòng)通信系統(tǒng)中 的通信終端裝置及基站裝置上,由此可以提供具有與上述同樣的作用效果的 通信終端裝置、基站裝置、及移動(dòng)通信系統(tǒng)。又,此處,雖然以用硬件實(shí)現(xiàn)本發(fā)明的情形為例進(jìn)行了說明,但本發(fā)明 也可以用軟件實(shí)現(xiàn)。例如,可以用編程語(yǔ)言記述本發(fā)明的立體聲編碼方法及 立體聲解碼方法的算法,將此程序存儲(chǔ)于存儲(chǔ)器中,通過用信息處理單元執(zhí) 行,可以實(shí)現(xiàn)與本發(fā)明的立體聲編碼裝置及立體聲解碼裝置相同的功能。又,用來(lái)說明上述各實(shí)施方式的各功能模塊,典型地由集成電路LSI(大 規(guī)模集成電路)來(lái)實(shí)現(xiàn)。這些功能塊既可以分別實(shí)行單芯片化,也可以包括 其中 一部分或者全部而實(shí)行單芯片化。這里,雖然稱作LSI,但根據(jù)集成度的不同也可以稱為IC (集成電路)、 系統(tǒng)LSI (系統(tǒng)大規(guī)模集成電路)、超大LSI (超大規(guī)模集成電路)、極大LSI (極大規(guī)模集成電路)等。另外,集成電路化的技術(shù)不限于LSI,也可以使用專用電路或通用處理 器來(lái)實(shí)現(xiàn)。也可以利用制造LSI后能夠編程的FPGA(Field Programmable Gate Array,現(xiàn)場(chǎng)可編程門陣列),或可以利用能夠?qū)SI內(nèi)部的電路塊連接或設(shè)定 重新配置的可重構(gòu)處理器(Reconfigurable Processor )。再有,如果隨著半導(dǎo)體技術(shù)的進(jìn)步或者其他技術(shù)的派生,出現(xiàn)了替換LSI 集成電路的技術(shù),當(dāng)然,也可以利用該技術(shù)來(lái)實(shí)現(xiàn)功能塊的集成化。也有應(yīng) 用生物工程學(xué)技術(shù)等的可能性。本說明書基于2005年8月31日申請(qǐng)的日本專利申請(qǐng)?zhí)卦傅?005 -252778號(hào)。該內(nèi)容全部包括此處。工業(yè)實(shí)用性本發(fā)明的立體聲編碼裝置、立體聲解碼裝置、及立體聲編碼方法適用于 移動(dòng)電話、IP電話、電視會(huì)議等。
權(quán)利要求
1、一種立體聲編碼裝置,包括時(shí)域評(píng)價(jià)單元,對(duì)立體聲信號(hào)的第一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià),并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼;以及頻域評(píng)價(jià)單元,將所述第一聲道信號(hào)的頻帶分割成多個(gè),對(duì)各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià),并對(duì)該評(píng)價(jià)結(jié)果進(jìn)行編碼。
2、 如權(quán)利要求1所述的立體聲編碼裝置,包括 第一層編碼單元,對(duì)基于所述立體聲信號(hào)生成的單聲道信號(hào)進(jìn)行編碼;以及第二層編碼單元,包括所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元;而 進(jìn)行可擴(kuò)展性編碼。
3、 如權(quán)利要求2所述的立體聲編碼裝置,其中,所述時(shí)域評(píng)價(jià)單元利用所述單聲道信號(hào)進(jìn)行所述時(shí)域上的評(píng)價(jià),生成與 所述第 一聲道信號(hào)相似的時(shí)域評(píng)價(jià)信號(hào);所述頻域評(píng)價(jià)單元與所述第 一 聲道信號(hào)同樣地將所述時(shí)域評(píng)價(jià)信號(hào)的頻 帶也分割成多個(gè),利用各頻帶的所述時(shí)域評(píng)價(jià)信號(hào)進(jìn)行所述頻域上的評(píng)價(jià), 生成與所述第 一 聲道信號(hào)相似的頻域評(píng)價(jià)信號(hào)。
4、 如權(quán)利要求2所述的立體聲編碼裝置,還包括 比特分配單元,根據(jù)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似程度,對(duì)所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元分配比特。
5、 如權(quán)利要求4所述的立體聲編碼裝置,其中,所述比特分配單元,當(dāng)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似度為 預(yù)定值以上時(shí),將更多的比特分配給所述頻域評(píng)價(jià)單元。
6、 如權(quán)利要求4所述的立體聲編碼裝置,其中,所述比特分配單元,當(dāng)所述第一聲道信號(hào)與所述單聲道信號(hào)的相似度不 足預(yù)定值時(shí),對(duì)所述時(shí)域評(píng)價(jià)單元及所述頻域評(píng)價(jià)單元均勻地分配比特。
7、 如權(quán)利要求3所述的立體聲編碼裝置,還包括殘差編碼單元,對(duì)所述第一聲道信號(hào)及所述頻域評(píng)價(jià)信號(hào)之間的殘差進(jìn) 行編碼。
8、 如權(quán)利要求3所述的立體聲編碼裝置,其中,所述時(shí)域評(píng)價(jià)單元在所述時(shí)域上的評(píng)價(jià)中,求所述第一聲道信號(hào)與所述 單聲道信號(hào)之間的空間性信息;所述頻域評(píng)價(jià)單元在所述頻域上的評(píng)價(jià)中,求所述第一聲道信號(hào)與所述 時(shí)域評(píng)價(jià)信號(hào)之間的空間性信息。
9、 一種立體聲解碼裝置,包括時(shí)域解碼單元,對(duì)編碼信息進(jìn)行解碼,該編碼信息是對(duì)立體聲信號(hào)的第 一聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià),并對(duì)該評(píng)價(jià)的結(jié)果進(jìn)行編碼而得到的;以及頻域解碼單元,對(duì)編碼信息進(jìn)行解碼,該編碼信息是對(duì)評(píng)價(jià)結(jié)果進(jìn)行編 碼而得到的,該評(píng)價(jià)結(jié)果是將所述第一聲道信號(hào)的頻帶分割成多個(gè),并對(duì)各 頻帶的所述第 一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)而得到的。
10、 一種立體聲編碼方法,包括對(duì)立體聲信號(hào)的第 一 聲道信號(hào)進(jìn)行時(shí)域上的評(píng)價(jià)的步驟;對(duì)所述時(shí)域上的評(píng)價(jià)結(jié)果進(jìn)行編碼的步驟;將所述第 一 聲道信號(hào)的頻帶分割成多個(gè)的步驟;對(duì)分割后的各頻帶的所述第一聲道信號(hào)進(jìn)行頻域上的評(píng)價(jià)的步驟;以及 將所述頻域上的評(píng)價(jià)結(jié)果進(jìn)行編碼的步驟。
全文摘要
公開了立體聲編碼裝置,能夠以低比特率對(duì)立體聲信號(hào)進(jìn)行高精度的編碼,抑制語(yǔ)音通信中的延遲。在此裝置的第一層(110)中,進(jìn)行單聲道編碼。在第二層(120)中,濾波單元(103)生成LPC(Linear Predictive Coding線性預(yù)測(cè)編碼)系數(shù),并生成左聲道驅(qū)動(dòng)聲源信號(hào)。時(shí)域評(píng)價(jià)單元(104)及頻域評(píng)價(jià)單元(105)在兩個(gè)域上進(jìn)行信號(hào)的評(píng)價(jià)及預(yù)測(cè),殘差編碼單元(106)對(duì)殘差信號(hào)進(jìn)行編碼。比特分配控制單元(107)根據(jù)話音信號(hào)的條件,自適應(yīng)地對(duì)時(shí)域評(píng)價(jià)單元(104)、頻域評(píng)價(jià)單元(105)、以及殘差編碼單元(106)分配比特。
文檔編號(hào)G10L19/008GK101253557SQ200680031948
公開日2008年8月27日 申請(qǐng)日期2006年8月30日 優(yōu)先權(quán)日2005年8月31日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社