語(yǔ)音編碼裝置以及頻譜變形方法

文檔序號(hào)：2830048閱讀：385來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語(yǔ)音編碼裝置以及頻譜變形方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語(yǔ)音編碼裝置以及頻譜變形方法。
背景技術(shù)：
對(duì)單聲道語(yǔ)音信號(hào)進(jìn)行編碼的語(yǔ)音編碼技術(shù)現(xiàn)在已經(jīng)成為標(biāo)準(zhǔn)。在信號(hào) 來(lái)自例如人的話音等的單一音源的移動(dòng)電話和電話會(huì)議機(jī)器等通信機(jī)器中，通常使用像這樣的單聲道編碼。
以往由于發(fā)送信號(hào)的帶寬和DSP的處理速度等原因，局限于這樣的單聲道信號(hào)。然而，隨著技術(shù)的進(jìn)步及帶寬的改善，該限制的重要性逐漸消失。另一方面，語(yǔ)音的質(zhì)量變成更應(yīng)考慮的重要因素。單聲道語(yǔ)音的缺點(diǎn)之一為不提供諸如立體的音感或說(shuō)話人的位置等的空間信息。因此，今后為了實(shí)現(xiàn)更好的話音，應(yīng)考慮以盡可能低的比特速率達(dá)成音質(zhì)良好的立體聲語(yǔ)音。
對(duì)立體聲語(yǔ)音信號(hào)進(jìn)行編碼的一種方法為利用信號(hào)的預(yù)測(cè)或其估計(jì)技
術(shù)。也就是說(shuō)，對(duì)一方的聲道，使用眾所周知的音頻編碼技術(shù)進(jìn)行編碼，而
些輔助信息(side information)，基于已經(jīng)編碼過(guò)的聲道進(jìn)行預(yù)測(cè)或估計(jì)。
這才羊的方法作為雙耳標(biāo)系統(tǒng)(binaural cue coding system,例如，參見非專利文獻(xiàn)l)的一部分，在專利文獻(xiàn)1中記述了有關(guān)該方法的記載。在該記載中，該方法適用于聲道間電平差(ILD: interchannel level difference)的計(jì)算，計(jì)算所述聲道間電平差的目的是以參考聲道為基準(zhǔn)對(duì)一方的聲道的電平進(jìn)行調(diào)整。與原音相比，所預(yù)測(cè)或所估計(jì)的信號(hào)往往不忠實(shí)。因此，需要對(duì)所預(yù)測(cè) 或所估計(jì)的信號(hào)進(jìn)行增強(qiáng)(enhancement),以便盡可能地使其類似于原來(lái)的信
一般而言，在頻域?qū)σ纛l信號(hào)和語(yǔ)音信號(hào)進(jìn)行處理。一般將該頻域數(shù)據(jù) 稱為"變換后的區(qū)域中的譜系數(shù)"。因此，能夠在頻域進(jìn)行如上的預(yù)測(cè)及估計(jì) 方法。例如，對(duì)于L聲道和R聲道的譜數(shù)據(jù)，能通過(guò)提取其輔助信息中的某些信息而將該信息適用于單聲道的聲道，來(lái)進(jìn)行估計(jì)(參照專利文獻(xiàn)1)。其它
變形例子中還包括正如能基于R聲道估計(jì)L聲道那樣，基于一方的聲道估計(jì) 另一方的聲道的技術(shù)等。
作為適用音頻處理和語(yǔ)音處理中的增強(qiáng)的一個(gè)區(qū)域，有頻譜能量估計(jì)。
頻譜能量估計(jì)也被稱為"頻譜能量預(yù)測(cè)"或"定標(biāo)(scaling)"。在典型的頻語(yǔ)能量估計(jì)運(yùn)算中，將時(shí)域信號(hào)變換為頻域信號(hào)。通常，對(duì)該頻域信號(hào)與臨界頻帶匹配地區(qū)分(partition)為多個(gè)頻帶。對(duì)參考聲道和所估計(jì)的聲道的雙方進(jìn)行該處理。對(duì)雙方的聲道的各個(gè)頻帶計(jì)算能量，并使用兩個(gè)聲道的能量比例，計(jì) 算定標(biāo)因子(scalefactor)。將該定標(biāo)因子發(fā)送到接收裝置，并且在該接收裝置中，使用該定標(biāo)因子對(duì)參考信號(hào)進(jìn)行定標(biāo)，從而得到對(duì)各個(gè)頻帶的變換后的區(qū)域中的估計(jì)信號(hào)。然后，進(jìn)行頻率逆變換處理，得到相當(dāng)于估計(jì)變換區(qū)域譜數(shù)據(jù)的時(shí)域信號(hào)。
專利文獻(xiàn)1:國(guó)際公開第03/090208號(hào)小冊(cè)子(pamphlet) 非專利文南大1: C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.

發(fā)明內(nèi)容
發(fā)明要解決的問(wèn)題
圖1表示驅(qū)動(dòng)音源信號(hào)的頻諳(驅(qū)動(dòng)音源譜)的一例。該頻率譜為表示周期性的峰值的、具有周期性和恒定性的頻譜。另外，圖2是表示基于臨界頻帶的分區(qū)化的例子的圖。
在以往的方法中，將圖2所示的頻域的語(yǔ)系數(shù)分割為多個(gè)臨界頻帶，并計(jì)算能量和定標(biāo)因子。在對(duì)非驅(qū)動(dòng)音源信號(hào)的處理中通常使用該方法，但是由于驅(qū)動(dòng)音源語(yǔ)中出現(xiàn)重復(fù)圖案(repetitive pattern),所以該方法并不適合于驅(qū) 動(dòng)音源信號(hào)。這里，非驅(qū)動(dòng)音源信號(hào)意味著在用于生成驅(qū)動(dòng)音源信號(hào)的LPC 分析等的信號(hào)處理中的信號(hào)。
如上所述，在圖2所示的基于臨界頻帶的分區(qū)化中，由于各個(gè)頻帶的帶寬不均等，所以通過(guò)將驅(qū)動(dòng)音源譜單純地分割為臨界頻帶無(wú)法計(jì)算高精度地表示驅(qū)動(dòng)音源譜的各個(gè)峰值的上升和下降的定標(biāo)因子。
因此，本發(fā)明的目的為，提供語(yǔ)音編碼裝置和頻譜變形方法，能夠提高信號(hào)估計(jì)和預(yù)測(cè)的效率而有高效率地表現(xiàn)頻譜。
解決問(wèn)題的方案
為了解決上述問(wèn)題，本發(fā)明對(duì)語(yǔ)音信號(hào)中的具有周期性的部分求音調(diào)周
期(pitch period)。該音調(diào)周期被用于求語(yǔ)音信號(hào)的基本音調(diào)頻率或重復(fù)圖案 (諧波結(jié)構(gòu)harmonic structure)。通過(guò)利用頻譜的規(guī)則性的間隔或周期性的圖案進(jìn)行交織，并將振幅上類似的多個(gè)峰值(語(yǔ)系數(shù))匯總為一個(gè)組來(lái)生成多個(gè)組之后，計(jì)算定標(biāo)因子。使用基本音調(diào)頻率作為交織間隔而對(duì)頻譜進(jìn)行交織，由此改變驅(qū)動(dòng)音源譜的順序。
由此，由于將振幅上類似的多個(gè)譜系數(shù)匯總為一個(gè)組，因此能夠提高定標(biāo)因子的量化效率，所述定標(biāo)因子用于將目標(biāo)信號(hào)的頻譜調(diào)整到正確的振幅電平。
另外，為了解決上述問(wèn)題，本發(fā)明選擇是否需要進(jìn)行交織。該判斷基準(zhǔn) 取決于所處理的信號(hào)的類型。語(yǔ)音信號(hào)中的具有周期性的部分在頻譜中表示重復(fù)圖案。在這樣的情況下，使用基本音調(diào)頻率作為交織單位(交織間隔)，對(duì) 頻語(yǔ)進(jìn)行交織。另一方面，語(yǔ)音信號(hào)中的不具有周期性的部分在頻譜波形中不具有重復(fù)圖案。因此，此時(shí)實(shí)行不使用交織的頻譜變形。
由此，在信號(hào)的類型不同的情況下，能夠構(gòu)建選擇對(duì)應(yīng)于該差異的適當(dāng) 的頻語(yǔ)變形方法的靈活的系統(tǒng)，從而提高整體的編碼效率。
發(fā)明效果
根據(jù)本發(fā)明，能夠提高信號(hào)估計(jì)和預(yù)測(cè)的效率而更高效率地表現(xiàn)頻譜。

圖l是表示驅(qū)動(dòng)音源譜的一例的圖2是表示基于臨界頻帶的分區(qū)化的例子的圖3是表示進(jìn)行本發(fā)明的等間隔的頻帶區(qū)分后的頻譜的一例的圖4是表示本發(fā)明的交織處理的概要的圖5是表示實(shí)施方式1的語(yǔ)音編碼裝置和語(yǔ)音解碼裝置的基本結(jié)構(gòu)的方
框圖6是表示實(shí)施方式1的頻率變換單元和頻譜差運(yùn)算單元的內(nèi)部的主要結(jié)構(gòu)的方^f匡圖7是表示頻帶分割的例子的圖8是表示實(shí)施方式1的頻譜變形單元的內(nèi)部的圖9是表示實(shí)施方式2的語(yǔ)音編碼系統(tǒng)(編碼端)的圖10是表示實(shí)施方式2的語(yǔ)音編碼系統(tǒng)(解碼端)的圖；以及
圖11是表示實(shí)施方式2的立體聲方式的語(yǔ)音編碼系統(tǒng)的圖。
具體實(shí)施例方式
本發(fā)明的語(yǔ)音編碼裝置對(duì)所輸入的頻譜進(jìn)行變形處理，并對(duì)變形后的頻譜進(jìn)行編碼。首先，在編碼裝置中，將作為變形對(duì)象的目標(biāo)信號(hào)變換為頻域的頻譜分量。該目標(biāo)信號(hào)通常為與原信號(hào)不相似的信號(hào)。另外，目標(biāo)信號(hào)也可以是對(duì)原信號(hào)進(jìn)行預(yù)測(cè)或估計(jì)而得到的信號(hào)。
在頻i普變形處理中，使用原信號(hào)作為參考信號(hào)。判斷參考信號(hào)是否包含周期性。在判斷了參考信號(hào)具有周期性時(shí)，計(jì)算音調(diào)周期T。基于該音調(diào)周期T，計(jì)算參考信號(hào)的基本音調(diào)頻率fo。
對(duì)被判斷為具有周期性的幀進(jìn)行頻譜交織處理。為了表示作為頻譜交織處理的對(duì)象，采用標(biāo)識(shí)(以下稱為"交織標(biāo)識(shí)(interleave flag)")。首先，將目標(biāo) 信號(hào)的頻譜和參考信號(hào)的頻語(yǔ)分割為多個(gè)分區(qū)。各個(gè)分區(qū)的寬度相當(dāng)于基本音調(diào)頻率fo的間隔的寬度。圖3是表示進(jìn)行本發(fā)明的等間隔的頻帶區(qū)分后的頻傳的一個(gè)例子的圖。然后，以基本音調(diào)頻率fo為交織間隔，對(duì)各個(gè)頻帶的頻譜進(jìn)行交織。圖4是表示上述的交織處理的概要的圖。
將交織后的頻語(yǔ)進(jìn)一步分割為幾個(gè)頻帶。然后，計(jì)算各個(gè)頻帶的能量。而且，對(duì)于各個(gè)頻帶，對(duì)目標(biāo)聲道的能量和參考聲道的能量進(jìn)行比較。計(jì)算這兩個(gè)聲道之間的能量的差或比，并采用定標(biāo)因子的表現(xiàn)形式對(duì)其進(jìn)行量化。為了頻譜變形處理，將該定標(biāo)因子與音調(diào)周期和交織標(biāo)識(shí)發(fā)送到解碼裝置。
另一方面，在解碼裝置中，使用從編碼裝置發(fā)送的編碼參數(shù)，對(duì)由主解碼器合成的目標(biāo)信號(hào)進(jìn)行變形。首先，將目標(biāo)信號(hào)變換為頻域。然后，在交織標(biāo)識(shí)被設(shè)定為有效(active)的情況下，使用基本音調(diào)頻率作為交織間隔，對(duì) 譜系數(shù)進(jìn)行交織。基于從編碼裝置發(fā)送的音調(diào)周期計(jì)算該基本音調(diào)頻率。將進(jìn)行交織后的譜系數(shù)分割為與編碼裝置中的頻帶相同數(shù)目的頻帶，并且使用定標(biāo)因子對(duì)各個(gè)頻帶調(diào)整上述的譜系數(shù)的振幅，以使各個(gè)頻帶的頻譜接近參考信號(hào)的頻語(yǔ)。然后，對(duì)調(diào)整后的譜系數(shù)進(jìn)行解交織，從而將處于交織后的狀態(tài)的譜系數(shù)重新排列為原來(lái)的排序。對(duì)上述的調(diào)整和解交織后的頻語(yǔ)進(jìn)行頻率逆變換，從而得到時(shí)域的驅(qū)動(dòng)音源信號(hào)。在上述的處理中，在判斷了信
號(hào)不具有周期性時(shí)，省略交織處理而繼續(xù)進(jìn)行其它處理。
以下，參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。另外，對(duì)具有相同的功能的結(jié)構(gòu)基本上賦予相同的標(biāo)號(hào)，在存在多個(gè)時(shí)，為了區(qū)別而在標(biāo)號(hào)的后邊附
力口 a和b。
(實(shí)施方式1 )
圖5是表示本實(shí)施方式的編碼裝置100和解碼裝置150的基本結(jié)構(gòu)的方框圖。
在編碼裝置100中，頻率變換單元101將參考信號(hào)^和目標(biāo)信號(hào)et變換為頻域信號(hào)。目標(biāo)信號(hào)et是進(jìn)行變形以與參考信號(hào)ej目似的對(duì)象。另外，通過(guò)使用LPC系數(shù)對(duì)輸入信號(hào)s進(jìn)行逆濾波處理而得到參考信號(hào)er，而且作為驅(qū)動(dòng)音源編碼處理的結(jié)果而得到目標(biāo)信號(hào)et。
頻語(yǔ)差運(yùn)算單元102對(duì)頻率變換后所得的譜系數(shù)，進(jìn)行計(jì)算在頻域中的參考信號(hào)與目標(biāo)信號(hào)之間的頻譜差的處理。該計(jì)算中包括對(duì)譜系數(shù)的交織處理、將該系數(shù)區(qū)分到多個(gè)頻帶的處理、對(duì)各個(gè)頻帶計(jì)算參考聲道和目標(biāo)聲道之間的差的處理、以及將這些差量化為發(fā)送到解碼裝置的G，b的處理等的一系列的處理。雖然交織處理為該頻語(yǔ)差運(yùn)算的重要的部分，但是并不需要對(duì) 所有的信號(hào)幀都進(jìn)行交織。由交織標(biāo)識(shí)I—flag表示是否需要進(jìn)行交織，而且標(biāo)識(shí)的有效與否取決于在當(dāng)前幀所處理的信號(hào)的類型。在需要對(duì)某個(gè)特定的幀進(jìn)行交織時(shí)，使用從當(dāng)前的語(yǔ)音幀的音調(diào)周期T計(jì)算的交織間隔。在語(yǔ)音編解碼器(codec)的編碼裝置進(jìn)行這些處理。
在解碼裝置150中，頻譜變形單元103得到目標(biāo)信號(hào)et之后，得到量化信息G，b以及交織標(biāo)識(shí)I一flag和音調(diào)周期T等的其它信息。然后，頻譜變形單元103將目標(biāo)信號(hào)的頻鐠變形，以使通過(guò)這些參數(shù)得到的頻譜接近參考信號(hào)的頻譜。
圖6是表示上述的頻率變換單元101和頻譜差運(yùn)算單元102的內(nèi)部的主要結(jié)構(gòu)的方框圖。
FFT單元201使用FFT等的變換方法，將作為變形對(duì)象的目標(biāo)信號(hào)et和參考信號(hào)^變換為頻域的信號(hào)。FFT單元201作為標(biāo)識(shí)使用I—flag，判斷信號(hào) 的特定幀是否適合于進(jìn)行交織。在進(jìn)行交織單元202中的交織處理之前進(jìn)行音調(diào)檢測(cè)，所述音調(diào)檢測(cè)用于判定當(dāng)前的語(yǔ)音幀是否為具有周期性和恒定性的信號(hào)。在所處理的幀為具有周期性和恒定性的信號(hào)的情況下，交織標(biāo)識(shí)被
設(shè)定為有效。在為具有周期性和恒定性的信號(hào)的情況下，通過(guò)驅(qū)動(dòng)音源處理，通常在頻譜波形中產(chǎn)生周期性圖案，所述周期性圖案具有在某一間隔的特征性的峰值(參見圖1)?；谛盘?hào)的音調(diào)周期T或在頻域的基本音調(diào)頻率f。來(lái)確定該間隔。
在交織標(biāo)識(shí)被設(shè)定為有效的情況下，交織單元202對(duì)參考信號(hào)和目標(biāo)信號(hào)的雙方進(jìn)行變換后的語(yǔ)系數(shù)的采樣交織處理(sample interleaving)。在該采樣交織中，預(yù)先選擇整個(gè)頻帶中的某個(gè)特定的區(qū)域。通常，在頻譜波形中，在到3kHz或4kHz為止的低頻區(qū)域產(chǎn)生較明顯的峰值。因此，作為交織區(qū)域選擇低頻區(qū)域的情況較多。例如，再次參照?qǐng)D4，選擇N個(gè)樣本的頻譜作為進(jìn) 行交織的低頻區(qū)域。然后，使用當(dāng)前幀的基本音調(diào)頻率fo作為交織間隔，以便在交織之后大小近似的能量系數(shù)能匯總為組。然后，將N個(gè)樣本分割為K 個(gè)分區(qū)，并進(jìn)行交織。通過(guò)基于以下的等式(l)計(jì)算各個(gè)頻帶的譜系數(shù)，來(lái)進(jìn) 行該交織處理。這里，J表示各個(gè)頻帶的樣本數(shù)，即各個(gè)分區(qū)的大小。
本實(shí)施方式的交織處理并不對(duì)所有的輸入語(yǔ)音幀都使用固定的交織間隔值。也就是說(shuō)，通過(guò)計(jì)算參考信號(hào)的基本音調(diào)頻率f。，自適應(yīng)地調(diào)整交織間隔。從參考信號(hào)的音調(diào)周期T直接計(jì)算該基本音調(diào)頻率f0。
分區(qū)單元203在對(duì)譜系數(shù)進(jìn)行交織之后，如圖7所示地將N個(gè)樣本的區(qū) 域的頻譜分割為B個(gè)頻帶(band),以使各個(gè)頻帶具有相同數(shù)目的譜系數(shù)。該頻帶的數(shù)目可以設(shè)定為8、 IO和12等的任意的數(shù)目。優(yōu)選的是，將頻帶的數(shù) 目設(shè)定為使從各個(gè)音調(diào)高諧波的相同位置提取的各個(gè)頻帶的譜系數(shù)對(duì)振幅而言為類似的數(shù)目。也就是說(shuō)，頻帶的數(shù)目被設(shè)定為與在交織處理中的分區(qū)的數(shù)目相同的數(shù)目或者為其倍數(shù)，即被設(shè)定為B=K的頻帶或者B=LK(L為整數(shù)) 的頻帶。在各個(gè)音調(diào)周期中的j=0的樣本相當(dāng)于交織后的各個(gè)頻帶的最初的樣本，而在各個(gè)音調(diào)周期中的j=J-l的樣本相當(dāng)于交織后的各個(gè)頻帶的最后的樣本。
在頻帶的數(shù)目不是K的倍數(shù)時(shí)，譜系數(shù)的個(gè)數(shù)有可能分配得不均等。在這樣的情況下，分區(qū)單元203基于以下的等式(2a)分配可均等分配的樣本，而基于以下的等式(2b)將剩余的樣本分配到最后的頻帶(b^B-l)。
<formula>formula see original document page 8</formula> <formula>formula see original document page 9</formula>.. .(2b)
在不對(duì)特定的某個(gè)幀進(jìn)行交織時(shí)，通過(guò)與上述的對(duì)剩余的樣本的頻帶分配相同的方法，對(duì)未經(jīng)交織的系數(shù)分配頻帶，并進(jìn)行分區(qū)化。能量計(jì)算單元204基于以下的等式(3)，計(jì)算頻帶b的能量。
<formula>formula see original document page 9</formula>…(3)
對(duì)參考信號(hào)和目標(biāo)信號(hào)雙方的各個(gè)頻帶進(jìn)行上述的能量運(yùn)算，從而生成
參考4言號(hào)能量energy—refb牙口目才示1言號(hào)能量energy—tgtb。
對(duì)不包含在N個(gè)樣本中的區(qū)域，不進(jìn)行交織處理。對(duì)不進(jìn)行交織的區(qū)域的樣本也使用等式(2a)和(2b)，從而分為從2到8為止等的由多個(gè)頻帶構(gòu)成的分區(qū)，并且，還使用等式(3)，計(jì)算這些未經(jīng)交織的頻帶的能量。
增益計(jì)算單元205使用進(jìn)行交織后的區(qū)域和未經(jīng)交織的區(qū)域的雙方的參考信號(hào)和目標(biāo)信號(hào)的能量數(shù)據(jù)，計(jì)算頻帶b的增益Gb。該增益Gb為在解碼裝置中用于對(duì)目標(biāo)信號(hào)的頻譜進(jìn)行定標(biāo)和變形的增益?；谝韵碌牡仁?4)計(jì) 算增益Gb。
<formula>formula see original document page 9</formula> …(4)
匿rgy一機(jī)
這里，B,，是在交織后的區(qū)域和未經(jīng)交織的區(qū)域的雙方的區(qū)域中的頻帶的總數(shù)。
增益量化單元206使用在量化的區(qū)域眾所周知的標(biāo)量量化(scalar quantization)或矢量量化對(duì)增益Gb進(jìn)行量化，得到量化增益G，b。量化增益G，b 與音調(diào)周期T和交織標(biāo)識(shí)I—flag —并被發(fā)送到解碼裝置150，以便在解碼裝置中對(duì)信號(hào)的頻譜進(jìn)行變形。
在解碼裝置150中的處理為與編碼裝置中的處理相反的處理，所述編碼裝置中的處理為計(jì)算與參考信號(hào)比較后的目標(biāo)信號(hào)的差。也就是說(shuō)，在解碼裝置中，將該差適用于目標(biāo)信號(hào)，以使通過(guò)頻譜變形的結(jié)果盡可能地接近參考信號(hào)。
圖8是表示上述的解碼裝置150所具有的頻譜變形單元103的內(nèi)部的圖。假設(shè)在解碼裝置150中，需要進(jìn)行變形的、與編碼裝置IOO的目標(biāo)信號(hào) 相同的目標(biāo)信號(hào)et在該階段已經(jīng)進(jìn)行了合成，而且處于可進(jìn)行頻譜變形的狀態(tài)。另夕卜，也從比特流中解碼出量化增益GV音調(diào)周期T以及交織標(biāo)識(shí)I—flag,
以便能夠執(zhí)行頻譜變形單元103中的處理。
FFT單元301使用與編碼裝置100中所使用的處理相同的變換處理，將目標(biāo)信號(hào)et變換為頻域。
在交織標(biāo)識(shí)I_flag被設(shè)定為有效的情況下，交織單元302使用從音調(diào)周期T計(jì)算的基本音調(diào)頻率fo作為交織間隔，基于等式(l)對(duì)譜系數(shù)進(jìn)行交織。
該交織標(biāo)識(shí)I—flag為表示是否需要對(duì)當(dāng)前幀進(jìn)行交織處理的標(biāo)識(shí)。
分區(qū)單元303將這些系數(shù)分割為與編碼裝置100中所使用的頻帶相同數(shù) 目的頻帶。在進(jìn)行交織時(shí)將交織后的系數(shù)分割為分區(qū)，否則，將未經(jīng)交織的系數(shù)分割為分區(qū)。
定標(biāo)單元304使用量化增益G，b且基于以下的等式(5)，計(jì)算定標(biāo)后的各個(gè)頻帶的譜系數(shù)。
這里，band(b)為由b表示的頻帶內(nèi)的譜系數(shù)的數(shù)目。上述的等式(5)表示通過(guò)調(diào)整語(yǔ)系數(shù)值來(lái)使各個(gè)頻帶的能量類似于參考信號(hào)，基于該等式(5)將信號(hào)的頻鐠變形。
在由交織單元302對(duì)語(yǔ)系數(shù)進(jìn)行交織的情況下，解交織單元305對(duì)譜系數(shù)進(jìn)行解交織，以將這些交織后的系數(shù)重新排列為原來(lái)的進(jìn)行交織前的順序。另一方面，在未由交織單元302進(jìn)行交織的情況下，解交織單元305不進(jìn)行解交織處理。然后，調(diào)整后的語(yǔ)系數(shù)通過(guò)IFFT單元306中的逆FFT(IFFT)等的頻率逆變換處理，從而被恢復(fù)為時(shí)域信號(hào)。該時(shí)域信號(hào)為預(yù)測(cè)或估計(jì)出的驅(qū)動(dòng)音源信號(hào)e，t，其頻譜被變形為類似于參考信號(hào)e「的頻諳。
如上所述，根據(jù)本實(shí)施方式，利用頻率譜中的周期性圖案(重復(fù)圖案)，使用交織處理對(duì)信號(hào)頻譜進(jìn)行變形，并對(duì)在譜系數(shù)中的類似的系數(shù)進(jìn)行分組，從而能夠提高語(yǔ)音編碼裝置的編碼效率。
另外，本實(shí)施方式有助于提高定標(biāo)因子的量化效率，所述定標(biāo)因子用于將目標(biāo)信號(hào)的頻語(yǔ)調(diào)整到正確的振幅電平。另外，通過(guò)交織標(biāo)識(shí)提供較為智能型的系統(tǒng)，所述系統(tǒng)只對(duì)適當(dāng)?shù)恼Z(yǔ)音幀適用頻譜變形方法。 (實(shí)施方式2)
圖9是表示將實(shí)施方式1的編碼裝置IOO適用于典型的語(yǔ)音編碼系統(tǒng)(編碼端)IOOO的例子的圖。 LPC分析單元401用于對(duì)輸入語(yǔ)音信號(hào)s進(jìn)行濾波以得到LPC系數(shù)和驅(qū) 動(dòng)音源信號(hào)。在LPC量化單元402中對(duì)該LPC系數(shù)進(jìn)行量化和編碼，另一方面，在驅(qū)動(dòng)音源編碼單元403對(duì)驅(qū)動(dòng)音源信號(hào)進(jìn)行編碼，從而得到驅(qū)動(dòng)音源參數(shù)。這些結(jié)構(gòu)部件構(gòu)成典型的語(yǔ)音編碼器的主編碼器400。
為了提高編碼質(zhì)量，對(duì)該主編碼器400追加配置編碼裝置100。由驅(qū)動(dòng) 音源編碼單元403，從編碼后的驅(qū)動(dòng)音源信號(hào)得到目標(biāo)信號(hào)et。通過(guò)在LPC 逆濾波器404使用LPC系數(shù)對(duì)輸入語(yǔ)音信號(hào)s進(jìn)行逆濾波處理而得到參考信號(hào)er。在音調(diào)周期提取及有聲/無(wú)聲判定單元405使用輸入語(yǔ)音信號(hào)s計(jì)算音調(diào)周期T和交織標(biāo)識(shí)I一flag。編碼裝置IOO接收到這些輸入，進(jìn)行如上所述的處理，得到在解碼裝置中用于頻i普變形處理的定標(biāo)因子G，b。
圖10是表示將實(shí)施方式1的解碼裝置150適用于典型的語(yǔ)音編碼系統(tǒng) (解碼端)1500的例子的圖。
在語(yǔ)音編碼系統(tǒng)1500中，由驅(qū)動(dòng)音源生成單元501 、 LPC解碼單元502 以及LPC合成濾波器503構(gòu)成典型的語(yǔ)音解碼器的主解碼器500。在驅(qū)動(dòng)音源生成單元501生成驅(qū)動(dòng)音源信號(hào)，在LPC解碼單元502使用所發(fā)送的驅(qū)動(dòng) 音源參數(shù)對(duì)量化后的LPC系數(shù)進(jìn)行解碼。該驅(qū)動(dòng)音源信號(hào)和解碼后的LPC系數(shù)不直接使用于輸出語(yǔ)音的合成。在此之前，基于上述的處理，在解碼裝置 150中使用音調(diào)周期T、交織標(biāo)識(shí)I一flag以及定標(biāo)因子G，b等所發(fā)送的參數(shù)將頻鐠變形，從而對(duì)所生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行增強(qiáng)。由驅(qū)動(dòng)音源生成單元501 生成的驅(qū)動(dòng)音源信號(hào)發(fā)揮作為要變形的目標(biāo)信號(hào)et的作用。從解碼裝置150 的頻譜變形單元103的輸出為驅(qū)動(dòng)音源信號(hào)e，t，該驅(qū)動(dòng)音源信號(hào)e，t的頻譜被變形，以使其接近參考信號(hào)er的頻譜。在LPC合成濾波器503中，為了合成輸出語(yǔ)音s，使用變形后的驅(qū)動(dòng)音源信號(hào)e，t和解碼后的LPC系數(shù)。
另外，根據(jù)以上的記載可知，實(shí)施方式1的編碼裝置100和解碼裝置150 也可以適用于如圖11所示的立體聲方式的語(yǔ)音編碼系統(tǒng)。在該立體聲語(yǔ)音編碼系統(tǒng)中，目標(biāo)聲道可以是單聲道的聲道。對(duì)該單聲道信號(hào)M而言，通過(guò)取立體聲聲道的L聲道和R聲道的平均而合成單聲道信號(hào)。參考聲道可以是L 聲道和R聲道中的任一聲道。另外，在圖11中，使用L聲道信號(hào)L作為參考聲道。
在編碼裝置中，在分析單元400a和400b分別對(duì)L聲道信號(hào)L和單聲道信號(hào)M進(jìn)行處理。該處理的目的為對(duì)各個(gè)聲道得到LPC參數(shù)、驅(qū)動(dòng)音源參
數(shù)以及驅(qū)動(dòng)音源信號(hào)。L聲道的驅(qū)動(dòng)音源信號(hào)作為參考信號(hào)er，另一方面，單聲道的驅(qū)動(dòng)音源信號(hào)作為目標(biāo)信號(hào)et發(fā)揮作用。在編碼裝置中的剩余的處理如上所述。在該適用例子中的唯一的差異為，用于合成參考聲道語(yǔ)音信號(hào) 的參考聲道本身的LPC系數(shù)的集被發(fā)送到解碼裝置。
在解碼裝置中，在驅(qū)動(dòng)音源生成單元501生成單聲道的驅(qū)動(dòng)音源信號(hào)，在LPC解碼單元502b對(duì)LPC系數(shù)進(jìn)行解碼。在LPC合成濾波器503b,使用單聲道的驅(qū)動(dòng)音源信號(hào)和單聲道的聲道的LPC系數(shù)合成輸出單聲道語(yǔ)音 M，。另外，單聲道的驅(qū)動(dòng)音源信號(hào)eM也作為目標(biāo)信號(hào)et發(fā)揮作用。在解碼裝置150中對(duì)目標(biāo)信號(hào)et進(jìn)行變形，從而得到估計(jì)或預(yù)測(cè)出的L聲道的驅(qū)動(dòng)音源信號(hào)e\。在LPC合成濾波器503a，使用變形后的驅(qū)動(dòng)音源信號(hào)e，L和在 LPC解碼單元502a解碼后的L聲道的LPC系數(shù)，合成L聲道信號(hào)L，。生成 L信號(hào)L，和單聲道信號(hào)M，之后，就能在R聲道計(jì)算單元601使用以下的等式 (6)計(jì)算R聲道信號(hào)R，。
= 2M'-丄， ...(6)
另外，在為單聲道信號(hào)的情況下，在編碼端通過(guò)MKL+R)/2計(jì)算M。
如上所述，4艮據(jù)本實(shí)施方式，通過(guò)將實(shí)施方式1的編碼裝置100和解碼裝置150適用于立體聲語(yǔ)音編碼系統(tǒng)，從而提高驅(qū)動(dòng)音源信號(hào)的精確度。因此，雖然通過(guò)引入定標(biāo)因子，比特速率會(huì)稍微地提高，但是由于能夠?qū)︻A(yù)測(cè) 或估計(jì)出的信號(hào)進(jìn)行增強(qiáng)以使其盡可能地類似于原信號(hào)，因此從"比特速率" 對(duì)"語(yǔ)音質(zhì)量"的觀點(diǎn)而言能夠提高編碼效率。
以上說(shuō)明了本發(fā)明的各個(gè)實(shí)施方式。
本發(fā)明的語(yǔ)音編碼裝置以及頻譜變形方法并不限于上述各個(gè)實(shí)施方式，而可以進(jìn)行各種各樣的改變來(lái)實(shí)施。例如，各個(gè)實(shí)施方式可以適當(dāng)?shù)亟M合而實(shí)施。
本發(fā)明的語(yǔ)音編碼裝置可以配備在移動(dòng)通信系統(tǒng)中的通信終端裝置和基站裝置上，由此能夠提供具有與上述同樣的作用效果的通信終端裝置、基站裝置以及移動(dòng)通信系統(tǒng)。
另外，雖然這里以通過(guò)硬件來(lái)構(gòu)成本發(fā)明的情形為例進(jìn)行了說(shuō)明，但是本發(fā)明還可以通過(guò)軟件來(lái)實(shí)現(xiàn)。例如，通過(guò)編程語(yǔ)言對(duì)本發(fā)明的頻語(yǔ)變形方法的算法進(jìn)行記述，并且在內(nèi)存中保存該程序并通過(guò)信息處理單元來(lái)實(shí)行，從而能夠?qū)崿F(xiàn)與本發(fā)明的語(yǔ)音編碼裝置相同的功能。
另外，在上述各實(shí)施方式的說(shuō)明中所使用的各功能塊典型地通過(guò)集成電路的LSI來(lái)實(shí)現(xiàn)。這些既可以單獨(dú)地實(shí)行單芯片化，也可以包含其中一部分或者是全部而實(shí)行單芯片化。
另外，每個(gè)功能塊在此雖然稱作LSI，但是根據(jù)集成度的不同，有時(shí)也稱為IC、系統(tǒng)LSI、超級(jí)LSI(SuperLSI)、或超大LSI(Ultra LSI)等。
另外，集成電路化的方法不只限于LSI,也可以使用專用電路或通用處理器來(lái)實(shí)現(xiàn)。也可以利用能夠在LSI制造后編程的FPGA( Field Programmable Gate Array),或可以利用可對(duì)LSI內(nèi)部的電路單元的連接或設(shè)定進(jìn)行重新配置的可重酉己置處j里器(ReconfigurableProcessor)。
再者，如果由半導(dǎo)體技術(shù)的進(jìn)步或者派生的其他技術(shù)，出現(xiàn)取代LSI的集成電路化的技術(shù)，當(dāng)然也可以利用該技術(shù)來(lái)實(shí)現(xiàn)功能塊的集成化。也有適用生物技術(shù)等的可能性。
本說(shuō)明書基于2005年5月13日提交的日本專利申請(qǐng)?zhí)卦?005-141343
其內(nèi)容全部包含于此。工業(yè)實(shí)用性
本發(fā)明的語(yǔ)音編碼裝置和頻譜變形方法可以適用于移動(dòng)通信系統(tǒng)中的通信終端裝置和基站裝置等的用途。
權(quán)利要求
1、一種語(yǔ)音編碼裝置，包括取得單元，取得語(yǔ)音信號(hào)的頻率譜的音調(diào)頻率或重復(fù)圖案；交織單元，基于所述音調(diào)頻率或重復(fù)圖案，對(duì)所述頻率譜的多個(gè)譜系數(shù)進(jìn)行交織，以使所述多個(gè)譜系數(shù)中的相似的譜系數(shù)彼此集中在一起；以及編碼單元，對(duì)交織后的所述譜系數(shù)進(jìn)行編碼。
2、如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，還包括分割單元，將交織后的所述語(yǔ)系數(shù)分割為多個(gè)頻帶；計(jì)算單元，計(jì)算所述多個(gè)頻帶的能量與參考信號(hào)的能量的比；以及增益編碼單元，對(duì)所述能量的比進(jìn)行編碼。
3、如權(quán)利要求1所述的語(yǔ)音編碼裝置，其中，還包括檢測(cè)單元，檢測(cè)在所述語(yǔ)音信號(hào)中存在所述音調(diào)頻率或重復(fù)圖案的區(qū)間，其中，所述交織單元對(duì)所檢測(cè)出的所述區(qū)間進(jìn)行交織處理。
4、一種通信終端裝置，具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
5、一種基站裝置，具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
6、一種頻譜變形方法，包括以下步驟取得語(yǔ)音信號(hào)的頻率語(yǔ)的音調(diào)頻率或重復(fù)圖案；基于所述音調(diào)頻率或重復(fù)圖案，在所述頻率譜的多個(gè)譜系數(shù)中，將類似的譜系數(shù)分為一組而形成多個(gè)組；以及對(duì)所述多個(gè)譜系數(shù)進(jìn)行交織，以使在所述各個(gè)組中所述多個(gè)譜系數(shù)彼此集中在一起。
全文摘要
公開了能夠提高信號(hào)估計(jì)和預(yù)測(cè)的效率，并且更高效率地對(duì)頻譜進(jìn)行編碼的頻譜變形方法等。在該方法中，基于作為參考信號(hào)的原信號(hào)計(jì)算音調(diào)周期，計(jì)算基本音調(diào)頻率f<sub>0</sub>。然后，將作為頻譜變形的對(duì)象的目標(biāo)信號(hào)的頻譜分割為多個(gè)分區(qū)。這里，假設(shè)各個(gè)分區(qū)的寬度為基本音調(diào)頻率。然后，對(duì)各個(gè)頻帶的頻譜進(jìn)行交織，以使振幅上類似的多個(gè)峰值匯總為一個(gè)組。作為交織間隔使用基本音調(diào)頻率。
文檔編號(hào)G10L19/00GK101176147SQ20068001643
公開日2008年5月7日申請(qǐng)日期2006年5月11日優(yōu)先權(quán)日2005年5月13日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載