專利名稱:語(yǔ)音編碼裝置以及頻譜變形方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語(yǔ)音編碼裝置以及頻譜變形方法。
背景技術(shù):
對(duì)單聲道語(yǔ)音信號(hào)進(jìn)行編碼的語(yǔ)音編碼技術(shù)現(xiàn)在已經(jīng)成為標(biāo)準(zhǔn)。在信號(hào) 來(lái)自例如人的話音等的單一音源的移動(dòng)電話和電話會(huì)議機(jī)器等通信機(jī)器中, 通常使用像這樣的單聲道編碼。
以往由于發(fā)送信號(hào)的帶寬和DSP的處理速度等原因,局限于這樣的單聲 道信號(hào)。然而,隨著技術(shù)的進(jìn)步及帶寬的改善,該限制的重要性逐漸消失。另 一方面,語(yǔ)音的質(zhì)量變成更應(yīng)考慮的重要因素。單聲道語(yǔ)音的缺點(diǎn)之一為不 提供諸如立體的音感或說(shuō)話人的位置等的空間信息。因此,今后為了實(shí)現(xiàn)更 好的話音,應(yīng)考慮以盡可能低的比特速率達(dá)成音質(zhì)良好的立體聲語(yǔ)音。
對(duì)立體聲語(yǔ)音信號(hào)進(jìn)行編碼的一種方法為利用信號(hào)的預(yù)測(cè)或其估計(jì)技
術(shù)。也就是說(shuō),對(duì)一方的聲道,使用眾所周知的音頻編碼技術(shù)進(jìn)行編碼,而
些輔助信息(side information),基于已經(jīng)編碼過(guò)的聲道進(jìn)行預(yù)測(cè)或估計(jì)。
這才羊的方法作為雙耳標(biāo)系統(tǒng)(binaural cue coding system,例如,參見非專 利文獻(xiàn)l)的一部分,在專利文獻(xiàn)1中記述了有關(guān)該方法的記載。在該記載中, 該方法適用于聲道間電平差(ILD: interchannel level difference)的計(jì)算,計(jì)算 所述聲道間電平差的目的是以參考聲道為基準(zhǔn)對(duì)一方的聲道的電平進(jìn)行調(diào)整。 與原音相比,所預(yù)測(cè)或所估計(jì)的信號(hào)往往不忠實(shí)。因此,需要對(duì)所預(yù)測(cè) 或所估計(jì)的信號(hào)進(jìn)行增強(qiáng)(enhancement),以便盡可能地使其類似于原來(lái)的信
一般而言,在頻域?qū)σ纛l信號(hào)和語(yǔ)音信號(hào)進(jìn)行處理。 一般將該頻域數(shù)據(jù) 稱為"變換后的區(qū)域中的譜系數(shù)"。因此,能夠在頻域進(jìn)行如上的預(yù)測(cè)及估計(jì) 方法。例如,對(duì)于L聲道和R聲道的譜數(shù)據(jù),能通過(guò)提取其輔助信息中的某 些信息而將該信息適用于單聲道的聲道,來(lái)進(jìn)行估計(jì)(參照專利文獻(xiàn)1)。其它
變形例子中還包括正如能基于R聲道估計(jì)L聲道那樣,基于一方的聲道估計(jì) 另一方的聲道的技術(shù)等。
作為適用音頻處理和語(yǔ)音處理中的增強(qiáng)的一個(gè)區(qū)域,有頻譜能量估計(jì)。
頻譜能量估計(jì)也被稱為"頻譜能量預(yù)測(cè)"或"定標(biāo)(scaling)"。在典型的頻語(yǔ)能量 估計(jì)運(yùn)算中,將時(shí)域信號(hào)變換為頻域信號(hào)。通常,對(duì)該頻域信號(hào)與臨界頻帶 匹配地區(qū)分(partition)為多個(gè)頻帶。對(duì)參考聲道和所估計(jì)的聲道的雙方進(jìn)行該 處理。對(duì)雙方的聲道的各個(gè)頻帶計(jì)算能量,并使用兩個(gè)聲道的能量比例,計(jì) 算定標(biāo)因子(scalefactor)。將該定標(biāo)因子發(fā)送到接收裝置,并且在該接收裝置 中,使用該定標(biāo)因子對(duì)參考信號(hào)進(jìn)行定標(biāo),從而得到對(duì)各個(gè)頻帶的變換后的 區(qū)域中的估計(jì)信號(hào)。然后,進(jìn)行頻率逆變換處理,得到相當(dāng)于估計(jì)變換區(qū)域 譜數(shù)據(jù)的時(shí)域信號(hào)。
專利文獻(xiàn)1:國(guó)際公開第03/090208號(hào)小冊(cè)子(pamphlet) 非專利文南大1: C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.
發(fā)明內(nèi)容
發(fā)明要解決的問(wèn)題
圖1表示驅(qū)動(dòng)音源信號(hào)的頻諳(驅(qū)動(dòng)音源譜)的一例。該頻率譜為表示周 期性的峰值的、具有周期性和恒定性的頻譜。另外,圖2是表示基于臨界頻 帶的分區(qū)化的例子的圖。
在以往的方法中,將圖2所示的頻域的語(yǔ)系數(shù)分割為多個(gè)臨界頻帶,并 計(jì)算能量和定標(biāo)因子。在對(duì)非驅(qū)動(dòng)音源信號(hào)的處理中通常使用該方法,但是 由于驅(qū)動(dòng)音源語(yǔ)中出現(xiàn)重復(fù)圖案(repetitive pattern),所以該方法并不適合于驅(qū) 動(dòng)音源信號(hào)。這里,非驅(qū)動(dòng)音源信號(hào)意味著在用于生成驅(qū)動(dòng)音源信號(hào)的LPC 分析等的信號(hào)處理中的信號(hào)。
如上所述,在圖2所示的基于臨界頻帶的分區(qū)化中,由于各個(gè)頻帶的帶 寬不均等,所以通過(guò)將驅(qū)動(dòng)音源譜單純地分割為臨界頻帶無(wú)法計(jì)算高精度地 表示驅(qū)動(dòng)音源譜的各個(gè)峰值的上升和下降的定標(biāo)因子。
因此,本發(fā)明的目的為,提供語(yǔ)音編碼裝置和頻譜變形方法,能夠提高 信號(hào)估計(jì)和預(yù)測(cè)的效率而有高效率地表現(xiàn)頻譜。
解決問(wèn)題的方案
為了解決上述問(wèn)題,本發(fā)明對(duì)語(yǔ)音信號(hào)中的具有周期性的部分求音調(diào)周
期(pitch period)。該音調(diào)周期被用于求語(yǔ)音信號(hào)的基本音調(diào)頻率或重復(fù)圖案 (諧波結(jié)構(gòu)harmonic structure)。通過(guò)利用頻譜的規(guī)則性的間隔或周期性的圖 案進(jìn)行交織,并將振幅上類似的多個(gè)峰值(語(yǔ)系數(shù))匯總為一個(gè)組來(lái)生成多個(gè)組 之后,計(jì)算定標(biāo)因子。使用基本音調(diào)頻率作為交織間隔而對(duì)頻譜進(jìn)行交織, 由此改變驅(qū)動(dòng)音源譜的順序。
由此,由于將振幅上類似的多個(gè)譜系數(shù)匯總為一個(gè)組,因此能夠提高定 標(biāo)因子的量化效率,所述定標(biāo)因子用于將目標(biāo)信號(hào)的頻譜調(diào)整到正確的振幅 電平。
另外,為了解決上述問(wèn)題,本發(fā)明選擇是否需要進(jìn)行交織。該判斷基準(zhǔn) 取決于所處理的信號(hào)的類型。語(yǔ)音信號(hào)中的具有周期性的部分在頻譜中表示 重復(fù)圖案。在這樣的情況下,使用基本音調(diào)頻率作為交織單位(交織間隔),對(duì) 頻語(yǔ)進(jìn)行交織。另一方面,語(yǔ)音信號(hào)中的不具有周期性的部分在頻譜波形中 不具有重復(fù)圖案。因此,此時(shí)實(shí)行不使用交織的頻譜變形。
由此,在信號(hào)的類型不同的情況下,能夠構(gòu)建選擇對(duì)應(yīng)于該差異的適當(dāng) 的頻語(yǔ)變形方法的靈活的系統(tǒng),從而提高整體的編碼效率。
發(fā)明效果
根據(jù)本發(fā)明,能夠提高信號(hào)估計(jì)和預(yù)測(cè)的效率而更高效率地表現(xiàn)頻譜。
圖l是表示驅(qū)動(dòng)音源譜的一例的圖2是表示基于臨界頻帶的分區(qū)化的例子的圖3是表示進(jìn)行本發(fā)明的等間隔的頻帶區(qū)分后的頻譜的一例的圖4是表示本發(fā)明的交織處理的概要的圖5是表示實(shí)施方式1的語(yǔ)音編碼裝置和語(yǔ)音解碼裝置的基本結(jié)構(gòu)的方
框圖6是表示實(shí)施方式1的頻率變換單元和頻譜差運(yùn)算單元的內(nèi)部的主要 結(jié)構(gòu)的方^f匡圖7是表示頻帶分割的例子的圖8是表示實(shí)施方式1的頻譜變形單元的內(nèi)部的圖9是表示實(shí)施方式2的語(yǔ)音編碼系統(tǒng)(編碼端)的圖10是表示實(shí)施方式2的語(yǔ)音編碼系統(tǒng)(解碼端)的圖;以及
圖11是表示實(shí)施方式2的立體聲方式的語(yǔ)音編碼系統(tǒng)的圖。
具體實(shí)施例方式
本發(fā)明的語(yǔ)音編碼裝置對(duì)所輸入的頻譜進(jìn)行變形處理,并對(duì)變形后的頻 譜進(jìn)行編碼。首先,在編碼裝置中,將作為變形對(duì)象的目標(biāo)信號(hào)變換為頻域 的頻譜分量。該目標(biāo)信號(hào)通常為與原信號(hào)不相似的信號(hào)。另外,目標(biāo)信號(hào)也 可以是對(duì)原信號(hào)進(jìn)行預(yù)測(cè)或估計(jì)而得到的信號(hào)。
在頻i普變形處理中,使用原信號(hào)作為參考信號(hào)。判斷參考信號(hào)是否包含 周期性。在判斷了參考信號(hào)具有周期性時(shí),計(jì)算音調(diào)周期T。基于該音調(diào)周 期T,計(jì)算參考信號(hào)的基本音調(diào)頻率fo。
對(duì)被判斷為具有周期性的幀進(jìn)行頻譜交織處理。為了表示作為頻譜交織 處理的對(duì)象,采用標(biāo)識(shí)(以下稱為"交織標(biāo)識(shí)(interleave flag)")。首先,將目標(biāo) 信號(hào)的頻譜和參考信號(hào)的頻語(yǔ)分割為多個(gè)分區(qū)。各個(gè)分區(qū)的寬度相當(dāng)于基本 音調(diào)頻率fo的間隔的寬度。圖3是表示進(jìn)行本發(fā)明的等間隔的頻帶區(qū)分后的 頻傳的一個(gè)例子的圖。然后,以基本音調(diào)頻率fo為交織間隔,對(duì)各個(gè)頻帶的 頻譜進(jìn)行交織。圖4是表示上述的交織處理的概要的圖。
將交織后的頻語(yǔ)進(jìn)一步分割為幾個(gè)頻帶。然后,計(jì)算各個(gè)頻帶的能量。 而且,對(duì)于各個(gè)頻帶,對(duì)目標(biāo)聲道的能量和參考聲道的能量進(jìn)行比較。計(jì)算 這兩個(gè)聲道之間的能量的差或比,并采用定標(biāo)因子的表現(xiàn)形式對(duì)其進(jìn)行量化。 為了頻譜變形處理,將該定標(biāo)因子與音調(diào)周期和交織標(biāo)識(shí)發(fā)送到解碼裝置。
另一方面,在解碼裝置中,使用從編碼裝置發(fā)送的編碼參數(shù),對(duì)由主解 碼器合成的目標(biāo)信號(hào)進(jìn)行變形。首先,將目標(biāo)信號(hào)變換為頻域。然后,在交 織標(biāo)識(shí)被設(shè)定為有效(active)的情況下,使用基本音調(diào)頻率作為交織間隔,對(duì) 譜系數(shù)進(jìn)行交織。基于從編碼裝置發(fā)送的音調(diào)周期計(jì)算該基本音調(diào)頻率。將 進(jìn)行交織后的譜系數(shù)分割為與編碼裝置中的頻帶相同數(shù)目的頻帶,并且使用 定標(biāo)因子對(duì)各個(gè)頻帶調(diào)整上述的譜系數(shù)的振幅,以使各個(gè)頻帶的頻譜接近參 考信號(hào)的頻語(yǔ)。然后,對(duì)調(diào)整后的譜系數(shù)進(jìn)行解交織,從而將處于交織后的 狀態(tài)的譜系數(shù)重新排列為原來(lái)的排序。對(duì)上述的調(diào)整和解交織后的頻語(yǔ)進(jìn)行 頻率逆變換,從而得到時(shí)域的驅(qū)動(dòng)音源信號(hào)。在上述的處理中,在判斷了信
號(hào)不具有周期性時(shí),省略交織處理而繼續(xù)進(jìn)行其它處理。
以下,參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。另外,對(duì)具有相同的功能 的結(jié)構(gòu)基本上賦予相同的標(biāo)號(hào),在存在多個(gè)時(shí),為了區(qū)別而在標(biāo)號(hào)的后邊附
力口 a和b。
(實(shí)施方式1 )
圖5是表示本實(shí)施方式的編碼裝置100和解碼裝置150的基本結(jié)構(gòu)的方框圖。
在編碼裝置100中,頻率變換單元101將參考信號(hào)^和目標(biāo)信號(hào)et變換 為頻域信號(hào)。目標(biāo)信號(hào)et是進(jìn)行變形以與參考信號(hào)ej目似的對(duì)象。另外,通 過(guò)使用LPC系數(shù)對(duì)輸入信號(hào)s進(jìn)行逆濾波處理而得到參考信號(hào)er,而且作為 驅(qū)動(dòng)音源編碼處理的結(jié)果而得到目標(biāo)信號(hào)et。
頻語(yǔ)差運(yùn)算單元102對(duì)頻率變換后所得的譜系數(shù),進(jìn)行計(jì)算在頻域中的 參考信號(hào)與目標(biāo)信號(hào)之間的頻譜差的處理。該計(jì)算中包括對(duì)譜系數(shù)的交織處 理、將該系數(shù)區(qū)分到多個(gè)頻帶的處理、對(duì)各個(gè)頻帶計(jì)算參考聲道和目標(biāo)聲道 之間的差的處理、以及將這些差量化為發(fā)送到解碼裝置的G,b的處理等的一 系列的處理。雖然交織處理為該頻語(yǔ)差運(yùn)算的重要的部分,但是并不需要對(duì) 所有的信號(hào)幀都進(jìn)行交織。由交織標(biāo)識(shí)I—flag表示是否需要進(jìn)行交織,而且 標(biāo)識(shí)的有效與否取決于在當(dāng)前幀所處理的信號(hào)的類型。在需要對(duì)某個(gè)特定的 幀進(jìn)行交織時(shí),使用從當(dāng)前的語(yǔ)音幀的音調(diào)周期T計(jì)算的交織間隔。在語(yǔ)音 編解碼器(codec)的編碼裝置進(jìn)行這些處理。
在解碼裝置150中,頻譜變形單元103得到目標(biāo)信號(hào)et之后,得到量化 信息G,b以及交織標(biāo)識(shí)I一flag和音調(diào)周期T等的其它信息。然后,頻譜變形 單元103將目標(biāo)信號(hào)的頻鐠變形,以使通過(guò)這些參數(shù)得到的頻譜接近參考信 號(hào)的頻譜。
圖6是表示上述的頻率變換單元101和頻譜差運(yùn)算單元102的內(nèi)部的主 要結(jié)構(gòu)的方框圖。
FFT單元201使用FFT等的變換方法,將作為變形對(duì)象的目標(biāo)信號(hào)et和 參考信號(hào)^變換為頻域的信號(hào)。FFT單元201作為標(biāo)識(shí)使用I—flag,判斷信號(hào) 的特定幀是否適合于進(jìn)行交織。在進(jìn)行交織單元202中的交織處理之前進(jìn)行 音調(diào)檢測(cè),所述音調(diào)檢測(cè)用于判定當(dāng)前的語(yǔ)音幀是否為具有周期性和恒定性 的信號(hào)。在所處理的幀為具有周期性和恒定性的信號(hào)的情況下,交織標(biāo)識(shí)被
設(shè)定為有效。在為具有周期性和恒定性的信號(hào)的情況下,通過(guò)驅(qū)動(dòng)音源處理, 通常在頻譜波形中產(chǎn)生周期性圖案,所述周期性圖案具有在某一間隔的特征 性的峰值(參見圖1)?;谛盘?hào)的音調(diào)周期T或在頻域的基本音調(diào)頻率f。來(lái)確 定該間隔。
在交織標(biāo)識(shí)被設(shè)定為有效的情況下,交織單元202對(duì)參考信號(hào)和目標(biāo)信 號(hào)的雙方進(jìn)行變換后的語(yǔ)系數(shù)的采樣交織處理(sample interleaving)。在該采樣 交織中,預(yù)先選擇整個(gè)頻帶中的某個(gè)特定的區(qū)域。通常,在頻譜波形中,在 到3kHz或4kHz為止的低頻區(qū)域產(chǎn)生較明顯的峰值。因此,作為交織區(qū)域選 擇低頻區(qū)域的情況較多。例如,再次參照?qǐng)D4,選擇N個(gè)樣本的頻譜作為進(jìn) 行交織的低頻區(qū)域。然后,使用當(dāng)前幀的基本音調(diào)頻率fo作為交織間隔,以 便在交織之后大小近似的能量系數(shù)能匯總為組。然后,將N個(gè)樣本分割為K 個(gè)分區(qū),并進(jìn)行交織。通過(guò)基于以下的等式(l)計(jì)算各個(gè)頻帶的譜系數(shù),來(lái)進(jìn) 行該交織處理。這里,J表示各個(gè)頻帶的樣本數(shù),即各個(gè)分區(qū)的大小。
本實(shí)施方式的交織處理并不對(duì)所有的輸入語(yǔ)音幀都使用固定的交織間隔 值。也就是說(shuō),通過(guò)計(jì)算參考信號(hào)的基本音調(diào)頻率f。,自適應(yīng)地調(diào)整交織間 隔。從參考信號(hào)的音調(diào)周期T直接計(jì)算該基本音調(diào)頻率f0。
分區(qū)單元203在對(duì)譜系數(shù)進(jìn)行交織之后,如圖7所示地將N個(gè)樣本的區(qū) 域的頻譜分割為B個(gè)頻帶(band),以使各個(gè)頻帶具有相同數(shù)目的譜系數(shù)。該 頻帶的數(shù)目可以設(shè)定為8、 IO和12等的任意的數(shù)目。優(yōu)選的是,將頻帶的數(shù) 目設(shè)定為使從各個(gè)音調(diào)高諧波的相同位置提取的各個(gè)頻帶的譜系數(shù)對(duì)振幅而 言為類似的數(shù)目。也就是說(shuō),頻帶的數(shù)目被設(shè)定為與在交織處理中的分區(qū)的 數(shù)目相同的數(shù)目或者為其倍數(shù),即被設(shè)定為B=K的頻帶或者B=LK(L為整數(shù)) 的頻帶。在各個(gè)音調(diào)周期中的j=0的樣本相當(dāng)于交織后的各個(gè)頻帶的最初的 樣本,而在各個(gè)音調(diào)周期中的j=J-l的樣本相當(dāng)于交織后的各個(gè)頻帶的最后的 樣本。
在頻帶的數(shù)目不是K的倍數(shù)時(shí),譜系數(shù)的個(gè)數(shù)有可能分配得不均等。在 這樣的情況下,分區(qū)單元203基于以下的等式(2a)分配可均等分配的樣本,而 基于以下的等式(2b)將剩余的樣本分配到最后的頻帶(b^B-l)。
<formula>formula see original document page 8</formula> <formula>formula see original document page 9</formula>.. .(2b)
在不對(duì)特定的某個(gè)幀進(jìn)行交織時(shí),通過(guò)與上述的對(duì)剩余的樣本的頻帶分 配相同的方法,對(duì)未經(jīng)交織的系數(shù)分配頻帶,并進(jìn)行分區(qū)化。 能量計(jì)算單元204基于以下的等式(3),計(jì)算頻帶b的能量。
<formula>formula see original document page 9</formula>…(3)
對(duì)參考信號(hào)和目標(biāo)信號(hào)雙方的各個(gè)頻帶進(jìn)行上述的能量運(yùn)算,從而生成
參考4言號(hào)能量energy—refb牙口目才示1言號(hào)能量energy—tgtb。
對(duì)不包含在N個(gè)樣本中的區(qū)域,不進(jìn)行交織處理。對(duì)不進(jìn)行交織的區(qū)域 的樣本也使用等式(2a)和(2b),從而分為從2到8為止等的由多個(gè)頻帶構(gòu)成的 分區(qū),并且,還使用等式(3),計(jì)算這些未經(jīng)交織的頻帶的能量。
增益計(jì)算單元205使用進(jìn)行交織后的區(qū)域和未經(jīng)交織的區(qū)域的雙方的參 考信號(hào)和目標(biāo)信號(hào)的能量數(shù)據(jù),計(jì)算頻帶b的增益Gb。該增益Gb為在解碼 裝置中用于對(duì)目標(biāo)信號(hào)的頻譜進(jìn)行定標(biāo)和變形的增益?;谝韵碌牡仁?4)計(jì) 算增益Gb。
<formula>formula see original document page 9</formula> …(4)
匿rgy一機(jī)
這里,B,,是在交織后的區(qū)域和未經(jīng)交織的區(qū)域的雙方的區(qū)域中的頻帶的 總數(shù)。
增益量化單元206使用在量化的區(qū)域眾所周知的標(biāo)量量化(scalar quantization)或矢量量化對(duì)增益Gb進(jìn)行量化,得到量化增益G,b。量化增益G,b 與音調(diào)周期T和交織標(biāo)識(shí)I—flag —并被發(fā)送到解碼裝置150,以便在解碼裝 置中對(duì)信號(hào)的頻譜進(jìn)行變形。
在解碼裝置150中的處理為與編碼裝置中的處理相反的處理,所述編碼 裝置中的處理為計(jì)算與參考信號(hào)比較后的目標(biāo)信號(hào)的差。也就是說(shuō),在解碼 裝置中,將該差適用于目標(biāo)信號(hào),以使通過(guò)頻譜變形的結(jié)果盡可能地接近參 考信號(hào)。
圖8是表示上述的解碼裝置150所具有的頻譜變形單元103的內(nèi)部的圖。 假設(shè)在解碼裝置150中,需要進(jìn)行變形的、與編碼裝置IOO的目標(biāo)信號(hào) 相同的目標(biāo)信號(hào)et在該階段已經(jīng)進(jìn)行了合成,而且處于可進(jìn)行頻譜變形的狀 態(tài)。另夕卜,也從比特流中解碼出量化增益GV音調(diào)周期T以及交織標(biāo)識(shí)I—flag,
以便能夠執(zhí)行頻譜變形單元103中的處理。
FFT單元301使用與編碼裝置100中所使用的處理相同的變換處理,將 目標(biāo)信號(hào)et變換為頻域。
在交織標(biāo)識(shí)I_flag被設(shè)定為有效的情況下,交織單元302使用從音調(diào)周 期T計(jì)算的基本音調(diào)頻率fo作為交織間隔,基于等式(l)對(duì)譜系數(shù)進(jìn)行交織。
該交織標(biāo)識(shí)I—flag為表示是否需要對(duì)當(dāng)前幀進(jìn)行交織處理的標(biāo)識(shí)。
分區(qū)單元303將這些系數(shù)分割為與編碼裝置100中所使用的頻帶相同數(shù) 目的頻帶。在進(jìn)行交織時(shí)將交織后的系數(shù)分割為分區(qū),否則,將未經(jīng)交織的 系數(shù)分割為分區(qū)。
定標(biāo)單元304使用量化增益G,b且基于以下的等式(5),計(jì)算定標(biāo)后的各 個(gè)頻帶的譜系數(shù)。
這里,band(b)為由b表示的頻帶內(nèi)的譜系數(shù)的數(shù)目。上述的等式(5)表示 通過(guò)調(diào)整語(yǔ)系數(shù)值來(lái)使各個(gè)頻帶的能量類似于參考信號(hào),基于該等式(5)將信 號(hào)的頻鐠變形。
在由交織單元302對(duì)語(yǔ)系數(shù)進(jìn)行交織的情況下,解交織單元305對(duì)譜系 數(shù)進(jìn)行解交織,以將這些交織后的系數(shù)重新排列為原來(lái)的進(jìn)行交織前的順序。 另一方面,在未由交織單元302進(jìn)行交織的情況下,解交織單元305不進(jìn)行 解交織處理。然后,調(diào)整后的語(yǔ)系數(shù)通過(guò)IFFT單元306中的逆FFT(IFFT)等 的頻率逆變換處理,從而被恢復(fù)為時(shí)域信號(hào)。該時(shí)域信號(hào)為預(yù)測(cè)或估計(jì)出的 驅(qū)動(dòng)音源信號(hào)e,t,其頻譜被變形為類似于參考信號(hào)e「的頻諳。
如上所述,根據(jù)本實(shí)施方式,利用頻率譜中的周期性圖案(重復(fù)圖案), 使用交織處理對(duì)信號(hào)頻譜進(jìn)行變形,并對(duì)在譜系數(shù)中的類似的系數(shù)進(jìn)行分組, 從而能夠提高語(yǔ)音編碼裝置的編碼效率。
另外,本實(shí)施方式有助于提高定標(biāo)因子的量化效率,所述定標(biāo)因子用于 將目標(biāo)信號(hào)的頻語(yǔ)調(diào)整到正確的振幅電平。另外,通過(guò)交織標(biāo)識(shí)提供較為智 能型的系統(tǒng),所述系統(tǒng)只對(duì)適當(dāng)?shù)恼Z(yǔ)音幀適用頻譜變形方法。 (實(shí)施方式2)
圖9是表示將實(shí)施方式1的編碼裝置IOO適用于典型的語(yǔ)音編碼系統(tǒng)(編 碼端)IOOO的例子的圖。 LPC分析單元401用于對(duì)輸入語(yǔ)音信號(hào)s進(jìn)行濾波以得到LPC系數(shù)和驅(qū) 動(dòng)音源信號(hào)。在LPC量化單元402中對(duì)該LPC系數(shù)進(jìn)行量化和編碼,另 一方 面,在驅(qū)動(dòng)音源編碼單元403對(duì)驅(qū)動(dòng)音源信號(hào)進(jìn)行編碼,從而得到驅(qū)動(dòng)音源 參數(shù)。這些結(jié)構(gòu)部件構(gòu)成典型的語(yǔ)音編碼器的主編碼器400。
為了提高編碼質(zhì)量,對(duì)該主編碼器400追加配置編碼裝置100。由驅(qū)動(dòng) 音源編碼單元403,從編碼后的驅(qū)動(dòng)音源信號(hào)得到目標(biāo)信號(hào)et。通過(guò)在LPC 逆濾波器404使用LPC系數(shù)對(duì)輸入語(yǔ)音信號(hào)s進(jìn)行逆濾波處理而得到參考信 號(hào)er。在音調(diào)周期提取及有聲/無(wú)聲判定單元405使用輸入語(yǔ)音信號(hào)s計(jì)算 音調(diào)周期T和交織標(biāo)識(shí)I一flag。編碼裝置IOO接收到這些輸入,進(jìn)行如上所 述的處理,得到在解碼裝置中用于頻i普變形處理的定標(biāo)因子G,b。
圖10是表示將實(shí)施方式1的解碼裝置150適用于典型的語(yǔ)音編碼系統(tǒng) (解碼端)1500的例子的圖。
在語(yǔ)音編碼系統(tǒng)1500中,由驅(qū)動(dòng)音源生成單元501 、 LPC解碼單元502 以及LPC合成濾波器503構(gòu)成典型的語(yǔ)音解碼器的主解碼器500。在驅(qū)動(dòng)音 源生成單元501生成驅(qū)動(dòng)音源信號(hào),在LPC解碼單元502使用所發(fā)送的驅(qū)動(dòng) 音源參數(shù)對(duì)量化后的LPC系數(shù)進(jìn)行解碼。該驅(qū)動(dòng)音源信號(hào)和解碼后的LPC系 數(shù)不直接使用于輸出語(yǔ)音的合成。在此之前,基于上述的處理,在解碼裝置 150中使用音調(diào)周期T、交織標(biāo)識(shí)I一flag以及定標(biāo)因子G,b等所發(fā)送的參數(shù)將 頻鐠變形,從而對(duì)所生成的驅(qū)動(dòng)音源信號(hào)進(jìn)行增強(qiáng)。由驅(qū)動(dòng)音源生成單元501 生成的驅(qū)動(dòng)音源信號(hào)發(fā)揮作為要變形的目標(biāo)信號(hào)et的作用。從解碼裝置150 的頻譜變形單元103的輸出為驅(qū)動(dòng)音源信號(hào)e,t,該驅(qū)動(dòng)音源信號(hào)e,t的頻譜被 變形,以使其接近參考信號(hào)er的頻譜。在LPC合成濾波器503中,為了合成 輸出語(yǔ)音s,使用變形后的驅(qū)動(dòng)音源信號(hào)e,t和解碼后的LPC系數(shù)。
另外,根據(jù)以上的記載可知,實(shí)施方式1的編碼裝置100和解碼裝置150 也可以適用于如圖11所示的立體聲方式的語(yǔ)音編碼系統(tǒng)。在該立體聲語(yǔ)音編 碼系統(tǒng)中,目標(biāo)聲道可以是單聲道的聲道。對(duì)該單聲道信號(hào)M而言,通過(guò)取 立體聲聲道的L聲道和R聲道的平均而合成單聲道信號(hào)。參考聲道可以是L 聲道和R聲道中的任一聲道。另外,在圖11中,使用L聲道信號(hào)L作為參 考聲道。
在編碼裝置中,在分析單元400a和400b分別對(duì)L聲道信號(hào)L和單聲道 信號(hào)M進(jìn)行處理。該處理的目的為對(duì)各個(gè)聲道得到LPC參數(shù)、驅(qū)動(dòng)音源參
數(shù)以及驅(qū)動(dòng)音源信號(hào)。L聲道的驅(qū)動(dòng)音源信號(hào)作為參考信號(hào)er,另一方面, 單聲道的驅(qū)動(dòng)音源信號(hào)作為目標(biāo)信號(hào)et發(fā)揮作用。在編碼裝置中的剩余的處 理如上所述。在該適用例子中的唯一的差異為,用于合成參考聲道語(yǔ)音信號(hào) 的參考聲道本身的LPC系數(shù)的集被發(fā)送到解碼裝置。
在解碼裝置中,在驅(qū)動(dòng)音源生成單元501生成單聲道的驅(qū)動(dòng)音源信號(hào), 在LPC解碼單元502b對(duì)LPC系數(shù)進(jìn)行解碼。在LPC合成濾波器503b,使 用單聲道的驅(qū)動(dòng)音源信號(hào)和單聲道的聲道的LPC系數(shù)合成輸出單聲道語(yǔ)音 M,。另外,單聲道的驅(qū)動(dòng)音源信號(hào)eM也作為目標(biāo)信號(hào)et發(fā)揮作用。在解碼裝 置150中對(duì)目標(biāo)信號(hào)et進(jìn)行變形,從而得到估計(jì)或預(yù)測(cè)出的L聲道的驅(qū)動(dòng)音 源信號(hào)e\。在LPC合成濾波器503a,使用變形后的驅(qū)動(dòng)音源信號(hào)e,L和在 LPC解碼單元502a解碼后的L聲道的LPC系數(shù),合成L聲道信號(hào)L,。生成 L信號(hào)L,和單聲道信號(hào)M,之后,就能在R聲道計(jì)算單元601使用以下的等式 (6)計(jì)算R聲道信號(hào)R,。
= 2M'-丄, ...(6)
另外,在為單聲道信號(hào)的情況下,在編碼端通過(guò)MKL+R)/2計(jì)算M。
如上所述,4艮據(jù)本實(shí)施方式,通過(guò)將實(shí)施方式1的編碼裝置100和解碼 裝置150適用于立體聲語(yǔ)音編碼系統(tǒng),從而提高驅(qū)動(dòng)音源信號(hào)的精確度。因 此,雖然通過(guò)引入定標(biāo)因子,比特速率會(huì)稍微地提高,但是由于能夠?qū)︻A(yù)測(cè) 或估計(jì)出的信號(hào)進(jìn)行增強(qiáng)以使其盡可能地類似于原信號(hào),因此從"比特速率" 對(duì)"語(yǔ)音質(zhì)量"的觀點(diǎn)而言能夠提高編碼效率。
以上說(shuō)明了本發(fā)明的各個(gè)實(shí)施方式。
本發(fā)明的語(yǔ)音編碼裝置以及頻譜變形方法并不限于上述各個(gè)實(shí)施方式, 而可以進(jìn)行各種各樣的改變來(lái)實(shí)施。例如,各個(gè)實(shí)施方式可以適當(dāng)?shù)亟M合而實(shí)施。
本發(fā)明的語(yǔ)音編碼裝置可以配備在移動(dòng)通信系統(tǒng)中的通信終端裝置和基 站裝置上,由此能夠提供具有與上述同樣的作用效果的通信終端裝置、基站 裝置以及移動(dòng)通信系統(tǒng)。
另外,雖然這里以通過(guò)硬件來(lái)構(gòu)成本發(fā)明的情形為例進(jìn)行了說(shuō)明,但是 本發(fā)明還可以通過(guò)軟件來(lái)實(shí)現(xiàn)。例如,通過(guò)編程語(yǔ)言對(duì)本發(fā)明的頻語(yǔ)變形方 法的算法進(jìn)行記述,并且在內(nèi)存中保存該程序并通過(guò)信息處理單元來(lái)實(shí)行, 從而能夠?qū)崿F(xiàn)與本發(fā)明的語(yǔ)音編碼裝置相同的功能。
另外,在上述各實(shí)施方式的說(shuō)明中所使用的各功能塊典型地通過(guò)集成電 路的LSI來(lái)實(shí)現(xiàn)。這些既可以單獨(dú)地實(shí)行單芯片化,也可以包含其中一部分 或者是全部而實(shí)行單芯片化。
另外,每個(gè)功能塊在此雖然稱作LSI,但是根據(jù)集成度的不同,有時(shí)也 稱為IC、系統(tǒng)LSI、超級(jí)LSI(SuperLSI)、或超大LSI(Ultra LSI)等。
另外,集成電路化的方法不只限于LSI,也可以使用專用電路或通用處 理器來(lái)實(shí)現(xiàn)。也可以利用能夠在LSI制造后編程的FPGA( Field Programmable Gate Array),或可以利用可對(duì)LSI內(nèi)部的電路單元的連接或設(shè)定進(jìn)行重新配 置的可重酉己置處j里器(ReconfigurableProcessor)。
再者,如果由半導(dǎo)體技術(shù)的進(jìn)步或者派生的其他技術(shù),出現(xiàn)取代LSI的 集成電路化的技術(shù),當(dāng)然也可以利用該技術(shù)來(lái)實(shí)現(xiàn)功能塊的集成化。也有適 用生物技術(shù)等的可能性。
本說(shuō)明書基于2005年5月13日提交的日本專利申請(qǐng)?zhí)卦?005-141343
其內(nèi)容全部包含于此。 工業(yè)實(shí)用性
本發(fā)明的語(yǔ)音編碼裝置和頻譜變形方法可以適用于移動(dòng)通信系統(tǒng)中的通 信終端裝置和基站裝置等的用途。
權(quán)利要求
1、一種語(yǔ)音編碼裝置,包括取得單元,取得語(yǔ)音信號(hào)的頻率譜的音調(diào)頻率或重復(fù)圖案;交織單元,基于所述音調(diào)頻率或重復(fù)圖案,對(duì)所述頻率譜的多個(gè)譜系數(shù)進(jìn)行交織,以使所述多個(gè)譜系數(shù)中的相似的譜系數(shù)彼此集中在一起;以及編碼單元,對(duì)交織后的所述譜系數(shù)進(jìn)行編碼。
2、 如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,還包括 分割單元,將交織后的所述語(yǔ)系數(shù)分割為多個(gè)頻帶;計(jì)算單元,計(jì)算所述多個(gè)頻帶的能量與參考信號(hào)的能量的比;以及增益編碼單元,對(duì)所述能量的比進(jìn)行編碼。
3、 如權(quán)利要求1所述的語(yǔ)音編碼裝置,其中,還包括檢測(cè)單元,檢測(cè)在所述語(yǔ)音信號(hào)中存在所述音調(diào)頻率或重復(fù)圖案的區(qū)間, 其中,所述交織單元對(duì)所檢測(cè)出的所述區(qū)間進(jìn)行交織處理。
4、 一種通信終端裝置,具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
5、 一種基站裝置,具有權(quán)利要求1所述的語(yǔ)音編碼裝置。
6、 一種頻譜變形方法,包括以下步驟 取得語(yǔ)音信號(hào)的頻率語(yǔ)的音調(diào)頻率或重復(fù)圖案;基于所述音調(diào)頻率或重復(fù)圖案,在所述頻率譜的多個(gè)譜系數(shù)中,將類似的譜系數(shù)分為一組而形成多個(gè)組;以及對(duì)所述多個(gè)譜系數(shù)進(jìn)行交織,以使在所述各個(gè)組中所述多個(gè)譜系數(shù)彼此集中在一起。
全文摘要
公開了能夠提高信號(hào)估計(jì)和預(yù)測(cè)的效率,并且更高效率地對(duì)頻譜進(jìn)行編碼的頻譜變形方法等。在該方法中,基于作為參考信號(hào)的原信號(hào)計(jì)算音調(diào)周期,計(jì)算基本音調(diào)頻率f<sub>0</sub>。然后,將作為頻譜變形的對(duì)象的目標(biāo)信號(hào)的頻譜分割為多個(gè)分區(qū)。這里,假設(shè)各個(gè)分區(qū)的寬度為基本音調(diào)頻率。然后,對(duì)各個(gè)頻帶的頻譜進(jìn)行交織,以使振幅上類似的多個(gè)峰值匯總為一個(gè)組。作為交織間隔使用基本音調(diào)頻率。
文檔編號(hào)G10L19/00GK101176147SQ20068001643
公開日2008年5月7日 申請(qǐng)日期2006年5月11日 優(yōu)先權(quán)日2005年5月13日
發(fā)明者吉田幸司, 后藤道代, 張峻偉, 梁世豐 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社