專利名稱:語音解碼裝置及語音解碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音編碼裝置、語音解碼裝置、語音編碼方法、語音解碼方法、語音編碼程序以及語音解碼程序。
背景技術(shù):
利用聽覺心理去除人類知覺不需要的信息而將信號的數(shù)據(jù)量壓縮為幾十分之一的語音音頻編碼技術(shù)在信號的傳送/積蓄中是極為重要的技術(shù)。作為廣泛使用的知覺音頻編碼技術(shù)的例子,可列舉以“IS0/IEC MPEG”標(biāo)準(zhǔn)化的“MPEG4 AAC”等。 作為進一步提高語音編碼的性能利用低比特率獲得高語音質(zhì)量的方法,近年來廣泛采用了利用語音的低頻成分來生成高頻成分的頻帶擴展技術(shù)。頻帶擴展技術(shù)的代表例是“MPEG4AAC” 中利用的 SBR (Spectral Band Replication :頻帶復(fù)制)技術(shù)。在 SBR 中,針對通過QMF (Quadrature Mirror Filter :正交鏡像濾波器)濾波器組變換到頻域的信號,進行從低頻頻帶到高頻頻帶的頻譜系數(shù)的復(fù)寫,由此生成高頻成分,然后,通過調(diào)整復(fù)寫的系數(shù)的頻譜包絡(luò)和調(diào)性(tonality)來進行高頻成分的調(diào)整。利用了頻帶擴展技術(shù)的語音編碼方式能夠僅使用少量的輔助信息來再現(xiàn)信號的高頻成分,因此對于語音編碼的低比特率化是有效的。以SBR為代表的頻域中的頻帶擴展技術(shù),通過調(diào)整相對于頻譜系數(shù)的增益、時間方向的線形預(yù)測逆濾波處理、噪聲重疊來對頻域中表現(xiàn)的頻譜系數(shù)進行頻譜包絡(luò)和調(diào)性的調(diào)整。通過該調(diào)整處理,在對語音信號、拍手及響板這樣的時間包絡(luò)變化大的信號進行編碼時,有時在解碼信號中會感知到被稱為前回聲(pre echo)或后回聲(postecho)的殘音狀的噪聲。這個問題是由于在調(diào)整處理的過程中高頻成分的時間包絡(luò)變形并且多數(shù)情況下成為比調(diào)整前更平坦的形狀而導(dǎo)致的。經(jīng)由調(diào)整處理而變平坦的高頻成分的時間包絡(luò)與編碼前的原始信號中的高頻成分的時間包絡(luò)不一致,構(gòu)成了產(chǎn)生前回聲/后回聲的原因。在以“MPEG Surround (環(huán)繞MPEG)”以及參數(shù)立體聲為代表的采用參數(shù)處理的多信道音頻編碼中也會產(chǎn)生同樣的前回聲/后回聲的問題。多信道音頻編碼中的譯碼器包括對解碼信號進行基于殘音濾波器的非相關(guān)化處理的單元,而且在非相關(guān)化處理的過程中,信號的時間包絡(luò)發(fā)生變形,產(chǎn)生與前回聲/后回聲同樣的再現(xiàn)信號的劣化。作為針對此課題的解決方法有TES (Temporal Envelope Shaping :時間包絡(luò)成形)技術(shù)(專利文獻I)。在TES技術(shù)中,對QMF區(qū)域中表述的非相關(guān)化處理前的信號,在頻率方向進行線形預(yù)測分析,獲得線形預(yù)測系數(shù),然后,利用所獲得的線形預(yù)測系數(shù)對非相關(guān)化處理后的信號在頻率方向進行線形預(yù)測合成濾波處理。通過該處理,TES技術(shù)提取出非相關(guān)化處理前的信號所具有的時間包絡(luò),并與其對應(yīng)地調(diào)整非相關(guān)化處理后的信號的時間包絡(luò)。由于非相關(guān)化處理前的信號具有變形小的時間包絡(luò),因此通過上述處理能夠?qū)⒎窍嚓P(guān)化處理后的信號的時間包絡(luò)調(diào)整為變形小的形狀,并且能夠獲得改善了前回聲/后回聲的再現(xiàn)信號?,F(xiàn)有技術(shù)文獻專利文獻專利文獻I :美國專利申請公開第2006/0239473號說明書
發(fā)明內(nèi)容
發(fā)明所要解決的問題
以上所示的TES技術(shù)利用了非相關(guān)化處理前的信號具有變形小的時間包絡(luò)。但是,在SBR譯碼器中,通過對低頻成分進行信號復(fù)寫來復(fù)制出信號的高頻成分,因此無法獲得與高頻成分有關(guān)的變形小的時間包絡(luò)。作為對此問題的解決方法之一,考慮如下的方法在SBR符號器中,對輸入信號的高頻成分進行分析,對分析結(jié)果獲得的線形預(yù)測系數(shù)進行量化并在比特流中進行復(fù)用而傳送。由此,在SBR譯碼器中,可獲得包含與高頻成分的時間包絡(luò)有關(guān)的變形小的信息的線形預(yù)測系數(shù)。但是,此時,伴隨有如下的問題量化后的線形預(yù)測系數(shù)的傳送需要較多的信息量,編碼比特流整體的比特率明顯增大。因此,本發(fā)明的目的是在以SBR為代表的頻域內(nèi)的頻帶擴展技術(shù)中,能夠減輕產(chǎn)生的前回聲/后回聲并提高解碼信號的主觀性質(zhì)量,而不使比特率顯著增大。解決問題的手段本發(fā)明的語音編碼裝置是語音信號進行編碼的語音編碼裝置,該語音編碼裝置的特征在于,具備核心編碼單元,其對所述語音信號的低頻成分進行編碼;時間包絡(luò)輔助信息計算單元,其利用所述語音信號的低頻成分的時間包絡(luò)來計算時間包絡(luò)輔助信息,該時間包絡(luò)輔助信息用于獲得所述語音信號的高頻成分的時間包絡(luò)的近似;以及比特流復(fù)用單元,其生成至少復(fù)用了由所述核心編碼單元編碼后的所述低頻成分、和由所述時間包絡(luò)輔助信息計算單元計算出的所述時間包絡(luò)輔助信息的比特流。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息表示如下參數(shù),該參數(shù)表示在規(guī)定的分析區(qū)間內(nèi)所述語音信號的高頻成分中的時間包絡(luò)的變化的急劇程度。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡(luò)輔助信息計算單元根據(jù)高頻線形預(yù)測系數(shù)來計算所述時間包絡(luò)輔助信息,該高頻線形預(yù)測系數(shù)是通過在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側(cè)系數(shù)進行線形預(yù)測分析而取得的。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息計算單元對由所述頻率變換單元變換到頻域的所述語音信號的低頻側(cè)系數(shù)在頻率方向上進行線形預(yù)測分析,取得低頻線形預(yù)測系數(shù),根據(jù)該低頻線形預(yù)測系數(shù)和所述高頻線形預(yù)測系數(shù)來計算所述時間包絡(luò)輔助信息。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息計算單元分別根據(jù)所述低頻線形預(yù)測系數(shù)以及所述高頻線形預(yù)測系數(shù)取得預(yù)測增益,并根據(jù)這兩個預(yù)測增益的大小來計算所述時間包絡(luò)輔助信息。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息計算單元從所述語音信號中分離出高頻成分,從該高頻成分中取得以時域表現(xiàn)的時間包絡(luò)信息,并根據(jù)該時間包絡(luò)信息的時間的變化的大小來計算所述時間包絡(luò)輔助信息。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息包含差分信息,該差分信息用于利用對所述語音信號的低頻成分進行頻率方向的線形預(yù)測分析而獲得的低頻線形預(yù)測系數(shù)來取得高頻線形預(yù)測系數(shù)。在本發(fā)明的語音編碼裝置中,優(yōu)選為,該語音編碼裝置還具備將所述語音信號變換到頻域的頻率變換單元,所述時間包絡(luò)輔助信息計算單元分別對由所述頻率變換單元變換到頻域的所述語音信號的低頻成分以及高頻側(cè)系數(shù)在頻率方向上進行線形預(yù)測分析,取得低頻線形預(yù)測系數(shù)和高頻線形預(yù)測系數(shù),并取得該低頻線形預(yù)測系數(shù)和高頻線形預(yù)測系數(shù)的差分,由此來取得所述差分信息。在本發(fā)明的語音編碼裝置中,優(yōu)選為,所述差分信息表示LSP (線譜對)、ISP (導(dǎo)抗譜對)、LSF (線譜頻率)、ISF (導(dǎo)抗譜頻率)、PARC0R系數(shù)的任意一個區(qū)域中的線形預(yù)測系數(shù)的差分。
本發(fā)明的語音編碼裝置是對語音信號進行編碼的語音編碼裝置,該語音編碼裝置的特征在于,具備核心編碼單元,其對所述語音信號的低頻成分進行編碼;頻率變換單元,其將所述語音信號變換到頻域;線形預(yù)測分析單元,其在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側(cè)系數(shù)進行線形預(yù)測分析,取得高頻線形預(yù)測系數(shù);預(yù)測系數(shù)抽樣單元,其對由所述線形預(yù)測分析單元取得的所述高頻線形預(yù)測系數(shù)在時間方向上進行抽樣;預(yù)測系數(shù)量化單元,其對由所述預(yù)測系數(shù)抽樣單元抽樣后的所述高頻線形預(yù)測系數(shù)進行量化;以及比特流復(fù)用單元,其生成至少復(fù)用了由所述核心編碼單元編碼后的所述低頻成分、和由所述預(yù)測系數(shù)量化單元量化后的所述高頻線形預(yù)測系數(shù)的比特流。本發(fā)明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)調(diào)整單元,其利用所述時間包絡(luò)輔助信息調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息;以及時間包絡(luò)變形單元,其利用由所述時間包絡(luò)調(diào)整單元調(diào)整后的所述時間包絡(luò)信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,該語音解碼裝置還具備調(diào)整所述高頻成分的高頻調(diào)整單元,所述頻率變換單元是具有實數(shù)或復(fù)數(shù)系數(shù)的64通道QMF濾波器組,所述頻率變換單元、所述高頻生成單元、所述高頻調(diào)整單元進行以“IS0/IEC14496-3”規(guī)定的“MPEG4AAC”中的SBR譯碼器(SBR Spectral Band Replication,頻帶復(fù)制)為依據(jù)的動作。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預(yù)測分析,取得低頻線形預(yù)測系數(shù),所述時間包絡(luò)調(diào)整單元利用所述時間包絡(luò)輔助信息來調(diào)整所述低頻線形預(yù)測系數(shù),所述時間包絡(luò)變形單元針對由所述高頻生成單元生成的頻域的所述高頻成分,利用由所述時間包絡(luò)調(diào)整單元調(diào)整后的線形預(yù)測系數(shù),進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡(luò)信息,所述時間包絡(luò)調(diào)整單元利用所述時間包絡(luò)輔助信息調(diào)整所述時間包絡(luò)信息,所述時間包絡(luò)變形單元通過將由所述高頻生成單元生成的頻域的高頻成分與所述調(diào)整后的時間包絡(luò)信息重疊來使高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個QMF子帶采樣的功率,由此取得語音信號的時間包絡(luò)信息,所述時間包絡(luò)調(diào)整單元利用所述時間包絡(luò)輔助信息來調(diào)整所述時間包絡(luò)信息,所述時間包絡(luò)變形單元通過將所述高頻生成單元所生成的頻域的高頻成分與所述調(diào)整后的時間包絡(luò)信息相乘來使高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息表示用于調(diào)整線形 預(yù)測系數(shù)的強度的濾波強度參數(shù)。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息表示如下參數(shù),該參數(shù)表示所述時間包絡(luò)信息的時間變化的大小。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息包含相對于所述低頻線形預(yù)測系數(shù)的線形預(yù)測系數(shù)的差分信息。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述差分信息表示LSP (線譜對)、ISP (導(dǎo)抗譜對)、LSF (線譜頻率)、ISF (導(dǎo)抗譜頻率)、PARC0R系數(shù)的任意一個區(qū)域中的線形預(yù)測系數(shù)的差分。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預(yù)測分析,取得所述低頻線形預(yù)測系數(shù),并且取得該頻域的所述低頻成分的每個時隙的功率,由此來取得語音信號的時間包絡(luò)信息,所述時間包絡(luò)調(diào)整單元利用所述時間包絡(luò)輔助信息來調(diào)整所述低頻線形預(yù)測系數(shù),并且利用所述時間包絡(luò)輔助信息來調(diào)整所述時間包絡(luò)信息,所述時間包絡(luò)變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用由所述時間包絡(luò)調(diào)整單元調(diào)整后的線形預(yù)測系數(shù)進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形,并且使該頻域的所述高頻成分與由所述時間包絡(luò)調(diào)整單元調(diào)整后的所述時間包絡(luò)信息重疊,由此使所述高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元對由所述頻率變換單元變換到頻域的所述低頻成分進行頻率方向的線形預(yù)測分析,取得所述低頻線形預(yù)測系數(shù),并且取得該頻域的所述低頻成分的每個QMF子帶采樣的功率,由此取得語音信號的時間包絡(luò)信息,所述時間包絡(luò)調(diào)整單元利用所述時間包絡(luò)輔助信息來調(diào)整所述低頻線形預(yù)測系數(shù),并且利用所述時間包絡(luò)輔助信息來調(diào)整所述時間包絡(luò)信息,所述時間包絡(luò)變形單元對由所述高頻生成單元生成的頻域的高頻成分,利用所述時間包絡(luò)調(diào)整單元調(diào)整后的線形預(yù)測系數(shù)進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形,并且通過將該頻域的所述高頻成分與由所述時間包絡(luò)調(diào)整單元調(diào)整后的所述時間包絡(luò)信息相乘來使所述高頻成分的時間包絡(luò)變形。
在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息表示如下參數(shù),該參數(shù)表示線形預(yù)測系數(shù)的濾波強度和所述時間包絡(luò)信息的時間變化的大小兩者。本發(fā)明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預(yù)測系數(shù);線形預(yù)測系數(shù)內(nèi)插/外插單元,其在時間方向上對所述線形預(yù)測系數(shù)進行內(nèi)插或外插;以及時間包絡(luò)變形單元,其利用由所述線形預(yù)測系數(shù)內(nèi)插/外插單元進行了內(nèi)插或外插的線形預(yù)測系數(shù),對在頻域中表現(xiàn)的高頻成分進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形。本發(fā)明的語音編碼方法是使用了語音編碼裝置的語音編碼方法,該語音編碼裝置對語音信號進行編碼,所述語音編碼方法的特征在于,具有以下步驟核心編碼步驟,所述語音編碼裝置對所述語音信號的低頻成分進行編碼;時間包絡(luò)輔助信息計算步驟,所述語音編碼裝置利用所述語音信號的低頻成分的時間包絡(luò)來計算時間包絡(luò)輔助信息,該時間包絡(luò)輔助信息用于獲得所述語音信號的高頻成分的時間包絡(luò)的近似;以及比特流復(fù)用步驟,所述語音編碼裝置生成至少復(fù)用了在所述核心編碼步驟中進行編碼了的所述低頻成分、和 在所述時間包絡(luò)輔助信息計算步驟中計算出的所述時間包絡(luò)輔助信息的比特流。本發(fā)明的語音編碼方法是使用了語音編碼裝置的語音編碼方法,該語音編碼裝置對語音信號進行編碼,所述該語音編碼方法的特征在于,具有以下步驟核心編碼步驟,所述語音編碼裝置對所述語音信號的低頻成分進行編碼;頻率變換步驟,所述語音編碼裝置將所述語音信號變換到頻域;線形預(yù)測分析步驟,所述語音編碼裝置在頻率方向上對在所述頻率變換步驟中變換到頻域的所述語音信號的高頻側(cè)系數(shù)進行線形預(yù)測分析,取得高頻線形預(yù)測系數(shù);預(yù)測系數(shù)抽樣步驟,所述語音編碼裝置在時間方向上對在所述線形預(yù)測分析步驟中取得的所述高頻線形預(yù)測系數(shù)進行抽樣;預(yù)測系數(shù)量化步驟,所述語音編碼裝置將在所述預(yù)測系數(shù)抽樣步驟中進行了抽樣后的所述高頻線形預(yù)測系數(shù)進行量化;以及比特流復(fù)用步驟,所述語音編碼裝置生成至少復(fù)用了在所述核心編碼步驟中編碼后的所述低頻成分、和在所述預(yù)測系數(shù)量化步驟中量化后的所述高頻線形預(yù)測系數(shù)的比特流。本發(fā)明的語音解碼方法是使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息;核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;低頻時間包絡(luò)分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)調(diào)整步驟,所述語音解碼裝置利用所述時間包絡(luò)輔助信息來調(diào)整在所述低頻時間包絡(luò)分析步驟中取得的所述時間包絡(luò)信息;以及時間包絡(luò)變形步驟,所述語音解碼裝置利用在所述時間包絡(luò)調(diào)整步驟中調(diào)整后的所述時間包絡(luò)信息,使在所述高頻生成步驟中生成的所述高頻成分的時間包絡(luò)變形。本發(fā)明的語音解碼方法是使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預(yù)測系數(shù);線形預(yù)測系數(shù)內(nèi)插/外插步驟,所述語音解碼裝置在時間方向上對所述線形預(yù)測系數(shù)進行內(nèi)插或外插;以及時間包絡(luò)變形步驟,所述語音解碼裝置利用在所述線形預(yù)測系數(shù)內(nèi)插/外插步驟中進行了內(nèi)插或外插的所述線形預(yù)測系數(shù),對在頻域中表現(xiàn)的高頻成分進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形。本發(fā)明的語音編碼程序,其特征在于,為了對語音信號進行編碼,而使計算機裝置作為以下單元發(fā)揮功能核心編碼單元,其對所述語音信號的低頻成分進行編碼;時間包絡(luò)輔助信息計算單元,其利用所述語音信號的低頻成分的時間包絡(luò)來計算時間包絡(luò)輔助信息,該時間包絡(luò)輔助信息用于獲得所述語音信號的高頻成分的時間包絡(luò)的近似;以及比特流復(fù)用單元,其生成至少復(fù)用了由所述核心編碼單元編碼后的所述低頻成分、和由所述時間包絡(luò)輔助信息計算單元計算出的所述時間包絡(luò)輔助信息的比特流。本發(fā)明的語音編碼程序,其特征在于,為了對語音信號進行編碼,而使計算機裝置作為以下單元發(fā)揮功能核心編碼單元,其對所述語音信號的低頻成分進行編碼;頻率變換單元,其將所述語音信號變換到頻域;線形預(yù)測分析單元,其在頻率方向上對由所述頻率變換單元變換到頻域的所述語音信號的高頻側(cè)系數(shù)進行線形預(yù)測分析,取得高頻線形預(yù)測 系數(shù);預(yù)測系數(shù)抽樣單元,其對由所述線形預(yù)測分析單元取得的所述高頻線形預(yù)測系數(shù)在時間方向上進行抽樣;預(yù)測系數(shù)量化單元,其對由所述預(yù)測系數(shù)抽樣單元抽樣后的所述高頻線形預(yù)測系數(shù)進行量化;以及比特流復(fù)用單元,其生成至少復(fù)用了由所述核心編碼單元編碼后的所述低頻成分、和由所述預(yù)測系數(shù)量化單元量化后的所述高頻線形預(yù)測系數(shù)的比特流。本發(fā)明的語音解碼程序,其特征在于,為了對編碼后的語音信號進行解碼,而使計算機裝置作為以下單元發(fā)揮功能比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)調(diào)整單元,其利用所述時間包絡(luò)輔助信息調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息;以及時間包絡(luò)變形單元,其利用由所述時間包絡(luò)調(diào)整單元調(diào)整后的所述時間包絡(luò)信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡(luò)變形。本發(fā)明的語音解碼程序,其特征在于,為了對編碼后的語音信號進行解碼,而使計算機裝置作為以下單元發(fā)揮功能比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和線形預(yù)測系數(shù);線形預(yù)測系數(shù)內(nèi)插/外插單元,其在時間方向上對所述線形預(yù)測系數(shù)進行內(nèi)插或外插;以及時間包絡(luò)變形單元,其利用由所述線形預(yù)測系數(shù)內(nèi)插/外插單元進行了內(nèi)插或外插的線形預(yù)測系數(shù),對在頻域中表現(xiàn)的高頻成分進行頻率方向的線形預(yù)測濾波處理,使語音信號的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預(yù)測濾波處理之后,將根據(jù)所述線形預(yù)測濾波處理的結(jié)果獲得的高頻成分的功率調(diào)整為與所述線形預(yù)測濾波處理前相等的值。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)變形單元在對由所述高頻生成單元生成的頻域的所述高頻成分進行頻率方向的線形預(yù)測濾波處理之后,將根據(jù)所述線形預(yù)測濾波處理的結(jié)果獲得的高頻成分的任意頻率范圍內(nèi)的功率調(diào)整為與所述線形預(yù)測濾波處理前相等的值。
在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)輔助信息是所述調(diào)整后的所述時間包絡(luò)信息中的最小值與平均值的比率。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述時間包絡(luò)變形單元控制所述調(diào)整后的時間包絡(luò)的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,然后通過將所述頻域的高頻成分與所述增益控制后的時間包絡(luò)相乘來使高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,所述低頻時間包絡(luò)分析單元取得由所述頻率變換單元變換到頻域的所述低頻成分的每個QMF子帶采樣的功率,還利用在SBR包絡(luò)時間分段內(nèi)的平均功率對每個所述QMF子帶采樣的功率進行歸一化,由此取得表現(xiàn)為乘上了各QMF子帶采樣的增益系數(shù)的時間包絡(luò)信息。本發(fā)明的語音解碼裝置是對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)輔助信息生成部,其分析所述比特流而生成時間包絡(luò)輔助信息;時間包絡(luò)調(diào)整單元,其利用所述時間包絡(luò)輔助信息來調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息;以及時間包絡(luò)變形單元,其利用由所述時間包絡(luò)調(diào)整單元調(diào)整后的所述時間包絡(luò)信息,使由所述高頻生成單元生成的所述高頻成分的時間包絡(luò)變形。在本發(fā)明的語音解碼裝置中,優(yōu)選為,該語音解碼裝置具備相當(dāng)于所述高頻調(diào)整單元的一次高頻調(diào)整單元和二次高頻調(diào)整單元,所述一次高頻調(diào)整單元執(zhí)行包含相當(dāng)于所述高頻調(diào)整單元的處理的一部分的處理,所述時間包絡(luò)變形單元對所述一次高頻調(diào)整單元的輸出信號進行時間包絡(luò)的變形,所述二次高頻調(diào)整單元對所述時間包絡(luò)變形單元的輸出信號,執(zhí)行相當(dāng)于所述高頻調(diào)整單元的處理中的、所述一次高頻調(diào)整單元未執(zhí)行的處理。所述二次高頻調(diào)整單元優(yōu)選為SBR解碼過程中的正弦波的附加處理。本發(fā)明提供一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息;核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分;頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;高頻調(diào)整單元,其調(diào)整由所述高頻生成單元生成的所述高頻成分,生成調(diào)整后的高頻成分;低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;輔助信息變換單元,其將所述時間包絡(luò)輔助信息變換為用于調(diào)整所述時間包絡(luò)信息的參數(shù);時間包絡(luò)調(diào)整單元,其利用所述參數(shù)調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及時間包絡(luò)變形單元,其將所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。本發(fā)明提供一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換單元,其將由所述核心解碼單 元獲得的所述低頻成分變換到頻域;高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;高頻調(diào)整單元,其調(diào)整由所述高頻生成單元生成的所述高頻成分,生成調(diào)整后的高頻成分;低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)輔助信息生成部,其分析所述比特流而生成用于調(diào)整所述時間包絡(luò)信息的參數(shù);時間包絡(luò)調(diào)整單元,其利用所述參數(shù)調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及時間包絡(luò)變形單元,其將所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。本發(fā)明提供一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息;核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;高頻調(diào)整步驟,所述語音解碼裝置調(diào)整在所述高頻生成步驟中生成的所述高頻成分,生成調(diào)整后的高頻成分;低頻時間包絡(luò)分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;輔助信息變換步驟,所述語音解碼裝置將所述時間包絡(luò)輔助信息變換為用于調(diào)整所述時間包絡(luò)信息的參數(shù);時間包絡(luò)調(diào)整步驟,所述語音解碼裝置利用所述參數(shù)調(diào)整在所述低頻時間包絡(luò)分析步驟中取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及時間包絡(luò)變形步驟,所述語音解碼裝置將所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。本發(fā)明提供一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟核心解碼步驟,所述語音解碼裝置對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分;頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域;高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分;高頻調(diào)整步驟,所述語音解碼裝置調(diào)整在所述高頻生成步驟中生成的所述高頻成分,生成調(diào)整后的高頻成分;低頻時間包絡(luò)分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息;時間包絡(luò)輔助信息生成步驟,所述語音解碼裝置分析所述比特流而生成用于調(diào)整所述時間包絡(luò)信息的參數(shù);時間包絡(luò)調(diào)整步驟,所述語音解碼裝置利用所述參數(shù)調(diào)整在所述低頻時間包絡(luò)分析步驟中取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及時間包絡(luò)變形步驟,所述語音解碼裝置將所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。發(fā)明效果 根據(jù)本發(fā)明,在以SBR為代表的頻域內(nèi)的頻帶擴展技術(shù)中,能夠減輕產(chǎn)生的前回聲/后回聲并提高解碼信號的主觀質(zhì)量,而不用使比特率明顯增大。
圖I是示出第I實施方式的語音編碼裝置的結(jié)構(gòu)的圖。圖2是用于說明第I實施方式的語音編碼裝置的動作的流程圖。圖3是示出第I實施方式的語音解碼裝置的結(jié)構(gòu)的圖。圖4是用于說明第I實施方式的語音解碼裝置的動作的流程圖。圖5是示出第I實施方式的變形例I的語音編碼裝置的結(jié)構(gòu)的圖。圖6是示出第2實施方式的語音編碼裝置的結(jié)構(gòu)的圖。圖7是用于說明第2實施方式的語音編碼裝置的動作的流程圖。圖8是示出第2實施方式的語音解碼裝置的結(jié)構(gòu)的圖。圖9是用于說明第2實施方式的語音解碼裝置的動作的流程圖。圖10是示出第3實施方式的語音編碼裝置的結(jié)構(gòu)的圖。圖11是用于說明第3實施方式的語音編碼裝置的動作的流程圖。圖12是示出第3實施方式的語音解碼裝置的結(jié)構(gòu)的圖。圖13是用于說明第3實施方式的語音解碼裝置的動作的流程圖。圖14是示出第4實施方式的語音解碼裝置的結(jié)構(gòu)的圖。圖15是示出第4實施方式的變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖16是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖17是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖18是示出第I實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖19是用于說明第I實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖20是示出第I實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖21是用于說明第I實施方式的其它變形例的語音解碼裝置的動作的流程圖。
圖22是示出第2實施方式的變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖23是用于說明第2實施方式的變形例的語音解碼裝置的動作的流程圖。圖24是示出第2實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖25是用于說明第2實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖26是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖27是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖28是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖29是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。·圖30是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖31是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖32是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖33是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖34是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖35是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖36是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖37是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖38是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖39是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖40是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖41是說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖42是示出第4實施方式的其它變形例的語音解碼裝置的結(jié)構(gòu)的圖。圖43是用于說明第4實施方式的其它變形例的語音解碼裝置的動作的流程圖。圖44是示出第I實施方式的其它變形例的語音編碼裝置的結(jié)構(gòu)的圖。圖45是示出第I實施方式的其它變形例的語音編碼裝置的結(jié)構(gòu)的圖。圖46是示出第2實施方式的變形例的語音編碼裝置的結(jié)構(gòu)的圖。圖47是示出第2實施方式的其它變形例的語音編碼裝置的結(jié)構(gòu)的圖。圖48是示出第4實施方式的語音編碼裝置的結(jié)構(gòu)的圖。圖49是示出第4實施方式的變形例的語音編碼裝置的結(jié)構(gòu)的圖。圖50是示出第4實施方式的其它變形例的語音編碼裝置的結(jié)構(gòu)的圖。
具體實施例方式以下,參照附圖來詳細(xì)說明本發(fā)明的優(yōu)選實施方式。此外,在
中,在可能的情況下,對同一要素標(biāo)注同一標(biāo)號,并省略重復(fù)說明。(第I實施方式)圖I是示出第I實施方式的語音編碼裝置11的結(jié)構(gòu)的圖。語音編碼裝置11物理上具有未圖示的CPU、ROM、RAM以及通信裝置等,該CPU通過將ROM等語音編碼裝置11的內(nèi)置存儲器中存儲的預(yù)定的計算機程序(例如,用于進行圖2的流程圖所示的處理的計算機程序)加載到RAM中并運行來統(tǒng)一地控制語音編碼裝置11。語音編碼裝置11的通信裝置從外部接收作為編碼對象的語音信號,而且,將編碼后的復(fù)用比特流向外部輸出。
語音編碼裝置11在功能上具備頻率變換部Ia (頻率變換單元)、頻率逆變換部lb、核心編解碼器(core codec)編碼部Ic (核心編碼單元)、SBR編碼部Id、線形預(yù)測分析部Ie (時間包絡(luò)輔助信息計算單元)、濾波強度參數(shù)計算部If (時間包絡(luò)輔助信息計算單元)以及比特流復(fù)用部Ig (比特流復(fù)用單元)。圖I所示的語音編碼裝置11的頻率變換部Ia^比特流復(fù)用部Ig是通過語音編碼裝置11的CPU運行存儲在語音編碼裝置11的內(nèi)置存儲器中的計算機程序而實現(xiàn)的功能。語音編碼裝置11的CPU通過運行該計算機程序(利用圖I所示的頻率變換部Ia 比特流復(fù)用部Ig)來依次執(zhí)行圖2的流程圖所示處理(步驟Sar步驟Sa7的處理)。該計算機程序運行所需的各種數(shù)據(jù)以及通過運行該計算機程序生成的各種數(shù)據(jù)全部都存儲在語音編碼裝置11的ROM或RAM等內(nèi)置存儲器中。頻率變換部Ia通過多通道QMF濾波器組分析經(jīng)由語音編碼裝置11的通信裝置接收到的來自外部的輸入信號,并獲得QMF區(qū)域的信號q (k,r)(步驟Sal的處理)。其中,k(O < 63)是頻率方向的索引,r是表示時隙的索引。頻率逆變換部Ib利用QMF濾波器組來合成從頻率變換部Ia獲得的、QMF區(qū)域的信號中的低頻側(cè)的一半系數(shù),并獲得僅包含 輸入信號的低頻成分的下采樣后的時域信號(步驟Sa2的處理)。核心編解碼器編碼部Ic對下采樣后的時域信號進行編碼并獲得編碼比特流(步驟Sa3的處理)。核心編解碼器編碼部Ic中的編碼可基于以CELP方式為代表的語音編碼方式,另外還可基于以AAC為代表的轉(zhuǎn)換編碼或TCX (Transform Coded Excitation,轉(zhuǎn)換編碼激勵)方式等的音頻編碼。SBR編碼部Id從頻率變換部Ia接收QMF區(qū)域的信號,并根據(jù)高頻成分的功率/信號變化/調(diào)性等的分析進行SBR編碼,獲得SBR輔助信息(步驟Sa4的處理)。關(guān)于頻率變換部Ia中的QMF分析的方法以及SBR編碼部Id中的SBR編碼的方法,例如,在文獻“3GPPTS26. 404 ;Enhanced aacPlus encoder SBR part” 中進行詳細(xì)敘述。線形預(yù)測分析部Ie從頻率變換部Ia接收QMF區(qū)域的信號,并針對該信號的高頻成分在頻率方向上進行線形預(yù)測分析,取得高頻線形預(yù)測系數(shù)aH (n,r) (KnSN)(步驟Sa5的處理)。其中,N是線形預(yù)測次數(shù)。另外,索引r是與QMF區(qū)域的信號的子采樣有關(guān)的時間方向的索引。關(guān)于信號線形預(yù)測分析,可以采用協(xié)方差法或自相關(guān)法。針對q(k,r)中滿足kx〈k<63的高頻成分進行取得aH (n,r)時的線形預(yù)測分析。其中,kx是與利用核心編解碼器編碼部Ic進行編碼的頻譜區(qū)域的上限頻率對應(yīng)的頻率索引。另外,線形預(yù)測分析部Ie也可以針對與在取得aH(n,r)時分析的頻率不同的低頻成分進行線形預(yù)測分析,取得與aH (n,r)不同的低頻線形預(yù)測系數(shù)a (n,r)(這種與低頻成分有關(guān)的線形預(yù)測系數(shù)與時間包絡(luò)信息對應(yīng),以下,在第I實施方式中是同樣的)。在取得\ (n,r)時的線形預(yù)測分析是針對滿足O ( Kkx的低頻成分進行分析。另外,該線形預(yù)測分析可以是針對O ( Kkx區(qū)間所包含的一部分頻率區(qū)域進行分析。濾波強度參數(shù)計算部If例如采用線形預(yù)測分析部Ie所取得的線形預(yù)測系數(shù)來計算濾波強度參數(shù)(濾波強度參數(shù)與時間包絡(luò)輔助信息對應(yīng),以下,在第I實施方式中是同樣的)(步驟Sa6的處理)。首先,由aH (n,r)計算預(yù)測增益Gh (r)。預(yù)測增益的計算方法例如在“聲音符號化、守谷健弘著電子情報通信學(xué)會編(語音編碼、守谷健弘著、電子信息通信學(xué)會編)”中進行詳細(xì)敘述。此外,在計算\ (n,r)的情況下,同樣計算預(yù)測增益(r)。濾波強度參數(shù)K (r)是隨著Gh (r)變大而變大的參數(shù),例如可根據(jù)下式(I)獲得。其中,max (a, b)表不a和b的最大值,min (a, b)表不a和b的最小值。
[式I]K (r) = max (O, min (I, GH(r) -I))另外,在計算Gl (r)的情況下,K (r)可作為隨著Gh (r)變大而變大、隨著Gl Cr)變大而變小的參數(shù)取得。此時的K例如可根據(jù)下式(2)來取得。[式2]K (r) = max (O, min (I, GH(r)/GL(r)-l))K (r)是表示在SBR解碼時調(diào)整高頻成分的時間包絡(luò)的強度的參數(shù)。與頻率方向的線形預(yù)測系數(shù)相對的預(yù)測增益隨著分析區(qū)間的信號的時間包絡(luò)表現(xiàn)出急劇的變化而成為較大的值。K (r)是如下這樣的參數(shù)其值越大,越對譯碼器指示增強使SBR所生成的高 頻成分的時間包絡(luò)急劇變化的處理。此外,K (r)也可以是如下這樣的參數(shù),其值越小,則越對譯碼器(例如,語音解碼裝置21等)指示減弱使SBR所生成的高頻成分的時間包絡(luò)急劇變化的處理,該參數(shù)還可包含表示不執(zhí)行使時間包絡(luò)急劇變化的處理的值。另外,還可以不傳送各時隙的K (r),而傳送代表多個時隙的K (r)。為了決定共用同一 K (r)值的時隙的區(qū)間,優(yōu)選采用包含在SBR輔助信息中的SBR包絡(luò)的時間邊界(SBR envelope time border)信息。K (r)被量化之后被發(fā)送至比特流復(fù)用部lg。優(yōu)選在量化前針對多個時隙r取得例如K (r)的平均,由此來計算代表多個時隙的K (r)。而且,在傳送代表多個時隙的K Cr)的情況下,也可以根據(jù)由多個時隙構(gòu)成的整個區(qū)間的分析結(jié)果來取得代表的K (r),而不是像式(2)那樣根據(jù)分析各個時隙得到的結(jié)果來獨立地進行K (r)的計算。例如可根據(jù)下式
(3)來計算這種情況下的K (r)。其中,mean ( ·)表示K (r)所代表的時隙區(qū)間內(nèi)的平均值。[式3]K (r) = max (0,min (I,mean (Gh (r)/mean (Gl (r))-I)))此外,在傳送K (r)時,可與在 “IS0/IEC14496-3 subpart 4 General AudioCoding”中記載的SBR輔助信息中包含的逆濾波模式信息相互排斥地傳送。即,對于傳送SBR輔助信息的逆濾波模式信息的時隙,不傳送K (r),而對于傳送K (r)的時隙,不傳送SBR 輔助信息的逆濾波模式信息(“IS0/IEC14496_3subpart4General Audio Coding” 中的bs#invf#mode)0此外,也可以附加表示已傳送K (r)或SBR輔助信息中包含的逆濾波模式信息的哪一個的信息。另外,還可以將K (r)與SBR輔助信息中包含的逆濾波模式信息組合作為一個矢量信息使用,并對該矢量進行熵編碼。此時,可以對K (r)與SBR輔助信息中包含的逆濾波模式信息之間的值的組合進行制約。比特流復(fù)用部Ig對由核心編解碼器編碼部Ic計算出的編碼比特流、由SBR編碼部Id計算出的SBR輔助信息和由濾波強度參數(shù)計算部If計算出的K Cr)進行復(fù)用,并經(jīng)由語音編碼裝置11的通信裝置輸出復(fù)用比特流(編碼后的復(fù)用比特流)(步驟Sa7的處理)。圖3是示出第I實施方式的語音解碼裝置21的結(jié)構(gòu)的圖。語音解碼裝置21物理上具有未圖示的CPU、ROM、RAM以及通信裝置等,該CPU通過將ROM等語音解碼裝置21的內(nèi)置存儲器中存儲的預(yù)定的計算機程序(例如,用于進行圖4的流程圖所示的處理的計算機程序)加載到RAM中并運行來統(tǒng)一地控制語音解碼裝置21。語音解碼裝置21的通信裝置接收從語音編碼裝置11、后述變形例I的語音編碼裝置Ila或后述變形例2的語音編碼裝置輸出的編碼后的復(fù)用比特流,而且,向外部輸出已解碼的語音信號。如圖3所示,語音解碼裝置21在功能上具備比特流分離部2a (比特流分離單元)、核心編解碼器解碼部2b(核心解碼單元)、頻率變換部2c(頻率變換單元)、低頻線形預(yù)測分析部2d(低頻時間包絡(luò)分析單元)、信號變化檢測部2e、濾波強度調(diào)整部2f (時間包絡(luò)調(diào)整單元)、高頻生成部2g (高頻生成單元)、高頻線形預(yù)測分析部2h、線形預(yù)測逆濾波部2i、高頻調(diào)整部2j (高頻調(diào)整單元)、線形預(yù)測濾波部2k (時間包絡(luò)變形單元)、系數(shù)相加部2m以及頻率逆變換部2n。圖3所示的語音解碼裝置21的比特流分離部2a 頻率逆變換部2n是通過語音解碼裝置21的(PU執(zhí)行語音解碼裝置21的內(nèi)置存儲器中存儲的計算機程序來實現(xiàn)的功能。語音解碼裝置21的CPU通過執(zhí)行該計算機程序(利用圖3所示的比特流分離部2a 頻率逆變換部2n),依次執(zhí)行圖4的流程圖所示的處理(步驟Sbf步驟Sbll的處理)。運行該計算機程序所需的各種數(shù)據(jù)以及運行該計算機程序所生成的各種數(shù)據(jù)全部存儲在語音解碼裝置21的ROM或RAM等內(nèi)置存儲器中。比特流分離部2a經(jīng)由語音解碼裝置21的通信裝置將輸入的復(fù)用比特流分離為濾 波強度參數(shù)、SBR輔助信息和編碼比特流。核心編解碼器解碼部2b對從比特流分離部2a輸出的編碼比特流進行解碼,獲得僅包含低頻成分的解碼信號(步驟Sbl的處理)。此時,解碼的方式可以基于以CELP方式為代表的語音編碼方式,也可以基于AAC或TCX (TransformCoded Excitation)方式等的音頻編碼。頻率變換部2c通過多通道QMF濾波器組分析從核心編解碼器解碼部2b輸出的解碼信號,獲得QMF區(qū)域的信號qde。(k,r)(步驟Sb2的處理)。其中,k (O彡k彡63)是頻率方向的索引,r是表不與QMF區(qū)域信號的子米樣有關(guān)的時間方向索引的索引。低頻線形預(yù)測分析部2d針對各個時隙r在頻率方向?qū)念l率變換部2c獲得的Qdec (k,r)進行線形預(yù)測分析,取得低頻線形預(yù)測系數(shù)ade。(n,r)(步驟Sb3的處理)。在與從核心編解碼器解碼部2b獲得的解碼信號的信號頻帶對應(yīng)的O ( Kkx的范圍中進行線形 預(yù)測分析。此外,該線形預(yù)測分析可以是針對O < Kkx區(qū)間中包含的一部分頻域進行分析。信號變化檢測部2e檢測從頻率變換部2c獲得的QMF區(qū)域的信號的時間變化,并作為檢測結(jié)果T (r)輸出。例如可利用以下所示的方法進行信號變化的檢測。I.利用下式(4)取得時隙r中的信號的短時功率P (r)。[式4]
權(quán)利要求
1.一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備 比特流分離單元,其將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息; 核心解碼單元,其對所述比特流分離單元分離出的所述編碼比特流進行解碼,獲得低頻成分; 頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域; 高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分; 高頻調(diào)整單元,其調(diào)整由所述高頻生成單元生成的所述高頻成分,生成調(diào)整后的高頻成分; 低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò) 目息; 輔助信息變換單元,其將所述時間包絡(luò)輔助信息變換為用于調(diào)整所述時間包絡(luò)信息的參數(shù); 時間包絡(luò)調(diào)整單元,其利用所述參數(shù)調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及 時間包絡(luò)變形單元,其對所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。
2.一種對編碼后的語音信號進行解碼的語音解碼裝置,該語音解碼裝置的特征在于,具備 核心解碼單元,其對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分; 頻率變換單元,其將由所述核心解碼單元獲得的所述低頻成分變換到頻域; 高頻生成單元,其通過將由所述頻率變換單元變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分; 高頻調(diào)整單元,其調(diào)整由所述高頻生成單元生成的所述高頻成分,生成調(diào)整后的高頻成分; 低頻時間包絡(luò)分析單元,其對由所述頻率變換單元變換到頻域的所述低頻成分進行分析,取得時間包絡(luò) 目息; 時間包絡(luò)輔助信息生成部,其分析所述比特流而生成用于調(diào)整所述時間包絡(luò)信息的參數(shù); 時間包絡(luò)調(diào)整單元,其利用所述參數(shù)調(diào)整由所述低頻時間包絡(luò)分析單元取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述 頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及 時間包絡(luò)變形單元,其對所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。
3.一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟 比特流分離步驟,所述語音解碼裝置將包含所述編碼后的語音信號的來自外部的比特流分離為編碼比特流和時間包絡(luò)輔助信息; 核心解碼步驟,所述語音解碼裝置對在所述比特流分離步驟中分離出的所述編碼比特流進行解碼而獲得低頻成分; 頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域; 高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分; 高頻調(diào)整步驟,所述語音解碼裝置調(diào)整在所述高頻生成步驟中生成的所述高頻成分,生成調(diào)整后的高頻成分; 低頻時間包絡(luò)分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息; 輔助信息變換步驟,所述語音解碼裝置將所述時間包絡(luò)輔助信息變換為用于調(diào)整所述時間包絡(luò)信息的參數(shù); 時間包絡(luò)調(diào)整步驟,所述語音解碼裝置利用所述參數(shù)調(diào)整在所述低頻時間包絡(luò)分析步驟中取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及 時間包絡(luò)變形步驟,所述語音解碼裝置對所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。
4.一種使用了語音解碼裝置的語音解碼方法,該語音解碼裝置對編碼后的語音信號進行解碼,所述語音解碼方法的特征在于,具有以下的步驟 核心解碼步驟,所述語音解碼裝置對包含所述編碼后的語音信號的來自外部的比特流進行解碼而獲得低頻成分; 頻率變換步驟,所述語音解碼裝置將在所述核心解碼步驟中獲得的所述低頻成分變換到頻域; 高頻生成步驟,所述語音解碼裝置通過將在所述頻率變換步驟中變換到頻域的所述低頻成分從低頻頻帶復(fù)寫到高頻頻帶來生成高頻成分; 高頻調(diào)整步驟,所述語音解碼裝置調(diào)整在所述高頻生成步驟中生成的所述高頻成分,生成調(diào)整后的高頻成分; 低頻時間包絡(luò)分析步驟,所述語音解碼裝置對在所述頻率變換步驟中變換到頻域的所述低頻成分進行分析,取得時間包絡(luò)信息; 時間包絡(luò)輔助信息生成步驟,所述語音解碼裝置分析所述比特流而生成用于調(diào)整所述時間包絡(luò)信息的參數(shù); 時間包絡(luò)調(diào)整步驟,所述語音解碼裝置利用所述參數(shù)調(diào)整在所述低頻時間包絡(luò)分析步驟中取得的所述時間包絡(luò)信息,生成調(diào)整后的時間包絡(luò)信息,控制該調(diào)整后的時間包絡(luò)信息的增益,使得所述頻域的高頻成分的SBR包絡(luò)時間分段內(nèi)的功率在時間包絡(luò)變形之前與之后相等,生成進一步調(diào)整后的時間包絡(luò)信息;以及 時間包絡(luò)變形步驟,所述語音解碼裝置對所述調(diào)整后的高頻成分乘以所述進一步調(diào)整后的時間包絡(luò)信息,使所述調(diào)整后的高頻成分的時間包絡(luò)變形。
全文摘要
本發(fā)明涉及語音解碼裝置及語音解碼方法。針對頻域中表現(xiàn)的信號,利用協(xié)方差法或自相關(guān)法在頻率方向上進行線形預(yù)測分析,求出線形預(yù)測系數(shù),進而對求出的線形預(yù)測系數(shù)進行濾波強度的調(diào)整,然后利用調(diào)整后的系數(shù)在頻率方向上進行濾波處理,由此使信號的時間包絡(luò)變形。從而在以SBR為代表的頻域中的頻帶擴展技術(shù)中,能夠減輕所產(chǎn)生的前回聲/后回聲,提高解碼信號的主觀性質(zhì)量而不使比特率顯著增大。
文檔編號G10L21/02GK102779521SQ201210240328
公開日2012年11月14日 申請日期2010年4月2日 優(yōu)先權(quán)日2009年4月3日
發(fā)明者仲信彥, 菊入圭, 辻野孝輔 申請人:株式會社Ntt都科摩