專利名稱:編碼裝置和編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對語音信號等的輸入信號進(jìn)行編碼并傳輸?shù)耐ㄐ畔到y(tǒng)所使用 的編碼裝置和編碼方法。
背景技術(shù):
在移動通信系統(tǒng)中,為了有效利用電波資源等,要求將語音信號壓縮到 低比特率后傳輸。另一方面,還期望提高通話語音的質(zhì)量及實現(xiàn)較高的現(xiàn)場 感的通話服務(wù),為了實現(xiàn)該需求,既期望提高語音信號的質(zhì)量,又期望高質(zhì) 量地對頻帶更寬的音頻信號等語音信號以外的信號進(jìn)行編碼。
對于這樣相反的兩種要求,分層地合并多個編碼技術(shù)的技術(shù)備受關(guān)注。 該技術(shù)分層組合基本層和擴(kuò)展層,所述基本層通過適合于語音信號的模型
(model)以低比特率對輸入信號進(jìn)行編碼,所述擴(kuò)展層通過也適合于語音以外 的信號的模型對輸入信號與基本層的解碼信號之間的差分信號進(jìn)行編碼。這 樣分層地進(jìn)行編碼的技術(shù),由于從編碼裝置得到的比特流具有擴(kuò)展性 (scalability),即具有即使通過比特流的一部分信息也能夠得到解碼信號的性 質(zhì),因此一般被稱為可擴(kuò)展編碼(分層編碼)。
根據(jù)該性質(zhì),可擴(kuò)展編碼方式能夠靈活地應(yīng)對比特率不同的網(wǎng)絡(luò)間的通 信,因此可以說該方式適合于以IP(InternetProtocol,因特網(wǎng)協(xié)議)合并各種各 樣的網(wǎng)絡(luò)的、今后的網(wǎng)絡(luò)環(huán)境。
作為利用以MPEG-4(Moving Picture Experts Group phase(運動圖4象專家 組)-4)進(jìn)行標(biāo)準(zhǔn)化的技術(shù)來實現(xiàn)可擴(kuò)展編碼的例子,例如有非專利文獻(xiàn)1所公 開的技術(shù)。該技術(shù)在基本層中,利用適合于語音信號的CELP(Code Excited Linear Prediction,碼激勵線性預(yù)測)編碼,在擴(kuò)展層中,對殘差信號利用諸如 AAC(Advanced Audio Coder,高級音頻編碼器)或者TwinVQ(Transform Domain Weighted Interleave Vector Quantization,傳豐敘;或力口4又交織向量量4t)等 的變換編碼,所述殘差信號是從原信號減去第一層解碼信號而得到的信號。
另夕卜,為了靈活地應(yīng)對通信速度因異構(gòu)網(wǎng)絡(luò)(heterogeneous network)間切換(handover)或擁塞的發(fā)生等動態(tài)地變動的網(wǎng)絡(luò)環(huán)境,需要實現(xiàn)比特率間隔較 小的可擴(kuò)展編碼,因此需要對降低了比特率的層進(jìn)行多層化處理而構(gòu)成可擴(kuò) 展編碼。
另一方面,在專利文獻(xiàn)1和專利文獻(xiàn)2中公開了以下技術(shù)將作為編碼 對象的信號變換到頻域,在由此得到的頻域信號中進(jìn)行編碼的變換編碼。在 這樣的變換編碼中,首先對每個子帶計算并量化頻域信號的能量分量即增益 (縮放因子,scale factor),接著計算并量化上述頻域信號的微細(xì)分量即形狀向量。
非專利文獻(xiàn)l:三木弼一編著,《MPEG-4 0t^^》第一版、株式會社 工業(yè)調(diào)查會、1998年9月30日、p.126-127
專利文獻(xiàn)1:日本專利申請?zhí)乇淼?006-513457號公報 專利文獻(xiàn)2:日本專利申請?zhí)亻_平7-261800號公報
發(fā)明內(nèi)容
發(fā)明需要解決的問題
然而,在對兩個參數(shù)依前后的順序進(jìn)行量化時,因為在后量化的參數(shù)受 到在前量化的參數(shù)的量化失真的影響,所以存在量化失真變大的傾向。因此, 在專利文獻(xiàn)1和專利文獻(xiàn)2所記載的依增益、形狀向量的順序進(jìn)行量化的變 換編碼中,存在形狀向量的量化失真變大,從而無法正確地表示頻譜的形狀 的傾向。該問題對如元音(vowel sound)那樣的調(diào)性(tonality)較強的信號即可觀 察到多個波峰(peak)形狀的頻譜特性的信號,產(chǎn)生較大的質(zhì)量劣化。該問題在 實現(xiàn)低比特率時變得顯著。
本發(fā)明的目的在于,提供能夠正確地對如元音那樣的調(diào)性較強的信號即 可觀察到多個波峰形狀的頻鐠特性的信號的頻語的形狀進(jìn)行編碼,從而能夠 提高解碼語音的音質(zhì)等解碼信號的質(zhì)量的編碼裝置和編碼方法。
解決問題的方案
本發(fā)明的編碼裝置所采用的結(jié)構(gòu)包括基本層編碼單元,對輸入信號進(jìn) 行編碼而獲得基本層編碼數(shù)據(jù);基本層解碼單元,對所述基本層編碼數(shù)據(jù)進(jìn) 行解碼而獲得基本層解碼信號;以及擴(kuò)展層編碼單元,對作為所述輸入信號 與所述基本層解碼信號之間的差的殘差信號進(jìn)行編碼而獲得擴(kuò)展層編碼數(shù) 據(jù),所述擴(kuò)展層編碼單元包括分割單元,將所述殘差信號分割為多個子帶;第一形狀向量編碼單元,對所述多個子帶的各個子帶進(jìn)行編碼而獲得第一形
狀編碼信息,并且計算所述多個子帶的各個子帶的目標(biāo)增益;增益向量構(gòu)成 單元,利用所述多個目標(biāo)增益構(gòu)成一個增益向量;以及增益向量編碼單元, 對所述增益向量進(jìn)行編碼而獲得第一增益編碼信息。
本發(fā)明的編碼方法包括以下的步驟將變換系數(shù)分割為多個子帶,所述 變換系數(shù)是將輸入信號變換到頻域而獲得的變換系數(shù);對所述多個子帶的變 換系數(shù)的各個變換系數(shù)進(jìn)行編碼而獲得第一形狀編碼信息,并且計算所述多 個子帶的各個變換系數(shù)的目標(biāo)增益;利用所述多個目標(biāo)增益構(gòu)成一個增益向 量;以及對所述增益向量進(jìn)行編碼而獲得第一增益編碼信息。
發(fā)明的效果
根據(jù)本發(fā)明,能夠進(jìn)一步正確地對如元音那樣的調(diào)性較強的信號即可觀 察到多個波峰形狀的頻語特性的信號的頻鐠的形狀進(jìn)行編碼,從而能夠4是高 解碼語音的音質(zhì)等解碼信號的質(zhì)量。
圖1是表示本發(fā)明實施方式1的語音編碼裝置的主要結(jié)構(gòu)的方框圖。 圖2是表示本發(fā)明實施方式1的第二層編碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖3是表示本發(fā)明實施方式1的第二層編碼單元中的第二層編碼處理的 步驟的流程圖。
圖4是表示本發(fā)明實施方式1的形狀向量編碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖5是表示本發(fā)明實施方式1的增益向量構(gòu)成單元內(nèi)部的結(jié)構(gòu)的方框圖。 西6是用于詳細(xì)地說明本發(fā)明實施方式1的目標(biāo)增益配置單元的動作的圖。
圖7是表示本發(fā)明實施方式1的增益向量編碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖8是表示本發(fā)明實施方式1的語音解碼裝置的主要結(jié)構(gòu)的方框圖。 圖9是表示本發(fā)明實施方式1的第二層解碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖10是用于說明本發(fā)明實施方式2的形狀向量碼本的圖。 圖11是舉例說明本發(fā)明實施方式2的形狀向量碼本所包含的多個形狀向 量候補的圖。
圖12是表示本發(fā)明實施方式3的第二層編碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖13是用于說明本發(fā)明實施方式3的范圍選擇單元中的范圍選擇處理的圖。
圖14是表示本發(fā)明實施方式3的第二層解碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖15是表示本發(fā)明實施方式3的范圍選擇單元的變化(variation)的圖。 圖16是表示本發(fā)明實施方式3的范圍選擇單元中的范圍選擇方法的變化 的圖。
圖17是表示本發(fā)明實施方式3的范圍選擇單元的結(jié)構(gòu)的變化的方框圖。 圖18是舉例說明本發(fā)明實施方式3的、在范圍信息構(gòu)成單元中構(gòu)成范圍 信息的情形的圖。
圖19是用于說明本發(fā)明實施方式3的第一層誤差變換系數(shù)生成單元的變 化的動作的圖。
圖20是表示本發(fā)明實施方式3的范圍選擇單元中的范圍選擇方法的變化 的圖。
圖21是表示本發(fā)明實施方式3的范圍選擇單元中的范圍選擇方法的變化
的圖'。
圖22是表示本發(fā)明實施方式4的第二層編碼單元內(nèi)部的結(jié)構(gòu)的方框圖。 圖23是表示本發(fā)明實施方式5的語音編碼裝置的主要結(jié)構(gòu)的方框圖。 圖24是表示本發(fā)明實施方式5的第一層編碼單元內(nèi)部的主要結(jié)構(gòu)的方框圖。
圖25是表示本發(fā)明實施方式5的第一層解碼單元內(nèi)部的主要結(jié)構(gòu)的方框圖。
圖26是表示本發(fā)明實施方式5的語音解碼裝置的主要結(jié)構(gòu)的方框圖。 圖27是表示本發(fā)明實施方式6的語音編碼裝置的主要結(jié)構(gòu)的方框圖。 圖28是表示本發(fā)明實施方式6的語音解碼裝置的主要結(jié)構(gòu)的方框圖。 圖29是表示本發(fā)明實施方式7的語音編碼裝置的主要結(jié)構(gòu)的方框圖。 圖30A 圖30C是用于說明在本發(fā)明實施方式7的語音編碼裝置的編碼
處理中、作為編碼對象的范圍的選擇處理的圖。
圖31是表示本發(fā)明實施方式7的語音解碼裝置的主要結(jié)構(gòu)的方框圖。 圖32A、圖32B是用于說明在本發(fā)明實施方式7的語音編碼裝置的編碼
處理中、從等間隔地配置的范圍的候補中選擇編碼對象的情況的圖
圖33是用于說明在本發(fā)明實施方式7的語音編碼裝置的編碼處理中、從
等間隔地配置的范圍的候補中選擇編碼對象的情況的圖。
具體實施例方式
下面,參照附圖詳細(xì)地說明本發(fā)明的實施方式。下面,使用語音編碼裝 置/語音解碼裝置作為本發(fā)明的編碼裝置/解碼裝置的例子進(jìn)行說明。 (實施方式1 )
圖1是表示本發(fā)明實施方式1的語音編碼裝置100的主要結(jié)構(gòu)的方框圖。
作為本實施方式的語音編碼裝置和語音解碼裝置的結(jié)構(gòu),以采用兩層的可擴(kuò) 展結(jié)構(gòu)為例進(jìn)行說明。另外,第一層構(gòu)成基本層,第二層構(gòu)成擴(kuò)展層。
在圖1中,語音編碼裝置100包括頻域變換單元101、第一層編碼單 元102、第一層解碼單元103、減法器104、第二層編碼單元105、以及復(fù)用 單元106。
頻域變換單元101將時域的輸入信號變換到頻域的信號,并將所獲得的 輸入變換系數(shù)輸出到第一層編碼單元102和減法器104。
第一層編碼單元102對由頻域變換單元101輸入的輸入變換系數(shù)進(jìn)行編 碼處理,并將所獲得的第一層編碼數(shù)據(jù)輸出到第一層解碼單元103和復(fù)用單 元106。
第一層解碼單元103利用由第一層編碼單元102輸入的第一層編碼數(shù)據(jù) 進(jìn)行解碼處理,并將所獲得的第一層解碼變換系數(shù)輸出到減法器104。
減法器104從由頻域變換單元101輸入的輸入變換系數(shù)減去由第一層解 碼單元103輸入的第一層解碼變換系數(shù),并將所獲得的第一層誤差變換泉數(shù) 輸出到第二層編碼單元105。
第二層編碼單元105對由減法器104輸入的第一層誤差變換系數(shù)進(jìn)行編 碼處理,并將所獲得的第二層編碼數(shù)據(jù)輸出到復(fù)用單元106。另外,將在后 面敘述第二層編碼單元105的細(xì)節(jié)。
復(fù)用單元106將由第一層編碼單元102輸入的第一層編碼數(shù)據(jù)與由第二 層編碼單元105輸入的第二層編碼數(shù)據(jù)復(fù)用,并將所獲得的比特流輸出到通 信路徑。
圖2是表示第二層編碼單元105內(nèi)部的結(jié)構(gòu)的方框圖。
在圖2中,第二層編碼單元105包括子帶構(gòu)成單元151、形狀向量編
碼單元152、增益向量構(gòu)成單元153、增益向量編碼單元154、以及復(fù)用單元
155。子帶構(gòu)成單元151將由減法器104輸入的第一層誤差變換系數(shù)分割為M
個子帶,并將所獲得的M個子帶變換系數(shù)輸出到形狀向量編碼單元152。這
里,在將第一層誤差變換系數(shù)表示為e,(k)時,第m(0《m《M-l)子帶變換系
數(shù)e(m, k)由下式(l)表示。 eO,A:)-e!(A: + F(m))
(0《A:〈F(m + l) — F(m)) …
在式(l)中,F(xiàn)(m)表示各個子帶邊界的頻率,滿足(KF(0)〈F(1)〈…〈F(M) 《FH的關(guān)系。這里,F(xiàn)H表示第一層誤差變換系數(shù)的最大頻率,m取0《m <M-1的整數(shù)。
形狀向量編碼單元152對由子帶構(gòu)成單元151依序輸入的M個子帶變換 系數(shù)的各個系數(shù)進(jìn)行形狀向量量化,以生成M個子帶的各個形狀編碼信息, 并且計算M個子帶變換系數(shù)各自的目標(biāo)增益。形狀向量編碼單元152將所生 成的形狀編碼信息輸出到復(fù)用單元155,并將目標(biāo)增益輸出到增益向量構(gòu)成 單元153。另外,將在后面敘述形狀向量編碼單元152的細(xì)節(jié)。
增益向量構(gòu)成單元153以由形狀向量編碼單元152輸入的M個目標(biāo)增益 構(gòu)成一個增益向量,并將其輸出到增益向量編碼單元154。另外,將在后面 敘述增益向量構(gòu)成單元153的細(xì)節(jié)。
增益向量編碼單元154將由增益向量構(gòu)成單元153輸入的增益向量作為 目標(biāo)值而進(jìn)行向量量化,并將所獲得的增益編碼信息輸出到復(fù)用單元155。 另外,將在后面敘述增益向量編碼單元154的細(xì)節(jié)。
復(fù)用單元155將由形狀向量編碼單元152輸入的形狀編碼信息與由增益 向量編碼單元154輸入的增益編碼信息復(fù)用,并將所獲得的比特流作為第二 層編碼數(shù)據(jù)輸出到復(fù)用單元106。
圖3是表示第二層編碼單元105中的第二層編碼處理的步驟的流程圖。
首先,在步驟(以下,略稱為"ST" )1010中,子帶構(gòu)成單元151將第一 層誤差變換系數(shù)分割為M個子帶,構(gòu)成M個子帶變換系數(shù)。
接著,在ST1020中,第二層編碼單元105將作為用于計數(shù)子帶的數(shù)目 的值的、子帶計數(shù)值m初始化為"0"。
接著,在ST1030中,形狀向量編碼單元152對第m子帶變換系數(shù)進(jìn)行 形狀向量編碼,生成第m子帶的形狀編碼信息,并且生成第m子帶變換系數(shù) 的目標(biāo)增益。接著,在ST1040中,第二層編碼單元105將子帶計數(shù)值m增值1。 接著,在ST1050中,第二層編碼單元105判定是否為m<M。 在ST1050中,在判定為m<M時(ST1050:"是"),第二層編碼單元105 使處理步驟返回到ST1030。
另 一方面,在ST1050中,在判定不為m<M時(ST1050:"否,,),在ST1060 中,增益向量構(gòu)成單元153利用M個目標(biāo)增益構(gòu)成一個增益向量。
接著,在ST1070中,增益向量編碼單元154將由增益向量構(gòu)成單元153 構(gòu)成的增益向量作為目標(biāo)值進(jìn)行量化,生成增益編碼信息。
接著,在ST1080中,復(fù)用單元155將由形狀向量編碼單元152生成的 形狀編碼信息與由增益向量編碼單元154生成的增益編碼信息復(fù)用。 圖4是表示形狀向量編碼單元152內(nèi)部的結(jié)構(gòu)的方框圖。 在圖4中,形狀向量編碼單元152包:l舌形狀向量碼本521、互相關(guān)計 算單元522、自相關(guān)計算單元523、搜索單元524、以及目標(biāo)增益計算單元525。 形狀向量碼本521存儲了多個表示第一層誤差變換系數(shù)的形狀的形狀向 量候補,基于由搜索單元524輸入的控制信號,將形狀向量候補依序輸出到 互相關(guān)計算單元522和自相關(guān)計算單元523。另外, 一般而言,形狀向量碼 本既有采用實際地確保存儲區(qū)域來存儲形狀向量候補的形態(tài)的情況,也有根 據(jù)預(yù)先規(guī)定的處理步驟構(gòu)成形狀向量候補的情況。在后者的情況下,無需實 際地確保存儲區(qū)域。在本實施方式中采用哪種形狀向量碼本都可以,但下面 以具有如圖4所示的、存儲有形狀向量候補的形狀向量碼本521為前提進(jìn)行 說明。以下,將形狀向量碼本521所存儲的多個形狀向量候補中的第i候補 表示為c(i,k)。這里,k表示用于構(gòu)成形狀向量候補的多個元素中的第k個。
帶變換系數(shù)與由形狀向量碼本5;1輸:的第i形狀向量候補之間的:相關(guān) ccor(i),并將其輸出到搜索單元524和目標(biāo)增益計算單元525。<formula>formula see original document page 11</formula> …(2)
自相關(guān)計算單元523根據(jù)下式(3),計算由形狀向量碼本521輸入的形狀 向量候補c(i,k)之間的自相關(guān)acor(i),并將其輸出到搜索單元524和目標(biāo)增益 計算單元525。<formula>formula see original document page 12</formula>
搜索單元524利用由互相關(guān)計算單元522輸入的互相關(guān)ccor(i)以及由自 相關(guān)計算單元523輸入的自相關(guān)acor(i),計算由下式(4)表示的貢獻(xiàn)度A,并 直至搜索到貢獻(xiàn)度A的最大值為止,都將控制信號輸出到形狀向量碼本521。 搜索單元524將貢獻(xiàn)度A是最大時的形狀向量候補的索引i豐作為最優(yōu)索引 輸出到目標(biāo)增益計算單元525,并且將其作為形狀編碼信息輸出到復(fù)用單元 155。
^f^ffi!…(4)
目標(biāo)增益計算單元525利用由互相關(guān)計算單元522輸入的互相關(guān)ccor(i)、 由自相關(guān)計算單元523輸入的自相關(guān)acor(i)以及由搜索單元524輸入的最優(yōu) 索引i。pt,根據(jù)下式(5)計算目標(biāo)增益,并將其輸出到增益向量構(gòu)成單元153。
—=-…(5)
圖5是表示增益向量構(gòu)成單元153的內(nèi)部結(jié)構(gòu)的方框圖。
在圖5中,增益向量構(gòu)成單元153包括配置位置決定單元531和目標(biāo)
增益配置單元532。
配置位置決定單元531具備初始值是"0"的計數(shù)器,在每次從形狀向量
編碼單元152輸入目標(biāo)增益時,將計數(shù)器的值增值1,在計數(shù)器的值成為子
帶的總數(shù)M時,將計數(shù)器的值重新設(shè)定為零。這里,M也是由增益向量構(gòu)成
單元153構(gòu)成的增益向量的向量長度,配置位置決定單元531所具備的計數(shù)
器的處理相當(dāng)于將計數(shù)器的值除以增益向量的向量長度而求余數(shù)。也就是說,
計數(shù)器的值是"0" ~M-1的整數(shù)。配置位置決定單元531在計軟器的值每次
被更新時,將更新后的計數(shù)器的值輸出到目標(biāo)增益配置單元532作為配置信 自
目標(biāo)增益配置單元532包括初始值分別是"0"的M個緩沖器,以及 將由形狀向量編碼單元152輸入的目標(biāo)增益配置在各個緩沖器中的開關(guān),該 開關(guān)將由形狀向量編碼單元152輸入的目標(biāo)增益配置在以由配置位置決定單 元531輸入的配置信息所示的值作為序號的緩沖器中。圖6是用于詳細(xì)地說明目標(biāo)增益配置單元532的動作的圖。 在圖6中,在輸入開關(guān)的配置信息是"0"時,目標(biāo)增益配置在第0緩沖 器中,而在配置信息是M-1時,目標(biāo)增益配置在第M-l緩沖器中。在目標(biāo) 增益配置在所有的緩沖器中時,目標(biāo)增益配置單元532將由配置在M個緩沖 器中的目標(biāo)增益構(gòu)成的增益向量輸出到增益向量編碼單元154。 圖7是表示增益向量編碼單元154內(nèi)部的結(jié)構(gòu)的方框圖。 在圖7中,增益向量編碼單元154包括增益向量碼本541、誤差計算 單元542、以及搜索單元543。
增益向量碼本541存儲了多個表示增益向量的增益向量候補,并基于由 搜索單元543輸入的控制信號,將增益向量候補依序輸出到誤差計算單元 542。 一般而言,增益向量碼本既有采用實際地確保存儲區(qū)域來存儲增益向量 候補的形態(tài)的情況,也有根據(jù)預(yù)先規(guī)定的處理步驟構(gòu)成增益向量候補的情況。 在后者的情況下,無需實際地確保存儲區(qū)域。在本實施方式中采用哪種增益 向量碼本都可以,但下面以具有如圖7所示的、存儲有增益向量候補的增益 向量碼本541為前提進(jìn)行說明。以下,將增益向量碼本541所存儲的多個增 益向量候補中的第j候補表示為g(j,m)。這里,m表示用于構(gòu)成增益向量候補 的M個元素中的第m個。
誤差計算單元542利用由增益向量構(gòu)成單元153輸入的增益向量、以及 由增益向量碼本541輸入的增益向量候補,根據(jù)下式(6)計算誤差E(j),并將 其輸出到搜索單元543。
約.)=S (—) - w))2…(6)
在式(6)中,m表示子帶的序號,gv(m)表示由增益向量構(gòu)成單元153輸 入的增益向量。
直至搜索到由誤差計算單元542輸入的誤差E(j)的最小值為止,搜索單 元543都將控制信號輸出到增益向量碼本541,搜索誤差E(j)最小時的增益向 量候補的索引j。pt,并將其作為增益編碼信息輸出到復(fù)用單元155。
圖8是表示本實施方式的語音解碼裝置200的主要結(jié)構(gòu)的方框圖。 在圖8中,語音解碼裝置200包括分離單元201、第一層解碼單元202、 第二層解碼單元203、加法器204、切換單元205、時域變換單元206、以及 后置濾波器207。分離單元201將由語音編碼裝置100經(jīng)由通信路徑傳輸?shù)谋忍亓鞣蛛x為 第一層編碼數(shù)據(jù)和第二層編碼數(shù)據(jù),并將第一層編碼數(shù)據(jù)輸出到第一層解碼 單元202,將第二層編碼數(shù)據(jù)輸出到第二層解碼單元203。但是,根據(jù)通信路 徑的狀況(發(fā)生擁塞等),存在以下的情況,即編碼lt據(jù)的一部分丟失,例如第 二層編碼數(shù)據(jù)丟失,或者包含第一層編碼數(shù)據(jù)和第二層編碼數(shù)據(jù)的編碼數(shù)據(jù) 全部丟失。因此,分離單元201判定在接收到的編碼數(shù)據(jù)中僅包含第一層編 碼數(shù)據(jù)還是包含第 一層編碼數(shù)據(jù)和第二層編碼數(shù)據(jù)的兩種數(shù)據(jù),在前者的情 況下,將"1"作為層信息輸出到切換單元205,而在后者的情況下,將"2" 作為層信息輸出到切換單元205。另外,在分離單元201判定為包含第一層 編碼數(shù)據(jù)和第二層編碼數(shù)據(jù)的編碼數(shù)據(jù)全部丟失時,進(jìn)行規(guī)定的補償處理而 生成第 一層編碼數(shù)據(jù)和第二層編碼數(shù)據(jù),將其分別輸出到第 一層解碼單元202 和第二層解碼單元203,并將"2"作為層信息輸出到切換單元205。
第一層解碼單元202利用由分離單元201輸入的第一層編碼數(shù)據(jù)進(jìn)行解 碼處理,并將所獲得的第一層解碼變換系數(shù)輸出到加法器204和切換單元
205。
第二層解碼單元203利用由分離單元201輸入的第二層編碼數(shù)據(jù)進(jìn)行解 碼處理,并將所獲得的第一層誤差變換系數(shù)輸出到加法器204。
加法器204將由第一層解碼單元202輸入的第一層解碼變換系數(shù)和由第 二層解碼單元203輸入的第一層誤差變換系數(shù)相加,并將所獲得的第二層解 碼變換系數(shù)輸出到切換單元205 。
在由分離單元201輸入的層信息是"1"時,切換單元205將第一層解碼 變換系數(shù)作為解碼變換系數(shù)輸出到時域變換單元206,而在層信息是"2"時, 切換單元205將第二層解碼變換系數(shù)作為解碼變換系數(shù)輸出到時域變換單元
206。
時域變換單元206將由切換單元205輸入的解碼變換系數(shù)變換到時域的 信號,并將所獲得的解碼信號輸出到后置濾波器207。
后置濾波器207對由時域變換單元206輸入的解碼信號,進(jìn)行共振峰增 強、基音增強以及頻譜斜率調(diào)整等的后置濾波處理后,將其輸出作為解碼語 音。
圖9是表示第二層解碼單元203內(nèi)部的結(jié)構(gòu)的方框圖。
在圖9中,第二層解碼單元203包括分離單元231、形狀向量碼本232、增益向量碼本233、以及第一層誤差變換系數(shù)生成單元234。
分離單元231將由分離單元201輸入的第二層編碼數(shù)據(jù)進(jìn)一步分離為形 狀編碼信息和增益編碼信息,并將形狀編碼信息輸出到形狀向量碼本232, 將增益編碼信息輸出到增益向量碼本233。
形狀向量碼本232具有與圖4的形狀向量碼本521所具有的多個形狀向 量候補同樣的形狀向量候補,并將由分離單元231輸入的形狀編碼信息所示 的形狀向量候補輸出到第 一層誤差變換系數(shù)生成單元234。
增益向量碼本233具有與圖7的增益向量碼本541所具有的多個增益向 量候補同樣的增益向量候補,并將由分離單元231輸入的增益編碼信息所示 的增益向量候補輸出到第一層誤差變換系數(shù)生成單元234。
第一層誤差變換系數(shù)生成單元234將由形狀向量碼本232輸入的形狀向 量候補乘以由增益向量碼本233輸入的增益向量候補而生成第一層誤差變換 系數(shù),并將其輸出到加法器204。具體而言,將由形狀向量碼本232依序輸 入的第m形狀向量候補乘以由增益向量碼本233輸入的、用于構(gòu)成增益向量 候補的M個元素中的第m元素即第m子帶變換系數(shù)的目標(biāo)增益。這里,如 上所述,M表示子帶的總數(shù)。
這樣,根據(jù)本實施方式,采用以下的結(jié)構(gòu),即對每個子帶的目標(biāo)信號(在 本實施方式中,是第一層誤差變換系數(shù))的頻譜的形狀進(jìn)行編碼(形狀向量的編 碼),接著計算^f吏目標(biāo)信號與編碼后的形狀向量之間的失真最小的目標(biāo)增益(理 想增益),并對其進(jìn)行編碼(目標(biāo)增益的編碼)。由此,與如現(xiàn)有技術(shù)那樣的、 對每個子帶的目標(biāo)信號的能量分量進(jìn)行編碼(增益或縮放因子的編碼),利用其 對目標(biāo)信號進(jìn)行歸一化后,對頻譜的形狀進(jìn)行編碼(形狀向量的編碼)的方式相 比,對使與目標(biāo)信號之間的失真最小化的目標(biāo)增益進(jìn)行編碼的本實施方式在 原理上能夠減小編碼失真。另外,如式(5)所示,目標(biāo)增益是對形狀向量進(jìn)行 編碼才能夠計算的參數(shù),所以通過如現(xiàn)有技術(shù)那樣的、在時間上形狀向量的 編碼位于增益信息的編碼的后面的編碼方式,無法將目標(biāo)增益作為增益信息 的編碼對象,相對于此,通過本實施方式即可將目標(biāo)增益作為增益信息的編 碼對象,A^而能夠進(jìn)一步減小編碼失真。
另外,在本實施方式中,采用以下的結(jié)構(gòu),即利用多個相鄰的子帶的目 標(biāo)增益構(gòu)成一個增益向量,并對其進(jìn)行編碼。因為目標(biāo)信號的相鄰的子帶間 的能量信息相似,所以相鄰子帶間的目標(biāo)增益的相似程度也同樣較高。因此,在向量空間上的增益向量的分布產(chǎn)生偏差。通過配置增益碼本所包含的增益 向量候補,以使其適應(yīng)于該偏差,能夠降低目標(biāo)增益的編碼失真。
這樣,根據(jù)本實施方式,能夠降低目標(biāo)信號的編碼失真,由此能夠提高
解碼語音的音質(zhì)。而且,根據(jù)本實施方式,即使對如語音的元音(vowel sound) 或音樂信號那樣的、調(diào)性較強的信號的頻譜,也能夠正確地編碼頻譜的形狀, 所以能夠提高音質(zhì)。
另外,在現(xiàn)有技術(shù)中,利用所謂子帶增益和形狀向量的兩個參數(shù),控制 頻譜的大小。它可以理解為分別由子帶增益和形狀向量的兩個參數(shù)來表示頻 譜的大小。相對于此,在本實施方式中,僅利用所謂目標(biāo)增益的一個參數(shù), 控制頻譜的大小。而且,該目標(biāo)增益是使編碼后的形狀向量的編碼失真最小 的、理想的增益(理想增益)。由此,與現(xiàn)有技術(shù)相比,能夠進(jìn)行高效率的編碼, 從而即使在低比特率時也能夠?qū)崿F(xiàn)高音質(zhì)化。
另外,在本實施方式中,舉例說明了通過子帶構(gòu)成單元151將頻域分割 為多個子帶并對每個子帶進(jìn)行編碼的情況,但本發(fā)明并不限定于此,只要在 時間上比進(jìn)行增益向量編碼先進(jìn)行形狀向量編碼,則也可以對多個子帶匯總 進(jìn)行編碼,能夠與本實施方式同樣地獲得能對如元音那樣的、調(diào)性較強的信 號頻譜的形狀更正確地進(jìn)行編碼的效果。例如,也可以采用以下的結(jié)構(gòu),即 首先進(jìn)行形狀向量編碼,其后將形狀向量分割為子帶而計算每個子帶的目標(biāo) 增益來構(gòu)成增益向量,進(jìn)行增益向量的編碼。
另外,在本實施方式中,舉例說明了在第二層編碼單元105中具備復(fù)用 單元155(參照圖2)的情況,但本發(fā)明并不限定于此,也可以采用以下結(jié)構(gòu) 形狀向量編碼單元152和增益向量編碼單元154的各個單元分別將形狀編碼 信息和增益編碼信息的各個信息直接輸出到語音編碼裝置100的復(fù)用單元 106(參照圖1)。相應(yīng)地,也可以采用以下結(jié)構(gòu)第二層解碼單元203不具備 分離單元231(參照圖9),語音解碼裝置200的分離單元201(參照圖8)利用比 特流,直接分離出形狀編碼信息和增益編碼信息,并將各個信息直接輸出到 形狀向量碼本232和增益向量碼本233。
另外,在本實施方式中,舉例說明了互相關(guān)計算單元522根據(jù)式(2)計算 互相關(guān)ccor(i)的情況,但本發(fā)明并不限定于此,為了達(dá)到對聽覺上重要的頻 語賦予較大的權(quán)重而增大聽覺上重要的頻語的貢獻(xiàn)的目的,互相關(guān)計算單元 522也可以根據(jù)下式(7)計算互相關(guān)ccor(i)。<formula>formula see original document page 17</formula>
在式(7)中,w(k)表示與人的聽覺特性相關(guān)的權(quán)重,對于在聽覺特性上重 要度越高的頻率,w(k)越大。
另外,同樣地,為了通過對聽覺上重要的頻語賦予較大的權(quán)重來增大聽 覺上重要的頻譜的貢獻(xiàn),自相關(guān)計算單元523也可以根據(jù)下式(8)計算自相關(guān) acor(i)。
<formula>formula see original document page 17</formula>
另外,同樣地,為了通過對聽覺上重要的頻譜賦予較大的權(quán)重來增大聽
覺上重要的頻i普的貢獻(xiàn),誤差計算單元542也可以根據(jù)下式(9)計算誤差E(j)。
<formula>formula see original document page 17</formula>
作為式(7)、式(8)和式(9)中的權(quán)重,也可以利用例如聽覺掩蔽閾值或人的 聽覺的響度(loudness)特性來求得的權(quán)重,所述聽覺掩蔽閾值是基于輸入信號 或低層的解碼信號(第一層解碼信號)計算出的閾值。
另外,在本實施方式中,舉例說明了形狀向量編碼單元152具備自相關(guān) 計算單元523的情況,但本發(fā)明并不限定于此,在才艮據(jù)式(3)計算出的自相關(guān) 系數(shù)acor(i)或者根據(jù)式(8)計算出的自相關(guān)系數(shù)acor(i)是常數(shù)時,也可以預(yù)先 計算自相關(guān)acor(i),并利用預(yù)先計算出的自相關(guān)acor(i)而不設(shè)置自相關(guān)計算 單元523。
(實施方式2)
本發(fā)明的實施方式2的語音編碼裝置和語音解碼裝置具有與實施方式1 所示的語音編碼裝置100和語音解碼裝置200同樣的結(jié)構(gòu)并進(jìn)行同樣的動作, 不同之處僅為所使用的形狀向量碼本。
圖IO是用于說明本實施方式的形狀向量碼本的圖,并作為元音的一例, 表示日文的元音"才"(相當(dāng)于英文的元音"o")的頻譜。
在圖10中,橫軸表示頻率,縱軸表示頻i脊的對數(shù)能量。如圖IO所示, 在元音的頻語中觀察到多個波峰形狀,表示較強的調(diào)性。另外,F(xiàn)x表示多個 波峰形狀中的 一個波峰所在的頻率。
圖11是舉例說明本實施方式的形狀向量碼本所包含的多個形狀向量候補的圖。
在圖ii中,(a)舉例說明作為在形狀向量候補中振幅值是"+r,或"-r 的樣本(即脈沖),(b)舉例說明作為振幅值是"o"的樣本。圖11所示的多個 形狀向量候補包含位于任意的頻率的多個脈沖。因此,通過搜索如圖ii所示 的形狀向量候補,能夠?qū)θ鐖Dio所示的調(diào)性較強的頻鐠進(jìn)一步正確地進(jìn)行編 碼。具體而言,對如圖io所示的調(diào)性較強的信號,通過搜索決定形狀向量候
補,以使與波峰形狀所在的頻率對應(yīng)的振幅值,例如圖10所示的Fx的位置 的振幅值是"+r或"-1"的脈沖(圖ll所示的樣本(a)),波峰形狀以外的頻 率的振幅值是"0"(圖ll所示的樣本(b))。
在時間上先于形狀向量編碼進(jìn)行增益編碼的現(xiàn)有技術(shù)中,在進(jìn)行子帶增 益的量化以及進(jìn)行利用了子帶增益的頻鐠的歸一化后,進(jìn)行頻語的微細(xì)分量 (形狀向量)的編碼。若子帶增益的量化失真因低比特率化而變大,則歸一化的 效果變小,無法使歸一化后的頻譜的動態(tài)范圍足夠小。由此,需要使下一個 形狀向量編碼單元的量化步驟粗略,其結(jié)果,量化失真增大。由于該量化失 真的影響,頻語的波峰形狀衰減(丟失真正的波峰形狀),或放大不是波峰形狀 的頻語而如波峰形狀那樣地出現(xiàn)(出現(xiàn)虛假的波峰形狀)。由此,波峰形狀的頻 率位置改變,引起波峰性鉸強的語音信號的元音部分或音樂信號的音質(zhì)劣化。
相對于此,在本實施方式中,采用以下的結(jié)構(gòu),即先決定形狀向量,接 著計算目標(biāo)增益,并對其進(jìn)行量化。如本實施方式那樣在向量的元素的幾個 元素具有由+1或-1的脈沖表示的形狀向量時,先決定形狀向量意味著先決定 相應(yīng)脈沖所樹立的頻率位置。能夠不受到增益的量化的影響而決定脈沖所樹 立的頻率位置,所以不會引起丟失真正的波峰形狀或出現(xiàn)虛假的波峰形狀的 現(xiàn)象,從而能夠避免上述的現(xiàn)有技術(shù)的問題。
這樣,根據(jù)本實施方式,采用先決定形狀向量的結(jié)構(gòu),并且利用由包含 脈沖的形狀向量構(gòu)成的形狀向量碼本進(jìn)行形狀向量編碼,所以能夠確定波峰 性較強的頻語的頻率,并在那個頻率位置樹立脈沖。由此,對具有如語音信 號的元音或音樂信號那樣的調(diào)性較強的頻譜的信號高質(zhì)量地進(jìn)行編碼。
(實施方式3)
在本發(fā)明的實施方式3中,與實施方式1的不同之處在于,選擇語音信
號的頻語中調(diào)性較強的范圍(區(qū)域),并限定在所選擇的范圍內(nèi)進(jìn)行編碼。
本發(fā)明的實施方式3的語音編碼裝置具有與實施方式1的語音編碼裝置語音編碼裝置IOO的不同之處僅在于,具有第 二層編碼單元305以代替第二層編碼單元105。因此,未圖示本實施方式的 語音編碼裝置的整體結(jié)構(gòu),并省略其詳細(xì)的說明。
圖12是表示本實施方式的第二層編碼單元305內(nèi)部的結(jié)構(gòu)的方框圖。另 外,第二層編碼單元305具有與實施方式1所示的第二層編碼單元105(參照 圖l)同樣的基本結(jié)構(gòu),對相同的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
第二層編碼單元305與實施方式1的第二層編碼單元105的不同之處在 于,還包括范圍選擇單元351。另外,第二層編碼單元305的形狀向量編碼 單元352與第二層編碼單元105的形狀向量編碼單元152在一部分處理上存 在不同,為了表示該不同而對其附加不同的標(biāo)號。
范圍選擇單元351在由子帶構(gòu)成單元151輸入的M個子帶變換系數(shù)中, 利用任意數(shù)的相鄰的多個子帶來構(gòu)成多個范圍,并計算各個范圍的調(diào)性。范 圍選擇單元351選擇調(diào)性最高的范圍,并將表示所選擇的范圍的范圍信息輸 出到復(fù)用單元155和形狀向量編碼單元352。另外,將在后面敘述范圍選擇 單元351中的范圍選擇處理的細(xì)節(jié)。
形狀向量編碼單元352與實施方式1的形狀向量編碼單元152的不同之 處僅在于,基于由范圍選擇單元351輸入的范圍信息,從由子帶構(gòu)成單元151 輸入的子帶變換系數(shù)中選擇被包含在范圍中的子帶變換系數(shù),對所選擇的子 帶變換系數(shù)進(jìn)行形狀向量量化,這里省略其詳細(xì)的說明。
圖13是用于說明范圍選擇單元351中的范圍選擇處理的圖。
在圖13中,橫軸表示頻率,縱軸表示頻鐠的對數(shù)能量。另外,在圖13 中舉例說明以下的情況,即子帶的總數(shù)M是"8",利用第O子帶至第三子帶 構(gòu)成范圍O,利用第二子帶至第五子帶構(gòu)成范圍1,利用第四子帶至第七子帶 構(gòu)成范圍2。在范圍選擇單元351中,作為評價規(guī)定的范圍的調(diào)性的指標(biāo), 計算頻譜平坦度測量值(SFM: Spectral Flatness Measure),所述頻譜平坦度測 量值利用包含在規(guī)定的范圍中的多個子帶變換系數(shù)的幾何平均和算數(shù)平均之 比來表示。SFM取"0"至"1"的值,越接近"0"的值表示越強的調(diào)性。 因此,在各個范圍計算SFM, SFM最接近"0"的范圍被選擇。
本實施方式的語音解碼裝置具有與實施方式1的語音解碼裝置200(參照 圖8)同樣的結(jié)構(gòu),與語音解碼裝置200的不同之處僅在于,具有第二層解碼 單元403以代替第二層解碼單元203。因此,未圖示本實施方式的語音解碼裝置的整體結(jié)構(gòu),并省略其詳細(xì)的說明。
圖14是表示本實施方式的第二層解碼單元403內(nèi)部的結(jié)構(gòu)的方框圖。另 外,第二層解碼單元403具有與實施方式1所示的第二層解碼單元203同樣 的基本結(jié)構(gòu),對相同的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
第二層解碼單元403的分離單元431和第一層誤差變換系數(shù)生成單元 434與第二層解碼單元203的分離單元231和第一層誤差變換系數(shù)生成單元 234在一部分處理上存在不同,為了表示該不同而對其附加不同的標(biāo)號。
分離單元431與實施方式1所示的分離單元231的不同之處僅在于,除 了形狀編碼信息和增益編碼信息之外,還將范圍信息分離從而將其輸出到第 一層誤差變換系數(shù)生成單元434,這里省略其詳細(xì)的說明。
第一層誤差變換系數(shù)生成單元434將由形狀向量碼本232輸入的形狀向 量候補乘以由增益向量碼本233輸入的增益向量候補而生成第一層誤差變換 系數(shù),并將其配置在范圍信息表示的范圍所包含的子帶中而輸出到加法器 204。
這樣,根據(jù)本實施方式,語音編碼裝置選擇調(diào)性最高的范圍,在所選擇 的范圍中,在時間上先于各個子帶的增益地對形狀向量進(jìn)行編碼。由此,對 如語音的元音或音樂信號那樣的調(diào)性較強的信號的頻譜的形狀進(jìn)一步正確地 進(jìn)行編碼,同時僅在所選擇的范圍中進(jìn)行編碼,從而能夠減低編碼比特率。
另夕卜,在本實施方式中,舉例說明了計算SFM作為評價規(guī)定的各個范圍 的調(diào)性的指標(biāo)的情況,但本發(fā)明并不限定于此,例如,因為規(guī)定的范圍的平 均能量與調(diào)性的大小之間的相關(guān)較強,所以也可以計算規(guī)定的范圍中包含的 變換系數(shù)的平均能量作為調(diào)性評價的指標(biāo)。由此,與求SFM相比,更能夠減 低運算量。
具體而言,范圍選擇單元351根據(jù)下式(10)計算范圍j中包含的第一層誤
差變換系數(shù)e,(k)的能量ER(j)。
<formula>formula see original document page 20</formula>…(10)
在該式中,j表示用于確定范圍的識別符,F(xiàn)RL(j)表示范圍j的最低頻率, FRH(j)表示范圍j的最高頻率。這樣,范圍選擇單元351求范圍的能量ER(j), 接著確定第 一層誤差變換系數(shù)的能量最大的范圍,并對該范圍中包含的第一 層誤差變換系數(shù)進(jìn)行編碼。另外,也可以根據(jù)下式(ll),進(jìn)行反映了人的聽覺特性的加權(quán)來求第一
層誤差變換系數(shù)的能量。
層(力
柳=S …(11)
在上述的情況下,對于聽覺特性上的重要度越高的頻率,使權(quán)重w(k)越 大,以使易于選擇包含該頻率的范圍,而對于重要度越低的頻率,使權(quán)重w(k)
越小,以使難以選擇包含該頻率的范圍。由此,聽覺上越重要的頻帶越優(yōu)先
地被選擇,從而能夠提高解碼語音的音質(zhì)。作為該權(quán)重w(k),也可以利用例 如聽覺掩蔽閾值或人的聽覺的響度特性而求得的權(quán)重,所述聽覺掩蔽閾值是 基于輸入信號或低層的解碼信號(第一層解碼信號)計算出的閾值。
另外,范圍選擇單元351也可以采用以下的結(jié)構(gòu),即從配置在比規(guī)定的 頻率(基準(zhǔn)頻率)低的頻率的范圍中進(jìn)行選擇。
圖15是用于說明在范圍選擇單元351中,從配置在比規(guī)定的頻率(基準(zhǔn) 頻率M氐的頻率的范圍中進(jìn)行選擇的方法的圖。
在圖15中,以八個選擇范圍的候補配置在比規(guī)定的基準(zhǔn)頻率Fy低的頻
帶的情況為例進(jìn)行說明。這些八個范圍分別以F1、 F2.....F8作為起點,并
由規(guī)定長度的頻帶而構(gòu)成,范圍選擇單元351基于上述的選擇方法,從這些 八個候補中選擇一個范圍。由此,選擇出位于比規(guī)定的基準(zhǔn)頻率Fy低的頻率 的范圍。這樣,重視低頻(或低中頻)而進(jìn)行編碼的優(yōu)點如下。
作為語音信號的特征之一的諧波結(jié)構(gòu)(或稱為Harmonics結(jié)構(gòu))、即頻鐠在 某個頻率間隔出現(xiàn)波峰狀的結(jié)構(gòu),與在高頻部分相比,在低頻部分出現(xiàn)較大
的波峰。在通過編碼處理產(chǎn)生的量化誤差(誤差頻鐠或誤差變換系數(shù))中也同樣 地殘留波峰性,與高頻部分相比,低頻部分的波峰性較強。因此,即使在與 高頻部分相比,低頻部分的誤差頻譜的能量較小時,誤差頻譜的波峰性也較 強,所以誤差頻語容易超過聽覺掩蔽闊值(人能夠聽到聲音的閾值),引起聽覺 上的音質(zhì)劣化。也就是說,即使誤差頻譜的能量較小,與高頻部分相比,低 頻部分的聽覺上的靈敏度也較高。因此,范圍選擇單元351通過釆用從配置 在比規(guī)定的頻率低的頻率的候補中選擇范圍的結(jié)構(gòu),能夠從誤差頻語的波峰 性較強的低頻部分中確定作為編碼的對象的范圍,提高解碼語音的音質(zhì)。
另外,作為編碼對象的范圍的選擇方法,也可以與在先前幀所選擇的范 圍相關(guān)聯(lián)來選擇當(dāng)前幀的范圍。例如,可列舉以下的方法,即(l)從位于在先前幀所選擇的范圍的附近的范圍中決定當(dāng)前幀的范圍,(2)將當(dāng)前幀的范圍的
候補重新配置到在先前幀所選擇的范圍的附近,并>^人該重新配置后的范圍的
候補中決定當(dāng)前幀的范圍,以及(3)以每幾個幀一次的程度傳輸范圍信息,并
在不傳輸范圍信息的幀中利用先前傳輸?shù)姆秶畔⑺硎镜姆秶?范圍信息 的間歇傳輸)等。 -
另外,如圖16所示,范圍選擇單元351也可以將所有頻帶預(yù)先分割為多 個部分頻帶,從各個部分頻帶中分別選擇一個范圍,結(jié)合各個部分頻帶中選 擇出的范圍,并將該結(jié)合范圍作為編碼對象。在圖16中,舉例說明了部分頻 帶的數(shù)目為2,并且設(shè)定了部分頻帶1以使其覆蓋低頻部分,設(shè)定了部分頻 帶2以使其覆蓋高頻部分的情況。另外,部分頻帶1和部分頻帶2分別由多 個范圍構(gòu)成。范圍選擇單元351從部分頻帶1和部分頻帶2中分別選擇一個 范圍。例如,如圖16所示,在部分頻帶1中選擇了范圍2,而在部分頻帶2 中選擇了范圍4。以下,將表示從部分頻帶1中選擇出的范圍的信息稱為第 一部分頻帶范圍信息,而將表示從部分頻帶2中選擇出的范圍的信息稱為第 二部分頻帶范圍信息。接著,范圍選擇單元351結(jié)合從部分頻帶1中選擇出 的范圍和從部分頻帶2中選擇出的范圍而構(gòu)成結(jié)合范圍。該結(jié)合范圍是在范 圍選擇單元351中選擇出的范圍,形狀向量編碼單元352對該結(jié)合范圍進(jìn)行 形狀向量編碼。
圖17是表示與部分頻帶的數(shù)目為N時對應(yīng)的范圍選擇單元351的結(jié)構(gòu) 的方框圖。在圖17中,由子帶構(gòu)成單元151輸入的子帶變換系數(shù)分別提供給 部分頻帶1選擇單元511-1至部分頻帶N選擇單元511-N。各自的部分頻帶n 選擇單元511-n(n-l至N)從各個部分頻帶n中選擇一個范圍,并將表示了選 擇出的范圍的信息即第n部分頻帶范圍信息輸出到范圍信息構(gòu)成單元512。 范圍信息構(gòu)成單元512將由部分頻帶l選擇單元511-1至部分頻帶N選擇單 元511-N輸入的各個第11部分頻帶范圍信息(11=1至N)所示的各個范圍進(jìn)行結(jié) 合而獲得結(jié)合范圍。然后,范圍信息構(gòu)成單元512將表示結(jié)合范圍的信息輸 出到形狀向量編碼單元352和復(fù)用單元155作為范圍信息。
圖18是舉例說明在范圍信息構(gòu)成單元512中構(gòu)成范圍信息的情形的圖。 如圖18所示,范圍信息構(gòu)成單元512依序排列第一部分頻帶范圍信息(A1比 特)至第N部分頻帶范圍信息(AN比特)來構(gòu)成范圍信息。這里,各個第n部 分頻帶范圍信息的比特長度An由各個部分頻帶n中包含的候補范圍的數(shù)目來決定,其也可以分別具有不同的值。
圖19是用于說明與圖17所示的范圍選擇單元351對應(yīng)的第一層誤差變 換系數(shù)生成單元434(參照圖14)的動作的圖。這里,以部分頻帶的數(shù)目是2 的情況為例。第一層誤差變換系數(shù)生成單元434將由形狀向量碼本232輸入 的形狀向量候補乘以由增益向量碼本233輸入的增益向量候補。然后,第一 層誤差變換系數(shù)生成單元434將進(jìn)行上述的增益候補乘法運算后的形狀向量 候補,配置在部分頻帶1和部分頻帶2的各個范圍信息所示的各個范圍中。 這樣求得的信號作為第一層誤差變換系數(shù)被輸出。
根據(jù)如圖16所示的范圍選擇方法,從各個部分頻帶中決定一個范圍,所 以能夠?qū)⒅辽僖粋€解碼頻譜配置在部分頻帶中。因此,通過預(yù)先設(shè)定希望改 善音質(zhì)的多個頻帶,與從所有頻帶中僅選擇一個范圍的范圍選擇方法相比, 能夠提高解碼語音的質(zhì)量。例如,如圖16所示的范圍選擇方法對于要同時實 現(xiàn)低頻部分和高頻部分的兩者的質(zhì)量改善的情況等是有效的。
另夕卜,作為圖16所示的范圍選擇方法的變化,如圖20舉例說明的那樣, 也可以在特定的部分頻帶中總是選擇固定的范圍。在圖20舉例說明的例子 中,在部分頻帶2中總是選擇范圍4,其是結(jié)合范圍的一部分。根據(jù)圖20所 示的范圍選擇方法,與圖16所示的范圍選擇方法的效果同樣地,能夠預(yù)先設(shè) 定希望改善音質(zhì)的頻帶,并且由于例如不需要部分頻帶2的部分頻帶范圍信 息,能夠使用于表示范圍信息的比特數(shù)更少。
另外,圖20以在高頻部分(部分頻帶2)中總是選擇固定的范圍的情況為 例進(jìn)行表示,但并不限定于此,既可以在低頻部分(部分頻帶l)中總是選擇固 定的范圍,還可以在圖.20中未圖示的中頻部分的部分頻帶中總是選擇固定的 范圍。
另外,作為圖16和圖20所示的范圍選擇方法的變化,如圖21所示,也 可以在各個部分頻帶中包含的候補范圍的帶寬不同。在圖21中,舉例說明與 在部分頻帶1中包含的候補范圍相比,在部分頻帶2中包含的候補范圍的帶 寬更短的情況。
(實施方式4)
在本發(fā)明的實施方式4中,對每個幀判斷調(diào)性的程度,并根據(jù)其結(jié)果決 定形狀向量編碼和增益編碼的順序。
本發(fā)明的實施方式4的語音編碼裝置具有與實施方式1的語音編碼裝置IOO(參照圖l)同樣的結(jié)構(gòu),與語音編碼裝置IOO的不同之處僅在于,具有第 二層編碼單元505以代替第二層編碼單元105。因此,未圖示本實施方式的 語音編碼裝置的整體結(jié)構(gòu),并省略其詳細(xì)的說明。
圖22是表示第二層編碼單元505內(nèi)部的結(jié)構(gòu)的方框圖。另外,第二層編 碼單元505具有與圖1所示的第二層編碼單元105同樣的基本結(jié)構(gòu),對相同 的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
第二層編碼單元505與實施方式1的第二層編碼單元105的不同之處在 于,還包括調(diào)性判定單元551、切換單元552、增益編碼單元553、歸一化 單元554、形狀向量編碼單元555、以及切換單元556。另外,在圖22中, 形狀向量編碼單元152、增益向量構(gòu)成單元153和增益向量編碼單元154構(gòu) 成編碼系統(tǒng)(a),增益編碼單元553、歸一化單元554和形狀向量編碼單元555 構(gòu)成編碼系統(tǒng)(b)。
調(diào)性判定單元551求SFM作為評價由減法器104輸入的第一層誤差變換 系數(shù)的調(diào)性的指標(biāo),在求得的SFM小于規(guī)定的閾值時,將"高"輸出到切換 單元552和切換單元556作為調(diào)性判定信息,而在求得的SFM為規(guī)定的閾值 以上時,將"低"輸出到切換單元552和切換單元556作為調(diào)性判定信息。
另外,這里利用SFM作為評價調(diào)性的指標(biāo)而進(jìn)行說明,但并不限定于此, 也可以利用例如第 一層誤差變換系數(shù)的分散等其他的指標(biāo)而進(jìn)行判定。另外, 對調(diào)性的判定,也可以利用輸入信號等其他的信號而進(jìn)行判定。例如,也可 以利用輸入信號的基音分析結(jié)果或在低層(在本實施方式中為第一層編碼單 元)對輸入信號進(jìn)行了編碼的結(jié)果。
在由調(diào)性判定單元551輸入的調(diào)性判定信息為"高"時,切換單元552 將由子帶構(gòu)成單元151輸入的M個子帶變換系數(shù)依序輸出到形狀向量編碼單 元152,而在由調(diào)性判定單元551輸入的調(diào)性判定信息為"低"時,切換單 元552將由子帶構(gòu)成單元151輸入的M個子帶變換系數(shù)依序輸出到增益編碼 單元553和歸一化單元554。
增益編碼單元553計算由切換單元552輸入的M個子帶變換系數(shù)的平均 能量,對計算出的平均能量進(jìn)行量化,并將量化索引輸出到切換單元556作 為增益編碼信息。另外,增益編碼單元553利用增益編碼信息進(jìn)行增益解碼 處理,并將所獲得的解碼增益輸出到歸一化單元554。
歸一化單元554利用由增益編碼單元553輸入的解碼增益,對由切換單元552輸入的M個子帶變換系數(shù)進(jìn)行歸一化,并將所獲得的歸一化形狀向量 輸出到形狀向量編碼單元555。
形狀向量編碼單元555對由歸一化單元554輸入的歸一化形狀向量進(jìn)行 編碼處理,并將獲得的形狀編碼信息輸出到切換單元556。
在由調(diào)性判定單元551輸入的調(diào)性判定信息為"高,,時,切換單元556 將分別由形狀向量編碼單元152和增益向量編碼單元154輸入的形狀編碼信 息和增益編碼信息輸出到復(fù)用單元155,而在由調(diào)性判定單元551輸入的調(diào) 性判定信息為"低"時,切換單元556將分別由增益編碼單元553和形狀向 量編碼單元555輸入的增益編碼信息和形狀編碼信息輸出到復(fù)用單元155。
如上所述,在本實施方式的語音編碼裝置中,根據(jù)第一層誤差變換系.數(shù) 的調(diào)性為"高"的情況,利用系統(tǒng)(a)先于增益編碼進(jìn)行形狀向量編碼,而根 據(jù)第一層誤差變換系數(shù)的調(diào)性為"低"的情況,利用系統(tǒng)(b)先于形狀向量編 碼進(jìn)行增益編碼。
這樣,根據(jù)本實施方式,按照第一層誤差變換系數(shù)的調(diào)性,自適應(yīng)地改 變增益編碼和形狀向量編碼的順序,所以能夠根據(jù)作為編碼對象的輸入信號 抑制增益編碼失真和形狀向量編碼失真的雙方,從而能夠進(jìn)一步提高解碼語
音的音質(zhì)。
(實施方式5 )
圖23是表示本發(fā)明實施方式5的語音編碼裝置600的主要結(jié)構(gòu)的方框圖。
在圖23中,語音編碼裝置600包括第一層編碼單元601、第一層解碼 單元602、延遲單元603、減法器604、頻域變換單元605、第二層編碼單元 606、以及復(fù)用單元106。其中,復(fù)用單元106與圖1所示的復(fù)用單元106同 樣,所以省略其詳細(xì)的說明。另外,在第二層編碼單元606與圖12所示的第 二層編碼單元305在一部分處理上存在不同,為了表示該不同而對其附加不 同的標(biāo)號。
第一層編碼單元601對輸入信號進(jìn)行編碼,并將所生成的第一層編碼數(shù) 據(jù)輸出到第一層解碼單元602和復(fù)用單元106。將在后面殺又述第一層編碼單 元601的細(xì)節(jié)。
第一層解碼單元602利用由第一層編碼單元601輸入的第一層編碼數(shù)據(jù) 進(jìn)行解碼處理,并將所生成的第一層解碼信號輸出到減法器604。將在后面敘述第一層解碼單元602的細(xì)節(jié)。
延遲單元603對輸入信號賦予規(guī)定的延遲后將其輸出到減法器604。延 遲的長度與在第一層編碼單元601和第一層解碼單元602的處理中產(chǎn)生的延 遲的長度相同。
減法器604計算由延遲單元603輸入的延遲后的輸入信號與由第一層解 碼單元602輸入的第一層解碼信號之間的差,并將所獲得的誤差信號輸出到 頻域變換單元605。
頻域變換單元605將由減法器604輸入的誤差信號變換到頻域的信號, 并將所獲得的誤差變換系數(shù)輸出到第二層編碼單元606。
圖24是表示第一層編碼單元601內(nèi)部的主要結(jié)構(gòu)的方框圖。
在圖24中,第一層編碼單元601包括下采樣單元611和核心編碼單元
612。
下采樣單元611對時域的輸入信號進(jìn)行下采樣而變換為期望的采樣率, 并將下采樣后的時域信號輸出到核心編碼單元612。
核心編碼單元612對變換為期望的采樣率后的輸入信號進(jìn)行編碼處理, 并將所生成的第一層編碼數(shù)據(jù)輸出到第一層解碼單元602和復(fù)用單元106。
圖25是表示第一層解碼單元602內(nèi)部的主要結(jié)構(gòu)的方框圖。
在圖25中,第一層解碼單元602包括核心解碼單元621、上采樣單元 622和高頻分量賦予單元623,并且以由噪聲等構(gòu)成的類似信號代用高頻部 分。其基于以下技術(shù),即通過以類似信號表示聽覺上重要度較低的高頻部分, 相應(yīng)地增大聽覺上較重要的低頻部分(或低中頻部分)的比特分配而提高對于 該頻帶的原始信號的保真度,從而實現(xiàn)整體地提高解碼語音的音質(zhì)。
核心解碼單元621利用由第一層編碼單元601輸入的第一層編碼數(shù)據(jù)進(jìn) 行解碼處理,并將所獲得的核心解碼信號輸出到上采樣單元622。另外,核 心解碼單元621將通過解碼處理所求得的解碼LPC系數(shù)輸出到高頻分量賦予 單元623。
上采樣單元622對由核心解碼單元621輸入的解碼信號進(jìn)行上采樣而變 換為與輸入信號相同的采樣率,并將上采樣后的核心解碼信號輸出到高頻分 量賦予單元623。
高頻分量賦予單元623對下采樣單元611中的下釆樣處理所產(chǎn)生的缺損 了的高頻分量利用類似信號進(jìn)行補償。作為類似信號的生成方法,由在核心解碼單元621的解碼處理中求得的解碼LPC系數(shù)構(gòu)成合成濾波器,并通過該 合成濾波器和帶通濾波器對能量調(diào)整后的噪聲信號依序進(jìn)行濾波的方法為人 所知。雖然由此方法求得的高頻分量對聽覺上的頻帶感的擴(kuò)散作出貢獻(xiàn),但 由于其具有與原始信號的高頻分量截然不同的波形,所以由減法器求得的誤 差信號的高頻部分的能量增大。
在第一層編碼處理具有這樣的特征時,誤差信號的高頻部分的能量增大, 從而難以選擇出原本聽覺上的靈敏度較高的低頻部分。因此,本實施方式的 第二層編碼單元606從配置在比規(guī)定的頻率(基準(zhǔn)頻率)低的頻率的候補中選 擇范圍,從而避免上述高頻部分的誤差信號的能量增加所造成的弊端。也就 是說,第二層編碼單元606進(jìn)行如圖15所示的選擇處理。
圖26是表示本發(fā)明實施方式5的語音解碼裝置700的主要結(jié)構(gòu)的方框 圖。另外,語音解碼裝置700具有與圖8所示的語音解碼裝置200同樣的基 本結(jié)構(gòu),對相同的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
在語音解碼裝置700的第一層解碼單元702與語音解碼裝置200的第一 層解碼單元202在一部分處理上存在不同,所以附加不同的標(biāo)號。另外,第 一層解碼單元702的結(jié)構(gòu)和動作與語音編碼裝置600的第一層解碼單元602 同樣,所以省略其詳細(xì)的說明。
語音解碼裝置700的時域變換單元706與語音解碼裝置200的時域變換 單元206的不同之處僅在于配置位置,而進(jìn)行同樣的處理,所以附加不同的 標(biāo)號,并省略其詳細(xì)的iJL明。
這樣,才艮據(jù)本實施方式,在第一層的編碼處理中以由噪聲等構(gòu)成的類似 信號代用高頻部分,相應(yīng)地增大聽覺上重要的低頻部分(或低中頻部分)的比特 分配而提高對于該頻帶的原始信號的保真度,并且在第二層的編碼處理中將 比規(guī)定的頻率低的范圍作為編碼對象而避免高頻部分的誤差信號的能量增大 所造成的弊端,在時間上先于增益的編碼進(jìn)行形狀向量的編碼,因此對如元 音那樣的調(diào)性較強的信號的頻語的形狀進(jìn)一步正確地進(jìn)行編碼,同時能夠不 增加比特率而進(jìn)一步減低增益向量編碼失真,從而能夠進(jìn)一步提高解碼語音 的音質(zhì)。
另外,在本實施方式中,舉例說明了減法器604取時域的信號的差的情 況,但本發(fā)明并不限定于此,減法器604也可以取頻域的變換系數(shù)的差。在 上述的情況下,將頻域變換單元605配置在延遲單元603與減法器604之間而求輸入變換系數(shù),并且將另一個頻域變換單元配置在第一層解碼單元602 與減法器604之間而求第一層解碼變換系數(shù)。然后,減法器604取輸入變換 系數(shù)與第 一層解碼變換系數(shù)之間的差,并將該誤差變換系數(shù)直接提供給第二 層編碼單元606。根據(jù)該結(jié)構(gòu),能夠進(jìn)行在某個頻帶取差而在其他的頻帶不 取差那樣的自適應(yīng)的減法處理,從而能夠進(jìn)一步提高解碼語音的音質(zhì)。
另外,在本實施方式中,舉例說明了不將關(guān)于高頻部分的信息發(fā)送到語 音解碼裝置的結(jié)構(gòu),但本發(fā)明并不限定于此,也可以采用對利用比低頻部分 低的比特率對高頻部分的信號進(jìn)行編碼而發(fā)送到語音解碼裝置的結(jié)構(gòu)。 (實施方式6)
圖27是表示本發(fā)明實施方式6的語音編碼裝置800的主要結(jié)構(gòu)的方框 圖。另外,語音編碼裝置800具有與圖23所示的語音編碼裝置600同樣的基 本結(jié)構(gòu),對相同的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
語音編碼裝置800與語音編碼裝置600的不同之處在于,還包括權(quán)重濾 波器801。
權(quán)重濾波器801通過對誤差信號進(jìn)行濾波來進(jìn)行聽覺上的加權(quán),并將加 權(quán)后的誤差信號輸出到頻域變換單元605。權(quán)重濾波器801使輸入信號的頻 語平坦化(白化)或變化為與其接近的頻譜特性。例如,利用由第一層解碼單元 602獲得的解碼LPC系數(shù),并利用下式(12)來表示權(quán)重濾波器的傳遞函數(shù) w(z)。
『。=1 —1>(/)./i'…(12)
在式(12)中,a(i)是LPC系數(shù),NP是LPC系數(shù)的階數(shù),而且Y是控制頻 譜平坦化(白化)的程度的參數(shù),取0《y《l的范圍的值。y越大,平坦化的程 度越大,這里例如對Y使用0.92。
圖28是表示本發(fā)明實施方式6的語音解碼裝置900的主要結(jié)構(gòu)的方框 圖。另外,語音解碼裝置900具有與圖26所示的語音解碼裝置700同樣的基 本結(jié)構(gòu),對相同的結(jié)構(gòu)要素附加相同的標(biāo)號,并省略其說明。
語音解碼裝置900與語音解碼裝置700的不同之處在于,還包括合成濾 波器901。
合成濾波器901由具有與語音編碼裝置800的權(quán)重濾波器801相反的頻 譜特性的濾波器構(gòu)成,對由時域變換單元706輸入的信號進(jìn)行濾波處理后輸出到加法單元204。利用下式(13)表示合成濾波器901的傳遞函數(shù)B(z)。
<formula>formula see original document page 29</formula>
在式(13)中,a(i)是LPC系數(shù),NP是LPC系數(shù)的階數(shù),而且y是控制頻 譜平坦化(白化)的程度的參數(shù),取(Ky《l的范圍的值。y越大,平坦化的程 度越大,這里例如對y使用0.92。
如上所述,語音編碼裝置800的權(quán)重濾波器801由具有與輸入信號的頻 譜包絡(luò)相反的頻語特性的濾波器構(gòu)成,而語音解碼裝置900的合成濾波器901 由具有與權(quán)重濾波器相反的頻譜特性的濾波器構(gòu)成。因此,合成濾波器具有 與輸入信號的頻語包絡(luò)同樣的特性。 一般而言,對于語音信號的頻語包絡(luò)而 言,低頻部分的能量比高頻部分的能量呈現(xiàn)得大,所以雖然通過合成濾波器 前的信號的編碼失真在低頻部分與高頻部分同等,但在通過合成濾波器后, 低頻部分的編碼失真變大。原本,語音編碼裝置800的權(quán)重濾波器801以及 語音解碼裝置900的合成濾波器901是為了通過聽覺掩蔽效果來使編碼失真 難以聽見而導(dǎo)入的,但在因低比特率而無法縮小編碼失真時,聽覺掩蔽效果 無法充分地發(fā)揮效果,而編碼失真變得容易被察覺。在這樣的情況下,由于 語音解碼裝置900的合成濾波器901增大編碼失真的低頻部分的能量,所以 容易出現(xiàn)低頻部分的質(zhì)量劣化。在本實施方式中,如實施方式5所示,通過 第二層編碼單元606從配置在比規(guī)定的頻率(基準(zhǔn)頻率)低的頻率的候補中選 捧作為編碼對象的范圍,減輕上述低頻部分的編碼失真被增強的弊端,從而
實現(xiàn)解碼語音的音質(zhì)的提高。
這樣,根據(jù)本實施方式,語音編碼裝置具有權(quán)重濾波器,語音解碼裝置 具有合成濾波器,利用聽覺掩蔽效果來實現(xiàn)質(zhì)量改善,而且在第二層的編碼 處理中,通過將比規(guī)定的頻率低的范圍作為編碼對象,減輕使編碼失真的低 頻部分的能量增大的弊端,并且由于在時間上先于增益的編碼進(jìn)行形狀向量 的編碼,對如元音那樣的調(diào)性較強的信號的頻語的形狀進(jìn)一步正確地進(jìn)行編 碼,同時能夠不增加比特率而降低增益向量編碼失真,從而能夠進(jìn)一步提高 解碼語音的音質(zhì)。 (實施方式7)在本發(fā)明的實施方式7中,說明在語音編碼裝置和語音解碼裝置采用由 一個基本層和多個擴(kuò)展層構(gòu)成的三層以上的結(jié)構(gòu)時,在各個擴(kuò)展層中選擇作 為編碼對象的范圍。
圖29是表示本發(fā)明實施方式7的語音編碼裝置1000的主要結(jié)構(gòu)的方框圖。
語音編碼裝置1000具有四層,并包括頻域變換單元101、第一層編碼 單元102、第一層解碼單元603、減法器604、第二層編碼單元606、第二層 解碼單元IOOI、加法器1002、減法器1003、第三層編碼單元1004、第三層 解碼單元1005、加法器1006、減法器1007、第四層編碼單元1008、以及復(fù) 用單元1009。其中,頻域變換單元101和第一層編碼單元102的結(jié)構(gòu)和動作 如圖1所示,第一層解碼單元603、減法器604和第二層編碼單元606的結(jié) 構(gòu)和動作如圖23所示,具有從1001至1009的序號的各個塊的結(jié)構(gòu)和動作與 101、 102、 603、 604和606的各個塊的結(jié)構(gòu)和動作類似而可以類推,所以這 里省略其詳細(xì)的說明。
圖30是用于說明語音編碼裝置1000的編碼處理中、作為編碼對象的范 圍的選擇處理的圖。其中,圖30A至圖30C分別是用于說明第二層編碼單元 606的第二層編碼、第三層編碼單元1004的第三層編碼、以及第四層編碼單 元1008的第四層編碼中的范圍選擇的處理的圖。
如圖30A所示,在第二層編碼中,選擇范圍的候補被配置在比第二層用 基準(zhǔn)頻率Fy(L2)低的頻帶中,在第三層編碼中,選擇范圍的候補被配置在比 第三層用基準(zhǔn)頻率Fy(L3)低的頻帶中,在第四層編碼中,選擇范圍的候補被 配置在比第四層用基準(zhǔn)頻率Fy(L4)低的頻帶中。另外,在各個擴(kuò)展層的基準(zhǔn) 頻率之間存在Fy(L2;KFy(L3)〈Fy(L4)的關(guān)系。各個擴(kuò)展層的選擇范圍的候補 的數(shù)目是相同的,這里以四個的情況為例。也就是說,越是比特率較低的低 層(例如第二層),越從聽覺上的靈敏度較高的低頻的頻帶中選擇作為編碼的對 象的范圍,在比特率較高的高層(例如第四層)從包含到高頻部分為止的更寬的 頻帶中選擇作為編碼的對象的范圍。通過采用這樣的結(jié)構(gòu),在低層中重視低 頻部分,在高層中覆蓋更寬的頻帶,從而能夠?qū)崿F(xiàn)語音信號的高音質(zhì)化。
圖31是表示本實施方式的語音解碼裝置1100的主要結(jié)構(gòu)的方框圖。
在圖31中,語音解碼裝置IIOO是由四層構(gòu)成的可擴(kuò)展語音解碼裝置, 包括分離單元1101、第一層解碼單元1102、第二層解碼單元1103、加法單元1104、第三層解碼單元1105、加法單元1106、第四層解碼單元1107、加 法單元1108、切換單元1109、時域變換單元1110、以及后置濾波器1111。 另外,這些各個功能塊的結(jié)構(gòu)和動作與圖8所示的語音解碼裝置200的各個 功能塊的結(jié)構(gòu)和動作類似而可以類推,所以這里省略其詳細(xì)的說明。
這樣,根據(jù)本實施方式,在可擴(kuò)展語音編碼裝置中,通過越是比特率較 低的低層,越從聽覺上的靈敏度較高的低頻的頻帶中選擇作為編碼的對象的 范圍,在比特率越高的高層越從包含到高頻部分的寬的頻帶中選擇作為編碼 的對象的范圍,可在低層中重視低頻部分,而在高層中覆蓋更寬的頻帶,并 且在時間上先于增益的編碼進(jìn)行形狀向量的編碼,因此對如元音那樣的調(diào)性 較強的信號的頻語的形狀進(jìn)一步正確地進(jìn)行編碼,同時能夠不增加比特率而 進(jìn)一步降低增益向量編碼失真,從而能夠進(jìn)一步提高解碼語音的音質(zhì)。
另外,在本實施方式中,舉例說明了在各個擴(kuò)展層的編碼處理中,從如 圖30所示的范圍選擇的候補中選擇編碼對象的情況,但本發(fā)明并不限定于 此,也可以從如圖32和圖33所示的等間隔地配置的范圍的候補中選擇編碼 對象。
圖32A、圖32B和圖33分別是用于說明第二層編碼、第三層編碼和第 四層編碼中的范圍選擇的處理的圖。如圖32和圖33所示,各個擴(kuò)展層中的 選擇范圍的候補的數(shù)目不同,這里分別舉例說明四個、六個和八個的情況。 在這樣的結(jié)構(gòu)中,在低層從低頻的頻帶中決定作為編碼的對象的范圍,并且 選擇范圍的候補的數(shù)目少于高層,所以也能夠削減運算量和比特率。
另外,作為各個擴(kuò)展層中的編碼對象的范圍的選擇方法,也可以與在低 層所選擇的范圍關(guān)聯(lián)地選擇當(dāng)前層的范圍。例如,可列舉以下的方法,即(l) 從位于在低層所選擇的范圍的附近的范圍中決定當(dāng)前層的范圍,(2)將當(dāng)前層 的范圍的候補重新配置到在低層所選擇的范圍的附近,并從該重新配置后的 范圍的候補中決定當(dāng)前層的范圍,以及(3)以每幾個幀一次的程度傳輸范圍信 息,并在不傳輸范圍信息的幀中利用先前傳輸?shù)姆秶畔⒈硎镜姆秶?范圍信 息的間歇傳輸)等。
以上,說明了本發(fā)明的各個實施方式。
另外,在上述各個實施方式中,作為語音編碼裝置和語音解碼裝置的結(jié) 構(gòu),舉例說明了兩層的可擴(kuò)展結(jié)構(gòu),但本發(fā)明并不限定于此,也可以采用三 層以上的可擴(kuò)展結(jié)構(gòu)。另外,本發(fā)明也能夠適用于不是可擴(kuò)展結(jié)構(gòu)的語音編碼裝置。
另外,在上述各個實施方式中,能夠利用CELP的方法作為第一層的編 碼方法。
另外,在上述各個實施方式中的頻域變換單元由FFT、 DFT (Discrete Fourier Transform ,離散傅立葉變換)、DCT ( Discrete Cosine Transform,離散 余弦變換)、MDCT(Modified Discrete Cosine Transform ,改進(jìn)離散余弦變換)、 子帶濾波器等來實現(xiàn)。
而且,雖然在上述各個實施方式中,假定了語音信號作為解碼信號,但 本發(fā)明并不限于此,例如也可以是音頻信號等。
另外,在上述各個實施方式中,舉例說明了以硬件構(gòu)成本發(fā)明的情況, 但本發(fā)明也可通過軟件來實現(xiàn)。
另外,在上述各個實施方式的說明中使用的各個功能塊,典型地作為集 成電路的LSI來實現(xiàn)。這些塊既可是每個塊單獨地集成到一個芯片,或者可 以是部分或所有塊集成到一個芯片。在此雖然稱為LSI,但根據(jù)集成度的不 同也可以稱為IC、系統(tǒng)LSI、超大LSI(SuperLSI)或特大LSI(UltraLSI)。
另外,集成電路化的技術(shù)不只限于LSI,也可以使用專用電路或通用處 理器來實現(xiàn)。也可以利用能夠在LSI制造后編程的FPGA( Field Programmable Gate Array,現(xiàn)場可編程門陣列),或利用可重構(gòu)LSI內(nèi)部的電路單元的連接 和i殳定的可重構(gòu)處理器(Reconfigurable Processor )。
進(jìn)而,隨著半導(dǎo)體技術(shù)的進(jìn)步或隨之派生的其他技術(shù)出現(xiàn),如果出現(xiàn)可 取代LSI集成電路的新技術(shù),當(dāng)然也可以利用該新技術(shù)進(jìn)行功能塊的集成化。 還存在著適用生物技術(shù)等的可能性。
在2007年3月2日提交的特愿第2007-053502號的日本專利申請、在 2007年5月18日提交的特愿第2007-133545號的日本專利申請、在2007年 7月13日提交的特愿第2007-185077號的日本專利申請以及在2008年2月 26曰提交的特愿第2008-045259號的日本專利申請中所包含的說明書、說明 書附圖和說明書摘要的公開內(nèi)容,全部都引用于本申請。
工業(yè)實用性
本發(fā)明的語音編碼裝置和語音編碼方法能夠適用于移動通信系統(tǒng)中的無 線通信終端裝置和基站裝置等。
權(quán)利要求
1.編碼裝置,包括基本層編碼單元,對輸入信號進(jìn)行編碼而獲得基本層編碼數(shù)據(jù);基本層解碼單元,對所述基本層編碼數(shù)據(jù)進(jìn)行解碼而獲得基本層解碼信號;以及擴(kuò)展層編碼單元,對作為所述輸入信號與所述基本層解碼信號之間的差的殘差信號進(jìn)行編碼而獲得擴(kuò)展層編碼數(shù)據(jù),所述擴(kuò)展層編碼單元包括分割單元,將所述殘差信號分割為多個子帶;第一形狀向量編碼單元,對所述多個子帶的各個子帶進(jìn)行編碼而獲得第一形狀編碼信息,并且計算所述多個子帶的各個子帶的目標(biāo)增益;增益向量構(gòu)成單元,利用所述多個目標(biāo)增益構(gòu)成一個增益向量;以及增益向量編碼單元,對所述增益向量進(jìn)行編碼而獲得第一增益編碼信息。
2. 如權(quán)利要求1所述的編碼裝置,所述第一形狀向量編碼單元利用包含一個以上位于任意的頻率的脈沖 的、由多個形狀向量候補構(gòu)成的形狀向量碼本,對所述多個子帶的各個子帶 進(jìn)行編碼。
3. 如權(quán)利要求2所述的編碼裝置,所述第一形狀向量編碼單元利用與從所迷形狀向量碼本中選擇出的所述 形狀向量候補有關(guān)的相關(guān)信息,對所述多個子帶的各個子帶進(jìn)行編碼。
4. 如權(quán)利要求1所述的編碼裝置, 所述擴(kuò)展層編碼單元還包括范圍選擇單元,計算利用任意數(shù)的相鄰的所述子帶構(gòu)成的多個范圍的調(diào) 性,并從所述多個范圍中選擇所述調(diào)性最高的一個范圍,所述第一形狀向量編碼單元、所述增益向量構(gòu)成單元以及所述增益向量 編碼單元對構(gòu)成所述選擇所得的范圍的多個子帶進(jìn)行處理。
5. 如權(quán)利要求1所述的編碼裝置, 所述擴(kuò)展層編碼單元還包括范圍選擇單元,計算利用任意數(shù)的相鄰的所述子帶構(gòu)成的多個范圍的平 均能量,并從所述多個范圍中選擇所述平均能量最高的一個范圍,所述第一形狀向量編碼單元、所述增益向量構(gòu)成單元以及所述增益向量 編碼單元對構(gòu)成所述選擇所得的范圍的多個子帶進(jìn)行處理。
6. 如權(quán)利要求1所述的編碼裝置, 所述擴(kuò)展層編碼單元還包括范圍選擇單元,計算利用任意數(shù)的相鄰的所述子帶構(gòu)成的多個范圍的聽 覺加權(quán)能量,并從所述多個范圍中選擇所述聽覺加權(quán)能量最高的一個范圍,所述第一形狀向量編碼單元、所述增益向量構(gòu)成單元以及所述增益向量 編碼單元對構(gòu)成所述選擇所得的范圍的多個子帶進(jìn)行處理。
7. 如權(quán)利要求4至權(quán)利要求6的任一項所述的編碼裝置, 所述范圍選擇單元從頻帶頻率比規(guī)定的頻率低的頻帶的多個范圍中選擇一個范圍。
8. 如權(quán)利要求4至權(quán)利要求6的任一項所述的編碼裝置, 具有多個所述擴(kuò)展層,越高的層,所述規(guī)定的頻率越高。
9. 如權(quán)利要求1所述的編碼裝置, 所述擴(kuò)展層編碼單元還包括范圍選擇單元,利用任意數(shù)的相鄰的所述子帶構(gòu)成多個范圍,利用任意 數(shù)的所述范圍構(gòu)成多個部分頻帶,在所述多個部分頻帶的各個部分頻帶中選 擇平均能量最高的一個范圍,并將選擇所得的多個范圍進(jìn)行結(jié)合而構(gòu)成結(jié)合 范圍,所述第一形狀向量編碼單元、所述增益向量構(gòu)成單元以及所述增益向量 編碼單元對構(gòu)成所述選擇所得的結(jié)合范圍的多個子帶進(jìn)行處理。
10. 如權(quán)利要求9所述的編碼裝置,所述范圍選擇單元在所述多個部分頻帶的至少一個部分頻帶中,總是選 擇預(yù)先確定的固定的范圍。
11. 如權(quán)利要求1所述的編碼裝置, 所述擴(kuò)展層編碼單元還包括調(diào)性判定單元,判定所述輸入信號的調(diào)性的強度,在判定為所述輸入信號的調(diào)性的強度是規(guī)定等級以上時,所述擴(kuò)展層編 碼單元將所述殘差信號分割為多個子帶,對所述多個子帶的各個子帶進(jìn)行編 碼而獲得第一形狀編碼信息,并且計算所述多個子帶的各個子帶的目標(biāo)增益, 利用所述多個目標(biāo)增益構(gòu)成一個增益向量,對所述增益向量進(jìn)行編碼而獲得第一增益編碼信息。
12. 如權(quán)利要求1至權(quán)利要求11的任一項所述的編碼裝置, 所述基本層編碼單元還包括下采樣單元,對所述輸入信號進(jìn)行下采樣而獲得下采樣信號;以及 核心編碼單元,對所述下采樣信號進(jìn)行編碼而獲得作為編碼數(shù)據(jù)的核心 編碼數(shù)據(jù),所述基本層解碼單元包括核心解碼單元,對所述核心編碼數(shù)據(jù)進(jìn)行解碼而獲得核心解碼信號; 上采樣單元,對所述核心解碼信號進(jìn)行上采樣而獲得上采樣信號;以及 代用單元,以噪聲代用所述上采樣信號的高頻分量。
13. 如權(quán)利要求1所述的編碼裝置, 還包括增益編碼單元,對所述多個子帶的各個變換系數(shù)的增益進(jìn)行編碼而獲得第二增益編碼信息;歸一化單元,利用對所述增益編碼信息進(jìn)行解碼所得的解碼增益,對所述多個子帶的變換系數(shù)的各個變換系數(shù)進(jìn)行歸一化而獲得歸一化形狀向量; 第二形狀向量編碼單元,對所述多個歸 一化形狀向量的各個歸 一化形狀向量進(jìn)行編碼而獲得第二形狀編碼信息;以及判定單元,對每個幀計算所述輸入信號的調(diào)性,在判定為所述調(diào)性為所 述閾值以上時,將所述多個子帶的變換系數(shù)輸出到所述第一形狀向量編碼單 元,而在判定為所述調(diào)性小于所述閾值時,將所述多個子帶的變換系數(shù)輸出 到所述增益編碼單元。
14. 編碼方法,包括以下的步驟將變換系數(shù)分割為多個子帶,所述變換系數(shù)是將輸入信號變換到頻域而 獲得的變換系數(shù);對所述多個子帶的變換系數(shù)的各個變換系數(shù)進(jìn)行編碼而獲得第 一形狀編 碼信息,并且計算所述多個子帶的各個變換系數(shù)的目標(biāo)增益; 利用所述多個目標(biāo)增益構(gòu)成一個增益向量;以及 對所述增益向量進(jìn)行編碼而獲得第一增益編碼信息。
全文摘要
提供了能夠?qū)θ缭裟菢拥恼{(diào)性較強的信號的頻譜的形狀進(jìn)一步正確地進(jìn)行編碼的語音編碼裝置等。在該裝置中,子帶構(gòu)成單元(151)將作為編碼對象的第一層誤差變換系數(shù)分割為M個子帶并生成M個子帶變換系數(shù),形狀向量編碼單元(152)對M個子帶變換系數(shù)的各個子帶變換系數(shù)進(jìn)行編碼而獲得M個形狀編碼信息,并且計算M個子帶變換系數(shù)的各個子帶變換系數(shù)的目標(biāo)增益,增益向量構(gòu)成單元(153)利用M個目標(biāo)增益構(gòu)成一個增益向量,增益向量編碼單元(154)對增益向量進(jìn)行編碼而獲得增益編碼信息,復(fù)用單元(155)將形狀編碼信息與增益編碼信息復(fù)用。
文檔編號G10L19/02GK101622662SQ20088000678
公開日2010年1月6日 申請日期2008年2月29日 優(yōu)先權(quán)日2007年3月2日
發(fā)明者山梨智史, 押切正浩, 森井利幸 申請人:松下電器產(chǎn)業(yè)株式會社