專利名稱:可擴展編碼裝置、可擴展解碼裝置及其方法
技術領域:
本發(fā)明涉及在高層中進行變換編碼的可擴展編碼裝置、可擴展解碼裝置及其方法。
背景技術:
在移動通信系統(tǒng)中,為了電波資源等的有效利用,人們期求將語音信號壓縮為低比特率進行傳輸?shù)募夹g。但另一方面,用戶要求通話語音的質量提高和親臨現(xiàn)場感高的通話服務的實現(xiàn)。因此除了語音信號的高質量化以外,也要求能夠將頻帶更寬的音頻信號等語音以外的信號高質量地編碼。
對于這種相反的兩種要求,分層地合并多個編碼技術的技術備受關注。在該技術中,分層地組合第一層和第二層,該第一層使用適合于語音信號的模式將輸入信號以低比特率編碼,該第二層使用也適合于語音以外的信號的模式將輸入信號與在第一層的解碼信號的差值信號編碼。這種分層地進行編碼的技術因為通過編碼裝置而獲得的比特流具有可擴展性,即,即使從比特流的一部分信息也能夠獲得解碼信號的特性,所以一般被稱為可擴展編碼。該可擴展編碼能夠靈活地對應比特率不同的網絡之間的通信。因此,可擴展編碼可以說適合于在將來由IP協(xié)議合并多種多樣的網絡的網絡環(huán)境。
作為使用以MPEG-4(Moving Picture Experts Group phase-4)標準化的技術而實現(xiàn)可擴展編碼的技術,例如有在非專利文獻1所公開的技術。該技術是,在第一層采用適合于語音信號的CELP(Code Excited Linear Prediction;碼激勵線性預測)編碼,而在第二層,對從原始信號減去第一層解碼信號的殘差信號適用AAC(Advanced Audio Coder)和Twin VQ(Transform DomainWeighted Interleave Vector Quantization;變換域加權交織矢量量化)等變換編碼。這種變換編碼是指將時域的信號變換到頻率的信號后,對該頻域的信號進行編碼的技術。
另外,作為變換編碼的具體例,有在專利文獻1公開的技術。該技術是,通過對輸入信號進行音調分析而求音調頻率,將位于該音調頻率的整數(shù)倍的頻率的頻譜集中編碼。這里,將相當于音調頻率的整數(shù)倍的頻率稱為諧波頻率,該音調頻率是用于確定語音信號的諧波結構的參數(shù),并將在諧波頻率的頻譜稱為諧波譜,此時,專利文獻1的技術可以認為,對諧波譜進行解碼之后,從輸入譜將其減而求出誤差譜,然后再對該誤差譜進行編碼。通過該結構,能夠以較少的運算量對諧波譜高效率地進行編碼,并提供了音質惡化較少的編碼方式。
(專利文獻1)特開平9-181611號公報(非專利文獻1)三木弼一編著,“MPEG-4の全て”,初版,(株)工業(yè)調查會,1998年9月30日,p.126-127發(fā)明內容本發(fā)明需要解決的問題然而,在將專利文獻1的技術適用于可擴展編碼時,為了確定諧波頻率需要將音調頻率編碼并傳輸?shù)浇獯a端。并且需要對諧波頻率進行解碼后求誤差譜分量,然后再對該誤差譜進行編碼。因此,編碼參數(shù)的比特率增大。
而且,在專利文獻1的技術,假設了只有與一個音調頻率對應的一組諧波譜的情況,即,只有一種音源的情況,因此,例如在輸入信號中包含多個說話者或樂器等多種音源時,難以進行高質量的編碼。因為在有多個音源時,主要的諧波譜(主諧波譜)和次要的諧波譜(副諧波譜),即由不同音調頻率確定的多種諧波譜混合存在。
因此,本發(fā)明的目的為提供能夠減少編碼參數(shù)的比特率,同時也能夠對多個諧波結構混合存在的語音信號高效率地進行編碼的可擴展編碼裝置、可擴展解碼裝置和這些的方法。
解決問題的方案本發(fā)明的可擴展編碼裝置所采用的結構包括第一編碼單元,對語音信號使用該語音信號的音調周期進行編碼;計算單元,根據(jù)所述音調周期計算音調頻率;以及第二編碼單元,在所述語音信號的頻譜中,對在所述音調頻率的整數(shù)倍的頻率的頻譜進行編碼。
本發(fā)明的有益效果根據(jù)本發(fā)明,在可擴展編碼中,能夠減少編碼參數(shù)的比特率。并且,在編碼端,也能夠對多個諧波結構混合存在的語音信號高效率地進行編碼,同時在解碼端,能夠提高解碼后的語音信號的音質。
圖1是表示實施方式1的可擴展編碼裝置的主要結構的方框圖。
圖2是表示實施方式1的第二層編碼單元內部的主要結構的方框圖。
圖3是表示音頻信號的頻譜的一個例子的圖。
圖4是表示殘差譜的一個例子的圖。
圖5是表示本發(fā)明實施方式1的可擴展解碼裝置的主要結構的方框圖。
圖6是表示實施方式1的第二層解碼單元內部的主要結構的方框圖。
圖7是表示實施方式1的可擴展編碼裝置的第一變形例的主要結構的方框圖。
圖8是表示實施方式1的第二層編碼單元的主要結構的方框圖。
圖9是表示實施方式1的可擴展解碼裝置的主要結構的方框圖。
圖10是表示實施方式1的第二層解碼單元的主要結構的方框圖。
圖11是表示實施方式1的第二層編碼單元的變形例的主要結構的方框圖。
圖12是表示實施方式1的第二層解碼單元的結構的方框圖。
圖13是表示實施方式2的第二層編碼單元的主要結構的方框圖。
圖14是用于說明殘差譜和起點頻率的關系的圖。
圖15是表示實施方式2的第二層解碼單元的主要結構的方框圖。
圖16是表示實施方式3的可擴展編碼裝置的主要結構的方框圖。
圖17是表示實施方式3的第二層編碼單元內部的主要結構的方框圖。
圖18是表示實施方式3的第三層編碼單元內部的主要結構的方框圖。
圖19是示意地表示第一諧波頻率和第二諧波頻率的圖。
圖20是表示實施方式3的可擴展解碼裝置的主要結構的方框圖。
圖21是表示實施方式3的第二層解碼單元內部的主要結構的方框圖。
圖22是表示實施方式3的第三層解碼單元內部的主要結構的方框圖。
具體實施例方式
下面,參照附圖詳細地說明本發(fā)明的實施方式。
(實施方式1)
圖1是表示本發(fā)明實施方式1的可擴展編碼裝置的主要結構的方框圖。
本實施方式的可擴展編碼裝置的各個單元進行以下的動作。
第一層編碼單元102以CELP方式對輸入的語音信號(原始信號)S11進行編碼,并將獲得的編碼參數(shù)S12提供給復用單元103和第一層解碼單元104。另外,第一層編碼單元102從獲得的編碼參數(shù)中,將音調周期S14提供給第二層編碼單元106。作為該音調周期,采用通過自適應碼本的搜索而獲得的自適應碼本延遲。第一層解碼單元104由從第一層編碼單元102輸出的編碼參數(shù)S12而生成第一層的解碼信號S13,并輸出到第二層編碼單元106。
另一方面,延遲單元105對輸入的語音信號S11提供規(guī)定的長度的延遲。該延遲是用于校正在第一層編碼單元102和第一層解碼單元104等產生的時間延遲。第二層編碼單元106使用由第一層解碼單元104生成的第一層解碼信號S13,對從延遲單元105輸出的被延遲規(guī)定時間的語音信號S15,進行使用MDCT(Modified Discrete Cosine Transform;改進離散余弦變換)的變換編碼,并將所生成的編碼參數(shù)S16輸出到復用單元103。
復用單元103將第一層編碼單元102求出的編碼參數(shù)S12與第二層編碼單元106求出的編碼參數(shù)S16復用,并將它作為輸出編參數(shù)的比特流輸出到外部。
圖2是表示上述的第二層編碼單元106內部的主要結構的方框圖。
MDCT分析單元111為了進行變換編碼,對語音信號S15進行MDCT分析,并將分析結果的頻譜輸出到選擇單元113。變換編碼是將時域的信號變換到頻域的信號,然后對該頻域的信號進行編碼的技術。作為使用MDCT分析的變換編碼,有AAC(Advanced Audio Coder)和Twin VQ(TransformDomain Weighted Interleave Vector Quantization;變換域加權交織矢量量化)等等。
音調頻率變換單元112將由第一層編碼單元102提供的音調周期S14變換為秒單位的值,然后求其倒數(shù)而計算音調頻率,并輸出到選擇單元113和115。
選擇單元113使用從音調頻率變換單元112輸出的音調頻率,在從MDCT分析單元111輸出的語音信號的頻譜中選擇一部分頻譜,并輸出到加法單元117。具體地說,選擇單元113選擇位于音調頻率的整數(shù)倍的頻率(諧波頻率)的頻譜(諧波譜),并輸出到加法單元117。第二層編碼單元106對該選擇出的多個諧波譜進行以后的編碼處理。這樣,通過將編碼對象的頻譜限定為部分范圍而不是全范圍,從而能夠實現(xiàn)編碼率的低比特率化。另外,這里所謂諧波譜是指位于諧波頻率上的非常窄的頻帶的如同線譜的頻譜。
MDCT分析單元114與MDCT分析單元111同樣地對從第一層解碼單元104輸出的第一層解碼信號S13進行MDCT分析,并將分析結果的頻譜輸出到選擇單元115。
選擇單元115與選擇單元113同樣地使用從音調頻率變換單元112輸出的音調頻率,在從MDCT分析單元114輸出的第一層解碼信號的頻譜中選擇一部分范圍的頻譜,并輸出到加法單元116。
殘差譜碼本121生成與后述的搜索單元120指示的索引對應的殘差譜,并輸出到乘法器123。
增益碼本122將與后述的搜索單元120指示的索引對應的增益輸出到乘法器123。
乘法器123將由殘差譜碼本121生成的殘差譜乘以從增益碼本122輸出的增益,并將增益調整后的殘差譜輸出到加法器116。
加法器116將從選擇單元115輸出的、被限定在一部分范圍的第一層解碼信號的頻譜與從乘法器123輸出的增益調整后的殘差譜相加,并輸出到加法器117。
加法器117從選擇單元113輸出的、被限定在一部分范圍的語音信號的頻譜減去從加法器116輸出的第一層解碼信號的頻譜而求殘差譜,并輸出到加權單元119。在第二層編碼單元106以使該殘差譜最小的方式進行編碼。
聽覺掩蔽計算單元118對于語音信號S15計算不被人察覺的噪聲功率的閾值,即聽覺掩蔽,并輸出到加權單元119。人的聽覺中有在被提供某個頻率的信號時,難以聽見該頻率附近的信號的特性(掩蔽效應),聽覺掩蔽計算單元118由輸入的語音信號S15的頻譜計算聽覺掩蔽,以在第二層編碼單元106利用這種特性。
加權單元119對從加法器117輸出的殘差譜進行使用由聽覺掩蔽計算單元118計算出的聽覺掩蔽的加權,并輸出到搜索單元120。
上述的殘差譜碼本121、增益碼本122、乘法器123、加法器116、117以及加權單元119構成閉環(huán)(反饋環(huán)),搜索單元120使對殘差譜碼本121和增益碼本122指示的索引各式各樣地變化,以使從加權單元119輸出的殘差譜最小。
進一步詳細地說,存儲于殘差譜碼本121的殘差譜的矢量候補以及存儲于增益碼本122的增益候補,例如以使下面的式(1)表示的失真E最小的方式而被決定。其中,w(k)代表基于聽覺掩蔽決定的加權函數(shù),o(k)代表原始信號譜,g(j)代表第j增益候補,e(i,k)代表第i殘差譜候補,b(k)代表基本層頻譜。
(式1)E=Σkw(k)·(o(k)-(g(j)·e(i,k)+b(k)))2]]>另外,在第二層編碼單元106是使用標度因子的編碼單元時,失真E被定義為例如下面的式(2)。其中,SF(k)代表對原始信號譜的標度因子進行編碼的結果獲得的解碼標度因子,b’(k)代表將基本層頻譜以它本身的標度因子歸一化的結果獲得的頻譜。
(式2)E=Σkw(k)·(o(k)-(g(j)·e(i,k)+SF(k)·b′(k)))2]]>搜索單元120將通過上述的閉環(huán)最后獲得的殘差譜碼本121和增益碼本122的索引,作為編碼參數(shù)S16輸出到第二層編碼單元106的外部。
接著,以下使用附圖詳細地說明通過由選擇單元113和115選擇一部分范圍的頻率的處理,能夠提高編碼效率的原理。
圖3是表示作為原始信號的音頻信號的頻譜的一個例子的圖。采樣頻率為16kHz。
在本例子中,音調頻率為約600Hz??梢钥闯?,在一般的音頻信號中,在音調頻率的整數(shù)倍的位置,即,諧波頻率f1、f2、f3、…的位置上出現(xiàn)多個頻譜的尖峰(諧波頻)。
圖4是表示從在圖3所示的原始信號譜減去第一層解碼信號的頻譜后所獲得的殘差譜的一個例子的圖。在本圖中,實線表示殘差譜,虛線表示聽覺掩蔽閾值。
如該圖所示,因為在第一層中被施以編碼,殘差譜的振幅從整體來看比原始信號譜小。并且,低頻帶的頻譜的振幅比高頻帶的頻譜的振幅小。這是因為,在第一層編碼單元102進行的CELP編碼有如下特征,即,對信號能量越大的分量,進行使編碼失真越小的處理。
另外,雖然位于諧波頻率上的殘差譜與原始信號譜相比振幅衰減,但依然保留其尖峰形狀。即,即使振幅衰減,也常常發(fā)生在諧波頻率上殘差譜的尖峰超過聽覺掩蔽閾值的情況。并且,由于CELP編碼的上述特征,與低頻帶相比,在高頻帶超過聽覺掩蔽閾值的殘差譜的尖峰數(shù)更多。
另一方面,在殘差譜比聽覺掩蔽閾值小時,其編碼失真在聽覺上不被察覺。如上述,超過聽覺掩蔽閾值的殘差譜大多是位于諧波頻率上或其附近,越是高頻帶該傾向越明顯。另外,在諧波頻率以外的頻率上的殘差譜大多比聽覺掩蔽閾值小,無需作為編碼對象。
于是,考慮以上的特性,在本實施方式,為了進行輸入信號的高效率的編碼,在第二層中,將位于諧波頻率上的頻譜作為編碼對象。
圖5是表示對在上述的可擴展編碼裝置被編碼的代碼進行解碼的裝置,即,本實施方式的可擴展解碼裝置的主要結構的方框圖。
分離單元151將由上述可擴展編碼裝置編碼的代碼分離為第一層解碼單元152用的編碼參數(shù)和第二層解碼單元153用的編碼參數(shù)。
第一層解碼單元152對由分離單元151獲得的編碼參數(shù)進行CELP方式的解碼,并將獲得的第一層解碼信號提供給第二層解碼單元153。另外,第一層解碼單元152將通過上述的CELP方式的解碼而獲得的音調周期輸出到第二層解碼單元153。作為該音調周期,采用自適應碼本延遲。根據(jù)需要,該第一層解碼信號也作為低質量的解碼信號直接被輸出到外部。
第二層解碼單元153使用從第一層解碼單元152獲得的第一層解碼信號,對由分離單元151分離的第二層編碼參數(shù)進行后述的解碼處理,并根據(jù)需要將獲得的第二層解碼信號作為高質量的解碼信號輸出到外部。
這樣,能夠由第一層解碼信號擔保再現(xiàn)語音的最低限度的質量,并由第二層解碼信號提高再現(xiàn)語音的質量。另外,輸出第一層解碼信號或第二層解碼信號的哪一方是依賴于能否根據(jù)網絡環(huán)境(分組丟失的發(fā)生等)獲得第二層編碼參數(shù),或應用和用戶的設定等。
圖6是表示上述的第二層解碼單元153內部的主要結構的方框圖。
該圖所示的MDCT分析單元161、加法器162、音調頻率變換單元164、殘差譜碼本166、乘法器167和增益碼本168是分別與上述的可擴展編碼裝置的第二層編碼單元106(參照圖2)具備的MDCT分析單元114、加法器116、音調頻率變換單元112、殘差譜碼本121、乘法器123和增益碼本122對應的結構,并且,各個單元基本上具有同樣的功能。
殘差譜碼本166使用由分離單元151提供的編碼參數(shù)(振幅信息),從所存儲的多個殘差譜候補中選擇一個殘差譜,并輸出到乘法單元167。
增益碼本168使用由分離單元151提供的編碼參數(shù)(增益信息),從所存儲的多個增益候補中選擇一個增益,并輸出到乘法單元167。
乘法單元167將由殘差譜碼本166提供的殘差譜與由增益碼本168提供的增益相乘,并將增益調整后的殘差譜輸出到配置單元165。
音調頻率變換單元164使用由第一層解碼單元152提供的音調周期,計算音調頻率,并輸出到配置單元165。該音調頻率是,將音調周期變換為秒單位的值,并以其倒數(shù)表示。
配置單元165在以音調頻率變換單元164提供的音調頻率表示的諧波頻率上配置由乘法單元167提供的增益調整后的殘差譜,并輸出到加法單元162。該殘差譜的配置方法依賴于在編碼端的第二層編碼單元106內部的選擇單元113和115中,如何使用音調頻率配置MDCT系數(shù)。在解碼端也采用與編碼端同樣的配置方法。
MDCT分析單元161通過MDCT變換對從第一層解碼單元152輸出的第一層解碼信號進行頻率分析,并將獲得的MDCT系數(shù)、即第一層解碼頻譜輸出到加法器162。
加法器162通過將從MDCT分析單元161輸出的第一層解碼頻譜與從配置單元165輸出的各個配置殘差譜后的頻譜相加,從而生成第二層解碼頻譜,將它輸出到時域變換單元163。
時域變換單元163將從加法器162輸出的第二層解碼頻譜變換到時域的信號后,根據(jù)需要進行適當?shù)拇翱诔朔ê椭丿B相加等處理,從而避免在幀間產生的間斷,并輸出最終的高質量的解碼信號。
如以上的說明,根據(jù)本實施方式,使用通過在第一層的CELP方式的編碼而求的音調周期,在第二層確定諧波頻率,它決定語音信號的諧波結構,并只將在該諧波頻率上的頻譜作為編碼對象。由此,因為不將語音信號的整個頻帶作為編碼對象,能夠降低編碼參數(shù)的比特率,同時,因為諧波頻率上的頻譜是很好地表示語音信號的特征的頻譜,所以能夠以較少的比特率獲得高質量的解碼信號,且編碼效率高。而且,也不需將有關音調頻率的附加信息傳輸?shù)浇獯a端。
另外,在本實施方式,舉例說明了在第二層的變換編碼中,將諧波譜、即諧波頻率上的頻譜作為編碼對象的情況,但作為編碼對象的頻譜不一定必需限定為諧波頻率上的頻譜,也可例如在位于諧波頻率附近的頻譜中選擇具有比其它頻譜更尖銳的尖峰形狀的頻譜而作為編碼對象。此時,必需將從諧波頻率到所選擇的頻譜的相對的位置信息編碼并傳輸?shù)浇獯a單元。
另外,在本實施方式,舉例說明了在第二層的變換編碼中,將諧波譜、即位于諧波頻率上的頻帶非常窄的如同線譜的頻譜作為編碼對象的情況。但作為編碼對象的頻譜不一定必需為如同線譜的頻譜,還可例如將諧波頻率附近的具有一定的帶寬(但為窄帶)的頻譜作為編碼對象。例如,可以設定以諧波頻率為中心的一定范圍的頻域作為該一定的帶寬。
圖7是表示本實施方式的可擴展編碼裝置的變形例1的主要結構的方框圖。其中,對與已經說明的結構元素相同的結構元素賦予相同的標號,并省略其說明。
雖然第一層編碼單元102a的基本動作與第一層編碼單元102相同,但在不將音調周期輸出到第二層編碼單元206這一點上有所不同。第二層編碼單元206對從第一層解碼單元104輸出的第一層解碼信號S13進行相關分析,從而求音調周期。
圖8是表示上述的第二層編碼單元206內部的主要結構的方框圖。其中,對與已經說明的結構元素相同的結構元素賦予相同的標號,并省略其說明。
在相關分析單元211的相關分析,設第一層解碼信號為y(n)時,例如根據(jù)下面的式(3)進行。這里,τ代表音調周期的候補,在搜索范圍TMIN~TMAX中,將在使Cor(τ)最大時的τ作為音調周期輸出。
式(3)Cor(τ)=Σny(n)·y(n-τ)Σny(n-τ)2TMIN≤τ≤TMAX]]>在第一層編碼單元102a求出的音調周期是,通過在使內部的自適應碼本所包含的自適應矢量候補與原始信號的失真最小化的處理中決定的,有可能由于自適應碼本所包含的自適應矢量候補的內容而不能求正確的音調周期,有時求其整數(shù)倍或整數(shù)分之一的音調周期。但是,第一層編碼單元102a還具備對無法以自適應碼本表達的誤差分量進行編碼的噪聲碼本。假如在自適應碼本不能有效發(fā)揮功能時,也通過使用噪聲碼本生成編碼參數(shù),從而使對該編碼參數(shù)進行解碼而獲得的第一層解碼信號更接近于原始信號。因此,在本變形例中,通過對該第一層解碼信號進行音調分析,能夠獲得更正確的音調信息。
因此,根據(jù)本變形例,能夠提高編碼性能。另外,因為在解碼端也能夠獲得第一層解碼信號,所以根據(jù)本變形例,無需將有關音調周期的信息傳輸?shù)浇獯a端。
圖9是表示與圖7所示的可擴展編碼裝置對應的可擴展解碼裝置的主要結構的方框圖。另外,圖10是表示該可擴展解碼裝置內的第二層解碼單元253的主要結構的方框圖。也在這里,對與已經說明的結構元素相同的結構元素賦予相同的標號,并省略其說明。
圖11是表示本實施方式的可擴展編碼裝置的變形例2,尤其是第二層編碼單元106的變形例(第二層編碼單元306)的主要結構的方框圖。在這里,也對與已經說明的結構元素相同的結構元素賦予相同的標號,并省略其說明。
音調周期修正單元311以在第一層獲得的音調周期為基準,從其周邊的音調頻率重新求出更正確的音調頻率,并對其相差分量進行編碼。更詳細地說,音調周期修正單元311將在第一層獲得的音調周期T與差分量ΔT相加,將T+ΔT變換為秒單位的值后,取其倒數(shù)而求音調周期。并取位于根據(jù)該音調頻率確定的諧波頻率的下面式(4)中的d(k),或者取以諧波頻率為中心而限定的頻率范圍所包含的下述d(k)的總和S。其中,M(k)代表聽覺掩蔽閾值,o(k)代表原始信號譜,b(k)代表第一層解碼信號的頻譜,MAX()代表返回最大值的函數(shù),d(k)代表參數(shù),該參數(shù)表示在將聽覺掩蔽閾值(M(k))與殘差譜(o(k)-b(k))比較時殘差譜的振幅超過聽覺掩蔽閾值多大程度。
式(4)d(k)=Max(|o(k)-b(k)|-M(k),0.0)這里的d(k)相當于被定量化的聽覺上的失真。音調周期修正單元311對在該總和S為最大時的ΔT進行編碼并作為音調周期修正信息輸出。另外,將T+ΔT輸出到音調頻率變換單元112。
圖12是表示與圖11所示的第二層編碼單元306對應的第二層解碼單元353的結構的方框圖。
音調周期修正單元361基于從第二層編碼單元306傳輸?shù)囊粽{周期修正信息對差分量ΔT進行解碼并與音調周期T相加,從而生成修正后的音調周期并輸出它。
根據(jù)這些結構,通過附加較少的比特而求更正確的音調周期,從而能夠實現(xiàn)解碼信號的高質量。
(實施方式2)在本發(fā)明的實施方式2,根據(jù)殘差譜(從原始信號譜減去第一層解碼信號譜的頻譜)和聽覺掩蔽閾值的關系,求用于決定在第二層作為編碼對象的高頻帶頻譜的頻率(起點頻率),并對比該起點頻率更高頻帶的頻譜進行在實施方式1說明的諧波譜的編碼。然后,對起點頻率的信息進行編碼并傳輸?shù)浇獯a單元。
由于在第一層的編碼是CELP方式,有使信號能量較大的分量的編碼失真減小的特性,因此在高頻部分容易發(fā)生聽覺上被察覺失真的頻譜。利用該特性,通過限定作為編碼對象的頻譜數(shù)量來改善編碼效率。
本實施方式的可擴展編碼裝置具有與在實施方式1所示的可擴展編碼裝置同樣的基本結構,因此省略全體圖的說明,以下對與實施方式1不同結構的第二層編碼單元406加以說明。
圖13是表示第二層編碼單元406的主要結構的方框圖。其中,對與在實施方式1所示的第二層編碼單元106相同的結構元素賦予相同的標號,并省略其說明。
起點頻率決定單元411根據(jù)殘差譜和聽覺掩蔽閾值的關系來決定起點頻率。起點頻率的候補被預先決定,并在編碼端和解碼端都具備存儲起點頻率和編碼參數(shù)的候補的同一表格。
例如,計算以下面的式表示的d(k),并使用該d(k)決定起點頻率。
式(5)d(k)=Max(|o(k)-b(k)|-M(k),0.0)d(k)是表示殘差譜的振幅超過聽覺掩蔽閾值多大程度的參數(shù),例如,將殘差譜的振幅不超過聽覺掩蔽閾值的頻譜視為0。
起點頻率決定單元411對于起點頻率的各個候補,取諧波頻率或以諧波頻率為中心而限定的區(qū)間的d(k)的總和,并選擇其變化量大時的起點頻率,輸出其編碼參數(shù)。
圖14是用于說明殘差譜和起點頻率的關系的圖。上段表示殘差譜(實線)和聽覺掩蔽閾值(虛線),下段表示在使起點頻率從0Hz變化到3000Hz時的,即,在起點頻率#0~#3中的編碼對象的頻譜頻率(頻帶)(這里,以信號的接通/斷開表示編碼對象的頻率和編碼對象以外的頻率)。
殘差譜是將采樣頻率16kHz的音頻信號作為原始信號,從該原始信號譜減去第一層解碼信號的頻譜而求出的。在此例中,頻率2000Hz以下的殘差譜為聽覺掩蔽閾值以下,在2000Hz以上的高諧波位置上出現(xiàn)超過聽覺掩蔽閾值的殘差譜。也就是說,上述的d(k)的總和的變化量在從起點頻率#2(2000Hz)到起點頻率#3(3000Hz)之間極大地變化。因此,此時,作為確定編碼對象的頻譜頻率的信息輸出表示起點頻率#2的編碼參數(shù)。
圖15是表示與上述的第二層編碼單元406對應的第二層解碼單元453的主要結構的方框圖。對與在實施方式1所示的第二層解碼單元153(參照圖6)相同的結構元素賦予相同的標號,并省略其說明。
起點頻率解碼單元461使用起點頻率的編碼參數(shù)對起點頻率進行解碼,并輸出到配置單元165b。配置單元165b使用該起點頻率和從音調頻率變換單元164輸出的音調頻率來求出配置解碼殘差譜的頻率,并在該頻率上配置從乘法器167輸出的解碼殘差譜。
根據(jù)本實施方式,能夠獲得以下的效果。即,因為第一層的編碼是CELP方式的編碼,能量較大的低頻帶的頻譜被編碼后,編碼失真較少。因此,在第二層通過只對位于比起點頻率高的頻帶的諧波譜進行編碼,作為編碼對象的頻譜變少,從而能夠降低編碼參數(shù)的比特率。即使在必需將有關起點頻率的信息傳輸?shù)浇獯a端時,也能夠實現(xiàn)編碼參數(shù)的低比特率化。
(實施方式3)在本發(fā)明的實施方式3,在存在多個音源,并且存在用于確定諧波譜的多個音調頻率時,對不僅一組而是多個組的諧波譜分別進行編碼。
圖16是表示本發(fā)明的實施方式3的可擴展編碼裝置的主要結構的方框圖。該可擴展編碼裝置也與在實施方式1所示的可擴展編碼裝置具有相同的基本結構,對相同的結構元素賦予相同的標號,并省略其說明。
本實施方式的可擴展編碼裝置的結構由以下結構構成,即,第二層編碼單元106c,使用在第一層編碼單元102c獲得的音調周期S14進行編碼;以及第三層編碼單元501,從以音調周期S14為基準的周邊的音調周期求新的用于編碼諧波譜的音調周期并進行編碼。
第二層編碼單元106c基于在第一層編碼單元102c獲得的音調周期S14而求音調頻率,對由該音調頻率確定的諧波譜(第一諧波譜)進行編碼,并將所獲得的各個參數(shù),即,解碼第一諧波譜(S51)、聽覺掩蔽閾值(S52)、原始信號譜(S53)以及第一層解碼信號譜(S54)輸出到第三層編碼單元501。
第三層編碼單元501以在第一層編碼單元102c獲得的音調周期S14為基準,從其周邊的音調周期,即,從與音調周期S14接近的值的其它音調周期計算最適當?shù)囊粽{周期,并對由計算出的音調周期確定的諧波譜(第二諧波譜)進行編碼。另外,與實施方式1的變形例2同樣地,第三層編碼單元501也對計算出的音調周期與音調周期S14的相差分量進行編碼。另外,上述的重新計算的音調周期的計算方法采用與實施方式1的變形例2相同的方法。
圖17是表示上述的第二層編碼單元106c內部的主要結構的方框圖。另外,圖18是表示上述的第三層編碼單元501內部的主要結構的方框圖。
第二層編碼單元106c內部的第一諧波譜解碼單元511從由音調周期S14求出的音調頻率和對第一諧波譜進行編碼而獲得的編碼參數(shù)(第一諧波編碼參數(shù))解碼第一諧波譜,并提供給第三層編碼單元501(S51)。
第三層編碼單元501將第一層解碼譜(S54)與第一諧波譜(S51)相加,并利用其結果,通過搜索來決定第二諧波譜的編碼參數(shù)(第二諧波編碼參數(shù))。
圖19是示意地表示在第二層編碼單元106c作為編碼對象的第一諧波頻率和在第三層編碼單元501作為編碼對象的第二諧波頻率的圖。其中,以信號的接通/斷開表示編碼對象的頻率和編碼對象以外的頻率。
這樣,根據(jù)本實施方式,對于具有兩個不同的諧波譜的輸入信號,也能夠分別將各個諧波譜高效率地編碼。并且,通過應用這種編碼,例如包含多個說話者或樂器的情況,對包含諧波頻率不同的多個諧波譜的信號,能夠進行高質量的編碼。由此能夠改善主觀質量。根據(jù)該結構,因為對與基準的音調周期之間的相差分量進行編碼,從而能夠使編碼參數(shù)低比特率化。
另外,如在實施方式1的變形例1所示,第二層編碼單元106c可以使用對第一層解碼信號S13進行分析而求出的音調周期以代替音調周期S14。
圖20是表示與上述的本實施方式的可擴展編碼裝置對應的可擴展解碼裝置的主要結構的方框圖。對與在實施方式1所示的可擴展解碼裝置相同的結構元素賦予相同的標號,并省略其說明。
第二層解碼單元153c使用第一層編碼參數(shù)和直到第一諧波編碼參數(shù)為止的信息進行解碼處理,并輸出高質量#1的解碼信號。第三層解碼單元551使用第一層編碼參數(shù)、第一諧波編碼參數(shù)和第二諧波編碼參數(shù)的信息來進行解碼處理,并輸出與高質量#1的解碼信號相比更高質量的高質量#2的解碼信號。
圖21是表示上述的第二層解碼單元153c內部的主要結構的方框圖。另外,圖22是表示上述的第三層解碼單元551內部的主要結構的方框圖。
第二層解碼單元153c從音調周期和第一諧波編碼參數(shù)對第一諧波譜進行解碼,并將第一諧波譜與第一層解碼譜的相加結果提供給第三層解碼單元551。第三層解碼單元551將第一層解碼譜與解碼第一諧波譜相加后的頻譜(S55)再與解碼第二諧波譜相加。
根據(jù)本結構,通過使用編碼參數(shù)的一部分或全部,能夠生成三種質量的解碼信號,即,低質量的解碼信號、高質量#1的解碼信號和高質量#2的解碼信號。這意味著能夠更細致地控制可擴展功能。
以上說明了本發(fā)明的各個實施方式。
本發(fā)明的可擴展編碼裝置、可擴展解碼裝置和這些的方法不限于上述各個實施方式,能夠進行各種變更而實施。例如,各個實施方式能夠適當?shù)亟M合而實施。
本發(fā)明的可擴展編碼裝置和可擴展解碼裝置也可裝載于移動通信系統(tǒng)中的通信終端裝置和基站裝置。由此能夠提供具有與上述同樣的作用效果的通信終端裝置和基站裝置。
另外,在上述各個實施方式中,舉例說明了可擴展編碼的層數(shù)為兩層或三層的情況,但不限于此,也能夠適用于具有四層以上的可擴展編碼。
另外,在上述各個實施方式中,舉例說明在第一層編碼單元進行CELP方式的編碼的情況,但不限于此,在第一層編碼單元的編碼方法是利用語音信號的音調周期的編碼方法即可。
另外,本發(fā)明在各個層處理的信號的采樣率不同時也可適用。例如,在以Fs(n)表示第n層處理的信號的采樣率時,F(xiàn)s(n)≤Fs(n+1)的關系成立。
另外,在上述各個實施方式中,舉例說明作為在第二層的變換編碼的方式使用MDCT的情況,但不限于此,也可以是例如使用DFT(離散傅立葉變換)、余弦變換或小波變換等其它變換編碼方式。
還有,以在第一層獲得的音調周期(T1)為基準而決定周邊的音調周期時,也可將包含T1的整數(shù)倍或整數(shù)分之一的至少一方的音調周期作為決定音調周期時的基準。這也可作為對半音調(half pitch)、倍音調(double pitch)等的對策。
另外,這里,舉例說明由硬件構成本發(fā)明的情況,但本發(fā)明還能夠以軟件實現(xiàn)。
另外,用于上述實施方式的說明中的各功能塊通常被作為集成電路的LSI來實現(xiàn)。這些塊既可以被單獨地集成為一個芯片,也可以是一部分或全部被集成為一個芯片。
另外,雖然此處稱為LSI,但根據(jù)集成程度,可以被稱為IC、系統(tǒng)LSI、超級LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,實現(xiàn)集成電路化的方法不僅限于LSI,也可使用專用電路或通用處理器實現(xiàn)之。在LSI制造后可利用可編程的FPGA(Field Programmable GateArray),或者可以使用可重構LSI內部的電路單元的連接和設定的可重構處理器。
再者,隨著半導體的技術進步或隨之派生的其它技術的出現(xiàn),如果能夠出現(xiàn)替代LSI集成電路化的新技術,當然可利用新技術進行功能塊的集成化。還存在著適用生物技術等的可能性。
本說明書是根據(jù)2004年10月28日申請的日本專利申請第2004-314230號。其內容全部包含于此。
工業(yè)實用性本發(fā)明的可擴展編碼裝置、可擴展解碼裝置及其方法可適用于在移動通信系統(tǒng)中的通信終端裝置和基站裝置等的用途。
權利要求
1.一種可擴展編碼裝置,包括第一編碼單元,對語音信號使用該語音信號的音調周期進行編碼;計算單元,根據(jù)所述音調周期計算音調頻率;以及第二編碼單元,從所述語音信號的頻譜中,對在所述音調頻率的整數(shù)倍的頻率上的頻譜進行編碼。
2.如權利要求1所述的可擴展編碼裝置,還包括第三編碼單元,對于存在多個音調頻率的語音信號的頻譜,使用與在所述第二編碼單元使用的音調頻率不同的音調頻率,對在該音調頻率的整數(shù)倍的頻率上的頻譜進行編碼。
3.如權利要求2所述的可擴展編碼裝置,其中,所述第三編碼單元還對所述不同音調頻率和所述第二編碼單元所使用的音調頻率之間的差進行編碼。
4.如權利要求1所述的可擴展編碼裝置,其中,所述計算單元從由所述第一編碼單元獲得的編碼參數(shù)的解碼信號中獲得所述音調周期,并計算所述音調頻率。
5.如權利要求1所述的可擴展編碼裝置,其中,所述第二編碼單元在所述語音信號的頻譜中,對高于規(guī)定頻率的頻帶的頻譜進行所述編碼。
6.如權利要求5所述的可擴展編碼裝置,其中,所述第二編碼單元還對有關所述規(guī)定頻率的信息進行編碼。
7.如權利要求1所述的可擴展編碼裝置,還包括修正單元,對所述音調周期基于該音調周期周邊的音調周期進行修正,所述計算單元由修正后的音調周期計算所述音調頻率。
8.如權利要求7所述的可擴展編碼裝置,其中,所述第二編碼單元還對所述音調周期和所述修正后的音調周期之間的差進行編碼。
9.如權利要求1所述的可擴展編碼裝置,其中,所述第二編碼單元進行使用了MDCT(Modified Discrete CosineTransform,改進離散余弦變換)的編碼。
10.如權利要求1所述的可擴展編碼裝置,其中,所述音調頻率的整數(shù)倍的頻率上的頻譜是具有一定的帶寬的頻譜。
11.一種可擴展解碼裝置,包括第一解碼單元,對使用語音信號的音調周期而編碼的所述語音信號的第一編碼參數(shù),利用所述音調周期進行解碼;計算單元,根據(jù)所述音調周期計算音調頻率;生成單元,使用對所述語音信號的頻譜中的一部分頻譜進行編碼所獲得的第二編碼參數(shù)生成所述一部分頻譜;以及配置單元,在由所述計算單元計算的音調頻率的整數(shù)倍的頻率上,配置由所述生成單元所生成的頻譜。
12.一種通信終端裝置,包括如權利要求1所述的可擴展編碼裝置。
13.一種通信終端裝置,包括如權利要求11所述的可擴展解碼裝置。
14.一種基站裝置,包括如權利要求1所述的可擴展編碼裝置。
15.一種基站裝置,包括如權利要求11所述的可擴展解碼裝置。
16.一種可擴展編碼方法,包括對語音信號使用該語音信號的音調周期進行編碼的步驟;根據(jù)所述音調周期計算音調頻率的步驟;以及在所述語音信號的頻譜中,對所述音調頻率的整數(shù)倍的頻率上的頻譜進行編碼的步驟。
17.一種可擴展解碼方法,包括第一解碼步驟,對使用語音信號的音調周期而編碼的所述語音信號的第一編碼參數(shù),利用所述音調周期進行解碼;計算步驟,根據(jù)所述音調周期計算音調頻率;生成步驟,使用對所述語音信號的頻譜中的一部分頻譜進行編碼所獲得的第二編碼參數(shù)生成所述一部分頻譜;以及配置步驟,在所述計算步驟所計算的音調頻率的整數(shù)倍的頻率上,配置在所述生成步驟中所生成的頻譜。
全文摘要
公開了可擴展編碼裝置,能夠使編碼參數(shù)的比特率減少,并對混合存在多個諧波結構的語音信號也能夠高效率地編碼。在該裝置中,MDCT分析單元(111)對語音信號(S15)進行MDCT分析,以便進行變換編碼。音調頻率變換單元(112)求音調周期的倒數(shù)而計算音調頻率。選擇單元(113)選擇位于音調頻率的整數(shù)倍的頻率上的頻譜。第二層編碼單元(106)對該所選擇的多個頻譜進行編碼處理。
文檔編號G10L19/08GK101044553SQ20058003601
公開日2007年9月26日 申請日期2005年10月26日 優(yōu)先權日2004年10月28日
發(fā)明者押切正浩 申請人:松下電器產業(yè)株式會社