專利名稱:編碼裝置以及編碼方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對語音信號和音頻信號進行編碼的編碼裝置以及編碼方法。
背景技術(shù):
在移動通信中,為了實現(xiàn)電波等的傳輸路徑容量和記錄媒體的有效利用,必須對語音和圖像的數(shù)字信息進行壓縮編碼,至今為止開發(fā)了諸多編碼/解碼方式。其中,語音編碼技術(shù)通過CELP (Code Excited Linear Prediction,碼激勵線性預(yù)測)而大幅提高了其性能,該CELP為對語音的發(fā)聲機構(gòu)進行模式化并巧妙地應(yīng)用矢量量化的基本方式。另外,音頻編碼等音樂編碼技術(shù)通過變換編碼技術(shù)(MPEG標準ACC和MP3等)而大幅提聞了其性能。像CELP那樣的語音信號的編碼中,使用激勵和合成濾波器表示語音信號的情況較多,如果通過解碼能夠獲得其形狀類似于作為時序矢量的激勵信號的矢量,則能夠通過合成濾波器獲得與輸入語音近似到一定程度的波形,獲得聽覺上也良好的音質(zhì)。這是與CELP中使用的代數(shù)碼本的成功也有關(guān)的定性性質(zhì)。另一方面,通過ITU-T (International TelecommunicationUnion-Telecommunication Standardization Sector,國際電信聯(lián)盟-電信標準化分部)等進行標準化的可擴展編解碼中的規(guī)格覆蓋從以往的語音頻帶(300Hz 3. 4kHz)直到寬帶( 7kHz),比特速率也設(shè)定了直到32kbps程度的高速率。因此,寬帶的編解碼中需要對音樂也進行一定程度的編碼,所以,僅通過如CELP那樣的、基于人的發(fā)聲模式的以往的低比特速率語音編碼方法,無法對應(yīng)。因此,在以往推薦的ITU-T標準G. 729. I中,對寬帶以上的語音的編碼采用了音頻編解碼的編碼方式的變換編碼。專利文獻I示出了,在對使用譜參數(shù)和音調(diào)參數(shù)(pitch parameter)的頻譜(frequency spectrum)的編碼方式中,對用譜參數(shù)使語音信號通過逆濾波器所得的信號進行正交變換,從而進行編碼的技術(shù),以及作為該編碼的例子,通過代數(shù)結(jié)構(gòu)的碼本進行編碼的方法。[專利文獻I]日本專利申請?zhí)亻_平10-260698號公報
發(fā)明內(nèi)容
發(fā)明要解決的問題然而,以往的頻譜的編碼方式中,將有限的比特信息較多地分配給脈沖的位置信息,而不分配給脈沖的振幅信息,并將所有脈沖的振幅設(shè)為一定,所以殘留編碼失真。本發(fā)明的目的為提供編碼裝置和編碼方法,在頻譜的編碼方式中,能夠比以前減少平均的編碼失真,并能夠獲得聽覺上良好的首質(zhì)。
解決問題的方案本發(fā)明的編碼裝置為以多個固定波形對頻譜進行模式化后進行編碼的編碼裝置,該編碼裝置采用的結(jié)構(gòu)包括形狀量化單元,檢索所述固定波形的位置和極性,進行編碼;以及增益量化單元,對所述固定波形的增益進行編碼,所述形狀量化單元在檢索所述固定波形的位置時,將在后檢索的固定波形的振幅設(shè)定為在前檢索出的固定波形的振幅以下。本發(fā)明的編碼方法為以多個固定波形對頻譜進行模式化后進行編碼的編碼方法,該編碼方法包括形狀量化步驟,檢索所述固定波形的位置和極性,進行編碼;以及增益量化步驟,對所述固定波形的增益進行編碼,在所述形狀量化步驟中檢索所述固定波形的位置時,將在后檢索的固定波形的振幅設(shè)定為在前檢索出的固定波形的振幅以下。本發(fā)明的編碼裝置對語音信號進行第一編碼得到殘差分量,對該殘差分量使用MDCT(modified discrete consine transform)進行正交變換,對經(jīng)該正交變換所得的頻譜使用多個脈沖進行模式化后進行第二編碼,該編碼裝置包括形狀量化單元,檢索N個振幅為I的脈沖、M個振幅為0. 8的脈沖,并對所述N個振幅為I的脈沖和所述M個振幅為0. 8 的脈沖的、位置和極性進行編碼;以及增益量化單元,基于所述頻譜、所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖,對增益進行編碼,其中,N、M為自然數(shù)。本發(fā)明的編碼方法對語音信號進行第一編碼得到殘差分量,對該殘差分量使用MDCT進行正交變換,對經(jīng)該正交變換所得的頻譜使用多個脈沖進行模式化后進行第二編碼,該編碼方法包括以下步驟檢索N個振幅為I的脈沖、M個振幅為0. 8的脈沖,并對所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖的、位置和極性進行編碼;以及基于所述頻譜、所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖,對增益進行編碼,其中,N、M為自然數(shù)。發(fā)明的效果根據(jù)本發(fā)明,通過將在后檢索的脈沖的振幅設(shè)定為在前檢索出的脈沖的振幅以下,在頻譜的編碼方式中,能夠比以前減少平均的編碼失真,即使在低比特速率的情況下也能夠獲得良好的首質(zhì)。
圖I是表示本發(fā)明的一個實施方式的語音編碼裝置的結(jié)構(gòu)的方框圖。圖2是表示本發(fā)明的一個實施方式的語音解碼裝置的結(jié)構(gòu)的方框圖。圖3是表示本發(fā)明的一個實施方式的形狀量化單元的檢索算法的流程圖。圖4是表示本發(fā)明的一個實施方式的、以形狀量化單元中檢索出的脈沖表現(xiàn)的譜的例子的圖。
具體實施例方式CELP方式等的語音信號的編碼中,使用激勵和合成濾波器表示語音信號的情況較多,如果通過作為時序矢量的激勵信號的解碼能夠獲得類似于語音信號的形狀的矢量,則能夠通過合成濾波器獲得近似于輸入語音的波形,獲得聽覺上也良好的音質(zhì)。這是也與CELP中使用的代數(shù)碼本的成功有關(guān)的定性性質(zhì)。另一方面,頻譜(矢量)的編碼中,合成濾波器的分量為譜增益,所以與該增益的失真相比,主要在于功率較大的分量的頻率(位置)的失真。也就是說,與對具有類似于輸入譜的形狀的矢量進行解碼相比,如果正確地檢索較高能量存在的位置,并對該能量所存在的位置的脈沖進行解碼,則能夠獲得聽覺上良好的音質(zhì)。因此,在頻譜的編碼中,采用以少數(shù)的脈沖對頻譜進行編碼的模式,并采用在編碼對象的頻率區(qū)間內(nèi)對脈沖進行開環(huán)檢索的方式。在該脈沖的開環(huán)檢索中,從使失真小的脈沖開始依序選擇脈沖,所以越是在后檢索的脈沖,其振幅的期待值越小,本發(fā)明的發(fā)明人鑒于這一點,完成了本發(fā)明。也就是說,本發(fā)明的特征為,將在后檢索的脈沖的振幅設(shè)為在前檢索出的脈沖的振幅以下。接下來,利用
本發(fā)明的一個實施方式。 圖I是表示本實施方式的語音編碼裝置的結(jié)構(gòu)的方框圖。圖I所示的語音編碼裝置包括LPC分析單元101、LPC量化單元102、逆濾波器103、正交變換單元104、譜編碼單元
105、以及復(fù)用單元106。譜編碼單元105包括形狀量化單元111和增益量化單元112。LPC分析單元101對輸入語音信號進行線性預(yù)測分析,并且將作為分析結(jié)果的譜包絡(luò)參數(shù)輸出到LPC量化單元102。LPC量化單元102進行從LPC分析單元101輸出的譜包絡(luò)參數(shù)(LPC :線性預(yù)測系數(shù))的量化處理,將表示量化LPC的代碼(code)輸出到復(fù)用單元106。另外,LPC量化單元102將對表示量化LPC的代碼進行解碼所得的解碼參數(shù)輸出到逆濾波器103。另外,在參數(shù)的量化中,使用矢量量化(VQ)、預(yù)測量化、多階VQ、分離VQ等形態(tài)。逆濾波器103使用解碼參數(shù)使輸入語音通過逆濾波器,將所得的殘差分量輸出到正交變換單元104。正交變換單元104對殘差分量施加正弦窗等整合窗(overlap window),使用MDCT進行正交變換,將變換為頻域的譜(以下,稱為“輸入譜”)輸出到譜編碼單元105。另外,作為正交變換還存在FFT、KLT、小波(wavelet)變換等,雖然它們的使用方法不同,但使用哪一種都能夠變換為輸入譜。另外,也有顛倒逆濾波器103和正交變換單元104的處理順序的情況。也就是說,只要使用逆濾波器的頻譜對正交變換后的輸入語音進行除法運算(對數(shù)軸上進行減法運算),就能夠得到同樣的輸入譜。譜編碼單元105對輸入譜分為譜的形狀和增益來進行量化,將所得的量化編碼輸出到復(fù)用單元106。形狀量化單元111以少數(shù)的脈沖的位置和極性對輸入譜的形狀進行量化,增益量化單元112對每個頻帶計算由形狀量化單元111檢索出的脈沖的增益,對其進行量化。另外,后面敘述形狀量化單元111和增益量化單元112的細節(jié)。復(fù)用單元106從LPC量化單元102輸入了表示量化LPC的代碼,從譜編碼單元105輸入表示量化輸入了譜的代碼,對這些信息進行復(fù)用并輸出到傳輸路徑作為編碼信息。圖2是表示本實施方式的語音解碼裝置的結(jié)構(gòu)的方框圖。圖2所示的語音解碼裝置包括分離單元201、參數(shù)解碼單元202、譜解碼單元203、正交變換單元204、以及合成濾波器205。圖2中,分尚單兀201將編碼信息分尚為各個代碼。表不量化LPC的代碼輸出到參數(shù)解碼單元202,輸入譜的代碼輸出到譜解碼單元203。參數(shù)解碼單元202進行譜包絡(luò)參數(shù)的解碼,將解碼所得的解碼參數(shù)輸出到合成濾波器205。譜解碼單元203使用與圖I所示的譜編碼單元105中的編碼方法對應(yīng)的方法對形狀矢量和增益進行解碼,通過將解碼出的形狀矢量與解碼增益相乘獲得解碼譜,將解碼譜輸出到正交變換單元204。正交變換單元204對從譜解碼單元203輸出的解碼譜進行與圖I所示的正交變換單元104的變換處理相反的處理,將變換所得的時序的解碼殘差信號輸出到合成濾波器205。合成濾波器205使用從參數(shù)解碼單元202輸出的解碼參數(shù),使從正交變換單元204輸出的解碼殘差信號通過合成濾波器,獲得輸出語音。另外,在顛倒圖I的逆濾波器103和正交變換單元104的處理順序的情況下,圖2的語音解碼裝置中,進行正交變換之前使用解碼參數(shù)的頻譜進行乘法運算(對數(shù)軸上進行 加法運算),對所得的譜進行正交變換。接下來,說明形狀量化單元111和增益量化單元112的細節(jié)。形狀量化單元111在整個規(guī)定的檢索區(qū)間,以開環(huán)逐個地檢索脈沖的位置和極性(+-)。作為檢索的基準的式子為下式(I)。另外,式(I)中,E表示編碼失真,Si表示輸入譜,g表示最佳增益,S表示A (delta)函數(shù),p表示脈沖的位置,Yb表示脈沖的振幅,b表示脈沖的編號。形狀量化單元111將在后檢索的脈沖的振幅設(shè)為在前檢索出的脈沖的振幅以下。E = H fIsI-H SVb^-Pb)f'''(I)
i b根據(jù)上述式(I),使價值函數(shù)(cost function)最小的脈沖的位置為在各個頻帶中輸入譜的絕對值|sp|為最大的位置,極性為該脈沖的位置的輸入譜的值的極性。本實施方式中,對應(yīng)于脈沖的檢索順序,預(yù)先決定被檢索的脈沖的振幅。例如通過以下步驟設(shè)定脈沖的振幅。(I)首先,將所有脈沖的振幅設(shè)為1.0。另外,作為初始值,將n設(shè)為2。(2)少量地逐步減少第n脈沖的振幅,對訓練用數(shù)據(jù)進行編碼和解碼,搜索性能(S/N比、SD (Spectrum Distance :譜距離)等)呈峰值的值。此時,將第n+1以后的脈沖的振幅都設(shè)為與第n脈沖的振幅相同的振幅。(3)將性能最佳時的所有振幅固定,并使n = n+1。
(4)反復(fù)進行上述(2)至(3)的處理,直到n為脈沖的個數(shù)為止。以下,以輸入譜的矢量長度為64樣本出比特),且通過5個脈沖對譜進行編碼的情況為例子進行說明。在本例子中,為了表示脈沖的位置需要6比特(位置的項(entry)64),為了表示極性需要I比特(+_),所以合計為35比特的信息比特。圖3表示在該例子中的形狀量化單元111的檢索算法的流程。另外,圖3的流程圖中使用的標號的內(nèi)容如下。c :脈沖的位置pos [b]:檢索結(jié)果(位置)pol [b]:檢索結(jié)果(極性)s[i]:輸入譜X :分子項
y :分母項dn_mx :最大時的分子項cc_mx :最大時的分母項dn:已經(jīng)檢索的分子項cc:已經(jīng)檢索的分母項b :脈沖的編號y [b]:脈沖的振幅
圖3中表示,首先檢索能量最大的位置并建立脈沖,以不在相同的位置建立兩個脈沖的方式,進行下一脈沖的檢索的算法(圖3中的記號“女”)。另外,圖3的算法中,分母y僅依賴于編號b,所以通過預(yù)先計算該值,能夠簡化圖3的算法。圖4表示以形狀量化單元111中檢索出的脈沖表現(xiàn)的譜的例子。另外,圖4中示出,從脈沖Pl開始依序檢索到脈沖P5的情況。如圖4所示,本實施方式中,使在后檢索出的脈沖的振幅為在前檢索出的脈沖的振幅以下。由于預(yù)先與脈沖的檢索順序?qū)?yīng)地決定被檢索的脈沖的振幅,所以不需要使用信息比特來表現(xiàn)振幅,從而能夠使全部的信息比特量與將振幅固定時的比特量相同。增益量化單元112分析解碼出的脈沖串和輸入譜之間的相關(guān),求理想增益。通過下面的式(2)求理想增益g。另外,在式(2)中,s(i)為輸入譜,v(i)為對形狀進行解碼所
得的矢量。
YjS(I)XV(I)g = ■ ■ ■ (2)
i然后,增益量化單元112求得理想增益之后,通過標量(scalar)量化(SQ)和矢量量化進行編碼。在進行矢量量化的情況下,通過預(yù)測量化、多階VQ、分離VQ等,能夠高效率地進行編碼。另外,由于增益在聽覺上成對數(shù)地聽見,所以如果對增益進行對數(shù)變換之后進行SQ、VQ,則能夠獲得聽覺上良好的合成聲音。如上所述,根據(jù)本實施方式,通過將在后檢索的脈沖的振幅設(shè)定為在前檢索出的脈沖的振幅以下,從而在頻譜的編碼方式中,能夠比以前減少平均的編碼失真,即使在低比特速率的情況下也能夠獲得良好的音質(zhì)。另外,本發(fā)明能夠應(yīng)用于將脈沖的振幅分組并進行開環(huán)檢索的情況,從而實現(xiàn)性能的提高。例如,將全部8個脈沖分組為5個和3個,首先檢索5個脈沖,固定該5個脈沖之后再檢索剩余的3個脈沖的情況下,將后者的3個脈沖的振幅一樣地減小。通過試驗已證明通過將首先檢索出的5個脈沖的振幅設(shè)為{I. O、I. O、I. O、I. O、1.0},并將在后檢索出的3個脈沖的振幅設(shè)為{0. 8,0.8,0. 8},與將所有脈沖的振幅都設(shè)為“1.0”的情況相比,性能會提高。另外,通過將首先檢索出的5個脈沖的振幅都設(shè)為“I. 0”,無需進行振幅的乘法運算,所以能夠抑制運算量。另外,在本實施方式中,對在形狀編碼之后進行增益編碼的情況進行了說明,但是根據(jù)本發(fā)明,即使在增益編碼之后進行形狀編碼,也能夠獲得同樣的性能。另外,在上述實施方式中,以在譜的形狀的量化時,設(shè)譜的長度為64,將進行檢索的脈沖數(shù)設(shè)為5個的情況為例子進行了說明,但是本發(fā)明完全不依賴于上述數(shù)值,即使在其他的情況下也能夠獲得同樣的效果。 另外,在上述實施方式中設(shè)定了不在相同的位置建立兩個脈沖的條件,但是,本發(fā)明中,也可以部分性地緩和該條件。例如,如果不進行圖3中的s[pos[b]] = O、dn = dn_mx、cc = cc_mx的處理,則能夠在相同的位置建立多個脈沖。但是,如果在相同的位置建立多個脈沖,有時振幅會變大,所以需要預(yù)先確認各個位置的脈沖的數(shù)量,正確地計算分母項。另外,本實施方式中對正交變換后的譜使用了基于脈沖的編碼,但是本發(fā)明并不限于此,也可以適用于其他的矢量。例如,在FFT和復(fù)數(shù)DCT等中對復(fù)數(shù)矢量適用本發(fā)明即可,在小波變換等中對時序的矢量適用本發(fā)明即可。另外,本發(fā)明也可以適用于CELP的激勵波形等時序的矢量。CELP的激勵波形的情況下存在合成濾波器,所以只是價值函數(shù)變?yōu)榫仃囘\算。但是,存在濾波器時,對于脈沖的檢索,開環(huán)檢索性能不充分,所以需要進行一定程度的閉環(huán)檢索。在脈沖較多等的情況下,進行波束檢索(beam search)等,將運算量抑制得較低也是有效的。 另外,本發(fā)明所檢索的波形不限于脈沖(impulse),即使在其他的固定波形(對偶脈沖、三角波、沖擊響應(yīng)的有限波、濾波器的系數(shù)、自適應(yīng)地改變形狀的固定波形等)的情況下,也能通過完全相同的方法進行檢索,并能夠獲得相同的效果。另外,本實施方式中對用于CELP的情況進行了說明,但是本發(fā)明并不限于此,SP使在其他的編解碼的情況下也是有效的。另外,本發(fā)明的信號除了語音信號之外,也可以是音頻信號。另外,也可以采用如下結(jié)構(gòu),即,將本發(fā)明適用于LPC預(yù)測殘差信號以代替輸入信號。另外,本發(fā)明的編碼裝置以及解碼裝置,可以搭載在移動通信系統(tǒng)的通信終端裝置以及基站裝置上,由此能夠提供具有與上述同樣的作用效果的通信終端裝置、基站裝置以及移動通信系統(tǒng)。另外,雖然這里以用硬件構(gòu)成本發(fā)明的情況為例進行了說明,但是本發(fā)明也可以用軟件實現(xiàn)。例如,通過編程語言對本發(fā)明的算法進行記述,并在內(nèi)存中保存該程序并通過信息處理裝置來實行,從而能夠?qū)崿F(xiàn)與本發(fā)明的編碼裝置相同的功能。另外,用于上述實施方式的說明中的各功能塊,通常被作為集成電路的LSI來實現(xiàn)。這些塊既可以被單獨地集成為一個芯片,也可以包含一部分或全部地被集成為一個芯片。另外,在此雖然稱做LSI,但根據(jù)集成度的不同也可以稱為IC (集成電路)、系統(tǒng)LSI、超LSI、極大LSI等。另外,實現(xiàn)集成電路化的方法不僅限于LSI,也可使用專用電路或通用處理器來實現(xiàn)。也可以利用LSI制造后能夠編程的FPGA(Field Programmable Gate Array,現(xiàn)場可編程門陣列),或可以利用可重構(gòu)LSI內(nèi)部的電路塊連接或設(shè)定的可重構(gòu)處理器(Reconfigurable Processor)。再有,如果隨著半導(dǎo)體技術(shù)的進步或者其他技術(shù)的派生,出現(xiàn)了替換LSI的集成電路化的技術(shù),當然也可以利用該技術(shù)來實現(xiàn)功能塊的集成化。還存在著適用生物技術(shù)等的可能性。2007年3月2日提交的日本專利申請第2007-053500號所包含的說明書、說明書附圖以及說明書摘要的公開內(nèi)容,全部引用于本申請。工業(yè)利用性 本發(fā)明適合用于對語音信號和音頻信號進行編碼的編碼裝置,以及對編碼后的信號進行解碼的解碼裝置等。
權(quán)利要求
1.編碼裝置,對語音信號進行第一編碼得到殘差分量,對該殘差分量使用MDCT進行正交變換,對經(jīng)該正交變換所得的頻譜使用多個脈沖進行模式化后進行第二編碼,該編碼裝置包括 形狀量化單元,檢索N個振幅為I的脈沖、M個振幅為0. 8的脈沖,并對所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖的、位置和極性進行編碼;以及 增益量化單元,基于所述頻譜、所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖,對增益進行編碼, 其中,N、M為自然數(shù)。
2.權(quán)利要求I所述的編碼裝置,所述N的值為5,所述M的值小于所述N的值。
3.權(quán)利要求I所述的編碼裝置,所述形狀量化單元以不在相同的位置建立兩個脈沖的條件下,先檢索所述N個振幅為I的脈沖,再檢索所述M個振幅為0.8的脈沖。
4.編碼方法,對語音信號進行第一編碼得到殘差分量,對該殘差分量使用MDCT進行正交變換,對經(jīng)該正交變換所得的頻譜使用多個脈沖進行模式化后進行第二編碼,該編碼方法包括以下步驟 檢索N個振幅為I的脈沖、M個振幅為0. 8的脈沖,并對所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖的、位置和極性進行編碼;以及 基于所述頻譜、所述N個振幅為I的脈沖和所述M個振幅為0. 8的脈沖,對增益進行編碼, 其中,N、M為自然數(shù)。
全文摘要
本發(fā)明的編碼裝置對語音信號進行第一編碼得到殘差分量,對該殘差分量使用MDCT進行正交變換,對經(jīng)該正交變換所得的頻譜使用多個脈沖進行模式化后進行第二編碼,該編碼裝置包括形狀量化單元,檢索N個振幅為1的脈沖、M個振幅為0.8的脈沖,并對所述N個振幅為1的脈沖和所述M個振幅為0.8的脈沖的、位置和極性進行編碼;以及增益量化單元,基于所述頻譜、所述N個振幅為1的脈沖和所述M個振幅為0.8的脈沖,對增益進行編碼,其中,N、M為自然數(shù)。
文檔編號G10L19/10GK102682778SQ20121009624
公開日2012年9月19日 申請日期2008年2月29日 優(yōu)先權(quán)日2007年3月2日
發(fā)明者山梨智史, 押切正浩, 森井利幸 申請人:松下電器產(chǎn)業(yè)株式會社