寬帶語音編解碼器中的高頻增強層編碼的制作方法

文檔序號：2823595閱讀：265來源：國知局

專利名稱：寬帶語音編解碼器中的高頻增強層編碼的制作方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及編碼和解碼合成語音的領(lǐng)域，尤其是涉及自適應多速率寬帶語音編解碼器。
在一個使用LP編碼產(chǎn)生語音的編解碼器中，解碼器需要編碼器提供三種輸入如果激勵是有聲的，則提供音調(diào)周期，增益因子和預測系數(shù)。(在某些編解碼器中，還要提供激勵種類，也就是說是有聲的還是無聲的，但對于代數(shù)碼激勵線性預測(ACELP)編解碼器通常并不需要。例如。在前向估計處理中，LP編碼是預測型的，因為它使用基于實際輸入的應用參數(shù)的語音波形片斷(在一段特定間隔內(nèi))的預測參數(shù)。
基本的LP編碼和解碼可用于使用相對低的數(shù)據(jù)速率以數(shù)字方式傳輸語音，但因為它使用非常簡單的激勵系統(tǒng)，它產(chǎn)生合成的發(fā)聲的語音。一個所謂的碼激勵線性預測(CELP)編解碼器是一種增強的激勵編解碼器。它基于″冗余″編碼。模擬聲道是根據(jù)參數(shù)被編碼成壓縮語音的數(shù)字濾波器。這些濾波器是由表示原始說話者的聲帶震動的信號所驅(qū)動，即″激勵″。音頻語音信號的冗余是較少地數(shù)字濾波的(原始)音頻語音信號。在所謂的″冗余脈沖激勵″中，CELP編解碼器對冗余編碼并將它作為激勵的基礎(chǔ)，但是，CELP使用從預設(shè)的一套波形模板中選擇的波形模板來表示冗余樣本塊而不是根據(jù)樣本不同情況分別編碼冗余波形。碼字是由編碼器決定的并提供給解碼器，解碼器然后使用碼字以選擇冗余序列表示原始的冗余樣本。
依據(jù)奈奎斯特定理，采樣率Fs的語音信號可以表示一個從0到0.5Fs的頻帶。當前，大多語音編解碼器(編碼器-解碼器)使用8kHz的采樣速率。如果采樣速率從8kHz增加，語音的逼真度也會改進因為可以表示更高的頻率?，F(xiàn)在，語音信號的采樣率通常為8kHz，但是開發(fā)中的移動電話基站將使用16kHz的采樣率。依據(jù)奈奎斯特定理，16kHz的采樣率在頻帶0-8kHz表示語音。然后對采樣的語音進行編碼以使用發(fā)射機進行通信，然后被接收機解碼。使用16kHz的采樣速率采樣的語音的語音編碼被稱為寬帶語音編碼。
當語音采樣率增加時，編碼復雜性也增加了。對于某些算法，隨著采樣率增加，編碼復雜性甚至達到指數(shù)級增長。因此，編碼復雜性經(jīng)常是確定寬帶語音編碼算法的一個限制性因素。例如，移動電話基站的功耗，可用的處理功率和內(nèi)存要求嚴重影響算法的應用。
在現(xiàn)有技術(shù)的寬帶編解碼器中，如

圖1所示，預處理階段用于低通過濾和從原始的16kHz到12.8kHz采樣頻率下抽樣輸入語音信號。下抽樣信號然后減少十分之一以使得在20ms內(nèi)320個樣本數(shù)減少到256。在有效的0到6.4kHz頻率帶寬內(nèi)，下抽樣和減少了十分之一的信號使用合成分析(A-b-S)循環(huán)以提取LPC，音調(diào)和激勵參數(shù)進行編碼，并量化成編碼的比特流以發(fā)送到接收端進行解碼。在A-b-S循環(huán)中，本地合成信號進一步上抽樣并以內(nèi)插值替換以符合原始樣本頻率。編碼處理之后，6.4kHz到8.0kHz的頻帶為空。寬帶編解碼器在這個空頻率范圍生成隨機噪聲并利用如下所述的合成濾波使用LPC參數(shù)著色(colors)隨機噪聲。隨機噪聲首先根據(jù)下式進行縮放escaled＝sqrt[{extT(n)exc(n)exc(n)}/{eT(n)e(n)}]e(n)(1)其中e(n)表示隨機噪聲exc(n)表示LPC激勵。上標T表示向量轉(zhuǎn)置。縮放的隨機噪聲使用著色(coloring)LPC合成濾波器和6.0-7.0kHz帶通濾波器進行濾波。這種著色(colored)的高頻部分進一步使用關(guān)于合成信號的頻譜傾斜的信息進行縮放。頻譜傾斜可以通過首先使用下列公式計算自相關(guān)系數(shù)，r，來估計r＝{sT(i)s(i-1)}/{sT(i)s(i)}(2)其中s(i)是合成語音信號。相應地，估計的增益fext由下面決定fext＝1.0-r(3)并限制0.2≤fext≤1.0。
在接收端，在核心解碼處理后，對合成信號進行進一步的后續(xù)處理以通過上抽樣信號來滿足輸入信號采樣頻率，以便生成實際的輸出。因為高頻噪聲電平是基于從合成信號的低頻帶和頻譜傾斜獲取的LPC參數(shù)估算出的，縮放和著色隨機噪聲可以在編碼器端或解碼器端實現(xiàn)。
在現(xiàn)有技術(shù)的編解碼器中，基于基層信號電平以及頻譜傾斜估算高頻噪聲電平。因而，合成信號的高頻部分被濾波掉。因此，噪聲電平與在6.4-8.0kHz頻率范圍的實際輸入信號特性不相一致。這樣，現(xiàn)有技術(shù)的編解碼不能提供高質(zhì)量合成信號。
考慮到在高頻范圍的實際輸入信號的特性，提供能夠提供高質(zhì)量合成信號的方法和系統(tǒng)是有利和值得的。
因此，本發(fā)明的第一個方面是一種語音編碼方法，用于編碼和解碼具有激活語音周期和非激活語音周期的輸入信號，并且用于提供一種具有高頻部分和低頻部分的合成語音信號，其中該輸入信號在編碼和語音合成過程中被分成高頻帶部分和低頻帶部分，并且其中具有低頻部分特性的語音相關(guān)參數(shù)被用來處理用于提供合成語音信號高頻部分的仿真信號。該方法包括步驟在激活語音周期中，以第一縮放因子縮放處理過的仿真信號，以及在非激活語音周期中，以第二縮放因子縮放處理過的仿真信號，其中第一縮放因子是輸入信號的高頻帶特性，并且第二縮放因子是合成信號的低頻部分的特性。
優(yōu)選地，輸入信號被高通濾波以便在在合成語音的高頻部分的頻率范圍特性中提供濾波過的信號，其中第一縮放因子從濾波過的信號中估算出來的，并且其中當非激活語音周期包括語音釋放延遲周期和舒適噪聲周期時，從濾波過的信號中估算出在語音釋放延遲周期中縮放處理過的仿真信號的第二縮放因子。
優(yōu)選地，用于在語音釋放延遲周期中縮放處理過的仿真信號的第二縮放因子也是從合成語音信號的低頻部分中估算出來的，并且用于在舒適噪聲周期中縮放處理過的仿真信號的第二縮放因子從合成語音信號的低頻部分中估算出來。
優(yōu)選地，第一縮放因子在流向接收端的已編碼比特流中編碼和發(fā)送，并且用于語音釋放延遲周期的第二縮放因子也包括在已編碼的比特流中。
用于語音釋放延遲周期的第二縮放因子可以在接收端確定。
優(yōu)選地，第二縮放因子也可以從頻譜傾斜因子(spectra1 tilt)中估算出，該頻譜傾斜因子由合成語音的低頻部分確定。
優(yōu)選地，第一縮放因子進一步從處理過的仿真信號中估算出。
本發(fā)明的第二方面是用于編碼和解碼具有激活語音周期和非激活語音周期的輸入信號并且用于提供一種具有高頻部分和低頻部分的合成語音信號的語音信號發(fā)射機和接收機系統(tǒng)，其中該輸入信號在編碼和語音合成過程中被分成高頻帶部分和低頻帶部分，其中輸入信號的低頻帶的語音相關(guān)參數(shù)被用來在接收機中處理仿真信號來提供合成語音信號的高頻部分。該系統(tǒng)包括接收機中的解碼器，用于從發(fā)射機中接收已編碼的比特流，其中已編碼的比特流包括語音相關(guān)參數(shù)；
發(fā)射機中的第一模塊，響應輸入信號，提供用于在激活周期中縮放處理過的仿真信號的第一縮放因子，以及接收機中的第二模塊，響應已編碼的比特流，提供在非激活周期中縮放處理過的仿真信號的第二縮放因子，其中第一縮放因子是輸入信號高頻帶的特性，并且第二縮放因子是合成信號低頻部分的特性。
優(yōu)選地，本發(fā)明的第一模塊包括一個濾波器，用于高通濾波輸入信號，并且提供濾波過的輸入信號，該信號具有相應于合成語音的高頻部分的頻率范圍，以便允許從濾波過的輸入信號中估算出第一縮放因子。
優(yōu)選地，在發(fā)射機中使用第三模塊來在相應于合成信號的頻率范圍內(nèi)提供著色的高通濾波的隨機噪聲，以便可以基于著色的高通濾波隨機噪聲修改第一縮放因子。
本發(fā)明的第三方面是編碼器，用于編碼具有激活語音周期和非激活語音周期的輸入信號，該輸入信號被分為高頻帶和低頻帶，用于提供包括具有輸入信號低頻帶特性的語音相關(guān)參數(shù)的已編碼比特流，以便允許解碼器基于語音相關(guān)參數(shù)再現(xiàn)合成語音的低頻部分并且基于語音相關(guān)參數(shù)處理仿真信號來提供合成語音高頻部分，其中在非激活語音周期中，使用基于合成語音低頻部分的縮放因子縮放處理過的仿真信號。該編碼器包括濾波器，響應輸入信號，用于對相應于合成語音的高頻部分的頻率范圍中的輸入信號高通濾波，并且提供指示高通濾波過的輸入信號的第一信號；裝置，響應第一信號，用于基于高通濾波的輸入信號以及合成語音的低頻部分提供另一個縮放因子，并且提供指示另一個縮放因子的第二信號；以及量化模塊，響應第二信號，用于在已編碼比特流中提供指示另一個縮放因子的已編碼信號，以便允許解碼器在激活語音周期基于另一個縮放因子縮放處理過的仿真信號。
本發(fā)明的第四方面是一個移動站，其被設(shè)置來發(fā)送已編碼比特流至解碼器以便提供具有高頻部分和低頻部分的合成信號，其中已編碼比特流包括語音數(shù)據(jù)，該語音數(shù)據(jù)指示具有激活語音周期和非激活語音周期的輸入信號，并且輸入信號被分成高頻帶和低頻帶，其中語音數(shù)據(jù)包括具有輸入信號低頻帶特性的語音相關(guān)參數(shù)，以便允許解碼器基于語音相關(guān)參數(shù)提供合成語音的低頻部分，并且基于語音相關(guān)參數(shù)著色仿真信號，同時基于合成語音的低頻部分使用縮放因子縮放著色的仿真信號以便在非激活語音周期中提供合成語音的高頻部分。移動站包括濾波器，響應輸入信號，用于高通濾波相應于合成語音高頻部分的頻率范圍的輸入信號，并且用于基于高通濾波過的輸入信號提供另一個縮放因子；以及量化模塊，響應該縮放因子和另一個縮放因子，用于在已編碼比特流中提供指示另一個縮放因子的已編碼信號，以便允許解碼器在激活語音周期中基于另一個縮放因子縮放著色的仿真信號。
本發(fā)明的第五方面是電信網(wǎng)絡(luò)中的元件，其被設(shè)置來接收用于提供具有高頻部分和低頻部分的合成語音的已編碼比特流，該比特流包括指示來自移動站的輸入信號的語音數(shù)據(jù)，其中具有激活語音周期和非激活語音周期的輸入信號被分為高頻帶和低頻帶，同時語音數(shù)據(jù)包括具有輸入信號的低頻帶特性的語音相關(guān)參數(shù)以及具有輸入信號高頻帶特性的增益參數(shù)，其中基于語音相關(guān)參數(shù)提供合成語音的低頻部分，所述元件包括第一機構(gòu)，響應增益參數(shù)，用于提供第一縮放因子；第二機構(gòu)，響應語音相關(guān)參數(shù)，用于合成和高通濾波的仿真信號用以提供一個合成和高通濾波過的仿真信號；第三機構(gòu)，響應第一縮放因子和語音數(shù)據(jù)，用于提供組合的縮放因子，該組合的縮放因子包括具有輸入信號高頻帶特性的第一縮放因子和基于第一縮放因子和具有合成語音低頻部分特性的另一個語音相關(guān)參數(shù)的第二縮放因子；以及第四機構(gòu)，響應合成和高通仿真信號以及合成縮放因子，用于在激活語音周期和非激活語音周期中，分別使用第一和第二縮放因子縮放合成和高通濾波過的仿真信號。
在結(jié)合圖2至8閱讀說明書后，本發(fā)明將變得更加清楚。
圖2是說明根據(jù)本發(fā)明的寬帶語音編解碼器的框圖。
圖3是說明本發(fā)明的寬帶語音編解碼器的后端處理功能的框圖。
圖4是說明本發(fā)明的寬帶語音解碼器的結(jié)構(gòu)的框圖。
圖5是說明寬帶語音編解碼器的后端處理功能的框圖。
圖6是說明根據(jù)本發(fā)明的移動站的框圖。
圖7是說明根據(jù)本發(fā)明的電信網(wǎng)絡(luò)的框圖。
圖8是說明根據(jù)本發(fā)明的語音編碼方法的流程圖。
與現(xiàn)有技術(shù)中的寬帶編解碼器相比，將后端處理部件6的后端處理功能修改成包括增益縮放和增益量化108，其相應于具有原始語音信號100的高頻部分特性的輸入信號。更具體地，可以使用原始語音信號100的高頻部分，以及著色的高通濾波隨機噪聲134，154來確定如圖3所示的與語音編碼器結(jié)合起來進行描述的如方程4所示的高帶信號縮放因子。后端處理部件6的輸出內(nèi)容為后端處理語音信號110。
圖3說明了根據(jù)本發(fā)明的語音編碼器10中的后端處理功能的詳細結(jié)構(gòu)。如圖所示，使用隨機噪聲發(fā)生器20來提供16kHz仿真信號130。LPC合成濾波器22使用LPC參數(shù)104對隨機噪聲130進行著色，此LPC參數(shù)104基于語音信號100的低頻帶特性由合成分析編碼部件4(圖2)中的編碼比特流來提供。從著色的隨機噪聲132和高通濾波器24抽取出頻率為6.0-7.0kHz的著色的高頻部分134。在原始語音樣本100中頻率范圍為6.0-7.0kHz的高頻部分112也可以通過高通濾波器12提取。使用高頻部分112和134的能量來確定增益平衡部件14的高帶信號縮放因子gscaled，根據(jù)以下方程gxcaled＝sqrt{(shpTshp)/(ehpTehp)}(4)其中，shp為6.0-7.0kHz帶通濾波原始語音信號112，ehp為LPC合成(著色)及帶通濾波隨機噪聲134。由參考標號114所表示的縮放因子gscaled可通過增益量化模塊18進行量化，并且在編碼比特流中進行傳輸，從而接收端可以使用縮放因子對隨機噪聲進行縮放以實現(xiàn)語音信號的再現(xiàn)。
當前的GSM語音編解碼器中，非語音周期中的無線電傳輸過程由不連續(xù)傳輸(DTX)函數(shù)中止。DTX函數(shù)將會幫助減少不同部分之間的干擾，同時提高通信系統(tǒng)的容量。DTX函數(shù)依賴于話音激活檢測(VAD)算法來確定輸入信號100代表語音還是噪聲，從而防止在激活語音周期內(nèi)關(guān)閉發(fā)射機。VAD算法由參考標號98表示。此外，當發(fā)射機在非激活語音周期內(nèi)被關(guān)閉時，為了消除連接失敗的影響，由接收機提供數(shù)量較小的稱為“舒適噪聲”(CN)的背景噪聲。VAD算法這樣來設(shè)計，以便當監(jiān)測到非激活語音周期之后，允許有一個稱之為釋放延遲或保持延遲的時間段。
根據(jù)本發(fā)明，激活語音中的縮放因子gscaled可以根據(jù)方程4進行估算。然而，完成激活語音到非激活語音的自適應之后，由于比特速率的限制以及傳輸系統(tǒng)本身，增益參數(shù)不能夠在舒適噪聲比特流中進行傳輸。因此，同現(xiàn)有技術(shù)中的寬帶編解碼器的實現(xiàn)方式一樣，在非激活語音中，在接收端不使用原始語音信號來確定縮放因子。因而，可以從非激活語音中的基層信號中可以隱含地估算出增益值。與之相反，在基于高頻增強層中信號的語音周期中使用顯式增益量化。在激活語音轉(zhuǎn)換到非激活語音的過程中，不同縮放因子之間的轉(zhuǎn)換可能會導致合成信號中的聲音瞬變(audible transients)。為了降低這些聲音瞬變，可以使用增益自適應模塊16來改變縮放因子。根據(jù)本發(fā)明，當話音激活確定(VAD)算法的釋放延遲周期開始時，自適應開始啟動。為了該目的，為增益自適應模塊16提供表示VAD判決的信號190。此外，不連續(xù)傳輸(DTX)的釋放延遲周期也將被用來完成增益自適應。DTX的釋放延遲周期之后，可以使用不通過原始語音信號確定的縮放因子。用來調(diào)整縮放因子的整個增益自適應過程可以根據(jù)以下方程得以實現(xiàn)gtotal＝agscaled+(1.0-α)fest(5)其中，fest由方程3來確定并由參考標號115表示，α為自適應參數(shù)，由以下方程給出α＝(DTXhangovercount)/7(6)因而，在激活語音中，α等于1.0，原因在于DTX釋放延遲計數(shù)等于7。在從激活到非激活語音的瞬變過程中，DTX釋放延遲計數(shù)從7降低到0。從而，在該瞬變中，0＜α＜1.0。在非激活語音中，或者是接收到第一舒適噪聲參數(shù)之后，α＝0。
在此情形下，由話音激活監(jiān)測和源編碼比特速率所驅(qū)動的增強層編碼將依照不同的輸入信號周期進行縮放。在激活語音中，增益量化由增強層明顯地確定，該增強層包括隨機噪聲增益參數(shù)確定和自適應。在瞬變周期內(nèi)，顯式確定的增益值將向隱式估算值進行自適應。在非激活語音中，增益值由基層信號進行隱式估算。因而，高頻增益層參數(shù)將不會傳輸?shù)椒羌せ钫Z音的接收端上。
增益值自適應的好處在于可以獲得從激活到非激活語音處理過程完成縮放的高頻部分的平滑瞬變。由增益自適應模塊16所確定且由參考編號116所表示的自適應縮放增益值gtotal，將由增益量化模塊18作為一套量化增益參數(shù)118進行量化。此套增益參數(shù)118可以被加入到編碼比特流中去，并傳輸?shù)浇邮斩诉M行解碼。需要注意到的是，量化增益參數(shù)118可以作為查表存儲起來，從而可以通過增益索引訪問(未示出)。
對于自適應后的縮放增益值gtotal，為了降低從激活語音到非激活語音轉(zhuǎn)換過程中合成信號的瞬變，可以對解碼過程中的高頻隨機噪聲進行縮放。最后，合成的高頻部分加入到從編碼器的A-b-S環(huán)路所接收到的上抽樣和內(nèi)插信號中。在每個5毫秒子幀中，彼此獨立地實現(xiàn)能量縮放的后端處理。隨著4比特電報密碼本被用來對高頻隨機部分增益值進行量化，整個比特率為0.8kbit/s。
顯式確定的增益值(來自高頻增強層上)和隱式估算的增益值(來自基層，或僅在低頻帶，信號)之間的增益自適應可以在增益值量化之前在編碼器中完成，如圖3中所示。在這種情況下，根據(jù)方程5，進行編碼并且傳輸?shù)浇邮斩说脑鲆嬷祬?shù)為gtotal?？商鎿Q地，增益值自適應可僅僅在VAD標記顯式非語音信號已經(jīng)開始之后于DTX釋放延遲周期內(nèi)的解碼器中實現(xiàn)。在這種情況下，增益參數(shù)的量化在編碼器中實現(xiàn)，同時在解碼器中實現(xiàn)增益值自適應，傳輸?shù)浇邮斩松系脑鲆鎱?shù)可以根據(jù)方程4簡化為gscaled。估算的增益值fext值可以在解碼器中通過使用合成語音信號得以確定。增益值自適應也可以在解碼器接收到第一無聲描述(SIDfirst)之前在舒適噪聲周期的初始階段于解碼器中實現(xiàn)。如同前面的情況一樣，gscaled在編碼器中量化同時在編碼比特流中進行傳輸。
本發(fā)明中解碼器30如圖4所示。如圖所示，解碼器30用來合成來自編碼參數(shù)140的語音信號110，該編碼參數(shù)140包括LPC、音調(diào)和激勵參數(shù)104以及增益參數(shù)118(見圖3)。，解碼模塊32從編碼參數(shù)140提供一套量化LPC參數(shù)142。后端處理模塊34從所接收的語音信號低帶部分的LPC、音調(diào)和激勵參數(shù)142產(chǎn)生合成低帶語音信號，如同在現(xiàn)有技術(shù)中的解碼器一樣。后端處理模塊34由局部產(chǎn)生的隨機噪聲產(chǎn)生合成高頻部分，它是基于包括語音高頻部分的輸入信號特性的增益參數(shù)之上的。
圖5給出了解碼器30的通用后端處理結(jié)構(gòu)。如圖5所示，增益參數(shù)118通過增益去量化(dequantilization)部件38進行去量化處理。如果增益自適應已經(jīng)在編碼器中完成，如圖3中所示，那么接下來解碼器中的相關(guān)增益自適應功能將會在舒適噪聲周期初期將去量化之后的增益值144(gtotal，α＝1.0以及α＝0.5)自適應為所估算的縮放增益值fest(α＝0)，而無需VAD判決信號190。然而，如果僅僅在信號190提供的VAD標記指示非語音信號開始之后，在DTX釋放延遲周期內(nèi)的解碼器中進行增益值自適應，那么增益值自適應部件40將根據(jù)方程5來確定縮放因子gtotal。因此，當未接收到增益參數(shù)118時，在不連續(xù)傳輸過程的初始階段，增益值自適應部件40將使用估算縮放增益值fest消除瞬變，如參考標號145表示。因而，如增益自適應模式40所提供的那樣，根據(jù)方程5確定縮放因子146。
如圖4所示的后端處理單元34中的隨機噪聲部分的著色和高通過濾類似于圖3中所示編碼器10的后端處理操作。如圖所示，隨機噪聲發(fā)生器50用來提供仿真信號150，它根據(jù)所接收到的LPC參數(shù)104由LPC合成濾波器52著色。著色的仿真信號152由高通濾波器54進行濾波操作。然而，在編碼器10(圖3)中提供著色的、高通濾波隨機噪聲134的目的在于產(chǎn)生ehp(方程4)。在后端處理模塊34中，著色的、高通濾波仿真信號154在被基于增益值自適應模塊40所提供的自適應高帶縮放因子146上的增益調(diào)整模塊56縮放之后，被用來產(chǎn)生出合成高頻信號160。最后，高頻增強層的輸出部分160被加入到由基解碼器(未示出)所接收到的16kHz合成信號上。16kHz合成信號在本領(lǐng)域是眾所周知的。
需要注意到來自解碼器的合成信號可以用來實現(xiàn)頻譜傾斜(tilt)估算。可以使用方程2和3由解碼器后端處理部分估算出參數(shù)值fest。當出現(xiàn)由于各種原因，如信道帶寬限制以及解碼器沒有接收高帶增益值，而導致解碼器或傳輸信道忽略了高帶增益參數(shù)的情況時，可以縮放著色的、高通濾波隨機噪聲從而提供合成語音的高頻部分。
總之，在寬帶語音編解碼器中實現(xiàn)高頻增強層編碼工作的后端處理步驟可以在編碼器或者是解碼器中來完成。
當后端處理步驟在編碼器中完成時，高帶信號縮放因子gscaled從頻率范圍為6.0-7.0kHz的原始語音樣本和LPC彩色以及帶通濾波隨機噪聲中的高頻部分中獲得。另外，所估算的增益因子fest從編碼器中低帶合成信號的頻譜傾斜值獲得。使用VAD判定信號來表明輸入信號是處于激活語音周期內(nèi)還是處于非激活語音周期內(nèi)。針對不同語音周期的所有縮放因子gtotal由縮放因子gscaled和估算出的增益因子fest運算出。可縮放的高頻帶信號縮放因子在編碼比特流中進行量化和傳輸。在接收端，全部縮放因子gtotal從所接收到的編碼比特流(編碼參數(shù))中抽取出來。使用這一全部縮放因子來縮放解碼器中所產(chǎn)生的著色的高通濾波隨機噪聲。
當在解碼器中完成后端處理步驟時，所估算的增益因子fest可以從解碼器中的低頻帶合成語音中獲得。這一估算出的增益因子可以用來縮放激活語音內(nèi)解碼器中的著色的高通濾波隨機噪聲。
圖6所示為根據(jù)本發(fā)明的一個實施例所得出的移動臺200的框圖。移動臺包括此設(shè)備的特有部分，如麥克風201，數(shù)字鍵盤207，顯示器206，耳機214，發(fā)送/接收開關(guān)208，天線209和控制單元205。并且，圖中給出了此移動臺所特有的發(fā)送和接收部件204和211。發(fā)送部件204包括用于編碼語音信號的編碼器221。編碼器221包括圖3中所示編碼器10的后端處理功能。發(fā)送部件204還包括實現(xiàn)信道編碼、解密和調(diào)制以及RF功能的操作，而為了更清楚的表述，這些在圖5中未給出。接收部件211還包括依照本發(fā)明的解碼部件220。解碼部件220包括類似于圖5中所示解碼器34的后端處理單元222。來源于麥克風201的信號在放大級上放大，然后在A/D轉(zhuǎn)換器中進行數(shù)字化處理，然后發(fā)送到發(fā)送部件204上，尤其是發(fā)送到發(fā)送部件所包括的語音編碼設(shè)備上。發(fā)送部件的發(fā)送，信號處理、調(diào)制以及放大，通過發(fā)送/接收開關(guān)208傳輸?shù)教炀€209。從天線得到的所要接收的信號通過發(fā)送/接收開關(guān)208傳輸?shù)浇邮詹考?11，接收部件211能夠解調(diào)所接收的信號以及解碼解密和信道編碼。所得到的語音信號將通過D/A轉(zhuǎn)換器212傳輸?shù)椒糯笃?13上，進一步地傳輸?shù)蕉鷻C214?？刂茊卧?05控制移動臺200的操作，讀取用戶通過鍵盤207給出的控制命令，同時通過顯示器206向用戶發(fā)送信息。
根據(jù)本發(fā)明，圖3所示的編碼器10以及圖5所示的解碼器34的后端處理功能也可以用在電信網(wǎng)絡(luò)300上，如通常的電話網(wǎng)和移動臺網(wǎng)絡(luò)，如GSM網(wǎng)絡(luò)。圖7給出了這種電信網(wǎng)絡(luò)的框圖舉例。例如，電信網(wǎng)絡(luò)300可以包括電話交換機或相應的交換系統(tǒng)360，電信網(wǎng)絡(luò)中的普通電話370，基站340，基站控制器350以及其它中心設(shè)備355都可以連接到其上。移動臺330可以通過基站340建立到電信網(wǎng)絡(luò)的連接。例如，包括類似于圖5中所示的后端處理部分322的解碼部件320，可方便地放置于基站340中。然而，解碼部件320例如也可以置于基站控制器350或者示其它中心或交換設(shè)備355中。例如，如果移動臺系統(tǒng)在基站和基站控制器之間使用的是分開的代碼轉(zhuǎn)換器，，為了將由無線電信道接收的編碼信號轉(zhuǎn)換成在電信系統(tǒng)中傳送的標準的64千比特/秒信號并且反之亦然，解碼部件320也可以放置在這種代碼轉(zhuǎn)換器之中。通常，包括后端處理部分322的解碼部件320可以放置于能夠?qū)⒕幋a數(shù)據(jù)流轉(zhuǎn)換成非編碼數(shù)據(jù)流的電信網(wǎng)絡(luò)300中的任意一個元件中。解碼部件320對來源于移動臺330的編碼語音信號進行解碼和過濾，然后語音信號可依照通常在電信網(wǎng)絡(luò)300中解壓縮的方式進行轉(zhuǎn)換。
圖8為說明根據(jù)本發(fā)明所得語音編碼方法500的流程圖。如所示，由于輸入語音信號100在步驟510上被接收，話音激活監(jiān)測算法98將在步驟520上被使用來確定在當前周期中輸入信號110是代表語音還是噪聲。在語音周期中，處理完的仿真噪聲152在步驟530上以第一縮放因子114進行縮放。在噪聲或非語音周期中，處理完的仿真信號152在步驟540上以第二縮放因子進行縮放。下一個周期在步驟520上重復此操作過程。
為了提供合成語音的更高頻段部分，仿真信號或隨機噪聲在頻率范圍為6.0-7.0kHz上進行過濾。然而，過濾之后的頻率范圍例如可以基于編解碼器的采樣速率而有所不同。
雖然已相對于本發(fā)明的優(yōu)選實施例描述了本發(fā)明，本領(lǐng)域的技術(shù)人員可以理解在不偏離本發(fā)明的精神和范圍的情況下，可以在其形式和細節(jié)上做出上述的以及不同的變化，省略和偏移。
權(quán)利要求
1.一種語音編碼(500)方法，用于編碼和解碼具有激活語音周期和非激活語音周期的輸入信號(100)，并且用于提供一種具有高頻部分和低頻部分的合成語音信號(110)，其中該輸入信號在編碼和語音合成過程中被分成高頻帶部分和低頻帶部分，并且其中具有低頻帶特性的語音相關(guān)參數(shù)(104)被用來處理仿真信號(150)，用以提供處理過的仿真信號(152)，處理過的仿真信號(152)用于進一步提供合成語音的高頻部分(160)，所述方法包括步驟在激活語音周期中，以第一縮放因子(114，144)縮放(530)處理過的仿真信號(152)，以及在非激活語音周期中，以第二縮放因子(114&115，144&145)縮放(540)處理過的仿真信號(152)，其中第一縮放因子具有輸入信號高頻帶的特性，同時第二縮放因子具有合成信號低頻部分的特性。
2.權(quán)利要求1所述的方法，其中處理過的仿真信號(152)被高通濾波，用于在具有合成語音的高頻部分的特性的頻率范圍中提供濾波過的信號(154)。
3.權(quán)利要求2所述的方法，其中，頻率范圍是在6.4-8.0kHz的范圍內(nèi)。
4.權(quán)利要求1所述的方法，其中輸入信號(100)被高通濾波，用于在具有合成語音高頻部分特性的頻率范圍中提供濾波過的信號(112)，并且其中第一縮放因子(114，144)是從濾波過的信號(112)中估算出來的。
5.權(quán)利要求4所述的方法，其中非激活語音周期包括語音釋放延遲周期和舒適噪聲周期，其中用于在語音釋放延遲周期中縮放處理過的仿真信號(152)的第二縮放因子(114&115，144&145)是從濾波過的信號(112)中估算出來的。
6.權(quán)利要求5所述的方法，其中合成語音的低頻部分從輸入信號(100)的已編碼低頻帶(106)中再現(xiàn)，并且其中用于在語音釋放延遲周期中縮放處理過的仿真信號(152)的第二縮放因子(114&115，144&145)也是從合成語音信號的低頻部分中估算出來的。
7.權(quán)利要求6所述的方法，其中用于在舒適噪聲周期中縮放處理過的仿真信號(152)的第二縮放因子(114&115，144&145)是從合成語音信號的低頻部分中估算出來的。
8.權(quán)利要求6所述的方法，進一步包括向接收端發(fā)送已編碼比特流，用于解碼的步驟，其中已編碼比特流包括指示第一縮放因子(114，144)的數(shù)據(jù)。
9.權(quán)利要求8所述的方法，其中已編碼比特流包括數(shù)據(jù)(118)，該數(shù)據(jù)(118)指示用于在語音釋放延遲周期中縮放處理過的仿真信號(152)的第二縮放因子(114&115)。
10.權(quán)利要求8所述的方法，其中用于縮放處理過的仿真信號的第二縮放因子(114&115，144&145)在接收端(34)中提供。
11.權(quán)利要求6所述的方法，其中第二縮放因子(114&115，144&145)指示從合成語音的低頻部分中確定的頻譜傾斜因子。
12.權(quán)利要求7所述的方法，其中用于在舒適噪聲周期中縮放處理過的仿真信號的第二縮放因子(114&115，144&145)指示從合成語音的低頻部分中確定的頻譜傾斜因子。
13.權(quán)利要求4所述的方法，其中第一縮放因子(114，144)進一步從處理過的仿真信號(152)中估算出。
14.權(quán)利要求1所述的方法，進一步包括基于輸入信號(100)提供用于監(jiān)視激活語音周期和非激活語音周期的話音激活信息(190)的步驟。
15.權(quán)利要求1所述的方法，其中語音相關(guān)參數(shù)包括具有輸入信號低頻帶特性的線性預測編碼系數(shù)。
16.一個語音信號發(fā)射機和接收機系統(tǒng)，用于編碼和解碼具有激活語音周期和非激活語音周期的輸入信號(100)，并且用于提供一種具有高頻部分和低頻部分的合成語音信號(110)，其中該輸入信號在編碼和語音合成過程中被分成高頻帶部分和低頻帶部分，其中具有輸入信號低頻部分特性的語音相關(guān)參數(shù)(118，104，140，145)被用來在接收機(30)中處理仿真信號(150)來提供合成語音信號高頻部分(160)的，所述系統(tǒng)包括發(fā)射機中的第一裝置(12，14)，響應輸入信號(100)，用于提供具有輸入信號高頻帶特性的第一縮放因子(114，144)；接收機中的解碼器(34)，用于從發(fā)射機接收已編碼的比特流，其中已編碼的比特流包括語音相關(guān)參數(shù)，該相關(guān)參數(shù)包括指示第一縮放因子(114，144)的數(shù)據(jù)；以及接收機中的第二裝置(40，56)，響應語音相關(guān)參數(shù)(118，145)，用于提供第二縮放因子(144&145)，以及在非激活周期中使用第二縮放因子(144&145)縮放處理過的仿真信號(152)，并且在激活周期中使用第一縮放因子(114&144)縮放處理過的仿真信號(152)，其中第一縮放因子具有輸入信號高頻帶的特性，同時第二縮放因子具有合成信號低頻帶的特性。
17.權(quán)利要求16所述的系統(tǒng)，其中第一裝置包括一個濾波裝置(12)，用于高通濾波輸入信號，并且提供濾波過的輸入信號(112)，該信號具有相應于合成語音的高頻部分的頻率范圍，同時其中從濾波過的輸入信號(112)中估算出第一縮放因子(114，144)。
18.權(quán)利要求17所述的系統(tǒng)，其中頻率范圍是在6.4-8.0kHz范圍內(nèi)。
19.權(quán)利要求17所述的系統(tǒng)，進一步包括在發(fā)射機中的第三裝置(16，24)，用于在相應于合成信號的頻率范圍內(nèi)提供高通濾波的隨機噪聲(134)，同時用于基于高通濾波隨機噪聲改變第一縮放因子(114，144)。
20.權(quán)利要求16所述的系統(tǒng)，進一步包括裝置(98)，響應輸入信號(100)，用于監(jiān)視激活和非激活語音周期。
21.權(quán)利要求16所述的系統(tǒng)，進一步包括裝置(18)，響應第一縮放因子(114，144)，用于提供已編碼的第一縮放因子(118)，并且將指示已編碼的第一縮放因子的數(shù)據(jù)包括到用于發(fā)送的已編碼比特流中。
22.權(quán)利要求19所述的系統(tǒng)，進一步包括裝置(18)，響應第一縮放因子(114，144)，用于提供已編碼的第一縮放因子(118)，并且將指示已編碼的第一縮放因子的數(shù)據(jù)包括到用于發(fā)送的已編碼比特流中。
23.一個編碼器(10)，用于編碼具有激活語音周期和非激活語音周期的輸入信號(100)，并且該輸入信號被分為高頻帶和低頻帶，同時用于提供已編碼比特流，該已編碼比特流包括具有輸入信號低頻帶特性的語音相關(guān)參數(shù)，以便允許解碼器(34)使用語音相關(guān)參數(shù)處理仿真信號(150)，用以提供合成語音的高頻部分(160)，并且其中在非激活語音周期中，使用基于合成語音低頻部分的縮放因子(114&115，144&145)縮放處理過的仿真信號(152)，所述編碼器包括裝置(12)，響應輸入信號(100)，用于對輸入信號(100)進行高通濾波，用以在相應于合成語音(110)的高頻部分的頻率范圍中提供高通濾波過的信號(112)，并且基于高通濾波過的信號(112)進一步提供另一個縮放因子(114，144)；以及裝置(18)，響應另一個縮放因子(114，144)，用于在已編碼比特流中提供指示另一個縮放因子的已編碼信號(118)，以便允許解碼器(34)在激活語音周期接收已編碼信號，并使用另一個縮放因子(114，144)縮放處理過的仿真信號(152)。
24.一個移動站(200)，其被設(shè)置來發(fā)送已編碼比特流至解碼器(34，220)，用以提供具有高頻部分和低頻部分的合成語音(110)，其中已編碼比特流包括指示語音數(shù)據(jù)輸入信號(100)的語音數(shù)據(jù)，該輸入信號具有激活語音周期和非激活語音周期并且被劃分成高頻帶和低頻帶，其中語音數(shù)據(jù)包括具有輸入信號低頻帶特性的語音相關(guān)參數(shù)(104)，以便允許解碼器(34)基于語音相關(guān)參數(shù)提供合成語音的低頻部分，并且基于語音相關(guān)參數(shù)(104)著色仿真信號，同時基于合成語音的低頻部分使用縮放因子(144&145)縮放著色的仿真信號，用于在非激活語音周期中提供合成語音的高頻部分(160)，所述移動站包括濾波器(12)，響應輸入信號(100)，用于高通濾波相應于合成語音高頻部分的頻率范圍的輸入信號，并且用于基于高通濾波過的輸入信號(112)提供另一個縮放因子(114，144)；以及量化模塊(18)，響應另一個縮放因子(114，144)，用于在已編碼比特流中提供指示另一個縮放因子(114，144)的已編碼信號(118)，以便允許解碼器(34)在激活語音周期中基于另一個縮放因子(114，144)縮放著色的仿真信號。
25.一種電信網(wǎng)絡(luò)(300)中的元件(34，320)，其被設(shè)置來接收包括指示來自移動站(330)的輸入信號的語音數(shù)據(jù)的已編碼的比特流，用以提供具有高頻部分和低頻部分的合成語音，其中輸入信號具有激活語音周期和非激活語音周期，并且輸入信號被分為高頻帶和低頻帶，其中語音數(shù)據(jù)(104，118，145，190)包括具有輸入信號低頻帶特性的語音相關(guān)參數(shù)(104)和具有輸入信號高頻帶特性的增益參數(shù)(118)，并且基于語音相關(guān)參數(shù)(104)提供合成語音的低頻部分，所述元件包括第一機構(gòu)(38)，響應增益參數(shù)(118)，用于提供第一縮放因子(144)；第二機構(gòu)(52，54)，響應語音相關(guān)參數(shù)(104)，用于合成和高通濾波仿真信號(150)，用以提供一個合成和高通濾波過的仿真信號(150)；第三機構(gòu)(40)，響應第一縮放因子(144)和語音數(shù)據(jù)(145，190)，用于提供組合的縮放因子(146)，該組合的縮放因子包括具有輸入信號高頻帶特性的第一縮放因子(144)，基于第一縮放因子(144)和具有合成語音低頻部分特性的另一個語音相關(guān)參數(shù)(145)的第二縮放因子(144&145)；以及第四機構(gòu)，響應于合成和高通濾波過的仿真信號(154)以及合成縮放因子(146)，用于在激活語音周期和非激活語音周期中，分別使用第一(144)和第二縮放因子(144&145)縮放合成和高通濾波過的仿真信號(154)。
全文摘要
用于編碼和解碼輸入信號(100)和提供合成的語音(110)的語音編碼方法和設(shè)備，其中通過對仿真信號(150)高通濾波和著色獲得合成語音(110)的高頻部分(160)來提供處理過的仿真信號(154)。處理過的仿真信號(154)在輸入信號(100)的激活語音周期通過第一縮放因子(114，144)進行縮放(530，540)，在非激活語音周期通過第二縮放因子(114和115，144和145)進行縮放，其中第一縮放因子(114，144)具有輸入信號(100)的高頻帶特性，并且第二縮放因子(114和115，144和145)具有輸入信號(100)的低頻帶特性。特別地，第二縮放因子(114和115，144和145)基于合成語音(110)的低頻部分進行估算，并且仿真信號(150)的著色是基于具有輸入信號(100)低頻特性的線性預測編碼系數(shù)(104)的。
文檔編號G10L19/04GK1470052SQ01817599
公開日2004年1月21日申請日期2001年10月17日優(yōu)先權(quán)日2000年10月18日
發(fā)明者P·奧亞拉, J·羅托拉-普基拉, J·韋尼奧, H·米科拉, P 奧亞拉, 嵐, 欣普基拉, 評申請人:諾基亞有限公司

完整全部詳細技術(shù)資料下載