亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

處理丟失幀的語音通信系統(tǒng)及方法

文檔序號:2823213閱讀:427來源:國知局
專利名稱:處理丟失幀的語音通信系統(tǒng)及方法
參考引用在此整體結(jié)合以下美國專利申請以資參考并使其構(gòu)成本申請的一部分1998年9月18日提交的,序列號為09/156,650的美國專利申請“Speech Encoder Using Gain Normalization That Combines Open AndClosed Loop Gain”,Conexant文檔號為98RSS399;1999年9月22日提交的,序列號為60/155,321的美國臨時申請,“4kbits/s Speech Coding”,Conexant文檔號為99RSS485;以及2000年5月19日提交的,序列號為09/574,396的美國專利申請,“ANew Speech Gain Quantization Strategy”,Conexant文檔號為99RSS312。
為了對基本的語音建模,對語音信號按時間采樣并按幀存儲作為待被數(shù)字化處理的離散波形。然而,為了更有效地使用語音的通信帶寬,在發(fā)送之前,特別是當(dāng)語音要在有限帶寬約束下傳輸時要對語音進行編碼。對于不同的語音編碼問題已經(jīng)提出多種算法。例如,可對語音信號執(zhí)行合成分析的編碼方法。在編碼語音時,語音編碼算法試圖以需要最小帶寬的方式表示語音信號的特征。例如,語音編碼算法設(shè)法除去語音信號中的冗余性。第一步是除去短期相關(guān)性。一種信號編碼技術(shù)是線性預(yù)測編碼(LPC)。在使用LPC方法時,將任意特定時間的語音信號值模型化為先前值的線性函數(shù)。通過使用LPC方法,能夠降低短期相關(guān)性,并可通過估計并應(yīng)用某些預(yù)測參數(shù)表示該信號來確定有效的語音信號表示。作為語音信號中短期相關(guān)性包絡(luò)的LPC頻譜,例如可由LSF(線譜頻率)表示。在除去語音信號中的短期相關(guān)性之后,保留有LPC殘余信號。這種殘余信號包含需要被模型化的周期性信息。除去語音中的冗余性的第二步是對周期性信息建模??墒褂靡粽{(diào)預(yù)測對周期性信息建模。語音的某些部分具有周期性,而其它部分則沒有。例如,聲音“aah”有周期性信息,而聲音“shhh”則沒有周期性信息。
在使用LPC技術(shù)時,傳統(tǒng)的源編碼器作用于語音信號,以便提取待被編碼的建模和參數(shù)信息,用于通過通信信道與傳統(tǒng)的源解碼器通信。把建模和參數(shù)信息編碼為較小信息量的一種方法是使用量化。參數(shù)的量化涉及在表或碼本中選擇最接近的項表示該參數(shù)。這樣,例如如果碼本包含0,0.1,0.2,0.3等,則可由0.1表示參數(shù)0.125。量化包括標(biāo)量量化和矢量量化。在標(biāo)量量化中,在表或碼本中按上述選擇最接近參數(shù)的項。與此相對照,矢量量化組合兩個或多個參數(shù),并在表或碼本中選擇最接近被組合的參數(shù)的項。例如矢量量化可以在碼本中選擇最接近參數(shù)之間的差的項。用于一次矢量量化兩個參數(shù)的碼本常被稱為二維碼本。一個n-維碼本一次量化n個參數(shù)。
量化的參數(shù)可被打包為若干數(shù)據(jù)包,從編碼器發(fā)送至解碼器。換言之,一旦被編碼,表示輸入語音信號的參數(shù)就被發(fā)送至收發(fā)器。這樣,例如可將LSF量化,并且將對應(yīng)于碼本中的索引轉(zhuǎn)換為若干位,然后從編碼器發(fā)送至解碼器。根據(jù)該實施例,每一個包可表示該語音信號的一個幀的一部分,一個語音幀,或不止一個語音幀。在收發(fā)器處,解碼器接收被編碼的信息。因為解碼器被配置為知道語音信號被編碼的方式,故解碼器可對編碼的信息解碼,以便重構(gòu)用于回放人耳感覺如同原來語音的聲音信號。然而,至少有一個數(shù)據(jù)包在傳輸期間丟失可能是不可避免的,從而解碼器并沒有收到由編碼器發(fā)送的所有信息。例如,當(dāng)語音從一蜂窩式電話向另一蜂窩式電話傳輸時,在接收不良或有噪聲時數(shù)據(jù)可能丟失。因而,向解碼器發(fā)送編碼的建模和參數(shù)信息需要一種方法,該方法使得解碼器能夠校正或調(diào)整丟失的數(shù)據(jù)包。雖然現(xiàn)有技術(shù)描述了某些用于調(diào)整丟失的數(shù)據(jù)包的方法,例如通過外推試圖猜測丟失的包中是些什么信息,但這些方法受到限制,以至需要改進的方法。
除了LSF信息之外,向解碼器發(fā)送的其它參數(shù)也可能丟失。例如在CELP(碼激勵線性預(yù)測)語音編碼中,有兩種類型的增益也要被量化并向解碼器發(fā)送。第一種類型的增益是音調(diào)增益GP,也稱為自適應(yīng)碼本增益。自適應(yīng)碼本增益有時(包括這里)以下標(biāo)“a”而不是下標(biāo)“p”標(biāo)記。第二類增益是固定碼本增益GC。語音編碼算法具有包括自適應(yīng)碼本增益和固定碼本增益的量化參數(shù)。其他參數(shù)可包括例如代表話音語音(voiced speech)周期性的音調(diào)滯后。如果語音編碼器對語音信號分類,也可以向解碼器發(fā)送關(guān)于語音信號分類的信息。對于將語音分類并以不同模式操作的改進的語音編碼器/解碼器,參見2000年5月19日提交的美國專利申請09/574,396,“A New Speech Gain Quantization Strategy,”Conexant文檔號為99RSS312,該文獻先前已被引用在此作為參考。
因為這些和其它參數(shù)信息是通過不完善的傳輸裝置向解碼器發(fā)送,這些參數(shù)的某些會丟失或永遠(yuǎn)不會被解碼器收到。對于每一語音幀傳輸一個信息包的語音通信系統(tǒng),一個包的丟失就造成一幀信息的丟失。為了重構(gòu)或估計丟失的信息,現(xiàn)有技術(shù)系統(tǒng)根據(jù)參數(shù)的丟失已嘗試了不同的方法。某些方法簡單地使用實際上由解碼器收到的來自先前幀的參數(shù)。這些現(xiàn)有技術(shù)方法有其不足之處,不夠精確并有問題。這樣就需要一種改進的方法來校正或調(diào)整丟失的信息,使得再生一個盡可能接近原來的語音信號的語音信號。
為了節(jié)省帶寬,某些現(xiàn)有技術(shù)語音通信系統(tǒng)不從編碼器向解碼器傳輸固定碼本激勵。這些系統(tǒng)具有本地高斯時間序列產(chǎn)生器,所述時間序列產(chǎn)生器使用初始固定種子值(seed)產(chǎn)生隨機激勵值,然后每當(dāng)系統(tǒng)遇到包含靜音或背景噪聲的幀時就更新該種子值。這樣,對于每一個噪聲幀,種子值都發(fā)生改變。因為編碼器和解碼器具有按相同的順序使用相同的種子值的相同的高斯時間序列產(chǎn)生器,因而它們對噪聲幀產(chǎn)生相同的隨機激勵值。然而,如果一個噪聲幀丟失而沒有被解碼器收到,則編碼器和解碼器對相同的噪聲幀使用不同的種子值,從而失去它們的同步性。這樣,就需要一種語音通信系統(tǒng),它不向解碼器發(fā)送固定碼本激勵值,但是當(dāng)傳輸期間幀丟失時,能夠維持編碼器與解碼器之間的同步。
本發(fā)明第一個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)以受控的自適應(yīng)方式通過把LSF之間的最小間隔設(shè)置為一增加的值,然后對后續(xù)的幀降低該值來處理丟失的LSF信息。
本發(fā)明第二個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)通過從多個先前收到的幀的音調(diào)滯后外推而估計丟失的音調(diào)滯后。
本發(fā)明第三個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)接收后續(xù)收到的幀的音調(diào)滯后,并使用先前收到的幀的音調(diào)滯后與后續(xù)收到的幀的音調(diào)滯后之間的曲線擬合,微調(diào)其對丟失幀的音調(diào)滯后的估計,以便在由后續(xù)幀使用自適應(yīng)碼本緩沖器之前對其進行調(diào)整或校正。
本發(fā)明第四個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)對周期狀語音丟失增益參數(shù)的估計不同于其對非周期狀語音丟失增益參數(shù)的估計。
本發(fā)明第五個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)對丟失的自適應(yīng)碼本增益參數(shù)的估計不同于其對丟失的固定碼本增益參數(shù)的估計。
本發(fā)明第六個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),確定用于非周期狀語音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第七個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),及自適應(yīng)碼本激勵能量對總激勵能量的比值,確定用于非周期狀語音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第八個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)基于一自適應(yīng)數(shù)量的先前收到的幀的子幀的平均自適應(yīng)碼本增益參數(shù),自適應(yīng)碼本激勵能量對總激勵能量的比值,及先前收到的幀的譜傾斜和/或先前收到的幀的能量,確定用于非周期狀語音的丟失幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第九個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)將用于非周期狀語音的一個丟失幀的丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為任意高的數(shù)。
本發(fā)明第十個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)對于非周期狀語音的一個丟失幀的所有子幀,將丟失的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十一個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值,確定用于該非周期狀語音丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十二個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)基于先前收到的幀的能量與該丟失幀的能量的比值,確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù),然后減小該參數(shù)以設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十三個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)對于在接收幀之后要丟失的第一個周期狀語音幀,將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)。
本發(fā)明第十四個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)對于在接收幀之后要丟失的第一個周期狀語音幀,將丟失的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù),然后減小該參數(shù),以設(shè)置用于該丟失幀的其余子幀的丟失的自適應(yīng)碼本增益參數(shù)。
本發(fā)明第十五個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)在多個先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過一閾值的情況下,將用于一丟失的周期狀語音的固定碼本增益參數(shù)設(shè)置為零。
本發(fā)明第十六個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)在多個先前收到的幀的平均自適應(yīng)碼本增益參數(shù)不超過一閾值的情況下,基于先前收到的幀的能量與丟失幀的能量的比值,確定用于該丟失的周期狀語音幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十七個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)在多個先前收到的幀的平均自適應(yīng)碼本增益參數(shù)超過一閾值的情況下,基于先前收到的幀的能量與丟失幀的能量的比值,確定用于該丟失幀的當(dāng)前子幀的丟失的固定碼本增益參數(shù),然后減小該參數(shù)以便設(shè)置用于該丟失幀的其余子幀的丟失的固定碼本增益參數(shù)。
本發(fā)明第十八個單獨的方面是一種語音通信系統(tǒng),該系統(tǒng)使用一種子值隨機產(chǎn)生一固定碼本激勵用于一給定幀,該種子值的值由該幀中的信息確定。
本發(fā)明第十九個單獨的方面是一種語音通信解碼器,該解碼器在估計丟失幀中的丟失參數(shù)并合成語音之后,使該合成的語音能量與先前收到的幀的能量匹配。
本發(fā)明第二十個單獨的方面是或者獨立地或者以某種方式組合的以上任何單獨方面。
在實現(xiàn)以上或者獨立地或者以某種方式組合的任何單獨方面的編碼和/或解碼語音信號的方法中,進一步還能夠發(fā)現(xiàn)本發(fā)明的多個單獨的方面。
結(jié)合附圖,參考以下優(yōu)選實施例的詳細(xì)說明,本發(fā)明的其它方面,優(yōu)點和新穎特性將更為明顯。
圖2是

圖1的語音通信系統(tǒng)更詳細(xì)的功能框圖。
圖3是由圖1的語音通信系統(tǒng)的一實施例使用的源編碼器的示例性的第一級即語音預(yù)處理器的功能框圖。
圖4是一功能框圖,示例性地示出由圖1的語音通信系統(tǒng)的一實施例使用的源編碼器的第二級。
圖5是一功能框圖,示例性地示出由圖1的語音通信系統(tǒng)的一實施例使用的源編碼器的第三級。
圖6是一功能框圖,示例性地示出由圖1的語音通信系統(tǒng)的一實施例使用的源編碼器的第四級,用于處理非周期性語音(模式0)圖7是一功能框圖,示例性地示出由圖1的語音通信系統(tǒng)的一實施例使用的源編碼器的第四級,用于處理周期性語音(模式1)。
圖8是用于處理來自根據(jù)本發(fā)明建立的語音編碼器的編碼信息的語音解碼器的一實施例的框圖。
圖9表示一假設(shè)的接收幀和丟失幀的例子。
圖10表示現(xiàn)有技術(shù)系統(tǒng)中和根據(jù)本發(fā)明建立的語音通信系統(tǒng)中,接收幀和丟失幀以及指定給每一幀的LSF之間的最小間隔的一假設(shè)的例子。
圖11示出一假設(shè)的例子,表示現(xiàn)有技術(shù)語音通信系統(tǒng)如何對每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖12示出一假設(shè)的例子,表示根據(jù)本發(fā)明建立的語音通信系統(tǒng)如何對每一幀指定并使用音調(diào)滯后和增量音調(diào)滯后信息。
圖13示出一假設(shè)的例子,表示當(dāng)有丟失幀時,根據(jù)本發(fā)明建立的語音通信系統(tǒng)如何對每一幀指定自適應(yīng)增益參數(shù)信息。
圖14示出一假設(shè)的例子,表示現(xiàn)有技術(shù)編碼器對于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機激勵值。
圖15示出一假設(shè)的例子,表示現(xiàn)有技術(shù)解碼器對于包含靜音或背景噪聲的每一幀如何使用種子值產(chǎn)生隨機激勵值,及在有丟失幀的情況下是如何與編碼器失去同步的。
圖16是表示根據(jù)本發(fā)明的非周期狀語音處理的一個例子的流程圖。
圖17是表示根據(jù)本發(fā)明的周期狀語音處理一個例子的流程圖。
圖1為語音通信系統(tǒng)的示意框圖,表示通信系統(tǒng)中語音編碼器和解碼器的一般使用。語音通信系統(tǒng)100通過通信信道103傳輸并再生語音。通信信道103可包括例如導(dǎo)線,光纖,或光學(xué)鏈路,但其一般至少部分包含射頻鏈路,如在蜂窩式電話中可看到的那樣,這種鏈路常常必須支持需要共享帶寬資源的多路、同時語音交換。
一個存儲裝置可連接到通信信道103以暫時存儲用于延遲再生或回放的語音信息,例如執(zhí)行應(yīng)答機功能,語音電子郵件等。類似地,在例如僅記錄并存儲語音用于隨后回放的通信系統(tǒng)100的單個裝置實施例中,通信信道103可由這種存儲裝置代替。
具體來說,話筒111實時產(chǎn)生語音信號。話筒111把語音信號送到A/D(模擬到數(shù)字)轉(zhuǎn)換器115。A/D轉(zhuǎn)換器115把模擬語音信號轉(zhuǎn)換為數(shù)字形式,然后把該數(shù)字化的語音信號傳送到語音編碼器117。
語音編碼器117使用從多種編碼方式中選擇的一種方式對該數(shù)字化語音編碼。該多種編碼方式的每一種都使用特定的技術(shù),試圖優(yōu)化得到的再生的語音的質(zhì)量。在工作在該多種方式中的任何一種方式時,語音編碼器117產(chǎn)生一系列建模和參數(shù)信息(例如“語音參數(shù)”)并把該語音參數(shù)傳送到一可選的信道編碼器119。
該可選的信道編碼器119與信道解碼器131協(xié)同工作通過通信信道103傳送語音參數(shù)。信道解碼器131把該語音參數(shù)轉(zhuǎn)發(fā)到語音解碼器133。語音解碼器133的工作方式對應(yīng)于語音編碼器117,其試圖盡可能精確地從所述語音參數(shù)再生原來的語音。語音解碼器133把再生的語音傳送到D/A(數(shù)字到模擬)轉(zhuǎn)換器135,使得再生的語音可通過揚聲器137聽到。
圖2是表示圖1的示例性通信裝置的功能框圖。通信裝置151包括語音編碼器和解碼器兩者,用于同時捕獲并再生語音。通常在單一框架內(nèi),通信裝置151例如可包括蜂窩式電話,便攜式電話,計算系統(tǒng),或某些其它的通信裝置。另外,如果裝設(shè)了存儲器元件用于存儲編碼的語音信息,則通信裝置151可包括應(yīng)答機,錄音機,話音郵件系統(tǒng),或其它通信存儲器裝置。
話筒155和A/D轉(zhuǎn)換器157把數(shù)字話音信號傳送到編碼系統(tǒng)159。編碼系統(tǒng)159進行語音編碼,并把得到的語音參數(shù)信息傳送到通信信道。被傳送的語音參數(shù)信息可被指定用于在遠(yuǎn)地的另一通信裝置(未示出)。
在接收到語音參數(shù)信息時,解碼系統(tǒng)165進行語音解碼。解碼系統(tǒng)把語音參數(shù)信息傳送到D/A轉(zhuǎn)換器167,在此,該模擬語音輸出可在揚聲器169播放。最終結(jié)果是再生出盡可能與原來捕獲的語音相似的聲音。
編碼系統(tǒng)159包括執(zhí)行語音編碼的語音處理電路185,也包括執(zhí)行可選信道編碼的可選信道處理電路187。類似地,解碼系統(tǒng)165包括執(zhí)行語音解碼的語音處理電路189,以及執(zhí)行信道解碼的可選信道處理電路191。
雖然語音處理電路185和可選信道處理電路187是分開表示的,但它們可部分或整體地組合為單個的單元。例如,語音處理電路185和信道處理電路187可共享單個的DSP(數(shù)字信號處理器)和/或其它處理電路。類似地,語音處理電路189和可選信道處理電路191可完全分開或部分或整體組合。此外,整體或部分地組合還可用于語音處理電路185和189,信道處理電路187和191,處理電路185,187,189和191,或者根據(jù)情況處理。此外,每一個或所有控制解碼器和/或編碼器操作方面的電路可被稱為控制邏輯,并可通過例如微處理器,微控制器,CPU(中央處理器),ALU(算法邏輯單元),協(xié)處理器,ASIC(專用集成電路),或任何其它類型電路和/或軟件實現(xiàn)。
編碼系統(tǒng)159和解碼系統(tǒng)165都使用存儲器161。在源編碼過程期間,語音處理電路185使用語音存儲器177的固定碼本181和自適應(yīng)碼本183。類似地,在源解碼過程期間,語音處理電路189使用固定碼本181和自適應(yīng)碼本183。
雖然所示的語音存儲器177由語音處理電路185與189共用,但也可以對每一處理電路185與189指定一個或多個分開的語音存儲器。存儲器161還包含處理電路185,187,189和191使用的軟件,以便執(zhí)行源編碼和解碼過程中所需的各種功能。
在討論語音編碼中改進的實施例細(xì)節(jié)之前,在此提供對整個語音編碼算法的概述。本說明書中所涉及的改進的語音編碼算法例如可以是基于CELP模式的eX-CELP(擴展的CELP)算法。eX-CELP算法的細(xì)節(jié)在轉(zhuǎn)讓給同一受讓人Conexant System,Inc.的美國專利申請中已討論,此前已在此引用以資參考1999年9月22日提交的,序列號為60/155,321的美國臨時申請“4 kbits/s Speech Coding,”Conexant文檔號為99RSS485。
為了以低位速率(諸如每秒4千位)達到通行的質(zhì)量(toll quality),改進的語音編碼算法與傳統(tǒng)的CELP算法的嚴(yán)格波形匹配標(biāo)準(zhǔn)有所偏離,且力圖捕獲輸入信號可感知的重要特征。為此,改進的語音編碼算法根據(jù)一定的特征,諸如噪聲狀內(nèi)容級(degree of content),尖銳狀內(nèi)容級,話音內(nèi)容級,非話音內(nèi)容級,幅度頻譜演變,能量輪廓的演變,周期性的演變等等,分析輸入信號,并使用這一信息來控制在編碼和量化過程期間的加權(quán)?;驹瓌t是要精確地表示感知上的重要特征,并允許較不重要特征方面有相對較大的誤差。其結(jié)果是,改進的語音編碼算法集中在感知匹配,而不是波形匹配。集中在感知匹配的結(jié)果是獲得了滿意的語音再生,因為假設(shè)在每秒4千位的位速率下,波形匹配不夠精確,無法真實的捕獲輸入信號中的所有信息。于是,改進的語音編碼器進行某些優(yōu)先性劃分以獲得改進的結(jié)果。
在一具體的實施例中,該改進的語音編碼器使用20毫秒,或每秒具有160個采樣的幀尺度,每一幀被劃分為兩個或三個子幀。子幀的數(shù)目取決于子幀處理的模式。在該具體實施例中,對每個語音幀可選擇兩種模式之一模式0和模式1。重要的是,處理子幀的方式取決于該模式。在該具體實施例中,模式0采用每幀兩個子幀,其中每個子幀持續(xù)時間為10毫秒,或包含80個采樣。類似地,在該示例性實施例中,模式1采用每幀三個子幀,其中第一和第二子幀持續(xù)時間為6.625毫秒,或包含53個采樣,而第三個子幀持續(xù)時間為6.75毫秒,或包含54個采樣。在這兩種模式下,均可使用15毫秒的超前(look ahead)。對于兩種模式0和1,均可使用一第十階線性預(yù)測(LP)模型來表示信號的譜包絡(luò)。LP模型例如可通過使用延遲決策,切換多級預(yù)測矢量量化方案在線性譜頻(LSF)域中編碼。
模式0使用傳統(tǒng)的語音編碼算法,諸如CELP算法。然而,模式0并非用于所有的語音幀,而是如以下更為詳細(xì)的討論,選擇模式0是要處理除了“周期狀”語音的所有語音幀。為了方便,“周期狀”語音在這里被稱為周期語音,所有其它語音為“非周期”語音。這種“非周期”語音包括其典型的參數(shù)諸如音調(diào)相關(guān)性和音調(diào)滯后迅速改變的過渡幀,以及其信號主要是噪聲狀的幀。模式0把每一幀分解為兩個子幀。模式0對每一子幀進行一次音調(diào)滯后編碼,且其具有二維矢量量化器,以便對每一子幀進行一次音調(diào)增益(即自適應(yīng)碼本增益)和固定碼本增益的聯(lián)合編碼。在該示例性例子中,固定碼本包含兩個脈沖子碼本和一個高斯子碼本;這兩個脈沖子碼本分別有兩個和三個脈沖。
模式1與傳統(tǒng)的CELP算法不同。模式1處理包含周期語音的幀,它們一般有高度的周期性并常??捎梢黄交粽{(diào)軌跡很好地表示。該具體的實施例中,模式1采用每幀三個子幀。在子幀處理之前,每出現(xiàn)一幀就對音調(diào)滯后進行一次編碼,作為音調(diào)預(yù)處理的一部分,并從該滯后導(dǎo)出插入的音調(diào)軌跡。這些子幀的三個音調(diào)增益顯示出很好的穩(wěn)定性,并在閉環(huán)子幀處理之前基于均方誤差準(zhǔn)則使用預(yù)矢量量化被聯(lián)合量化。可從加權(quán)的語音中導(dǎo)出非量化的這三個基準(zhǔn)音調(diào)增益,它們是基于幀的音調(diào)預(yù)處理的副產(chǎn)品。使用預(yù)量化音調(diào)增益,進行傳統(tǒng)的CELP子幀處理,所不同在于剩下三個固定碼本增益未被量化。在基于延遲決策方法的子幀處理之后,使用能量的移動平均預(yù)測聯(lián)合量化這三個固定碼本增益。隨后使用完全量化的參數(shù)合成這三個子幀。
基于包含在幀中的語音的分類對每一語音幀選擇處理模式的方式,以及周期語音處理的新穎方法,允許以顯著較少的位進行增益量化,而在語音感知質(zhì)量上沒有任何明顯的損失。以下提供處理語音的這種方式的細(xì)節(jié)。
圖3-7是表示由圖1和2中所示語音編碼器的一實施例使用的多級編碼方法的功能框圖。具體來說,圖3是表示包括多級編碼方法的第一級的語音預(yù)處理器193的功能框圖;圖4是表示第二級的功能框圖;圖5和6是表示第三級的模式0的功能框圖;以及圖7是表示第三級的模式1的功能框圖。包括編碼器處理電路的語音編碼器,一般在軟件指令下工作以便執(zhí)行以下功能。
讀取輸入的語音并以幀的形式緩存。轉(zhuǎn)到圖3的語音預(yù)處理器193,把輸入語音192的幀提供給靜音增強器195,其確定該語音幀是否純粹是靜音,即只有“靜音噪聲”。語音增強器195基于幀自適應(yīng)地檢測當(dāng)前幀是否是純粹的“靜音噪聲”。如果信號192是“靜音噪聲”,則語音增強器195使該信號192傾斜為其零電平。否則,如果信號192不是“靜音噪聲”,則語音增強器195不改變信號192。語音增強器195對非常低電平的噪聲清除掉干凈語音的靜音部分,由此提高該干凈語音的感知質(zhì)量。在輸入的語音信號來源于A-定律源時,語音增強功能的效果變得尤為明顯;就是說,就在通過當(dāng)前語音編碼算法處理之前,該輸入已經(jīng)通過A-定律編碼和解碼。由于A-定律將0附近的采樣值(例如-1,0,+1)放大為-8或+8,A-定律中的放大能夠變換不可聽到的靜音噪聲為清晰可聽到的噪聲。在由語音增強器195的處理之后,語音信號被提供給高通濾波器197。
高通濾波器197去除低于一定截止頻率的頻率,并允許高于該截止頻率的頻率通過到達噪聲衰減器199。在該具體實施例中,高通濾波器197與ITU-T的G.729語音編碼標(biāo)準(zhǔn)的輸入高通濾波器相同。就是說,它是帶有140赫茲(Hz)截止頻率的第二階極-零濾波器。當(dāng)然,高通濾波器197不必是這種濾波器,而是可構(gòu)造為本領(lǐng)域技術(shù)人員所知的任何類型的合適的濾波器。
噪聲衰減器199執(zhí)行噪聲抑制算法。在該具體實施例中,噪聲衰減器199對環(huán)境噪聲進行最大5分貝(dB)的微弱噪聲衰減,以便通過語音編碼算法改進參數(shù)的估計。可使用本領(lǐng)域技術(shù)人員所知的多種技術(shù)中的任何一種來增強靜音、構(gòu)建高通濾波器197并衰減噪聲。語音預(yù)處理器193的輸出是被預(yù)處理的語音200。
當(dāng)然,靜音增強器195、高通濾波器197和噪聲衰減器199可按可使用本領(lǐng)域技術(shù)人員所知的適用于該特定應(yīng)用的方式以任何其它裝置代替或修改。
轉(zhuǎn)到圖4,提供了公用的基于幀的語音信號處理功能框圖。換言之,圖4示出基于逐幀的語音信號的處理。在進行模式相關(guān)處理250之前,這種幀處理的進行與模式(即模式0或1)無關(guān)。預(yù)處理的語音200由感知加權(quán)濾波器252接收,該濾波器操作用以加強預(yù)處理的語音信號200的低谷區(qū)域并減弱其尖峰區(qū)域。感知加權(quán)濾波器252可按本領(lǐng)域技術(shù)人員所知的并適用于特定應(yīng)用的方式以任何其它裝置代替或修改。
LPC分析器260接收該預(yù)處理的應(yīng)用信號200并估計語音信號200的短期譜包絡(luò)。LPC分析器260從定義語音信號200的特征中提取LPC系數(shù)。在一個實施例中,對每一幀進行三個第十階LPC分析。它們的中心在該幀的中間三分之一,最后三分之一,及幀的超前。重復(fù)對該超前的LPC分析,用于下一個幀,作為中心為該幀的第一個三分之一的LPC分析。這樣,對于每一幀,產(chǎn)生四組LPC參數(shù)。LPC分析器260還可將LPC系數(shù)量化至,例如線譜頻率(LSF)域。LPC系數(shù)的量化可以是標(biāo)量量化或矢量量化,并可在任何適當(dāng)?shù)挠蛑幸詷I(yè)內(nèi)任何已知的方式進行。
分類器270通過例如查看幀的絕對最大值,反射系數(shù),預(yù)測誤差,來自LPC分析器260的LSF矢量,第十階自相關(guān),最近的音調(diào)滯后和最近的音調(diào)增益,來獲得關(guān)于預(yù)處理語音200的特征信息。這些參數(shù)是本領(lǐng)域技術(shù)人員所熟知的,因此在此不再解釋。分類器270使用這些信息控制編碼器的其它方面,諸如信噪比的估計,音調(diào)的估計,分類,譜平滑,能量平滑和增益歸一化。同樣,這些方面是本領(lǐng)域技術(shù)人員所熟知的,因此這里不再解釋。以下提供分類算法的簡要總結(jié)。
分類器270借助于音調(diào)預(yù)處理器254,根據(jù)幀的主要特征把每一幀分類為六類之一。這些類型是(1)靜音/背景噪聲;(2)噪聲/似非話音語音;(3)非話音;(4)過渡音(包括啟動);(5)非穩(wěn)定話音;及(6)穩(wěn)定話音。分類器270可使用任何一種方法把輸入信號分類為周期信號和非周期信號。例如,分類器270可把預(yù)處理語音信號,該幀的后一半的音調(diào)滯后和相關(guān)性,及其它信息作為輸入?yún)?shù)。
可使用各種標(biāo)準(zhǔn)以確定是否可將語音認(rèn)為是周期性的。例如,如果語音是穩(wěn)定的話音信號,則可認(rèn)為語音是周期性的。某些人可能認(rèn)為周期性語音包含穩(wěn)定話音語音和非穩(wěn)定話音語音,但為了本說明書的說明,周期性語音包括穩(wěn)定話音語音。此外,周期性語音可以是平滑和穩(wěn)定的語音。當(dāng)話音信號在一幀內(nèi)的變化不大于一定量時,該語音信號被認(rèn)為是“穩(wěn)定”的。這種語音信號更可能具有良好定義的能量輪廓。如果一語音的自適應(yīng)碼本增益GP大于一閾值,則該語音信號是“穩(wěn)定”的。例如,如果閾值為0.7,則當(dāng)其自適應(yīng)碼本增益GP大于0.7時,子幀內(nèi)的語音信號被認(rèn)為是穩(wěn)定。非周期性語音,或沒有話音的語音,包括非話音語音(例如,摩擦音諸如“shhh”聲音),過渡音(例如啟動音(onsets),補償音(offsets)),背景噪聲和靜音。
更具體地說,在該示例性實施例中,語音編碼器初始地導(dǎo)出以下參數(shù)譜傾斜(每幀對第一反射系數(shù)進行四次估計)κ(k)=Σn=1L-1sk(n)·sk(n-1)Σn=0L-1sk(n)2k=0,1,...,3,----(1)]]>其中L=80是在其上計算反射系數(shù)的窗口,而sk(n)是由以下等式給出的第k段Sk(n)=s(k·40-20+n)·wh(n), n=0,1,...79, (2)其中wh(n)為80個采樣漢明窗,而s(0),s(1)...,s(159)是該預(yù)處理語音信號的當(dāng)前幀。
絕對最大值(跟蹤絕對信號最大值,每幀進行8次估算)χ(k)=max{s(n)|,n=ns(k),ns(k)+1,...,ne(k)-1},k=0,1,...,7 (3)其中ns(k)和ne(k)分別是用于在該幀的第k·160/8次采樣時刻搜索第k個最大值的開始點和結(jié)束點。一般來說,段的長度是音調(diào)周期的1.5倍且這些段部分重疊。這樣,就可獲得該振幅包絡(luò)的平滑輪廓。
譜傾斜,絕對最大值和音調(diào)相關(guān)參數(shù)構(gòu)成了分類的基礎(chǔ)。然而,對這些參數(shù)的其它處理和分析是在分類決定之前進行的。所述參數(shù)處理最初是向這三個參數(shù)加權(quán)。在某種意義上,加權(quán)是通過減去來自背景噪聲的影響來去除這些參數(shù)中的背景噪聲成分。這提供了一種“獨立”于任何背景噪聲并由此更為一致的參數(shù)空間,并改進了分類對背景噪聲的穩(wěn)定性。
根據(jù)以下方程式即方程式4-7,對于每一幀,將噪聲的音調(diào)周期能量的連續(xù)均值、噪聲的譜傾斜、噪聲的絕對最大值、以及噪聲的音調(diào)相關(guān)性更新八次。由方程式4-7定義的以下參數(shù)每幀被估計/采樣八次,提供具有精細(xì)的參數(shù)空間時間分辨率噪聲的音調(diào)周期能量的連續(xù)均值<EN,P(k)>=α1·<EN,P(k-1)>+(1-α1)·EP(k), (4)其中EN,P(k)是在該幀的k·160/8次采樣時刻音調(diào)周期的歸一化能量。由于音調(diào)周期一般超過20個采樣(160采樣/8),在其上計算能量的各段可能重疊。
噪聲的譜傾斜的連續(xù)均值<κN(k)>=α1·<κN(k-1)>+(1-α1)·κ(k模2) (5)噪聲的絕對最大值的連續(xù)均值<χN(k)>=α1·<XN(k-1)>+(1-α1)·χ(k) (6)噪聲的音調(diào)相關(guān)的連續(xù)均值<RN,P(k)>=α1·<RN,P(k-1)>+(1-α1)·RP(7)其中RP是該幀的后一半的輸入音調(diào)相關(guān)值。自適應(yīng)常數(shù)α1是自適應(yīng)的,雖然典型值是α1=0.99。
背景噪聲對信號的比值根據(jù)以下公式計算γ(k)=<EN.P(k)>Ep(k)----(8)]]>參數(shù)噪聲衰減限制為30dB,即,γ(k)={γ(k)>0.968?0.968γ(k)} (9)
根據(jù)以下方程式10-12,通過去除噪聲成分獲得無噪聲參數(shù)(加權(quán)參數(shù))集加權(quán)譜傾斜的估計κw(k)=κw(k模2)-γ(k)·<κN(k)>(10)加權(quán)的絕對最大值估計χw(k)=χw(k)-y(k)·<χN(k)>(11)加權(quán)音調(diào)相關(guān)估計Rw,P(k)=RP-γ(k)·<RN,P(k)> (12)分別根據(jù)以下方程式13和14計算作為一階近似斜率的加權(quán)傾斜和加權(quán)最大值的演變,作為一階近似斜率∂κw(k)=Σl=17l·(χw(k-7+l)-χw(k-7))Σl=17l2----(13)]]>∂κw(k)=Σl=17l·(κw(k-7+l)-κw(k-7))Σl=17l2----(14)]]>一旦對幀的八個采樣點更新了方程式4到14的參數(shù),從方程式4-14的參數(shù)計算以下基于幀的參數(shù)最大加權(quán)音調(diào)相關(guān)Rw,pmax=max{Rw,p(k-7+l),l=0,1,...,7}----(15)]]>平均加權(quán)音調(diào)相關(guān)Rw,pavg=18Σl=07Rw,p(k-7+l).----(16)]]>平均加權(quán)音調(diào)相關(guān)連續(xù)均值<Rw,pavg(m)>=α2·<Rw,pavg(m-1)>+(1-α2)·Rw,pavg,----(17)]]>其中m是幀數(shù),α2=0.75是自適應(yīng)常數(shù)。
音調(diào)滯后的歸一化標(biāo)準(zhǔn)偏差σLp(m)=1μLp(m)Σl=02(Lp(m-2+1)-μLp(m))23,----(18)]]>其中LP(m)是輸入音調(diào)滯后,μLp(m)是以下公式給出的過去三個幀上音調(diào)滯后的均值μLp(m)=13Σl=02(Lp(m-2+1).----(19)]]>最小加權(quán)譜傾斜Knmin=min{κw(k-7+l),l=0,1,...,7}----(20)]]>最小加權(quán)譜傾斜的連續(xù)均值<κwmin(m)>=α2·<κwmin(m-1)>+(1-α2)·κwmin.----(21)]]>
平均加權(quán)譜傾斜κwavg=18Σl=07κw(k-7+l)----(22)]]>加權(quán)譜傾斜的最小斜率∂κwmin=min{∂κw(k-7+l),l=0,1,...,7.----(23)]]>加權(quán)譜傾斜的累計斜率∂κwacc=Σl=07∂κw(k-7+l).----(24)]]>加權(quán)最大值的最大斜率∂χwmax=max{∂χw(k-7+l),l=0,1,...,7----(25)]]>加權(quán)最大值的累計斜率∂χwacc=Σl=07∂χw(k-7+l).----(26)]]>由方程式23、25和26給出的參數(shù)用來標(biāo)記一幀是否有可能包含啟動音(onset),由方程式16-18、20-22給出的參數(shù)用來標(biāo)記一幀是否有可能是以話音語音為主。基于這些初始標(biāo)記、過去的標(biāo)記和其它信息,該幀被分類為六個類型之一。
有關(guān)分類器270對預(yù)處理語音200進行分類的方式在轉(zhuǎn)讓給同一受讓人,即Conexant Systems,Inc.的美國專利申請中有更詳細(xì)的描述,其先前已有引用這里作為參考1999年9月22日提交的,序列號為60/155,321的美國臨時申請“4 kbits/s Speech Coding”,Conexant的文檔號為99RSS485。
LSF量化器267從LPC分析器260接收LPC系數(shù),并量化LPC系數(shù)??梢允前?biāo)量量化或矢量量化的任何已知量化方法的LSF量化的目的,是要以較少的位來表示這些系數(shù)。在這一具體實施例中,LSF量化器267對第十階LPC模型進行量化。LSF量化器267還可以平滑LSF,以便減少LPC合成濾波器的譜包絡(luò)中不希望有的波動。LSF量化器267把量化的系數(shù)Aq(z)268發(fā)送到語音編碼器的子幀處理部分250。語音編碼器的子幀處理部分是模式相關(guān)的。雖然最好是LSF,但量化器267能夠把LPC系數(shù)量化到LSF域以外的域中。
如果選擇了音調(diào)預(yù)處理,則加權(quán)的語音信號256被發(fā)送到音調(diào)預(yù)處理器254。音調(diào)預(yù)處理器254與開環(huán)的音調(diào)估計器272協(xié)作以便修改該加權(quán)的語音256,使得其音調(diào)信息能夠被更精確地量化。音調(diào)預(yù)處理器254使用,例如,已知的對音調(diào)周期的壓縮或擴張技術(shù),以便改進語音編碼器量化音調(diào)增益的能力。換言之,音調(diào)預(yù)處理器254修改加權(quán)的語音信號256,以便更好地匹配該估計的音調(diào)軌跡,這樣當(dāng)產(chǎn)生感知上不可區(qū)分的再生語音時,可更精確地適配編碼模型。如果編碼器處理電路選擇音調(diào)預(yù)處理模式,則音調(diào)預(yù)處理器254進行加權(quán)語音信號256的音調(diào)預(yù)處理。音調(diào)預(yù)處理器254使該加權(quán)的語音信號256扭曲,以便匹配將由解碼器處理電路產(chǎn)生的內(nèi)插的音調(diào)值。當(dāng)應(yīng)用音調(diào)預(yù)處理時,該扭曲的語音信號被稱為修正的加權(quán)語音信號258。如果不選擇音調(diào)預(yù)處理模式,則該加權(quán)的語音信號256通過音調(diào)預(yù)處理器254而不作音調(diào)預(yù)處理(并為了方便,仍然稱為“改進的加權(quán)的語音信號”258)。音調(diào)預(yù)處理器254可包括一波形內(nèi)插器,其功能和實現(xiàn)是本領(lǐng)域技術(shù)人員所熟知的。波形內(nèi)插器使用已知的前向-后向波形內(nèi)插技術(shù)可改進某些不規(guī)則的過渡段,以便提高語音信號的規(guī)則性并抑制不規(guī)則性。通過音調(diào)預(yù)處理器254估計該加權(quán)的信號256的音調(diào)增益和音調(diào)相關(guān)。開環(huán)音調(diào)估計器272從該加權(quán)的語音256提取關(guān)于音調(diào)特征的信息。音調(diào)信息包含音調(diào)滯后和音調(diào)增益信息。
音調(diào)預(yù)處理器254還通過開環(huán)音調(diào)估計器272與分類器270相互作用,以便通過語音信號分類器270使分類精細(xì)化。因為音調(diào)預(yù)處理器254獲得關(guān)于該語音信號的附加信息,故分類器270可使用該附加信息精細(xì)調(diào)整其語音信號的分類。在進行音調(diào)預(yù)處理之后,音調(diào)預(yù)處理器254向該語音編碼器的模式相關(guān)子幀處理部分250輸出音調(diào)軌跡信息284及非量化音調(diào)增益286。
一旦分類器270把該預(yù)處理的語音200分類為多個可能的類型之一,該預(yù)處理的語音信號200的分類號碼就被作為控制信息280發(fā)送到模式選擇器274及模式相關(guān)子幀處理器250。模式選擇器274使用分類號碼選擇操作模式。在該特定實施例中,分類器270把該預(yù)處理的語音信號200分類為六個可能的類型之一。如果預(yù)處理的語音信號200是穩(wěn)定的話音語音(例如稱為“周期性”語音),則模式選擇器274將模式282設(shè)置為模式1。否則,模式選擇器274將模式282設(shè)置為模式0。模式信號282被發(fā)送到語音編碼器的模式相關(guān)子幀處理器部分250。模式信息282被添加到向解碼器發(fā)送的位流。
在該特定實施例中,應(yīng)當(dāng)小心解釋將語音標(biāo)記為“周期性”和“非周期性”。例如,使用模式1編碼的幀是那些基于每幀僅由七位導(dǎo)出的音調(diào)軌跡284在該整個幀保持高音調(diào)相關(guān)和高音調(diào)增益的幀。因而,選擇模式0而不是模式1可能是由于僅由七位表示的音調(diào)軌跡284不精確,而不一定是由于缺乏周期性。因而,使用模式0被編碼的信號可能很好包含了周期性,雖然每幀僅使用七位未能很好地表示音調(diào)軌跡。因而,模式0以每幀七位對音調(diào)軌跡進行兩次編碼,即每幀總共14位,以便更正確地表示音調(diào)軌跡。
本說明書中圖3-4和其它圖示上的每一功能框圖不必是分離的結(jié)構(gòu),可以是彼此組合,或按需要具有更多的功能塊。
語音解碼器的模式相關(guān)子幀處理部分250以模式0和模式1兩種模式操作。圖5-6提供了模式0子幀處理的功能框圖,而圖7表示語音編碼器第三級的模式1子幀處理的功能框圖。圖8示出與所述改進的語音編碼器一致的一語音解碼器的功能框圖。該語音解碼器執(zhí)行位流到算法參數(shù)的逆映射,隨后是模式相關(guān)合成。這些圖示及模式更為詳細(xì)的描述在轉(zhuǎn)讓給相同受讓人,即Conexant Systems,Inc.的美國專利申請中有述,其先前已引用在此作為參考2000年5月19日提交的,序列號為09/574,396的美國專利申請“A New Speech Gain Quantization Strategy,”Conexant文檔號為99RSS312。
代表語音信號的量化的參數(shù)可被打包,然后以數(shù)據(jù)包的形式從編碼器發(fā)送至解碼器。在以下所描述的示例性實施例中,逐幀分析該語音信號,其中每一幀具有至少一個子幀,且每一數(shù)據(jù)包包含一個幀的信息。這樣,在該例中,每一幀的參數(shù)信息是以信息包被發(fā)送的。換言之,對每一幀有一個數(shù)據(jù)包。當(dāng)然,其它的變形也是可能的,這與實施例有關(guān),每一數(shù)據(jù)包可表示一幀的一部分,一個以上的語音幀,或多個幀。
LSFLSF(線譜頻率)是LPC譜(即語音譜的短期包絡(luò))的表示。LSF可被看作若干特定的頻率,在這些頻率處,對該語音譜進行采樣。例如,如果系統(tǒng)使用十階LPC,則每幀將有10個LSF。在連續(xù)的LSF之間必須有一最小間隔,使得它們不會產(chǎn)生準(zhǔn)不穩(wěn)定濾波器。例如如果fi是第i個LSF,且等于100Hz,則第(i+1)個LSF fi+1必須至少是fi加最小間隔。例如,如果fi=100Hz且最小間隔為60Hz,則fi+1必須至少為160Hz,并可以是任何大于160Hz的頻率。最小間隔是不隨幀變化的一個固定數(shù),并且編碼器和解碼器都知道,以便它們能夠協(xié)同操作。
假設(shè)編碼器使用預(yù)測編碼對實現(xiàn)低位速率的語音通信所必需的LSF編碼(與非預(yù)測編碼相反)。換言之,編碼器使用先前的一個幀或多個幀的量化的LSF來預(yù)測當(dāng)前幀的LSF。編碼器從LPC譜導(dǎo)出出的當(dāng)前幀的預(yù)測LSF與真實的LSF之間的誤差被量化并發(fā)送到解碼器。解碼器按與編碼器相同的方式確定當(dāng)前幀的預(yù)測LSF。然后通過獲知由編碼器發(fā)送的誤差,解碼器能夠計算出當(dāng)前幀的真實LSF。然而,如果包含LSF信息的幀丟失會如何?轉(zhuǎn)向圖9,假設(shè)編碼器發(fā)送幀0-3,而解碼器只收到幀0,2和3。幀1是丟失或“被抹掉”的幀。如果當(dāng)前幀是丟失的幀1,則解碼器沒有計算真實的LSF所必須的誤差信息。結(jié)果是現(xiàn)有技術(shù)系統(tǒng)不能計算真實的LSF,而是把該LSF設(shè)置為前一幀的LSF,或一定數(shù)量先前幀的平均LSF。這一方法的問題在于當(dāng)前幀的LSF可能是非常不精確的(與真實的LSF比較),且后續(xù)幀(即圖9的例子中幀2,3)使用幀1不精確的LSF確定它們自己的LSF。于是,由丟失幀所引起的LSF外推誤差影響到后續(xù)幀的LSF的精確性。
在本發(fā)明的示例實施例中,一種改進的語音解碼器包括一計數(shù)器,它對該丟失幀之后的好幀進行計數(shù)。圖10示出與每一幀相關(guān)聯(lián)的最小LSF間隔的一例。假設(shè)解碼器收到好幀0,但幀1丟失。在現(xiàn)有技術(shù)方法之下,LSF之間的最小間隔是不變的固定數(shù)(圖10中是60Hz)。相反,當(dāng)改進的語音解碼器注意到有丟失幀時,它增加該幀的最小間隔以避免生成準(zhǔn)不穩(wěn)定濾波器。這一“受控的自適應(yīng)LSF間隔”的增加量取決于對該特定情形多大的間隔增量為最佳。例如,該改進的語音解碼器可能考慮信號的能量(或信號功率)如何隨時間演變,信號的頻率內(nèi)容(頻譜)如何隨時間演變,以及計數(shù)器確定丟失幀的最小間隔應(yīng)當(dāng)被設(shè)置為怎樣的值。本領(lǐng)域的技術(shù)人員能夠通過簡單的實驗確定出怎樣的最小間隔值可滿足使用。分析語音信號和/或其參數(shù)以導(dǎo)出適當(dāng)?shù)腖SF的優(yōu)點在于,得到的LSF可更接近該幀真實的(但丟失的)LSF。
自適應(yīng)碼本激勵(音調(diào)滯后)由自適應(yīng)碼本激勵和固定碼本激勵組成的總激勵eT由以下方程式描述eT=gp*exp+gc*exc(27)其中g(shù)p和gc分別是該量化的自適應(yīng)碼本增益和固定碼本增益,exp和exc是自適應(yīng)碼本激勵和固定碼本激勵。緩存器(也稱為自適應(yīng)碼本緩沖器)保存來自前一幀的eT及其分量?;诋?dāng)前幀的音調(diào)滯后參數(shù),語音通信系統(tǒng)從緩存器選擇一eT,并使用它作為當(dāng)前幀的exp。gp,gc和exc是從當(dāng)前幀獲得的。然后exp,gp,gc和exc被帶入到公式中以計算用于當(dāng)前幀的eT。將該計算的eT及其分量存儲在緩存器中用于當(dāng)前幀。該過程重復(fù),由此該緩存的eT用作為下一個幀的exp。這樣,該編碼方法(它由解碼器復(fù)制)的反饋特性是明顯的。由于方程式中的信息被量化,編碼器和解碼器被同步。注意,緩存器是一種自適應(yīng)碼本類型的(但不同于用于增益激勵的自適應(yīng)碼本)。
圖11示出由現(xiàn)有技術(shù)語音系統(tǒng)發(fā)送的用于四個幀1-4的音調(diào)滯后信息的例子。現(xiàn)有技術(shù)的編碼器將發(fā)送用于當(dāng)前幀的音調(diào)滯后和增量值,其中該增量值是當(dāng)前幀的音調(diào)滯后與前一幀的音調(diào)滯后之間的差,EVRC(增強的可變速率編碼器)標(biāo)準(zhǔn)規(guī)定了對增量音調(diào)滯后的使用。這樣,例如,關(guān)于幀1的信息包將包含音調(diào)滯后L1和增量(L1-L0),其中L0是前一幀0的音調(diào)滯后;關(guān)于幀2的信息包將包含音調(diào)滯后L2和增量(L2-L1);關(guān)于幀3的信息包將包含音調(diào)滯后L3和增量(L3-L2),等等。注意,相鄰幀的音調(diào)滯后可能相等,于是增量值可能為零。如果幀2丟失且不再會由解碼器收到,則在幀2時刻可得到的關(guān)于音調(diào)滯后的唯一信息是音調(diào)滯后L1,因為前一幀1并未丟失。音調(diào)滯后L2和增量(L2-L1)信息的丟失造成兩個問題。第一個問題是如何對丟失的幀2估計精確的音調(diào)滯后L2。第二個問題是如何防止在估計音調(diào)滯后L2中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差。某些現(xiàn)有技術(shù)系統(tǒng)并沒有試圖解決這兩個問題任何一個。
為試圖解決第一個問題,某些現(xiàn)有技術(shù)系統(tǒng)使用來自前一良好幀1的音調(diào)滯后L1作為用于丟失幀2的估計的音調(diào)滯后L2’,即便如此,該估計的音調(diào)滯后L2’與真實的音調(diào)滯后L2之間的任何差都可能是誤差。
第二個問題是如何防止在估計音調(diào)滯后L2’中出現(xiàn)的誤差在后續(xù)幀中產(chǎn)生誤差?;叵胂惹暗挠懻?,幀n的音調(diào)滯后是用來更新自適應(yīng)碼本緩存器的,該自適應(yīng)碼本緩存器接著由后續(xù)幀使用。估計的音調(diào)滯后L2’與真實的音調(diào)滯后L2之間的誤差將在自適應(yīng)碼本緩存器中產(chǎn)生一個誤差,該誤差將在后續(xù)接收的幀中產(chǎn)生誤差。換言之,在估計的音調(diào)滯后L2’中產(chǎn)生的誤差可能造成編碼器的自適應(yīng)碼本緩存器與解碼器的自適應(yīng)碼本緩存器之間失去同步。作為進一步的例子,在當(dāng)前丟失幀2的處理期間,現(xiàn)有技術(shù)解碼器將使估計的音調(diào)滯后L2’為音調(diào)滯后L1(其可能不同于真實的音調(diào)滯后L2)以得到幀2的exp。因而,使用有誤差的音調(diào)滯后造成為幀2選擇了錯誤的exp,且這一誤差通過后續(xù)幀傳播。為了解決現(xiàn)有技術(shù)中的這一問題,當(dāng)解碼器收到幀3時,解碼器現(xiàn)在有音調(diào)滯后L3和增量(L3-L2),且這樣能夠逆向計算真實的音調(diào)滯后L2應(yīng)當(dāng)為何。真實的音調(diào)滯后L2簡單地就是音調(diào)滯后L3減去增量(L3-L2)。這樣,現(xiàn)有技術(shù)解碼器就能夠校正由幀3使用的自適應(yīng)碼本緩存器。但由于已由該估計的音調(diào)滯后L2’對丟失的幀2進行了處理,故修正丟失的幀2為時已晚。
圖12示出若干幀的假設(shè)的情形,表示解決因丟失音調(diào)滯后信息而造成的兩個問題而改進的語音通信系統(tǒng)的示例實施例的操作。假設(shè)幀2丟失,而收到幀0,1,3和4。在解碼器處理丟失幀2的期間,該改進的解碼器可使用來自先前幀1的音調(diào)滯后L1。另外且最好是,該改進的解碼器可基于先前一個(多個)幀的一個(多個)音調(diào)滯后進行外推以確定一估計的音調(diào)滯后L2’,其結(jié)果可能是比音調(diào)滯后L1更為精確的估計。于是,例如,解碼器可使用音調(diào)滯后L0和L1來外推該估計的音調(diào)滯后L2’。外推方法可以是任何外推法,例如曲線擬合方法,該方法假設(shè)自過去具有一平滑的音調(diào)輪廓來估計該丟失音調(diào)滯后L2,一種方法是使用過去音調(diào)滯后的平均,或任何其它外推方法。因為不需要發(fā)送增量值,該方法降低了從編碼器向解碼器發(fā)送的位數(shù)。
為了解決第二個問題,當(dāng)改進的解碼器收到幀3時,解碼器有正確的音調(diào)滯后L3。然而,如上所述,幀3使用的自適應(yīng)碼本緩存器由于在估計音調(diào)滯后L2’中的任何外推誤差而可能不正確。該改進的解碼器試圖校正在幀2中估計音調(diào)滯后L2’中的誤差,以免影響幀2之后的幀,但無需發(fā)送增量音調(diào)滯后信息。一旦改進的解碼器獲得音調(diào)滯后L3,就使用諸如曲線擬合等內(nèi)插方法調(diào)整或精細(xì)調(diào)整其先前音調(diào)滯后L2’的估計。通過獲知音調(diào)滯后L1和L3,曲線擬合方法可以比當(dāng)不知道音調(diào)滯后L3時更精確估計L2’。其結(jié)果是得到精細(xì)調(diào)整的音調(diào)滯后L2”,它用來調(diào)整或校正供幀3使用的自適應(yīng)碼本緩存器。更具體地說,精細(xì)調(diào)整的音調(diào)滯后L2”用來調(diào)整或校正自適應(yīng)碼本緩存器中的量化的自適應(yīng)碼本激勵。于是,該改進的解碼器減少了必須發(fā)送的位數(shù),同時以滿足大多數(shù)情形的方式精細(xì)調(diào)整音調(diào)滯后L2’。這樣,為了降低音調(diào)滯后L2中任何誤差對后續(xù)收到的幀的影響,通過假設(shè)平滑的音調(diào)輪廓,該改進的解碼器可使用下一個幀3的音調(diào)滯后L3和先前收到的幀1的音調(diào)滯后L1精細(xì)調(diào)整音調(diào)滯后L2的先前的估計。這一基于該丟失幀之前和之后收到的幀的音調(diào)滯的估計方法的精確性可以是非常好的,因為對于話音語音,音調(diào)輪廓一般是平滑的。
增益在幀從編碼器向解碼器的傳輸期間,幀的丟失還會造成增益參數(shù)失,增益參數(shù),諸如,自適應(yīng)碼本增益gp和固定碼本增益gc的丟。每一幀包含多個子幀,其中每一子幀均具有增益信息。這樣,幀的丟失造成該幀的每一子幀的增益信息的丟失。語音通信系統(tǒng)必須估計該丟失幀的每一子幀的增益信息。一個子幀的增益信息可能不同于另一子幀的增益信息。
現(xiàn)有技術(shù)系統(tǒng)采取不同方法估計該丟失幀的子幀的增益,諸如使用來自先前良好幀的最后一個子幀的增益作為該丟失幀的每一子幀的增益。另一變形是使用來自先前良好幀的最后一個子幀的增益作為該丟失幀的第一子幀的增益,并在該增益被用作該丟失幀的后續(xù)子幀的增益之前逐漸對其進行衰減。換言之,例如,如果每一幀有四個子幀,收到幀1但幀2丟失,則收到的幀1的最后一個子幀的增益參數(shù)被用作為丟失幀2的第一子幀的增益參數(shù),然后使該增益參數(shù)減小一定量并用作該丟失幀2的第二子幀的增益參數(shù),再次減小該增益參數(shù)并用作丟失幀2的第三子幀的增益參數(shù),該增益參數(shù)進而被減小并用作丟失幀2的最后一個子幀的增益參數(shù)。另一方法是檢查一固定數(shù)量的先前收到的幀的子幀的增益參數(shù),以計算平均增益參數(shù),然后將其用作丟失幀2的第一子幀的增益參數(shù),其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。再一方法是通過檢查一固定數(shù)量的先前收到的幀的子幀導(dǎo)出增益參數(shù)的中間值,并使用該中間值作為該丟失幀2的第一子幀的增益參數(shù),其中可逐漸減小該增益參數(shù)并將其用作該丟失幀的其余子幀的增益參數(shù)。顯然,現(xiàn)有技術(shù)方法沒有對自適應(yīng)碼本增益和固定碼本增益執(zhí)行不同的恢復(fù)方法;它們對兩種類型的增益使用相同的恢復(fù)方法。
該改進的語音通信系統(tǒng)還可處理因丟失幀而丟失的增益參數(shù)。如果語音通信系統(tǒng)在周期狀語音和非周期狀語音之間作出區(qū)分,則系統(tǒng)可針對每一類型的語音以不同的方式處理丟失的增益參數(shù)。此外,該改進的系統(tǒng)對丟失的自適應(yīng)碼本增益的處理不同于對丟失的固定碼本增益的處理。首先考察非周期狀語音的情形。為了確定估計的自適應(yīng)碼本增益gp,該改進的解碼器計算先前收到的自適應(yīng)數(shù)量的幀的子幀的平均的gp。由解碼器估計的當(dāng)前幀(即丟失幀)的音調(diào)滯后,用來確定要考察的先前收到的幀的個數(shù)。一般來說,音調(diào)滯后越大,用來計算平均的gp的先前收到的幀的數(shù)目就越大。因而,該改進的解碼器對非周期狀語音使用音調(diào)同步化平均方法來估計自適應(yīng)碼本增益gp。然后該改進的解碼器基于以下公式計算指示gp預(yù)測良好程度的ββ=自適應(yīng)碼本激勵能量/總激勵能量eT=gp*exp2/(gp*exp2+ gc*exc2) (28)β從0到1變化,表示自適應(yīng)碼本激勵能量與激勵能量的百分比結(jié)果。β越大,自適應(yīng)碼本激勵能量的效果就越大。雖然不是必須的,但該改進的解碼器最好以不同方式處理非周期狀語音和周期狀語音。
圖16示出解碼器處理非周期狀語音的示例性流程圖。步驟1000確定當(dāng)前幀是否是接收幀(即“好”幀)之后丟失的第一幀。如果當(dāng)前幀是好幀之后第一個丟失的幀,步驟1002確定由解碼器處理的當(dāng)前子幀是否是幀的第一子幀。如果當(dāng)前子幀是第一子幀,步驟1004計算一定數(shù)目的先前子幀的平均的gp,其中所述一定數(shù)量子幀的數(shù)目取決于當(dāng)前子幀的音調(diào)滯后。在一示例實施例中,如果該音調(diào)滯后小于或等于40,則平均gp基于兩個先前子幀;如果音調(diào)滯后大于40但小于或等于80,則gp基于四個先前子幀;如果音調(diào)滯后大于80但小于或等于120,則gp基于六個先前子幀;并如果音調(diào)滯后大于120,則gp基于八個先前子幀。當(dāng)然,這些值是任意的并可設(shè)置為與子幀長度相關(guān)的任意其它值。步驟1006確定最大β是否超過一定的閾值。如果最大β超過一定的閾值,步驟1008將用于該丟失幀的所有子幀的固定碼本增益gc設(shè)置為零,且將用于該丟失幀的所有子幀的gp設(shè)置為一任意高的數(shù),諸如0.95,而不是以上確定的平均gp。該任意高的數(shù)表明一良好的話音信號。該丟失幀的當(dāng)前子幀的gp所設(shè)置的任意高的數(shù)可基于多個因素,包括但不限于一確定數(shù)目的先前幀的最大β,先前收到的幀的譜傾斜,及先前收到的幀的能量。
否則,如果最大β不超過一確定的閾值(即先前收到的幀包含語音的啟動音),則步驟1010將用于該丟失幀的當(dāng)前子幀的gp設(shè)置為(i)以上確定的平均的gp及(ii)任意選擇的高的數(shù)(例如0.95)兩者中的最小值。另一可替代方式是,基于先前收到的幀的譜傾斜,先前收到的幀的能量,和以上確定的平均的gp及任意選擇的高的數(shù)(例如0.95)中的最小值,設(shè)置該丟失幀的當(dāng)前子幀的gp。在最大值β不超過一定閾值的情形下,該固定碼本增益gc是基于先前子幀中增益標(biāo)度固定碼本激勵的能量和當(dāng)前子幀中固定碼本激勵的能量的。具體地說,由先前子幀中增益標(biāo)度固定碼本激勵的能量除當(dāng)前子幀中固定碼本激勵的能量,對結(jié)果求平方根并乘以衰減分?jǐn)?shù),然后設(shè)置為gc,如以下公式所示gc=衰減因子*平方根(gp*eXC i-12/eXC i2) (29)另外,解碼器可基于先前收到的幀的能量與當(dāng)前丟失幀的能量的比值,導(dǎo)出用于該丟失幀的當(dāng)前子幀的gc。
返回步驟1002,如果當(dāng)前幀不是第一個子幀,步驟1020設(shè)置該丟失幀的當(dāng)前子幀的gp為由前一子幀的gp衰減或降低的值。其余子幀的每個gp被設(shè)置為由前一子幀的gp進一步衰減的值。用與步驟1010及公式29中相同的方式計算當(dāng)前子幀的gc。
返回步驟1000,如果這不是好幀之后第一個丟失幀,步驟1022按與步驟1010及公式29中相同的方式計算當(dāng)前子幀的gc。步驟1022還將該丟失幀的當(dāng)前子幀的gp設(shè)置為由前一子幀的gp衰減或降低的值。因為解碼器以不同方式估計gp和gc,故解碼器能夠比現(xiàn)有技術(shù)系統(tǒng)更為精確地估計它們。
現(xiàn)在根據(jù)圖17中所示的示例流程圖考察周期狀語音的情形。由于解碼器可使用不同的方法來估計周期狀語音和非周期狀語音的gp和gc,因此,對該增益參數(shù)的估計可以比現(xiàn)有技術(shù)方法更為精確。步驟1030確定當(dāng)前幀是否是收到幀(即“良好”幀)之后丟失的第一幀。如果當(dāng)前幀是良好幀之后的第一個丟失幀,則步驟1032將當(dāng)前幀的所有子幀的gc設(shè)置為零,并將當(dāng)前幀的所有子幀的gp設(shè)置為一任意高的數(shù),例如0.95。如果當(dāng)前幀不是良好幀之后第一個丟失幀(例如是第二丟失幀,第三丟失幀等),步驟1034將當(dāng)前幀的所有子幀的gc設(shè)置為零,并將gp設(shè)置為由前一子幀的gp衰減的值。
圖13示出若干幀以表示該改進的語音解碼器的運行的情形。假設(shè)幀1,3和4是好(即收到的)幀,而幀2,5-8是丟失幀。如果當(dāng)前丟失幀是好幀之后第一個丟失的幀,解碼器將該丟失幀的所有子幀的gp設(shè)置為任意高的數(shù)(例如0.95)。返回圖13,這將適用于丟失幀2和5。第一丟失幀5的gp被逐漸衰減以設(shè)置其它丟失幀6-8的gp。因而,例如如果丟失幀5的gp被設(shè)置為0.95,則丟失幀6的gp被設(shè)置為0.9,且丟失幀7的gp被設(shè)置為0.85,丟失幀8的gp被設(shè)置為0.8。對于gc,解碼器自先前收到的幀計算平均的gp,且如果這一平均的gp超過一定的閾值,則將該丟失幀的所有子幀的gC設(shè)置為零。如果平均的gp沒有超過一定的閾值,解碼器使用上述設(shè)置非周期狀信號的gC相同的方法設(shè)置這里的gC。
在解碼器估計一丟失幀中的丟失幀參數(shù)(例如LSF,音調(diào)滯后,增益,分類等)并分析得到的語音之后,解碼器通過外推技術(shù)能夠使該丟失幀的合成語音的能量與收到的前一幀的能量匹配。盡管有丟失幀,這可進一步改進原始語音再生的精確性。
用于產(chǎn)生固定碼本激勵的種子值為了節(jié)省帶寬,在背景噪聲或靜音期間,語音編碼器不必向解碼器傳輸固定碼本激勵。而是,編碼器和解碼器兩者都能夠使用高斯時間序列產(chǎn)生器隨機地在本地產(chǎn)生激勵值。編碼器和解碼器兩者都配置為以相同的順序產(chǎn)生相同的隨機激勵值。其結(jié)果是,因為對一給定的噪聲幀,解碼器能夠在本地與編碼器產(chǎn)生相同的激勵值,故無需從編碼器向解碼器傳輸激勵值。為了產(chǎn)生隨機激勵值,高斯時間序列產(chǎn)生器使用初始種子值產(chǎn)生第一隨機激勵值,然后該產(chǎn)生器將該種子值更新為新值。然后,該產(chǎn)生器使用該更新的種子值產(chǎn)生下一個隨機激勵值,并將該種子值更新為另一值。圖14示出假設(shè)的若干幀的情形,說明在語音編碼器中的高斯時間序列產(chǎn)生器如何使用種子值產(chǎn)生隨機激勵值,并如何更新種子值以產(chǎn)生下一個隨機激勵值。假設(shè)幀0和4包含語音信號,而幀2,3和5包含靜音或背景噪聲。在找到第一噪聲幀(即幀2)時,解碼器使用初始種子值(稱為“種子值1”)產(chǎn)生隨機激勵值,用作該幀的固定碼本激勵。對該幀的每一采樣,種子值都被改變以產(chǎn)生新的固定碼本激勵。這樣,如果幀被采樣160次,則種子值將改變160次。這樣,在遇到下一個噪聲幀(噪聲幀3)時,編碼器使用第二個且不同的種子值(即種子值2)產(chǎn)生用于該幀的隨機激勵值。雖然從技術(shù)上,對第一幀的每一采樣該種子值均發(fā)生改變,因此用于第二幀的第一采樣的種子值不是“第二”種子值,但為了方便,這里將用于第二幀的第一采樣的種子值稱為種子值2。對于噪聲幀4,編碼器使用第三種子值(不同于第一和第二種子值)。為了對噪聲幀6產(chǎn)生隨機激勵值,高斯時間序列產(chǎn)生器既可以種子值1開始,也可使用種子值4繼續(xù)進行,這取決于語音通信系統(tǒng)的實現(xiàn)。通過將編碼器和解碼器配置為以相同的方式更新種子值,編碼器和解碼器能夠產(chǎn)生相同的種子值,由此以相同的順序產(chǎn)生相同的隨機激勵值。然而,在現(xiàn)有技術(shù)語音通信系統(tǒng)中,丟失幀破壞了編碼器與解碼器之間這種同步。
圖15示出圖14中所示的假設(shè)的情形,但這是從解碼器的角度來看的。假設(shè)噪聲幀2丟失,而幀1和3被解碼器收到。因為噪聲幀2丟失,解碼器認(rèn)為它與前一幀1是同一類型(即為一語音幀)。在作出有關(guān)丟失的噪聲幀2的錯誤的假設(shè)之后,解碼器認(rèn)為噪聲幀3是第一噪聲幀,而實際上它是解碼器遇到的第二個噪聲幀。因為對于遇到的每一噪聲幀的每一采樣,種子值都被更新,因此解碼器將錯誤地使用種子值1產(chǎn)生用于噪聲幀3的隨機激勵值,而此時應(yīng)當(dāng)使用種子值2。因而該丟失的幀造成編碼器與解碼器之間失去同步性。因為幀2是噪聲幀,因此解碼器使用種子值1而編碼器使用種子值2并不重要,因為結(jié)果是與原始噪聲不同的噪聲。對于幀3也一樣。然而,重要的是種子值的誤差對后續(xù)收到的包含語音的幀的影響。例如,注意看語音幀4。基于種子值2而本地產(chǎn)生的高斯激勵用來繼續(xù)更新幀3的自適應(yīng)碼本緩存器。當(dāng)處理幀4時,基于諸如幀4中的音調(diào)滯后這樣的信息,從幀3的自適應(yīng)碼本緩存器提取自適應(yīng)碼本激勵。由于編碼器使用種子值3來更新幀3的自適應(yīng)碼本緩存器,而解碼器正在使用種子值2(錯誤的種子值)更新幀3的自適應(yīng)碼本緩存器,在某些情形下,更新幀3的自適應(yīng)碼本緩存器造成的差別會給幀4造成質(zhì)量問題。
根據(jù)本發(fā)明建立的改進的語音通信系統(tǒng)不使用初始固定種子值,然后每當(dāng)系統(tǒng)遇到噪聲幀時更新該種子值。而是,該改進的編碼器和解碼器對于給定的幀從該幀中的參數(shù)導(dǎo)出種子值。例如,可以使用當(dāng)前幀中的譜信息,能量和/或增益信息來產(chǎn)生用于該幀的種子值。例如,可以使用表示譜的若干位(例如5位b1,b2,b3,b4,b5),及表示能量的若干位(例如3位c1,c2,c3),形成一個串b1,b2,b3,b4,b5,c1,c2,c3,其值即為該種子值。假設(shè)譜由01101表示,能量由011表示,則種子值是01101011。當(dāng)然,從幀中的信息導(dǎo)出種子值的其它可替代的方法也是可能的,并包含在本發(fā)明的范圍之內(nèi)。因而,在圖15的噪聲幀2丟失的例子中,解碼器將能夠?qū)С龀鲇糜谠肼晭?的種子值,該種子值與由編碼器導(dǎo)出的種子值相同。這樣,一個丟失的幀便不會破壞編碼器與解碼器之間的同步性。
雖然已經(jīng)展示和描述了該主題發(fā)明的實施例和具體實現(xiàn),但很明顯,更多的實施例與實現(xiàn)方式屬于本主題發(fā)明的范圍之內(nèi)。因而,除去依照權(quán)利要求及其等同物外,本發(fā)明不受限制。
權(quán)利要求
1.一種用于語音通信系統(tǒng)的解碼器,該解碼器包括接收器,接收待被解碼的語音信號的參數(shù),這些參數(shù)是基于逐幀接收的并包括表示用于每一幀的線譜頻率的最小間隔的參數(shù);控制邏輯,與該接收器耦合,用于對這些參數(shù)進行解碼并用于重新合成該語音信號;丟失幀檢測器,檢測一參數(shù)幀是否未被該接收器收到;以及幀恢復(fù)邏輯,當(dāng)該丟失幀檢測器檢測到丟失幀時,將用于該丟失幀的最小間隔參數(shù)設(shè)置為一第一值,該第一值大于先前收到幀的最小間隔參數(shù)。
2.根據(jù)權(quán)利要求1的解碼器,其中該丟失幀檢測器是該控制邏輯的一部分。
3.根據(jù)權(quán)利要求1的解碼器,其中幀誤差邏輯是該控制邏輯的一部分。
4.根據(jù)權(quán)利要求2的解碼器,其中幀誤差邏輯是控制邏輯的一部分。
5.根據(jù)權(quán)利要求1的解碼器,其中幀恢復(fù)邏輯將該丟失幀之后收到的幀的最小間隔參數(shù)設(shè)置為一第二值,該第二值大于在該丟失幀之前收到的緊靠該丟失幀的幀的最小間隔參數(shù),并小于該丟失幀的最小間隔參數(shù)。
6.根據(jù)權(quán)利要求5的解碼器,其中幀恢復(fù)邏輯將該丟失幀之后收到的第二個幀的最小間隔參數(shù)設(shè)置為一第三值,該第三值小于或等于該丟失幀的最小間隔參數(shù)。
7.根據(jù)權(quán)利要求6的解碼器,其中幀恢復(fù)邏輯將用于該丟失幀之后收到的第二個幀的最小間隔參數(shù)設(shè)置為一第三值,該第三值也小于或等于用于該丟失幀之后收到的第一個幀的最小間隔參數(shù)。
8.根據(jù)權(quán)利要求1的解碼器,還包括一計數(shù)器,其對該丟失幀之后收到的幀進行計數(shù),其中該計數(shù)確定用于該收到幀的最小間隔參數(shù)的值。
9.根據(jù)權(quán)利要求5的解碼器,還包括一計數(shù)器,其對該丟失幀之后收到的幀計數(shù),其中該計數(shù)確定用于該收到的幀的最小間隔參數(shù)的值。
10.根據(jù)權(quán)利要求1的解碼器,其中幀恢復(fù)邏輯至少部分基于該語音信號的能量設(shè)置用于該丟失幀的最小間隔參數(shù)。
11.根據(jù)權(quán)利要求1的解碼器,其中幀恢復(fù)邏輯至少部分基于語音信號的頻譜設(shè)置用于該丟失幀的最小間隔參數(shù)。
12.根據(jù)權(quán)利要求5的解碼器,其中幀恢復(fù)邏輯至少部分基于該語音信號的能量設(shè)置用于該丟失幀的最小間隔參數(shù)。
13.根據(jù)權(quán)利要求5的解碼器,其中幀恢復(fù)邏輯至少部分基于該語音信號的頻譜設(shè)置用于該丟失幀的最小間隔參數(shù)。
14.根據(jù)權(quán)利要求12的解碼器,其中幀恢復(fù)邏輯至少部分基于語音信號的頻譜設(shè)置用于該丟失幀的最小間隔參數(shù)。
15.根據(jù)權(quán)利要求13的解碼器,其中幀恢復(fù)邏輯至少部分基于語音信號的能量設(shè)置用于該丟失幀的最小間隔參數(shù)。
16.一種語音通信系統(tǒng),包括編碼器,處理語音幀并對于每一語音幀確定音調(diào)滯后參數(shù);發(fā)送器,與該編碼器耦合,發(fā)送用于每一語音幀的音調(diào)滯后參數(shù);接收器,從該發(fā)送器逐幀接收所述音調(diào)滯后參數(shù);控制邏輯,與該接收器耦合,用于部分基于音調(diào)滯后參數(shù)重新合成該語音信號;丟失幀檢測器,檢測一幀是否未被該接收器收到;幀恢復(fù)邏輯,當(dāng)丟失幀檢測器檢測到丟失幀時,使用多個先前收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
17.根據(jù)權(quán)利要求16的語音通信系統(tǒng),其中幀恢復(fù)邏輯使用該丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的音調(diào)滯后參數(shù)。
18.根據(jù)權(quán)利要求16的語音通信系統(tǒng),其中丟失幀檢測器和/或幀誤差邏輯是控制邏輯的一部分。
19.根據(jù)權(quán)利要求16的語音通信系統(tǒng),其中當(dāng)接收器收到丟失幀之后的幀中的音調(diào)滯后參數(shù)時,幀恢復(fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù),調(diào)整先前設(shè)置的用于該丟失幀的音調(diào)滯后參數(shù)。
20.根據(jù)權(quán)利要求19的語音通信系統(tǒng),還包括自適應(yīng)碼本緩存器,該緩存器包含用于一第一幀的總激勵,該總激勵包含量化的自適應(yīng)碼本激勵成分,其中緩存的總激勵被提取作為所述第一幀之后的幀的自適應(yīng)碼本激勵,且?guī)謴?fù)邏輯使用該丟失幀之后的該幀的音調(diào)滯后參數(shù)來調(diào)整該量化的自適應(yīng)碼本激勵。
21.根據(jù)權(quán)利要求17的語音通信系統(tǒng),其中幀恢復(fù)邏輯從該丟失幀之后收到的幀的音調(diào)滯后參數(shù)外推該丟失幀的音調(diào)滯后參數(shù)。
22.一種用于語音通信系統(tǒng)的解碼器,該解碼器包括一接收器,接收待被解碼的語音信號的參數(shù),這些參數(shù)是基于逐幀接收的,其中每一幀包含多個子幀,且這些參數(shù)包括一幀的每一子幀的增益參數(shù);一控制邏輯,與接收器耦合,用于解碼這些參數(shù)并用于重新合成該語音信號;一丟失幀檢測器,檢測一參數(shù)幀是否未被該接收器收到;以及一幀恢復(fù)邏輯,當(dāng)丟失幀檢測器檢測到丟失幀時,如果該丟失的增益參數(shù)是自適應(yīng)碼本增益參數(shù),以一第一方式設(shè)置該丟失幀的子幀的增益參數(shù),如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則以一第二方式設(shè)置該參數(shù)。
23.根據(jù)權(quán)利要求22的解碼器,其中如果該丟失幀包含周期狀語音,則幀恢復(fù)邏輯以一第三方式設(shè)置該丟失幀子幀的增益參數(shù),如果該丟失幀包含非周期狀語音,則以一第四方式設(shè)置該參數(shù)。
24.根據(jù)權(quán)利要求22的解碼器,其中所述第一方式不同于第二方式。
25.根據(jù)權(quán)利要求23的解碼器,其中所述第三方式不同于第四方式。
26.根據(jù)權(quán)利要求23的解碼器,還包括一周期信號檢測器,它確定該語音信號是否是周期性的,其中如果該丟失幀包含非周期狀語音且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則幀恢復(fù)邏輯將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
27.根據(jù)權(quán)利要求26的解碼器,其中幀恢復(fù)邏輯將該丟失幀的所有多個子幀的固定碼本增益參數(shù)設(shè)置為零。
28.根據(jù)權(quán)利要求23的解碼器,還包括一周期信號檢測器,它確定該語音信號是否是周期性的,其中如果該丟失幀包含非周期狀語音且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則幀恢復(fù)邏輯基于先前接收幀的語音信號能量與該丟失幀的語音信號能量的比值,將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為一個值。
29.根據(jù)權(quán)利要求28的解碼器,其中幀恢復(fù)邏輯將該丟失幀的其余子幀的固定碼本增益參數(shù)設(shè)置為自該丟失幀的第一子幀的固定碼本增益參數(shù)逐漸降低的一個值。
30.根據(jù)權(quán)利要求23的解碼器,其中如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則幀恢復(fù)邏輯將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零,而不管該丟失幀包含周期狀語音還是包含非周期狀語音。
31.根據(jù)權(quán)利要求23的解碼器,還包括一周期信號檢測器,它確定該語音信號是否是周期性的,其中如果該丟失幀包含周期狀語音且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則幀恢復(fù)邏輯確定先前收到的多個幀的平均自適應(yīng)碼本增益參數(shù)是否超過一閾值,如果該平均自適應(yīng)碼本增益參數(shù)超過閾值,則幀恢復(fù)邏輯將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
32.根據(jù)權(quán)利要求31的解碼器,其中如果該平均自適應(yīng)碼本增益參數(shù)小于該閾值,則幀恢復(fù)邏輯將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
33.根據(jù)權(quán)利要求31的解碼器,其中如果該平均自適應(yīng)碼本增益參數(shù)小于該閾值,則幀恢復(fù)邏輯基于先前收到的一個幀的語音信號能量和該丟失幀的語音信號能量的比值,將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為一個值。
34.根據(jù)權(quán)利要求23的解碼器,其中如果正由解碼器處理的當(dāng)前幀是在解碼器收到一幀之后將丟失的第一幀,則幀恢復(fù)邏輯將該丟失幀的第一子幀的自適應(yīng)增益參數(shù)設(shè)置為一任意高的數(shù)。
35.根據(jù)權(quán)利要求34的解碼器,其中該丟失幀的多個子幀被設(shè)置為該任意高的數(shù)。
36.根據(jù)權(quán)利要求34的解碼器,其中幀恢復(fù)邏輯將該丟失幀的每一個其余子幀的自適應(yīng)增益參數(shù)設(shè)置為自該丟失幀的第一子幀的自適應(yīng)增益參數(shù)逐漸降低的一個值。
37.根據(jù)權(quán)利要求23的解碼器,還包括一周期信號檢測器,它確定該語音信號是否是周期性的,其中如果該丟失幀包含非周期狀語音且如果該丟失的增益參數(shù)是自適應(yīng)碼本增益參數(shù),則幀恢復(fù)邏輯確定一自適應(yīng)數(shù)目的先前收到的幀的平均自適應(yīng)碼本增益參數(shù)。
38.根據(jù)權(quán)利要求37的解碼器,還包括一周期信號檢測器,它確定該語音信號是否是周期性的,其中如果該丟失幀包含非周期狀語音且一先前收到的幀包含自適應(yīng)碼本激勵能量,且如果該丟失的增益參數(shù)是自適應(yīng)碼本增益參數(shù),則幀恢復(fù)邏輯還基于自適應(yīng)碼本激勵能量與總激勵能量的比值確定一第一值。
39.根據(jù)權(quán)利要求38的解碼器,其中如果該第一值超過一閾值,則幀恢復(fù)邏輯將該丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)。
40.根據(jù)權(quán)利要求38的解碼器,其中如果該第一值小于一閾值,則幀恢復(fù)邏輯將該丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為平均自適應(yīng)碼本增益參數(shù)。
41.根據(jù)權(quán)利要求39的解碼器,其中該任意高的數(shù)是基于一先前收到的幀的譜傾斜。
42.根據(jù)權(quán)利要求41的解碼器,其中該任意高的數(shù)是基于該先前收到的幀中的語音信號能量。
43.根據(jù)權(quán)利要求41的解碼器,其中該任意高的數(shù)是基于該先前收到的幀中的該語音信號能量和該第一值。
44.根據(jù)權(quán)利要求37的解碼器,還包括一啟動檢測器,它檢測幀是否包含語音啟動信號,其中如果該幀包括語音啟動信號,則幀恢復(fù)邏輯將丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為該平均自適應(yīng)碼本增益參數(shù)與一任意高的數(shù)中的較小者。
45.根據(jù)權(quán)利要求44的解碼器,其中該任意高的數(shù)基于一先前收到的幀的譜傾斜。
46.根據(jù)權(quán)利要求44的解碼器,其中該任意高的數(shù)基于該先前收到的幀中的語音信號能量。
47.根據(jù)權(quán)利要求45的解碼器,其中一先前收到的幀包含自適應(yīng)碼本激勵能量,且該任意高的數(shù)是基于該先前收到的幀中語音信號能量,一第一值是基于該自適應(yīng)碼本激勵能量與總激勵能量的比值。
48.根據(jù)權(quán)利要求1的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成的語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
49.根據(jù)權(quán)利要求5的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
50.根據(jù)權(quán)利要求11的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
51.根據(jù)權(quán)利要求16的語音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
52.根據(jù)權(quán)利要求17的語音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成語音的能量相匹配。
53.根據(jù)權(quán)利要求18的語音通信系統(tǒng),其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
54.根據(jù)權(quán)利要求22的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音能的量以使其與從一先前收到的幀合成的語音的能量相匹配。
55.根據(jù)權(quán)利要求26的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
56.根據(jù)權(quán)利要求28的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
57.根據(jù)權(quán)利要求30的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
58.根據(jù)權(quán)利要求31的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
59.根據(jù)權(quán)利要求33的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成語音的能量相匹配。
60.根據(jù)權(quán)利要求37的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
61.根據(jù)權(quán)利要求44的解碼器,其中在幀恢復(fù)邏輯設(shè)置該丟失幀的丟失參數(shù)之后,解碼器從該丟失幀重新合成語音,并調(diào)整該合成語音的能量以使其與從一先前收到的幀合成的語音的能量相匹配。
62.一種用于在語音通信系統(tǒng)中產(chǎn)生用于一語音幀的固定碼本激勵的方法,包括下列步驟提供一高斯時間序列產(chǎn)生器;提供包含一第一語音信號的特征的一第一幀;使用該第一幀中第一語音信號的特征導(dǎo)出一第一種子值;將該第一種子值提供給該高斯時間序列產(chǎn)生器;使用該第一種子值產(chǎn)生用于該第一幀的固定碼本激勵;以及發(fā)送該第一語音信號的特征。
63.根據(jù)權(quán)利要求62的方法,還包括以下步驟提供包含一第二語音信號的特征的一第二幀;使用該第二幀中第二語音信號的特征導(dǎo)出不同于該第一種子值的第二種子值;向高斯時間序列產(chǎn)生器提供第二種子值;使用該第二種子值產(chǎn)生用于該第二幀的固定碼本激勵;以及發(fā)送該第二語音信號的特征。
64.根據(jù)權(quán)利要求62的方法,其中提供一第一幀的步驟是在一編碼器中完成的,該編碼器不發(fā)送固定碼本激勵。
65.根據(jù)權(quán)利要求62的方法,其中提供一第一幀的步驟是通過接收關(guān)于該第一幀中語音信號的特征的信息在一解碼器中完成的,該解碼器不接收固定碼本激勵。
66.根據(jù)權(quán)利要求62的方法,還包括以下步驟接收該第一幀的第一語音信號的特征;使用該第一語音信號的特征來導(dǎo)出第一種子值;向高斯時間序列產(chǎn)生器提供第一種子值;以及使用該第一種子值產(chǎn)生用于該第一幀的固定碼本激勵。
67.根據(jù)權(quán)利要求63的方法,還包括以下步驟接收第二幀的第二語音信號的特征;使用該第二語音信號的特征導(dǎo)出不同于第一種子值的第二種子值;向高斯時間序列產(chǎn)生器提供該第二種子值;以及使用該第二種子值產(chǎn)生用于第二幀的固定碼本激勵。
68.根據(jù)權(quán)利要求62的方法,其中的步驟由編碼器執(zhí)行。
69.根據(jù)權(quán)利要求66的方法,其中的步驟由解碼器執(zhí)行。
70.一種在通信系統(tǒng)中編碼或解碼語音的方法,包括以下步驟(a)基于逐幀提供一語音信號,其中每一幀包含多個子幀;(b)基于該語音信號確定用于每一幀的一個參數(shù);(c)基于逐幀發(fā)送參數(shù);(d)基于逐幀接收參數(shù);(e)檢測包含該參數(shù)的幀是否丟失;(f)如果幀丟失則處理用于該丟失幀的丟失參數(shù);(g)對這些參數(shù)進行解碼以再生該語音信號。
71.根據(jù)權(quán)利要求71的方法,其中丟失的參數(shù)表示該丟失幀的線譜頻率的最小間隔。
72.根據(jù)權(quán)利要求71的方法,其中處理步驟將該丟失幀的最小間隔參數(shù)設(shè)置為一第一值,該值大于或等于用于先前收到的幀的最小間隔參數(shù)。
73.根據(jù)權(quán)利要求72的方法,其中處理步驟將該丟失幀之后收到的幀的最小間隔參數(shù)設(shè)置為一第二值,該第二值大于或等于在緊靠該丟失幀之前收到的的幀的最小間隔參數(shù),且小于或等于該丟失幀的最小間隔參數(shù)。
74.根據(jù)權(quán)利要求72的方法,其中第一值至少部分基于該語音信號的頻譜。
75.根據(jù)權(quán)利要求72的方法,其中第一值至少部分基于該語音信號的能量。
76.根據(jù)權(quán)利要求71的方法,其中該丟失參數(shù)是該丟失幀的音調(diào)滯后參數(shù),且處理步驟至少部分基于先前收到的幀的音調(diào)滯后參數(shù)來設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
77.根據(jù)權(quán)利要求76的方法,其中該處理步驟基于多個先前收到的幀的音調(diào)滯后參數(shù)來設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
78.根據(jù)權(quán)利要求76的方法,其中處理步驟基于該丟失幀之后收到的幀的音調(diào)滯后參數(shù)設(shè)置該丟失幀的丟失的音調(diào)滯后參數(shù)。
79.根據(jù)權(quán)利要求70的方法,還包括確定該語音信號為周期狀或非周期狀的步驟,且其中丟失的參數(shù)是用于該丟失幀的子幀的增益參數(shù)。
80.根據(jù)權(quán)利要求79的方法,其中該處理步驟對包含周期狀語音的該丟失幀的子幀的丟失的增益參數(shù)的設(shè)置不同于該步驟對包含非周期狀語音的該丟失幀的子幀的丟失的增益參數(shù)的設(shè)置。
81.根據(jù)權(quán)利要求79的方法,其中如果該丟失幀包含非周期狀語音,且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則處理步驟將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
82.根據(jù)權(quán)利要求81的方法,其中該處理步驟將該丟失幀的所有多個子幀的固定碼本增益參數(shù)設(shè)置為零。
83.根據(jù)權(quán)利要求79的方法,其中如果該丟失幀包含非周期狀語音,且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則處理步驟基于一先前收到的幀的語音信號的能量與該丟失幀的語音信號的能量的比值,將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為一個值。
84.根據(jù)權(quán)利要求83的方法,其中處理步驟將該丟失幀的其余子幀的固定碼本增益參數(shù)設(shè)置為一自該丟失幀的第一子幀的固定碼本增益參數(shù)逐漸降低的一個值。
85.根據(jù)權(quán)利要求79的方法,其中如果該丟失的增益參數(shù)是固定碼本增益參數(shù),該處理步驟將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零,而不管該丟失幀包含周期狀語音還是非周期狀態(tài)語音。
86.根據(jù)權(quán)利要求79的方法,其中如果該丟失幀包含周期狀語音,且如果該丟失的增益參數(shù)是固定碼本增益參數(shù),則該處理步驟確定先前收到的多個幀的平均自適應(yīng)碼本增益參數(shù)是否超過一閾值,且如果該平均自適應(yīng)碼本增益參數(shù)超過該閾值,則該處理步驟將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
87.根據(jù)權(quán)利要求86的方法,其中如果該平均自適應(yīng)碼本增益參數(shù)小于該閾值,則處理步驟將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為零。
88.根據(jù)權(quán)利要求86的方法,其中如果該平均自適應(yīng)碼本增益參數(shù)小于該閾值,則該處理步驟基于一先前收到的幀的語音信號的能量和該丟失幀的語音信號的能量的比值,將該丟失幀的第一子幀的固定碼本增益參數(shù)設(shè)置為一個值。
89.根據(jù)權(quán)利要求79的方法,其中如果收到的當(dāng)前幀是收到一幀之后第一個丟失的幀,且如果該丟失的增益參數(shù)是該丟失幀的自適應(yīng)碼本增益參數(shù),則該處理步驟將該丟失幀的第一子幀的自適應(yīng)增益參數(shù)設(shè)置為一任意高的數(shù)。
90.根據(jù)權(quán)利要求89的方法,其中該丟失幀的多個子幀被設(shè)置為該任意高的數(shù)。
91.根據(jù)權(quán)利要求79的方法,其中如果該丟失幀包含非周期狀語音,且如果該丟失的增益參數(shù)是該丟失幀的自適應(yīng)碼本增益參數(shù),則處理步驟確定用于一自適應(yīng)數(shù)目的先前收到的幀的平均自適應(yīng)碼本增益參數(shù)。
92.根據(jù)權(quán)利要求91的方法,其中如果該丟失幀包含非周期狀語音且先前收到的幀包含自適應(yīng)碼本激勵能量,則該處理步驟基于該自適應(yīng)碼本激勵能量與總激勵能量的比值確定一第一值。
93.根據(jù)權(quán)利要求91的方法,其中如果該第一值超過一閾值,則處理步驟將該丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為一任意高的數(shù)。
94.根據(jù)權(quán)利要求92的方法,其中如果該第一值小于一閾值,則處理步驟將該丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為平均自適應(yīng)碼本增益參數(shù)。
95.根據(jù)權(quán)利要求93的方法,其中該任意高的數(shù)基于一先前收到的幀的譜傾斜,該先前收到的幀中的語音信號的能量,和/或第一值。
96.根據(jù)權(quán)利要求89的方法,還包括啟動檢測器,它檢測幀是否包含語音啟動信號,其中如果該幀包含語音啟動信號,則處理步驟將該丟失幀的當(dāng)前子幀的自適應(yīng)碼本增益參數(shù)設(shè)置為該平均自適應(yīng)碼本增益參數(shù)與一任意高的數(shù)中的較小者。
97.根據(jù)權(quán)利要求71的方法,還包括以下步驟在處理步驟設(shè)置該丟失幀的丟失參數(shù)之后,從該丟失幀重新合成語音;以及調(diào)整該合成語音的能量以匹配來自一先前收到的幀的合成語音的能量。
98.根據(jù)權(quán)利要求76的方法,還包括以下步驟在處理步驟設(shè)置該丟失幀的丟失參數(shù)之后,從該丟失幀重新合成語音;以及調(diào)整該合成語音的能量以匹配來自一先前收到的幀的合成語音的能量。
99.根據(jù)權(quán)利要求79的方法,還包括以下步驟在處理步驟設(shè)置該丟失幀的丟失的參數(shù)之后,從該丟失幀重新合成語音;以及調(diào)整該合成語音的能量以匹配來自一先前收到的幀的合成語音的能量。
100.根據(jù)權(quán)利要求22的解碼器,其中丟失幀檢測器或幀誤差邏輯是控制邏輯的一部分。
101.根據(jù)權(quán)利要求22的解碼器,其中丟失幀檢測器和幀誤差邏輯是控制邏輯的一部分。
全文摘要
一種語音通信系統(tǒng)及方法,具有一改進,用于處理在從編碼器到解碼器傳輸期間丟失信息的方法。更具體地說,該改進的語音通信系統(tǒng)能夠更精確地恢復(fù)關(guān)于一語音幀的丟失的信息,諸如線譜頻率(LSF),音調(diào)滯后(或自適應(yīng)碼本激勵),固定碼本激勵和/或增益信息。為了處理丟失的LSF,該改進的語音通信系統(tǒng)將LSF之間的最小間隔設(shè)置為一增加的值,然后在受控的自適應(yīng)方式下可選地降低該值用于后續(xù)幀。為了處理一丟失的音調(diào)滯后,該改進的系統(tǒng)通過從先前接收的多個幀的音調(diào)滯后外推而估計用于該丟失幀的音調(diào)滯后。當(dāng)該改進的解碼器收到后續(xù)接收的幀的音調(diào)滯后時,該系統(tǒng)在先前收到的幀的音調(diào)滯后與該后續(xù)收到的幀音調(diào)滯后之間使用曲線擬合,以便精細(xì)調(diào)整其對用于該丟失幀的音調(diào)滯后的估計,從而在自適應(yīng)碼本緩沖器被后續(xù)幀使用之前對其進行調(diào)整并校正。在處理丟失增益參數(shù)中,該改進的系統(tǒng)對丟失增益參數(shù)的估計取決于該語音是周期狀或非周期狀,該丟失增益參數(shù)是自適應(yīng)碼本增益參數(shù)還是固定碼本增益參數(shù),以及其它因素,諸如一自適應(yīng)數(shù)目先前收到幀的子幀的平均自適應(yīng)碼本增益參數(shù),自適應(yīng)碼本激勵能量對總激勵能量的比值,先前收到的幀的頻譜傾斜和/或先前收到的幀的能量。如果語音通信系統(tǒng)不向解碼器發(fā)送固定碼本激勵值,則該改進的編碼器/解碼器使用其值由該幀中的信息確定的種子值對給定的幀產(chǎn)生相同的隨激勵機值。在估計一丟失幀中的丟失參數(shù)并合成語音之后,該改進的系統(tǒng)使該合成語音的能量與先前收到的幀的能量相匹配。
文檔編號G10L19/00GK1441950SQ01812823
公開日2003年9月10日 申請日期2001年7月9日 優(yōu)先權(quán)日2000年7月14日
發(fā)明者A·拜尼亞斯恩, E·施羅默特, H-Y·蘇 申請人:康奈克森特系統(tǒng)公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1