專利名稱:語音編碼系統(tǒng)中的雙向音調增強的制作方法
技術領域:
本發(fā)明總體涉及語音編碼,具體來說,涉及用音調增強來改善所再生語音音質的低比特率語音編碼系統(tǒng)。
2.相關技術說明現有語音編碼系統(tǒng)通常在碼激勵線性預測語音編碼系統(tǒng)中采用正向音調增強。這很大程度上是基于現有語音編碼解碼電路的子幀規(guī)模具有相對較大的帶寬利用率,可單獨用正向音調增強來提供足夠的音質這一事實。但對語音編碼系統(tǒng)中所用的種種通信介質內的較低比特率來說,所再生語音的音質在合成后無法保持高品質音質。
對運作于這些降低的比特率的現有語音編碼系統(tǒng)來說,音調預測期間所產生的音調延遲,通常比總體子幀規(guī)模短得多,即占據總體子幀的相對較小部分。該特性對較高(較短)音調的說話者例如女性和孩子來說得到進一步強化?,F有激勵碼簿結構無法在運作于低比特率時提供足夠高品質的音質。這主要是因為未充分地對話音信號建立周期性,或者從碼簿當中提取的激勵向量尚未豐富到足以產生一具有高品質音質的合成語音信號。
隨語音編碼系統(tǒng)子幀規(guī)模變得越大,通常與降低比特率的通信系統(tǒng)相關聯,僅正向進行音調增強這一事實造成音質明顯越來越差。其中一個原因是,由于缺少許多脈沖而造成子幀內有大量死區(qū)。運作于較高比特率的現有語音編碼系統(tǒng)中,必然具有較短子幀,這種效果通常無法被人的耳朵在聽覺方面所察覺。幾乎全部用相對較低比特率的語音編碼進行處理的語音編碼系統(tǒng)中都意識到這種較低品質音質的效果。
現有系統(tǒng)進一步的局限及缺點,如本申請下面參照附圖所給出的那樣,通過將這些系統(tǒng)與本發(fā)明相比較,就會讓本領域技術人員清楚。
本發(fā)明某些實施例中,用正向音調增強本身來產生反向音調增強。反向音調增強是先前產生的正向音調增強的鏡像;反向音調增強是根據該正向音調增強產生的。作為替代,本發(fā)明其他實施例中,反向音調增強是獨立于正向音調增強產生的,反向音調增強的產生不依賴于先前產生的正向音調增強。
按本發(fā)明組成的語音編碼系統(tǒng)經適當調整后面向那些采用具有有限或受到制約的帶寬利用率的通信介質運作的語音編碼系統(tǒng)??稍诓槐畴x本發(fā)明保護范圍和實質的情況下,在本發(fā)明內采用任何通信介質。這種通信介質例子包括但不局限于無線通信介質、有線電話通信介質、光纖通信介質以及以太網。
本發(fā)明其他方面、優(yōu)點以及新穎特征,在結合附圖考慮時從以下對本發(fā)明的詳細說明當中變得清楚。
圖的簡要描述
圖1是表示按照本發(fā)明構造的一個語音音調增強系統(tǒng)實施例的系統(tǒng)框圖。
圖2是表示按照本發(fā)明構造的一個采用語音音調增強的分布式語音編碼解碼電路實施例的系統(tǒng)框圖。
圖3是表示按照本發(fā)明構造的采用語音音調增強的分布式語音編碼解碼電路另一實施例的系統(tǒng)框圖。
圖4是表示按照本發(fā)明構造的采用語音音調增強的集成式語音編碼解碼電路另一實施例的系統(tǒng)框圖。
圖5是表示按照本發(fā)明語音子幀描述正向及反向預測脈沖進行音調增強的示意圖。
圖6是表示本發(fā)明實施例按照本發(fā)明采用正向語音音調增強產生反向語音音調增強的功能框圖。
圖7是表示本發(fā)明實施例按照本發(fā)明進行獨立于正向語音音調增強的反向語音音調增強的功能框圖。
附圖的詳細說明圖1是表示按照本發(fā)明構造的一個語音音調增強系統(tǒng)110實施例100的系統(tǒng)框圖。音調增強系統(tǒng)110其中包含音調增強處理電路112、語音編碼電路114、正向音調增強電路116、反向音調增強電路118以及語音處理電路19。語音音調增強系統(tǒng)110對未增強的語音數據或激勵信號120進行運作并產生音調增強的語音數據130。音調增強的語音數據或激勵信號130所包含的語音數據具有相對于語音子幀在正向和反向兩者方向上進行的音調預測以及音調增強。語音音調增強系統(tǒng)110在本發(fā)明某些實施例中僅對激勵信號進行運作,語音音調增強系統(tǒng)110在本發(fā)明其他實施例中僅對語音數據進行運作。
本發(fā)明某些實施例中,語音音調增強系統(tǒng)110獨立運作以便用反向音調增強電路118產生反向音調預測。作為替代,正向音調增強電路116和反向音調增強電路118協(xié)同運作產生語音編碼系統(tǒng)的總體音調增強。本發(fā)明其他實施例中用音調增強處理電路112進行監(jiān)測正向音調增強電路116和反向音調增強電路118的監(jiān)控運作。語音處理電路119包括但不局限于那些語音處理領域技術人員所知道的那種語音處理電路,以便對語音數據進行運作和操控。語音編碼電路114同樣包括但不局限于語音編碼領域技術人員所知道的電路。該領域技術人員所知道的這種語音編碼其中包括碼激勵線性預測、代數碼激勵線性預測以及脈沖類激勵。
圖2是表示按照本發(fā)明構造的一個采用語音音調增強的分布式語音編碼解碼電路200實施例的系統(tǒng)框圖。分布式語音編碼解碼電路200的語音編碼器220進行音調增強編碼221。用反向脈沖音調預測電路222和正向脈沖音調預測電路223進行音調增強編碼221。如上所述,本發(fā)明另一實施例中,音調增強編碼221在語音子幀內按正向和反向兩者方向產生音調預測和音調增強。分布式語音編碼解碼電路200的語音編碼器220在語音子幀內還對語音信號進行主脈沖編碼225,其中包括符號編碼226和位置編碼227兩者。分布式語音編碼解碼電路200的語音編碼器220中還采用語音處理電路229,來輔助用語音處理領域技術人員所知道的方法對語音數據進行運作以及操控的語音處理。另外,本發(fā)明某些實施例中,語音處理電路229與反向脈沖音調預測電路222和正向脈沖音調預測電路223協(xié)同運作。語音數據經分布式語音編碼解碼電路200的語音編碼器220至少某種程度的處理后,經過一通信鏈路210發(fā)送至分布式語音編碼解碼電路200的語音解碼器230。通信鏈路210是能夠傳輸話音數據的任何通信介質,包括但不局限于無線通信介質、有線電話通信介質、光纖通信介質以及以太網。在不背離本發(fā)明保護范圍和實質的情況下通信鏈路210中可包括能夠傳輸語音數據的任何通信介質。分布式語音編碼解碼電路200的語音解碼器230其中包含語音再生電路232、音質補償電路234以及語音處理電路236。
本發(fā)明某些實施例中,語音處理電路229和語音處理電路236在整個分布式語音編碼解碼電路200內對語音數據進行協(xié)同運作。作為替代,語音處理電路229和語音處理電路236對語音數據獨立運作,每個分別在語音編碼器220和語音解碼器230中起個別的語音處理功能。語音處理電路229和語音處理電路236包括但不局限于那些語音處理領域技術人員所知道的那種語音處理電路,以便對語音數據進行運作以及操控。主脈沖編碼電路225同樣包括但不局限于那些語音編碼領域技術人員所知道的電路。這種主脈沖編碼電路225的例子包括那些本領域技術人員所知道的那種電路,如本發(fā)明另一實施例所述,其他主脈沖編碼方法其中包括碼激勵線性預測、代數碼激勵線性預測以及脈沖狀激勵。
圖3是表示本發(fā)明采用語音音調增強的分布式語音編碼解碼電路300另一實施例的系統(tǒng)圖。分布式語音編碼解碼電路300的語音編碼器320在語音子幀內對語音信號進行主脈沖編碼325,其中包括符號編碼326和位置編碼327兩者。分布式語音編碼解碼電路300的語音編碼器320內還采用語音處理電路329,來輔助用語音處理領域技術人員所知道的方法對語音數據進行運作以及操控的語音處理。語音數據經分布式語音編碼解碼電路300的語音編碼器320至少某種程度的處理后,經過一通信鏈路310發(fā)送至分布式語音編碼解碼電路300的語音解碼器330。通信鏈路310是能夠傳輸話音數據的任何通信介質,包括但不局限于無線通信介質、有線電話通信介質、光纖通信介質以及以太網。在不背離本發(fā)明保護范圍和實質的情況下通信鏈路310中可包括能夠傳輸語音數據的任何通信介質。分布式語音編碼解碼電路300的語音解碼器330進行音調增強編碼321。用反向脈沖音調預測電路322和正向脈沖音調預測電路323兩者進行音調增強編碼321。如上面本發(fā)明種種實施例所述,音調增強編碼321在語音子幀內按正向和反向兩者方向產生音調預測和音調增強。分布式語音編碼解碼電路300的語音解碼器330內還采用語音處理電路336,來輔助用語音處理領域技術人員所知道的方法對語音數據進行運作以及操控的語音處理。另外,語音處理電路339在本發(fā)明某些實施例中與反向脈沖音調預測電路322和正向脈沖音調預測電路323協(xié)同運作。
本發(fā)明某些實施例中,語音處理電路329和語音處理電路336在整個分布式語音編碼解碼電路300內對語音數據進行協(xié)同運作。作為替代,語音處理電路329和語音處理電路336對語音數據獨立運作,每個分別在語音編碼器320和語音解碼器330中起個別的語音處理功能。語音處理電路329和語音處理電路336包括但不局限于那些語音處理領域技術人員所知道的那種語音處理電路,以便對語音數據進行運作以及操控。主脈沖編碼電路325同樣包括但不局限于那些語音編碼領域技術人員所知道的電路。這種主脈沖編碼電路325的例子包括那些本領域技術人員所知道的那種電路,如本發(fā)明另一實施例所述,其他主脈沖編碼方法其中包括碼激勵線性預測、代數碼激勵線性預測以及脈沖狀激勵。
圖4是表示本發(fā)明采用語音音調增強的集成式語音編碼解碼電路420另一實施例400的系統(tǒng)圖。集成式語音編碼解碼電路420其中包含經低比特率通信鏈路410與語音解碼器424通信的語音編碼器。低比特率通信鏈路410是能夠傳輸話音數據的任何通信介質,其中包括但不局限于無線通信介質、有線電話通信介質、光纖通信介質以及以太網。在不背離本發(fā)明保護范圍和實質的情況下低比特率通信鏈路410可包括能夠傳輸語音數據的任何通信介質。在集成式語音編碼解碼電路420中進行音調增強編碼421。音調增強編碼421用其中包括的反向脈沖音調預測電路422和正向脈沖音調預測電路423進行。如上面本發(fā)明種種實施例所述,反向脈沖音調預測電路422和正向脈沖音調預測電路423在本發(fā)明某些實施例中協(xié)同運作,在本發(fā)明其他實施例中獨立運作。
如實施例400所示,反向脈沖音調預測電路422和正向脈沖音調預測電路423包含在整個集成式語音編碼解碼電路420內。如果需要,在本發(fā)明某些實施例中語音編碼器422和語音解碼器424其中每一個都包括反向脈沖音調預測電路422和正向脈沖音調預測電路423兩者。作為替代,在本發(fā)明其他實施例中,語音編碼器422或者語音解碼器424其中一個僅包括反向脈沖音調預測電路422和正向脈沖音調預測電路423其中一個。根據當前的特定應用,用戶可選擇將反向脈沖音調預測電路422和正向脈沖音調預測電路423置于語音編碼器422和語音解碼器424其中之一。在不背離本發(fā)明保護范圍和實質的情況下,本發(fā)明中可設想種種實施例,將各種數量的反向脈沖音調預測電路422和正向脈沖音調預測電路423置于語音編碼器422和語音解碼器424中。舉例來說,本發(fā)明某些實施例中,將反向脈沖音調預測電路422的預定部分置于語音編碼器422中,而反向脈沖音調預測電路422的其余部分則置于語音解碼器424中。同樣,本發(fā)明某些實施例中,正向脈沖音調預測電路423的預定部分置于語音編碼器422中,而正向脈沖音調預測電路423的其余部分則置于語音解碼器424中。
圖5是表示按照本發(fā)明進行的描述正向音調增強和反向音調增強的語音子幀510的編碼圖。用那些語音處理領域技術人員所知道的方法,其中包括但不局限于碼激勵線性預測、代數碼激勵線性預測、合成語音編碼分析以及脈沖狀激勵,在語音子幀510中產生一主脈沖M0520。全部用包括上面所述本發(fā)明各種實施例所用方法在內的種種語音處理方法,產生正向預測脈沖M1 530、正向預測脈沖M2 540、正向預測脈沖M3 550,并置于語音子幀510內。如上所述,本發(fā)明某些實施例中,用種種處理電路進行正向預測脈沖M1530、正向預測脈沖M2540以及正向預測脈沖M3550的產生。另外,按照本發(fā)明還產生反向預測脈沖M-1560和反向預測脈沖M-2570。
本發(fā)明某些實施例中,采用正向預測脈沖M1530、正向預測脈沖M2540以及正向預測脈沖M3550產生反向預測脈沖M-1560和反向預測脈沖M-2570。作為替代,本發(fā)明其他實施例中,獨立于正向預測脈沖M1530、正向預測脈沖M2540以及正向預測脈沖M3550產生反向預測脈沖M-1560和反向預測脈沖M-2570。一例反向預測脈沖M-1560和反向預測脈沖M-2570的獨立產生是在軟件中實現的,其中語音子幀510的時間定標在軟件中相反。按同樣方式利用主脈沖M0520來產生正向預測脈沖M1530、正向預測脈沖M2540及正向預測脈沖M3550和反向預測脈沖M-1560及反向預測脈沖M-2570這兩者。這就是說,在典型正向方向執(zhí)行一次處理,并在軟件中使語音子幀510反向后再在非典型反向方向執(zhí)行一次處理,但仍采用相同的數學方法,即相對于語音子幀510僅使數據相反。
圖6表示本發(fā)明實施例600按照本發(fā)明采用正向語音音調增強產生反向語音音調增強的功能框圖???10中對語音信號進行處理???20中對語音數據主脈沖進行編碼。另一替代處理框655中,經通信鏈路發(fā)送語音數據信息。本發(fā)明實施例中采用該替代處理框655,其中在經編碼的語音數據發(fā)送用于語音再生后進行正向音調增強和反向音調增強。框630中進行正向音調增強,而框640中則進行反向音調增強。本發(fā)明某些實施例中,框640的反向音調增強是框630中產生的正向音調增強的鏡像。其他實施例中,框640的反向音調增強不是框630中產生的正向音調增強的鏡像。一替代處理框650中,語音數據信息經過一通信鏈路發(fā)送。本發(fā)明實施例中采用該替代處理框650,其中在經編碼的語音數據發(fā)送用于語音再生前進行正向音調增強和反向音調增強???60中重建/合成該語音信號。
本發(fā)明某些實施例中,框640中進行的反向音調增強僅僅是框650中進行的正向音調增強的復制,即框640的反向音調增強是框630中產生的正向音調增強的鏡像。舉例來說,框650中進行正向音調增強后,用那些語音處理領域技術人員所知道的任何方法,使所形成的音調增強得到簡單復制并在語音子幀內相反來產生框640中進行的反向音調增強,用于合成再生語音信號。
圖7表示本發(fā)明實施例700按照本發(fā)明進行獨立于正向語音音調增強的反向語音音調增強的功能框圖??驁D710中對語音信號進行處理???20中對語音數據主脈沖進行編碼。另一替代處理框755中,經通信鏈路發(fā)送語音數據信息。本發(fā)明實施例中采用該替代處理框755,其中在經編碼的語音數據發(fā)送用于語音再生后進行正向音調增強和反向音調增強。框730中進行正向音調增強,而框740中則進行反向音調增強。語音數據反向后進行框740的反向音調增強;獨立于框730中進行的正向音調增強進行框740的反向音調增強。該特定實施例與實施例600所示不同之處在于,語音數據相反,而且產生框740的反向音調增強就象正在處理一全新的語音數據集。而實施例600中,利用的是所形成的音調增強本身,只是按相反方向延伸。實施例700的某些實施例中,其就象對每一子幀處理2個語音數據集,在框730中處理一個數據集以便按正向方向產生音調預測,在框740中處理一個數據集以便按反向方向產生音調預測,但它們均對相同的語音數據子幀進行運作。一替代處理框750中,語音數據信息經過一通信鏈路發(fā)送。本發(fā)明實施例中采用該替代處理框650,其中在經編碼的語音數據發(fā)送用于語音再生前進行框730的正向音調增強以及框740的反向音調增強???60中重建/合成該語音信號。
從上面對本發(fā)明和相關附圖的詳細說明來看,其他修改變動對本領域技術人員來說將變得很清楚。還應清楚,在不背離本發(fā)明實質和保護范圍的情況下可進行這類其他的修改變動。
權利要求
1.一種語音編碼解碼電路,對語音數據進行音調增強,其特征在于,該語音編碼解碼電路包括一編碼器;一通信上與編碼器連接的通信鏈路;一通信上經過通信鏈路與編碼器連接的解碼器;一語音編碼解碼電路內包含的正向音調增強電路,該正向音調增強電路改善用于再生的語音數據的音質;以及一語音編碼解碼電路內包含的反向音調增強電路,該反向音調增強電路改善用于再生的語音數據的音質。
2.如權利要求1所述的語音編碼解碼電路,其特征在于,反向音調增強電路包含在語音編碼解碼電路的解碼器內。
3.如權利要求1所述的語音編碼解碼電路,其特征在于,反向音調增強電路分布于語音編碼解碼電路的編碼器和解碼器中。
4.如權利要求1所述的語音編碼解碼電路,其特征在于,正向音調增強電路和反向音調增強電路協(xié)同運作來改善用于再生的語音數據的音質。
5.如權利要求1所述的語音編碼解碼電路,其特征在于,正向音調增強電路和反向音調增強電路獨立運作來改善用于再生的語音數據的音質。
6.如權利要求1所述的語音編碼解碼電路,其特征在于,反向音調增強電路對語音子幀進行運作;以及反向音調增強電路將至少一個反向預測脈沖置于語音子幀內。
7.一種對語音數據進行運作的語音音調增強系統(tǒng),其特征在于,該語音音調增強系統(tǒng)包括一反向音調增強電路,改善用于再生的語音數據的音質;以及一通信上與反向音調增強電路連接的語音處理電路,該語音處理電路對語音數據進行操控。
8.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,進一步包括一通信上與反向音調增強電路連接的正向音調增強電路,該正向音調增強電路改善用于再生的語音數據的音質。
9.如權利要求8所述的語音音調增強系統(tǒng),其特征在于,正向音調增強電路和反向音調增強電路協(xié)同運作來改善用于再生的語音數據的音質。
10.如權利要求8所述的語音音調增強系統(tǒng),其特征在于,正向音調增強電路和反向音調增強電路獨立運作來改善用于再生的語音數據的音質。
11.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,進一步包括一語音編碼解碼電路,該語音編碼解碼電路包括一編碼器和一解碼器;以及其中反向音調增強電路包含在編碼器和解碼器其中至少一個內。
12.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,進一步包括一語音編碼解碼電路,該語音編碼解碼電路包括一編碼器和一解碼器;以及其中反向音調增強電路分布于編碼器和解碼器之間。
13.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,進一步包括一語音編碼解碼電路,該語音編碼解碼電路包括一編碼器、一解碼器、以及一通信鏈路,該通信鏈路在通信上與編碼器和解碼器連接;其中反向音調增強電路分布于編碼器和解碼器中;語音數據包括語音數據第一部分和語音數據第二部分;在編碼器中用反向音調增強電路改善語音數據第一部分的音質;語音數據第一部分和語音數據第二部分經過通信鏈路從編碼器發(fā)送至解碼器;以及在解碼器中用反向音調增強電路改善語音數據第二部分的音質。
14.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,語音音調增強系統(tǒng)用經過碼激勵的線性預測。
15.如權利要求7所述的語音音調增強系統(tǒng),其特征在于,反向音調增強電路對語音子幀進行運作;以及反向音調增強電路將至少一個反向預測脈沖置于語音子幀內。
16.一種對語音數據和激勵信號其中至少一個進行語音音調增強的方法,其特征在于,該方法包括對語音數據和激勵信號其中至少一個進行正向音調增強;以及對語音數據和激勵信號其中至少一個進行反向音調增強。
17.如權利要求16所述的方法,其特征在于,使對語音數據和激勵信號其中至少一個進行正向音調增強、和對語音數據和激勵信號其中至少一個進行反向音調增強獨立進行,以改善用于再生的語音數據的音質。
18.如權利要求16所述的方法,其特征在于,使對語音數據和激勵信號其中至少一個進行正向音調增強、和對語音數據和激勵信號其中至少一個進行反向音調增強協(xié)同進行,以改善用于再生的語音數據的音質。
19.如權利要求16所述的方法,其特征在于,使對語音數據和激勵信號其中至少一個進行正向音調增強、和對語音數據和激勵信號其中至少一個進行反向音調增強均用一語音編碼解碼電路來進行。
20.如權利要求16所述的方法,其特征在于,進一步包括進行碼激勵線性預測。
全文摘要
一種用于語音編碼系統(tǒng)的雙向音調增強系統(tǒng)。語音數據應用連續(xù)運作于具有固有帶寬限制的區(qū)域,通常的語音編碼系統(tǒng)其再生語音數據的音質受到嚴重的影響。本發(fā)明采用正向音調增強和反向音調增強來保持所再生語音的高品質音質。本發(fā)明某些實施例中,正向音調增強和反向音調增強在整個語音編碼系統(tǒng)中單一部分內進行。例如在語音編碼解碼電路中,正向及反向音調增強僅在語音編碼解碼電路的編碼器中進行或者僅在語音編碼解碼電路的解碼器中執(zhí)行。如果需要,正向及反向音調增強按分布式方式進行,至少部分地分別在語音編碼解碼電路中編碼器和解碼器每一個內進行。如果需要,用正向音調增強本身來產生反向音調增強。反向音調增強是先前產生的正向音調增強的鏡像;反向音調增強是根據該正向音調增強產生的。作為替代,本發(fā)明其他實施例中,反向音調增強是獨立于正向音調增強產生的,反向音調增強的產生不依賴于先前產生的正向音調增強。通常在碼激勵線性預測(CELP)中對固定碼簿進行反向音調增強,或者作為后處理在解碼器中進行。
文檔編號G10L19/00GK1360716SQ00809972
公開日2002年7月24日 申請日期2000年6月30日 優(yōu)先權日1999年7月2日
發(fā)明者高揚 申請人:科恩格森特系統(tǒng)股份有限公司