專利名稱:評估編解碼參數(shù)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種對在語音編碼過程中所產(chǎn)生的參數(shù),尤其是濾波系數(shù)、放大系數(shù)或者語音基頻進行評估的方法。
在數(shù)字通信系統(tǒng)例如因特網(wǎng)或者移動無線電系統(tǒng),如GSM或UMTS中使用源編碼方法,例如語音、音頻、圖像或視頻編碼方法,以降低傳輸?shù)奈凰俾?。所述源編碼方法通常提供一個分配于幀中的位流。在GSM系統(tǒng)中進行語音傳輸時,一個幀的語音編碼位代表20ms的語音信號。此外,一個幀中的所述位代表一個確定的參數(shù)組。這些參數(shù)描述了例如語音信號的頻譜包絡、語音基頻或者信號能量或強度。
一個幀又多次劃分為子幀,這樣每一幀傳輸多個參數(shù)一次,每一個子幀再一次傳輸這些參數(shù)。
在具有7.4kbps的US-TDMA增強全速率(EFR)語音編碼中,一個20ms的幀包含148位。這里的一個幀由四個子幀組成。這里的所述參數(shù)具體為-一個濾波器的10個系數(shù)量化為每幀具有26位,其中所述濾波器表示在當前幀范圍內(nèi)的語音信號的頻譜包絡。這些系數(shù)也稱作頻譜系數(shù)或者頻譜參數(shù)。
-用4×7位量化該濾波器的激勵信號的四個子幀。
-用2×8位和2×5位表示語音基頻的四個值。
-用4×7位矢量量化每幀的四個放大系數(shù)對。
因此可以說一個幀內(nèi)的這些位通常表示一個確定的參數(shù)組,所述參數(shù)組總是取決于所應用的源編碼方法。
在發(fā)射端通過所謂的源編碼從幀內(nèi)的數(shù)字信號中取消冗余碼。在接收端通過源解碼,例如語音解碼盡可能地取消冗余碼。
這時可能發(fā)生單個幀或者多個相繼的幀丟失或者被網(wǎng)絡單元標識為不可用的。這些幀即所謂的“壞幀”因此可以或者應該不被使用。源解碼器,例如語音解碼器必須在接收端采取措施,即這種幀損失盡可能地不可聽或者在圖像或視頻傳輸中不可見。
一般地,在接收端存在一個指示符,所述指示符指示一個幀是否被無誤地接收,即所謂的壞的幀指示符(BFI)。BFI=0意味如下以此為起始,即所接收的幀是正確的,而BFI=1表明存在一個錯誤,例如沒有及時接收幀或者接收一個破壞幀。當然在幀內(nèi)根據(jù)系統(tǒng)情況可以出現(xiàn)位錯誤,即稱作個別位的翻轉(zhuǎn)。但是或者這不應該在接收端進行進一步地差分處理或者相應的幀被標識為BFI=1。
到目前為止,由已經(jīng)解碼的語音信號的過去引起的BFI=1的情況,例如通過相關(guān)圖像來評估當前的語音信號幀。已知的替代方法為從語音編解碼參數(shù)的過去,首先評估當前幀的參數(shù),當這些評估的參數(shù)值正確時,然后以類似的方式使解碼器工作。這通常以外插法處理,所述外插法只與已經(jīng)接收的位或者參數(shù)值有關(guān)。
當通過因特網(wǎng),例如IP上的語音(VoIP),或者通過因特網(wǎng)連接移動通信系統(tǒng)(例如GSM或者UMTS)一起進行語音傳輸時,接收端需要一個緩沖存儲器(緩存器),因為所接收的分組不是以固定的時間間隔到達,而是以不同的延時到達(延時抖動)。如果必要,這種緩沖存儲器可以在長度上包括多個個幀,以此可以避免由于增加傳輸延遲的開銷而引起的幀丟失。然而也經(jīng)常發(fā)生這種情況,即多個的相繼幀丟失,而隨后的幀被正確地接收。在這些情況下,當使用緩沖存儲器時,用丟失幀的語音編解碼參數(shù)的內(nèi)插法代替?zhèn)鹘y(tǒng)的外插法是有利的,因為內(nèi)插法一般比較精確。一個簡單的解決方案是在最后解碼幀(時刻t=n-1)的參數(shù)值和正確接收幀(時刻t=m>n)的參數(shù)值的基礎(chǔ)上在其間所有m-n個丟失幀(時刻t=n,n+1,…,m-1)進行線性內(nèi)插法。緩沖存儲器以及參數(shù)內(nèi)插法還可以在數(shù)據(jù)流應用中實現(xiàn),因為所述緩沖存儲器以及參數(shù)內(nèi)插法通常對于延時不敏感。
然而,因此會產(chǎn)生不利的影響,即提供的參數(shù)不可以簡單地插值。為此常常計算放大系數(shù)、語音基頻值或者語音幀在時刻t的頻譜參數(shù)V_i(t),因為它們被差分編碼。語音幀的頻譜參數(shù)V_i(t)在例如取決于時間的數(shù)字濾波器的濾波系數(shù)的語音編碼情況中,借助音軌建立模型例如根據(jù)LPC原理(線性預測編碼)編碼語音。在這種情況下,濁音通過脈沖的周期順序產(chǎn)生,清音例如通過一個隨機噪聲發(fā)生器產(chǎn)生。破裂音通過強度的改變模擬,音軌通過隨時間變化的數(shù)字濾波器模擬。人們借助線性預測,即在前面值的基礎(chǔ)上預測下面值以得到變化的數(shù)字濾波器的系數(shù)。
對于差分或者預測的編碼,人們理解為在時刻n一個參數(shù)的編碼,其中也包括在時刻n之前的參數(shù)值的編碼。
按照下面實施例,參數(shù)例如可以是放大系數(shù)、語音基頻或者頻譜參數(shù)。頻譜參數(shù)的通常形式例如是濾波系數(shù)本身(以所謂的直接形式)、自相關(guān)系數(shù)、反射系數(shù)或者所謂的日志區(qū)域比率(Log-area-Ratios)?,F(xiàn)有技術(shù)例如是ISF(模擬(imittance)頻譜頻率)、LSF(線性譜頻率)或者LSP(線性頻譜對)。為了簡便起見,下面沒有一般性限制地假定參數(shù)為頻譜系數(shù)。
參數(shù)V_i(t)的差分編碼和解碼可以例如按下列方式實現(xiàn)在發(fā)射端差分信號X_i(t=n)根據(jù)下式確定X_(n)=V_i-a_i*Q[X_i(n-1)],i=1,2,…,10(1)其中V_i(n)是編碼的參數(shù),a_i是預測系數(shù),Q[X_i(n-1)]是量化的差分信號,所述差分信號被確定用于編碼前面幀中的V_i(n-1)。量化通常應用所謂的矢量量化。對此可以理解為多個X_i(n)對于確定的i值的共同量化。矢量量化還意味著可以共同量化兩個或者多個個不同的、在語音編碼方法中出現(xiàn)的參數(shù)類型。在所述情況中,矢量量化可以如下所示i=1,2,3、i=4,5,6以及i=7,8,9,10。量化的差分信號Q[X_i(n)],i=1,2,…,10還通過位的數(shù)量表示,例如每個幀26位,以及傳輸。從等式(1)清楚地看出這樣的編碼引起數(shù)據(jù)壓縮,即用于差分值X_i的存儲消耗比用于V_i值的存儲消耗低,其中差分值X_i表示幾乎相同大小的數(shù)量在接收端頻譜參數(shù)V_i(n)的量化值W_i(n)由當前接收的差分信號值Q[X_i(n)]和以前接收的Q[X_i(n-1)]重構(gòu)而成W_i(n)=a_i*Q[X_i(n-1)]+Q[X_i(n)],i=1,2,…,10(2)這里所描述的參數(shù)解碼形式在許多當前使用的編碼方法中是常見的,此外例如在AMR和EFR語音編碼器(自適應多速率或者增強全速率)中。當然,原理上還可設(shè)想較高級的預測。等式(1)、(2)中所提及的準則通常用于降低在平均值左右的參數(shù)值。所述平均值最后作為加法再添加給一個常數(shù)。
如上面示例性所描述的,預測編碼對于插值確定丟失幀的頻譜系數(shù)具有缺點在第一級的預測量化中(見等式(1)和(2)),插值確定量化的參數(shù)值W_i(n)需要接收兩個相繼的量化差分信號值{Q[X_i(m)],Q[X_i(m+1)]},這在分組交換的傳輸方式時常常恰好不是這種情況。這種情況在下面更詳細地說明;為此,量化的差分信號Q[X_i(n)]在下面稱作數(shù)值Y_i(n)即為W_i(n)=a_i*Y_i(n-1)+Y_i(n),i=1,2,…,10(3)下面假定已經(jīng)根據(jù)等式(3)解碼的最后的幀為時刻t=n-1,以及當前幀t=n應該被解碼,但存在BFI(n)=1,即存在一個“壞”幀。這時幀t=m>n是t=n-1之后的第一個幀,對于該幀為BFI=0。具有BFI=1的、所有其它m-n個中間幀的頻譜系數(shù)這時應該被插值。頻譜系數(shù)W_i(n-1)這時形成內(nèi)插法的下(即過去發(fā)生的)基準點。頻譜系數(shù)W_i(m)一般應該形成內(nèi)插法的上(即未來發(fā)生的)基準點。但在預測編碼中不能計算頻譜系數(shù),因為對于等式(3)來說,雖然接收數(shù)值Y_i(m),但Y_i(m-1)根據(jù)假定是錯誤的。僅僅根據(jù)兩個正確接收的相繼幀m和m+1可以計算頻譜系數(shù)W_i(m+1)=a_i*Y_i(m)+Y_i(m+1)以及在接收端可以用作內(nèi)插法的基準點。然而這在原理上要求幀的附加延遲,這至少對雙向語音傳輸產(chǎn)生了一個嚴重問題,或者要求具有BFI=0的兩個相繼幀,這不是總存在的,尤其在分組交換傳輸模式中。
上面所提及方面的問題在第L級預測中相應地激化差分解碼根據(jù)等式(2)需要L+1個相繼的數(shù)值或者差分信號Y_i(t),即對于前面的具有BFI=1的幀的頻譜系數(shù)內(nèi)插法來說,必須接收L+1個相繼的正確幀,以在最后一幀中重新得到一個完全無誤的頻譜系數(shù)組以及用于內(nèi)插法的上基準點。
雖然在常用的語音編碼方法中,由于錯誤傳送,常常選擇具有L=1的線性預測,但總而言之兩個相繼的正確幀必須在再得到一個正確的頻譜系數(shù)W_i(m+1)之前被接收。當然從統(tǒng)計學的角度看,這比接收正確幀的可能性更小。該事實通常產(chǎn)生對于實時敏感的應用所不容許的較高延遲時間。
因此本發(fā)明的目的是提供一種可以在接收端確定編解碼參數(shù)的方法,即使基本的數(shù)據(jù)在單個或者多個個相繼的時間范圍內(nèi)產(chǎn)生錯誤。
本發(fā)明目的通過獨立權(quán)利要求1和2解決,其它構(gòu)型由從屬權(quán)利要求給出。
本發(fā)明涉及一種用于在接收端評估在第n時刻隨時間變化參數(shù)的方法。所述參數(shù)在發(fā)射端預測編碼,在接收端根據(jù)至少兩個數(shù)值插值確定該參數(shù)。內(nèi)插法的一個基準點,即第一數(shù)值形成已解碼的先前參數(shù)值,內(nèi)插法的第二個基準點,即第二數(shù)值通過外插法確定。
內(nèi)插確定參數(shù)可以通過已知的內(nèi)插法,例如借助第一和第二數(shù)值之間的線性內(nèi)插實現(xiàn)。一種實施的變型是在內(nèi)插中還應用加權(quán)求和。
所述方法的優(yōu)點在于一旦已知了所述兩個值,就可以實現(xiàn)為確定參數(shù)而進行的內(nèi)插。
此外,本發(fā)明還涉及一種在接收端評估為第n幀指定的編解碼參數(shù)的方法。在發(fā)射端預測編碼所述編解碼參數(shù),在接收端作為至少兩個信號的函數(shù)借助內(nèi)插來確定。內(nèi)插法的一個基準點通過第(n-1)幀事先解碼的參數(shù)形成,另一個基準點通過第m幀的參數(shù)形成,其中m>n,其中所述參數(shù)通過外插法確定。
另-種構(gòu)型在于一旦存在一個正確幀的數(shù)據(jù)就可以實現(xiàn)內(nèi)插。其具有的優(yōu)點為在使用參數(shù)評估的內(nèi)插法的同時具有短的延時。
另一種構(gòu)型在于通過一個指示符數(shù)值表示接收質(zhì)量。所述指示符數(shù)值例如可以是“壞幀”指示符BFI。
下面根據(jù)幾個實施例較詳細地描述本發(fā)明。
另外示出了
圖1GSM全速率信道傳輸?shù)哪M結(jié)果,其中描述了各種外插法的結(jié)果。
在一種可能的實施方式中,差分編碼的參數(shù)經(jīng)歷了一個過程,這個過程由兩步組成首先外插評估所述幀的參數(shù),在所述幀中存在一個錯誤的接收,即BFI=1。在此基礎(chǔ)上,這時可以解碼第一個重新正確接收的幀。所述幀然后形成插值再評估上述的BFI=1幀的參數(shù)的基礎(chǔ)。
在每個所接收的BFI=1的幀,即存在錯誤幀中,首先進行參數(shù)的傳統(tǒng)外插法。這包括(在BFI=0的幀之前的至少BFI=1的最后幀)在差分編碼的參數(shù)中對量化的差分信號或者數(shù)值Y“事后”的計算。所述傳統(tǒng)方法開始所給出的例子中提供根據(jù)對等式(3)的幀t=n中的W_i(n)的外插確定,數(shù)值Y_i(n)通過變換等式(3)得以確定Y_i(n)=W_i(n)-a_i*Y_i(n+1),i=1,2,…,10 (4)因此在時刻t=n+1又存在一個前面幀的差分信號,即Y_i(n),這樣在每個時刻都可以借助等式(3)重新解碼。通過這種(臨時的)外插過程還可以確定上基準點W_i(m),當僅所述上基準點W_i(m)適用于幀m BFI(m)=0時。不需要另一個正確的幀。m-n個后面的幀的內(nèi)插可以直接在時刻t=m實現(xiàn)。
由于差分編碼的記憶,所述基準點W_i(m)具有一個錯誤。所述錯誤只有在接收L個BFI=0的相繼幀時完全消失。然而為檢驗所述方法所實施的特有的模擬顯示W(wǎng)_i(m)可以用作上基準點,以便與現(xiàn)有技術(shù)相比,能夠?qū)崿F(xiàn)參數(shù)近似值的顯著改善。這種方法的顯著優(yōu)點是一個錯誤突發(fā),即一個具有m-n個壞幀的序列可以通過等待一個唯一正確的幀,更確切地說也就是在存在差分編解碼參數(shù)時進行插值。不需要附加延遲;此外不需要以這種在統(tǒng)計上少有的情況,即L個BFI=0的相繼幀為前提。
現(xiàn)在參見第一個實施例中具有第一級預測,即L=1的差分編碼的參數(shù)為此作下列假設(shè)-頻譜系數(shù)W_i(n-1)已經(jīng)被解碼。
-存在Y_i(n-1),其或者接收[BFI(n-1)=0]或者根據(jù)等式(4)在[BFI(n-1)=1]之前重構(gòu)。
-作為后面稱為遞歸算法的結(jié)果還存在Y_i(n),…,Y_i(n+k-1)。
-當前時刻為t=n+k,在這一時刻應該確定頻譜系數(shù)W_i(n)。
也就是說,允許用于內(nèi)插的K個幀的時間延遲。
現(xiàn)在所述過程分兩步實現(xiàn)a)在幀n+k上的運算如果BFI(n+k)=0根據(jù)等式(3)計算W_i(n+k)。
如果BFI(n+k)=1利用任一種外插法計算一個臨時外插版本W(wǎng)_i(n+k)。
b)解碼幀n如果BFI(n)=0根據(jù)等式(3)計算W_i(n)。
如果BFI(n)=1計算m>n,其中m是在幀n之后的第一個BFI(m)=0的幀。
如果m>n+k利用任一種外插法計算W_i(n)。
如果m<=n+k則對于幀m來說,已經(jīng)存在一個臨時外插確定的頻譜系數(shù)值W_i(m)作為正確接收的幀。所述頻譜系數(shù)值W_i(m)形成用于參數(shù)W_i(n)內(nèi)插的上(或者未來)基準點。所述下(或者后面)基準點是頻譜系數(shù)W_i(n-1)。這時例如可以實施線性內(nèi)插法??紤]到幀n在所述基準點上的時間間隔,實行W_i(n)=[W_i(n-1)-W_i(m)]*(m-n)/(m-n+1)+W_i(m)。
所述上基準點W_i(m)已經(jīng)臨時外插確定,所述下基準點W_i(n-1)已經(jīng)最終被解碼。
圖1示出具有各種不同C/I比率(載波-干擾比)的,描述信道質(zhì)量的GSM全速率信道傳輸模擬,對于這些曲線來說,頻譜畸變(頻譜失真SD)描述編碼或者傳輸頻譜系數(shù),相對于C/I比的通常質(zhì)量標準。SD越高,接收端的語音質(zhì)量越差。
曲線1示出了到目前為止的解碼方法中所使用的外插。曲線2至5示出了上述實施例取決于數(shù)值K的結(jié)果,所述數(shù)值K給出幀內(nèi)最大允許的時間延遲。其中曲線2具有大約一個幀(K=1)的延時,曲線3具有大約兩個幀(K=2)的延時,曲線4具有大約三個幀(K=3)的延時,曲線5具有四個幀(K=4)的延時。
應該認識到,只有唯一一個幀(K=1)的延時與K=2的將來幀帶來不大的附加增益相比,可以獲得更大的增益。這些模擬結(jié)果對于傳輸實時敏感應用十分有利,因為在這里只允許少的延時。然而在很低的C/I比時,可以看出,不同的延時值(K=1,2,3,4)的區(qū)別不大。其原因是在如此差的C/I比中,多個的相繼幀通常是“壞幀”。
除上面闡述的例子外,本發(fā)明還存在大量其它的,在這里沒有進一步描述的幀的實施變型。然而這些可以由技術(shù)人員根據(jù)前述的實施例不花費創(chuàng)造性的勞動就能付諸于實踐。
權(quán)利要求
1.用于在接收端評估在第n時刻隨時間變化的參數(shù)值的方法,-其中在發(fā)射端預測編碼所述參數(shù),-其中在接收端確定所述參數(shù)為至少兩個數(shù)值的函數(shù),其特征在于,-在接收端插值確定所述參數(shù),-其中被解碼的參數(shù)值作為第一數(shù)值,所述參數(shù)指定給比第n時刻早的一個時刻,所述第一數(shù)值形成所述內(nèi)插的一個基準點,以及-通過外插法確定第二數(shù)值,所述第二數(shù)值指定給第n時刻之后的一個時刻,所述第二數(shù)值形成內(nèi)插法的另一基準點。
2.用于在接收端評估為第n幀指定的編解碼參數(shù)的方法,-其中在發(fā)射端預測編碼所述編解碼參數(shù),-其中在接收端確定所述編解碼參數(shù)為至少兩個數(shù)值的函數(shù),其特征在于,-插值確定所述編解碼參數(shù),其中第(n-1)幀事先被解碼的編解碼參數(shù)形成所述內(nèi)插的一個基準點和第一數(shù)值,-以及通過外插法確定第m幀的參數(shù),其中m>n,形成所述內(nèi)插的另一基準點和第二數(shù)值。
3.根據(jù)上述權(quán)利要求之一所述的方法,其中,一旦接收了只有一個正確幀的數(shù)據(jù),就可以實施內(nèi)插。
4.根據(jù)上述權(quán)利要求之一所述的方法,其中,通過一個指示符數(shù)值表示所述接收質(zhì)量。
全文摘要
本發(fā)明涉及一種評估編解碼參數(shù)的方法。所述方法尤其應用于根據(jù)諸如在語音編碼中出現(xiàn)的放大系數(shù)和語音基頻值以全部已知的方式評估濾波系數(shù)。組合利用外插法、內(nèi)插法和線性預測進行評估。
文檔編號G10L19/005GK1509468SQ02810133
公開日2004年6月30日 申請日期2002年4月26日 優(yōu)先權(quán)日2001年5月18日
發(fā)明者T·芬謝德特, T 芬謝德特, J·吉塔特佩雷斯, 嘏謇姿 申請人:西門子公司