亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

通過內插對音頻信號進行重采樣用于低延遲編碼/解碼的制作方法

文檔序號:12287904閱讀:391來源:國知局
通過內插對音頻信號進行重采樣用于低延遲編碼/解碼的制作方法與工藝

本發(fā)明涉及對音頻信號進行處理以便對其進行傳輸或存儲。更具體地,本發(fā)明涉及在對音頻信號進行編碼或解碼時采樣頻率的改變。



背景技術:

存在許多技術用于壓縮(有損耗)音頻信號(如語音或音樂)。編碼可以直接在輸入信號的采樣頻率上進行,如例如在ITU-T建議G.711或G.729中那樣,其中,在8kHz下對輸入信號進行采樣,并且編碼器和解碼器在此同一個頻率上進行操作。

然而,一些編碼方法使用采樣頻率的變化來例如降低編碼的復雜度、根據不同的有待編碼的頻率子帶對編碼進行適配、或者對輸入信號進行轉換以使其與編碼器的預定義內部采樣頻率相對應。

在ITU-T建議G.722中定義的子帶編碼中,16kHz輸入信號被劃分成由ADPCM(自適應差分脈沖編碼調制)型編碼器單獨編碼的兩個子帶(在8kHz下進行采樣)。這種劃分成兩個子帶是由23階的具有有限脈沖響應(FIR)的二次模鏡像濾波器組來進行的,其理論上產生16毫秒23個樣本的分析合成延遲(編碼器+解碼器);該濾波器組是與多相實現方式結合使用的。G.722中劃分成兩個子帶使得可以根據其先驗感知重要性來以預定方式向這兩個子帶分配不同的比特率,并且還通過在較低頻率上執(zhí)行兩個ADPCM型編碼器來降低總體編碼復雜度。然而,與直接ADPCM編碼相比較,其引起了算法延遲。

已知各種用于通過使用(例如并且以非詳盡的方式)FIR(有限脈沖響應)濾波器、IIR(無限脈沖響應)濾波器或多項式內插(包括樣條)來改變數字信號的采樣頻率(又稱為重采樣)的方法??梢栽诶鏡.W.沙費爾(R.W.Schafer)、L.R羅賓納(L.R.Rabiner)的文章“Digital Signal Processing Approach to Interpolation(用于插值的數字信號處理法)”電氣與電子工程師協(xié)會會報,第61卷,第6期,1973年6月,692-702頁中找到對常規(guī)重采樣方法的綜述。

FIR(對稱型)濾波器的優(yōu)點在于其簡化的實現方式并且——受制于某些條件——在于確保線性相位的可能性。線性相位濾波使得可以保存輸入信號的波形,但其還可能伴有可能在瞬態(tài)產生前回波型偽信號的時間擴展(振蕩)。本方法產生一般大約1到幾毫秒的延遲(其是脈沖響應長度的函數)以確保適當的濾波特性(帶內紋波、足以消除混疊圖像或頻譜圖像的抑制電平等)。

重采樣的另一種替代方案是使用多項式內插技術。多項式內插對于具有接近頻率(例如,從16kHz到12.8kHz)的上采樣或下采樣尤其有效。

針對具有高比率(例如,從32kHz到12.8kHz)的下采樣的情況,多項式內插不是最合適的方法,因為其沒有消除由于高頻造成的混疊(在從32kHz到12.8kHz的下采樣的示例中,其涉及從6.4kHz到16kHz的頻率)。多項式內插相對于濾波技術的優(yōu)勢是低延遲甚至零延遲、以及還有通常更低的復雜度。如稍后在本發(fā)明的實施例中所描述的,內插的使用對于具有短長度(大約10個左右的樣本)的向量的重采樣而言尤其有利,諸如例如濾波器存儲器。

取決于內插的局部或非局部性質并且根據k階導數的連續(xù)性的可能約束,最著名且最廣泛使用的多項式內插技術是采用若干種變體的線性內插、拋物線內插、三次內插。

這里,更詳細地考慮了所謂的拉格朗日內插的簡單情況,其中,從預定義點中標識了多項式曲線的參數。假設,如果待內插的點的數量大于進行內插所嚴格必需的預定義點的數量,則局部重復這種內插。在現有技術中,更為復雜的技術(諸如與具有k階連續(xù)導數的連續(xù)性的約束的分段多項式相對應的內插“樣條”或B-樣條)是眾所周知的;在此不再對這些復雜技術進行回顧,因為本發(fā)明與其有所差異。

圖1示出了1階線性內插(o1,虛線)、2階拋物線內插(o2,不連續(xù)線)、3階三次內插(o3,實線)和4階內插(o4,點劃線)之間的比較。

針對線性內插,兩點確定方程為vl(x)=a1*x+b1的直線。在圖1中,使用了在時刻x=0和x=1處的點,這些點界定了區(qū)間[0,1]。如果這些點的值分別是v(0)和v(1),則如下獲得系數a1和b1:

a1=v(1)–v(0)

b1=v(0)

直線的系數a1和b1是通過使用單個加法運算獲得的,并且內插樣本vl(x)的計算需要加法運算和乘法運算、或乘加運算(MAC)。

針對拋物線內插,三點確定方程為vp(x)=a2*x2+b2*x+c2的拋物線。在圖1中,使用了在時刻x=-1、x=0和x=1處的點,這些點界定了2個區(qū)間[-1,0]和[0,1]。如果這些點的值分別是v(-1)、v(0)和v(1),則如下獲得系數a2、b2和c2:

a2=(v(-1)+v(1))/2–v(0)

b2=v(1)–v(0)-a2

c2=v(0)

獲得拋物線的系數a2、b2和c2需要4次加法運算和一次乘法運算或者3次加法運算和一次MAC運算。內插樣本vp(x)的計算需要2次加法運算和3次乘法運算或者一次乘法運算和2次MAC運算。

針對三次內插,四點確定方程為vc(x)=a3*x3+b3*x2+c3*x+d3的三次曲線。在圖1中,使用了在時刻x=-1、x=0、x=1和x=2處的點,這些點界定了3個區(qū)間[-1,0]、[0,1]和[1,2]。如果這些點的值分別是v(-1)、v(0)、v(1)和v(2),則如下獲得系數a3、b3、c3和d3:

b3=(v(-1)+v(1))/2–v(0)

a3=(v(-1)+v(2)–v(0)–v(1)–4*b3)/6

c3=v(1)–v(0)–b3–a3

d3=v(0)

獲得三次曲線的系數a3、b3、c3和d3需要9次加法運算和3次乘法運算或者7次加法運算、2次MAC運算和一次乘法運算。內插樣本vc(x)的計算需要3次加法運算和6次乘法運算或者通過優(yōu)化需要2次乘法運算和3次MAC運算。

針對4階內插,5點確定方程為v4(x)=a4*x4+b4*x3+c4*x2+d4*x+e4的4階曲線。在圖1中,使用了在時刻x=-2、x=-1、x=0、x=1和x=2處的點,這些點界定了4個區(qū)間[-2,-1]、[-1,0]、[0,1]和[1,2]。如果這些點的值分別是v(-2)、v(-1)、v(0)、v(1)和v(2),則如下獲得系數a4、b4、c4、d4和e4:

vt1=v(-2)+v(2)–2*v(0)

vt2=v(-1)+v(1)–2*v(0)

vt3=v(2)–v(-2)

vt4=v(1)–v(-1)

a4=(vt1-4*vt2)/24

b4=(vt3-2*vt4)/12

c4=(16*vt2-vt1)/24

d4=(8*vt4-vt3)/12

e4=v(0)

獲得4階曲線的系數a4、b4、c4、d4和e4需要10次加法運算和10次乘法運算或者6次加法運算、8次MAC運算和2次乘法運算。計算內插樣本vc(x)需要4次加法運算和10次乘法運算或者通過優(yōu)化需要3次乘法運算和4次MAC運算。

為了計算曲線的系數(例如,不失一般性地,三次曲線的系數a3、b3、c3和d3),推薦考慮4個連續(xù)的輸入樣本如同它們是指數x=-1、x=0、x=1和x=2的樣本以便簡化計算。

當執(zhí)行信號的重采樣時,期望知道由這2個點界定的區(qū)間內的待重采樣的信號的2個已知點之間的信號的值。例如,針對因子2的上采樣,需要估計x=0.5的信號的值。為了進行此估計,僅計算值vl(0.5)、vp(0.5)或vc(0.5)之一。

通過使用線性內插,使用將2個已知的相鄰點(用于計算x=0.5的x=0和x=1、以及用于計算x=1.5的x=1和x=2)連接起來的直線。

在2階內插的情況下,存在在2條可能的拋物線之間的選擇,因為確定拋物線的3點界定了2個區(qū)間。例如,針對x=0.5,可以選取將點x=-1、x=0和x=1或者點x=0、x=1和x=2連接起來的曲線。在實驗上,有可能檢查到2個解決方案將具有相同質量。有利地,為了降低復雜度,有可能使用針對2個區(qū)間的單條拋物線;以下在討論拋物線內插時使用這種簡化。

在3階內插的情況下,三次曲線通過4個輸入樣本,這些輸入樣本界定了3個區(qū)間,兩端的2個區(qū)間和一個中心區(qū)間。通常并且如在圖6呈現的結果中,中心區(qū)間[0,1]用于從在時刻x=-1、0、1和2處的點執(zhí)行內插。

在4階內插的情況下,曲線通過5個輸入樣本,這些輸入樣本界定了4個區(qū)間,兩端的2個區(qū)間和兩個中心區(qū)間。在實驗上,可以示出使用這兩個中心區(qū)間之一給出了更好的結果,并且這兩個中心區(qū)間給出了相同質量。對于拋物線的情況,在此還有可能通過多組2個輸入樣本進行。

為了比較現有技術的這些內插的性能水平,以12800Hz和32000Hz的采樣頻率兩者生成具有200Hz到6400Hz頻率和200Hz音調的一系列正弦曲線。然后,12800Hz的正弦曲線被上采樣至32kHz,并且針對每個正弦曲線頻率以及針對每種內插方法(其中,通過FIR進行對重采樣的延遲補償)測量信噪比(SNR)。在此重要的是應注意到,內插是通過偏移時刻x0以使得其與以輸入頻率進行的當前采樣相一致來實現的;因此,內插是在沒有延遲的情況下完成的。在待重采樣的輸入信號的邊沿處的樣本(也就是說,第一樣本和最后的樣本)被忽略。圖2總結了利用線性內插(“線性”)、拋物線或2階內插(“o2”,通過使用針對2個區(qū)間的1條拋物線)、三次或3階內插(“o3”,通過使用中心區(qū)間)、4階內插(“o4”,通過使用針對2個區(qū)間的4階曲線的2個中心區(qū)間)、三次“樣條”內插(“樣條”,通過使用矩陣實驗室“樣條”命令)以及由FIR濾波進行的重采樣(“FIR”,通過使用矩陣實驗室命令“s32=重采樣(s12、5、2、30)”)而獲得的結果。結果表明,FIR濾波以更高的復雜度及后續(xù)的算法延遲為代價針對高達5500Hz的所有頻率給出了更好的擬常SNR(在此通過使用FIR濾波器的脈沖響應來進行補償,如同其是零相位濾波器)。不同的內插針對低頻率具有良好的性能水平,但是SNR隨著頻率的增加迅速下降。內插階數越高,結果越好,但是這種改進對于頻譜的后半部分是有限的,其中,3階內插與4階內插之間的差異并不顯著并且針對頻譜的最后四分之一不存在。利用三次內插,對于高于2500Hz的頻率,SNR小于30dB,此限制對于4階內插是2800Hz。以更高的復雜度為代價,三次“樣條”內插提供了在3500Hz上具有30dB的最佳內插性能水平。在下文中,FIR內插將被視為參考。還針對語音信號(相對于通過FIR獲得的參考信號)測量了SNR。利用線性內插獲得的信噪比是34.7dB,利用拋物線內插是35.5dB,利用三次內插是38.2dB,利用4階內插是37.9dB,并且利用三次“樣條”內插是41.4dB。因此,可以得出結論,高于3階的內插是幾乎沒有意義的,針對真實信號無法測量這種階數上的增加。以下將不考慮4階內插的情況。

圖3展示了在真實情況下從12800Hz到32000Hz的內插。正方形表示12800Hz的信號的樣本,三角形表示通過FIR方法被上采樣至32000Hz的信號樣本,該方法給出了將在以下被用作基礎的參考信號。豎直虛線給出了在32kHz下的采樣時刻。將觀察到的是,在此示例中,針對2個12.8kHz的輸入樣本,獲得了5個32kHz的輸出樣本,其中的一個輸出樣本與輸入樣本之一相同(其仍需要復制操作)。在12.8kHz的連續(xù)輸入樣本之間的每個區(qū)間對兩個樣本進行內插。因此,有可能估計到的是,針對2個輸入樣本,不同內插的計算復雜度,通過假設加法、乘法或MAC運算均具有相同的權重(這是針對大多數信號處理處理器、或數字信號處理器(DSP)的情況):

-線性內插:2條直線、4個內插樣本和一個副本:7次運算,即每秒44800次運算。

-拋物線內插:1條拋物線、4個內插樣本和一個副本:17次運算,即每秒108800次運算。

-三次內插:2條三次曲線、4個內插樣本和一個副本:41次運算,即每秒262400次運算。

可以通過對值x2和x3進行制表(也就是說通過預先計算它們并將它們存儲在表格中)來進一步降低這些復雜度。這是可能的,因為總是使用相同的時間索引,例如內插在區(qū)間[0,1]內進行。例如,在三次內插中并且在從12800Hz到32000Hz的上采樣的示例中,必須僅針對x=0.2、0.4、0.6和0.8來對這些值進行制表。這可節(jié)省每個內插樣本一次或兩次乘法。因此,針對拋物線內插,復雜度降低至13次運算,即每秒83200次運算,并且針對三次內插,其降低至33次運算,即每秒211200次運算。

在圖4中,圖3已經完成了對線性內插的展示。通過2個輸入樣本(正方形標記)之間的直線(由實線和虛線進行展示)的交叉點以及輸出采樣時刻(豎直虛線)的交叉點給出了上采樣信號(圓形標記)的樣本。與參考信號(三角形標記)相比,可觀察到若干顯著的偏差。將注意的是,所使用的不同直線由實線或由虛線交替表示。

采用類似于圖4的方式,圖5展示了利用針對2個區(qū)間計算的拋物線的拋物線內插。最大的誤差是在時刻281.5μs處。將注意的是,所使用的不同拋物線由實線或由虛線交替表示。

圖6展示了三次內插。利用中心區(qū)間獲得了由圓形標記展示的內插樣本。再一次,觀察到相對于參考信號的若干偏差。在此假設在圖中所表示的時域外已知輸入信號,從而使得邊沿處的樣本(在此,該兩個第一和該兩個最后輸入樣本)可用于內插。將注意的是,所使用的不同三次曲線由實線或由虛線交替表示;將回想起,僅使用了中心區(qū)間。

可以看出這些內插可以得到完善。已經表明,內插階數增加超過3并不是有利的解決方案。從現有技術中已知的是,內插“樣條”通??蛇_到更好的性能水平,但是以更高的復雜度為代價。



技術實現要素:

因此,需要開發(fā)一種具有降低的復雜度增加的更為高效的內插解決方案。

本發(fā)明改進了來自現有技術的情況。

為此,本發(fā)明提出了一種用于在音頻解碼時對音頻信號進行重采樣的方法,該重采樣通過高于一階的內插方法來進行。該方法為使得內插樣本是通過計算可能內插值的加權平均值而獲得的,這些可能內插值是在覆蓋待內插樣本的時間位置的多個區(qū)間上所計算的。

因此,在若干區(qū)間上所獲得的可能內插值的平均值使得有可能獲得接近真實信號值的內插樣本值。在復雜度方面,這種加權平均值計算運算成本不高,這使得可能獲得降低復雜度增加的更為高效的內插。

下文提及的不同具體實施例可以被單獨地或彼此組合地添加至以上所描述的重采樣方法中。

在特定實施例中,內插是2階拋物線型。

在這種情況下,內插樣本是通過計算可能內插值的加權平均值而獲得的,這些可能內插值是在覆蓋待內插樣本的時間位置的兩個區(qū)間上計算的。

這一解決方案給出了與簡單三次內插幾乎相等但不太復雜的結果。

在本發(fā)明的一個實施例中,內插是3階三次曲線型,并且覆蓋待內插樣本的時間位置的區(qū)間數是3。

這一實施例使得可能具有良好質量的內插,內插樣本比通過僅利用中心區(qū)間獲得的簡單三次內插被內插的樣本更接近參考信號。因此,質量被提升到可比較的復雜度。

在特定實施例中,針對可能內插值中的每個可能內插值利用同一個權重值來應用加權平均。

這些權重值使得可能獲得仍大于拉格朗日多項式內插的性能水平以及特別地更好的信噪比。

在變體實施例中,不同的權重值應用于針對該三個區(qū)間的中心區(qū)間而計算的內插值并且應用于計算該加權平均值。

如果這些權重之一具有零值,則這一變體針對高頻率降低了復雜度并且提高了信噪比性能水平。更一般地,取決于所選定的權重值,性能水平可提升到特定的頻區(qū)。

在另一變體實施例中,應用于這些可能內插值的權重值是根據該待內插樣本的頻率標準來確定的。

不考慮待內插的信號的頻率,這使得可能具有更好的信噪比性能水平。

在特別適合的實施例中,對包含在FIR類型的重采樣濾波器的存儲器中的信號執(zhí)行重采樣。

實際上,這種重采樣方法特別適于像濾波器存儲器的短長度信號向量。

在特定的實施例上下文中,在預測解碼與變換解碼之間的過渡幀中根據受限的預測解碼而解碼的樣本與根據變換解碼而解碼的樣本之間進行組合的步驟之前,這些內插樣本補充該過渡幀中根據該受限的預測解碼模式而解碼的信號。

根據本發(fā)明的重采樣適于在兩種編碼模式之間進行過渡的這種上下文以及當由于重采樣造成的延遲可能會導致樣本缺乏時。針對這種類型的短長度信號,所提出的內插則是有效的且不太復雜。

本發(fā)明目標還在于一種用于在音頻信號編碼器或解碼器中對音頻信號進行重采樣的設備,該重采樣通過高于一階的內插方法來進行。該設備為使得其包括:

-用于針對覆蓋待內插樣本的時間位置的多個區(qū)間計算可能內插值的模塊;以及

-用于通過計算源自該計算模塊的這些可能內插值的加權平均值來獲得該待內插樣本的模塊。

這種設備提供了與其所實現的前述方法相同的優(yōu)點。

本發(fā)明目標還在于一種包括至少一個如所述的重采樣設備的音頻信號編碼器和解碼器。

本發(fā)明的目標在于一種包括代碼指令的計算機程序,當這些指令由處理器執(zhí)行時用于實現如所述的重采樣方法的各個步驟。

最后,本發(fā)明涉及一種計算機可讀存儲介質,該計算機可讀存儲介質合并到或不合并到該重采樣設備中、可能地可移除的、存儲實現如前述的重采樣方法的計算機程序。

附圖說明

通過閱讀以下僅作為非限制性示例給出并且參照這些附圖所作出的描述,本發(fā)明的其他特征和優(yōu)點將變得更清晰明顯,在附圖中:

-如前所述,圖1展示了通過由x軸上表示的時刻的預定義點限定的多項式曲線的表示、來自現有技術的不同類型的內插之間的比較;

-如前所述,圖2展示了根據現有技術的不同類型的內插的頻率的信噪比的結果;

-如前所述,圖3展示了用于由FIR類型的濾波器進行的從12800Hz到32000Hz的重采樣的內插;

-如前所述,圖4展示了通過FIR類型的內插以及通過來自現有技術的線性類型的內插而獲得的樣本之間的比較;

-如前所述,圖5展示了通過FIR類型的內插以及通過來自現有技術的拋物線類型的內插而獲得的樣本之間的比較;

-如前所述,圖6展示了通過FIR類型的內插以及通過來自現有技術的三次曲線型的內插而獲得的樣本之間的比較;

-圖7以流程圖的形式展示了根據本發(fā)明的實施例的重采樣方法的步驟;

-圖8展示了根據本發(fā)明的實施例的包括重采樣設備的音頻信號編碼器的示例;

-圖9a展示了根據現有技術方法的利用預測編碼而編碼的信號幀與通過變換而編碼的幀之間的過渡;

-圖9b展示了利用預測編碼而編碼的信號幀與通過使用根據本發(fā)明的實施例的重采樣方法進行變換而編碼的幀之間的過渡;

-圖10展示了根據本發(fā)明的實施例的包括重采樣設備的音頻信號解碼器的示例;

-圖11展示了對在待內插區(qū)間邊沿處的樣本進行處理的示例;

-圖12展示了通過FIR類型的內插、通過來自現有技術的三次曲線型的內插以及通過根據本發(fā)明的實施例的內插而獲得的樣本之間的比較;

-圖13展示了根據來自現有技術的不同類型的內插和根據本發(fā)明的第一實施例的內插的頻率的信噪比的結果;

-圖14展示了根據來自現有技術的不同類型的內插和根據本發(fā)明的第二實施例的內插的頻率的信噪比的結果;

-圖15展示了根據本發(fā)明的實施例的重采樣設備的硬件表示。

具體實施方式

圖7因此展示了根據本發(fā)明的實施例的重采樣方法的主要步驟。

這種方法的步驟是使用在輸入采樣頻率f輸入上的音頻信號(作為輸入(x輸入))而實現的。如稍后參照圖8和圖10所描述的,這種輸入信號可以例如是包含在重采樣濾波器存儲器中具有短長度的信號向量。

在此描述的實施例中,使用了3階三次曲線型的內插方法。當然,可以使用不同的內插階數,然而,該階數大于一。

在步驟E701中,三次內插不僅用在中心區(qū)間上而且在3個區(qū)間上使用:

-前一個三次曲線的右側區(qū)間(區(qū)間[1,2]),

-中心三次曲線的中心區(qū)間(區(qū)間[0,1])以及

-用于在[0,1]中的時間時刻x上對值進行內插的下一個三次曲線的左側區(qū)間(區(qū)間[-1,0])。

獲得這三個可能內插值。因為任何情況下每個區(qū)間都計算三次曲線的系數,因此這以有限的方式增加了計算復雜度。如果將簡化符號(未提及3階)an、bn、cn、dn用于三次曲線的系數(其中,使用了中心區(qū)間)、將an-1、bn-1、cn-1、dn-1用于前一區(qū)間中的三次曲線的系數以及將an+1、bn+1、cn+1、dn+1用于下一區(qū)間中的三次曲線的系數,則通過以下獲得這三個可能內插值:

vcp(x)=an-1*(x+1)3+bn-1*(x+1)2+cn-1(x+1)+dn-1

vcc(x)=an*x3+bn*x2+cnx+dn,以及

vcs(x)=an+1*(x-1)3+bn+1*(x-1)2+cn+1(x-1)+dn+1。

再一次,可對值(x+1)3、(x+1)2、x3、x2、(x-1)3和(x-1)2進行制表以便降低復雜度。

因此,步驟E701在覆蓋待內插樣本的時間位置的多個區(qū)間上計算可能內插值(在此給出的示例中,內插階數是3)。

在步驟E702中,對這三個可能的內插的加權平均值進行計算以便獲得待內插樣本。然后獲得(x輸出)通過在此描述的內插以輸出頻率f輸出重采樣的輸出信號。

因此,通過這3個值的加權和來獲得在時刻x(相對于中心三次曲線,因此x在[0,1]中)上被內插的樣本值:

Vc3=pp*vcp(x)+pc*vcc(x)+ps*vcs(x),其中,在示例性實施例中,加權系數pp、pc和ps處于區(qū)間[0,1]中,其中,pp+pc+ps=1,并且通常pp=ps=(1-pc)/2。

例如,可以選擇pp=pc=ps=1/3。在此情況下,除以3可以被整合在三次曲線的系數中。

將注意的是,圖7中展示的本發(fā)明不考慮在輸入緩沖器的邊沿處的樣本x輸入(n),n=0……L-1。如稍后在本發(fā)明中解釋的:

假設可通過知道在前一時刻n=-1、-2的過去信號值對輸出緩沖器(兩個第一樣本x輸入(n)、n=0,1之間)開始時的樣本進行內插,該前一時刻對于確定第一系數a-1、b-1、c-1、d-1、a0、b0、c0和d0是必需的;這些過去樣本可并入輸入緩沖器中或者單獨用在框E701的實現方式中。

根據框E701和E701,不能直接對輸出緩沖器(兩個最后樣本之間和之后,x輸入(n)、n=L-2,L-1)結束時的樣本進行內插,因為對應于時刻n=L,L+1,通常沒有進一步可用的信號,這些時刻對于確定最后的系數aL-1、bL-1、cL-1、dL-1、aL、bL、cL和dL是必需的。稍后描述用于處理邊沿處樣本的不同變體。

因此,圖12中通過圓形標記展示了利用pp=pc=ps=1/3進行內插的樣本。可注意到,這些內插樣本比通過利用圖6中展示的中心區(qū)間獲得的簡單三次內插(參見連續(xù)線和豎直虛線的交叉點)進行內插的樣本更接近參考信號。

圖13重復使用圖2的元件并且通過與如根據本發(fā)明的圖7的方法描述的內插相對應的曲線(“o3m”)加以補充。可見,所提出的內插具有仍高于簡單三次內插的性能水平,尤其在簡單內插的SNR變得至關重要(2500Hz之上)的頻區(qū)中。這種SNR的增加甚至達到了大約3400Hz頻率的14dB。借助于根據本發(fā)明的內插方法,30dB的限值是甚至好于通過三次曲線“樣條”進行的內插的3600Hz。針對所使用的從12800Hz到32000Hz重采樣的示例的情況提出的內插復雜度是每組2個輸入樣本60次運算,即每秒384000次運算。

借助于根據本發(fā)明的解決方案,語音信號的SNR是40dB。為了進行重復,獲得的SNR是具有來自現有技術的已知的三次內插的38.2dB以及具有由三次“樣條”進行的內插的41.4dB??梢?,提出的內插給出了與拉格朗日多項式內插相比更好的SNR。

在本發(fā)明的變體中,權重(pp、pc、ps)被設定為其他預定值。在另一示例性實施例中,選擇pp=ps=0.5和pc=0,這相當于使用來自2個極值區(qū)間的內插的平均值。這將運算的次數降低至47次(即每秒300800次運算),同時具有顯著高于簡單三次曲線(拉格朗日)內插的性能水平。針對真實測試信號獲得的SNR是40.4dB。如圖14示出的(曲線“o3m2”),這種解決方案比具有三個相同權重的解決方案具有針對低頻不是很好但針對高頻卻更好的性能水平。

在本發(fā)明的另一變體中,還將可能使用權重(pp、pc、ps),這些權重根據標準是可變的。例如,如果待內插的信號主要包含低頻,則將使用所提出的第一種解決方案(pp=pc=ps=1/3),否則將使用第二種(pp=ps=0.5和pc=0)。

本發(fā)明的原理可被一般化以用于除3之外的階數的內插。例如,在拋物線內插的情況下,可以取由2條可能的拋物線給出的2個值的平均值。

在這種情況下,內插樣本是通過計算可能內插值的加權平均值來獲得的,這些可能內插值是在覆蓋待內插樣本的時間位置的兩個值的區(qū)間上計算的。

這一解決方案給出了與僅使用中心區(qū)間的簡單三次內插幾乎相等的結果。

圖8展示了根據本發(fā)明的實施例的音頻編碼器的在局部解碼器中包括重采樣設備的示例。

在此實施例中,借助于交替至少兩種編碼模式并且其算法延遲適于會話應用(通常≤32ms)的多模技術,興趣集中在語音、音樂和混合內容信號的統(tǒng)一編碼。

在這些統(tǒng)一編碼技術中,可能引用現有技術的編碼器/解碼器(編解碼器),像AMR-WB+編解碼器或者更近地MPEG USAC(統(tǒng)一語音音頻編碼)編解碼器。在對算法延遲沒有嚴苛限制的情況下,針對這些編解碼器的應用不是會話式的,但是對應于廣播和存儲服務。統(tǒng)一編碼的原則是在至少兩種編碼模式之間交替:

·針對語音類型的信號:時間模式,在此被標記為LPD(針對線性預測域),通常為CELP(碼激勵線性預測)類型;

·針對音樂類型的信號:頻率模式,在此被標記為FD(針對頻域),具有通常為MDCT(經修改的離散余弦變換)類型的變換。

以下總結了CELP和MDCT編碼的原理。

首先,CELP編碼(包括其ACELP變體)是基于源濾波模型的預測編碼。通常,濾波器對應于通過線性預測(LPC,線性預測編碼)獲得的傳遞函數1/A(z)的全極點濾波器。實際上,合成使用濾波器1/A(z)的量化版本源(也就是說,線性預測濾波器的激勵)通常是通過對聲帶振動進行建模的長期預測而獲得的預測與以噪聲字典等的代數編碼(ACELP)的形式描述的隨機(或創(chuàng)新)激勵的組合。通過在由濾波器用傳遞函數W(z)加權的信號域中的平方誤差標準的最小化執(zhí)行對“最優(yōu)”激勵的搜索,該傳遞函數通常源自具有形式W(z)=A(z/γ1)/A(z/γ2)或A(z/γ1)/(1-αz-1)的預測線性濾波器A(z)。

其次,由MDCT變換進行的編碼利用時間/頻率變換對輸入信號進行分析,通常包括不同的步驟:

1.通過在此被稱為“MDCT窗口”的窗口對信號進行加權;

2.進行時間混疊(或“時域混疊”)以形成縮減的塊(其長度除以2的常規(guī)公式中)

3.對縮減的塊進行DCT(離散余弦變換)變換。

可對MDCT加窗進行適配,并且可根據比特的分配(例如,通過頻率子帶)通過各種方法對MDCT系數進行量化。

在使用至少兩種編碼模式的編解碼器中,LPD與FD模式之間的過渡在確保沒有切換缺陷的充分的質量中是重要的,已知FD和LPD模式是不同的性質-一個依賴于用重疊進行變換的編碼,而另一個使用具有矩形塊和濾波器記憶的線性預測編碼,該濾波器記憶在每個幀處進行更新。

針對圖8中展示的編碼器,參照圖7描述的重采樣方法在局部解碼器(可選的)的重采樣設備中被實現為用于執(zhí)行根據本發(fā)明的多項式內插,從而在從LPD模式過渡到FD模式的情況下提升切換的質量。稍后參照圖10描述相關聯(lián)的解碼器和框800。

在圖8展示的此實施例中,考慮了以頻率fs=16、32或48kHz(框810)被采樣的輸入信號的編碼情況(以20ms幀進行工作)。這種編碼器處理(單)音頻信號并且提供若干比特率(例如,比特率設定為從7.2kbit/s至128kbit/s)。該編碼器使用由選擇模塊811選擇的至少兩種編碼模式,包括:

·LPD模式(編碼單元812),該LPD模式使得兩個內部采樣頻率設定為12.8kHz和16kHz(根據比特率),該兩個內部采樣頻率需要使用內部頻率12.8kHz或16kHz(框815)的輸入頻率fs的采樣;

·FD模式(編碼單元813),該FD模式以輸入信號的頻率fs進行操作。

針對每個20ms輸入幀的比特流被多路復用模塊814多路復用。

例如在公布的歐洲專利申請EP 2656343中描述的從LPD編碼過渡到FD編碼的情況,該歐洲專利申請結合在此以供參考。在這種情況下,如在fs=16kHz、信號尚未在前一幀(根據CELP模式而編碼的幀)中通過FD模式被編碼的圖9a中展示的,MDCT編碼存儲器對于待解碼的當前幀不可用。在解碼器(本地或遠程)處,必需在FD類型的當前幀開始時生成陰影區(qū)域“TR”的互補信號。這種互補信號必需能夠使得“結合”處于通過連續(xù)LPD和FD模式解碼的信號之間;這種互補信號因此填充“間隙”。將注意到的是,互補信號必須足夠長以允許交叉衰落,從而限制從一種模式過渡到另一種模式的缺陷。

在此,通過執(zhí)行如在申請EP 2656343中描述的經簡化的受約束的LPD編碼再次將相同的原理應用于信號的傳播以便在LPD幀之后的FD類型的過渡幀中填充此缺失信號(標記為TR的區(qū))。將注意到的是,在此展示的MDCT窗口將能夠在本發(fā)明的變體中被修改而不改變本發(fā)明的原理;具體地,在當前幀不是LDP到FD過渡幀時,過渡幀中的MDCT窗口將能夠不同于在FD編碼模式中“正?!笔褂玫?多個)MDCT窗口。

然而,在圖8所展示的編碼器中,在受約束的LPD編碼/解碼(框816)的輸入和輸出的信號的頻率為12.8kHz或16kHz(取決于比特率);在局部解碼的情況下,以12.8kHz或16kHz被解碼的信號(通過交叉衰落)在與過渡幀中FD類型編碼/解碼(框813)的輸出處的信號組合之前通常必須以頻率fs被重采樣,在專利申請EP 2656343中描述了這種交叉衰落的原理。圖9b展示了這種情況,其中,LPD編碼器的頻率是12800Hz并且fs=32000Hz。當LPD編碼器的頻率是16000Hz時應用相同的原理。

在此假設重采樣塊830的fs處的從12.8kHz或16kHz的重采樣是通過具有濾波器存儲器(mem)的多相FIR濾波來進行的。這種存儲器存儲由LPD或TR模式以頻率12.8kHz或16kHz解碼的信號的前一幀的最后樣本。這種存儲器的長度對應于FIR濾波延遲。由于這種重采樣延遲,在此為32kHz的頻率fs(源自重采樣)處的信號被延遲。這種重采樣是有問題的,因為其“放大”了過渡幀中LPD模式與FD模式之間待填充的間隙。因此,其缺乏用于正確實現以頻率fs重采樣的LPD信號與FD解碼信號之間的交叉衰落的樣本。然而,在框830的重采樣步驟中存儲12800Hz或16000Hz的最后輸入樣本。這些存儲的樣本時間上對應于與FIR濾波延遲相關的32kHz(圖9b中的深灰色區(qū),標記為“INT”)的缺失樣本。

根據本發(fā)明的內插在此實施例中用于對包含在重采樣濾波器(mem)的存儲器中的信號進行重采樣以便延長在過渡幀開始處源自經簡化的LPD編碼(框816)的信號,并且因此以32kHz獲得能夠使得交叉衰落處于LPD合成與FD合成之間的缺失樣本。

圖10中展示的解碼器是在16kHz、32kHz、或48kHz的輸出采樣頻率上操作的(單)音頻信號多比特率(其中,比特率設定為從7.2kbit/s至128kbit/s)的解碼器。

取決于所接收并解多路復用(框1001)的幀,輸出在使用線性預測的CELP類型(1002)的時間解碼器(LPD DEC)的輸出與頻率解碼器(FD DEC,1003)的輸出之間切換(1004)。將注意的是,LPD解碼器的輸出通過例如FIR類型的重采樣模塊1005從內部頻率12.8kHz或16kHz被重采樣到輸出頻率fs。

在此,通過執(zhí)行如在申請EP 2656343中描述的經簡化的受約束的LPD解碼(框1006)再次將相同的原理應用于延長信號以便在LPD幀之后的FD類型的過渡幀中填充此缺失信號(標記為TR的區(qū))。

這里在圖10中所展示的解碼器中,受約束的LPD解碼(框1006)的輸入處和輸出處的信號在頻率12.8kHz或16kHz(取決于比特率)上,并且根據專利申請EP 2656343中描述的原理,在過渡幀中該信號(通過交叉衰落)在由模塊1008與FD類型(框1003)的解碼的輸出處的信號結合之前必須以頻率fs被重采樣(通過重采樣塊1007)。圖9b展示了這種情況,其中,不失一般性地,LPD編碼器的頻率是12800Hz和fs=32000Hz。

在此假設重采樣塊1007的從12.8kHz或16kHz到fs的重采樣是通過具有濾波器存儲器(mem)的多相FIR濾波來進行的。這種存儲器存儲由LPD或TR模式以頻率12.8kHz或16kHz解碼的信號的前一幀的最后樣本。這種存儲器的長度對應于FIR濾波延遲。由于這種重采樣延遲,在此為32kHz的頻率fs(源自重采樣)處的信號被延遲。這種重采樣是有問題的,因為其“放大”了過渡幀中LPD模式與FD模式之間待填充的間隙。因此,其缺乏用于正確實現以頻率fs重采樣的LPD信號與FD解碼信號之間的交叉衰落的樣本。然而,在框1007的重采樣步驟中存儲12800Hz或16000Hz的最后輸入樣本。這些存儲的樣本時間上對應于與FIR濾波延遲相關的32kHz(圖9b中的深灰色區(qū),標記為“INT”)的缺失樣本。

根據本發(fā)明的內插在此實施例中用于對包含在重采樣濾波器(mem)的存儲器中的信號進行重采樣以便延長在過渡幀開始處源自經簡化的受約束的LPD解碼(框1006)的信號,并且因此以32kHz獲得能夠使得交叉衰落處于LPD合成與FD合成之間的缺失樣本。

為了重采樣包含在重采樣濾波器1007的存儲器中的信號(mem),根據本發(fā)明的重采樣設備800執(zhí)行高于一階的內插并且包括模塊801,該模塊用于針對覆蓋待內插樣本的時間位置的多個區(qū)間計算可能內插值。例如,如針對3階內插參照圖7描述的,計算這些可能內插值。

重采樣設備還包括模塊802,該模塊用于通過計算源自該計算模塊801的這些可能內插值的加權平均值來獲得該待內插樣本。

適當重采樣的信號可在1008中經由如在專利申請EP 2656343中描述的交叉衰落與源自模塊1003的FD編碼的信號相組合。

還必須注意的是,借助于根據本發(fā)明提出的內插,不可能覆蓋濾波器存儲器(mem)的整個時域,如圖11展示的。在此附圖中,為了簡化展示,假設12800kHz的8個樣本的濾波器存儲器由正方形符號代表。這種存儲器的典型長度是12800Hz的12個樣本或者16000Hz的15個樣本。在圖11中,存儲器的時域由不連續(xù)線矩形900界定。32000Hz的輸出樣本用三角形代表,在給定時域上具有8*5/2=20個三角形。還假設2個過去輸入樣本也是可用的(圖中的正方形901),此處的這種情況是因為它們對應于在過渡區(qū)TR(經簡化的LPD編碼)中解碼的信號。因此,可根據本發(fā)明的方法對可能的20個中的16個輸出樣本(圖中的實心三角形)進行內插??赏ㄟ^使用極值右區(qū)間、或者根據最后3個輸入樣本上的拋物線內插、或者通過最后2個輸入樣本上的線性內插對接下來的兩個輸出樣本(三角形902)進行內插。必須通過使用最后三次曲線、拋物線或直線的延長或者通過對以32kHz被內插的最后樣本的值或者以12.8kHz的最后輸入樣本的值進行重復來對時域(三角形903)的最后兩個輸出樣本進行外插。

在優(yōu)選實施例中,最后三次曲線的極值右區(qū)間用于最后2個輸入樣本(空心黑色三角形)之間的內插,并且針對外插樣本(三角形903)重復最后的內插樣本。

圖15表示根據本發(fā)明的重采樣設備1500的示例性硬件實現方式。重采樣裝置可以是音頻信號編碼器或解碼器的集成部分、或者接收音頻信號的設備項的集成部分。

這種類型的設備包括與存儲器塊BM協(xié)同操作的處理器PROC,該存儲器塊包括存儲設備和/或工作存儲器MEM。

這類設備包括能夠接收采樣頻率f輸入下的音頻信號幀x輸入的輸入模塊E。這些音頻信號幀例如是包含在重采樣濾波器的存儲器中的信號。

其包括能夠傳輸在采樣頻率f輸出下的重采樣音頻信號x輸出的輸出模塊S。

存儲器塊可以有利地包括計算機程序,該計算機程序包括多條代碼指令,這些指令當被處理器PROC執(zhí)行時用于實現在本發(fā)明的意義內的重采樣方法的步驟,并且特別是以下步驟:通過計算可能內插值的加權平均值來獲得被內插的樣本,這些可能內插值是在覆蓋該待內插樣本的時間位置的多個區(qū)間上計算的。

通常,圖7的描述再次覆蓋了這種計算機程序的算法的這些步驟。計算機程序還可以被存儲在存儲介質上,其可以由設備的讀取器進行讀取或者可以被下載到其存儲空間中。

通常,存儲器MEM存儲實現該方法所必需的所有數據。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1