專利名稱:一種音頻編碼解碼方法及其裝置的制作方法
技術領域:
本發(fā)明涉及一種音頻編碼解碼的技術領域,尤其涉及一種可以抑制音頻信 號預回聲的編碼解碼方法及其裝置。
背景技術:
現(xiàn)今的音頻編碼已進入了感知編碼(perc印tual coding)的時代,得到 廣泛運用的代表是MP3 (MPEG-1 Layer III)和AAC (先進音頻編碼)。音頻 的感知編碼,不僅采用傳統(tǒng)的變換編碼(將時間信號轉換為頻率信號再進行編 碼)以去除音頻信號的時間統(tǒng)計冗余,而且使用心理聲學模型計算感知域上允 許的量化噪聲以進一步去除那些與人聽覺無關的信號部分。
一個標準的音頻感知編碼器是一個因果的編碼器g卩, 一個聲音文件被
分段為若干交迭的時間塊(幀),這些時間幀被變換為頻域系數(shù)并量化。每一
幀都是依次處理的,過去的n-l, n-2……會影響到第n幀的編碼結果。解碼器
為了從頻域系數(shù)重建原信號,反向變換時必須使用交迭相加(overlap add)的
方式S卩,交迭區(qū)域的反向量化樣點必須通過相加來得到最終的時間信號。最
主流應用的交迭變換(lapped transform)是MDCT (改進型離散余弦變換),
它將2M個時間采樣點變換為M個頻域系數(shù)。MDCT變換是基于50%的交迭
程度,每次變換更新M個樣點并交迭M個樣點。
預回聲失真是感知編碼系統(tǒng)中的一種音頻假象(artefact)。當原始音頻信
號中存在暫態(tài)部分,即在低能量區(qū)域后出現(xiàn)能量突變區(qū)域,同時該能量突變區(qū)
域正好位于編碼塊的后部,這時編碼結果中將出現(xiàn)預回聲失真。在基于交迭變
換的音頻編碼系統(tǒng)中(如MP3和AAC),量化和比特分配是為了滿足通過完
整變換窗(transform window)下所有頻率譜線計算而得到的量化噪聲掩頻閥
值(masking thresholds);這種情況下,量化誤差將會作為一種完整窗長度的誤
差信號而疊加在變換窗的頻率譜線之上,量化產生的噪聲也將遍布在整個變換窗內。同時,在解碼端為實現(xiàn)信號完美重建(perfectreconstruction)而必須使 用交迭相加方式,這意味著量化噪聲除了遍布在本窗內,還將在交迭相加的過 程中被疊加到前一幀中。這將導致在解碼的音頻信號中,真實的暫態(tài)聲音將出 現(xiàn)(擴散)在突變之前的低能量區(qū)域,即預回聲失真。在對富含有敲擊樂器的 音頻信號進行編碼時,預回聲失真的發(fā)生尤為常見,影響了編碼的質量。
預回聲失真的產生,究其原因主要有兩個部分。 一是在當前幀內未能有 效的捕捉突變信號,二是當前幀的突變信號由于交迭相加而對前一幀產生回溯 影響。對于預回聲失真產生的第一個原因,現(xiàn)在的音頻編碼技術普遍使用窗切 換(window switching)來捕捉信號的時變性,并輔以時域噪聲整型(temporal noise shaping)對突變部分的包絡進行編碼。對于預回聲失真產生的第二個原 因,現(xiàn)有的解決方法是在編碼端放棄掉交迭變換,即幀與幀之間不再交迭,但 這種方式有如下問題1、現(xiàn)在最廣泛使用的基于50%交迭的變換將不再適用 (比如MDCT); 2、在無交迭的情況下,由編碼理論的完美重建條件約束,唯 一能夠使用的時間窗將是矩形窗,但矩形窗的旁瓣抑制能力相當?shù)?,會帶來?重的能量泄漏;3、無交迭(0%交迭)將帶來塊效應(blocking effect)音頻失 真,即在幀邊界處由于量化誤差而產生的人耳可聞的滴答聲。
發(fā)明內容
本發(fā)明的目的是提供一種音頻編碼方法及其裝置,有效的抑制預回聲失真。
本發(fā)明還提供了一種與上述音頻編碼方法及其裝置對應的音頻解碼方法 及其裝置,有效的抑制預回聲失真。
本發(fā)明提供的音頻編碼方法的技術方案包括步驟 (A)將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點的音頻幀,每
幀包含M個采樣點;(B) 將相鄰輸入幀的采樣點相互交迭(L-M)/2個采樣點,構成交迭的音頻 幀,該交迭幀依次包含上一音頻幀末尾交迭的(L-M)/2個采樣點、該音頻幀的 M個采樣點、下一音頻幀開始交迭的(L-M)/2個釆樣點,形成的該交迭幀共L 個采樣點,其中L為M到2M之間的任意自然偶數(shù),同時將交迭程度參數(shù) (L-M)/2送到碼流傳輸;
(C) 對該交迭幀的L個采樣點進行時域前向跨幀濾波處理,得到L個濾 波采樣點;
(D) 將濾波后的L個采樣點,通過抽取得到該幀對應的M個濾波采樣點;
(E) 將M個濾波后的時域采樣點,通過非交迭的時間頻率變換得到M個 頻域樣點;
(F) 對該幀的M個頻域樣點,乘以對應的乘性符號l或-l,得到符號反 轉處理后的M個頻域樣點;
(G) 將處理后的M個頻域樣點經量化編碼后輸出至碼流。
上述驟(B)中相鄰輸入幀的采樣點的交迭程度參數(shù)(L-M)/2為0% 50% 之間的任意取值。
上述步驟(C)中對L個采樣點^進行前向跨幀濾波是通過如下公式實現(xiàn)
<formula>formula see original document page 10</formula> ,
其中P是前向跨幀濾波矩陣,通過如下公式實現(xiàn)
其中I是單位矩陣,B是蝶形運算系數(shù)組成的跨幀濾波矩陣,通過如下公 式實現(xiàn)<formula>formula see original document page 11</formula>B是正交矩陣,其中蝶形運算系數(shù)C, =cos[(2/-l);r/4M] ,= sin[(2/-1)W4M],'
其余部分為零。
上述步驟(D)中對濾波后的L個采樣點xj由取得到M個濾波采樣點是 通過如下公式實現(xiàn)
其中H是抽取矩陣,通過如下公式實現(xiàn)
<formula>formula see original document page 11</formula>其中I是單位矩陣。
上述步驟(E)中對抽取得到的M個時域濾波采樣點&進行時頻變換是 通過如下公式實現(xiàn)XM=《xM,其中Stv是標準的非交迭的DST-IV (第四型
離散正弦正變換)的時頻變換。
上述步驟(F)中對時頻變換后的M個頻域樣點」C進行符號反轉處理是 通過如下公式實現(xiàn)義M-A^JC,其中D是符號矩陣,并且D是正交矩陣,'
通過如下公式實現(xiàn)上述歩驟(A)和步驟(B)之間還可以包括步驟
(H)將輸入的并行采樣點的音頻幀的暫態(tài)強度^和預設的門限值T的
大小進行比較,并通過交迭判斷函數(shù)L二/(a),判斷交迭程度值R,計算交迭
幀包含的采樣點個數(shù)L。
上述步驟(H)中^是當前輸入幀相對上一輸入幀的暫態(tài)強度,通過如下 公式實現(xiàn)
U/^%,其中a指當前幀的總能量,其計算公式為
^ = ii0O2,其中x;'表示當前輸入幀的一個采樣點,£ 一指上一幀的總能量,'
其計算公式為a—,=i;'(x:-"2,其中x,"-'表示上一輸入幀的一個采樣點。
/=0
上述步驟(H)中預設的門限值T的取值集合是來自預設的集合K,;rj,
其中;<7;<7;,它們均可以是任意值。
上述步驟(H)中交迭程度值R為預設值,其取值集合是來自預設的集合 W,i 2,i 3,i 4},其中《<及2<^<&,它們的取值可以是0% 50%之間的任意值, 交迭程度值R的取值和暫態(tài)強度^和預設的門限值T的大小比較結果具有一 一對應的函數(shù)關系。
本發(fā)明提供的音頻編碼裝置的技術方案包括
分幀模塊,用以將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點的音 頻幀,每幀包含M個采樣點;
幀交迭模塊,用以將相鄰輸入幀的采樣點相互交迭(L-M)/2點,構成交迭 的音頻幀,該交迭幀依次包含上一音頻幀末尾交迭的(L-M)/2個采樣點、該音 頻幀的M個采樣點、下一音頻幀開始交迭的(L-M)/2個采樣點,形成的該交迭 幀共L個采樣點,其中L為M到2M之間的任意自然偶數(shù);
交迭參數(shù)傳輸模塊,用以將交迭程度參數(shù)(L-M)/2送到碼流傳輸;
前向跨幀濾波模塊,用以對該交迭幀的L個采樣點進行時域前向跨幀濾波 處理,得到L個濾波采樣點;抽取模塊,用以將濾波后的L個采樣點,通過抽取得到該幀對應的M個
濾波采樣點;
時頻變換模塊,用以將M個濾波后的時域采樣點,通過非交迭的時間頻 率變換得到M個頻域樣點;
符號反轉模塊,用以將該幀的M個頻域樣點,乘以對應的乘性符號1或-1,
得到符號反轉處理后的M個頻域樣點;
量化編碼模塊,用以將處理后的M個頻域樣點經量化編碼后輸出至碼流;
所述分幀模塊、幀交迭模塊、前向跨幀濾波模塊、抽取模塊、時頻變換模 塊、符號反轉模塊和量化編碼模塊依次串行聯(lián)結,交迭參數(shù)傳輸模塊一端串行 聯(lián)結在幀交迭模塊之后,另一端和編碼裝置的外部裝置聯(lián)結。
上述音頻編碼裝置中在分幀模塊和幀交迭模塊之間還可以串行聯(lián)結有判 斷模塊,用以將輸入幀的暫態(tài)強度^和門限T的大小進行比較,并通過交迭 判斷函數(shù)L二/(A),判斷交迭程度值R,計算交迭幀包含的采樣點個數(shù)L。
本發(fā)明提供的音頻解碼方法的技術方案包括步驟
(a) 從接收到的碼流中進行量化解碼得到該音頻幀的M個頻域樣點;
(b) 對該音頻幀量化解碼后的M個頻域樣點,乘以對應的乘性符號1或
-1,得到反向符號反轉處理后的M個頻域樣點;
(c) 將該音頻幀反向符號反轉處理后的M個頻域樣點,通過非交迭的頻 率時間變換得到該幀的M個時域采樣點;
(d) 從碼流中獲取交迭程度參數(shù)(L-M)/2,將相鄰幀的采樣點相互交迭 (L-M)/2點,構成共L個采樣點的交迭幀,該交迭幀依次包含上一幀末尾交迭 的(L-M)/2個采樣點、該幀的M個采樣點、下一幀開始交迭的(L-M)/2個采樣 點;
(e) 對該交迭幀的L個采樣點進行時域后向跨幀濾波處理,得到L個濾 波采樣點;
(f) 將該交迭幀濾波后的L個采樣點,通過抽取得到該音頻幀的M個采樣點;
(g)將包含M個采樣點的并行音頻幀,合成串行采樣點的音頻暫態(tài)信號。
上述解碼方法的步驟(b)中對M個頻域樣點X^進行反向符號反轉處理 通過如下公式實現(xiàn)
4=(AJ-'A,其中D是符號矩陣,并且是正交矩陣,(AJ-'為正交矩陣 D的逆矩陣。
上述解碼方法的歩驟(c)中對M個頻域樣點J^進行頻時變換通過如下 公式實現(xiàn)
& ,其中(S,1是標準的非交迭的IDST-IV (第四型離散正弦反
變換)的頻時變換。
上述解碼方法的步驟(e)中對L個采樣點x;進行后向跨幀濾波的公式為
x;,,其中B是跨幀濾波矩陣,并且是正交矩陣,B'1
為正交矩陣B的逆矩陣。
上述解碼方法的步驟(f)中對L個濾波采樣點x,一通過抽取得到M個采樣 點的公式為&=/^^,,其中H是抽取矩陣。
本發(fā)明提供的音頻編碼裝置的技術方案包括
量化解碼模塊,用以從碼流中進行量化解碼得到該音頻幀的M個頻域樣
點;
反向符號反轉模塊,用以將該音頻幀量化解碼后的M個頻域樣點,乘以 對應的乘性符號1或-1,得到反向符號反轉處理后的M個頻域樣點;
頻時變換模塊,用以將該音頻幀反向符號反轉處理后的M個頻域樣點, 通過非交迭的頻率時間變換得到該幀的M個時域采樣點;
交迭參數(shù)獲取模塊,用以將碼流中獲取將交迭程度參數(shù)(L-M)/2;幀交迭模塊,用以將相鄰幀的采樣點相互交迭(L-M)/2點,構成共L個采 樣點的交迭幀,該交迭幀依次包含上一幀末尾交迭的(L-M)/2個采樣點、該幀 的M個采樣點、下一幀開始交迭的(L-M)/2個采樣點;
后向跨幀濾波模塊,用以將該交迭幀的L個采樣點進fi^寸域后向跨幀濾波 處理,得到L個濾波采樣點;
抽取模塊,用以將該交迭幀濾波后的L個采樣點,通過抽取得到該音頻幀
的M個采樣點;
合幀模塊,用以將包含M個采樣點的并行音頻幀,合成串行采樣點的音 頻暫態(tài)信號;
所述量化解碼模塊、反向符號反轉模塊、頻時變換模塊、幀交迭模塊、后 向跨幀濾波模塊、抽取模塊和合幀模塊依次串行聯(lián)結,交迭參數(shù)獲取模塊一端 串行聯(lián)結在幀交迭模塊之前,另一端和解碼裝置的外部裝置聯(lián)結。
本發(fā)明的有益效果是1、可以任意的減小交迭區(qū)域的程度(從50%到0%), 從而減少量化誤差在交迭區(qū)域內的擴散,進而抑制預回聲失真;2、該交迭程 度是動態(tài)適應的,可以根據(jù)信號暫態(tài)的強弱而改變;3、減小交迭程度不會影 響編碼的完美重建性,即不會在量化噪聲之外產生新的編碼誤差。
附圖1是本發(fā)明的音頻編碼方法的一個較佳實施例的流程圖。 附圖2是本發(fā)明的音頻編碼方法的另一個較佳實施例的流程圖。
附圖3是本發(fā)明的音頻解碼方法的一個較佳實施例的流程圖。
附圖4是本發(fā)明的音頻編碼裝置的一個較佳實施例的原理框圖。
附圖5是本發(fā)明的音頻編碼裝置的另一個較佳實施例的原理框圖。
附圖6是本發(fā)明的音頻解碼裝置的一個較佳實施例的原理框圖。
具體實施方式
下面結合附圖和具體實施例對本發(fā)明的原理進行詳細說明。 本發(fā)明的音頻編碼方法的一個較佳實施例
下面結合圖1對音頻編碼方法的實施例1的流程中各步驟加以詳細描述 步驟Sl:將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點的音頻幀, 每幀包含M個采樣點,此時對應的每幀的長度為M。
步驟S2:將長度為M的音頻幀,相互交迭(L-M)/2個采樣點,L為M 到2M之間的任意自然偶數(shù)。形成的交迭幀包含L個采樣點,此時對應的每幀
的長度為L,依次包括:(《,2—"2,…O (Xo",...,x:—,) , (x。"+',...,;1—M/2_,),其中1
是上一幀,x"是當前幀,x""是下一幀。同時將交迭程度參數(shù)(L-M)/2送到碼流傳輸。
這里的交迭方式多種多樣,可以將所有相鄰幀交迭20%,也可以將所有相 鄰幀交迭30%,也可以將所有的相鄰幀根據(jù)暫態(tài)出現(xiàn)的強度交迭為0% 50% 之間任意值。
步驟S3:對長度為L的交迭幀^進行時域前向跨幀濾波處理,濾波公式 為&=&,^,其中的前向跨幀濾波矩陣P的定義如公式1:
<formula>formula see original document page 16</formula>
公式1
其中I是單位矩陣,B是蝶形運算系數(shù)組成的跨幀濾波矩陣,定義如公
式2:
<formula>formula see original document page 16</formula>
公式2,B是正交矩陣,其中蝶形運算系數(shù)C;=COS[(2/-l>r/4M], S, =sin[(2/-1);r/4M],其余部分為零。
這里的前向跨幀濾波矩陣P是一個與交迭參數(shù)(L-M)/2相關的矩陣,當前 幀兩端的(L-M)/2個采樣點和前一幀和下一幀的(L-M)/2個采樣點分別通過跨 幀濾波矩陣B,當前幀的中間2M-L個采樣點直接通過單位矩陣不做任何濾波。 比如極端情況交迭幀長度L為2M,則當前幀的前M/2個采樣點和上一幀的后 M/2個采樣點通過矩陣B,當前幀的后M/2個采樣點和下一幀的前個采樣 點通過矩陣B,當前幀無直通的采樣點。又比如極端情況交迭幀長度L為M, 則當前幀的M個樣點全部直接通過,無跨幀濾波的采樣點。
步驟S4:對濾波后的L個采樣點x;,抽取出M個采樣點,抽取的公式 為xM=//MxA,其中的抽取矩陣H的定義如公式3:
V—/》x平%—i)x平 Wi)x(2az—i) 0(2W—*平 %4乎 Oi—m..i-a/ Ol—m…^畫m 0i-a^x(2m—,) 7"(/._a/ 0〖一m…^一m
公式3:
其中I是單位矩陣。
這里的抽取方式是拋棄掉L個采樣點兩端的(L-M)/2的采樣點,直接保 留中間的M個采樣點。
步驟S5:對濾波后的M個采樣點&,進行傳統(tǒng)時頻變換的公式為
其中S^是標準的非交迭的DST-IV (第四型離散正弦正變換)。這 里的時頻變換是非交迭的變換,從M個時域采樣點得到M個頻域樣點。第四 型離散正弦變換有各種成熟的快速變換方式可供實施選擇。.
步驟S6:對M個頻域樣點《,,進行符號反轉處理的公式為XM ="MXM , 其中的符號矩陣D的定義如公式4:<formula>formula see original document page 18</formula>公式4,
D是正交矩陣,這些頻域樣點(K...,dJCJ被符號反轉為
<formula>formula see original document page 18</formula>
步驟S7:將處理后的頻域樣點(義。,1,,...,1^2,1^,)經量化編碼后輸出至碼流。
基于上述音頻編碼方法的一個較佳實施例,本發(fā)明提供了對應的音頻編碼 裝置的一個較佳實施例。
下面結合圖4對音頻編碼裝置的原理結構加以詳細描述 一種音頻編碼裝置,包括分幀模塊l、幀交迭模塊2、交迭參數(shù)傳輸模塊
3、前向跨幀濾波模塊4、抽取模塊5、時頻變換模塊6、符號反轉模塊7和量 化編碼模塊8。
分幀模塊1,用以將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點 的音頻幀,每幀包含M個采樣點。
幀交迭模塊2,用以將長度為M的音頻幀,相互交迭(L-M) /2個采樣 點,L為M到2M之間的任意自然偶數(shù)。形成的交迭幀包含L個采樣點,依次 包括(C…,0 , ■ ,《—,),(《1,…,《節(jié)—,),其中,是上一幀,x"是 當前幀,,是下一幀。這里的交迭方式多種多樣,可以將所有相鄰幀交迭20%, 也可以將所有相鄰幀交迭30%,也可以將所有的相鄰幀根據(jù)暫態(tài)出現(xiàn)的強度交 迭為0% 50%之間任意值。
交迭參數(shù)傳輸模塊3,用以將交迭程度參數(shù)(L-M)/2送到碼流傳輸。
前向跨幀濾波模塊4,用以將長度為L的交迭幀&進行時域前向跨幀濾波處理,濾波公式為<formula>formula see original document page 19</formula>其中前向跨幀濾波矩陣P的形式如前所述「 在此不再贅述。
抽取模塊5,用以將濾波后的L個采樣點&抽取出M個采樣點,抽取的 公式為xM=//MxA,其中抽取矩陣H的形式如前所述,在此不再贅述。
時頻變換模塊6,用以對濾波后的M個采樣點進行傳統(tǒng)的時頻變換,
變換的公式為^=《xM,其中S^是標準的非交迭的DST-IV (第四型離散
正弦正變換)。
符號反轉模塊7,用以將M個頻域樣點XM進行符號反轉處理,處理的公 式為XM=DMXM,其中符號矩陣D的形式如如前所述,在此不再贅述。
量化編碼模塊8,用以將處理后的頻域樣點(X。,《,…,義M—2,X^,)經量化編
碼后輸出至碼流。
所述分幀模塊l、幀交迭模塊2、前向跨幀濾波模塊4、抽取模塊5、時頻 變換模塊6、符號反轉模塊7和量化編碼模塊8依次串行聯(lián)結,交迭參數(shù)傳輸 模塊3—端串行聯(lián)結在幀交迭模塊2之后,另一端和編碼裝置的外部裝置聯(lián)結。
本發(fā)明的音頻編碼方法的另一個較佳實施例
如圖2所示,該方案在前述音頻編碼方法的實施例的基礎上改進,步驟 Sll、 S13、 S14、 S15、 S16、 S17和S18分別與前述實施例的步驟S1、 S2、 S3、 S4、 S5、 S6、 S7相同,在此不再詳細復述,本實施例與前述實施例的不同之 處在于,本實施例增加了一個步驟
步驟S12:對長度為M的音頻幀,計算該輸入幀的暫態(tài)強度&,比較^和 門限值T的相對大小,通過交迭判斷函數(shù)丄=/(&),判斷交迭程度值R,計算 確定交迭幀長度L。
這里的音頻幀的暫態(tài)強度^是一個與當前輸入幀和上一輸入幀能量有關的變量,其計算公式為£ —,|/£ )%,其中幀能量£ =^"")2 ,
五 —'=foC')2, x,"和x,"-'的定義如前所述。當^<7;時,判斷當前幀暫態(tài)信號強
,=0
度很弱,當7^^<72時,判斷當前幀暫態(tài)信號強度較弱,當7^^^<73時,判 斷當前幀暫態(tài)信號強度較強,當^27;時,判斷當前幀暫態(tài)信號強度很強。
這里的交迭判斷函數(shù)丄=/(^)是一個與暫態(tài)強度&、門限t、交迭程度 值r都有關的函數(shù),函數(shù)值l為交迭幀的采樣點個數(shù),其中自變量^為當前 幀的暫態(tài)強度,交迭程度值r和暫態(tài)強度&和預設的門限值t的大小比較結 果具有一一對應的分段函數(shù)關系,交迭采樣點l的取值和交迭程度值r具有 線性函數(shù)的關系丄-LM/d-^」。暫態(tài)信號強度越強,判斷的交迭程度就越?。? 暫態(tài)信號強度越弱,判斷的交迭程度就越大。具體的函數(shù)形式如下表1所示,, 當^〈j;時,判斷交迭程度值r是40。/。,計算函數(shù)值"L10M/6」,當7^^<72 時,判斷交迭程度值r是30。/。,計算函數(shù)值"LlOM/7」,當7^A〈7;時,判 斷交迭程度值r是20。/。,計算函數(shù)值"LlOM/8」,當^27;時,判斷交迭程度
值11是10%,計算函數(shù)值£410^/9」,其中L」為向下取整操作。
表1
暫態(tài)強度A、門限t 交迭程度值r函數(shù)值l
&《40% (暫態(tài)很弱)Z = |_10M/6」
30% (暫態(tài)較弱)
20% (暫態(tài)較強)Z = 「10M/8」
10% (暫態(tài)很強)丄=[_窗/9」
這里的門限t的取值是預設的,其取值的集合是來自預設的集合{《,r2,r3}, 其中7;<72<7;,它們均可以是任意值。這里的交迭程度值R的取值是預設的,其取值的集合是多種多樣,可以來 自預設的固定值集合{10%,20%,30%,40%},也可以來自預設的任意值集合
{《,及2,7 3^4},其中《<及2</ 3<&,它們均是0% 50%之間的任意值。在本發(fā)明
中,交迭程度值R和交迭程度參數(shù)(L-M)/2是兩個既有聯(lián)系又不相同的兩個物
理量,交迭程度值R為Cm 50。/。之間的任意值,表征的是幀與幀之間的相互交
迭程度,它不依賴于具體的編碼器實現(xiàn);交迭程度參數(shù)(L-M)/2為0 M/2之間
的任意自然數(shù),表征的是幀與幀之間相互交迭的采樣點數(shù),它依賴于具體的編
碼實現(xiàn)內容,具體的說,它依賴于編碼器時域分幀時一幀所包含的采樣點數(shù)M,
該點數(shù)在不同編碼器實現(xiàn)中可以是各不相同的。
基于上述音頻編碼方法的另一個較佳實施例,本發(fā)明提供了對應的音頻編
碼裝置的另一個較佳實施例。
下面結合圖5對音頻編碼裝置原理結構加以詳細描述,該方案在前述音頻 編碼裝置的實施例的基礎上改進,包括了分幀模塊11、判斷模塊12、幀交迭 模塊13、交迭參數(shù)傳輸模塊14、前向跨幀濾波模塊15、抽取模塊16、時頻變 換模塊17、符號反轉模塊18和量化編碼模塊19,其中分幀模塊11、幀交迭模 塊13、交迭參數(shù)傳輸模塊14、前向跨幀濾波模塊15、抽取模塊16、時頻變換 模塊17、符號反轉模塊18和量化編碼模塊19分別對應于前述實施例的分幀模 塊l、幀交迭模塊2、交迭參數(shù)傳輸模塊3、前向跨幀濾波模塊4、抽取模塊5、 時頻變換模塊6、符號反轉模塊7和量化編碼模塊8,兩個實施例的前述對應 的模塊的結構和原理相同,不再復述;兩個實施例的不同之處在于本實施例的 分幀模塊11和幀交迭模塊13之間還串行聯(lián)結有判斷模塊12,用以將輸入幀的 暫態(tài)強度&和門限T的大小進行比較,并通過交迭判斷函數(shù)L二/(A),判斷 交迭程度值R,計算交迭幀包含的采樣點個數(shù)L。
判斷模塊12對長度為M的音頻幀,根據(jù)門限T、交迭程度值R、暫態(tài)強
度A、交迭判斷函數(shù)/(&),計算交迭幀長度L。門限T的取值是預先設定其預設的取值集合的形式如前所述,在此不再贅述。交迭程度值R的取值是預 先設定的,其預設的取值集合的形式如前所述,在此不再贅述。暫態(tài)強度^的 值是動態(tài)的,對每一輸入幀進行計算而得的,其計算的形式如前所述,在此不 再贅述。交迭判斷函數(shù)丄=/(^)是一個與暫態(tài)強度^有關的函數(shù),在不同的^ 有不同的函數(shù)值L,函數(shù)的具體形式請見前述音頻編碼方法的另一實施例中的 表l。
本發(fā)明的音頻解碼方法,可以對應于前述兩種音頻解碼方法的實施例。'
下面結合圖3對解碼方法的一個較佳實施例的流程步驟加以詳細的描述。
步驟S21:從接收到的碼流中進行量化解碼得到該音頻幀的M個頻域樣
點(X。,^,…,J^2,X^)。
步驟S22:對M個頻域樣點J^,進行反向符號反轉處理的公式為
1m,其中符號矩陣D的定義如公式4所示,其中D"為正交矩陣D
的逆矩陣。這里的反向符號矩陣d-1=/y =d ,這些頻域樣點
(JT。,X,,…,Xm—2,IM—,)被反向符號反轉為(-X。,X,,…,-J^2,XM—J。
步驟S23:對反向符號反轉處理后的M個樣點X^,進行頻時變換的公
式為xM=(《)-'XM,其中(S,"是標準的非交迭的IDST-IV (第四型離散正弦
反變換)的頻時變換。
步驟S24:從碼流中獲取交迭程度參數(shù)(L-M)/2。將長度為M的相鄰幀, 相互交迭(L-M) /2個采樣點。形成的交迭幀包含L個采樣點,依次包括
(乂3AY/2-L/2,…,Xm—1) , (X0 ,…,Xa/—1) , (X0,…,、/2省/2—1),其中義 疋上 頓,義疋S目U
幀,x"+'是下一幀。
步驟S25:對長度為L的交迭幀&進行時域后向跨幀濾波處理,濾波公式為:
x,,其中的跨幀濾波矩陣B的定義如公式2,
a:
其中B—1為正交矩陣B的逆矩陣。這里的跨幀濾波逆矩陣f' =^ ,當前幀兩端 的(L-M)/2個采樣點和上一幀和下一幀的(L-M)/2個采樣點分別通過跨幀濾波 逆矩陣BT,當前幀的中間2M-L個采樣點直接通過單位矩陣不做任何濾波。
步驟S26:對濾波后的L個采樣點&,抽取出M個采樣點,抽取的公式 為xM=i^xixA,其中抽取矩陣H的定義如公式3所示。這里的抽取方式是, 拋棄掉L個采樣點兩端的(L-M)/2的采樣點,直接保留中間的M個采樣點。
步驟S27:對包含M個采樣點的并行音頻幀,進行標準的時域信號并串 處理,合成為串行采樣點的音頻暫態(tài)信號。
基于上述音頻解碼方法的一個較佳實施例,本發(fā)明提供了對應的音頻解碼 裝置的一個較佳實施例。 '
下面結合圖6對本實施例所述的音頻解碼裝置原理結構加以詳細描述, 本音頻解碼裝置包括量化解碼模塊21、反向符號反轉模塊22、頻時變換模 塊23、交迭參數(shù)獲取模塊24、幀交迭模塊25、后向跨幀濾波模塊26、抽取模 塊27和合幀模塊28。
量化解碼模塊21 ,用以從接收到的碼流中經量化解碼得到該幀處理后的 M個頻域樣點(Z。,X,,…,X^,^一)。
反向符號反轉模塊22,用以對M個頻域樣點J^,進行反向符號反轉處 理的公式為ZM=(IV)-'A,其中反向符號矩陣D"的定義如前所述,在此不 再贅述。
頻時變換模塊23,用以對反向符號反轉處理后的M個樣點ZM,進行頻 時變換的公式為x^(()-';C,其中(S,"是標準的非交迭的IDST-IV (第四
23型離散正弦反變換)的頻時變換。
交迭參數(shù)獲取模塊24,用以從碼流中獲取交迭程度參數(shù)(L-M)/2。 幀交迭模塊25,用以將長度為M的相鄰幀,相互交迭(L-M) /2個采樣 點。形成的交迭幀包含L個采樣點,依次包括(x3"M'/2—,,/2,(x。",…,x:,),■ (x。"+',…,x;:;t冊—,),其中x"-'是上一幀,x"是當前幀,x""是下一幀。
后向跨幀濾波模塊26,用以對長度為L的交迭幀x,進行時域后向跨幀濾
波處理,濾波公式為xi =
5二m
x;,其中跨幀濾波逆矩陣B—
的定義如前所述,在此不再贅述。
抽取模塊27,用以對濾波后的L個采樣點x,.,抽取出M個采樣點,抽 取的公式為xM=i/Wx,A,其中抽取矩陣H的定義如前所述,在此不再贅述。'
合幀模塊28,用以對包含M個采樣點的并行音頻幀,進行標準的時域信 號并串處理,合成為串行采樣點的音頻暫態(tài)信號。
上述量化解碼模塊21、反向符號反轉模塊22、頻時變換模塊23、幀交 迭模塊25、后向跨幀濾波模塊26、抽取模塊27和合幀模塊28依次串行聯(lián)結, 交迭參數(shù)獲取模塊24 —端串行聯(lián)結在幀交迭模塊之前,另一端和解碼裝置的 外部裝置聯(lián)結。
上述的實施例和實施例中所給出的系數(shù)和參數(shù),是提供給本領域的技術人 員來實現(xiàn)或使用本發(fā)明的,本發(fā)明并不限定僅取前述公開的數(shù)值,在不脫離本 發(fā)明的發(fā)明思想的情況下,本領域的技術人員可以對上述實施例作出種種修改 或調整,因而本發(fā)明的保護范圍并不被上述實施例所限,而應該是符合權利要 求書提到的創(chuàng)新性特征的最大范圍。
2權利要求
1.一種音頻編碼方法,其特征在于,包括步驟(A)將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點的音頻幀,每幀包含M個采樣點;(B)將相鄰輸入幀的采樣點相互交迭(L-M)/2個采樣點,構成交迭的音頻幀,該交迭幀依次包含上一音頻幀末尾交迭的(L-M)/2個采樣點、該音頻幀的M個采樣點、下一音頻幀開始交迭的(L-M)/2個采樣點,形成的該交迭幀共L個采樣點,其中L為M到2M之間的任意自然偶數(shù),同時將交迭程度參數(shù)(L-M)/2送到碼流傳輸;(C)對該交迭幀的L個采樣點進行時域前向跨幀濾波處理,得到L個濾波采樣點;(D)將濾波后的L個采樣點,通過抽取得到該幀對應的M個濾波采樣點;(E)將M個濾波后的時域采樣點,通過非交迭的時間頻率變換得到M個頻域樣點;(F)對該幀的M個頻域樣點,乘以對應的乘性符號1或-1,得到符號反轉處理后的M個頻域樣點;(G)將處理后的M個頻域樣點經量化編碼后輸出至碼流。
2. 根據(jù)權利要求1所述的一種音頻編碼方法,其特征在于,步驟(B)中 相鄰輸入幀的采樣點的交迭程度參數(shù)(L-M)/2為0% 50%之間的任意取值。
3. 根據(jù)權利要求1所述的一種音頻編碼方法,其特征在于,步驟(C)中 對L個采樣點^進行前向跨幀濾波是通過如下公式實現(xiàn)^ = &/A,其中P是前向跨幀濾波矩陣,通過如下公式實現(xiàn)-.其中I是單位矩陣,其中B是蝶形運算系數(shù)組成的跨幀濾波矩陣,通過 如下公式實現(xiàn)<formula>formula see original document page 3</formula>B是正交矩陣,其中蝶形運算系數(shù)C, =cos[(2!'-l);r/4M], S,=sin[(2/-l>r/4M],其余部分為零。
4.根據(jù)權利要求3所述的一種音頻編碼方法,其特征在于,步驟(D) 中對濾波后的L個采樣點x,抽取得到M個濾波采樣點是通過如下公式實現(xiàn) &=^XA,其中H是抽取矩陣,通過如下公式實現(xiàn)<formula>formula see original document page 3</formula>
5.根據(jù)權利要求4所述的一種音頻編碼方法,其特征在于,步驟(E) 中對抽取得到的M個時域濾波采樣點&進行時頻變換是通過如下公式實現(xiàn)=《、m ,其中S^是標準的非交迭的DST-IV (第四型離散正弦正變換) 的時頻變換。
6.根據(jù)權利要求5所述的一種音頻編碼方法,其特征在于,步驟(F)中 對時頻變換后的M個頻域樣點」^進行符號反轉處理是通過如下公式實現(xiàn)^M="WIM,其中D是符號矩陣,并且D是正交矩陣,通過如下公式實現(xiàn):
7. 根據(jù)權利要求1至6任一項所述的一種音頻編碼方法,其特征在于, 在步驟(A)和步驟(B)之間還可以包括歩驟(H)將輸入的并行采樣點的音頻幀的暫態(tài)強度^和預設的門限值T的大小進行比較,并通過交迭判斷函數(shù)L二/(A),判斷交迭程度值R,計算交迭 幀包含的采樣點個數(shù)L。
8. 根據(jù)權利要求7所述的一種音頻編碼方法,其特征在于,^是當前輸 入幀相對上一輸入幀的暫態(tài)強度,通過如下公式實現(xiàn)-<formula>formula see original document page 4</formula>其中&指當前幀的總能量,其計算公式為£ =^0O2,其中《表示當前,=0輸入幀的一個采樣點,£ _,指上一幀的總能量,其計算公式為A-^f!""-1)2,,=0其中c表示上一輸入幀的一個采樣點。
9. 根據(jù)權利要求7所述的一種音頻編碼方法,其特征在于,預設的門限 值T的取值集合是來自預設的集合^,7i,7a,其中《<7;<7;,它們均可以是任意值。
10. 根據(jù)權利要求7所述的一種音頻編碼方法,其特征在于,交迭程度值 R為預設值,其取值集合是來自預設的集合^,及2,^,/ 4},其中《<及2<; 3<^, 它們的取值可以是0% 50%之間的任意值,交迭程度值R與暫態(tài)強度^和預 設的門限值T的大小比較結果具有一一對應的分段函數(shù)關系,交迭采樣點L 的取值和交迭程度值R具有線性函數(shù)的關系i^LM/(l-iO」。
11. 一種音頻編碼裝置,其特征在于,包括分幀模塊,用以將輸入的串行采樣點的音頻暫態(tài)信號分成并行采樣點的音頻幀,每幀包含M個采樣點;幀交迭模塊,用以將相鄰輸入幀的采樣點相互交迭(L-M)/2點,構成交迭的音頻幀,該交迭幀依次包含上一音頻幀末尾交迭的(L-M)/2個采樣點、該音 頻幀的M個采樣點、下一音頻幀開始交迭的(L-M)/2個采樣點,形成的該交迭 幀共L個采樣點,其中L為M到2M之間的任意自然偶數(shù);交迭參數(shù)傳輸模塊,用以將交迭程度參數(shù)(L-M)/2送到碼流傳輸; 前向跨幀濾波模塊,用以對該交迭幀的L個采樣點進行時域前向跨幀濾波 處理,得到L個濾波采樣點;抽取模塊,用以將濾波后的L個采樣點,通過抽取得到該幀對應的M個 濾波采樣點;時頻變換模塊,用以將M個濾波后的時域采樣點,通過非交迭的時間頻率變換得到M個頻域樣點;符號反轉模塊,用以將該幀的M個頻域樣點,乘以對應的乘性符號1或-1, 得到符號反轉處理后的M個頻域樣點;量化編碼模塊,用以將處理后的M個頻域樣點經量化編碼后輸出至碼流;所述分幀模塊、幀交迭模塊、前向跨幀濾波模塊、抽取模塊、時頻變換模 塊、符號反轉模塊和量化編碼模塊依次串行聯(lián)結,交迭參數(shù)傳輸模塊一端串行 聯(lián)結在幀交迭模塊之后,另一端和編碼裝置的外部裝置聯(lián)結。
12. 根據(jù)權利要求11所述的一種音頻編碼裝置,其特征在于,在裝置分幀模塊和幀交迭模塊之間還可以串行聯(lián)結有判斷模塊,用以將輸入幀的暫態(tài)強度&和門限T的大小進行比較,并通過交迭判斷函數(shù)L二/(A),判斷交迭程 度值R,計算交迭幀包含的采樣點個數(shù)L。
13. —種音頻解碼方法,其特征在于,包括步驟(a) 從接收到的碼流中進行量化解碼得到該音頻幀的M個頻域樣點;(b) 對該音頻幀量化解碼后的M個頻域樣點,乘以對應的乘性符號l或-1,得到反向符號反轉處理后的M個頻域樣點;(c) 將該音頻幀反向符號反轉處理后的M個頻域樣點,通過非交迭的頻率時間變換得到該幀的M個時域采樣點;(d) 從碼流中獲取交迭程度參數(shù)(L-M)/2,將相鄰幀的采樣點相互交迭(L-M)/2點,構成共L個采樣點的交迭幀,該交迭幀依次包含上一幀末尾交迭 的(L-M)/2個采樣點、該幀的M個采樣點、下一幀開始交迭的(L-M)/2個采樣 點;(e) 對該交迭幀的L個采樣點進行時域后向跨幀濾波處理,得到L個濾 波采樣點;(f) 將該交迭幀濾波后的L個采樣點,通過抽取得到該音頻幀的M個采樣點;(g) 將包含M個采樣點的并行音頻幀,合成串行采樣點的音頻暫態(tài)信號。
14. 根據(jù)權利要求13所述的一種音頻解碼方法,其特征在于,步驟(b) 中對M個頻域祥點Xm進行反向符號反轉處理通過如下公式實現(xiàn).JC=(Z)M)-'XM,其中D是符號矩陣,并且是正交矩陣,(DM)-'為正交矩陣 D的逆矩陣。
15. 根據(jù)權利要求14所述的一種音頻解碼方法,其特征在于,步驟(c) 中對M個頻域樣點X^進行頻時變換通過如下公式實現(xiàn)& =(《)—,其中(S,1是標準的非交迭的IDST-IV (第四型離散正弦反 變換)的頻時變換。
16. 根據(jù)權利要求15所述的一種音頻解碼方法,其特征在于,步驟(e)中對L個采樣點x二進行后向跨幀濾波的公式為x,=Km其中B是跨幀濾波矩陣,并且是正交矩陣,B"為正交矩陣B的逆矩陣。
17.根據(jù)權利要求16所述的一種音頻解碼方法,其特征在于,步驟(f) 中對L個濾波采樣點&通過抽取得到M個采樣點的公式為;cM=//Mxi&,其中H是抽取矩陣。
18. —種音頻解碼裝置,其特征在于,包括量化解碼模塊,用以從碼流中進行量化解碼得到該音頻幀的M個頻域樣點;反向符號反轉模塊,用以將該音頻幀量化解碼后的M個頻域樣點,乘以對應的乘性符號1或-1,得到反向符號反轉處理后的M個頻域樣點;頻時變換模塊,用以將該音頻幀反向符號反轉處理后的M個頻域樣點,通過非交迭的頻率時間變換得到該幀的M個時域采樣點;交迭參數(shù)獲取模塊,用以將碼流中獲取將交迭程度參數(shù)(L-My2;幀交迭模塊,用以將相鄰幀的采樣點相互交迭(L-M)/2點,構成共L個采 樣點的交迭幀,該交迭幀依次包含上一幀末尾交迭的(L-M)/2個采樣點、該幀 的M個采樣點、下一幀開始交迭的(L-M)/2個采樣點;后向跨幀濾波模塊,用以將該交迭幀的L個采樣點進行時域后向跨幀濾 波處理,得到L個濾波采樣點;抽取模塊,用以將該交迭幀濾波后的L個采樣點,通過抽取得到該音頻幀的M個采樣點;合幀模塊,用以將包含M個采樣點的并行音頻幀,合成串行采樣點的音 頻暫態(tài)信號; .所述量化解碼模塊、反向符號反轉模塊、頻時變換模塊、.幀交迭模塊、 后向跨幀濾波模塊、抽取模塊和合幀模塊依次串行聯(lián)結,交迭參數(shù)獲取模塊一 端串行聯(lián)結在幀交迭模塊之前,另一端和解碼裝置的外部裝置聯(lián)結。
全文摘要
本發(fā)明涉及一種可以抑制音頻信號預回聲的編碼解碼方法及其裝置。本發(fā)明的技術方案可以任意的減小音頻幀在交迭區(qū)域的程度(從50%到0%),從而減少量化誤差在交迭區(qū)域內的擴散,進而抑制預回聲失真;而且該交迭程度是動態(tài)適應的,可以根據(jù)信號暫態(tài)的強弱而改變;最后減小交迭程度不會影響編碼的完美重建性,即不會在量化噪聲之外產生新的編碼誤差。
文檔編號G10L19/02GK101527139SQ200910058339
公開日2009年9月9日 申請日期2009年2月16日 優(yōu)先權日2009年2月16日
發(fā)明者司國鵬, 阮思恩 申請人:成都九洲電子信息系統(tǒng)有限責任公司