本發(fā)明涉及一種音頻暫穩(wěn)態(tài)判決方法。特別是涉及一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法。
背景技術(shù):
現(xiàn)有的大部分音頻編碼標準都是基于心理聲學模型,利用人耳的掩蔽效應,對原始音頻信號進行壓縮編碼,即所謂的音頻感知編碼。如世界范圍內(nèi)廣泛使用的ac-3、aac、mpeg-2以及擁有我國自主知識產(chǎn)權(quán)的avs和dra。在目前主流的音頻編碼標準中,一般采用窗函數(shù)的方法對信號進行處理,通過窗函數(shù)將信號分成一個一個的數(shù)據(jù)塊,然后對每個數(shù)據(jù)塊單獨進行處理,通過量化、熵編碼,形成最終的輸出比特流。
在基于分塊的音頻編碼技術(shù)中,預回聲一直是很難解決的問題。預回聲產(chǎn)生的根本原因在于音頻信號中存在的暫態(tài)信息,當它從時域變換到頻域后,會存在大量的高頻分量,在輸出碼率一定的情況下,必然會產(chǎn)生量化噪聲,量化噪聲經(jīng)反變換到時域后會擴散,由于聲音的前向掩蔽的作用時間非常短,將有部分噪聲不能被掩蔽掉,往往造成在低能量采樣段出現(xiàn)人耳能明顯感知的噪聲,從而嚴重影響信號的音質(zhì)。
隨著生活水平逐漸提高,人們對于數(shù)字音視頻的要求也在不斷的提高,而在預回聲的產(chǎn)生在解碼時表現(xiàn)為在人耳可識別的嚓嚓聲,嚴重影響整個信號的音質(zhì),這與人們對聲音質(zhì)量不斷提高的需求是完全相反的,因而難以被接受。另一方面,新的音頻標準對于音頻信號細節(jié)的描述也更加明顯,這就要求更加精確的算法來區(qū)分信號的暫穩(wěn)態(tài)。研究能夠準確區(qū)分暫態(tài)、穩(wěn)態(tài)信號,并且能夠準確確定暫態(tài)位置與強度的算法,對于整個音頻信號的編碼過程具有十分重要的意義。
解決預回聲的方法之一就是自適應窗切換技術(shù),也就是在編碼前對音頻信號進行判決,對于不同類型的信號采用不同的窗函數(shù)。對于自適應窗切換技術(shù),能夠準確地檢測瞬態(tài)信號是前提。所以能夠準確區(qū)分暫態(tài)、穩(wěn)態(tài)信號,并且能夠準確確定暫態(tài)位置與強度的方法是十分有意義的。
在mpeg中采用了基于感知熵的瞬態(tài)信號檢測方法,該方法的原理如下:如果信號是暫態(tài)的,變換后的頻譜中就會包含有大量的高頻分量。高頻分量會導致信號的感知熵值增大。當感知熵的值大于一個閾值(mpeg系列中參考值為1800)時,就可以判定當前幀中包含了暫態(tài)分量,屬于瞬態(tài)幀。
avs編碼標準采用了基于時域能量和頻域不可預測度的暫穩(wěn)態(tài)檢測算法對音頻信號進行瞬態(tài)特性檢測。該算法采用了時域能量和頻域不可預測性作為判決指標。
目前的暫穩(wěn)態(tài)判決方法都存在著不足之處:基于感知熵的瞬態(tài)信號檢測結(jié)果中會存在較多的冗余判決;其次,它的算法復雜,編碼效率低;基于時域能量和頻域不可預測度的暫穩(wěn)態(tài)判決方法存在著較高能量的前一幀信號會影響下一幀信號的準確檢測的問題,造成誤檢。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是,提供一種可以避免檢測能量較低的信號,提高檢測準確率的基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法。
本發(fā)明所采用的技術(shù)方案是:一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法,包括如下步驟:
1)對原始音頻信號以1024個采樣點為單位進行分幀;
2)對每幀信號分別計算均值和方差,并與已設定的方差閾值進行比較,方差小于等于所述方差閾值的信號幀,則設定所述信號幀的判決標志為1,輸出穩(wěn)態(tài)幀標志,否則進入下一步驟;
3)對方差大于所述方差閾值的信號幀,采用峰值檢測算法進行判定;
4)對峰值檢測算法的判定結(jié)果進行判決,如果判決標志為1,則輸出穩(wěn)態(tài)幀標志,如果判決標志為0,則輸出暫態(tài)幀標志。
2.根據(jù)權(quán)利要求1所述的一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法,其特征在于,步驟3)包括:
(1)對每一幀信號的1024個采樣點,按照長度為256個采樣點進行第一級塊分割,得到4個數(shù)據(jù)塊;
(2)分別計算每個數(shù)據(jù)塊的最大峰值,并與已設定的安靜閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值都小于等于所述安靜閾值,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則進入下一步驟;
(3)對同一幀信號按照長度為128個采樣點進行第二級塊分割,得到8個數(shù)據(jù)塊;
(4)分別計算8個數(shù)據(jù)塊之間的最大峰值變化率,并與已設定的最大峰值變化率第一閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值變化率都小于等于所述最大峰值變化率第一閾值,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則進入下一步驟;
(5)對同一幀信號按照長度為64個采樣點進行第三級塊分割,得到16個數(shù)據(jù)塊;
(6)分別計算16個數(shù)據(jù)塊之間的最大峰值變化率,并與已設定的最大峰值變化率第二閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值變化率都小于等于所述最大峰值變化率第二閾值的數(shù)據(jù)塊,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為0。
本發(fā)明的一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法,利用信號的方差和時域峰值來對音頻的暫穩(wěn)態(tài)進行判決,得到的暫穩(wěn)態(tài)信號用于進行自適應窗切換,對暫穩(wěn)態(tài)的判決復雜度低且準確率高。在時間復雜度上更簡單,并且可以避免檢測能量較低的信號,提高了檢測的準確率。
附圖說明
圖1是本發(fā)明基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法流程圖;
圖2是本發(fā)明中峰值檢測算法流程圖;
圖3是暫穩(wěn)態(tài)判決方法的效果圖。
具體實施方式
下面結(jié)合實施例和附圖對本發(fā)明的一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法做出詳細說明。
如圖1所示,本發(fā)明的一種基于方差和時域峰值的多級音頻暫穩(wěn)態(tài)判決方法,包括如下步驟:
1)對原始音頻信號以1024個采樣點為單位進行分幀;
2)對每幀信號分別計算均值和方差,并與已設定的方差閾值進行比較,方差小于等于所述方差閾值的信號幀,則設定所述信號幀的判決標志為1,否則進入下一步驟;
3)對方差大于所述方差閾值的信號幀,采用峰值檢測算法進行判定;包括:
(1)對每一幀信號的1024個采樣點,按照長度為256個采樣點進行第一級塊分割,得到4個數(shù)據(jù)塊;
(2)分別計算每個數(shù)據(jù)塊的最大峰值,并與已設定的安靜閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值都小于等于所述安靜閾值,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則進入下一步驟;
(3)對最大峰值大于所述安靜閾值的每一個數(shù)據(jù)塊按照長度為128個采樣點進行第二級塊分割,得到2個數(shù)據(jù)塊;
(4)分別計算8個數(shù)據(jù)塊之間的最大峰值變化率,并與已設定的最大峰值變化率第一閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值變化率都小于等于所述最大峰值變化率第一閾值,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則進入下一步驟;
(5)對同一幀信號按照長度為64個采樣點進行第三級塊分割,得到16個數(shù)據(jù)塊;
(6)分別計算16個數(shù)據(jù)塊之間的最大峰值變化率,并與已設定的最大峰值變化率第二閾值進行比較,如果所有數(shù)據(jù)塊的最大峰值變化率都小于等于所述最大峰值變化率第二閾值的數(shù)據(jù)塊,則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為1,否則設定所述數(shù)據(jù)塊對應的信號幀的判決標志為0。
4)對峰值檢測算法的判定結(jié)果進行判決,如果判決標志為1,則輸出穩(wěn)態(tài)幀標志,如果判決標志為0,則輸出暫態(tài)幀標志。