聲音信號(hào)分類方法和裝置的制作方法

文檔序號(hào)：2829742閱讀：563來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音信號(hào)分類方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音編碼技術(shù)領(lǐng)域，特別涉及一種聲音信號(hào)分類方法和一種聲音信號(hào)分類裝置。
背景技術(shù)：
在語音通信中只有大約40%的信號(hào)是包含語音的，其它時(shí)間都是靜音或背景噪聲，為了節(jié)省傳輸帶寬，在語音信號(hào)處理領(lǐng)域進(jìn)行語音編碼中，采用語音活動(dòng)檢測(cè)(VAD， Voice Activity Detection)技術(shù)，使得編碼器可以對(duì)背景噪聲和活動(dòng)的語音采用不同的速率進(jìn)行編碼，即對(duì)背景噪聲用較低的速率進(jìn)行編碼，對(duì)活動(dòng)的語音用較高的速率進(jìn)行編碼，從而降低了平均碼率，極大的促進(jìn)了變速率語音編碼技術(shù)的發(fā)展。
現(xiàn)有的信號(hào)檢測(cè)器(VAD)均針對(duì)語音信號(hào)而開發(fā)，只將輸入的音頻信號(hào)分為兩種噪聲和非噪聲。較新的編碼器如AMR—WB+和SMV，包含音樂信號(hào)的檢測(cè)，作為VAD判決以外的一個(gè)修正和補(bǔ)充。AMR-WB+編碼器的重要特征是在VAD檢測(cè)之后，根據(jù)輸入音頻信號(hào)是語音還是音樂，用不同的模式進(jìn)行編碼，以在最大程度上減小碼率，保證編碼質(zhì)量。
AMR-WB+中的兩種不同編碼模式包括基于代數(shù)碼本激勵(lì)線性預(yù)測(cè)語音編碼器ACELP(Algebraic Code Excited Linear Prediction )和變換激勵(lì)編碼TCX ( Transform coded excitation )模式兩種核心編碼算法。ACELP屬于通過建立語音發(fā)聲模型，充分利用了語音的特點(diǎn)，對(duì)于語音信號(hào)的編碼效率很高，加之其技術(shù)已經(jīng)相當(dāng)成熟，故可以通過在通用音頻編碼器上擴(kuò)展使用前者使其語音編碼質(zhì)量得到很大提高。類似地，通過在低比特率的語音編碼器上擴(kuò)展使用TCX編碼使其寬帶音樂的編碼質(zhì)量得到提高。AMR-WB+編碼算法的ACELP和TCX才莫式選擇算法根據(jù)復(fù)雜度有兩
種開環(huán)選擇算法和閉環(huán)選擇算法。閉環(huán)選擇對(duì)應(yīng)高復(fù)雜度，為缺省選項(xiàng)，
是一種基于感知加權(quán)信噪比的遍歷搜索的選擇方式，顯然，這樣的選擇方法是很準(zhǔn)確的，但它運(yùn)算復(fù)雜度非常高,代碼量也較大。
開環(huán)選擇包括如下步驟
首先在步驟101，由VAD模塊根據(jù)聲調(diào)標(biāo)識(shí)(Tone—flag)和子帶能量參數(shù)(Level[n])，確定信號(hào)是非有用信號(hào)還是有用信號(hào)。然后在步驟102,進(jìn)行初步模式選擇(EC);
在步驟103，對(duì)步驟102初步確定的模式進(jìn)行修正和細(xì)化模式選擇 (ESC)，以確定選擇的編碼模式，具體基于開環(huán)基音參數(shù)和ISF參數(shù)進(jìn)行。
在步驟104、進(jìn)行TCXS處理，即當(dāng)連續(xù)選擇語音信號(hào)編碼模式的次數(shù) 小于三次時(shí)，進(jìn)行小規(guī)模的閉環(huán)遍歷搜索，最終確定編碼模式，其中語音信號(hào)編碼模式為ACELP，音樂信號(hào)編碼模式為TCX。
在上述AMR-WB+的語音信號(hào)選擇算法具有如下缺點(diǎn)
1、現(xiàn)有的VAD模塊在對(duì)信號(hào)進(jìn)行分類時(shí)，對(duì)噪聲和一些種類的音樂信號(hào)區(qū)分不夠理想，降低了聲音信號(hào)分類的準(zhǔn)確性；
2、計(jì)算開環(huán)基音參數(shù)，對(duì)于ACELP編碼模式是必要的運(yùn)算，然而對(duì)于 TCX編碼模式是不必要的。按照AMR-WB+的結(jié)構(gòu)設(shè)計(jì)，VAD和開環(huán)模式選擇算法需要用到開環(huán)基音參數(shù)，因此對(duì)所有幀都需要計(jì)算開環(huán)基音，而這對(duì)于其它非ACELP編碼模式(例如TCX)來說，屬于冗余的復(fù)雜度，增加了編碼模式選擇的計(jì)算量，降低了效率。
3、雖然VAD檢測(cè)算法在語音檢測(cè)和噪聲免疫上的表現(xiàn)是當(dāng)前各種編碼器中較優(yōu)的，但在某些特殊的音樂信號(hào)拖尾部分有可能誤將音樂信號(hào)判成噪音，這將導(dǎo)致音樂的尾音被截?cái)啵犉饋聿蛔匀弧?br> 4、 AMR-WB+的模式選擇算法不考慮信號(hào)所處的信噪比環(huán)境，在低信噪比條件下區(qū)分語音和音樂的性能進(jìn)一步惡化。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明提供了一種聲音信號(hào)分類方法和一種聲音信號(hào)分類裝置，能夠提高對(duì)聲音信號(hào)分類檢測(cè)的準(zhǔn)確性。
本發(fā)明提供的一種聲音信號(hào)分類檢測(cè)方法包括
接收聲音信號(hào)，根據(jù)背景噪聲頻i普分布參數(shù)和所述聲音信號(hào)的頻鐠分布參數(shù)確定背景噪聲的更新速率；根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
本發(fā)明提供的一種聲音信號(hào)分類裝置包括背景噪聲參數(shù)更新模塊和信號(hào)初始分類PSC模塊；
背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號(hào)的頻鐠分布參數(shù)確定背景噪聲的更新速率，并發(fā)送所述確定的更新速率；
PSC模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音信號(hào)進(jìn) 行分類，并發(fā)送分類確定的聲音信號(hào)類型。。
從上述方案可以看出，本發(fā)明中通過確定背景噪聲的更新速率，并根據(jù) 該更新速率對(duì)噪聲參數(shù)進(jìn)行更新，再根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù) 對(duì)信號(hào)進(jìn)行初始分類，確定接收的語音信號(hào)中的非有用信號(hào)和有用信號(hào)，降低了將有用信號(hào)判決為噪音信號(hào)的誤判，提高了聲音信號(hào)分類的準(zhǔn)確性。

圖1為現(xiàn)有技術(shù)中的AMR-WB+編碼算法開環(huán)選擇示意圖2為本發(fā)明聲音信號(hào)分類檢測(cè)方法的總體流程圖3為本發(fā)明聲音信號(hào)分類裝置的組成示意圖4為本發(fā)明具體實(shí)施例所基于的系統(tǒng)組成示意圖5為本發(fā)明具體實(shí)施例中一種編碼器參數(shù)提取模塊計(jì)算各種參數(shù)的流程圖6為本發(fā)明具體實(shí)施例中另一種編碼器參數(shù)提取模塊計(jì)算各種參數(shù)
的流程圖7為本發(fā)明具體實(shí)施例中PSC模塊組成示意圖8為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊確定特征參數(shù)的示意圖9為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行語音判決的示意圖10為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行音樂判決的示意
圖11為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)初始判決結(jié)果進(jìn)行修正的示意圖12為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)不確定信號(hào)進(jìn)行初步修正分類示意圖13為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)信號(hào)進(jìn)行最終分類修正示意圖14為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行參數(shù)更新示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
本發(fā)明的主要思想是，根據(jù)當(dāng)前聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻譜分布參數(shù)確定背景噪聲的更新速率，并根據(jù)該更新速率對(duì)噪聲參數(shù)進(jìn)行更新，則在確定接收的語音信號(hào)中的有用信號(hào)和非有用信號(hào)時(shí)，根據(jù)該更新后的噪聲參數(shù)進(jìn)行，從而使得在確定有用信號(hào)和非有用信號(hào)時(shí)，噪聲參數(shù)的準(zhǔn) 確性更高，提高了聲音信號(hào)分類的準(zhǔn)確性。
如圖2所示，本發(fā)明首先提供了一種聲音信號(hào)分類檢測(cè)方法，該方法包
括
步驟201、接收聲音信號(hào)，根據(jù)背景噪聲頻鐠分布參數(shù)和所述聲音信號(hào) 的頻鐠分布參數(shù)確定背景噪聲的更新速率；
步驟202、根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
步驟202中，將聲音信號(hào)分類主要是分為有用信號(hào)類型和非有用信號(hào)類型。此后，還可以進(jìn)一步確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)，在確定時(shí)，根據(jù)噪聲是否收斂，選擇基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)確定，或選擇基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)確定。
此外，為防止將音樂信號(hào)拖尾誤判為非有用信號(hào)，降低聲音效果，本發(fā) 明中還獲取確定的有用信號(hào)類型，根據(jù)該有用信號(hào)類型確定信號(hào)拖尾長(zhǎng)度，并進(jìn)一步根據(jù)該信號(hào)拖尾長(zhǎng)度確定接收的語音信號(hào)中的有用信號(hào)和非有用信號(hào)。這里，對(duì)音樂信號(hào)的拖尾可以設(shè)置的較大，從而提高音樂信號(hào)的聲音效果。
在將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)時(shí)，可以首先將不能夠非常準(zhǔn) 確確定的信號(hào)設(shè)置為不確定類型，然后再根據(jù)其他參數(shù)對(duì)不確定類型進(jìn)行修正，最終確定有用信號(hào)的類型。
由于非有用信號(hào)的編碼方式并非均需要計(jì)算導(dǎo)譜頻率參數(shù)，因此為降低分類過程中的計(jì)算量，提高分類效率，對(duì)確定出的非有用信號(hào)，如果其對(duì)應(yīng) 的編碼方式不需要計(jì)算導(dǎo)語頻率參數(shù)，則不計(jì)算導(dǎo)譜頻率參數(shù)。
如圖3所示，本發(fā)明還提供了一種聲音信號(hào)分類裝置，包括背景噪聲參數(shù)更新模塊和信號(hào)初始分類(PSC)模塊。其中，背景噪聲參數(shù)更新模塊用于根據(jù)當(dāng)前聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻語分布參數(shù)確定背景噪聲的更新速率，并將確定的更新速率傳送給所述PSC模塊；PSC模塊用于根據(jù)來自所述背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)信號(hào)進(jìn)行初始分類，將接收的語音信號(hào)確定為有用信號(hào)類型或非有用信號(hào)類型。
該聲音信號(hào)分類裝置進(jìn)一步可以包括信號(hào)分類判決模塊；則PSC模塊還將確定的信號(hào)類型傳送給信號(hào)分類判決模塊；信號(hào)分類判決模塊基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)，或者基于導(dǎo)i普頻率參數(shù)和子帶能量參數(shù)，確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)。
該聲音信號(hào)分類裝置進(jìn)一步還可以包括分類參數(shù)提取模塊；則PSC 模塊通過分類參數(shù)提取模塊將確定的信號(hào)類型傳送給所述信號(hào)分類判決模塊；分類參數(shù)提取模塊還用于獲取包括導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)，或者進(jìn)一步獲取開環(huán)基音參數(shù)，將獲取的參數(shù)處理為信號(hào)分類特征參數(shù)傳送給所述分類判決模塊；以及根據(jù)將獲取的參數(shù)處理為聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻語分布參數(shù)，并將這些頻譜分布參數(shù)傳送給所述背景噪聲參數(shù)更新模塊；則分類判決模塊根據(jù)上述信號(hào)分類特征參數(shù)和PSC模塊確定的信號(hào)類型，確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)。
PSC模塊進(jìn)一步還可以用于將確定信號(hào)類型過程中計(jì)算的聲音信號(hào)的信噪比傳送給所述信號(hào)分類判決模塊；信號(hào)分類判決模塊進(jìn)一步根據(jù)所述信噪比將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)。
該聲音信號(hào)分類裝置進(jìn)一步可以包括編碼器模式及速率選擇模塊；信號(hào)分類判決模塊將確定的信號(hào)類型傳送給所述編碼器模式及速率選擇模塊；編碼器模式及速率選擇模塊根據(jù)接收的所述信號(hào)類型確定聲音信號(hào)的編碼
模式及速率。
該聲音信號(hào)分類裝置進(jìn)一步可以包括編碼器參數(shù)提取模塊，用于提取導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)，或者進(jìn)一步提取開環(huán)基音參數(shù)，并將提取的所述參數(shù)傳送給所述分類參數(shù)提取模塊，以及將提取的子帶能量參數(shù)傳送給 PSC模塊。
以下通過一個(gè)具體實(shí)施例對(duì)本發(fā)明提供的聲音信號(hào)分類檢測(cè)方法和聲音信號(hào)分類裝置進(jìn)行說明。
如圖4所示，為本發(fā)明具體實(shí)施例基于的系統(tǒng)組成示意圖。其中包括聲音信號(hào)分類檢測(cè)器(sound activity detector , SAD)它根據(jù)編碼器的需要，將輸入音頻數(shù)字信號(hào)劃分為不同的類，可分為非有用信號(hào)、語音和音樂三類，從而為編碼器提供編碼模式選擇和速率選擇的依據(jù)。
在圖4中可以看出，SAD模塊內(nèi)部包括背景噪聲估計(jì)控制模塊、信號(hào)初始分類模塊、分類參數(shù)提取模塊和信號(hào)分類判決模塊共4個(gè)子模塊。SAD作為編碼器內(nèi)部使用的信號(hào)分類器，為減少資源耗占及計(jì)算復(fù)雜度，將充分利用編碼器自有的參數(shù)，所以通過編碼器中的編碼器參數(shù)提取模塊計(jì) 算子帶能量參數(shù)及編碼器參數(shù)，并將計(jì)算的參數(shù)提供給SAD模塊。另外， SAD模塊最終輸出是信號(hào)判決類型，包括非有用信號(hào)、語音和音樂三類，提供給編碼器模式和速率選擇模塊，供其選擇編碼器模式和速率。
以下分別對(duì)編碼器中與SAD相關(guān)的模塊、SAD中的各個(gè)子模塊，以及各個(gè)模塊之間的交互過程進(jìn)行詳細(xì)說明。
編碼器中的編碼器參數(shù)提取模塊計(jì)算子帶能量參數(shù)及編碼器參數(shù)，并將計(jì)算的參數(shù)提供給SAD模塊。其中，子帶能量參數(shù)的計(jì)算可以采用濾波器組濾波的方法，具體的子帶數(shù)量根據(jù)計(jì)算復(fù)雜度要求和分類準(zhǔn)確性要求確定，在本實(shí)施例中下述以分為12個(gè)子帶進(jìn)行說明。
本實(shí)施例中，編碼器參數(shù)提取模塊計(jì)算各種SAD模塊需要的參數(shù)的過程可以如圖5或圖6所示，
其中，圖5所示的流程包括如下步驟
步驟501、編碼器參數(shù)提取模塊首先計(jì)算子帶能量參數(shù)。
步驟502、編碼器參數(shù)提取模塊根據(jù)來自PSC模塊的信號(hào)初始判決結(jié)果 (Vad_flag)決定是否需要進(jìn)行導(dǎo)頻頻率(ISF)運(yùn)算，如果需要執(zhí)行步驟 503;否則執(zhí)行步驟504。
本步驟中決定是否需要進(jìn)行ISF運(yùn)算包括如果當(dāng)前幀是非有用信號(hào)，則根據(jù)編碼器的機(jī)制如果編碼器針對(duì)非有用信號(hào)的編碼需要ISF參數(shù)，則進(jìn)行ISF運(yùn)算；若不需要，則編碼器參數(shù)提取模塊結(jié)束。如果當(dāng)前幀是有用信號(hào)，則進(jìn)行ISF運(yùn)算。對(duì)于有用信號(hào)計(jì)算ISF參數(shù)，是大多數(shù)編碼模式都需要的，因此不會(huì)給編碼器帶來冗余的復(fù)雜度。ISF參數(shù)計(jì)算的技術(shù)方案可以參考各種編碼器的資料，在此不贅述。
步驟503、編碼器參數(shù)提取模塊計(jì)算ISF參數(shù)，然后執(zhí)行步驟504。
步驟504、編碼器參數(shù)提取模塊計(jì)算開環(huán)基音參數(shù)。
通過上述圖5的流程計(jì)算出的子帶能量參數(shù)提供給SAD中的PSC模塊和分類參數(shù)提取模塊，其余參數(shù)提供給SAD中的分類參數(shù)提取模塊。
圖6所示的流程中，在圖5流程的基礎(chǔ)上，增加了根據(jù)初始噪聲是否收斂來決定是否計(jì)算開環(huán)基音參數(shù)的步驟。其中，步驟601至步驟603與圖5 中的步驟501至步驟503基本相同，而在步驟604,判斷初始化噪聲參數(shù)，即噪聲估計(jì)是否收斂，如果是則在步驟605計(jì)算開環(huán)基音參數(shù)；否則不計(jì)算開環(huán)基音參數(shù)。
由于開環(huán)基音參數(shù)對(duì)于有的編碼模式，如TCX編碼模式，屬于冗余的計(jì)算，為降低計(jì)算復(fù)雜度，在噪聲估計(jì)收斂之后，基本可以確定信號(hào)對(duì)應(yīng)的編碼模式不需要計(jì)算開環(huán)基音參數(shù)，因此就不再計(jì)算開環(huán)基音參數(shù)。
在噪聲估計(jì)收斂之前，為確保噪聲估計(jì)能夠收斂及其收斂速度，需要計(jì) 算開環(huán)基音參數(shù)，但這屬于啟動(dòng)階段的計(jì)算，可以忽略其復(fù)雜度。開環(huán)基音參數(shù)計(jì)算的技術(shù)方案可以參考基于ACELP的編碼，在此不贅述。判斷噪聲估計(jì)是否收斂的依據(jù)可以是連續(xù)判決為噪聲幀的次數(shù)超過門限噪聲收斂門限(THR1 ),本實(shí)施例的一個(gè)示例中THR1值取20。
上述提取出的子帶能量參數(shù)為level[i]。其中，i表示向量的成員索引，本實(shí)施例中取1…12，分別對(duì)應(yīng)0-200hz， 200-400hz，機(jī)-600hz， 600-800hz, 800-1200hz， 1200-1600hz, 1600-2000hz ， 2000-2400hz, 2橋-3200hz ， 3200-40000hz, 4000-4800hz, 4800-6400hz。
上述提取出的ISF參數(shù)為^人W，其中，n表示幀索引，i取l…16表示向量中成員索引。
上述提取出的開環(huán)基音參數(shù)包括
開環(huán)基因增益(open—loop pitch gain, ol_—gain )和開環(huán)基因延遲 (open—loop pitch lag , ol_lag),以及音調(diào)標(biāo)志(tone—flag)。其中，如果 ol—gain的值大于音調(diào)門限(TONE—THR)，則音調(diào)標(biāo)志tone_flag設(shè)為1。信號(hào)初始分類模塊(PSC)可以采用各種已有的VAD算法方案來實(shí)現(xiàn)，
具體包括背景噪聲估計(jì)子模塊、計(jì)算信噪比子模塊、有用信號(hào)估計(jì)子模塊、判決閾值調(diào)整字模塊、比較子模塊、拖尾保護(hù)有用信號(hào)子模塊。本實(shí)施例中，
如圖7所示，PSC模塊的具體實(shí)現(xiàn)也可以與現(xiàn)有的VAD算法模塊有以下三點(diǎn)不同
I、計(jì)算信噪比子模塊根據(jù)該參數(shù)和子帶能量參數(shù)計(jì)算信噪比，計(jì)算出的信噪比參數(shù)(snr)除在PSC模塊內(nèi)部使用外，還將該snr參數(shù)傳送給信號(hào)分類判決模塊，以使得信號(hào)分類判決模塊在低信噪比條件下對(duì)語音和音樂的區(qū)分也更加準(zhǔn)確。
II、由于現(xiàn)有的VAD對(duì)噪聲和某些種類的音樂的區(qū)分不夠理想，本實(shí) 施例對(duì)VAD進(jìn)行了以下改進(jìn)首先背景噪聲參數(shù)的計(jì)算由背景噪聲參數(shù)更新模塊提供的更新速率acc來控制。由背景噪聲估計(jì)子模塊接收來自背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并將根據(jù)更新后的噪聲參數(shù)計(jì)算的背景噪聲子帶能量估計(jì)參數(shù)傳送給計(jì)算信噪比子模塊。具體對(duì)更新速率的計(jì)算參見后續(xù)對(duì)背景噪聲參數(shù)更新模塊的說明，在本實(shí)施例的一個(gè) 示例中，更新速率可以取4個(gè)檔accl， acc2， acc3, acc4。對(duì)于不同的更新速率，確定不同的向上更新參數(shù)(update—up )和向下更新參數(shù)
(update—down ) ， update—up及update—down分另'J對(duì)應(yīng)背景噪聲向上及向下的更新速率。
然后噪聲參數(shù)更新的方案具體可采用AMR一WB+中的方案 If( 6cAr 一 e《[w] < /ev《一！["])
update=update—up
else
update=update_down 則噪聲估計(jì)更新的公式為 k^-Wm+1["]=(1_update)* 6c^_"U"]+update*
則噪聲頻鐠分布參數(shù)向量更新的公式為
卩]=(1 _ — — *》m + e * pm [/]
其中，
m: 幀索引 n:子帶索引
i: 頻譜分布參數(shù)向量的元素索引，i=l，2，3,4 bckr_est:背景噪聲估計(jì)子帶能量
卜背景噪聲頻譜分布參數(shù)向量估計(jì) 當(dāng)前信號(hào)頻語分布參數(shù)向量
III、在現(xiàn)有的VAD中，一般都通過拖尾來保護(hù)有用信號(hào)不被誤判為噪聲，拖尾的長(zhǎng)短應(yīng)在保護(hù)信號(hào)和提高傳輸效率兩方面取一個(gè)折衷。對(duì)于傳統(tǒng) 的語音編碼器，拖尾的長(zhǎng)短可以經(jīng)學(xué)習(xí)取一個(gè)常量。而對(duì)于多速率編碼器，面向的是包括音樂的音頻信號(hào)，這類信號(hào)經(jīng)常出現(xiàn)較長(zhǎng)的低能量的拖尾，常規(guī)VAD較難將這部分拖尾檢測(cè)出來，因此需要較長(zhǎng)的拖尾對(duì)其進(jìn)行保護(hù)。在實(shí)施例中，將托尾保護(hù)有用信號(hào)子模塊中的拖尾長(zhǎng)短設(shè)計(jì)為根據(jù)SAD信號(hào)判決結(jié)果自適應(yīng)，如果判決出是音樂信號(hào)(SADJlag-MUSIC)則設(shè)置較長(zhǎng) 的拖尾參數(shù)(hang—len=HANG—LONG )，如果判決出是語音信號(hào) (SAD—flag=SPEECH)，則設(shè)置較短的拖尾參數(shù)(hang—len=HANG—SHORT)，具體設(shè)置方式如下
If(SAD一flag-MUSIC)
hang—len=HANG—LONG
else if(SAD—flag=SPEECH) hang—len=HANG—SHORT
else
hang—len=0
其中
SAD—flag SAD判決標(biāo)志 hang一len 拖尾保護(hù)長(zhǎng)度
本實(shí)施例的一個(gè)示例中，HANG—LONG= 100, HANG SHORT=20，單4立可以是幀H。
分類參數(shù)提取模塊用于根據(jù)信號(hào)初始分類模塊確定的Vad一flag參數(shù)和編碼器參數(shù)提取模塊提供的子帶能量參數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)計(jì)算信號(hào)分類判決模塊和背景噪聲參數(shù)更新模塊需要的參數(shù)，以及將子帶能量參數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)和計(jì)算出的參數(shù)對(duì)應(yīng)提供給信號(hào)分類判決模塊和背景噪聲參數(shù)。分類參數(shù)提取模塊計(jì)算出的參數(shù)包括
1、基音參數(shù)(pitch)
比較連續(xù)的開環(huán)基音延遲的差值，如果開環(huán)基音延遲的增量小于設(shè)定的閾值，則延遲計(jì)數(shù)累加；如果連續(xù)兩幀的延遲計(jì)數(shù)之和足夠大，則設(shè)置 pitch-l,否則pitch-O。開環(huán)基音延遲的計(jì)算公式可參見AMR-WB+/AMR-WB 標(biāo)準(zhǔn)文檔。
2、長(zhǎng)時(shí)信號(hào)相關(guān)值參數(shù)(meangain)
meangain是相鄰三幀音調(diào)tone的滑動(dòng)平均，其中tone=1000*tone—flg; tone—flg定義與AMR-WB+中的相同。
3、過零率(zcr)
nW在當(dāng)a是truth是1 ，當(dāng)是false時(shí)為0。
4、子帶能量時(shí)域波動(dòng)(t—flux)
12
ZI/evWHeveUl
^ j"x = ~^-
■s7/oW 一 wear"—/ew/ 一
其中short—mean_level—energy表示短時(shí)平均能量
5、高低子帶能量比(ra) 一 sw6/eve/ —A妙—ewergy
其中，本專利發(fā)明的一個(gè)實(shí)例
sublevel—high—energy = level [10]+ level[l l];
sublevel—low_energyalevel
十level[l]屮level[2]十 level[3]+ level[4]十level[5]+ level[6]十level[7] + level[8]十level[9];
6、子帶能量頻域波動(dòng)(f—flux)
<formula>complex formula see original document page 17</formula>
7、導(dǎo)鐠距離短時(shí)平均(isf—meanSD):為五個(gè)相鄰幀導(dǎo)譜距離Isf_SD 的平均值，其中
<formula>complex formula see original document page 17</formula>
8、子帶能量標(biāo)準(zhǔn)差平均參數(shù)(level—meanSD)，表示兩個(gè)相鄰幀子帶能量標(biāo)準(zhǔn)差(level—SD )的平均值，level一SD參數(shù)的計(jì)算方法參考上述Isf_SD 的計(jì)算方法。
上述8個(gè)參數(shù)中，提供給背景噪聲參數(shù)更新模塊的參數(shù)包括zcr、 ra、 f—flux和t—flux。提供給信號(hào)分類判決模塊的參數(shù)包括pitch 、 meangain 、 isf一meanSD和level一meanSD。
信號(hào)分類判決模塊用于根據(jù)來自信號(hào)初始分類模塊PSC的snr、 Vad—flag,以及來自分類參數(shù)提取模塊的子帶能量參數(shù)、pitch、 meangain、 Isf—meanSD、 level—meanSD將信號(hào)最終區(qū)分為非有用信號(hào)(NOISE)、語音信號(hào)(SPEECH)和音樂信號(hào)(MUSIC)。信號(hào)分類判決模塊中可以包括參數(shù)更新子模塊和判決子模塊；所述參數(shù)更新子模塊用于根據(jù)所述信噪比更新信號(hào)分類判決過程中的門限，并將更新后的門限提供給所述判決子模塊;. 所述判決子模塊用于接收來自PSC模塊的聲音信號(hào)類型，并對(duì)其中的有用信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的門限，或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限，確定所述有用信號(hào)的類型，并發(fā)送所確定的有用信號(hào)的類型到編碼器模式及速率選擇模塊。
將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)包括首先設(shè)置語音標(biāo)識(shí)位的值和音樂標(biāo)識(shí)位的值均為0，然后根據(jù)基音參數(shù)標(biāo)識(shí)、長(zhǎng)時(shí)信號(hào)相關(guān)值、導(dǎo)譜距離短時(shí)平均參數(shù)和子帶能量子標(biāo)準(zhǔn)差平均參數(shù)將信號(hào)初步確定為語音類型、音樂類型或不確定類型，并根據(jù)初步確定出的語音類型或音樂類型對(duì)應(yīng)
修改語音標(biāo)識(shí)位或音樂標(biāo)識(shí)位的值；再根據(jù)子帶能量、長(zhǎng)時(shí)信號(hào)相關(guān)值、子帶能量子標(biāo)準(zhǔn)差平均參數(shù)、speech—flag、 music—flag、 pitch值為1的連續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀數(shù)，以及上一幀的類型，對(duì)初步確定出的所述語音類型、音樂類型或不確定類型進(jìn)行修正，確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)。
以下再對(duì)將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)的具體流程進(jìn)行說明
為保證信號(hào)判決的穩(wěn)定及避免頻繁的判決結(jié)果的轉(zhuǎn)換，本實(shí)施例提供了參凄t的才示志拖尾才幾制，包4舌對(duì)pitch—flag 、 level—meanSD—high—flag 、 ISF_meanSD—high—flag 、 ISF_meanSD_low—flag 、 level—meanSDJow—flag 、 meangain_flag這些特征參數(shù)值的確定根據(jù)拖尾機(jī)制進(jìn)行，這些特征參數(shù)值的具體確定如圖8所示。
圖8中的拖尾期間的長(zhǎng)度根據(jù)拖尾參數(shù)標(biāo)識(shí)值確定，本實(shí)施例中提供了兩種拖尾設(shè)置，即確定拖尾參數(shù)標(biāo)識(shí)值的方案
第一種拖尾設(shè)置方案中，當(dāng)參數(shù)值高于或低于一定門限時(shí)，對(duì)應(yīng)的參數(shù) 拖尾計(jì)數(shù)器值加一；否則對(duì)應(yīng)的參數(shù)拖尾計(jì)數(shù)器值設(shè)置為0,并根據(jù)參數(shù)拖尾計(jì)數(shù)器的值設(shè)定不同的參數(shù)拖尾標(biāo)識(shí)。其中，參數(shù)拖尾計(jì)數(shù)器的值越大，參數(shù)拖尾標(biāo)識(shí)值的長(zhǎng)度越長(zhǎng)，具體在根據(jù)參數(shù)計(jì)數(shù)器設(shè)置參數(shù)拖尾標(biāo)識(shí)值時(shí) 根據(jù)實(shí)際情況確定，這里不再贅述。
第二種拖尾設(shè)置方案中，根據(jù)訓(xùn)練參數(shù)對(duì)應(yīng)的決策樹的各內(nèi)部節(jié)點(diǎn)的錯(cuò) 誤率ER來控制拖尾長(zhǎng)短，錯(cuò)誤率小的參數(shù)，拖尾短；錯(cuò)誤率大的參數(shù)，拖尾長(zhǎng)。
此后，如果當(dāng)前的信號(hào)分類為有用信號(hào)，進(jìn)行語音和音樂的初始分類首先進(jìn)行語音初始判決，如圖9所示，在步驟901設(shè)置語音標(biāo)識(shí)位=0, 然后在步驟902，判斷Isf—meanSD是否大于預(yù)先設(shè)定的第一導(dǎo)鐠語音門限
(例如為1500 )，如果是則設(shè)置語音標(biāo)識(shí)位的值為1;否則，
在步驟903，判斷是否pitch值為1,并且開關(guān)基音搜索獲得的基音延遲值t—top—mean小于基音語音門限(例如為40),如果是，則設(shè)置語音標(biāo)識(shí) 位的值為1;否則，
在步驟904，判斷pitch值為1的連續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限(例如為2幀)，如果是，則設(shè)置語音標(biāo)識(shí)位的值為1;否則，
在步驟卯5,判斷meangain是否大于預(yù)先設(shè)定的長(zhǎng)時(shí)相關(guān)語音門限(例如為8000)，如果是，則設(shè)置語音標(biāo)識(shí)位的值為1;否則，
在步驟906，判斷l(xiāng)evel—meanSD—high—flag和ISF—meanSD—high_flag中是否有一個(gè)或兩個(gè)的值為1，如果是，則設(shè)置語音標(biāo)識(shí)位的值為1;否則不更改語音標(biāo)識(shí)位的值。
然后，進(jìn)行音樂初始判決，具體如圖10所示
在步驟1001,首先將音樂標(biāo)識(shí)位設(shè)置為0,然后在步驟1002,判斷信號(hào)同時(shí)滿足標(biāo)志ISF—meanSD—low—flag = 1和level—meanSD—low—flag = 1 ，如果是則設(shè)置音樂信號(hào)標(biāo)志music—flag;否則，不更改音樂標(biāo)識(shí)位的值。
此后，如圖11所示，對(duì)初始判決結(jié)果進(jìn)行修正
首先在步驟1101、判斷是否子帶的即時(shí)能量小于子帶能量門限(例如為5000 )，如果是則執(zhí)行步驟1102;否則將信號(hào)確定為不確定類 (UNCERTAIN);
在步驟1102,判斷是否meangain—flag = 1,并且音樂持續(xù)計(jì)數(shù)器小于音樂持續(xù)計(jì)數(shù)語音判斷門限(例如為3),如果是則將信號(hào)確定為語音信號(hào)；否則，
在步驟1103,判斷ISF—meanSD的值大于預(yù)先設(shè)定的第二導(dǎo)i瞽語音門限 (例如為2000),如果是則將信號(hào)確定為語音信號(hào)；否則，
在步驟1104,判斷是否level_energy小于10000，并且之前判決為噪聲
的幀數(shù)超過了五幀，如果是，則將當(dāng)前的信號(hào)類別置為不確定類，這是為了降低將噪聲歸為音樂類的誤判；否則，
在步驟1105，判斷是否音樂標(biāo)識(shí)位和語音標(biāo)識(shí)位的值均為1,如果是，
則將當(dāng)前信號(hào)類別確定位不確定類；否則，
在步驟1106,判斷是否音樂標(biāo)識(shí)位和語音標(biāo)識(shí)位的值均為0，如果是，則將當(dāng)前信號(hào)類別確定位不確定類；否則，
在步驟1107,判斷是否音樂標(biāo)識(shí)位為O，語音標(biāo)識(shí)位為1,如果是，則將當(dāng)前信號(hào)類型確定為語音類；否則，
在步驟1108，由于音樂標(biāo)識(shí)位為1,語音標(biāo)識(shí)位為0，將當(dāng)前信號(hào)類型確定為音樂類。
在上述步驟1104、 1105即步驟1106中確定出信號(hào)為不確定類后，執(zhí)行步驟1109:判斷是否pitch—flag-l ，并且ISF_meanSD小于導(dǎo)語音樂門限(例如為900)，并且連續(xù)的語音幀數(shù)小于3，如果是，則將信號(hào)確定為音樂類；否則，將信號(hào)仍確定為不確定類；
而在上述步驟1103和步驟1107將信號(hào)確定為語音類后，執(zhí)行步驟1110: 是否連續(xù)的音樂幀數(shù)大于3,并且ISF—meanSD小于導(dǎo)譜音樂門限，如果是，則將信號(hào)確定為音樂信號(hào)；否則，將信號(hào)確定為語音信號(hào)。
在通過上述流程確定出語音信號(hào)和音樂信號(hào)后，對(duì)于仍然處于不確定類的信號(hào)，執(zhí)行圖12所示的流程，進(jìn)行初步修正分類，包括首先在步驟1201 判斷l(xiāng)evd—energy是否小于子帶能量不確定類門限(例如為5000 ),如果是，仍將信號(hào)類型確定為不確定類；否則，在步驟1202,判斷是否音樂的持續(xù) 幀數(shù)大于1并且ISF—meanSD小于導(dǎo)譜音樂門限，如果是，將信號(hào)確定為音樂類；否則
對(duì)語音和音樂拖尾標(biāo)志清零，如果本幀之前為連續(xù)的語音類，且連續(xù)性較強(qiáng)，那么根據(jù)語音的特征參數(shù)對(duì)語音進(jìn)行判決，若滿足語音條件，那么設(shè) 置語音拖尾標(biāo)志speechjiangover—flag = 1，具體包括圖12中的步驟1203至步驟1206;如果本幀之前為連續(xù)的音樂類，且連續(xù)性較強(qiáng)，那么根據(jù)音樂的特征參數(shù)對(duì)音樂進(jìn)行判決，若滿足音樂條件，那么設(shè)置音樂拖尾的標(biāo)志 music—hangover—flag = 1,具體包括圖12中的步驟1207至步驟1210。
此后，如圖12中的步驟1211至步驟1216所示，如果語音拖尾標(biāo)志為 1，音樂拖尾標(biāo)志為0,將當(dāng)前的信號(hào)類別置為語音類；如果音樂拖尾標(biāo)志為1，語音拖尾標(biāo)志為0，則將當(dāng)前的信號(hào)類別置為音樂類；如果音樂拖尾標(biāo)志和音樂拖尾標(biāo)志同時(shí)為1或同時(shí)為0，將信號(hào)類別設(shè)為不確定類，這時(shí) 如果之前音樂的連續(xù)性超過了 20幀，將信號(hào)確定為音樂類，如果之前語音的連續(xù)性超過了20幀，將信號(hào)確定為語音類。
在經(jīng)過上述初步修正后，在圖13中對(duì)有用信號(hào)類型進(jìn)行最終修正，繼續(xù)根據(jù)當(dāng)前的語境進(jìn)行類別的修正，在步驟1301，如果當(dāng)前的語境為音樂，且持續(xù)性很強(qiáng)，超過了 3秒，即當(dāng)前連續(xù)的音樂幀數(shù)超過了 150幀，那么可根據(jù)ISF一meanSD的值進(jìn)行強(qiáng)制修正，確定音樂信號(hào)。在步驟1302，如果當(dāng) 前的語境為語音，并且持續(xù)性很強(qiáng)，超過了3秒，即當(dāng)前連續(xù)的語音幀數(shù)超過了 150幀，那么可根據(jù)ISF—meanSD的值進(jìn)行強(qiáng)制修正，確定語音信號(hào)類型；此后如果信號(hào)類別還為不確定類，那么在步驟1303根據(jù)之前的語境對(duì) 信號(hào)類別進(jìn)行修正，即將當(dāng)前不確定的信號(hào)類別歸納為之前的信號(hào)類別。
在通過上述流程確定了有用信號(hào)的類別后，需要更新三個(gè)類別計(jì)數(shù)器和更新信號(hào)類別判決模塊中的各門限值。對(duì)于三個(gè)類別計(jì)數(shù)器，如果當(dāng)前分類為音樂signal—sort = music, 則音樂計(jì)凄t器music—countinue—counter增力口 1 ，否則清零；其它類別計(jì)數(shù)器的處理類似，如圖14所示，這里不再詳述。而門限值根據(jù)信號(hào)初始分類模塊輸出的信噪比大小來更新，在實(shí)施例中列舉的各門限示例是在20db信噪比條件下學(xué)習(xí)得到的值。
背景噪聲參數(shù)更新模塊利用SAD中分類參數(shù)提取模塊中計(jì)算出的一些頻譜分布參數(shù)，來控制背景噪聲的更新速率。由于在實(shí)際應(yīng)用環(huán)境可能出現(xiàn) 背景噪聲的能量水平突然提高的情況，這時(shí)易出現(xiàn)背景噪聲估計(jì)因信號(hào)持續(xù)
被判為有用信號(hào)而一直不能更新的狀態(tài)，背景噪聲參數(shù)更新模塊的設(shè)置即解決了該問題。
該背景噪聲參數(shù)更新模塊根據(jù)來自分類參數(shù)提取模塊中的參數(shù)，計(jì)算的
有關(guān)頻鐠分布參數(shù)向量包含以下元素過零率zcr的短時(shí)平均高低子帶能量比ra的短時(shí)平均子帶能量頻域波動(dòng)f—flux的短時(shí)平均子帶能量時(shí)域波動(dòng)t一flux的短時(shí)平均其中，zcr—mean短時(shí)平均的計(jì)算方法如下，其它類似 zct — wecwm =爿LP/i4[kcr — + (1 — ^LP/i4)[icrm
其中ALPHA=0.96, m表示幀索引。
本實(shí)施例利用了背景噪聲的頻i普特性較為穩(wěn)定的特點(diǎn)，其中頻i普分布參數(shù)向量的成員可不限于以上列出的4個(gè)。當(dāng)前背景噪聲的更新速率由當(dāng)前頻
鐠分布參數(shù)與背景噪聲頻譜分布參數(shù)估計(jì)之間的差異《來控制。該差異可以通過歐式距離、Manhattan距離等算法來實(shí)現(xiàn)。本專利的一個(gè)發(fā)明實(shí)例采用 Manhattan距離(一種距離計(jì)算方式的命名，類似于歐式距離)，即
,=1
其中，P是當(dāng)前信號(hào)的頻譜分布參數(shù)向量，》是背景噪聲頻譜分布參數(shù) 向量估計(jì)。
在本實(shí)施例的一個(gè)示例中，當(dāng)《^TH1時(shí)，模塊輸出更新速率accl,代
表最快更新速率；否則，當(dāng)《*<TH2時(shí)，輸出更新速率acc2;否則，當(dāng)《<TH3 時(shí)，輸出更新速率acc3;否則，輸出更新速率acc4。這里的TH1、 TH2、 TH3 和TH4為更新門限，具體根據(jù)實(shí)際環(huán)境情況確定。
以上是對(duì)本發(fā)明具體實(shí)施例的說明，在具體的實(shí)施過程中可對(duì)本發(fā)明的方法進(jìn)行適當(dāng)?shù)母倪M(jìn)，以適應(yīng)具體情況的具體需要。因此可以理解，根據(jù)本發(fā)明的具體實(shí)施方式
只是起示范作用，并不用以限制本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種聲音信號(hào)分類方法，其特征在于，該方法包括A、接收聲音信號(hào)，根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率；B、根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟B后進(jìn)一步包括C、對(duì)所述分類得到的有用信號(hào)，基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)。
3、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟C之前進(jìn)一步包括C0、檢測(cè)噪聲估計(jì)是否收斂，如果是，則執(zhí)行步驟C1;否則，執(zhí)行所述步驟C;Cl、對(duì)所述分類得到的有用信號(hào)，基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù) 將有用信號(hào)的類型確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信一弓_
4、根據(jù)權(quán)利要求3所述的方法，其特征在于，所述步驟C0中，檢測(cè) 初始噪聲是否收斂為判斷所述接收的聲音信號(hào)前連續(xù)噪聲幀數(shù)是否超過預(yù) 先設(shè)定的噪聲收斂門限，如果是，則確定噪聲估計(jì)收斂；否則，確定噪聲估計(jì)不收斂。
5、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟B中還獲取所述確定的有用信號(hào)類型，根據(jù)該有用信號(hào)類型確定信號(hào)拖尾長(zhǎng)度，并進(jìn)一步根據(jù)該信號(hào)拖尾長(zhǎng)度對(duì)所述聲音信號(hào)進(jìn)行分類。
6、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟C包括初始化語音標(biāo)識(shí)位和音樂標(biāo)識(shí)位，然后根據(jù)基音參數(shù)標(biāo)識(shí)、長(zhǎng)時(shí)信號(hào)相關(guān)參數(shù)、導(dǎo)語距離短時(shí)平均參數(shù)和子帶能量子標(biāo)準(zhǔn)差平均參數(shù)，以及對(duì)應(yīng)的門限，初步確定有用信號(hào)的類型，包括語音類型、音樂類型或不確定類型，并根據(jù)初步確定出的語音類型和音樂類型對(duì)應(yīng)修改語音標(biāo)識(shí)位和音樂標(biāo)識(shí)位；根據(jù)子帶能量、長(zhǎng)時(shí)信號(hào)相關(guān)參數(shù)、子帶能量子標(biāo)準(zhǔn)差平均參數(shù)子帶能量子標(biāo)準(zhǔn)差平均參數(shù)、語音標(biāo)識(shí)位、音樂標(biāo)識(shí)位、基音參數(shù)標(biāo)識(shí)值為i的連續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀數(shù)、上一幀的類型及對(duì)應(yīng)的門限，對(duì)初步確定出的所述語音類型、音樂類型或不確定類型進(jìn)行修正，最終確定所述有用信號(hào)的類型，包括語音信號(hào)和音樂信號(hào)。
7、根據(jù)權(quán)利要求6所述的方法，其特征在于，所述門限根據(jù)所述聲音信號(hào)的信噪比進(jìn)行調(diào)整。
8、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟B后，進(jìn)一步包括D、對(duì)所述分類得到的非有用信號(hào)，確定其對(duì)應(yīng)的編碼方式，并根據(jù)確定的編碼方式確定是否需要計(jì)算導(dǎo)傳頻率參數(shù)。
9、根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟B中所述的噪聲參數(shù)包括噪聲估計(jì)參數(shù)和噪聲頻謙分布參數(shù)。
10、根據(jù)權(quán)利要求1或9所述的方法，其特征在于，所述步驟A包括計(jì)算所述聲音信號(hào)頻譜分布參數(shù)與背景噪音頻譜分布參數(shù)之間的差異參數(shù)，然后根據(jù)該差異參數(shù)確定更新速率。
11、根據(jù)權(quán)利要求10所述的方法，其特征在于，計(jì)算所述差異參數(shù)涉及的頻語分布參數(shù)包括過零率短時(shí)平均參數(shù)、高低子帶能量比短時(shí)平均參數(shù)、子帶能量頻域波動(dòng)短時(shí)平均參數(shù)和子帶能量時(shí)域波動(dòng)短時(shí)平均參數(shù)。
12、一種聲音信號(hào)分類裝置，其特征在于，該裝置包括背景噪聲參數(shù) 更新模塊和信號(hào)初始分類PSC模塊；所述背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率，并發(fā)送所述確定的更新速率；所述psc模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音信號(hào)進(jìn)行分類，并發(fā)送分類確定的聲音信號(hào)類型。
13、根據(jù)權(quán)利要求12所述的裝置，其特征在于，該裝置進(jìn)一步包括信號(hào)分類判決模塊，用于接收來自psc模塊的聲音信號(hào)類型，并對(duì)其中的有用信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)，或者基于導(dǎo)鐠頻率參數(shù)和子帶能量參數(shù)，確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)，并發(fā)送所確定的有用信號(hào)的類型。
14、根據(jù)權(quán)利要求13所述的裝置，其特征在于，該裝置進(jìn)一步包括分類參數(shù)提取模塊，用于接收來自psc模塊的聲音信號(hào)類型，并將該聲音信號(hào)類型傳送給所述信號(hào)分類判決模塊；和獲取包括導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)，或者進(jìn)一步獲取開環(huán)基音參數(shù)，將獲取的參數(shù)處理為信號(hào)分類特征參數(shù)傳送給所述信號(hào)分類判決模塊；以及將獲取的參數(shù)處理為聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻語分布參數(shù)，并將這些頻鐠分布參數(shù)傳送給所述背景噪聲參數(shù)更新模塊；則所述分類判決模塊根據(jù)所述信號(hào)分類特征參數(shù)和所述psc模塊確定的聲音信號(hào)類型，確定有用信號(hào)的類型，所述類型包括語音信號(hào)和音樂信號(hào)。
15、根據(jù)權(quán)利要求13或14所述的裝置，所述psc模塊中包括背景噪聲估計(jì)子模塊、計(jì)算信噪比子模塊、有用信號(hào)估計(jì)子模塊、判決閾值調(diào)整字模塊、比較子模塊、拖尾保護(hù)有用信號(hào)子模塊；其特征在于，所述背景噪聲估計(jì)子模塊接收來自所述背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并將根據(jù)更新后的噪聲參數(shù)計(jì)算的背景噪聲子帶能量估計(jì)參數(shù)傳送給所述計(jì)算信噪比子模塊；所述計(jì)算信噪比子模塊用于接收所述背景噪聲子帶能量估計(jì)參數(shù)，并根據(jù)該參數(shù)和子帶能量參數(shù)計(jì)算信噪比，并將信噪比傳送給所述信號(hào)分類判決模塊；所述信號(hào)分類判決模塊包括參數(shù)更新子模塊和判決子模塊；所述參數(shù) 更新子模塊用于根據(jù)所述信噪比更新信號(hào)分類判決過程中的門限，并將更新后的門限提供給所述判決子模塊；所述判決子模塊用于接收來自PSC模塊的聲音信號(hào)類型，并對(duì)其中的有用信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的門限，或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限，確定所迷有用信號(hào)的類型，并發(fā)送所確定的有用信號(hào)的類型。
16、根據(jù)權(quán)利要求13所述的裝置，其特征在于，該裝置進(jìn)一步包括編碼器模式及速率選擇模塊，用于接收來自信號(hào)分類判決模塊的有用信號(hào)的類型，并根據(jù)接收的有用信號(hào)的類型確定聲音信號(hào)的編碼模式及速率。
17、根據(jù)權(quán)利要求14所述的裝置，其特征在于，該裝置進(jìn)一步包括編碼器參數(shù)提取模塊，用于提取導(dǎo)謙頻率參數(shù)和子帶能量參數(shù)，或者進(jìn)一步提取開環(huán)基音參數(shù)，并將提取的所述參數(shù)傳送給所述分類參數(shù)提取模塊，以及將提取的子帶能量參數(shù)傳送給所述PSC模塊。
全文摘要
本發(fā)明公開了一種聲音信號(hào)分類方法，包括接收聲音信號(hào)，根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率；根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。本發(fā)明還公開了一種聲音信號(hào)分類裝置，包括背景噪聲參數(shù)更新模塊，用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率，并發(fā)送所述確定的更新速率；PSC模塊，用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率，對(duì)噪聲參數(shù)進(jìn)行更新，并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音信號(hào)進(jìn)行分類，并發(fā)送分類確定的聲音信號(hào)類型。
文檔編號(hào)G10L25/78GK101197135SQ20061016445
公開日2008年6月11日申請(qǐng)日期2006年12月5日優(yōu)先權(quán)日2006年12月5日
發(fā)明者勤嚴(yán), 清張, 偉李, 杜正中, 桑盛虎, 珺王, 許麗凈, 許劍峰, 鄧浩江申請(qǐng)人:華為技術(shù)有限公司;中國科學(xué)院聲學(xué)研究所

完整全部詳細(xì)技術(shù)資料下載