專利名稱:聲音信號(hào)分類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音編碼技術(shù)領(lǐng)域,特別涉及一種聲音信號(hào)分類方法和一種 聲音信號(hào)分類裝置。
背景技術(shù):
在語音通信中只有大約40%的信號(hào)是包含語音的,其它時(shí)間都是靜音 或背景噪聲,為了節(jié)省傳輸帶寬,在語音信號(hào)處理領(lǐng)域進(jìn)行語音編碼中,采 用語音活動(dòng)檢測(cè)(VAD, Voice Activity Detection)技術(shù),使得編碼器可以 對(duì)背景噪聲和活動(dòng)的語音采用不同的速率進(jìn)行編碼,即對(duì)背景噪聲用較低的 速率進(jìn)行編碼,對(duì)活動(dòng)的語音用較高的速率進(jìn)行編碼,從而降低了平均碼率, 極大的促進(jìn)了變速率語音編碼技術(shù)的發(fā)展。
現(xiàn)有的信號(hào)檢測(cè)器(VAD)均針對(duì)語音信號(hào)而開發(fā),只將輸入的音頻信 號(hào)分為兩種噪聲和非噪聲。較新的編碼器如AMR—WB+和SMV,包含音 樂信號(hào)的檢測(cè),作為VAD判決以外的一個(gè)修正和補(bǔ)充。AMR-WB+編碼器 的重要特征是在VAD檢測(cè)之后,根據(jù)輸入音頻信號(hào)是語音還是音樂,用不 同的模式進(jìn)行編碼,以在最大程度上減小碼率,保證編碼質(zhì)量。
AMR-WB+中的兩種不同編碼模式包括基于代數(shù)碼本激勵(lì)線性預(yù)測(cè)語 音編碼器ACELP(Algebraic Code Excited Linear Prediction )和變換激勵(lì)編 碼TCX ( Transform coded excitation )模式兩種核心編碼算法。ACELP屬于 通過建立語音發(fā)聲模型,充分利用了語音的特點(diǎn),對(duì)于語音信號(hào)的編碼效率 很高,加之其技術(shù)已經(jīng)相當(dāng)成熟,故可以通過在通用音頻編碼器上擴(kuò)展使用 前者使其語音編碼質(zhì)量得到很大提高。類似地,通過在低比特率的語音編碼 器上擴(kuò)展使用TCX編碼使其寬帶音樂的編碼質(zhì)量得到提高。AMR-WB+編碼算法的ACELP和TCX才莫式選擇算法根據(jù)復(fù)雜度有兩
種開環(huán)選擇算法和閉環(huán)選擇算法。閉環(huán)選擇對(duì)應(yīng)高復(fù)雜度,為缺省選項(xiàng),
是一種基于感知加權(quán)信噪比的遍歷搜索的選擇方式,顯然,這樣的選擇方法 是很準(zhǔn)確的,但它運(yùn)算復(fù)雜度非常高,代碼量也較大。
開環(huán)選擇包括如下步驟
首先在步驟101,由VAD模塊根據(jù)聲調(diào)標(biāo)識(shí)(Tone—flag)和子帶能量 參數(shù)(Level[n]),確定信號(hào)是非有用信號(hào)還是有用信號(hào)。 然后在步驟102,進(jìn)行初步模式選擇(EC);
在步驟103,對(duì)步驟102初步確定的模式進(jìn)行修正和細(xì)化模式選擇 (ESC),以確定選擇的編碼模式,具體基于開環(huán)基音參數(shù)和ISF參數(shù)進(jìn)行。
在步驟104、進(jìn)行TCXS處理,即當(dāng)連續(xù)選擇語音信號(hào)編碼模式的次數(shù) 小于三次時(shí),進(jìn)行小規(guī)模的閉環(huán)遍歷搜索,最終確定編碼模式,其中語音信 號(hào)編碼模式為ACELP,音樂信號(hào)編碼模式為TCX。
在上述AMR-WB+的語音信號(hào)選擇算法具有如下缺點(diǎn)
1、 現(xiàn)有的VAD模塊在對(duì)信號(hào)進(jìn)行分類時(shí),對(duì)噪聲和一些種類的音樂信 號(hào)區(qū)分不夠理想,降低了聲音信號(hào)分類的準(zhǔn)確性;
2、 計(jì)算開環(huán)基音參數(shù),對(duì)于ACELP編碼模式是必要的運(yùn)算,然而對(duì)于 TCX編碼模式是不必要的。按照AMR-WB+的結(jié)構(gòu)設(shè)計(jì),VAD和開環(huán)模式 選擇算法需要用到開環(huán)基音參數(shù),因此對(duì)所有幀都需要計(jì)算開環(huán)基音,而這 對(duì)于其它非ACELP編碼模式(例如TCX)來說,屬于冗余的復(fù)雜度,增加 了編碼模式選擇的計(jì)算量,降低了效率。
3、 雖然VAD檢測(cè)算法在語音檢測(cè)和噪聲免疫上的表現(xiàn)是當(dāng)前各種編碼 器中較優(yōu)的,但在某些特殊的音樂信號(hào)拖尾部分有可能誤將音樂信號(hào)判成噪 音,這將導(dǎo)致音樂的尾音被截?cái)啵犉饋聿蛔匀弧?br>
4、 AMR-WB+的模式選擇算法不考慮信號(hào)所處的信噪比環(huán)境,在低信 噪比條件下區(qū)分語音和音樂的性能進(jìn)一 步惡化。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種聲音信號(hào)分類方法和一種聲音信號(hào)分類裝 置,能夠提高對(duì)聲音信號(hào)分類檢測(cè)的準(zhǔn)確性。
本發(fā)明提供的一種聲音信號(hào)分類檢測(cè)方法包括
接收聲音信號(hào),根據(jù)背景噪聲頻i普分布參數(shù)和所述聲音信號(hào)的頻鐠分布 參數(shù)確定背景噪聲的更新速率;根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新,并 根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
本發(fā)明提供的一種聲音信號(hào)分類裝置包括背景噪聲參數(shù)更新模塊和信 號(hào)初始分類PSC模塊;
背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信 號(hào)的頻鐠分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;
PSC模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率,對(duì)噪聲 參數(shù)進(jìn)行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音信號(hào)進(jìn) 行分類,并發(fā)送分類確定的聲音信號(hào)類型。。
從上述方案可以看出,本發(fā)明中通過確定背景噪聲的更新速率,并根據(jù) 該更新速率對(duì)噪聲參數(shù)進(jìn)行更新,再根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù) 對(duì)信號(hào)進(jìn)行初始分類,確定接收的語音信號(hào)中的非有用信號(hào)和有用信號(hào),降 低了將有用信號(hào)判決為噪音信號(hào)的誤判,提高了聲音信號(hào)分類的準(zhǔn)確性。
圖1為現(xiàn)有技術(shù)中的AMR-WB+編碼算法開環(huán)選擇示意圖2為本發(fā)明聲音信號(hào)分類檢測(cè)方法的總體流程圖3為本發(fā)明聲音信號(hào)分類裝置的組成示意圖4為本發(fā)明具體實(shí)施例所基于的系統(tǒng)組成示意圖5為本發(fā)明具體實(shí)施例中一種編碼器參數(shù)提取模塊計(jì)算各種參數(shù)的 流程圖6為本發(fā)明具體實(shí)施例中另一種編碼器參數(shù)提取模塊計(jì)算各種參數(shù)
的流程圖7為本發(fā)明具體實(shí)施例中PSC模塊組成示意圖8為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊確定特征參數(shù)的示意圖9為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行語音判決的示意圖10為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行音樂判決的示意
圖11為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)初始判決結(jié)果進(jìn)行修 正的示意圖12為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)不確定信號(hào)進(jìn)行初步 修正分類示意圖13為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊對(duì)信號(hào)進(jìn)行最終分類修 正示意圖14為本發(fā)明具體實(shí)施例中信號(hào)分類判決模塊進(jìn)行參數(shù)更新示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明 作進(jìn)一步的詳細(xì)描述。
本發(fā)明的主要思想是,根據(jù)當(dāng)前聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻 譜分布參數(shù)確定背景噪聲的更新速率,并根據(jù)該更新速率對(duì)噪聲參數(shù)進(jìn)行更 新,則在確定接收的語音信號(hào)中的有用信號(hào)和非有用信號(hào)時(shí),根據(jù)該更新后 的噪聲參數(shù)進(jìn)行,從而使得在確定有用信號(hào)和非有用信號(hào)時(shí),噪聲參數(shù)的準(zhǔn) 確性更高,提高了聲音信號(hào)分類的準(zhǔn)確性。
如圖2所示,本發(fā)明首先提供了一種聲音信號(hào)分類檢測(cè)方法,該方法包
括
步驟201、接收聲音信號(hào),根據(jù)背景噪聲頻鐠分布參數(shù)和所述聲音信號(hào) 的頻鐠分布參數(shù)確定背景噪聲的更新速率;
步驟202、根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新,并根據(jù)子帶能量參 數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
步驟202中,將聲音信號(hào)分類主要是分為有用信號(hào)類型和非有用信號(hào)類 型。此后,還可以進(jìn)一步確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音 樂信號(hào),在確定時(shí),根據(jù)噪聲是否收斂,選擇基于開環(huán)基音參數(shù)、導(dǎo)譜頻率 參數(shù)和子帶能量參數(shù)確定,或選擇基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)確定。
此外,為防止將音樂信號(hào)拖尾誤判為非有用信號(hào),降低聲音效果,本發(fā) 明中還獲取確定的有用信號(hào)類型,根據(jù)該有用信號(hào)類型確定信號(hào)拖尾長(zhǎng)度, 并進(jìn)一步根據(jù)該信號(hào)拖尾長(zhǎng)度確定接收的語音信號(hào)中的有用信號(hào)和非有用 信號(hào)。這里,對(duì)音樂信號(hào)的拖尾可以設(shè)置的較大,從而提高音樂信號(hào)的聲音 效果。
在將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)時(shí),可以首先將不能夠非常準(zhǔn) 確確定的信號(hào)設(shè)置為不確定類型,然后再根據(jù)其他參數(shù)對(duì)不確定類型進(jìn)行修 正,最終確定有用信號(hào)的類型。
由于非有用信號(hào)的編碼方式并非均需要計(jì)算導(dǎo)譜頻率參數(shù),因此為降低 分類過程中的計(jì)算量,提高分類效率,對(duì)確定出的非有用信號(hào),如果其對(duì)應(yīng) 的編碼方式不需要計(jì)算導(dǎo)語頻率參數(shù),則不計(jì)算導(dǎo)譜頻率參數(shù)。
如圖3所示,本發(fā)明還提供了一種聲音信號(hào)分類裝置,包括背景噪聲參 數(shù)更新模塊和信號(hào)初始分類(PSC)模塊。其中,背景噪聲參數(shù)更新模塊用 于根據(jù)當(dāng)前聲音信號(hào)的頻譜分布參數(shù)和背景噪聲頻語分布參數(shù)確定背景噪 聲的更新速率,并將確定的更新速率傳送給所述PSC模塊;PSC模塊用于 根據(jù)來自所述背景噪聲參數(shù)更新模塊的更新速率,對(duì)噪聲參數(shù)進(jìn)行更新,并 根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)信號(hào)進(jìn)行初始分類,將接收的語音 信號(hào)確定為有用信號(hào)類型或非有用信號(hào)類型。
該聲音信號(hào)分類裝置進(jìn)一步可以包括信號(hào)分類判決模塊;則PSC模 塊還將確定的信號(hào)類型傳送給信號(hào)分類判決模塊;信號(hào)分類判決模塊基于開 環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者基于導(dǎo)i普頻率參數(shù)和子帶 能量參數(shù),確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信號(hào)。
該聲音信號(hào)分類裝置進(jìn)一步還可以包括分類參數(shù)提取模塊;則PSC 模塊通過分類參數(shù)提取模塊將確定的信號(hào)類型傳送給所述信號(hào)分類判決模 塊;分類參數(shù)提取模塊還用于獲取包括導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者 進(jìn)一步獲取開環(huán)基音參數(shù),將獲取的參數(shù)處理為信號(hào)分類特征參數(shù)傳送給所 述分類判決模塊;以及根據(jù)將獲取的參數(shù)處理為聲音信號(hào)的頻譜分布參數(shù)和 背景噪聲頻語分布參數(shù),并將這些頻譜分布參數(shù)傳送給所述背景噪聲參數(shù)更 新模塊;則分類判決模塊根據(jù)上述信號(hào)分類特征參數(shù)和PSC模塊確定的信 號(hào)類型,確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信號(hào)。
PSC模塊進(jìn)一步還可以用于將確定信號(hào)類型過程中計(jì)算的聲音信號(hào)的 信噪比傳送給所述信號(hào)分類判決模塊;信號(hào)分類判決模塊進(jìn)一步根據(jù)所述信 噪比將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)。
該聲音信號(hào)分類裝置進(jìn)一步可以包括編碼器模式及速率選擇模塊;信 號(hào)分類判決模塊將確定的信號(hào)類型傳送給所述編碼器模式及速率選擇模塊; 編碼器模式及速率選擇模塊根據(jù)接收的所述信號(hào)類型確定聲音信號(hào)的編碼
模式及速率。
該聲音信號(hào)分類裝置進(jìn)一步可以包括編碼器參數(shù)提取模塊,用于提取 導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者進(jìn)一步提取開環(huán)基音參數(shù),并將提取的 所述參數(shù)傳送給所述分類參數(shù)提取模塊,以及將提取的子帶能量參數(shù)傳送給 PSC模塊。
以下通過一個(gè)具體實(shí)施例對(duì)本發(fā)明提供的聲音信號(hào)分類檢測(cè)方法和聲 音信號(hào)分類裝置進(jìn)行說明。
如圖4所示,為本發(fā)明具體實(shí)施例基于的系統(tǒng)組成示意圖。其中包括聲 音信號(hào)分類檢測(cè)器(sound activity detector , SAD)它根據(jù)編碼器的需要, 將輸入音頻數(shù)字信號(hào)劃分為不同的類,可分為非有用信號(hào)、語音和音樂三類, 從而為編碼器提供編碼模式選擇和速率選擇的依據(jù)。
在圖4中可以看出,SAD模塊內(nèi)部包括背景噪聲估計(jì)控制模塊、信 號(hào)初始分類模塊、分類參數(shù)提取模塊和信號(hào)分類判決模塊共4個(gè)子模塊。SAD作為編碼器內(nèi)部使用的信號(hào)分類器,為減少資源耗占及計(jì)算復(fù)雜度, 將充分利用編碼器自有的參數(shù),所以通過編碼器中的編碼器參數(shù)提取模塊計(jì) 算子帶能量參數(shù)及編碼器參數(shù),并將計(jì)算的參數(shù)提供給SAD模塊。另外, SAD模塊最終輸出是信號(hào)判決類型,包括非有用信號(hào)、語音和音樂三類, 提供給編碼器模式和速率選擇模塊,供其選擇編碼器模式和速率。
以下分別對(duì)編碼器中與SAD相關(guān)的模塊、SAD中的各個(gè)子模塊,以及 各個(gè)模塊之間的交互過程進(jìn)行詳細(xì)說明。
編碼器中的編碼器參數(shù)提取模塊計(jì)算子帶能量參數(shù)及編碼器參數(shù),并將 計(jì)算的參數(shù)提供給SAD模塊。其中,子帶能量參數(shù)的計(jì)算可以采用濾波器 組濾波的方法,具體的子帶數(shù)量根據(jù)計(jì)算復(fù)雜度要求和分類準(zhǔn)確性要求確 定,在本實(shí)施例中下述以分為12個(gè)子帶進(jìn)行說明。
本實(shí)施例中,編碼器參數(shù)提取模塊計(jì)算各種SAD模塊需要的參數(shù)的過 程可以如圖5或圖6所示,
其中,圖5所示的流程包括如下步驟
步驟501、編碼器參數(shù)提取模塊首先計(jì)算子帶能量參數(shù)。
步驟502、編碼器參數(shù)提取模塊根據(jù)來自PSC模塊的信號(hào)初始判決結(jié)果 (Vad_flag)決定是否需要進(jìn)行導(dǎo)頻頻率(ISF)運(yùn)算,如果需要執(zhí)行步驟 503;否則執(zhí)行步驟504。
本步驟中決定是否需要進(jìn)行ISF運(yùn)算包括如果當(dāng)前幀是非有用信號(hào), 則根據(jù)編碼器的機(jī)制如果編碼器針對(duì)非有用信號(hào)的編碼需要ISF參數(shù),則 進(jìn)行ISF運(yùn)算;若不需要,則編碼器參數(shù)提取模塊結(jié)束。如果當(dāng)前幀是有用 信號(hào),則進(jìn)行ISF運(yùn)算。對(duì)于有用信號(hào)計(jì)算ISF參數(shù),是大多數(shù)編碼模式都 需要的,因此不會(huì)給編碼器帶來冗余的復(fù)雜度。ISF參數(shù)計(jì)算的技術(shù)方案可 以參考各種編碼器的資料,在此不贅述。
步驟503、編碼器參數(shù)提取模塊計(jì)算ISF參數(shù),然后執(zhí)行步驟504。
步驟504、編碼器參數(shù)提取模塊計(jì)算開環(huán)基音參數(shù)。
通過上述圖5的流程計(jì)算出的子帶能量參數(shù)提供給SAD中的PSC模塊 和分類參數(shù)提取模塊,其余參數(shù)提供給SAD中的分類參數(shù)提取模塊。
圖6所示的流程中,在圖5流程的基礎(chǔ)上,增加了根據(jù)初始噪聲是否收 斂來決定是否計(jì)算開環(huán)基音參數(shù)的步驟。其中,步驟601至步驟603與圖5 中的步驟501至步驟503基本相同,而在步驟604,判斷初始化噪聲參數(shù), 即噪聲估計(jì)是否收斂,如果是則在步驟605計(jì)算開環(huán)基音參數(shù);否則不計(jì)算 開環(huán)基音參數(shù)。
由于開環(huán)基音參數(shù)對(duì)于有的編碼模式,如TCX編碼模式,屬于冗余的 計(jì)算,為降低計(jì)算復(fù)雜度,在噪聲估計(jì)收斂之后,基本可以確定信號(hào)對(duì)應(yīng)的 編碼模式不需要計(jì)算開環(huán)基音參數(shù),因此就不再計(jì)算開環(huán)基音參數(shù)。
在噪聲估計(jì)收斂之前,為確保噪聲估計(jì)能夠收斂及其收斂速度,需要計(jì) 算開環(huán)基音參數(shù),但這屬于啟動(dòng)階段的計(jì)算,可以忽略其復(fù)雜度。開環(huán)基音 參數(shù)計(jì)算的技術(shù)方案可以參考基于ACELP的編碼,在此不贅述。判斷噪聲 估計(jì)是否收斂的依據(jù)可以是連續(xù)判決為噪聲幀的次數(shù)超過門限噪聲收斂門 限(THR1 ),本實(shí)施例的一個(gè)示例中THR1值取20。
上述提取出的子帶能量參數(shù)為level[i]。其中,i表示向量的成員索引, 本實(shí)施例中取1…12,分別對(duì)應(yīng)0-200hz, 200-400hz,機(jī)-600hz, 600-800hz, 800-1200hz, 1200-1600hz, 1600-2000hz , 2000-2400hz, 2橋-3200hz , 3200-40000hz, 4000-4800hz, 4800-6400hz。
上述提取出的ISF參數(shù)為^人W,其中,n表示幀索引,i取l…16表 示向量中成員索引。
上述提取出的開環(huán)基音參數(shù)包括
開環(huán)基因增益(open—loop pitch gain, ol_—gain )和開環(huán)基因延遲 (open—loop pitch lag , ol_lag),以及音調(diào)標(biāo)志(tone—flag)。其中,如果 ol—gain的值大于音調(diào)門限(TONE—THR),則音調(diào)標(biāo)志tone_flag設(shè)為1。 信號(hào)初始分類模塊(PSC)可以采用各種已有的VAD算法方案來實(shí)現(xiàn),
具體包括背景噪聲估計(jì)子模塊、計(jì)算信噪比子模塊、有用信號(hào)估計(jì)子模塊、 判決閾值調(diào)整字模塊、比較子模塊、拖尾保護(hù)有用信號(hào)子模塊。本實(shí)施例中,
如圖7所示,PSC模塊的具體實(shí)現(xiàn)也可以與現(xiàn)有的VAD算法模塊有以下三 點(diǎn)不同
I、 計(jì)算信噪比子模塊根據(jù)該參數(shù)和子帶能量參數(shù)計(jì)算信噪比,計(jì)算出 的信噪比參數(shù)(snr)除在PSC模塊內(nèi)部使用外,還將該snr參數(shù)傳送給信 號(hào)分類判決模塊,以使得信號(hào)分類判決模塊在低信噪比條件下對(duì)語音和音樂 的區(qū)分也更加準(zhǔn)確。
II、 由于現(xiàn)有的VAD對(duì)噪聲和某些種類的音樂的區(qū)分不夠理想,本實(shí) 施例對(duì)VAD進(jìn)行了以下改進(jìn)首先背景噪聲參數(shù)的計(jì)算由背景噪聲參數(shù)更 新模塊提供的更新速率acc來控制。由背景噪聲估計(jì)子模塊接收來自背景噪 聲參數(shù)更新模塊的更新速率,對(duì)噪聲參數(shù)進(jìn)行更新,并將根據(jù)更新后的噪聲 參數(shù)計(jì)算的背景噪聲子帶能量估計(jì)參數(shù)傳送給計(jì)算信噪比子模塊。具體對(duì)更 新速率的計(jì)算參見后續(xù)對(duì)背景噪聲參數(shù)更新模塊的說明,在本實(shí)施例的一個(gè) 示例中,更新速率可以取4個(gè)檔accl, acc2, acc3, acc4。對(duì)于不同的更 新速率,確定不同的向上更新參數(shù)(update—up )和向下更新參數(shù)
(update—down ) , update—up及update—down分另'J對(duì)應(yīng)背景噪聲向上及向下 的更新速率。
然后噪聲參數(shù)更新的方案具體可采用AMR一WB+中的方案 If( 6cAr 一 e《[w] < /ev《一!["])
update=update—up
else
update=update_down 則噪聲估計(jì)更新的公式為 k^-Wm+1["]=(1_update)* 6c^_"U"]+update*
則噪聲頻鐠分布參數(shù)向量更新的公式為
卩]=(1 _ — — *》m + e * pm [/]
其中,
m: 幀索引 n:子帶索引
i: 頻譜分布參數(shù)向量的元素索引,i=l,2,3,4 bckr_est:背景噪聲估計(jì)子帶能量
卜背景噪聲頻譜分布參數(shù)向量估計(jì) 當(dāng)前信號(hào)頻語分布參數(shù)向量
III、在現(xiàn)有的VAD中, 一般都通過拖尾來保護(hù)有用信號(hào)不被誤判為噪 聲,拖尾的長(zhǎng)短應(yīng)在保護(hù)信號(hào)和提高傳輸效率兩方面取一個(gè)折衷。對(duì)于傳統(tǒng) 的語音編碼器,拖尾的長(zhǎng)短可以經(jīng)學(xué)習(xí)取一個(gè)常量。而對(duì)于多速率編碼器, 面向的是包括音樂的音頻信號(hào),這類信號(hào)經(jīng)常出現(xiàn)較長(zhǎng)的低能量的拖尾,常 規(guī)VAD較難將這部分拖尾檢測(cè)出來,因此需要較長(zhǎng)的拖尾對(duì)其進(jìn)行保護(hù)。 在實(shí)施例中,將托尾保護(hù)有用信號(hào)子模塊中的拖尾長(zhǎng)短設(shè)計(jì)為根據(jù)SAD信 號(hào)判決結(jié)果自適應(yīng),如果判決出是音樂信號(hào)(SADJlag-MUSIC)則設(shè)置較長(zhǎng) 的拖尾參數(shù)(hang—len=HANG—LONG ),如果判決出是語音信號(hào) (SAD—flag=SPEECH),則設(shè)置較短的拖尾參數(shù)(hang—len=HANG—SHORT), 具體設(shè)置方式如下
If(SAD一flag-MUSIC)
hang—len=HANG—LONG
else if(SAD—flag=SPEECH) hang—len=HANG—SHORT
else
hang—len=0
其中
SAD—flag SAD判決標(biāo)志 hang一len 拖尾保護(hù)長(zhǎng)度
本實(shí)施例的一個(gè)示例中,HANG—LONG= 100, HANG SHORT=20,單4立可以是幀H。
分類參數(shù)提取模塊用于根據(jù)信號(hào)初始分類模塊確定的Vad一flag參數(shù)和 編碼器參數(shù)提取模塊提供的子帶能量參數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)計(jì)算信 號(hào)分類判決模塊和背景噪聲參數(shù)更新模塊需要的參數(shù),以及將子帶能量參 數(shù)、ISF參數(shù)、開環(huán)基音參數(shù)和計(jì)算出的參數(shù)對(duì)應(yīng)提供給信號(hào)分類判決模塊 和背景噪聲參數(shù)。分類參數(shù)提取模塊計(jì)算出的參數(shù)包括
1、 基音參數(shù)(pitch)
比較連續(xù)的開環(huán)基音延遲的差值,如果開環(huán)基音延遲的增量小于設(shè)定的 閾值,則延遲計(jì)數(shù)累加;如果連續(xù)兩幀的延遲計(jì)數(shù)之和足夠大,則設(shè)置 pitch-l,否則pitch-O。開環(huán)基音延遲的計(jì)算公式可參見AMR-WB+/AMR-WB 標(biāo)準(zhǔn)文檔。
2、 長(zhǎng)時(shí)信號(hào)相關(guān)值參數(shù)(meangain)
meangain是相鄰三幀音調(diào)tone的滑動(dòng)平均,其中tone=1000*tone—flg; tone—flg定義與AMR-WB+中的相同。
3、 過零率(zcr)
nW在當(dāng)a是truth是1 ,當(dāng)是false時(shí)為0。
4、 子帶能量時(shí)域波動(dòng)(t—flux)
12
ZI/evWHeveUl
^ j"x = ~^-
■s7/oW 一 wear"—/ew/ 一
其中short—mean_level—energy表示短時(shí)平均能量
5、 高低子帶能量比(ra) 一 sw6/eve/ —A妙—ewergy
其中,本專利發(fā)明的一個(gè)實(shí)例
sublevel—high—energy = level [10]+ level[l l];
sublevel—low_energyalevel
十level[l]屮level[2]十 level[3]+ level[4]十level[5]+ level[6]十level[7] + level[8]十level[9];
6、 子帶能量頻域波動(dòng)(f—flux)
<formula>complex formula see original document page 17</formula>
7、 導(dǎo)鐠距離短時(shí)平均(isf—meanSD):為五個(gè)相鄰幀導(dǎo)譜距離Isf_SD 的平均值,其中
<formula>complex formula see original document page 17</formula>
8、 子帶能量標(biāo)準(zhǔn)差平均參數(shù)(level—meanSD),表示兩個(gè)相鄰幀子帶 能量標(biāo)準(zhǔn)差(level—SD )的平均值,level一SD參數(shù)的計(jì)算方法參考上述Isf_SD 的計(jì)算方法。
上述8個(gè)參數(shù)中,提供給背景噪聲參數(shù)更新模塊的參數(shù)包括zcr、 ra、 f—flux和t—flux。提供給信號(hào)分類判決模塊的參數(shù)包括pitch 、 meangain 、 isf一meanSD和level一meanSD。
信號(hào)分類判決模塊用于根據(jù)來自信號(hào)初始分類模塊PSC的snr、 Vad—flag,以及來自分類參數(shù)提取模塊的子帶能量參數(shù)、pitch、 meangain、 Isf—meanSD、 level—meanSD將信號(hào)最終區(qū)分為非有用信號(hào)(NOISE)、語 音信號(hào)(SPEECH)和音樂信號(hào)(MUSIC)。信號(hào)分類判決模塊中可以包括 參數(shù)更新子模塊和判決子模塊;所述參數(shù)更新子模塊用于根據(jù)所述信噪比更 新信號(hào)分類判決過程中的門限,并將更新后的門限提供給所述判決子模塊;. 所述判決子模塊用于接收來自PSC模塊的聲音信號(hào)類型,并對(duì)其中的有用 信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的門限, 或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限,確定所述有用 信號(hào)的類型,并發(fā)送所確定的有用信號(hào)的類型到編碼器模式及速率選擇模 塊。
將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)包括首先設(shè)置語音標(biāo)識(shí)位的值和音樂標(biāo)識(shí)位的值均為0,然后根據(jù)基音參數(shù)標(biāo)識(shí)、長(zhǎng)時(shí)信號(hào)相關(guān)值、導(dǎo)譜 距離短時(shí)平均參數(shù)和子帶能量子標(biāo)準(zhǔn)差平均參數(shù)將信號(hào)初步確定為語音類 型、音樂類型或不確定類型,并根據(jù)初步確定出的語音類型或音樂類型對(duì)應(yīng)
修改語音標(biāo)識(shí)位或音樂標(biāo)識(shí)位的值;再根據(jù)子帶能量、長(zhǎng)時(shí)信號(hào)相關(guān)值、子 帶能量子標(biāo)準(zhǔn)差平均參數(shù)、speech—flag、 music—flag、 pitch值為1的連續(xù)幀 數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀數(shù), 以及上一幀的類型,對(duì)初步確定出的所述語音類型、音樂類型或不確定類型 進(jìn)行修正,確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信號(hào)。
以下再對(duì)將有用信號(hào)確定為語音信號(hào)或音樂信號(hào)的具體流程進(jìn)行說明
為保證信號(hào)判決的穩(wěn)定及避免頻繁的判決結(jié)果的轉(zhuǎn)換,本實(shí)施例提供了 參凄t的才示志拖尾才幾制,包4舌對(duì)pitch—flag 、 level—meanSD—high—flag 、 ISF_meanSD—high—flag 、 ISF_meanSD_low—flag 、 level—meanSDJow—flag 、 meangain_flag這些特征參數(shù)值的確定根據(jù)拖尾機(jī)制進(jìn)行,這些特征參數(shù)值 的具體確定如圖8所示。
圖8中的拖尾期間的長(zhǎng)度根據(jù)拖尾參數(shù)標(biāo)識(shí)值確定,本實(shí)施例中提供了 兩種拖尾設(shè)置,即確定拖尾參數(shù)標(biāo)識(shí)值的方案
第一種拖尾設(shè)置方案中,當(dāng)參數(shù)值高于或低于一定門限時(shí),對(duì)應(yīng)的參數(shù) 拖尾計(jì)數(shù)器值加一;否則對(duì)應(yīng)的參數(shù)拖尾計(jì)數(shù)器值設(shè)置為0,并根據(jù)參數(shù)拖 尾計(jì)數(shù)器的值設(shè)定不同的參數(shù)拖尾標(biāo)識(shí)。其中,參數(shù)拖尾計(jì)數(shù)器的值越大, 參數(shù)拖尾標(biāo)識(shí)值的長(zhǎng)度越長(zhǎng),具體在根據(jù)參數(shù)計(jì)數(shù)器設(shè)置參數(shù)拖尾標(biāo)識(shí)值時(shí) 根據(jù)實(shí)際情況確定,這里不再贅述。
第二種拖尾設(shè)置方案中,根據(jù)訓(xùn)練參數(shù)對(duì)應(yīng)的決策樹的各內(nèi)部節(jié)點(diǎn)的錯(cuò) 誤率ER來控制拖尾長(zhǎng)短,錯(cuò)誤率小的參數(shù),拖尾短;錯(cuò)誤率大的參數(shù),拖 尾長(zhǎng)。
此后,如果當(dāng)前的信號(hào)分類為有用信號(hào),進(jìn)行語音和音樂的初始分類 首先進(jìn)行語音初始判決,如圖9所示,在步驟901設(shè)置語音標(biāo)識(shí)位=0, 然后在步驟902,判斷Isf—meanSD是否大于預(yù)先設(shè)定的第一導(dǎo)鐠語音門限
(例如為1500 ),如果是則設(shè)置語音標(biāo)識(shí)位的值為1;否則,
在步驟903,判斷是否pitch值為1,并且開關(guān)基音搜索獲得的基音延遲 值t—top—mean小于基音語音門限(例如為40),如果是,則設(shè)置語音標(biāo)識(shí) 位的值為1;否則,
在步驟904,判斷pitch值為1的連續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀 數(shù)門限(例如為2幀),如果是,則設(shè)置語音標(biāo)識(shí)位的值為1;否則,
在步驟卯5,判斷meangain是否大于預(yù)先設(shè)定的長(zhǎng)時(shí)相關(guān)語音門限(例 如為8000),如果是,則設(shè)置語音標(biāo)識(shí)位的值為1;否則,
在步驟906,判斷l(xiāng)evel—meanSD—high—flag和ISF—meanSD—high_flag中 是否有一個(gè)或兩個(gè)的值為1,如果是,則設(shè)置語音標(biāo)識(shí)位的值為1;否則不 更改語音標(biāo)識(shí)位的值。
然后,進(jìn)行音樂初始判決,具體如圖10所示
在步驟1001,首先將音樂標(biāo)識(shí)位設(shè)置為0,然后在步驟1002,判斷信 號(hào)同時(shí)滿足標(biāo)志ISF—meanSD—low—flag = 1和level—meanSD—low—flag = 1 ,如 果是則設(shè)置音樂信號(hào)標(biāo)志music—flag;否則,不更改音樂標(biāo)識(shí)位的值。
此后,如圖11所示,對(duì)初始判決結(jié)果進(jìn)行修正
首先在步驟1101、判斷是否子帶的即時(shí)能量小于子帶能量門限(例如 為5000 ),如果是則執(zhí)行步驟1102;否則將信號(hào)確定為不確定類 (UNCERTAIN);
在步驟1102,判斷是否meangain—flag = 1,并且音樂持續(xù)計(jì)數(shù)器小于音 樂持續(xù)計(jì)數(shù)語音判斷門限(例如為3),如果是則將信號(hào)確定為語音信號(hào); 否則,
在步驟1103,判斷ISF—meanSD的值大于預(yù)先設(shè)定的第二導(dǎo)i瞽語音門限 (例如為2000),如果是則將信號(hào)確定為語音信號(hào);否則,
在步驟1104,判斷是否level_energy小于10000,并且之前判決為噪聲
的幀數(shù)超過了五幀,如果是,則將當(dāng)前的信號(hào)類別置為不確定類,這是為了 降低將噪聲歸為音樂類的誤判;否則,
在步驟1105,判斷是否音樂標(biāo)識(shí)位和語音標(biāo)識(shí)位的值均為1,如果是,
則將當(dāng)前信號(hào)類別確定位不確定類;否則,
在步驟1106,判斷是否音樂標(biāo)識(shí)位和語音標(biāo)識(shí)位的值均為0,如果是, 則將當(dāng)前信號(hào)類別確定位不確定類;否則,
在步驟1107,判斷是否音樂標(biāo)識(shí)位為O,語音標(biāo)識(shí)位為1,如果是,則 將當(dāng)前信號(hào)類型確定為語音類;否則,
在步驟1108,由于音樂標(biāo)識(shí)位為1,語音標(biāo)識(shí)位為0,將當(dāng)前信號(hào)類型 確定為音樂類。
在上述步驟1104、 1105即步驟1106中確定出信號(hào)為不確定類后,執(zhí)行 步驟1109:判斷是否pitch—flag-l ,并且ISF_meanSD小于導(dǎo)語音樂門限(例 如為900),并且連續(xù)的語音幀數(shù)小于3,如果是,則將信號(hào)確定為音樂類; 否則,將信號(hào)仍確定為不確定類;
而在上述步驟1103和步驟1107將信號(hào)確定為語音類后,執(zhí)行步驟1110: 是否連續(xù)的音樂幀數(shù)大于3,并且ISF—meanSD小于導(dǎo)譜音樂門限,如果是, 則將信號(hào)確定為音樂信號(hào);否則,將信號(hào)確定為語音信號(hào)。
在通過上述流程確定出語音信號(hào)和音樂信號(hào)后,對(duì)于仍然處于不確定類 的信號(hào),執(zhí)行圖12所示的流程,進(jìn)行初步修正分類,包括首先在步驟1201 判斷l(xiāng)evd—energy是否小于子帶能量不確定類門限(例如為5000 ),如果是, 仍將信號(hào)類型確定為不確定類;否則,在步驟1202,判斷是否音樂的持續(xù) 幀數(shù)大于1并且ISF—meanSD小于導(dǎo)譜音樂門限,如果是,將信號(hào)確定為音 樂類;否則
對(duì)語音和音樂拖尾標(biāo)志清零,如果本幀之前為連續(xù)的語音類,且連續(xù)性 較強(qiáng),那么根據(jù)語音的特征參數(shù)對(duì)語音進(jìn)行判決,若滿足語音條件,那么設(shè) 置語音拖尾標(biāo)志speechjiangover—flag = 1,具體包括圖12中的步驟1203至 步驟1206;如果本幀之前為連續(xù)的音樂類,且連續(xù)性較強(qiáng),那么根據(jù)音樂 的特征參數(shù)對(duì)音樂進(jìn)行判決,若滿足音樂條件,那么設(shè)置音樂拖尾的標(biāo)志 music—hangover—flag = 1,具體包括圖12中的步驟1207至步驟1210。
此后,如圖12中的步驟1211至步驟1216所示,如果語音拖尾標(biāo)志為 1,音樂拖尾標(biāo)志為0,將當(dāng)前的信號(hào)類別置為語音類;如果音樂拖尾標(biāo)志 為1,語音拖尾標(biāo)志為0,則將當(dāng)前的信號(hào)類別置為音樂類;如果音樂拖尾 標(biāo)志和音樂拖尾標(biāo)志同時(shí)為1或同時(shí)為0,將信號(hào)類別設(shè)為不確定類,這時(shí) 如果之前音樂的連續(xù)性超過了 20幀,將信號(hào)確定為音樂類,如果之前語音 的連續(xù)性超過了20幀,將信號(hào)確定為語音類。
在經(jīng)過上述初步修正后,在圖13中對(duì)有用信號(hào)類型進(jìn)行最終修正,繼 續(xù)根據(jù)當(dāng)前的語境進(jìn)行類別的修正,在步驟1301,如果當(dāng)前的語境為音樂, 且持續(xù)性很強(qiáng),超過了 3秒,即當(dāng)前連續(xù)的音樂幀數(shù)超過了 150幀,那么可 根據(jù)ISF一meanSD的值進(jìn)行強(qiáng)制修正,確定音樂信號(hào)。在步驟1302,如果當(dāng) 前的語境為語音,并且持續(xù)性很強(qiáng),超過了3秒,即當(dāng)前連續(xù)的語音幀數(shù)超 過了 150幀,那么可根據(jù)ISF—meanSD的值進(jìn)行強(qiáng)制修正,確定語音信號(hào)類 型;此后如果信號(hào)類別還為不確定類,那么在步驟1303根據(jù)之前的語境對(duì) 信號(hào)類別進(jìn)行修正,即將當(dāng)前不確定的信號(hào)類別歸納為之前的信號(hào)類別。
在通過上述流程確定了有用信號(hào)的類別后,需要更新三個(gè)類別計(jì)數(shù)器和 更新信號(hào)類別判決模塊中的各門限值。對(duì)于三個(gè)類別計(jì)數(shù)器,如果當(dāng)前分類 為音樂signal—sort = music, 則音樂計(jì)凄t器music—countinue—counter增力口 1 , 否則清零;其它類別計(jì)數(shù)器的處理類似,如圖14所示,這里不再詳述。而 門限值根據(jù)信號(hào)初始分類模塊輸出的信噪比大小來更新,在實(shí)施例中列舉的 各門限示例是在20db信噪比條件下學(xué)習(xí)得到的值。
背景噪聲參數(shù)更新模塊利用SAD中分類參數(shù)提取模塊中計(jì)算出的一些 頻譜分布參數(shù),來控制背景噪聲的更新速率。由于在實(shí)際應(yīng)用環(huán)境可能出現(xiàn) 背景噪聲的能量水平突然提高的情況,這時(shí)易出現(xiàn)背景噪聲估計(jì)因信號(hào)持續(xù)
被判為有用信號(hào)而一直不能更新的狀態(tài),背景噪聲參數(shù)更新模塊的設(shè)置即解 決了該問題。
該背景噪聲參數(shù)更新模塊根據(jù)來自分類參數(shù)提取模塊中的參數(shù),計(jì)算的
有關(guān)頻鐠分布參數(shù)向量包含以下元素 過零率zcr的短時(shí)平均 高低子帶能量比ra的短時(shí)平均 子帶能量頻域波動(dòng)f—flux的短時(shí)平均 子帶能量時(shí)域波動(dòng)t一flux的短時(shí)平均 其中,zcr—mean短時(shí)平均的計(jì)算方法如下,其它類似 zct — wecwm =爿LP/i4[kcr — + (1 — ^LP/i4)[icrm
其中ALPHA=0.96, m表示幀索引。
本實(shí)施例利用了背景噪聲的頻i普特性較為穩(wěn)定的特點(diǎn),其中頻i普分布參 數(shù)向量的成員可不限于以上列出的4個(gè)。當(dāng)前背景噪聲的更新速率由當(dāng)前頻
鐠分布參數(shù)與背景噪聲頻譜分布參數(shù)估計(jì)之間的差異《來控制。該差異可以 通過歐式距離、Manhattan距離等算法來實(shí)現(xiàn)。本專利的一個(gè)發(fā)明實(shí)例采用 Manhattan距離(一種距離計(jì)算方式的命名,類似于歐式距離),即
,=1
其中,P是當(dāng)前信號(hào)的頻譜分布參數(shù)向量,》是背景噪聲頻譜分布參數(shù) 向量估計(jì)。
在本實(shí)施例的一個(gè)示例中,當(dāng)《^TH1時(shí),模塊輸出更新速率accl,代
表最快更新速率;否則,當(dāng)《*<TH2時(shí),輸出更新速率acc2;否則,當(dāng)《<TH3 時(shí),輸出更新速率acc3;否則,輸出更新速率acc4。這里的TH1、 TH2、 TH3 和TH4為更新門限,具體根據(jù)實(shí)際環(huán)境情況確定。
以上是對(duì)本發(fā)明具體實(shí)施例的說明,在具體的實(shí)施過程中可對(duì)本發(fā)明的 方法進(jìn)行適當(dāng)?shù)母倪M(jìn),以適應(yīng)具體情況的具體需要。因此可以理解,根據(jù)本 發(fā)明的具體實(shí)施方式
只是起示范作用,并不用以限制本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種聲音信號(hào)分類方法,其特征在于,該方法包括A、接收聲音信號(hào),根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率;B、根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B后進(jìn)一步包括C、 對(duì)所述分類得到的有用信號(hào),基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和 子帶能量參數(shù)確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信號(hào)。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟C之前進(jìn)一步 包括C0、檢測(cè)噪聲估計(jì)是否收斂,如果是,則執(zhí)行步驟C1;否則,執(zhí)行所 述步驟C;Cl、對(duì)所述分類得到的有用信號(hào),基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù) 將有用信號(hào)的類型確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信一弓_
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟C0中,檢測(cè) 初始噪聲是否收斂為判斷所述接收的聲音信號(hào)前連續(xù)噪聲幀數(shù)是否超過預(yù) 先設(shè)定的噪聲收斂門限,如果是,則確定噪聲估計(jì)收斂;否則,確定噪聲估 計(jì)不收斂。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B中還獲取所 述確定的有用信號(hào)類型,根據(jù)該有用信號(hào)類型確定信號(hào)拖尾長(zhǎng)度,并進(jìn)一步 根據(jù)該信號(hào)拖尾長(zhǎng)度對(duì)所述聲音信號(hào)進(jìn)行分類。
6、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟C包括 初始化語音標(biāo)識(shí)位和音樂標(biāo)識(shí)位,然后根據(jù)基音參數(shù)標(biāo)識(shí)、長(zhǎng)時(shí)信號(hào)相 關(guān)參數(shù)、導(dǎo)語距離短時(shí)平均參數(shù)和子帶能量子標(biāo)準(zhǔn)差平均參數(shù),以及對(duì)應(yīng)的 門限,初步確定有用信號(hào)的類型,包括語音類型、音樂類型或不確定類型, 并根據(jù)初步確定出的語音類型和音樂類型對(duì)應(yīng)修改語音標(biāo)識(shí)位和音樂標(biāo)識(shí)位;根據(jù)子帶能量、長(zhǎng)時(shí)信號(hào)相關(guān)參數(shù)、子帶能量子標(biāo)準(zhǔn)差平均參數(shù)子帶能 量子標(biāo)準(zhǔn)差平均參數(shù)、語音標(biāo)識(shí)位、音樂標(biāo)識(shí)位、基音參數(shù)標(biāo)識(shí)值為i的連 續(xù)幀數(shù)是否超過預(yù)先設(shè)置的拖尾幀數(shù)門限、連續(xù)的音樂幀數(shù)、連續(xù)的語音幀 數(shù)、上一幀的類型及對(duì)應(yīng)的門限,對(duì)初步確定出的所述語音類型、音樂類型 或不確定類型進(jìn)行修正,最終確定所述有用信號(hào)的類型,包括語音信號(hào)和音 樂信號(hào)。
7、 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述門限根據(jù)所述聲音 信號(hào)的信噪比進(jìn)行調(diào)整。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟B后,進(jìn)一步 包括D、對(duì)所述分類得到的非有用信號(hào),確定其對(duì)應(yīng)的編碼方式,并根據(jù)確 定的編碼方式確定是否需要計(jì)算導(dǎo)傳頻率參數(shù)。
9、 根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟B中所述的噪聲參 數(shù)包括噪聲估計(jì)參數(shù)和噪聲頻謙分布參數(shù)。
10、 根據(jù)權(quán)利要求1或9所述的方法,其特征在于,所述步驟A包括計(jì)算所述聲音信號(hào)頻譜分布參數(shù)與背景噪音頻譜分布參數(shù)之間的差異參數(shù), 然后根據(jù)該差異參數(shù)確定更新速率。
11、 根據(jù)權(quán)利要求10所述的方法,其特征在于,計(jì)算所述差異參數(shù)涉 及的頻語分布參數(shù)包括過零率短時(shí)平均參數(shù)、高低子帶能量比短時(shí)平均參 數(shù)、子帶能量頻域波動(dòng)短時(shí)平均參數(shù)和子帶能量時(shí)域波動(dòng)短時(shí)平均參數(shù)。
12、 一種聲音信號(hào)分類裝置,其特征在于,該裝置包括背景噪聲參數(shù) 更新模塊和信號(hào)初始分類PSC模塊;所述背景噪聲參數(shù)更新模塊用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;所述psc模塊用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率, 對(duì)噪聲參數(shù)進(jìn)行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音 信號(hào)進(jìn)行分類,并發(fā)送分類確定的聲音信號(hào)類型。
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置進(jìn)一步包括 信號(hào)分類判決模塊,用于接收來自psc模塊的聲音信號(hào)類型,并對(duì)其中的 有用信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)和子帶能量參數(shù),或者基于導(dǎo)鐠 頻率參數(shù)和子帶能量參數(shù),確定有用信號(hào)的類型,所述類型包括語音信號(hào)和 音樂信號(hào),并發(fā)送所確定的有用信號(hào)的類型。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置進(jìn)一步包括 分類參數(shù)提取模塊,用于接收來自psc模塊的聲音信號(hào)類型,并將該聲音 信號(hào)類型傳送給所述信號(hào)分類判決模塊;和獲取包括導(dǎo)譜頻率參數(shù)和子帶能 量參數(shù),或者進(jìn)一步獲取開環(huán)基音參數(shù),將獲取的參數(shù)處理為信號(hào)分類特征 參數(shù)傳送給所述信號(hào)分類判決模塊;以及將獲取的參數(shù)處理為聲音信號(hào)的頻 譜分布參數(shù)和背景噪聲頻語分布參數(shù),并將這些頻鐠分布參數(shù)傳送給所述背 景噪聲參數(shù)更新模塊;則所述分類判決模塊根據(jù)所述信號(hào)分類特征參數(shù)和所述psc模塊確定 的聲音信號(hào)類型,確定有用信號(hào)的類型,所述類型包括語音信號(hào)和音樂信號(hào)。
15、 根據(jù)權(quán)利要求13或14所述的裝置,所述psc模塊中包括背景 噪聲估計(jì)子模塊、計(jì)算信噪比子模塊、有用信號(hào)估計(jì)子模塊、判決閾值調(diào)整 字模塊、比較子模塊、拖尾保護(hù)有用信號(hào)子模塊;其特征在于,所述背景噪聲估計(jì)子模塊接收來自所述背景噪聲參數(shù)更新模塊的更新 速率,對(duì)噪聲參數(shù)進(jìn)行更新,并將根據(jù)更新后的噪聲參數(shù)計(jì)算的背景噪聲子 帶能量估計(jì)參數(shù)傳送給所述計(jì)算信噪比子模塊;所述計(jì)算信噪比子模塊用于接收所述背景噪聲子帶能量估計(jì)參數(shù),并根 據(jù)該參數(shù)和子帶能量參數(shù)計(jì)算信噪比,并將信噪比傳送給所述信號(hào)分類判決模塊;所述信號(hào)分類判決模塊包括參數(shù)更新子模塊和判決子模塊;所述參數(shù) 更新子模塊用于根據(jù)所述信噪比更新信號(hào)分類判決過程中的門限,并將更新后的門限提供給所述判決子模塊;所述判決子模塊用于接收來自PSC模塊的聲音信號(hào)類型,并對(duì)其中的 有用信號(hào)基于開環(huán)基音參數(shù)、導(dǎo)譜頻率參數(shù)、子帶能量參數(shù)和所述更新后的 門限,或者基于導(dǎo)譜頻率參數(shù)和子帶能量參數(shù)和所述更新后的門限,確定所 迷有用信號(hào)的類型,并發(fā)送所確定的有用信號(hào)的類型。
16、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,該裝置進(jìn)一步包括 編碼器模式及速率選擇模塊,用于接收來自信號(hào)分類判決模塊的有用信號(hào)的 類型,并根據(jù)接收的有用信號(hào)的類型確定聲音信號(hào)的編碼模式及速率。
17、 根據(jù)權(quán)利要求14所述的裝置,其特征在于,該裝置進(jìn)一步包括 編碼器參數(shù)提取模塊,用于提取導(dǎo)謙頻率參數(shù)和子帶能量參數(shù),或者進(jìn)一步 提取開環(huán)基音參數(shù),并將提取的所述參數(shù)傳送給所述分類參數(shù)提取模塊,以 及將提取的子帶能量參數(shù)傳送給所述PSC模塊。
全文摘要
本發(fā)明公開了一種聲音信號(hào)分類方法,包括接收聲音信號(hào),根據(jù)背景噪聲頻譜分布參數(shù)和所述聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率;根據(jù)所述更新速率對(duì)噪聲參數(shù)進(jìn)行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)所述聲音信號(hào)進(jìn)行分類。本發(fā)明還公開了一種聲音信號(hào)分類裝置,包括背景噪聲參數(shù)更新模塊,用于根據(jù)背景噪聲頻譜分布參數(shù)和當(dāng)前聲音信號(hào)的頻譜分布參數(shù)確定背景噪聲的更新速率,并發(fā)送所述確定的更新速率;PSC模塊,用于接收來自所述背景噪聲參數(shù)更新模塊的更新速率,對(duì)噪聲參數(shù)進(jìn)行更新,并根據(jù)子帶能量參數(shù)和更新后的噪聲參數(shù)對(duì)當(dāng)前聲音信號(hào)進(jìn)行分類,并發(fā)送分類確定的聲音信號(hào)類型。
文檔編號(hào)G10L25/78GK101197135SQ20061016445
公開日2008年6月11日 申請(qǐng)日期2006年12月5日 優(yōu)先權(quán)日2006年12月5日
發(fā)明者勤 嚴(yán), 清 張, 偉 李, 杜正中, 桑盛虎, 珺 王, 許麗凈, 許劍峰, 鄧浩江 申請(qǐng)人:華為技術(shù)有限公司;中國科學(xué)院聲學(xué)研究所