專利名稱:一種確定非噪聲音頻信號(hào)類別的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及無線通信技術(shù)領(lǐng)域,特別是涉及一種確定非噪聲音頻信號(hào)類 別的方法及裝置。
背景技術(shù):
隨著無線通信技術(shù)的迅速發(fā)展,VAD (Voice Activity Detection,語音活動(dòng) 檢測(cè))技術(shù)得到了廣泛的應(yīng)用。每一種VAD方法都使用了多種特征參數(shù),其 中大部分來自或派生于編碼器編碼過程中產(chǎn)生的特征參數(shù)。例如GSM (Global System for Mobile communication,全J求移動(dòng)通4言系統(tǒng))制訂了四種 語音編碼器規(guī)范,即GSM全速率、GSM增強(qiáng)全速率、GSM半速率和自適應(yīng) 多速率語音編碼器,它們所依據(jù)的編碼算法均有所區(qū)別,但是均包含了將語 音信號(hào)從通信信號(hào)中檢測(cè)出來的VAD模塊。其中,GSM全速率、增強(qiáng)全速 率和半速率這三種VAD算法的計(jì)算復(fù)雜度比較低,使用的參數(shù)都包含信號(hào)的 能量、頻語穩(wěn)定信息和基音信息等,其中,信號(hào)能量是主要判決依據(jù),但它 對(duì)噪聲的敏感度比較高,后兩種特征參數(shù)僅對(duì)判決閾值起作用,但對(duì)算法的 依賴度比較高,即與編碼算法有一定的耦合度。ITU (International Telecommunications Union,國(guó)際電^f言聯(lián)盟)制訂了 G.723.1和G.729系列編碼標(biāo)準(zhǔn),其中,G.723.1本身已經(jīng)將VAD模塊嵌入編 碼算法中,算法相對(duì)簡(jiǎn)單,性能一般;G.729則在其附件B (簡(jiǎn)稱為G729B) 中融入了 VAD的功能。G729B的VAD模塊采用了四維空間中的14邊界決策 技術(shù),并對(duì)多邊界決策結(jié)果進(jìn)行平滑以保證自然語音信號(hào)的長(zhǎng)時(shí)平穩(wěn)特性, 即在多維空間中(4維)由14項(xiàng)不等式確定的決策區(qū)域。G729B的VAD算 法用到了全帶能量、低帶能量、過零率和線i普對(duì)譜參數(shù)及其運(yùn)行時(shí)的統(tǒng)計(jì)參 數(shù),與編碼算法有相當(dāng)?shù)鸟詈隙取?GPP (the 3rd Generation Partnership Project,第三代伙伴組織計(jì)劃)組織 制訂了 AMR、 AMR-WB和AMR-WB+編碼標(biāo)準(zhǔn),它們也都含有VAD模塊, 其基本原理都是將信號(hào)分成多個(gè)子帶,在每一子帶內(nèi)計(jì)算子帶參數(shù),然后將 這些子帶參數(shù)在全帶進(jìn)行綜合,最后在全帶進(jìn)行判決,其中的一個(gè)區(qū)別是AMR 計(jì)算輸入信號(hào)的9個(gè)子帶能量,而AMR-WB和AMR-WB+則分為12個(gè)子帶 能量。AMR包含兩種VAD算法,有著不同的復(fù)雜度和性能。AMR的VAD 模塊主要特點(diǎn)是以信噪比作為背景噪聲特征參數(shù)估計(jì)和判決邏輯的核心,復(fù) 雜度較低,其包含的基音檢測(cè)、音調(diào)檢測(cè)和復(fù)雜信號(hào)分析模塊都用到了編碼 器本身開環(huán)基因分析模塊的參數(shù),與編碼器算法的耦合度比較緊。在實(shí)現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題現(xiàn)有 語音編碼標(biāo)準(zhǔn)的算法所含的VAD模塊使用的特征參數(shù)與編碼器算法的耦合度 4交緊,不利于算法的獨(dú)立性和可移植性。發(fā)明內(nèi)容本發(fā)明實(shí)施例要解決的問題是提供一種確定非噪聲音頻信號(hào)類別的方 法及裝置,采用的特征參數(shù)不依賴于編碼器算法,增強(qiáng)了算法的獨(dú)立性和可 移植性。為達(dá)到上述目的,本發(fā)明實(shí)施例的技術(shù)方案提供一種確定非噪聲音頻信 號(hào)類別的方法,包括以下步驟獲取非噪聲音頻信號(hào)的特征參數(shù);根據(jù)所述 特征參數(shù),利用決策樹初步判決所述非噪聲音頻信號(hào)的類別;根據(jù)所述非噪 聲音頻信號(hào)的語境和所述初步判決的結(jié)果,確定所述非噪聲音頻信號(hào)的類別。本發(fā)明實(shí)施例的技術(shù)方案還提供了一種確定非噪聲音頻信號(hào)類別的裝 置,包括特征參數(shù)獲取單元,用于獲取非噪聲音頻信號(hào)的特征參數(shù);第一判 決單元,用于根據(jù)所述特征參數(shù)獲取單元獲取的特征參數(shù),利用決策樹初步 判決所述非噪聲音頻信號(hào)的類別;第二判決單元,用于4艮據(jù)所述非噪聲音頻 信號(hào)的語境和所述第一判決單元的初步判決的結(jié)果,確定所述非噪聲音頻信 號(hào)的類別。上述技術(shù)方案中的一個(gè)實(shí)施例具有如下優(yōu)點(diǎn)本發(fā)明實(shí)施例通過不依 賴于編碼器算法的非噪聲音頻信號(hào)的特征參數(shù),對(duì)所述非噪聲音頻信號(hào)的
類別進(jìn)行判定,增強(qiáng)了算法的獨(dú)立性和可移植性。
圖l是本發(fā)明實(shí)施例的一種確定非噪聲音頻信號(hào)類別的裝置結(jié)構(gòu)圖;圖2是本發(fā)明實(shí)施例的一種確定非^^喿聲音頻信號(hào)類別的方法流程圖;圖3是本發(fā)明實(shí)施例的 一種非噪聲音頻信號(hào)的狀態(tài)轉(zhuǎn)移示意圖;圖4是本發(fā)明實(shí)施例的一種多變量決策樹的結(jié)構(gòu)圖;圖5是本發(fā)明實(shí)施例的一種非噪聲音頻信號(hào)的初步判決方法流程圖;圖6是本發(fā)明實(shí)施例的一種短時(shí)決策樹的結(jié)構(gòu)示意圖;圖7是本發(fā)明實(shí)施例的一種長(zhǎng)時(shí)決策樹的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述本發(fā)明實(shí)施例的一種確定非噪聲音頻信號(hào)類別的裝置如圖1所示,包括 特征參數(shù)獲取單元11、第一判決單元12、第二判決單元13和狀態(tài)轉(zhuǎn)移單元 14。其中第一判決單元12分別與特征參數(shù)獲取單元11和第二判決單元13連 接,第二判決單元13和狀態(tài)轉(zhuǎn)移單元14連接。特征參數(shù)獲取單元11用于獲取非噪聲音頻信號(hào)的特征參數(shù);第一判決單 元12用于根據(jù)特征參數(shù)獲取單元11獲取的特征參數(shù),利用決策樹初步判決 所述非噪聲音頻信號(hào)的類別;第二判決單元13用于根據(jù)非噪聲音頻信號(hào)的語 境和第一判決單元12的初步判決的結(jié)果,確定所述非噪聲音頻信號(hào)的類別; 狀態(tài)轉(zhuǎn)移單元14用于在所述非噪聲音頻信號(hào)進(jìn)行語音狀態(tài)和音樂狀態(tài)的轉(zhuǎn)換 之間加入過渡狀態(tài)。狀態(tài)轉(zhuǎn)移單元14包括狀態(tài)轉(zhuǎn)移判斷子單元141、持續(xù)時(shí)間判斷子單元142 和轉(zhuǎn)換子單元143,其中轉(zhuǎn)換子單元143分別與狀態(tài)轉(zhuǎn)移判斷子單元141和持 續(xù)時(shí)間判斷子單元142連接。狀態(tài)轉(zhuǎn)移判斷子單元141用于根據(jù)第二判決單元13確定的非噪聲音頻信 號(hào)的類別,與所述非噪聲音頻信號(hào)之前的類別,判斷所述非噪聲音頻信號(hào)的
狀態(tài)是否轉(zhuǎn)移;持續(xù)時(shí)間判斷子單元142用于判斷所述非噪聲音頻信號(hào)的類 別持續(xù)確定為同 一類型的時(shí)間是否到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門限值;轉(zhuǎn)換子 單元143用于根據(jù)狀態(tài)轉(zhuǎn)移判斷子單元141的判斷結(jié)果或持續(xù)時(shí)間判斷子單 元142的判斷結(jié)果,在所述非噪聲音頻信號(hào)的狀態(tài)與過渡狀態(tài)之間進(jìn)行轉(zhuǎn)換。特征參數(shù)獲取單元11獲取的非噪聲音頻信號(hào)的特征參數(shù)包括如下參數(shù)中 的至少一個(gè)歸一^1幀間^普波動(dòng)flux;歸一4b幀間i普波動(dòng)的方差varflux;歸 一化幀間謹(jǐn)波動(dòng)的方差滑動(dòng)平均varmovflux;歸一化頻帶謙波動(dòng)fflux;歸一 化頻帶語波動(dòng)的方差varfflux;歸 一化頻帶譜波動(dòng)的方差滑動(dòng)平均 varmovfflux;歸一化子帶能量標(biāo)準(zhǔn)差stdave;能量比率ratiol;能量比率的長(zhǎng) 時(shí)平均mov—ratiol;能量比率的方差var一ratiol;時(shí)域過零率zcr;諧波結(jié)構(gòu) 穩(wěn)定性特征hss。下面對(duì)所述非噪聲音頻信號(hào)的特征參數(shù)進(jìn)行說明1.歸一化幀間譜波動(dòng)flux及其衍生的歸一化幀間語波動(dòng)的方差varflux和 歸一化幀間i普波動(dòng)的方差滑動(dòng)平均varmovflux。歸一化幀間譜波動(dòng)flux描述了非噪聲音頻信號(hào)的幀和幀之間頻譜的變化。 其中,音樂信號(hào)的flux比較低,平穩(wěn);語音信號(hào)的flux通常比較高,變化大。 歸一化幀間i普波動(dòng)flux由7>式<formula>formula see original document page 9</formula>計(jì)算得到。其中,SigFpw為在時(shí)域范圍內(nèi)所述非噪聲音頻信號(hào)經(jīng)FFT變換后得到的 頻語幅度信號(hào)。FLUX—Fl和FLUX—F2為頻帶的邊界,在16KHz采樣模式下的一個(gè)實(shí)例 是FLUX—Fl=3, FLUX—F2=95;在8KHz采樣模式下的一個(gè)實(shí)例是 FLUX—F 1=1, FLUX—F2=47。norm為歸一化函數(shù),norm的一個(gè)特例是<formula>formula see original document page 9</formula>
其中,ave—amp為當(dāng)前幀與前面連續(xù)多幀的平均頻譜幅度。AVE—E一FLUX用來避免出現(xiàn)極小分母的情況,其一個(gè)實(shí)例是 AVE—E一FLUX =1000。2. 歸一化頻帶譜波動(dòng)fflux及其衍生的歸一化頻帶語波動(dòng)的方差varfflux 和歸一化頻帶語波動(dòng)的方差滑動(dòng)平均varmovfflux。歸一化頻帶譜波動(dòng)fflux描述了非噪聲音頻信號(hào)的同一幀中各子帶間頻譜 的變化。其中,音樂信號(hào)的fflux比較低,平穩(wěn);語音信號(hào)的fflux通常比較 高,變化大。歸一化頻帶譜波動(dòng)fflux由公式&gi>v(/,力—S^F/w(/, 乂 一 1) I=——^-計(jì)算得到。其中,SigFpw為在時(shí)域范圍內(nèi)所述非噪聲音頻信號(hào)經(jīng)FFT變換后得到的 頻譜幅度信號(hào)。FFLUX—Fl為頻帶的邊界,在16KHz采樣模式下的一個(gè)實(shí)例是 FFLUX—Fl=63;在8KHz釆樣才莫式下的一個(gè)實(shí)例是FFLUX—Fl=32。 norm為歸 一化函數(shù),norm的 一個(gè)特例是 "om = max(tf _ fl附p, K£ 一五一 MT)其中,ave_amp為當(dāng)前幀與前面連續(xù)多幀的平均頻譜幅度。 AVE—E一FLUX用來避免出現(xiàn)極小分母的情況,其一個(gè)實(shí)例是 AVE—E一FLUX =1000。3. 歸一化子帶能量標(biāo)準(zhǔn)差stdave。歸一化子帶能量標(biāo)準(zhǔn)差stdave為歸一化的幾個(gè)連續(xù)幀間的子帶能量的標(biāo) 準(zhǔn)差的結(jié)果求平均。歸一化子帶能量標(biāo)準(zhǔn)差stdave由公式-* y (7ev(V, / ) 一 mWev(7))2sW匿=(》"^-^-))/5c"f計(jì)算得到。其中,i為子帶序列號(hào); j為幀序列號(hào); Tlen為連續(xù)幀的個(gè)數(shù)實(shí)例中的可取Tlen=4個(gè)連續(xù)幀以提取短時(shí)特征, 可取Tlen=16個(gè)連續(xù)幀以提取長(zhǎng)時(shí)特征; Bent為頻域劃分出的子帶的個(gè)數(shù); lev (i, j)由公式計(jì)算得到;其中,Bi表示第i個(gè)子帶的頻帶邊界。4.能量比率ratiol及能量比率的長(zhǎng)時(shí)平均mov—ratiol和能量比率的方差 var一ratiol。能量比率ratiol為低帶能量占全帶能量的比率,語音信號(hào)的ratiol通常 比較大,變化也大;大多數(shù)音樂信號(hào)的ratiol通常比較小,變化比較大。能 量比率ratiol由公式<formula>formula see original document page 11</formula>計(jì)算得到;其中,Rl—Fl和Rl—F2是頻帶邊界并且滿足0^1—F2s"wt。 5.時(shí)域過零率zcr。在非噪聲音頻信號(hào)的語音中由于會(huì)間隔出現(xiàn)清音,所以會(huì)出現(xiàn)較音樂高的zcr。時(shí)i或過零率zcr由7>式 r—i<formula>formula see original document page 11</formula>計(jì)算得到;其中,當(dāng)A為truth時(shí),11"}為1;當(dāng)A為false時(shí),n")為0。 6.諧波結(jié)構(gòu)穩(wěn)定性特征hss。對(duì)于大多數(shù)音樂信號(hào),其諧波結(jié)構(gòu)的穩(wěn)定性顯著高于語音?,F(xiàn)有技術(shù) 中在計(jì)算該特征參數(shù)時(shí),需要估計(jì)信號(hào)的諧波結(jié)構(gòu),復(fù)雜度很高。本發(fā)明 實(shí)施例的一種獲取所述諧波結(jié)構(gòu)穩(wěn)定性特征hss的方法為首先,根據(jù)FFT頻i普信號(hào)的單調(diào)遞增區(qū)間和單調(diào)遞減區(qū)間,獲取所述信 號(hào)的本地峰值。本發(fā)明實(shí)施例將FFT頻譜信號(hào)視為離散多峰值函數(shù),搜索 該函數(shù)的單調(diào)遞增區(qū)間和單調(diào)遞減區(qū)間,從而得到本地峰值和全局峰值, 該算法只需對(duì)各頻率點(diǎn)搜索一遍并且不需要迭代。然后,根據(jù)多個(gè)最大的本地峰值,獲取所述信號(hào)的多個(gè)歸一化log峰值。 本發(fā)明實(shí)施例以A個(gè)最大的本地峰值為例,求最大的A個(gè)本地峰值 [《,尸2',及各個(gè)最大的本地峰值出現(xiàn)的位置,歸一化并求log得到所述 信號(hào)的多個(gè)歸一化1og峰值[丄if,Z4,…,丄g]。歸一化log峰值反映的是信號(hào)的 諧波結(jié)構(gòu)估計(jì),該參數(shù)由公式巧人log(巧)-log£/p (j=l, 2…,A)計(jì)算得到。最后,根據(jù)所述奮號(hào)的多個(gè)歸一化log峰值,獲取所述信號(hào)的歸一化log 峰值的平均方差。本發(fā)明實(shí)施例中信號(hào)的歸一化log峰值的平均方差VLP由 公式鮮'=S力(丄"-^L")2乂=1 t="19計(jì)算得到;其中,ALP為A個(gè)歸一化log峰值在N幀內(nèi)的均值,該參數(shù)由公式t"/計(jì)算得到; 為簡(jiǎn)化復(fù)雜度,ALP還可用滑動(dòng)平均代替。由于在獲取非噪聲音頻信號(hào)的特征參數(shù)時(shí),不是在進(jìn)行編碼算法過程中 獲取的,因此特征參數(shù)的獲取不依賴于任何編碼器;而且特征參數(shù)的獲取也 不依賴帶寬,從而使得GSAD不依賴于信號(hào)采樣率,增強(qiáng)了系統(tǒng)的可移植性。本實(shí)施例通過不依賴于編碼器算法的非噪聲音頻信號(hào)的特征參數(shù),對(duì) 所述非噪聲音頻信號(hào)的類別進(jìn)行判定,增強(qiáng)了算法的獨(dú)立性和可移植性。本發(fā)明實(shí)施例的一種確定非噪聲音頻信號(hào)類別的方法流程如圖2所示, 包括以下步驟步驟s201,獲取非噪聲音頻信號(hào)的特征參數(shù)。本發(fā)明實(shí)施例中,非噪聲
音頻信號(hào)的特征參數(shù)包括如下參數(shù)中的至少一個(gè)歸一化幀間鐠波動(dòng)flux;歸 一化幀間i普波動(dòng)的方差varflux;歸 一化幀間i普波動(dòng)的方差滑動(dòng)平均 varmovflux;歸一化頻帶譜波動(dòng)fflux;歸一化頻帶譜波動(dòng)的方差varfflux;歸 一化頻帶i普波動(dòng)的方差滑動(dòng)平均varmovfflux;歸一化子帶能量標(biāo)準(zhǔn)差stdave; 能量比率ratiol;能量比率的長(zhǎng)時(shí)平均mov一mtiol;能量比率的方差var—ratiol; 時(shí)域過零率zcr;諧波結(jié)構(gòu)穩(wěn)定性特征hss。步驟s202,根據(jù)獲取的特征參數(shù),利用決策樹初步判決非噪聲音頻信號(hào) 的類別。本發(fā)明實(shí)施例中的決策樹可以為多變量決策樹,也可以為單變量決策樹; 當(dāng)決策樹為單變量決策樹時(shí),可以使用多棵單變量決策樹,該多棵單變量決 策樹可以包括短時(shí)決策樹和長(zhǎng)時(shí)決策樹。步驟s203,根據(jù)非噪聲音頻信號(hào)的語境和初步判決的結(jié)果,確定非噪聲 音頻信號(hào)的類別。本實(shí)施例中確定非噪聲音頻信號(hào)的類別的過程為設(shè)置獲取的非噪聲音 頻信號(hào)的特征參數(shù)的拖尾保護(hù)值Ho, Ho為一個(gè)固定值(本實(shí)施例中Ho為 50),該值在對(duì)所述非噪聲音頻信號(hào)的類別的判決開始時(shí)進(jìn)行初始化,大于0 則減l。如果拖尾保護(hù)的任何一個(gè)參數(shù)的拖尾保護(hù)值Ho大于O,則置音樂特 征feature_mu或語音特征feature_sp為1。根據(jù)拖尾保護(hù)值和初步判決的結(jié)果, 判定所述非噪聲音頻信號(hào)為語音信號(hào)、音樂信號(hào)或不確定信號(hào)。如果步驟sl02 中判決的結(jié)果為音樂信號(hào),而feature一mu為0, feature一sp為1;或步驟sl02 中判決的結(jié)果為語音,而feature—sp為0, feature_mu為1,則置不確定標(biāo)志 uncertainflg為3 。在經(jīng)過拖尾保護(hù)之后,還可以對(duì)中間參數(shù)進(jìn)行更新。例如,當(dāng)更新兩個(gè) 中間參數(shù)音樂計(jì)數(shù)值music_Cnt和語音計(jì)數(shù)值speech—Cnt時(shí),如果經(jīng)過拖 尾保護(hù),判定的結(jié)果為語音信號(hào)或不確定信號(hào),則speech—Cnt加1, music—Cnt 置0,并且置speech—music—flgl為1;如果經(jīng)過拖尾保護(hù),判定的結(jié)果為音樂 4言號(hào),貝U music—Cnt力口 1, speech—Cnt置0, 并且置speech—music—flgl為0。 其中speech—music_flg 1是用來對(duì)拖尾保護(hù)判決的不確定幀(uncertainflg不為
0的幀)進(jìn)4亍判決,用變量speech—music一flg2寸呆存前一幀的speech—music—flgl, 當(dāng)拖尾保護(hù)判決的結(jié)果為不確定信號(hào)時(shí),如果speech—music—flg2為1,則判 決該不確定幀為語音信號(hào),否則判決該不確定幀為音樂信號(hào)。步驟s204,在非噪聲音頻信號(hào)進(jìn)行語音狀態(tài)和音樂狀態(tài)的轉(zhuǎn)換之間加入 過渡狀態(tài)。本發(fā)明實(shí)施例的一種非噪聲音頻信號(hào)的狀態(tài)轉(zhuǎn)移示意圖如圖3所 示,該非噪聲音頻信號(hào)包括四種狀態(tài)語音狀態(tài)、音樂狀態(tài)、語音到音樂狀 態(tài)和音樂到語音狀態(tài),其中語音到音樂狀態(tài)和音樂到語音狀態(tài)為過渡狀態(tài)。當(dāng)非噪聲音頻信號(hào)需要由音樂狀態(tài)轉(zhuǎn)換到語音狀態(tài),即當(dāng)確定所述非噪 聲音頻信號(hào)的類別為語音信號(hào),且所述非噪聲音頻信號(hào)之前的類別為音樂信 號(hào)時(shí),所述非噪聲音頻信號(hào)由音樂狀態(tài)進(jìn)入音樂到語音狀態(tài);當(dāng)所述非噪聲 音頻信號(hào)的類別持續(xù)確定為語音信號(hào)的時(shí)間到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門限值 時(shí),所述非噪聲音頻信號(hào)由音樂到語音狀態(tài)進(jìn)入語音信號(hào)狀態(tài)。當(dāng)非噪聲音頻信號(hào)需要由語音狀態(tài)轉(zhuǎn)換到音樂狀態(tài),即當(dāng)確定所述非噪 聲音頻信號(hào)的類別為音樂信號(hào),且所述非噪聲音頻信號(hào)之前的類別為語音信 號(hào)時(shí),所述非噪聲音頻信號(hào)由語音狀態(tài)進(jìn)入語音到音樂狀態(tài);當(dāng)所述非噪聲 音頻信號(hào)的類別持續(xù)確定為音樂信號(hào)的時(shí)間到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門限值 時(shí),所述非噪聲音頻信號(hào)由語音到音樂狀態(tài)進(jìn)入音樂信號(hào)狀態(tài)。當(dāng)非噪聲音頻信號(hào)需要由音樂狀態(tài)轉(zhuǎn)換到語音狀態(tài),即當(dāng)確定所述非噪 聲音頻信號(hào)的類別為語音信號(hào),且所述非噪聲音頻信號(hào)之前的類別為音樂信 號(hào)時(shí),所述非噪聲音頻信號(hào)由音樂狀態(tài)進(jìn)入音樂到語音狀態(tài);當(dāng)所述非噪聲 音頻信號(hào)的類別持續(xù)確定為語音信號(hào)的時(shí)間沒有到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門 限值時(shí),所述非噪聲音頻信號(hào)由音樂到語音狀態(tài)進(jìn)入音樂信號(hào)狀態(tài)。當(dāng)非噪聲音頻信號(hào)需要由語音狀態(tài)轉(zhuǎn)換到音樂狀態(tài),即當(dāng)確定所述非噪 聲音頻信號(hào)的類別為音樂信號(hào),且所述非噪聲音頻信號(hào)之前的類別為語音信 號(hào)時(shí),所述非噪聲音頻信號(hào)由語音狀態(tài)進(jìn)入語音到音樂狀態(tài);當(dāng)所迷非噪聲 音頻信號(hào)的類別持續(xù)確定為音樂信號(hào)的時(shí)間沒有到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門 限值時(shí),所述非噪聲音頻信號(hào)由語音到音樂狀態(tài)進(jìn)入語音信號(hào)狀態(tài)。在步驟s202中,當(dāng)利用多變量決策樹初步判決非噪聲音頻信號(hào)的類別時(shí),
可以利用包括多個(gè)特征參數(shù)的超平面決策樹結(jié)點(diǎn),初步判決所述非噪聲音頻 信號(hào)為語音信號(hào)或音樂信號(hào)。本發(fā)明實(shí)施例的一種多變量決策樹的結(jié)構(gòu)如圖4所示,本實(shí)施例利用一個(gè)超平面決策樹結(jié)點(diǎn)判斷-0.1032*varflux + 0.4603*varmovflux + 0.1662*varfflux + 0.0973 *varmovfflux + 0.9109*stdave + 0.2181*stdaveshort + 0,2824*mov—ratiol + 0.2688*ratiol -0.2851*var—ratiol -0.0053*zcr是否小于或等于1.3641完成初 步判決;如果是,則判定非噪聲音頻信號(hào)為音樂信號(hào),置music—flag為1;否 則判定非噪聲音頻信號(hào)為語音信號(hào),置speech_flag為1。在步驟s202中,當(dāng)利用單變量決策樹初步判決非噪聲音頻信號(hào)的類別時(shí), 本發(fā)明實(shí)施例的一種非噪聲音頻信號(hào)的初步判決方法流程如圖5所示。參照 圖5,本實(shí)施例包括以下步驟步驟s501,利用一個(gè)或多個(gè)包括一個(gè)特征參數(shù)及預(yù)先設(shè)定的與所述特征 參數(shù)對(duì)應(yīng)的參數(shù)門限值的決策樹結(jié)點(diǎn),獲取當(dāng)前非噪聲音頻信號(hào)的音樂/語音 概率。本實(shí)施例中采用兩棵決策樹, 一棵決策樹為長(zhǎng)時(shí)決策樹,采用反映長(zhǎng) 時(shí)凈爭(zhēng);f正的參數(shù)纟且(^口{varmovflux, varmovfflux, stdAve, mov—ratiol}), 另一棵 決策樹為短時(shí)決策樹,采用反映短時(shí)特征的參數(shù)組(如{ varflux, varfflux, stdAveshort, ratiol, var一ratiol, zcr})。本實(shí)施例中短時(shí)決策樹的結(jié)構(gòu)如圖6所 示,長(zhǎng)時(shí)決策樹的結(jié)構(gòu)如圖7所示。以圖6所示的短時(shí)決策樹為例,首先判 斷第一層樹結(jié)點(diǎn)如果Varflux小于1.02311成立,則進(jìn)入左邊的子結(jié)點(diǎn),反 之進(jìn)入右邊的子結(jié)點(diǎn)。假設(shè)Varflux小于1.02311,則下一步判斷Var—ratiol是 否小于29.1444,如果是,則ii7v葉子節(jié)點(diǎn),即輸出音樂概率為95.7°/。,語音 概率為4.3%;否則繼續(xù)判斷其右子結(jié)點(diǎn),依次類推,獲取在短時(shí)決策樹中當(dāng) 前非噪聲音頻信號(hào)的音樂/語音概率。在圖7所示的長(zhǎng)時(shí)決策樹中獲取當(dāng)前非 噪聲音頻信號(hào)的音樂/語音概率的過程與圖6所示的短時(shí)決策樹類似。步驟s502,選擇所述短時(shí)決策樹和長(zhǎng)時(shí)決策樹獲取的音樂/語音概率中最 大的音樂/語音概率,為當(dāng)前非噪聲音頻信號(hào)的音樂/語音概率。步驟s503,根據(jù)所述當(dāng)前非噪聲音頻信號(hào)的音樂/語音概率和預(yù)先設(shè)定的 才既率門限值,判定所述當(dāng)前非噪聲音頻信號(hào)為語音信號(hào)、音樂信號(hào)或不確定 信號(hào)。本實(shí)施例中如果決策樹輸出的音樂概率(或語音概率)大于預(yù)先設(shè)定 的第一概率門限值(本實(shí)施例中為0.8),且語音概率(或音樂概率)小于或等于預(yù)先設(shè)定的第二概率門限值(本實(shí)施例中為0.6),則判定所述當(dāng)前非噪 聲音頻信號(hào)為音樂信號(hào)(或語音信號(hào)),否則判定所述當(dāng)前非噪聲音頻信號(hào)為 不確定4言號(hào),置不確定標(biāo)志uncertain為1 。步驟s504,根據(jù)對(duì)所述當(dāng)前非噪聲音頻信號(hào)的判定結(jié)果,和相鄰連續(xù)語 音信號(hào)幀或相鄰連續(xù)音樂信號(hào)幀的幀數(shù),判定所述當(dāng)前非噪聲音頻信號(hào)為語 音信號(hào)或音樂信號(hào)。本實(shí)施例中,對(duì)每次判決,預(yù)先設(shè)置兩個(gè)全局的中間參 數(shù)music—Cnt和speech—Cnt。 music_Cnt為所述非噪聲音頻信號(hào)的當(dāng)前幀的 前幾幀中連續(xù)判決為音樂信號(hào)的幀數(shù);speech—Cnt為所述非噪聲音頻信號(hào)的 當(dāng)前幀的前幾幀中連續(xù)判決為語音信號(hào)的幀數(shù)。對(duì)于不確定標(biāo)志uncertain為 1的幀,如果speech—Cnt大于1,則將當(dāng)前幀判決為語音信號(hào)的幀,如果 music_Cnt大于10,則將當(dāng)前幀判決為音樂信號(hào)的幀。對(duì)于在步驟s503中已 經(jīng)確定的判決不進(jìn)^f于改變。本實(shí)施例通過不依賴于編碼器算法的非噪聲音頻信號(hào)的特征參數(shù),對(duì) 所述非噪聲音頻信號(hào)的類別進(jìn)行判定,增強(qiáng)了算法的獨(dú)立性和可移植性。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā) 明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過^5更件, 但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案 本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來, 該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算 機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí) 施例所述的方法。以上所述僅是本發(fā)明的實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技 術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾, 這些改進(jìn)和潤(rùn)飾也應(yīng)一見為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種確定非噪聲音頻信號(hào)類別的方法,其特征在于,包括以下步驟獲取非噪聲音頻信號(hào)的特征參數(shù);根據(jù)所述特征參數(shù),利用決策樹初步判決所述非噪聲音頻信號(hào)的類別;根據(jù)所述非噪聲音頻信號(hào)的語境和所述初步判決的結(jié)果,確定所述非噪聲音頻信號(hào)的類別。
2、 如權(quán)利要求l所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,所 述特征參數(shù)包括如下參數(shù)中的至少一個(gè)歸一化幀間"i普波動(dòng)flux;歸一〗匕幀間"i普波動(dòng)的方差varflux;歸一化幀間 譜波動(dòng)的方差滑動(dòng)平均varmovflux;歸一化頻帶譜波動(dòng)fflux;歸一化頻帶譜 波動(dòng)的方差varfflux;歸一化頻帶譜波動(dòng)的方差滑動(dòng)平均varmovfflux;歸一化 子帶能量標(biāo)準(zhǔn)差stdave;能量比率ratiol;能量比率的長(zhǎng)時(shí)平均mov—ratiol; 能量比率的方差var—ratiol;時(shí)域過零率zcr;諧波結(jié)構(gòu)穩(wěn)定性特征hss。
3、 如權(quán)利要求1所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,當(dāng)所述決策樹為多變量決策樹時(shí),所述利用決策樹初步判決非噪聲音頻信號(hào)的類別,具體包括利用包括多個(gè)特征參數(shù)的超平面決策樹結(jié)點(diǎn),初步判決所 述非噪聲音頻信號(hào)為語音信號(hào)或音樂信號(hào)。
4、 如權(quán)利要求l所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,當(dāng) 所述決策樹為單變量決策樹時(shí),所述利用決策樹初步判決非噪聲音頻信號(hào)的 類別,具體包括利用 一個(gè)或多個(gè)包括一個(gè)特征參數(shù)及預(yù)先設(shè)定的與所述特征參數(shù)對(duì)應(yīng)的 參數(shù)門限值的決策樹結(jié)點(diǎn),獲取當(dāng)前非噪聲音頻信號(hào)的音樂/語音概率;根據(jù)所述當(dāng)前非噪聲音頻信號(hào)的音樂/語音概率和預(yù)先設(shè)定的概率門限 值,判定所述當(dāng)前非噪聲音頻信號(hào)為語音信號(hào)、音樂信號(hào)或不確定信號(hào);根據(jù)對(duì)所述當(dāng)前非噪聲音頻信號(hào)的判定結(jié)果,和相鄰連續(xù)語音信號(hào)幀或 相鄰連續(xù)音樂信號(hào)幀的幀數(shù),判定所述當(dāng)前非噪聲音頻信號(hào)為語音信號(hào)或音 樂信號(hào)。
5、 如權(quán)利要求4所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,當(dāng) 利用多棵單變量決策樹獲取當(dāng)前非噪聲音頻信號(hào)的音樂/語音概率時(shí),在每棵單變量決策樹獲取到音樂/語音概率之后,還包括選擇所述多棵單變量決策 樹獲取的音樂/語音概率中最大的音樂/語音概率為當(dāng)前非噪聲音頻信號(hào)的音 樂/語音概率。
6、 如權(quán)利要求5所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,所 述多棵單變量決策樹包括短時(shí)決策樹和長(zhǎng)時(shí)決策樹。
7、 如權(quán)利要求l所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,所 述根據(jù)非噪聲音頻信號(hào)的語境和初步判決的結(jié)果,確定非噪聲音頻信號(hào)的類別,具體包括根據(jù)拖尾保護(hù)值和初步判決的結(jié)果,判定所述非噪聲音頻信號(hào)為語音信 號(hào)或音樂信號(hào)。
8、 如權(quán)利要求l所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,在 確定非噪聲音頻信號(hào)的類別之后,還包括在所述非噪聲音頻信號(hào)進(jìn)行語音 狀態(tài)和音樂狀態(tài)的轉(zhuǎn)換之間加入過渡狀態(tài)。
9、 如權(quán)利要求8所述確定非噪聲音頻信號(hào)類別的方法,其特征在于,所 述在非噪聲音頻信號(hào)進(jìn)行語音狀態(tài)和音樂狀態(tài)的轉(zhuǎn)換之間加入過渡狀態(tài),具 體包括當(dāng)確定所述非噪聲音頻信號(hào)的類別為語音信號(hào),且所述非噪聲音頻信號(hào) 之前的類別為音樂信號(hào)時(shí),所述非噪聲音頻信號(hào)由音樂狀態(tài)進(jìn)入過渡狀態(tài);當(dāng)所述非噪聲音頻信號(hào)的類別持續(xù)確定為語音信號(hào)的時(shí)間到達(dá)預(yù)先設(shè)置 的持續(xù)時(shí)間門限值時(shí),所述非噪聲音頻信號(hào)由過渡狀態(tài)進(jìn)入語音信號(hào)狀態(tài); 以及當(dāng)確定所述非噪聲音頻信號(hào)的類別為音樂信號(hào),且所述非噪聲音頻信號(hào) 之前的類別為語音信號(hào)時(shí),所述非噪聲音頻信號(hào)由語音狀態(tài)進(jìn)入過渡狀態(tài);當(dāng)所述非噪聲音頻信號(hào)的類別持續(xù)確定為音樂信號(hào)的時(shí)間到達(dá)預(yù)先設(shè)置 的持續(xù)時(shí)間門限值時(shí),所述非噪聲音頻信號(hào)由過渡狀態(tài)進(jìn)入音樂信號(hào)狀態(tài)。
10、 如權(quán)利要求9所述確定非噪聲音頻信號(hào)類別的方法,其特征在于, 所述在非噪聲音頻信號(hào)進(jìn)行語音狀態(tài)和音樂狀態(tài)的轉(zhuǎn)換之間加入過渡狀態(tài), 具體包括當(dāng)確定所述非噪聲音頻信號(hào)的類別為語音信號(hào),且所述非噪聲音頻信號(hào) 之前的類別為音樂信號(hào)時(shí),所述非噪聲音頻信號(hào)由音樂狀態(tài)進(jìn)入過渡狀態(tài);當(dāng)所述非噪聲音頻信號(hào)的類別持續(xù)確定為語音信號(hào)的時(shí)間沒有到達(dá)預(yù)先 設(shè)置的持續(xù)時(shí)間門限值時(shí),所述非噪聲音頻信號(hào)由過渡狀態(tài)進(jìn)入音樂信號(hào)狀 態(tài);以及當(dāng)確定所述非噪聲音頻信號(hào)的類別為音樂信號(hào),且所述非噪聲音頻信號(hào) 之前的類別為語音信號(hào)時(shí),所述非噪聲音頻信號(hào)由語音狀態(tài)進(jìn)入過渡狀態(tài);當(dāng)所述非噪聲音頻信號(hào)的類別持續(xù)確定為音樂信號(hào)的時(shí)間沒有到達(dá)預(yù)先 設(shè)置的持續(xù)時(shí)間門限值時(shí),所述非噪聲音頻信號(hào)由過渡狀態(tài)進(jìn)入語音信號(hào)狀 態(tài)。
11、 如權(quán)利要求2所述確定非噪聲音頻信號(hào)類別的方法,其特征在于, 獲耳又所述諧波結(jié)構(gòu)穩(wěn)定性特征hss的方法包括以下步驟才艮據(jù)FFT頻譜信號(hào)的單調(diào)遞增區(qū)間和單調(diào)遞減區(qū)間,獲取所述信號(hào)的本 地峰值;根據(jù)多個(gè)最大的本地峰值,獲取所述信號(hào)的多個(gè)歸一化log峰值; 根據(jù)所述信號(hào)的多個(gè)歸一化log峰值,獲取所述信號(hào)的歸一化log峰值的 平均方差。
12、 一種確定非噪聲音頻信號(hào)類別的裝置,其特征在于,包括 特征參數(shù)獲取單元,用于獲取非噪聲音頻信號(hào)的特征參數(shù); 第一判決單元,用于根據(jù)所述特征參數(shù)獲取單元獲取的特征參數(shù),利用決策樹初步判決所述非噪聲音頻信號(hào)的類別;第二判決單元,用于根據(jù)所述非噪聲音頻信號(hào)的語境和所述第 一判決單 元的初步判決的結(jié)果,確定所述非噪聲音頻信號(hào)的類別。
13、 如權(quán)利要求12所述確定非噪聲音頻信號(hào)類別的裝置,其特征在于, 還包括狀態(tài)轉(zhuǎn)移單元,用于在所述非噪聲音頻信號(hào)進(jìn)行語音狀態(tài)和音樂狀態(tài) 的轉(zhuǎn)換之間加入過渡狀態(tài)。
14、 如權(quán)利要求13所述確定非噪聲音頻信號(hào)類別的裝置,其特征在于,所述狀態(tài)轉(zhuǎn)移單元包括狀態(tài)轉(zhuǎn)移判斷子單元,用于根據(jù)所述第二判決單元確定的非噪聲音頻信 號(hào)的類別,與所述非噪聲音頻信號(hào)之前的類別,判斷所述非噪聲音頻信號(hào)的 狀態(tài)是否轉(zhuǎn)移;持續(xù)時(shí)間判斷子單元,用于判斷所述非噪聲音頻信號(hào)的類別持續(xù)確定為 同 一類型的時(shí)間是否到達(dá)預(yù)先設(shè)置的持續(xù)時(shí)間門限值;轉(zhuǎn)換子單元,用于根據(jù)所述狀態(tài)轉(zhuǎn)移判斷子單元的判斷結(jié)果或持續(xù)時(shí)間判斷子單元的判斷結(jié)果,在所述非噪聲音頻信號(hào)的狀態(tài)與過渡狀態(tài)之間進(jìn)行 轉(zhuǎn)換。
15、如權(quán)利要求12至14任一項(xiàng)所述確定非噪聲音頻信號(hào)類別的裝置, 其特征在于,所述特征參數(shù)包括如下參數(shù)中的至少一個(gè)歸一化幀間i普波動(dòng)flux;歸一化幀間語波動(dòng)的方差varflux;歸一化幀間 譜波動(dòng)的方差滑動(dòng)平均varmovflux;歸一化頻帶譜波動(dòng)fflux;歸一化頻帶譜 波動(dòng)的方差varfflux;歸一化頻帶i普波動(dòng)的方差滑動(dòng)平均vamiovfflux;歸一化 子帶能量標(biāo)準(zhǔn)差stdave;能量比率ratio 1;能量比率的長(zhǎng)時(shí)平均mov—ratiol; 能量比率的方差var一ratiol;時(shí)域過零率zcr;諧波結(jié)構(gòu)穩(wěn)定性特征hss。
全文摘要
本發(fā)明公開了一種確定非噪聲音頻信號(hào)類別的方法,首先,獲取非噪聲音頻信號(hào)的特征參數(shù);然后,根據(jù)所述特征參數(shù),利用決策樹初步判決所述非噪聲音頻信號(hào)的類別;最后,根據(jù)所述非噪聲音頻信號(hào)的語境和所述初步判決的結(jié)果,確定所述非噪聲音頻信號(hào)的類別。本發(fā)明還公開了一種確定非噪聲音頻信號(hào)類別的裝置。本發(fā)明通過不依賴于編碼器算法的非噪聲音頻信號(hào)的特征參數(shù),對(duì)所述非噪聲音頻信號(hào)的類別進(jìn)行判定,增強(qiáng)了算法的獨(dú)立性和可移植性。
文檔編號(hào)G10L25/48GK101399039SQ20071014998
公開日2009年4月1日 申請(qǐng)日期2007年9月30日 優(yōu)先權(quán)日2007年9月30日
發(fā)明者喆 王, 珺 王 申請(qǐng)人:華為技術(shù)有限公司