專利名稱:語音端點檢測中短時能頻值的提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自動字幕生成系統(tǒng)中的語音檢測技術(shù),具體涉及一種語音端點檢測中短時能頻值的提取方法。
背景技術(shù):
語音端點檢測技術(shù)是語音技術(shù)研究的一個新的領(lǐng)域,其應(yīng)用于自動字幕生成系統(tǒng)中。當(dāng)前的字幕制作方法首先需要準(zhǔn)備好字幕文稿,這種字幕文稿是指在制作電視節(jié)目之前,事先寫好的一個文本文件,記錄著節(jié)目的標(biāo)題、主持人要說的話,以及被采訪人所講的話等內(nèi)容。在制作電視節(jié)目時,編輯人員把音、視頻素材添加到非線性編輯軟件的故事板上,然后按照節(jié)目的主旨,對其進行編輯。編輯操作一般包括對素材位置的修改,添加一些特技,添加字幕等等。添加字幕時,一般是先在字幕文稿中選擇多段文字(每一段就是一句話),然后以這些文字生成一個新的字幕文件,將這個文件拖上非線性編輯軟件的軌道,此時字幕中的每一句話就會按順序播出,但是往往會出現(xiàn)“聲畫不同步”的現(xiàn)象,即字幕出現(xiàn)的時刻和音頻文件中播出的聲音對不上。這時就需要編輯人員一邊聽聲音,一邊一句句地修改字幕的入點和出點的值。這就非常耗費人力和時間,影響唱詞文件生成的質(zhì)量和效率。
從復(fù)雜背景噪聲中找出語音的起始點和結(jié)束點,即語音端點檢測技術(shù),一直是語音信號處理中的基本問題。由于語音端點檢測的重要性,人們已經(jīng)提出了很多種語音端點檢測方法。這些方法大致可以分為基于模型的方法和基于門限的方法兩類。
基于門限的語音端點檢測方法是根據(jù)語音的特點,選擇合適的特征參數(shù),然后將該特征參數(shù)與預(yù)先設(shè)定的門限值進行比較,或者是先對特征參數(shù)進行一系列的后期處理然后再與門限進行比較。
現(xiàn)有的基于門限的端點檢測參數(shù)主要有 1)能量以聲音的強度作為判斷參數(shù)。這種方法在高信噪比的情況下會有很好的效果。但是,在信噪比低的情況下,如在汽車引擎聲、關(guān)門聲等噪聲的干擾下,這種方法的準(zhǔn)確率很低。
2)頻率采用頻率域的特征作為判斷依據(jù)。這種方法可以準(zhǔn)確的區(qū)分語音和汽車引擎、關(guān)門聲等噪聲,但是,對于語音和樂音的區(qū)別效果較差。
無論采用哪種音頻參數(shù),傳統(tǒng)的語音端點檢測方法在特定的噪聲環(huán)境下都存在很大的不足。比如,基于能量的方法在低SNR的環(huán)境中表現(xiàn)不好;基于信息熵的算法在音樂背景下則會失效。
因此,有必要引入一種音頻參數(shù),能夠在多種噪聲條件下保證語音端點檢測的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對自動字幕生成系統(tǒng)的特點以及傳統(tǒng)語音端點檢測方法在語音特征參數(shù)選取上的缺陷,提供一種語音端點檢測中短時能頻值的提取方法,該方法將時域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長處,同時又可以在一定程度上規(guī)避各自的缺點,從而能夠有效的應(yīng)對各種不同類型的背景噪聲。
本發(fā)明的技術(shù)方案如下一種語音端點檢測中短時能頻值的提取方法,包括如下步驟 (1)將音頻采樣序列分成固定長度的幀,并形成一個幀序列; (2)針對每一幀數(shù)據(jù)提取短時能量、短時過零率和短時信息熵三個音頻特征參數(shù); (3)根據(jù)上述音頻特征參數(shù)按如下公式計算每一幀數(shù)據(jù)的短時能頻值,并形成一個短時能頻值序列, EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時能量、短時過零率和短時信息熵。
進一步,如上所述的語音端點檢測中短時能頻值的提取方法,在步驟(1)中,將音頻采樣序列分成10ms長度的幀。
進一步,如上所述的語音端點檢測中短時能頻值的提取方法,在步驟(2)中,所提取的第i幀的短時能量為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個采樣的取樣值。
進一步,如上所述的語音端點檢測中短時能頻值的提取方法,在步驟(2)中,所提取的第i幀的短時過零率為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個采樣的取樣值;sgn()為符號函數(shù),定義為 進一步,如上所述的語音端點檢測中短時能頻值的提取方法,在步驟(2)中,提取短時信息熵的步驟如下 (a)利用短時傅里葉變換(FFT)對每一幀的信號進行由時域向頻域的轉(zhuǎn)換 其中,Sn表示第n個音頻采樣,N為總采樣數(shù); (b)計算每一頻率的出現(xiàn)概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度, 所規(guī)定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 (c)計算語音信息熵 其中,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時信息熵。
更進一步,如上所述的語音端點檢測中短時能頻值的提取方法,在步驟(3)中,對每一幀的短時能頻值進行平滑處理,處理中對短時能量、短時過零率和短時信息熵三個音頻特征參數(shù)分別進行平滑,通常采用5幀平滑的方式,對于某一幀F(xiàn)n,設(shè)它的某個音頻特征參數(shù)是Xn,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2,則平滑后得到的音頻特征參數(shù)Xn-smoothed為 對于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 對于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 本發(fā)明的有益效果如下本發(fā)明所提供的語音端點檢測中短時能頻值的提取方法綜合考慮了語音的時域和頻域特征,將時域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長處,同時又可以在一定程度上規(guī)避各自的缺點。語音端點檢測所針對的一般是一段比較長的語音段,在此期間背景噪聲隨時有可能發(fā)生各種變化。當(dāng)檢測到背景噪聲的變化時,可以相應(yīng)的更新Eb、Zb和Hb三個參數(shù)的值,然后重新計算那些受此噪聲影響的幀的短時能頻值,從而使短時能頻值能夠?qū)Ρ尘霸肼暤淖兓龀龇磻?yīng),從而能夠有效的應(yīng)對各種不同類型的背景噪聲。
圖1為短時能頻值的提取流程圖。
圖2為短時能頻值的波形圖。
圖3為短時能頻值的平滑處理流程圖。
圖4為短時能頻值平滑處理前后的波形對比圖。
具體實施例方式 下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細的描述。
(一)短時能量、短時過零率和短時信息熵三個音頻特征參數(shù)的提取 1.短時能量 能量是最經(jīng)常使用的音頻特征參數(shù)之一,是對語音信號最直觀的表示。語音信號的能量分析基于語音信號幅度隨時間有相當(dāng)?shù)淖兓@一現(xiàn)象。能量可以用于區(qū)別發(fā)音的清音段和濁音段,能量值較大的對應(yīng)于清音段,能量值較小的對應(yīng)于濁音段。對于高信噪比的信號,可以用能量來判斷有無語音。無語音信號的噪聲能量較小,而有語音信號時能量會顯著增大,由此可以粗略區(qū)分語音信號的起始點和中止點。另外,能量還可以用來區(qū)分聲母和韻母的分界、以及連字的分界等。
在本發(fā)明中,采用“短時能量”作為主要的特征參數(shù)之一。所謂短時能量,就是先對音頻信號進行分幀處理,然后對每一幀求其能量,它被定義為一幀中所有采樣值平方的和。第i幀的短時能量定義為 其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個采樣的取樣值。
2.短時過零率 過零率是聲音信號處理過程中一個常用的音頻特征參數(shù)。當(dāng)離散語音信號的時域波形通過時間橫軸時,相鄰時刻的采樣值如果具有不同的符號,稱為“過零”。單位時間的過零次數(shù)稱為“過零率”,即單位時間內(nèi)音頻采樣值符號變換的次數(shù)。同上,在本發(fā)明中將單位時間限定為一幀,每一幀的過零率就是“短時過零率”。第i幀的短時過零率定義如下 其中,Sn表示第n個音頻采樣的值;sgn()為符號函數(shù),定義為 過零分析是語音的時域分析中最簡單的一種分析。它可以區(qū)別語音的發(fā)音是清音還是濁音。由于清音語音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過零率較高;而濁音語音具有高頻跌落的頻譜,因此濁音的過零率低。利用短時過零率還可以從背景噪聲中找出語音信號。在孤立詞的語音識別中,必須要在一串連續(xù)的語音信號中進行適當(dāng)分割,用以確定每個單詞語音的信號,也即找出每個單詞的開始和終止位置。用平均過零率來確定單詞的起始點時,判斷依據(jù)是語音開始點以前的過零率低,而開始點以后的過零率有明顯的數(shù)值。在有背景噪聲的情況下,一般背景噪聲的平均過零率較低,而單詞起始段的平均過零率急劇增大,由此可判定此單詞的起始點。
3.短時信息熵 語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此,對語音信號進行頻譜分析,是認(rèn)識語音信號和處理語音信號的重要方法。語音信號是一種典型的非平穩(wěn)信號,但是其非平穩(wěn)性是由發(fā)音器官的物理運動過程而產(chǎn)生的,由此可以假定其頻域也是短時平穩(wěn)的。
信息熵是頻域的重要音頻參數(shù),它反應(yīng)了語音信號所傳達的信息量的大小。信息熵在語音編解碼中經(jīng)常被使用,J.L.Shen首次將它應(yīng)用在語音端點檢測技術(shù)中。本發(fā)明同樣對每一幀都計算其信息熵,稱為短時信息熵,計算方法如下 (a)利用短時傅里葉變換(FFT)對每一幀的信號進行由時域向頻域的轉(zhuǎn)換 由于此處的傅立葉變換都是對某一幀進行的,因此相當(dāng)于對傅立葉變換加上了一個窗口函數(shù)w(n-k)。k的取值取決于要對哪一幀進行短時傅立葉變換。
(b)計算每一頻率的出現(xiàn)概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度,此處取480。
所規(guī)定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 第一個約束公式用來保證語音信號的頻率范圍。因為人的發(fā)音頻率基本集中在250Hz到3750Hz之間,所以我們把頻率限定在這個范圍之內(nèi)。第二個約束公式用來濾除在某些頻率上持續(xù)發(fā)生的噪聲。
(c)計算語音信息熵 其中,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時信息熵。
試驗證明,語音信號的信息熵和非語音信號的信息熵之間存在很大的差別,由此可以用來尋找語音端點的位置。在很多情況下,尤其是當(dāng)背景噪聲主要是機械噪聲時,使用信息熵作為特征參數(shù)比單純使用能量更加可靠。
但是,在連續(xù)不斷的背景噪聲或者音樂背景下,使用信息熵來進行語音端點檢測會非常不可靠。因為同語音一樣,連續(xù)的背景噪聲或者背景音樂也含有很多信息。相對而言,在這種情況下使用能量作為特征參數(shù)反而會取得較好的效果,因為語音與背景噪聲的疊加總會大過單純的背景噪聲。
(二)短時能頻值的確定 在上述三個音頻特征參數(shù)的基礎(chǔ)上,本發(fā)明提出了一個結(jié)合時域和頻域的語音特征參數(shù),稱作短時能頻值,記做EZE-feature。
1.短時能頻值的定義 第i幀的短時能頻值EZE-featurei的定義如下 EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;而Eb、Zb和Hb則分別表示了當(dāng)前背景噪聲的短時能量、短時過零率和短時信息熵。典型的短時能頻值波形如圖2所示,截取自一段新聞的短時能頻值波形。
短時能頻值同時結(jié)合了時域和頻域的語音特征。短時能量和短時過零率屬于時域的音頻特征參數(shù),短時信息熵則屬于頻域的音頻特征參數(shù)。將時域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長處,同時又可以在一定程度上規(guī)避它們各自的缺點,從而能夠有效的應(yīng)對各種不同類型的背景噪聲。
鑒于背景噪聲和背景音樂的這種不確定性,我們不可能一直使用音頻信號的前幾幀作為背景噪聲。而是應(yīng)該在端點檢測過程中,根據(jù)檢測出的語音情況,自動選取新的音頻幀作為背景噪聲進行處理。
首先,默認(rèn)音頻文件最初的10ms為環(huán)境音,將這10ms的音頻信號的短時能量平均值、短時過零率平均值和短時信息熵平均值作為最初的背景噪聲的短時能量Eb、短時過零率Zb和短時信息熵Hb。自適應(yīng)的語音端點檢測算法對于噪聲采取了一種反饋機制當(dāng)發(fā)現(xiàn)背景噪聲可能已經(jīng)發(fā)生變化時,算法要回退到噪聲發(fā)生變化之前的語音幀,重新進行檢測。其過程如下所述 1)找到了某個語音起點,記為第Fh幀,當(dāng)Fh與上一個語音終點Ft幀相距300ms以上時,則進行環(huán)境噪聲的提取。
2)從第Ft幀開始,取接下來的10幀當(dāng)作背景噪聲,重新計算Eb、Zb和Hb的值。計算方法為取算術(shù)平均,以Eb為例 3)從第Ft+1幀開始,使用更新后的Eb、Zb和Hb,重新計算每一幀的短時能頻值,得到新的短時能頻值序列。
4)從第Ft+1幀開始,使用新的短時能頻值序列重新執(zhí)行端點檢測過程。
2.短時能頻值的提取過程 在語音端點檢測過程中,我們需要求得每一幀的短時能頻值。求第i幀的短時能頻值,就要用到第i幀的短時能量、短時過零率和短時信息熵。其提取過程如圖1所示。
步驟1首先對音頻信號序列進行分幀處理,得到一個音頻幀序列。在本發(fā)明中將10ms規(guī)定為一幀。例如,如果音頻文件的采樣率是48k/s,那么每幀就應(yīng)該包含480個采樣。
步驟2從步驟1中得到的幀序列里的第一幀開始直到最后,計算每一幀的三個音頻特征參數(shù),得到短時能量序列、短時過零率序列和短時信息熵序列。
步驟3從幀序列里的第一幀開始直到最后,應(yīng)用步驟2里求得的三個音頻特征參數(shù)序列,并應(yīng)用每一幀所對應(yīng)的背景噪聲的相應(yīng)音頻特征參數(shù),按照短時能頻值的定義公式進行計算。重復(fù)此過程直到所有幀的短時能頻值都計算完成。最后得到一個與幀序列相對應(yīng)的短時能頻值序列。
3.短時能頻值的平滑處理 人的語音在字(詞)之間具有一定的相關(guān)性,字(詞)之間不會產(chǎn)生非常突兀的變化。因此,可以對上述三個語音特征參數(shù)進行平滑處理。一方面,由于噪聲的影響,音頻信號中可能出現(xiàn)突兀的毛刺現(xiàn)象,主要表現(xiàn)為在一系列平緩的音頻波形中突然出現(xiàn)劇烈震動的單個波(正常情況為一系列的震動波)。使用平滑處理可以有效地去除一些由噪聲引起的毛刺現(xiàn)象。另一方面,也對語音參數(shù)的有效性做出一定的優(yōu)化。語音信號是連續(xù)的,語音前后之間具有一定的相關(guān)性,將語音信號分割成一系列間斷幀的處理方式破壞了這種相關(guān)性,而平滑處理則可以在一定程度上彌補由于分幀處理帶來的影響。
平滑處理可在時域上進行,也可以在頻域上進行。本發(fā)明對音頻信號主要采取時域平滑的處理方式。
因為本發(fā)明中需要用到3個音頻特征參數(shù)短時能量、短時過零率和短時信息熵都是直接使用音頻信號的取樣值求得的,因此在進行平滑處理時也要對3個特征參數(shù)分別進行平滑。
對于某一幀F(xiàn)n進行平滑處理,設(shè)它的某個音頻特征參數(shù)是Xn。采用5幀平滑的方式,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2。則平滑后得到的音頻特征參數(shù)Xn-smoothed為 整個平滑處理的過程如圖3所示。在進行語音端點檢測之前,我們需要對音頻信號中的每一幀都按照上述方法進行平滑處理。
對于音頻信號中的開始兩幀以及最后兩幀,無法進行5幀平滑。在音頻文件中,一般在開始的兩幀和最后的兩幀中很少有語音出現(xiàn),因此對這些邊界幀進行異常處理并不會對語音端點檢測的準(zhǔn)確度產(chǎn)生大的影響。從而可以相應(yīng)的采取4幀或3幀進行平滑處理。
對第一幀,我們可以同時使用第1、2、3幀來進行3幀平滑;而對于第二幀,我們可以使用第1、2、3和4幀來進行4幀平滑。類似的,對于最后兩幀,我們可以使用相同的方法進行3幀或4幀平滑處理。
對于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 對于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為 圖4顯示了一段新聞的短時能頻值波形片斷,可以看出在平滑處理后,毛刺現(xiàn)象明顯減少,但是波形的大體輪廓保持不變。其中a圖為未平滑的波形,b圖為平滑后的波形。
通過仿真工具軟件matlab對很多音頻文件的短時能頻值波形研究后發(fā)現(xiàn)在語音和音樂疊加的時間段中,或者在只有語音的時間段中,短時能頻值波形的變化非常劇烈,變化頻率很高,而且變化的幅度非常大。而在既沒有語音又沒有音樂,只有背景噪聲的時間段中,短時能頻值基本保持很小的變化幅度,而且變化的頻率比較小。另外,在只有音樂沒有語音的時間段中,不管有沒有背景噪聲出現(xiàn),由于經(jīng)過了濾波器濾波后,音樂的高頻部分已經(jīng)被濾掉,所以雖然短時能頻值變化的幅度仍然非常大,但是,其變化的頻率卻比有語音時要緩和的多。因此,通過計算一個音頻文件的短時能頻值序列,并研究其波形,找出其中變化劇烈而且變化幅度較大的部分,就能夠找到此音頻文件中的語音部分,從而可以找到其語音端點。
本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種語音端點檢測中短時能頻值的提取方法,包括如下步驟
(1)將音頻采樣序列分成固定長度的幀,并形成一個幀序列;
(2)針對每一幀數(shù)據(jù)提取短時能量、短時過零率和短時信息熵三個音頻特征參數(shù);
(3)根據(jù)上述音頻特征參數(shù)按如下公式計算每一幀數(shù)據(jù)的短時能頻值,并形成一個短時能頻值序列,
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,EZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;Eb、Zb和Hb分別表示當(dāng)前背景噪聲的短時能量、短時過零率和短時信息熵。
2.如權(quán)利要求1所述的語音端點檢測中短時能頻值的提取方法,其特征在于在步驟(1)中,將音頻采樣序列分成10ms長度的幀。
3.如權(quán)利要求1或2所述的語音端點檢測中短時能頻值的提取方法,其特征在于在步驟(2)中,所提取的第i幀的短時能量為
其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個采樣的取樣值。
4.如權(quán)利要求1或2所述的語音端點檢測中短時能頻值的提取方法,其特征在于在步驟(2)中,所提取的第i幀的短時過零率為
其中,N表示第i幀中所包含的音頻采樣數(shù)量;Sn表示第n個采樣的取樣值;sgn()為符號函數(shù),定義為
5.如權(quán)利要求1或2所述的語音端點檢測中短時能頻值的提取方法,其特征在于在步驟(2)中,提取短時信息熵的步驟如下
(a)利用短時傅里葉變換(FFT)對每一幀的信號進行由時域向頻域的轉(zhuǎn)換
其中,Sn表示第n個音頻采樣,N為總采樣數(shù);
(b)計算每一頻率的出現(xiàn)概率
其中,s(fi)表示頻率f的頻譜能量,pi表示相應(yīng)頻率的出現(xiàn)概率,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度,
所規(guī)定的約束條件為
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
(c)計算語音信息熵
其中,M表示傅里葉變換計算得出的頻率的總數(shù),即窗口寬度,pi表示相應(yīng)頻率的出現(xiàn)概率,Hi表示第i幀的短時信息熵。
6.如權(quán)利要求1或2所述的語音端點檢測中短時能頻值的提取方法,其特征在于在步驟(3)中,對每一幀的短時能頻值進行平滑處理,處理中對短時能量、短時過零率和短時信息熵三個音頻特征參數(shù)分別進行平滑,通常采用5幀平滑的方式,對于某一幀F(xiàn)n,設(shè)它的某個音頻特征參數(shù)是Xn,找到它左右相鄰的4幀F(xiàn)n-2、Fn-1、Fn+1、Fn+2,并找出它們相應(yīng)的音頻特征參數(shù)Xn-2、Xn-1、Xn+1、Xn+2,則平滑后得到的音頻特征參數(shù)Xn-smoothed為
對于第一幀和最后一幀采用3幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為
對于第二幀和倒數(shù)第二幀采用4幀平滑的方式,平滑后得到的音頻特征參數(shù)分別為
全文摘要
本發(fā)明涉及自動字幕生成系統(tǒng)中的語音檢測技術(shù),具體涉及一種語音端點檢測中短時能頻值的提取方法。該方法將音頻采樣序列分成固定長度的幀,并形成一個幀序列;針對每一幀數(shù)據(jù)提取短時能量、短時過零率和短時信息熵三個音頻特征參數(shù);根據(jù)上述音頻特征參數(shù)計算每一幀數(shù)據(jù)的短時能頻值,并形成一個短時能頻值序列。本發(fā)明將時域和頻域的音頻特征參數(shù)結(jié)合在一起,能夠發(fā)揮它們各自的長處,同時又可以在一定程度上規(guī)避各自的缺點,從而能夠有效的應(yīng)對各種不同類型的背景噪聲。
文檔編號G10L11/00GK101625858SQ20081011646
公開日2010年1月13日 申請日期2008年7月10日 優(yōu)先權(quán)日2008年7月10日
發(fā)明者祺 李, 馬華東, 鄭侃彥, 韓忠濤, 婷 張 申請人:新奧特(北京)視頻技術(shù)有限公司