亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

  • <span id="7dtyh"><tbody id="7dtyh"><dfn id="7dtyh"></dfn></tbody></span>
    <form id="7dtyh"><meter id="7dtyh"><xmp id="7dtyh"></xmp></meter></form>
      <li id="7dtyh"></li>

      一種門限自適應(yīng)的語音檢測系統(tǒng)的制作方法

      文檔序號:2821172閱讀:234來源:國知局
      專利名稱:一種門限自適應(yīng)的語音檢測系統(tǒng)的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種門限自適應(yīng)的語音檢測系統(tǒng),尤其是涉及一種基于模糊聚類的語音檢測系統(tǒng)。
      背景技術(shù)
      語音是未來用戶界面的主流。實用的語音信號處理系統(tǒng)必須能夠在千差萬別的聲學(xué)環(huán)境中穩(wěn)健地運行。語音檢測是語音信號處理中比較重要的一部分,其穩(wěn)健性將極大地影響后續(xù)的語音識別和語音編碼的性能。基于門限的語音檢測算法逐幀求取語音檢測特征,然后把特征的數(shù)值和門限進行比較,最后將得到的幀判決結(jié)果平滑。門限對于最后的檢測結(jié)果是至關(guān)重要的,過高或者過低的門限都無法給出正確的檢測結(jié)果。對于能量特征來說,采用固定門限的方法是不可取的,因為語音識別系統(tǒng)在不同的環(huán)境下使用會有不同的背景噪聲,用戶錄音的音量和信噪比也會不一樣,因此需要在使用時在線實時的計算語音檢測門限。
      已有的語音檢測門限估計算法的研究主要集中在以下的三個方面1.基于無聲段的門限估計算法,這種門限估計算法需要在識別的開始階段錄制環(huán)境噪聲,然后由環(huán)境噪聲的平均能量加上一個域值估計檢測的高低門限。這種方法物理意義明確,能量高于無聲段平均能量一定程度的即為語音,實現(xiàn)簡單,計算量小,而且在高信噪比環(huán)境下可以得到好的檢測結(jié)果。但是這種方法需要初始化的無聲段。對于真正的實用系統(tǒng),這是一個比較嚴(yán)格的要求。而且這種方法估計的門限值是固定不變的,因此不適合非平穩(wěn)的背景噪聲情況。
      2.基于能量直方圖的門限估計算法,利用能量分布直方圖確定語音檢測的門限。對于一段錄音,計算每幀的能量,然后根據(jù)所有的幀能量求取分布直方圖,然后由直方圖的峰值確定背景噪聲和語音的平均能量?;谀芰恐狈綀D的門限估計算法比基于初始化無聲段的門限估計方法要穩(wěn)健,因為它從直方圖的峰值獲得門限。沒有純無聲段的要求,對包含少量語音的錄音段仍然可以正確估計門限。但是準(zhǔn)確的估計直方圖需要比較多的錄音幀,數(shù)據(jù)量少時統(tǒng)計不充分,得到的直方圖不具有代表性。而且估計的直方圖和選取的區(qū)間個數(shù)相關(guān)。如果有少量的野點,就會使能量的動態(tài)范圍增大,從而使區(qū)間的精度降低,導(dǎo)致估計粗糙。
      3.基于一階自回歸的門限估計算法,利用當(dāng)前門限和新的幀能量的線性組合估計新的門限。當(dāng)前門限和當(dāng)前能量的線性組合計算新的門限。這種方法可以動態(tài)地更新門限,處理背景噪聲能量非平穩(wěn)的情況,但是更新門限依賴于當(dāng)前的檢測,如果檢測錯誤,可能會導(dǎo)致更新錯誤,而且更新門限的速度比較慢。
      從上面的方法來看,這幾種門限估計算法都還有需要改進的地方。

      發(fā)明內(nèi)容
      本發(fā)明的發(fā)明目的就是克服上述缺陷,提供一種能夠?qū)θ魏蔚匿浺舳喂烙嫏z測門限的語音門限估計裝置。這樣在非平穩(wěn)背景環(huán)境下,可以在檢測的過程中每隔一段時間,用最近錄制的幾秒的數(shù)據(jù)來估計新的門限用于后續(xù)檢測。只有對任何錄音段都能夠正確的估計門限,不需要依賴于上次檢測的結(jié)果,才不會由于上次的檢測錯誤導(dǎo)致更新門限錯誤。
      為達到上述目的,本發(fā)明是這樣實現(xiàn)的本發(fā)明采用模糊聚類和貝葉斯信息準(zhǔn)則,該語音檢測系統(tǒng)包括一種門限自適應(yīng)的語音檢測系統(tǒng),采用模糊聚類和貝葉斯信息準(zhǔn)則,該語音檢測系統(tǒng)包括一個語音采集裝置,用于采集說話者的語音信號;一個錄音緩存裝置,用于將從上述語音采集裝置中接收的最近錄音數(shù)據(jù)緩存;一個能量特征提取裝置,用于對上述錄音緩存裝置中存儲的輸入語音信號進行能量特征提取;一個模糊聚類裝置,用于對上述錄音緩存裝置中存儲的錄音數(shù)據(jù)進行模糊聚類;一個貝葉斯信息準(zhǔn)則裝置,用于對經(jīng)所述模糊聚類裝置處理后的數(shù)據(jù)進行聚類結(jié)果后處理;一個門限估計裝置,用于根據(jù)貝葉斯信息準(zhǔn)則裝置處理后的結(jié)果進行在線的檢測門限計算和更新;一個逐幀比較裝置,用于根據(jù)能量特征提取裝置及門限估計裝置的處理結(jié)果,對每幀的能量和門限進行比較,得到分幀檢測的結(jié)果;一個平滑裝置,用于把逐幀檢測的結(jié)果經(jīng)過平滑規(guī)則得到最后的基于句子的語音檢測。
      作為一種優(yōu)選方案,其中門限估計裝置采用基于模糊聚類和貝葉斯信息準(zhǔn)則的穩(wěn)健門限估計算法。
      作為一種優(yōu)選方案,其中對于一段錄音,將所有的幀能量通過模糊聚類算法來組織成一類和兩類,由貝葉斯信息準(zhǔn)則決定最佳的分類數(shù)目。
      其中如果最佳分類數(shù)目為一類,說明該段錄音只包含無聲段,可以用所有幀的平均能量作為無聲段平均能量的估計值。
      其中如果最佳分類數(shù)目為二類,說明該段錄音既包含無聲段又包含語音,可以用這兩類的類中心作為無聲段平均能量和語音平均能量的估計值。
      其中這兩個所述的估計值可以共同的決定語音檢測的門限。
      從上面的說明可以看出,本發(fā)明具有很好的穩(wěn)健性,能夠找到合適介于無聲段平均能量和語音平均能量中間的檢測門限,從而同時取得比較高的語音檢測率和背景噪聲檢測率。此外,發(fā)明不需要初始化的無聲段,而且能夠快速的跟蹤背景噪聲的變化,在平穩(wěn)和非平穩(wěn)背景環(huán)境下都可以很好的工作,具有很大的推廣和應(yīng)用價值。


      圖1為本發(fā)明實施例的總體流程框圖;圖2為模糊聚類算法的流程圖;圖3為本發(fā)明語音檢測部分的工作流程圖。
      具體實施例方式
      以下結(jié)合附圖和具體實施例對本發(fā)明做進一步的闡述如圖1所示,在該語音檢測系統(tǒng)中,采用模糊聚類和貝葉斯信息準(zhǔn)則,首先由一個語音采集裝置采集說話者的語音信號,接著由一個錄音緩存裝置將從上述語音采集裝置中接收的最近錄音數(shù)據(jù)緩存,然后在一個能量特征提取裝置中對上述錄音緩存裝置中存儲的輸入語音信號進行能量特征提取,同時由一個模糊聚類裝置對上述錄音緩存裝置中存儲的錄音數(shù)據(jù)進行模糊聚類,接著由一個貝葉斯信息準(zhǔn)則裝置對經(jīng)所述模糊聚類裝置處理后的數(shù)據(jù)進行聚類結(jié)果后處理,并通過一個門限估計裝置根據(jù)貝葉斯信息準(zhǔn)則裝置處理后的結(jié)果進行在線的檢測門限計算和更新,還有,通過一個逐幀比較裝置,用于根據(jù)能量特征提取裝置及門限估計裝置的處理結(jié)果,對每幀的能量和門限進行比較,得到分幀檢測的結(jié)果,接著由一個平滑裝置把逐幀檢測的結(jié)果經(jīng)過平滑規(guī)則得到最后的基于句子的語音檢測。
      作為一種優(yōu)選方案,其中門限估計裝置采用基于模糊聚類和貝葉斯信息準(zhǔn)則的穩(wěn)健門限估計算法。
      具體來說,對于一段錄音,將所有的幀能量通過模糊聚類算法來組織成一類和兩類,由貝葉斯信息準(zhǔn)則決定最佳的分類數(shù)目。
      其中如果最佳分類數(shù)目為一類,說明該段錄音只包含無聲段,可以用所有幀的平均能量作為無聲段平均能量的估計值。
      其中如果最佳分類數(shù)目為二類,說明該段錄音既包含無聲段又包含語音,可以用這兩類的類中心作為無聲段平均能量和語音平均能量的估計值。
      其中這兩個所述的估計值可以共同的決定語音檢測的門限。
      門限的估計和更新是由模糊聚類裝置,貝葉斯信息準(zhǔn)則裝置,門限估計裝置共同完成的。模糊聚類裝置用于對最近的錄音數(shù)據(jù)進行模糊聚類,貝葉斯信息準(zhǔn)則裝置進行聚類結(jié)果的后處理,門限估計裝置根據(jù)模糊聚類和貝葉斯信息準(zhǔn)則的結(jié)果進行在線的檢測門限更新。我們詳細的介紹這部分的工作。
      如圖2所示,整個算法的原理是利用聚類算法得到語音的平均能量和背景噪聲的平均能量,在二者都有的時候用它們共同確定門限,對沒有語音的錄音段利用無聲段的平均能量估計門限。其結(jié)構(gòu)是對于一段錄音,將所有的幀能量通過模糊聚類算法來組織成一類(C=1)和兩類(C=1),由貝葉斯信息值BIC(1)和BIC(2)決定最佳的分類數(shù)目Cbest。如果最佳分類數(shù)目Cbest為一類,說明該段錄音只包含無聲段,可以用m1,1作為無聲段平均能量的估計。如果最佳分類數(shù)目為二類,說明該段錄音既包含無聲段又包含語音,可以用這兩類的類中心Msilence和Mspeech作為無聲段平均能量和語音平均能量的估計。這兩個值可以共同的決定語音檢測的門限。
      下面對其中的模糊聚類算法進行說明。模糊聚類的算法介紹如下設(shè)x1,x2,K,xN是錄音緩沖隊列中的幀能量序列,聚為C類時候的算法如下m1,m2,K mC為類中心,μj(xi)為樣本xi對于第j類的隸屬度函數(shù)。給定類聚類數(shù)目C和模糊程度控制參數(shù)b,選擇初始化的類中心m1,m2,K mC,根據(jù)當(dāng)前類中心計算隸屬度函數(shù),mj=&Sigma;i=1N[&mu;j(xi)]bxi&Sigma;i=1N[&mu;j(xi)]b,j=1,2,K,C]]>用當(dāng)前的隸屬度計算各聚類中心, 重復(fù)上面兩步直到類中心不再改變。
      貝葉斯信息準(zhǔn)則是折衷考慮聚類似然度和聚類復(fù)雜度,用于確定最佳的聚類數(shù)目。貝葉斯信息值的定義為BIC(M)=logL(X,&Phi;)-&lambda;p12#&Phi;&times;log(N)]]>其中X={x1,x2,K,xN}是數(shù)據(jù)集,Φ={φ1,φ2,K,φC}是模型參數(shù)。L(X,Φ)是數(shù)據(jù)X和模型Φ的似然函數(shù),#Φ是模型Φ的參數(shù)個數(shù)。N是數(shù)據(jù)的個數(shù),λp是懲罰因子。由貝葉斯信息準(zhǔn)則,最佳的聚類數(shù)目對應(yīng)于最大的貝葉斯信息值。
      基于模糊聚類和貝葉斯信息準(zhǔn)則的語音檢測門限估計算法的結(jié)構(gòu)是利用聚類算法得到語音的平均能量和背景噪聲的平均能量,在二者都有的時候用它們共同確定門限,對沒有語音的錄音段利用無聲段的平均能量估計門限。算法的關(guān)鍵是利用了非監(jiān)督學(xué)習(xí),從待檢測的數(shù)據(jù)中學(xué)習(xí)門限,再用門限估計算法的結(jié)構(gòu)是利用聚類算法得到語音的平均能量和背景噪聲的平均能量,在二者都有的時候用它們共同確定門限,對沒有語音的錄音段利用無聲段的平均能量估計門限。算法的關(guān)鍵是利用了非監(jiān)督學(xué)習(xí),從待檢測的數(shù)據(jù)中學(xué)習(xí)門限,再用于檢測。
      得到檢測門限后,一個逐幀比較裝置把每幀的能量和門限進行比較,得到分幀檢測的結(jié)果。一個平滑裝置把分幀檢測的結(jié)果經(jīng)過平滑規(guī)則得到了最后的基于句子的語音檢測。如圖3,我們語音檢測逐幀把能量和門限進行比較,如果某幀的時域?qū)?shù)能量大于門限,那么就認(rèn)為檢測到了語音。分幀檢測的結(jié)果經(jīng)過平滑規(guī)則得到了最后的基于句子的語音檢測。檢測和平滑的規(guī)則當(dāng)語音信號的能量連續(xù)幾幀大于高門限TL后,向前搜索低門限TH得到語音的開始點,往后搜索到連續(xù)N幀低于低門限TL處得到語音的終止點。得到的語音段再經(jīng)過語音脈沖的合并和消除,根據(jù)段長去掉特別短的雜音,并且合并距離很近的兩段脈沖,如果當(dāng)前段的End和Begin中間的長度小于LEN,就刪除這段語音;如果當(dāng)前段的Begin和上一段的End增強的距離小于DIST,就合并這兩段。
      盡管參考確定的優(yōu)選實施例已經(jīng)描述了本發(fā)明,對于本領(lǐng)域技術(shù)人員來說可以進行眾多的修改和變化而不脫離本發(fā)明新穎的精神和范圍。
      權(quán)利要求
      1.一種門限自適應(yīng)的語音檢測系統(tǒng),采用模糊聚類和貝葉斯信息準(zhǔn)則,該語音檢測系統(tǒng)包括一個語音采集裝置,用于采集說話者的語音信號;一個錄音緩存裝置,用于將從上述語音采集裝置中接收的最近錄音數(shù)據(jù)緩存;一個能量特征提取裝置,用于對上述錄音緩存裝置中存儲的輸入語音信號進行能量特征提??;一個模糊聚類裝置,用于對上述錄音緩存裝置中存儲的錄音數(shù)據(jù)進行模糊聚類;一個貝葉斯信息準(zhǔn)則裝置,用于對經(jīng)所述模糊聚類裝置處理后的數(shù)據(jù)進行聚類結(jié)果后處理;一個門限估計裝置,用于根據(jù)貝葉斯信息準(zhǔn)則裝置處理后的結(jié)果進行在線的檢測門限計算和更新;一個逐幀比較裝置,用于根據(jù)能量特征提取裝置及門限估計裝置的處理結(jié)果,對每幀的能量和門限進行比較,得到分幀檢測的結(jié)果;一個平滑裝置,用于把逐幀檢測的結(jié)果經(jīng)過平滑規(guī)則得到最后的基于句子的語音檢測。
      2.如權(quán)利要求1所述的門限自適應(yīng)的語音檢測系統(tǒng),其中門限估計裝置采用基于模糊聚類和貝葉斯信息準(zhǔn)則的穩(wěn)健門限估計算法。
      3.如權(quán)利要求1所述的門限自適應(yīng)的語音檢測系統(tǒng),其中對于一段錄音,將所有的幀能量通過模糊聚類算法來組織成一類和兩類,由貝葉斯信息準(zhǔn)則決定最佳的分類數(shù)目。
      4.如權(quán)利要求3所述的門限自適應(yīng)的語音檢測系統(tǒng),其中如果最佳分類數(shù)目為一類,說明該段錄音只包含無聲段,可以用所有幀的平均能量作為無聲段平均能量的估計值。
      5.如權(quán)利要求3所述的門限自適應(yīng)的語音檢測系統(tǒng),其中如果最佳分類數(shù)目為二類,說明該段錄音既包含無聲段又包含語音,可以用這兩類的類中心作為無聲段平均能量和語音平均能量的估計值。
      6.如權(quán)利要求4或5之一所述的門限自適應(yīng)的語音檢測系統(tǒng),其中這兩個所述的估計值可以共同的決定語音檢測的門限。
      全文摘要
      本發(fā)明提供了一種可以在線的、不需要預(yù)先獲得錄音信道音量的語音檢測系統(tǒng),包括語音采集裝置、基于門限的語音檢測裝置、門限更新裝置。與現(xiàn)有語音檢測系統(tǒng)比較,該系統(tǒng)具有很好的穩(wěn)健性,能夠找到合適介于無聲平均能量和語音平均能量中間的檢測門限,同時取得比較高的語音檢測率和背景噪聲檢測率。此外,該系統(tǒng)還能夠快速的跟蹤背景噪聲的變化,在平穩(wěn)和非平穩(wěn)背景環(huán)境下都可以很好的工作。
      文檔編號G10L11/00GK1540623SQ20031010326
      公開日2004年10月27日 申請日期2003年11月4日 優(yōu)先權(quán)日2003年11月4日
      發(fā)明者吳及, 王作英, 田野, 吳 及 申請人:清華大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1