一種病人虛弱語音端點(diǎn)檢測方法

文檔序號：2833768閱讀：325來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種病人虛弱語音端點(diǎn)檢測方法
技術(shù)領(lǐng)域：
本發(fā)明屬于語音通信領(lǐng)域，具體涉及一種病人虛弱語音端點(diǎn)檢測方法。
背景技術(shù)：
未來人機(jī)交互最基本、最重要的手段是語音，而語音識別與合成是促使其普及發(fā)展的最關(guān)鍵技術(shù)。因此對語音識別的關(guān)鍵技術(shù)研究變的尤為重要。語音識別主要包括:語言特征提取、模式匹配和語言模型處理，其研究的對象分別是:語言特征序列、識別算法和語法語義分析。其中的關(guān)鍵技術(shù)有:端點(diǎn)檢測，動(dòng)態(tài)時(shí)間規(guī)整(DTW)，隱形馬爾科夫模型(HMM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等。端點(diǎn)檢測通常依據(jù)的語音特征有短時(shí)能量、過零率、LPC距離、頻譜熵、倒譜特征、TF參數(shù)、分形特征以及幾種參數(shù)相結(jié)合，例如能零積、能零比、頻能比、對數(shù)能量譜熵、子帶譜熵、能頻值等，但是這些參數(shù)性能過于單一，在低信噪比的條件下很難滿足實(shí)際的需求。傳統(tǒng)的端點(diǎn)檢測特征參數(shù)LPC距離、倒譜特征、TF參數(shù)和分形特征等參數(shù)計(jì)算量太大，對硬件要求很高，阻礙了人機(jī)交互技術(shù)在日常生活中的普及適用。

發(fā)明內(nèi)容
本發(fā)明提出一種病人虛弱語音端點(diǎn)檢測方法，通過對語音信號波形的圖像，或語音信號的頻譜圖像，包括時(shí)域的包絡(luò)圖像進(jìn)行圖像處理，運(yùn)用圖像處理中對圖像輪廓邊緣的檢測，進(jìn)行端點(diǎn)檢測。本發(fā)明的技術(shù)方案是:一種病人虛弱語音端點(diǎn)檢測方法，包括以下步驟:將語音信號轉(zhuǎn)換為圖像，對此圖像進(jìn)行拉伸和放大，將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像；對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作，即= 十B，其中Θ為腐蝕，為膨脹，再取邊界β (A)；β (A) = A-A(AOB)進(jìn)一步取波形輪廓，其中取邊界β (A)為一個(gè)像素點(diǎn)；使用平滑濾波器h (x)對信號進(jìn)行濾波，得到丨辦)=fix) /φν)，其中為卷積；對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn)；找到音頻最高點(diǎn)，搜索最高點(diǎn)兩邊的店，將前點(diǎn)和后點(diǎn)比較，若前點(diǎn)小于后點(diǎn)，則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。本發(fā)明的明顯效果是:這種方法比以往利用語音信號特征，例如能量，倒譜等人為找到的語音信息特征更為自然，更為簡單和精確。因?yàn)槿说娜庋蹖喞?，邊緣，間隔點(diǎn)的分辨率是相當(dāng)高的。通過與人眼相對應(yīng)的圖像識別來區(qū)分語音信號的端點(diǎn)。圖像處理從根本上說就是對人眼看到東西然后進(jìn)行處理這一過程的一種機(jī)器模擬，所以這里用圖像來識別比用機(jī)器對語音的其它特征進(jìn)行處理來得更精確。
語音特征參數(shù)和圖像識別結(jié)合在一起，能夠發(fā)揮他們各自的長處，同時(shí)又可以在一定程度上規(guī)避他們各自的缺點(diǎn)，擴(kuò)大了端點(diǎn)檢測的隔離度，從而能夠有效的應(yīng)對各種不同類型的背景噪聲。把圖像識別應(yīng)用于語音端點(diǎn)檢測中具有重大的理論和現(xiàn)實(shí)意義。尤其是病人說話語音和普通話中的一些清音的檢測效果更為明顯。

圖1為本發(fā)明的流程圖；圖2為本發(fā)明實(shí)施例中未經(jīng)處理的原始語音波形圖；圖3為本發(fā)明實(shí)施例中圖2放大2.3倍后的波形
圖4為本發(fā)明實(shí)施例中圖3進(jìn)一步拉伸后的波形圖；圖5為本發(fā)明實(shí)施例中圖2的二值圖的語音波形圖；圖6為本發(fā)明實(shí)施例中圖5的波形輪廓圖；圖7為本發(fā)明實(shí)施例中圖2經(jīng)平滑濾波和端點(diǎn)檢測后的示意圖；圖8為本發(fā)明實(shí)施例中通過傳統(tǒng)特征進(jìn)行檢測方法檢測后的波形圖；圖9為本發(fā)明實(shí)施例中圖8縱向橫向拉伸后的波形圖。
具體實(shí)施例方式以下結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步描述。如圖1所示，一種病人虛弱語音端點(diǎn)檢測方法，包括以下步驟:將語音信號轉(zhuǎn)換為圖像，對此圖像進(jìn)行拉伸和放大，將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像；對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作，即=其中Θ為腐蝕，為膨脹，再取邊界β (A)；β (A) = A-A(AOB)進(jìn)一步取波形輪廓，其中取邊界β (A)為一個(gè)像素點(diǎn)；使用平滑濾波器h(x)對信號進(jìn)行濾波，得到=其中為卷積；對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn)；找到音頻最高點(diǎn)，搜索最高點(diǎn)兩邊的店，將前點(diǎn)和后點(diǎn)比較，若前點(diǎn)小于后點(diǎn)，則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。本發(fā)明的技術(shù)原理是:2.1短時(shí)平均過零率過零率可以反映信號的頻譜特性。當(dāng)離散時(shí)間信號相鄰的兩個(gè)樣本點(diǎn)的正負(fù)號異號時(shí)，我們稱之為“過零”。統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號的次數(shù)即可以得到平均過零率。由于語音是一種短時(shí)平穩(wěn)信號，因此在統(tǒng)計(jì)平均過零率時(shí)往往按幀來計(jì)算，這樣的得到的就是短時(shí)平均過零率的定義。
OCZx=Yj |sgn[x(m)] -sgn[x(m -1)]| ( - m)( 1 )其中，sgn[]為符號函數(shù)，ω (η)為窗函數(shù),計(jì)算時(shí)常采用矩形窗，窗長為N。過零分析是語音的時(shí)域分析中最簡單的一種分析。它可以區(qū)別語音的發(fā)音是清音還是濁音。由于清音語音的多數(shù)能量出現(xiàn)在較高的頻率上，因此清音的過零率較高；而濁音語音具有高頻跌落的頻譜，因此濁音的過零率低。通過仿真分析，我們看出語音信號靜音段過零率較高，語音段的過零率較低；噪聲的過零率很高且在時(shí)間軸上分布均勻；對于帶背景噪聲的語音信號，噪聲段過零率很高，而在信號與噪聲疊加的語音段的過零率明顯降低。2.2短時(shí)能量由于語音信號的能量隨時(shí)間而變化，能量可以用于區(qū)別發(fā)音的清音段和濁音段，能量值較大的對應(yīng)于清音段，能量值較小的對應(yīng)于濁音段。所謂短時(shí)能量，就是先對音頻信號進(jìn)行分幀處理，然后對每一幀求其能量，它被定義為一幀中所有采樣值平方的和。 En= ^ m).coin - w)]'(,,,當(dāng)測試信號幀的短時(shí)能量超過噪聲能量門限并持續(xù)一定時(shí)間，則第一次超過能量門限的點(diǎn)被認(rèn)為是語音段的起點(diǎn)，然后當(dāng)被測信號幀的能量低于另一噪聲能量門限并持續(xù)一定時(shí)間，則被判為是語音段的終止點(diǎn)。這種方法在對噪聲能量的門限估計(jì)有較大的限制和要求。2.3基本譜熵信息熵是由Shannon引用到信息論中來的，在語音編碼中經(jīng)常被使用，而Shen等人第一次用譜熵作為端點(diǎn)檢測的特征參數(shù)。對一段語音信號進(jìn)行采樣、預(yù)加重、分幀、加窗等預(yù)處理，然后按幀間50%的重疊求FFT，得到其在頻率分量的能量譜SnKfi)，則每個(gè)頻率分量的歸一化概率密度函數(shù)(HF)定義。
權(quán)利要求
1.一種病人虛弱語音端點(diǎn)檢測方法，其特征在于，包括以下步驟: 將語音信號轉(zhuǎn)換為圖像，對此圖像進(jìn)行拉伸和放大，將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像；對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作，即』。Β = 十/ ，其中Θ為腐蝕，Φ為膨脹，再取邊界β (A)； β (A) =A-A(AOB)進(jìn)一步取波形輪廓，其中取邊界β (A)為一個(gè)像素點(diǎn)；使用平滑濾波器h (x)對信號進(jìn)行濾波，得到以gx =.fx') h(x)，其中為卷積；對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn)；找到音頻最高點(diǎn)，搜索最高點(diǎn)兩邊的店，將前點(diǎn)和后點(diǎn)比較，若前點(diǎn)小于后點(diǎn)，則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。
全文摘要
本發(fā)明公開一種病人虛弱語音端點(diǎn)檢測方法，包括以下步驟將語音信號轉(zhuǎn)換為圖像，對此圖像進(jìn)行拉伸和放大，將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像；對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作，即其中Θ為腐蝕，為膨脹，再取邊界β(A)；β(A)＝A-A(AΘB)進(jìn)一步取波形輪廓，其中取邊界β(A)為一個(gè)像素點(diǎn)；使用平滑濾波器h(x)對信號進(jìn)行濾波，得到其中為卷積；對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn)；找到音頻最高點(diǎn)，搜索最高點(diǎn)兩邊的店，將前點(diǎn)和后點(diǎn)比較，若前點(diǎn)小于后點(diǎn)，則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。
文檔編號G10L25/03GK103077728SQ201210594590
公開日2013年5月1日申請日期2012年12月31日優(yōu)先權(quán)日2012年12月31日
發(fā)明者尹巖巖, 殷業(yè), 肖龍, 關(guān)吉萍申請人:上海師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尹巖巖;殷業(yè);肖龍;關(guān)吉萍
技術(shù)所有人：上海師范大學(xué)
我是此專利的發(fā)明人

上一篇：一種語音應(yīng)答系統(tǒng)的制作方法
上一篇：一種爵士鼓模具的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語音端點(diǎn)檢測相關(guān)技術(shù)

語音信號端點(diǎn)檢測相關(guān)技術(shù)

語音信號的端點(diǎn)檢測相關(guān)技術(shù)

語音端點(diǎn)檢測算法相關(guān)技術(shù)

python語音端點(diǎn)檢測相關(guān)技術(shù)

語音端點(diǎn)檢測實(shí)驗(yàn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種病人虛弱語音端點(diǎn)檢測方法