專利名稱:一種病人虛弱語音端點(diǎn)檢測方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音通信領(lǐng)域,具體涉及一種病人虛弱語音端點(diǎn)檢測方法。
背景技術(shù):
未來人機(jī)交互最基本、最重要的手段是語音,而語音識別與合成是促使其普及發(fā)展的最關(guān)鍵技術(shù)。因此對語音識別的關(guān)鍵技術(shù)研究變的尤為重要。語音識別主要包括:語言特征提取、模式匹配和語言模型處理,其研究的對象分別是:語言特征序列、識別算法和語法語義分析。其中的關(guān)鍵技術(shù)有:端點(diǎn)檢測,動(dòng)態(tài)時(shí)間規(guī)整(DTW),隱形馬爾科夫模型(HMM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等。端點(diǎn)檢測通常依據(jù)的語音特征有短時(shí)能量、過零率、LPC距離、頻譜熵、倒譜特征、TF參數(shù)、分形特征以及幾種參數(shù)相結(jié)合,例如能零積、能零比、頻能比、對數(shù)能量譜熵、子帶譜熵、能頻值等,但是這些參數(shù)性能過于單一,在低信噪比的條件下很難滿足實(shí)際的需求。傳統(tǒng)的端點(diǎn)檢測特征參數(shù)LPC距離、倒譜特征、TF參數(shù)和分形特征等參數(shù)計(jì)算量太大,對硬件要求很高,阻礙了人機(jī)交互技術(shù)在日常生活中的普及適用。
發(fā)明內(nèi)容
本發(fā)明提出一種病人虛弱語音端點(diǎn)檢測方法,通過對語音信號波形的圖像,或語音信號的頻譜圖像,包括時(shí)域的包絡(luò)圖像進(jìn)行圖像處理,運(yùn)用圖像處理中對圖像輪廓邊緣的檢測,進(jìn)行端點(diǎn)檢測。本發(fā)明的技術(shù)方案是:一種病人虛弱語音端點(diǎn)檢測方法,包括以下步驟:將語音信號轉(zhuǎn)換為圖像,對此圖像進(jìn)行拉伸和放大,將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像;對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作,即= 十B,其中Θ為腐蝕, 為膨脹,再取邊界β (A);β (A) = A-A(AOB)進(jìn)一步取波形輪廓,其中取邊界β (A)為一個(gè)像素點(diǎn);使用平滑濾波器h (x)對信號進(jìn)行濾波,得到丨辦)=fix) /φν),其中 為卷積;對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn);找到音頻最高點(diǎn),搜索最高點(diǎn)兩邊的店,將前點(diǎn)和后點(diǎn)比較,若前點(diǎn)小于后點(diǎn),則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。本發(fā)明的明顯效果是:這種方法比以往利用語音信號特征,例如能量,倒譜等人為找到的語音信息特征更為自然,更為簡單和精確。因?yàn)槿说娜庋蹖喞?,邊緣,間隔點(diǎn)的分辨率是相當(dāng)高的。通過與人眼相對應(yīng)的圖像識別來區(qū)分語音信號的端點(diǎn)。圖像處理從根本上說就是對人眼看到東西然后進(jìn)行處理這一過程的一種機(jī)器模擬,所以這里用圖像來識別比用機(jī)器對語音的其它特征進(jìn)行處理來得更精確。
語音特征參數(shù)和圖像識別結(jié)合在一起,能夠發(fā)揮他們各自的長處,同時(shí)又可以在一定程度上規(guī)避他們各自的缺點(diǎn),擴(kuò)大了端點(diǎn)檢測的隔離度,從而能夠有效的應(yīng)對各種不同類型的背景噪聲。把圖像識別應(yīng)用于語音端點(diǎn)檢測中具有重大的理論和現(xiàn)實(shí)意義。尤其是病人說話語音和普通話中的一些清音的檢測效果更為明顯。
圖1為本發(fā)明的流程圖;圖2為本發(fā)明實(shí)施例中未經(jīng)處理的原始語音波形圖;圖3為本發(fā)明實(shí)施例中圖2放大2.3倍后的波形
圖4為本發(fā)明實(shí)施例中圖3進(jìn)一步拉伸后的波形圖;圖5為本發(fā)明實(shí)施例中圖2的二值圖的語音波形圖;圖6為本發(fā)明實(shí)施例中圖5的波形輪廓圖;圖7為本發(fā)明實(shí)施例中圖2經(jīng)平滑濾波和端點(diǎn)檢測后的示意圖;圖8為本發(fā)明實(shí)施例中通過傳統(tǒng)特征進(jìn)行檢測方法檢測后的波形圖;圖9為本發(fā)明實(shí)施例中圖8縱向橫向拉伸后的波形圖。
具體實(shí)施例方式以下結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行進(jìn)一步描述。如圖1所示,一種病人虛弱語音端點(diǎn)檢測方法,包括以下步驟:將語音信號轉(zhuǎn)換為圖像,對此圖像進(jìn)行拉伸和放大,將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像;對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作,即=其中Θ為腐蝕, 為膨脹,再取邊界β (A);β (A) = A-A(AOB)進(jìn)一步取波形輪廓,其中取邊界β (A)為一個(gè)像素點(diǎn);使用平滑濾波器h(x)對信號進(jìn)行濾波,得到=其中 為卷積;對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn);找到音頻最高點(diǎn),搜索最高點(diǎn)兩邊的店,將前點(diǎn)和后點(diǎn)比較,若前點(diǎn)小于后點(diǎn),則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。本發(fā)明的技術(shù)原理是:2.1短時(shí)平均過零率過零率可以反映信號的頻譜特性。當(dāng)離散時(shí)間信號相鄰的兩個(gè)樣本點(diǎn)的正負(fù)號異號時(shí),我們稱之為“過零”。統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號的次數(shù)即可以得到平均過零率。由于語音是一種短時(shí)平穩(wěn)信號,因此在統(tǒng)計(jì)平均過零率時(shí)往往按幀來計(jì)算,這樣的得到的就是短時(shí)平均過零率的定義。
OCZx=Yj |sgn[x(m)] -sgn[x(m -1)]| ( - m)( 1 )其中,sgn[]為符號函數(shù),ω (η)為窗函數(shù),計(jì)算時(shí)常采用矩形窗,窗長為N。過零分析是語音的時(shí)域分析中最簡單的一種分析。它可以區(qū)別語音的發(fā)音是清音還是濁音。由于清音語音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過零率較高;而濁音語音具有高頻跌落的頻譜,因此濁音的過零率低。通過仿真分析,我們看出語音信號靜音段過零率較高,語音段的過零率較低;噪聲的過零率很高且在時(shí)間軸上分布均勻;對于帶背景噪聲的語音信號,噪聲段過零率很高,而在信號與噪聲疊加的語音段的過零率明顯降低。2.2短時(shí)能量由于語音信號的能量隨時(shí)間而變化,能量可以用于區(qū)別發(fā)音的清音段和濁音段,能量值較大的對應(yīng)于清音段,能量值較小的對應(yīng)于濁音段。所謂短時(shí)能量,就是先對音頻信號進(jìn)行分幀處理,然后對每一幀求其能量,它被定義為一幀中所有采樣值平方的和。 En= ^ m).coin - w)]'(,,,當(dāng)測試信號幀的短時(shí)能量超過噪聲能量門限并持續(xù)一定時(shí)間,則第一次超過能量門限的點(diǎn)被認(rèn)為是語音段的起點(diǎn),然后當(dāng)被測信號幀的能量低于另一噪聲能量門限并持續(xù)一定時(shí)間,則被判為是語音段的終止點(diǎn)。這種方法在對噪聲能量的門限估計(jì)有較大的限制和要求。2.3基本譜熵信息熵是由Shannon引用到信息論中來的,在語音編碼中經(jīng)常被使用,而Shen等人第一次用譜熵作為端點(diǎn)檢測的特征參數(shù)。對一段語音信號進(jìn)行采樣、預(yù)加重、分幀、加窗等預(yù)處理,然后按幀間50%的重疊求FFT,得到其在頻率分量的能量譜SnKfi),則每個(gè)頻率分量的歸一化概率密度函數(shù)(HF)定義。
權(quán)利要求
1.一種病人虛弱語音端點(diǎn)檢測方法,其特征在于,包括以下步驟: 將語音信號轉(zhuǎn)換為圖像,對此圖像進(jìn)行拉伸和放大,將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像; 對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作,即』。Β = 十/ ,其中Θ為腐蝕,Φ為膨脹,再取邊界β (A); β (A) =A-A(AOB)進(jìn)一步取波形輪廓,其中取邊界β (A)為一個(gè)像素點(diǎn); 使用平滑濾波器h (x)對信號進(jìn)行濾波,得到以gx =.fx') h(x),其中 為卷積; 對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn); 找到音頻最高點(diǎn),搜索最高 點(diǎn)兩邊的店,將前點(diǎn)和后點(diǎn)比較,若前點(diǎn)小于后點(diǎn),則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。
全文摘要
本發(fā)明公開一種病人虛弱語音端點(diǎn)檢測方法,包括以下步驟將語音信號轉(zhuǎn)換為圖像,對此圖像進(jìn)行拉伸和放大,將拉伸和放大后的圖像轉(zhuǎn)換成二值圖像;對語音信號的波形包絡(luò)所在區(qū)域進(jìn)行開操作,即其中Θ為腐蝕,為膨脹,再取邊界β(A);β(A)=A-A(AΘB)進(jìn)一步取波形輪廓,其中取邊界β(A)為一個(gè)像素點(diǎn);使用平滑濾波器h(x)對信號進(jìn)行濾波,得到其中為卷積;對g(x)求兩階導(dǎo)數(shù)以檢測邊緣點(diǎn);找到音頻最高點(diǎn),搜索最高點(diǎn)兩邊的店,將前點(diǎn)和后點(diǎn)比較,若前點(diǎn)小于后點(diǎn),則認(rèn)為此最高點(diǎn)兩邊的兩個(gè)點(diǎn)分別為詞或音節(jié)的起始和結(jié)束點(diǎn)。
文檔編號G10L25/03GK103077728SQ201210594590
公開日2013年5月1日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者尹巖巖, 殷業(yè), 肖龍, 關(guān)吉萍 申請人:上海師范大學(xué)