專利名稱:一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng)與控制方法
技術(shù)領(lǐng)域:
本發(fā)明屬于病變語(yǔ)音重建及語(yǔ)音增強(qiáng)技術(shù)領(lǐng)域,特別涉及一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng)與控制方法。
背景技術(shù):
電子喉是喉切除等喉部病變患者最常使用的輔助發(fā)聲工具之一。其使用方法易于掌握,但使用時(shí)需用手動(dòng)控制電子喉的位置與開關(guān)狀態(tài),給使用者造成了很大不便。此外,電子喉語(yǔ)音中所包含的各種輻射噪聲、背景噪聲也會(huì)嚴(yán)重影響電子喉語(yǔ)音的質(zhì)量。
目前國(guó)際上對(duì)電子喉位置與開關(guān)控制等問題進(jìn)行了一定程度的研究,但采用的方法主要集中在肌電信號(hào)提取與控制方面,這就造成了系統(tǒng)應(yīng)用中,必須通過相應(yīng)的傳感器,提取并處理肌電信號(hào),從而實(shí)現(xiàn)自動(dòng)控制電子喉的目的。由于肌電信號(hào)的提取放大與處理所需的設(shè)備要求較高,因此這種方式會(huì)造成整個(gè)系統(tǒng)的成本提高。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù)存在的局限或不足,本發(fā)明的目的在于,提供一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng)及其控制方法,該系統(tǒng)基于雙DSP的硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)的應(yīng)用軟件平臺(tái)兩種實(shí)現(xiàn)方式,實(shí)現(xiàn)對(duì)電子喉的自動(dòng)控制,從而使電子喉無(wú)須手持工作,使用更為便捷。同時(shí),對(duì)產(chǎn)生的電子喉語(yǔ)音進(jìn)行增強(qiáng)去噪等處理,提高電子喉語(yǔ)音的質(zhì)量。
本發(fā)明針對(duì)電子喉使用患者,在使用電子喉的過程中,實(shí)現(xiàn)自動(dòng)控制及相應(yīng)的語(yǔ)音增強(qiáng)功能,通過多種工作模式的選擇,使電子喉的使用簡(jiǎn)便程度和發(fā)出的語(yǔ)音質(zhì)量得到有效的提高。系統(tǒng)產(chǎn)生的電子喉語(yǔ)音還可實(shí)時(shí)記錄,以做進(jìn)一步處理之用。
為實(shí)現(xiàn)上述任務(wù),本發(fā)明采用如下的技術(shù)解決方案一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng),其特征在于,該系統(tǒng)基于雙DSP的硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)的應(yīng)用軟件平臺(tái)兩種實(shí)現(xiàn)方式,包括應(yīng)變傳感采集模塊、圖像傳感采集模塊、電子喉振動(dòng)模塊、語(yǔ)音數(shù)據(jù)采集模塊、A/D轉(zhuǎn)換模塊、控制模塊、數(shù)據(jù)處理模塊、D/A轉(zhuǎn)換模塊、濾波整形、功率放大和語(yǔ)音輸出模塊、電源模塊、擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊;應(yīng)變傳感采集模塊、圖像傳感采集模塊、電子喉振動(dòng)模塊與控制模塊連接,電子喉振動(dòng)模塊與語(yǔ)音數(shù)據(jù)采集模塊相連,語(yǔ)音數(shù)據(jù)采集模塊通過A/D轉(zhuǎn)換模塊與數(shù)據(jù)處理模塊連接;控制模塊和數(shù)據(jù)處理模塊分別與擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊連接,數(shù)據(jù)處理模塊還通過D/A轉(zhuǎn)換模塊與濾波整形、功率放大和語(yǔ)音輸出模塊連接,電源模塊負(fù)責(zé)整個(gè)系統(tǒng)的電源供應(yīng);其中,在DSP硬件系統(tǒng)平臺(tái)中,控制模塊、數(shù)據(jù)處理模塊由DSP芯片實(shí)現(xiàn),A/D轉(zhuǎn)換模塊、D/A轉(zhuǎn)換模塊、擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊由專門芯片實(shí)現(xiàn);在計(jì)算機(jī)應(yīng)用軟件平臺(tái)中,控制模塊、數(shù)據(jù)處理模塊由計(jì)算機(jī)CPU和相應(yīng)的軟件實(shí)現(xiàn),A/D轉(zhuǎn)換模塊、D/A轉(zhuǎn)換模塊由計(jì)算機(jī)聲卡實(shí)現(xiàn),擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊由計(jì)算機(jī)內(nèi)存、硬盤實(shí)現(xiàn)。
上述自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng)的控制方法,其特征在于,包括如下步驟1)系統(tǒng)啟動(dòng)后,采集當(dāng)前靜息狀態(tài)下的應(yīng)變值、口部圖像以及電子喉輻射噪聲;2)根據(jù)實(shí)際環(huán)境和使用者需要選擇工作模式,所述的工作模式為應(yīng)變傳感方式、圖像傳感方式和手動(dòng)控制三種,當(dāng)外部環(huán)境不適合采用前兩種自動(dòng)工作模式時(shí),則選擇手動(dòng)控制工作模式;
3)如果采用自動(dòng)工作模式,則循環(huán)采集控制量信號(hào),即應(yīng)變或圖像變化信號(hào),采樣頻率為2Hz;4)將采集到的控制量信號(hào)與設(shè)定閾值比較,超過閾值則啟動(dòng)電子喉;5)電子喉開始工作后,通過麥克風(fēng)分幀采集使用者發(fā)出的電子喉語(yǔ)音,并進(jìn)行數(shù)字化處理;6)通過基于聽覺掩蔽效應(yīng)的電子喉語(yǔ)音增強(qiáng)算法,結(jié)合之前采集的輻射噪聲,對(duì)每幀電子喉語(yǔ)音進(jìn)行增強(qiáng);7)將增強(qiáng)后的電子喉語(yǔ)音經(jīng)標(biāo)準(zhǔn)音頻接口輸出,并通過壓縮算法儲(chǔ)存;8)當(dāng)采集到的控制量信號(hào)低于閾值,則關(guān)閉電子喉,完成一個(gè)工作周期。
本發(fā)明通過應(yīng)變傳感器與攝像頭實(shí)現(xiàn)對(duì)控制量的采集,利用基于SAD算法的差動(dòng)量判別技術(shù),對(duì)電子喉進(jìn)行自動(dòng)控制。患者在使用中可以根據(jù)自己的實(shí)際需要,采用應(yīng)變傳感方式、圖像運(yùn)動(dòng)檢測(cè)傳感方式與手動(dòng)控制三種工作模式。其中,應(yīng)變傳感和圖像運(yùn)動(dòng)檢測(cè)傳感是兩種自動(dòng)工作模式,當(dāng)外部環(huán)境不適于自動(dòng)工作模式時(shí),可選擇使用傳統(tǒng)的手動(dòng)控制模式。此外,產(chǎn)生的電子喉語(yǔ)音通過麥克風(fēng)進(jìn)行采集、記錄,并利用基于聽覺掩蔽效應(yīng)的增強(qiáng)算法來(lái)消除語(yǔ)音中帶有的周期性背景噪聲和隨機(jī)噪聲,提高電子喉語(yǔ)音質(zhì)量。
基于應(yīng)變傳感方式的電子喉自動(dòng)控制實(shí)現(xiàn)步驟如下盡量保持面部平靜松弛,將兩個(gè)應(yīng)變傳感器分別置于面部?jī)蓚?cè),開機(jī)后傳感器將自動(dòng)讀取當(dāng)前的應(yīng)變值,并通過8位模數(shù)轉(zhuǎn)換送入DSP芯片,求出面部?jī)蓚?cè)應(yīng)變的平均值。設(shè)面部?jī)蓚?cè)應(yīng)變經(jīng)傳感器和模數(shù)轉(zhuǎn)換送入DSP的值分別為sL和sR,則求出兩側(cè)應(yīng)變平均值sM=(sL+sR)/2。
由于模數(shù)轉(zhuǎn)換為8位精度,故最大值為255。判斷電子喉開關(guān)的閾值設(shè)定為
S0=sM+(255-sM)×0.1根據(jù)上式求出閾值S0,并儲(chǔ)存起來(lái),并以2Hz的頻率不斷循環(huán)采集面部?jī)蓚?cè)應(yīng)變信號(hào)。由于人發(fā)聲時(shí),面部?jī)蓚?cè)肌肉動(dòng)作應(yīng)該是一致的,因此當(dāng)兩側(cè)采集到的應(yīng)變信號(hào)都高于閾值后,可判定為使用者開始發(fā)聲,則啟動(dòng)電子喉。電子喉開始工作后,面部應(yīng)變信號(hào)依然以原頻率進(jìn)行采集,以判斷電子喉停止工作的時(shí)刻。由于發(fā)聲過程中的語(yǔ)音間隔可能也導(dǎo)致面部低應(yīng)變狀態(tài),因此為了避免這種誤差影響,當(dāng)采集到低于閾值的應(yīng)變值時(shí),并不停止電子喉工作,而是當(dāng)連續(xù)兩幀的兩側(cè)應(yīng)變信號(hào)都低于閾值S0時(shí),才認(rèn)為使用者停止發(fā)聲,關(guān)閉電子喉。
基于圖像傳感方式的電子喉自動(dòng)控制實(shí)現(xiàn)步驟如下盡量保持面部、口部松弛平靜,系統(tǒng)開機(jī)后自動(dòng)通過攝像頭記錄當(dāng)前靜止?fàn)顟B(tài)下的口部8位灰度圖像作為參考,圖像分辨率設(shè)定為80×60。之后以2Hz的頻率對(duì)口部圖像進(jìn)行采樣,并將采集到的圖像劃分為12個(gè)20×20的子區(qū)域,分別編號(hào)1~12。在每一個(gè)子區(qū)域應(yīng)用下式與原參考圖像的相應(yīng)子區(qū)域進(jìn)行比較ϵk=Σi=120Σj=120|Xi,j-Yi,j|]]>其中,k為子區(qū)域編號(hào),1≤k≤12,(i,j)為子區(qū)域中任意一點(diǎn)的坐標(biāo),Xi,j為參考圖像中相應(yīng)點(diǎn)的灰度值,Yi,j則為當(dāng)前圖像中相應(yīng)點(diǎn)的灰度值。最后求出第k個(gè)子區(qū)域中的灰度絕對(duì)值差分和εk。
在口部圖像運(yùn)動(dòng)檢測(cè)中,將超過3%的平均灰度變化視為顯著運(yùn)動(dòng),則可設(shè)定閾值ε0=255×0.03×20×20=3060將每個(gè)εk(1≤k≤12)與閾值ε0進(jìn)行比較,當(dāng)εk≥ε0時(shí),則可認(rèn)為第k個(gè)子區(qū)域圖像發(fā)生顯著運(yùn)動(dòng)。設(shè)發(fā)生顯著運(yùn)動(dòng)的子區(qū)域共計(jì)n個(gè),則當(dāng)n≥6時(shí)(即發(fā)生顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù)),可認(rèn)為整個(gè)口部發(fā)生顯著運(yùn)動(dòng),即可判定為使用者開始發(fā)聲,電子喉開始工作。
啟動(dòng)電子喉之后,仍然以2Hz的頻率進(jìn)行圖像采樣。將采集到的每一幀圖像按照同樣的求絕對(duì)值差分和算法,與上一幀圖像進(jìn)行比較。如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為運(yùn)動(dòng)沒有停止,電子喉保持工作狀態(tài);如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則采用相同的求絕對(duì)值差分和算法,將當(dāng)前圖像再與最初儲(chǔ)存的靜止?fàn)顟B(tài)參考圖像比較。如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為使用者沒有恢復(fù)口部靜止?fàn)顟B(tài),電子喉保持工作狀態(tài);如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則認(rèn)為使用者已恢復(fù)口部靜止?fàn)顟B(tài),此時(shí)應(yīng)關(guān)閉電子喉。
基于聽覺掩蔽效應(yīng)的電子喉語(yǔ)音增強(qiáng)算法及實(shí)現(xiàn)步驟如下設(shè)y(t)=s(t)+n(t),其中y(t)為帶噪語(yǔ)音,s(t)為純凈語(yǔ)音,n(t)=n1(t)+n2(t),其中n1(t)為周期性輻射噪聲,n2(t)為隨機(jī)環(huán)境噪聲。這是建立在語(yǔ)音與噪聲不相關(guān),因而具有加性的假設(shè)前提下的。
則求出y(t)的頻譜為Y(ω)=Y(jié)R(ω)+iYI(ω)=FFT[y(t)]其中Y(ω)為y(t)的頻譜,YR(ω)和YI(ω)分別為Y(ω)的實(shí)部和虛部。
相應(yīng)的求出周期性背景噪聲和隨機(jī)噪聲頻譜估值為N(ω)=NR(ω)+iNI(ω)=FFT[n(t)]在一般情況下,n1(t)可以保持在整個(gè)電子喉發(fā)聲階段基本穩(wěn)定不變,而n2(t)則可能隨時(shí)隨環(huán)境發(fā)生變化。因此PN(ω)也可能是隨時(shí)間變化的。為了抵消這種變化帶來(lái)的影響,實(shí)現(xiàn)譜減系數(shù)的動(dòng)態(tài)調(diào)整,對(duì)帶噪語(yǔ)音計(jì)算其感知加權(quán)濾波器的頻響
T(z)=A(zσ1)A(zσ2)=1-Σk=1pakσ1kz-k1-Σk=1pakσ2kz-k]]>其中T(z)即為感知加權(quán)濾波器的z域頻響,ak為當(dāng)前語(yǔ)音幀的k階LPC系數(shù),p為L(zhǎng)PC系數(shù)的最高階數(shù),σ1,σ2(0≤σ2≤σ1≤1)為控制共振峰能量偏移的系數(shù)。
由感知加權(quán)濾波器頻響求出譜減系數(shù)α=αmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+αmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>β=βmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+βαmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>其中,α、β即為所求的譜減系數(shù),T(ω)為當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻響,T(ω)max、T(ω)min分別為當(dāng)前語(yǔ)音幀中T(ω)的最大值和最小值,αmax和βmax分別為α和β的最大值,αmin和βmin則分別為α和β的最小值。αmax、βmax、αmin和βmin一般根據(jù)語(yǔ)音中噪聲的類型和程度確定。
根據(jù)上式求出的譜減系數(shù),代入下式 求出純凈語(yǔ)音頻譜估值為 則純凈語(yǔ)音估值為s^(t)=IFFT[S^(ω)]]]>在本系統(tǒng)中,上述算法的實(shí)現(xiàn)步驟如下將電子喉置于正常使用位置并保持固定,系統(tǒng)啟動(dòng)后電子喉自動(dòng)振動(dòng)約0.5秒,以采集輻射噪聲和當(dāng)前環(huán)境噪聲。將這段噪聲做FFT變換,得到其功率譜,作為噪聲譜估值記錄下來(lái)。電子喉開始工作后,以8kHz的頻率對(duì)語(yǔ)音進(jìn)行采樣,每256個(gè)記錄點(diǎn)作為一幀。對(duì)每幀語(yǔ)音進(jìn)行FFT變換,得到其頻譜,并進(jìn)一步得到帶噪語(yǔ)音的功率譜。之后利用帶噪語(yǔ)音的功率譜,通過線性預(yù)測(cè)分析得到當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻率響應(yīng)。再根據(jù)感知加權(quán)濾波器頻響T(z)求出當(dāng)前幀中的譜減系數(shù)α、β,即可通過譜減運(yùn)算得到純凈語(yǔ)音功率譜估值。經(jīng)過相位還原和IFFT變換,則得到一幀純凈語(yǔ)音的估值。
在系統(tǒng)實(shí)現(xiàn)過程中,算法中的一些參數(shù)取值如下1)σ1=1,σ2=0.8;2)αmin=1,αmax=6;3)βmin=0,βmax=0.02(當(dāng)帶噪語(yǔ)音信噪比低于-5dB時(shí),βmax=0.002)。
本發(fā)明的方法所使用的自動(dòng)控制算法與信號(hào)處理算法經(jīng)過仿真檢驗(yàn),可以有效的實(shí)現(xiàn)電子喉的自動(dòng)控制,并提高電子喉語(yǔ)音的質(zhì)量。在主觀與客觀評(píng)測(cè)中,增強(qiáng)后的電子喉語(yǔ)音都有了明顯的改善。通過對(duì)電子喉的自動(dòng)控制和對(duì)電子喉語(yǔ)音的增強(qiáng)處理,可以使喉部病變患者的替代發(fā)聲更為簡(jiǎn)便易行,并取得良好的效果。
圖1為本發(fā)明的自動(dòng)電子喉及電子喉語(yǔ)音增強(qiáng)系統(tǒng)的結(jié)構(gòu)圖其中的標(biāo)號(hào)分別表示1、應(yīng)變傳感采集模塊,2、圖像傳感采集模塊,3、控制模塊,4、電子喉振動(dòng)模塊,5、語(yǔ)音數(shù)據(jù)采集模塊,6、A/D轉(zhuǎn)換模塊,7、數(shù)據(jù)處理模塊,8、D/A轉(zhuǎn)換模塊,9、濾波整形、功率放大及語(yǔ)音輸出模塊,10、程序擴(kuò)展存儲(chǔ)模塊,11、數(shù)據(jù)擴(kuò)展存儲(chǔ)模塊,12、電源模塊;圖2為本系統(tǒng)實(shí)現(xiàn)應(yīng)變控制部分的算法框圖。
圖3為本系統(tǒng)實(shí)現(xiàn)圖像控制部分的算法框圖。
圖4為基于感知加權(quán)濾波器的電子喉語(yǔ)音增強(qiáng)算法框圖。
圖5為基于感知加權(quán)濾波器的電子喉語(yǔ)音增強(qiáng)效果仿真示意圖,其中(a)圖為增強(qiáng)之前的電子喉語(yǔ)音信號(hào)波形,(b)圖為增強(qiáng)之后的電子喉語(yǔ)音信號(hào)波形。
以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
具體實(shí)施例方式
參見附圖,本發(fā)明分為基于應(yīng)力應(yīng)變傳感與圖像傳感兩種工作模式,從其他角度提出了電子喉自動(dòng)控制的實(shí)現(xiàn)思路與實(shí)施方案,并將技術(shù)方案分為基于DSP硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)應(yīng)用軟件平臺(tái)兩種實(shí)施方式。
本發(fā)明在硬件系統(tǒng)平臺(tái)中,采用基于雙DSP核心的硬件系統(tǒng)實(shí)現(xiàn);在計(jì)算機(jī)軟件平臺(tái)中,則采用專門開發(fā)的Windows應(yīng)用軟件實(shí)現(xiàn)。通過面部應(yīng)變檢測(cè)傳感和口部圖像運(yùn)動(dòng)檢測(cè)傳感的方式實(shí)現(xiàn)對(duì)電子喉的自動(dòng)控制,并利用基于感知加權(quán)濾波器的譜相減方法,對(duì)電子喉語(yǔ)音進(jìn)行去噪和增強(qiáng),以消除語(yǔ)音中所帶有的輻射噪聲和隨機(jī)噪聲,提高語(yǔ)音質(zhì)量。
面部應(yīng)變檢測(cè)傳感方式的電子喉自動(dòng)控制基于以下原則人在發(fā)聲時(shí),面部?jī)蓚?cè)肌肉、皮膚會(huì)隨著口形變化而產(chǎn)生應(yīng)變。一般而言,面部?jī)蓚?cè)的應(yīng)變應(yīng)保持一致,且相比于靜息狀態(tài)時(shí),始終保持正應(yīng)變狀態(tài)。因此,在使用者避免面部不必要?jiǎng)幼鞯那疤嵯拢灰獧z測(cè)出符合條件的應(yīng)變,即可作為發(fā)聲判定的依據(jù)。實(shí)現(xiàn)應(yīng)變自動(dòng)控制的方法如下佩戴好裝置,盡量保持面部平靜松弛,將兩個(gè)應(yīng)變傳感器分別置于面部?jī)蓚?cè),開機(jī)后傳感器將自動(dòng)讀取當(dāng)前的應(yīng)變值,通過8位模數(shù)轉(zhuǎn)換送入DSP芯片,求出面部?jī)蓚?cè)應(yīng)變的平均值sM,并設(shè)定判斷電子喉開關(guān)的閾值為S0=sM+(255-sM)×0.1根據(jù)上式求出閾值S0,并儲(chǔ)存起來(lái),并以2Hz的頻率不斷循環(huán)采集面部?jī)蓚?cè)應(yīng)變信號(hào)。當(dāng)兩側(cè)采集到的應(yīng)變信號(hào)都高于閾值后,可判定為使用者開始發(fā)聲,則啟動(dòng)電子喉。電子喉開始工作后,面部應(yīng)變信號(hào)依然以原頻率進(jìn)行采集,以判斷電子喉停止工作的時(shí)刻。由于發(fā)聲過程中的語(yǔ)音間隔可能也導(dǎo)致面部低應(yīng)變狀態(tài),因此為了避免這種誤差影響,當(dāng)采集到低于閾值的應(yīng)變值時(shí),并不停止電子喉工作,而是當(dāng)連續(xù)兩幀的兩側(cè)應(yīng)變信號(hào)都低于閾值S0時(shí),才認(rèn)為使用者停止發(fā)聲,關(guān)閉電子喉。
口部圖像運(yùn)動(dòng)檢測(cè)傳感方式的電子喉自動(dòng)控制基于以下原則在發(fā)聲時(shí),口部形狀和圖像必然會(huì)發(fā)生變化,因此只要檢測(cè)出符合條件的口部圖像變化,即可作為發(fā)聲判定的依據(jù)。對(duì)口部圖像運(yùn)動(dòng)的檢測(cè)采用基于SAD(Sum-Absolute-Difference)的算法。SAD算法可應(yīng)用于圖像運(yùn)動(dòng)檢測(cè)、運(yùn)動(dòng)追蹤等方面,在本系統(tǒng)中,不需要追蹤圖像運(yùn)動(dòng)的軌跡,而只要確認(rèn)口部圖像開始運(yùn)動(dòng),即可作為判定開始發(fā)聲的控制信號(hào)。實(shí)現(xiàn)圖像傳感控制的方法如下盡量保持面部、口部松弛平靜,系統(tǒng)開機(jī)后自動(dòng)通過攝像頭記錄當(dāng)前靜止?fàn)顟B(tài)下的口部8位灰度圖像作為參考,圖像分辨率設(shè)定為80×60。之后以2Hz的頻率對(duì)口部圖像進(jìn)行采樣,并將采集到的圖像劃分為12個(gè)20×20的子區(qū)域,分別編號(hào)1~12。在每一個(gè)子區(qū)域應(yīng)用下式與原參考圖像的相應(yīng)子區(qū)域進(jìn)行比較ϵk=Σi=120Σj=120|Xi,j-Yi,j|]]>其中,k為子區(qū)域編號(hào),1≤k≤12,(i,j)為子區(qū)域中任意一點(diǎn)的坐標(biāo),Xi,j為參考圖像中相應(yīng)點(diǎn)的灰度值,Yi,j則為當(dāng)前圖像中相應(yīng)點(diǎn)的灰度值。最后求出第k個(gè)子區(qū)域中的灰度絕對(duì)值差分和εk,并設(shè)定閾值為ε0=255×0.03×20×20=3060將每個(gè)εk(1≤k≤12)與閾值ε0進(jìn)行比較,當(dāng)εk≥ε0時(shí),則可認(rèn)為第k個(gè)子區(qū)域圖像發(fā)生顯著運(yùn)動(dòng)。設(shè)發(fā)生顯著運(yùn)動(dòng)的子區(qū)域共計(jì)n個(gè),則當(dāng)n≥6時(shí)(即發(fā)生顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù)),可認(rèn)為整個(gè)口部發(fā)生顯著運(yùn)動(dòng),即可判定為使用者開始發(fā)聲,電子喉開始工作。
啟動(dòng)電子喉之后,仍然以2Hz的頻率進(jìn)行圖像采樣。將采集到的每一幀圖像按照同樣的求絕對(duì)值差分和算法,與上一幀圖像進(jìn)行比較。如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為運(yùn)動(dòng)沒有停止,電子喉保持工作狀態(tài);如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則采用相同的求絕對(duì)值差分和算法,將當(dāng)前圖像再與最初儲(chǔ)存的靜止?fàn)顟B(tài)參考圖像比較。如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為使用者沒有恢復(fù)口部靜止?fàn)顟B(tài),電子喉保持工作狀態(tài);如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則認(rèn)為使用者已恢復(fù)口部靜止?fàn)顟B(tài),此時(shí)應(yīng)關(guān)閉電子喉。
基于聽覺掩蔽效應(yīng)的電子喉語(yǔ)音增強(qiáng)算法基于以下假設(shè)噪聲與語(yǔ)音不相關(guān),且噪聲和語(yǔ)音都保持短時(shí)平穩(wěn)。將帶噪語(yǔ)音作頻譜變換,根據(jù)每一幀語(yǔ)音不同的譜減系數(shù)減去噪聲譜,再利用人耳對(duì)相位不敏感的特性,用帶噪語(yǔ)音頻譜的相位替代純凈語(yǔ)音頻譜的相位,恢復(fù)到時(shí)域即可得到純凈語(yǔ)音的估值。具體實(shí)現(xiàn)步驟可表述如下設(shè)y(t)=s(t)+n(t),其中y(t)為帶噪語(yǔ)音,s(t)為純凈語(yǔ)音,n(t)=n1(t)+n2(t),其中n1(t)為周期性輻射噪聲,n2(t)為隨機(jī)環(huán)境噪聲。這是建立在語(yǔ)音與噪聲不相關(guān),因而具有加性的假設(shè)前提下的。
則求出y(t)的頻譜為Y(ω)=Y(jié)R(ω)+iYI(ω)=FFT[y(t)]其中Y(ω)為y(t)的頻譜,YR(ω)和YI(ω)分別為Y(ω)的實(shí)部和虛部。
相應(yīng)的求出周期性背景噪聲和隨機(jī)噪聲頻譜估值為N(ω)=NR(ω)+iNI(ω)=FFT[n(t)]在一般情況下,n1(t)可以保持在整個(gè)電子喉發(fā)聲階段基本穩(wěn)定不變,而n2(t)則可能隨時(shí)隨環(huán)境發(fā)生變化。因此PN(ω)也可能是隨時(shí)間變化的。為了抵消這種變化帶來(lái)的影響,實(shí)現(xiàn)譜減系數(shù)的動(dòng)態(tài)調(diào)整,對(duì)帶噪語(yǔ)音計(jì)算其感知加權(quán)濾波器的頻響T(z)=A(zσ1)A(zσ2)=1-Σk=1pakσ1kz-k1-Σk=1pakσ2kz-k]]>其中T(z)即為感知加權(quán)濾波器的z域頻響,ak為當(dāng)前語(yǔ)音幀的k階LPC系數(shù),p為L(zhǎng)PC系數(shù)的最高階數(shù),σ1,σ2(0≤σ2≤σ1≤1)為控制共振峰能量偏移的系數(shù)。
由感知加權(quán)濾波器頻響求出譜減系數(shù)α=αmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+αmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>β=βmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+βmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>其中,α、β即為所求的譜減系數(shù),T(ω)為當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻響,T(ω)max、T(ω)min分別為當(dāng)前語(yǔ)音幀中T(ω)的最大值和最小值,αmax和βmax分別為α和β的最大值,αmin和βmin則分別為α和β的最小值。αmax、βmax、αmin和βmin一般根據(jù)語(yǔ)音中噪聲的類型和程度確定。
根據(jù)上式求出的譜減系數(shù),代入下式 求出純凈語(yǔ)音頻譜估值為 則純凈語(yǔ)音估值為s^(t)=IFFT[S^(ω)]]]>
在本系統(tǒng)中,上述算法的實(shí)現(xiàn)步驟如下將電子喉置于正常使用位置并保持固定,系統(tǒng)開機(jī)后電子喉自動(dòng)振動(dòng)約0.5秒,以采集初始狀態(tài)下的輻射噪聲和當(dāng)前環(huán)境噪聲。將這段噪聲做FFT變換,得到其功率譜,作為初始噪聲譜估值記錄下來(lái)。電子喉開始工作后,以8kHz的頻率對(duì)語(yǔ)音進(jìn)行采樣,每256個(gè)記錄點(diǎn)作為一幀。對(duì)每幀語(yǔ)音進(jìn)行FFT變換,得到其頻譜,并進(jìn)一步得到帶噪語(yǔ)音的功率譜。之后利用帶噪語(yǔ)音的功率譜,通過線性預(yù)測(cè)分析得到當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻率響應(yīng)。再根據(jù)感知加權(quán)濾波器頻響T(z)求出當(dāng)前幀中的譜減系數(shù)α、β,即可通過譜減運(yùn)算得到純凈語(yǔ)音功率譜估值。經(jīng)過相位還原和IFFT變換,則得到一幀純凈語(yǔ)音的估值。
在本系統(tǒng)工作過程中,電子喉的工作狀態(tài)可能不是連續(xù)的,而是由使用者控制量變化決定的間斷工作方式,即電子喉會(huì)隨著使用者面部應(yīng)變或口部圖像的變化而隨時(shí)進(jìn)入開啟或關(guān)閉狀態(tài)。為了提高噪聲估計(jì)的精度,對(duì)增強(qiáng)算法的實(shí)現(xiàn)方式進(jìn)行了改進(jìn)。具體改進(jìn)方法如下,從使用者控制量恢復(fù)靜息狀態(tài)到電子喉停止工作之間存在一個(gè)時(shí)間延遲,該延遲為0~1秒,因此在一段電子喉語(yǔ)音停止之前,存在一個(gè)0~1秒的時(shí)間段,該時(shí)間段內(nèi)使用者已經(jīng)停止發(fā)聲,但電子喉仍然保持工作狀態(tài),這段時(shí)間內(nèi)采集到的語(yǔ)音信號(hào)應(yīng)該僅包括電子喉的輻射噪聲與環(huán)境噪聲。將電子喉停止工作前采集到的最后一幀語(yǔ)音信號(hào)與初始噪聲信號(hào)的功率譜作比較,當(dāng)這兩幀信號(hào)的能量相差不超過10%時(shí),即可認(rèn)為采集到的最后一幀語(yǔ)音信號(hào)為純?cè)肼暎⒋藥盘?hào)作為更新后的噪聲估值,替代初始噪聲;當(dāng)兩幀信號(hào)的能量相差超過10%時(shí),則采集到的最后一幀語(yǔ)音信號(hào)可能還包括語(yǔ)音成分,不能作為噪聲估值,因此保持初始噪聲不變。
在系統(tǒng)實(shí)現(xiàn)過程中,算法中的一些參數(shù)取值如下1)σ1=1,σ2=0.8;2)αmin=1,αmax=6;
3)βmin=0,βmax=0.02(當(dāng)帶噪語(yǔ)音信噪比低于-5dB時(shí),βmax=0.002)。
參看圖1,圖1是按照上述方法實(shí)現(xiàn)的一種自動(dòng)電子喉及電子喉語(yǔ)音增強(qiáng)系統(tǒng)的原理圖。整體系統(tǒng)包括應(yīng)變傳感采集模塊1、圖像傳感采集模塊2、電子喉振動(dòng)模塊4、語(yǔ)音數(shù)據(jù)采集模塊5、A/D轉(zhuǎn)換模塊6、控制模塊3、數(shù)據(jù)處理模塊7、D/A轉(zhuǎn)換模塊8、濾波整形、功率放大和語(yǔ)音輸出模塊9、電源模塊12、擴(kuò)展程序存儲(chǔ)模塊11、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊12;變傳感采集模塊1、圖像傳感采集模塊2、電子喉振動(dòng)模塊4與控制模塊3連接,電子喉振動(dòng)模塊4與語(yǔ)音數(shù)據(jù)采集模塊5相連,語(yǔ)音數(shù)據(jù)采集模塊5通過A/D轉(zhuǎn)換模塊6與數(shù)據(jù)處理模塊7連接;控制模塊3和數(shù)據(jù)處理模塊7分別與擴(kuò)展程序存儲(chǔ)模塊11、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊12連接,數(shù)據(jù)處理模塊7還通過D/A轉(zhuǎn)換模塊8與濾波整形、功率放大和語(yǔ)音輸出模塊9連接,電源模塊12負(fù)責(zé)整個(gè)系統(tǒng)的電源供應(yīng);應(yīng)變傳感采集模塊1、圖像傳感采集模塊2與控制模塊3連接,控制模塊3產(chǎn)生的控制信號(hào)送往電子喉振動(dòng)模塊4,產(chǎn)生的電子喉語(yǔ)音信號(hào)由語(yǔ)音數(shù)據(jù)采集模塊5進(jìn)行采集,并通過A/D轉(zhuǎn)換模塊6送往數(shù)據(jù)處理模塊7進(jìn)行增強(qiáng)處理,數(shù)據(jù)處理模塊7通過D/A轉(zhuǎn)換模塊8與濾波整形、功率放大及輸出模塊9連接,控制模塊3和數(shù)據(jù)處理模塊7還分別與程序擴(kuò)展存儲(chǔ)模塊10、數(shù)據(jù)擴(kuò)展存儲(chǔ)模塊11連接,整個(gè)電路系統(tǒng)由電源模塊12負(fù)責(zé)供電。
上述原理圖可分別實(shí)現(xiàn)于基于雙DSP架構(gòu)的硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)的Windows應(yīng)用軟件平臺(tái)。在DSP硬件系統(tǒng)平臺(tái)中,控制模塊3、數(shù)據(jù)處理模塊7由DSP芯片實(shí)現(xiàn),A/D轉(zhuǎn)換模塊6、D/A轉(zhuǎn)換模塊8、擴(kuò)展程序存儲(chǔ)模塊11、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊12由專門芯片實(shí)現(xiàn);在計(jì)算機(jī)應(yīng)用軟件平臺(tái)中,控制模塊3、數(shù)據(jù)處理模塊7由計(jì)算機(jī)CPU和相應(yīng)的軟件實(shí)現(xiàn),A/D轉(zhuǎn)換模塊6、D/A轉(zhuǎn)換模塊8由計(jì)算機(jī)聲卡實(shí)現(xiàn),擴(kuò)展程序存儲(chǔ)模塊11、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊12由計(jì)算機(jī)內(nèi)存、硬盤實(shí)現(xiàn)。
在硬件系統(tǒng)平臺(tái)中,由于系統(tǒng)工作中需要采集的數(shù)據(jù)量和運(yùn)算量較大,因此采用雙DSP架構(gòu),整個(gè)系統(tǒng)的控制模塊和數(shù)據(jù)處理模塊分別由一片DSP芯片完成。雙DSP芯片(控制模塊和數(shù)據(jù)處理模塊)、A/D轉(zhuǎn)換模塊、D/A轉(zhuǎn)換模塊、程序擴(kuò)展存儲(chǔ)模塊、數(shù)據(jù)擴(kuò)展存儲(chǔ)模塊、電源模塊及相應(yīng)的外部接口集成在一塊電路板上。系統(tǒng)采用的DSP芯片為TI公司的TMS320C5410A芯片,其工作主頻最高可達(dá)120MHz,配有64k-16bit的內(nèi)部程序RAM。DSP控制模塊3和DSP數(shù)據(jù)處理模塊7的外圍電路包括1、程序擴(kuò)展存儲(chǔ)模塊10。采用64k-16bit的外部程序RAM芯片CY7C1021;2、數(shù)據(jù)擴(kuò)展存儲(chǔ)模塊11。采用256k-16bit的片外Flash Memory芯片LH28F400BVE;3、A/D轉(zhuǎn)換模塊6和D/A轉(zhuǎn)換模塊8。A/D、D/A轉(zhuǎn)換模塊采用TLC320AD50C,動(dòng)態(tài)范圍88dB,信噪比89dB,最大采樣率22.05kHz,采樣精度16bit,RCA接口供模擬信號(hào)輸入/輸出;4、電源模塊12。整個(gè)系統(tǒng)使用單一蓄電池(+5V)供電;5、系統(tǒng)輸出采用標(biāo)準(zhǔn)音頻接口,便于與各種音頻設(shè)備與通訊工具相連;應(yīng)變和圖像傳感采集的頻率設(shè)定為2Hz,這樣可以保證在正常使用條件下,電子喉自動(dòng)開啟和關(guān)閉的時(shí)間延遲不會(huì)超過1秒,并且使DSP控制芯片有充足的時(shí)間來(lái)進(jìn)行控制信號(hào)的采集、分析與提取。為了提取控制量以確定電子喉工作狀態(tài),在應(yīng)變傳感工作模式下,通過應(yīng)變傳感器采集到的模擬電信號(hào)經(jīng)過A/D轉(zhuǎn)換為數(shù)字量,并送入控制模塊,每次采樣僅需傳送來(lái)自面部?jī)蓚?cè)的兩個(gè)8位數(shù)據(jù),故所需的數(shù)據(jù)量和運(yùn)算量都很小,利用DSP片內(nèi)的存儲(chǔ)器即可完成工作。而在圖像運(yùn)動(dòng)檢測(cè)傳感模式下,每次采集的圖像數(shù)據(jù)量為80×60×8bit,對(duì)每一個(gè)像素點(diǎn)需要進(jìn)行一次減法、一次絕對(duì)值及一次求和運(yùn)算,因此需要通過擴(kuò)展數(shù)據(jù)存儲(chǔ)器來(lái)進(jìn)行數(shù)據(jù)的運(yùn)算、暫存和結(jié)果記錄。
在電子喉語(yǔ)音增強(qiáng)部分,由于系統(tǒng)需要進(jìn)行實(shí)時(shí)數(shù)據(jù)分析與處理,語(yǔ)音信號(hào)采集頻率設(shè)定為8kHz,每256采樣點(diǎn)為一幀。此采樣頻率遠(yuǎn)低于DSP數(shù)據(jù)處理芯片的工作頻率,可以保證幀間相鄰兩個(gè)采樣點(diǎn)之間的時(shí)間間隔足以完成中斷數(shù)據(jù)處理。在8kHz的采樣率下,DSP數(shù)據(jù)處理模塊通過擴(kuò)展數(shù)據(jù)存儲(chǔ)區(qū)對(duì)256點(diǎn)的一幀語(yǔ)音進(jìn)行FFT、LPC、IFFT等運(yùn)算,并將結(jié)果通過D/A轉(zhuǎn)換模塊輸出,可以保證實(shí)時(shí)的數(shù)據(jù)處理與輸出,總延時(shí)不超過0.5秒。
系統(tǒng)上電之后,DSP控制芯片開始正常工作,采集并提取控制信號(hào),DSP數(shù)據(jù)處理芯片則處于待機(jī)狀態(tài)。當(dāng)DSP控制芯片提取到滿足條件的控制量以開啟電子喉時(shí),會(huì)同時(shí)向DSP數(shù)據(jù)處理芯片發(fā)送一個(gè)工作信號(hào),觸發(fā)中斷,使DSP數(shù)據(jù)處理芯片開始采集語(yǔ)音信號(hào)并進(jìn)行增強(qiáng)處理。當(dāng)DSP控制芯片關(guān)閉電子喉時(shí),也會(huì)向DSP數(shù)據(jù)處理芯片發(fā)送停止工作信號(hào),使之恢復(fù)待機(jī)狀態(tài)。
在計(jì)算機(jī)應(yīng)用軟件平臺(tái)中,核心處理芯片的速度一般遠(yuǎn)超過DSP芯片,存儲(chǔ)器容量也遠(yuǎn)大于硬件平臺(tái)中的存儲(chǔ)芯片,數(shù)據(jù)處理的實(shí)時(shí)性和數(shù)據(jù)存儲(chǔ)量都是可以保證的,因此各種計(jì)算、處理和存儲(chǔ)工作都可在計(jì)算機(jī)中執(zhí)行,外部電路僅需要集成控制量傳感采集模塊即可。計(jì)算機(jī)與外部電路的接口包括USB數(shù)據(jù)接口和音頻輸入輸出接口,通過配套開發(fā)的軟件界面進(jìn)行系統(tǒng)控制。
在使用軟件平臺(tái)工作時(shí),需要將外部電路的USB數(shù)據(jù)線和音頻輸出線與計(jì)算機(jī)相連,并啟動(dòng)相應(yīng)軟件界面,通過專門開發(fā)的Windows應(yīng)用軟件實(shí)現(xiàn)系統(tǒng)控制和語(yǔ)音增強(qiáng),增強(qiáng)后的語(yǔ)音可以通過計(jì)算機(jī)聲卡的音頻輸出口進(jìn)行輸出。此外,系統(tǒng)工作過程中,使用者發(fā)出的電子喉語(yǔ)音還可以在計(jì)算機(jī)上記錄為音頻文件并保存,以供備份和后續(xù)研究使用。
系統(tǒng)中的電源模塊除了要為電路芯片供電之外,還需要為電子喉振動(dòng)模塊供電,因此耗電量較大。系統(tǒng)中采用單一5V蓄電池供電,以保證足夠的輸出電流。
應(yīng)變傳感控制的數(shù)據(jù)流程如下所述面部?jī)蓚?cè)的應(yīng)變傳感器以2Hz的頻率循環(huán)檢測(cè)應(yīng)變,并將模擬電信號(hào)轉(zhuǎn)換為8位數(shù)字量傳送到控制模塊,與之前記錄的閾值進(jìn)行比較。如當(dāng)前兩側(cè)應(yīng)變均大于閾值,則向電子喉振動(dòng)模塊發(fā)送控制信號(hào)以啟動(dòng)電子喉,同時(shí)向數(shù)據(jù)處理模塊發(fā)送信號(hào),開始進(jìn)行語(yǔ)音數(shù)據(jù)采集和增強(qiáng)處理。在電子喉工作過程中,仍然以2Hz頻率進(jìn)行應(yīng)變采樣,當(dāng)采集到的兩側(cè)應(yīng)變都小于閾值時(shí),則關(guān)閉電子喉,同時(shí)向數(shù)據(jù)處理模塊發(fā)送信號(hào),停止語(yǔ)音數(shù)據(jù)采集和處理,恢復(fù)待機(jī)狀態(tài)。
圖像運(yùn)動(dòng)檢測(cè)傳感控制的數(shù)據(jù)流程如下所述固定于口部前方的攝像頭以2Hz的頻率循環(huán)拍攝80×60的8位灰度口部圖像,將每幀圖像傳送到控制模塊,劃分為12個(gè)20×20的子區(qū)域,分別與參考圖像的相應(yīng)子區(qū)域進(jìn)行SAD計(jì)算,并將結(jié)果與閾值進(jìn)行比較。如果一個(gè)圖像子區(qū)域的SAD運(yùn)算結(jié)果超過了閾值,則認(rèn)為該子區(qū)域發(fā)生了顯著運(yùn)動(dòng)。當(dāng)達(dá)到半數(shù)的子區(qū)域發(fā)生顯著運(yùn)動(dòng)時(shí),則可判定使用者開始發(fā)聲,由控制模塊向電子喉振動(dòng)模塊發(fā)送控制信號(hào)以啟動(dòng)電子喉,同時(shí)向數(shù)據(jù)處理模塊發(fā)送信號(hào),開始進(jìn)行語(yǔ)音數(shù)據(jù)采集和增強(qiáng)處理。在電子喉工作過程中,仍然以2Hz頻率進(jìn)行口部圖像采樣,在每采集一幀圖像時(shí),保留當(dāng)前幀和上一幀的圖像信息。如果當(dāng)前幀與上一幀比較,發(fā)生顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則再將當(dāng)前幀與參考圖像進(jìn)行比較,如果發(fā)生顯著運(yùn)動(dòng)的子區(qū)域仍然不到半數(shù),則認(rèn)為使用者停止發(fā)聲,關(guān)閉電子喉,同時(shí)向數(shù)據(jù)處理模塊發(fā)送信號(hào),停止語(yǔ)音數(shù)據(jù)采集和處理,恢復(fù)待機(jī)狀態(tài)。
電子喉語(yǔ)音增強(qiáng)部分的數(shù)據(jù)流程如下所述接受到控制模塊發(fā)來(lái)的中斷信號(hào)之后,數(shù)據(jù)處理模塊執(zhí)行中斷程序,開始控制語(yǔ)音數(shù)據(jù)采集模塊對(duì)語(yǔ)音進(jìn)行8kHz,16bit的采樣,每取得256個(gè)采樣點(diǎn),即經(jīng)A/D轉(zhuǎn)換模塊送入數(shù)據(jù)處理模塊進(jìn)行FFT運(yùn)算,記錄所得頻譜的相角,再對(duì)實(shí)部和虛部取平方和,得到此256點(diǎn)語(yǔ)音的功率譜。之后對(duì)該256點(diǎn)語(yǔ)音進(jìn)行LPC運(yùn)算,得到其16階的LPC系數(shù),根據(jù)該系數(shù)求出當(dāng)前語(yǔ)音幀感知加權(quán)濾波器的頻響,再進(jìn)一步求出當(dāng)前語(yǔ)音幀的譜減系數(shù)。將譜減系數(shù)與之前儲(chǔ)存的噪聲功率譜代入改進(jìn)的譜減公式,求出純凈語(yǔ)音功率譜估值,再將純凈語(yǔ)音估計(jì)功率譜開方后再與前面記錄下的帶噪語(yǔ)音相角相乘,并作IFFT變換,得到純凈語(yǔ)音估值。最后的結(jié)果經(jīng)過濾波整形之后,通過D/A輸出至標(biāo)準(zhǔn)音頻接口。此外,在基于語(yǔ)音網(wǎng)絡(luò)傳輸?shù)膽?yīng)用領(lǐng)域,還可以將處理之后的語(yǔ)音直接以數(shù)字方式進(jìn)行傳輸,再配合攝像頭采集的口部圖像視頻信號(hào),可以有效的提高增強(qiáng)后語(yǔ)音的可懂度,達(dá)到良好的增強(qiáng)效果。
根據(jù)上述原理,本系統(tǒng)的工作過程可參考圖2和圖3所示的控制算法流程,如下所述使用者應(yīng)保證系統(tǒng)啟動(dòng)前,選擇三種控制模式(應(yīng)變傳感模式、圖像運(yùn)動(dòng)檢測(cè)傳感模式以及手動(dòng)控制模式)之中的一種將應(yīng)變傳感器、攝像頭及電子喉置于正常工作位置,但不進(jìn)行發(fā)聲動(dòng)作,然后開啟系統(tǒng)。在硬件系統(tǒng)平臺(tái)中,系統(tǒng)上電后,256k-16bit的Flash ROM映射為數(shù)據(jù)空間,用于啟動(dòng)時(shí)程序的自動(dòng)裝載(Boot Loading);在應(yīng)用軟件平臺(tái)中,啟動(dòng)軟件界面,并點(diǎn)擊開始工作。程序復(fù)位后,進(jìn)入主程序,控制芯片記錄當(dāng)前靜息狀態(tài)下的面部?jī)蓚?cè)應(yīng)變值和口部圖像信息,然后啟動(dòng)電子喉工作約0.5秒,并向數(shù)據(jù)處理模塊發(fā)送工作信號(hào),使數(shù)據(jù)處理模塊采集并計(jì)算保存輻射噪聲的功率譜,之后電子喉關(guān)閉,數(shù)據(jù)處理模塊進(jìn)入待機(jī)程序,等待中斷觸發(fā),系統(tǒng)進(jìn)入正常工作狀態(tài)。
在正常工作狀態(tài),當(dāng)選擇電子喉自動(dòng)控制工作模式時(shí),控制模塊程序根據(jù)當(dāng)前工作模式,按2Hz的采樣頻率循環(huán)執(zhí)行控制量采集、分析和判斷步驟(應(yīng)變或圖像),當(dāng)檢測(cè)到滿足條件的控制信號(hào)時(shí),則啟動(dòng)電子喉振動(dòng)模塊,同時(shí)向數(shù)據(jù)處理模塊發(fā)送中斷信號(hào),使語(yǔ)音采集模塊按8kHz的采樣率進(jìn)行電子喉語(yǔ)音采集,并將采集到的數(shù)據(jù)通過A/D模塊轉(zhuǎn)換為數(shù)字信號(hào),依次送入信號(hào)采集緩沖區(qū)。當(dāng)采集到256個(gè)數(shù)據(jù),信號(hào)采集緩沖區(qū)被填充滿之后,則進(jìn)入數(shù)據(jù)處理程序,將信號(hào)采集緩沖區(qū)的一幀語(yǔ)音信號(hào)送入數(shù)據(jù)處理模塊,計(jì)算帶噪語(yǔ)音功率譜、感知加權(quán)濾波器頻響以及譜減系數(shù),并與之前記錄的噪聲功率譜估值一起代入增強(qiáng)算法,經(jīng)處理后得到256點(diǎn)純凈電子喉語(yǔ)音估值信號(hào)。將此幀語(yǔ)音信號(hào)送入數(shù)據(jù)發(fā)送緩沖區(qū),按照8kHz的頻率送入D/A模塊,轉(zhuǎn)換為模擬語(yǔ)音信號(hào)輸出。語(yǔ)音數(shù)據(jù)處理算法可參考圖4所示的信號(hào)處理流程。數(shù)據(jù)處理模塊循環(huán)進(jìn)行電子喉語(yǔ)音采樣、處理工作,直到控制模塊發(fā)送停止工作信號(hào),則停止語(yǔ)音采樣,數(shù)據(jù)處理程序跳轉(zhuǎn)回待機(jī)狀態(tài)。
當(dāng)外部環(huán)境不適于使用自動(dòng)控制模式時(shí)(如震動(dòng)較劇烈,或光線明暗變化較大時(shí)),可選擇傳統(tǒng)的手動(dòng)控制電子喉工作模式,此時(shí)的自動(dòng)控制模塊自動(dòng)關(guān)閉,僅保留數(shù)據(jù)處理模塊進(jìn)行工作。
在任何一種控制模式下,都可以控制攝像頭對(duì)口部圖像進(jìn)行采集、存儲(chǔ),并將每一幀口部圖像信號(hào)實(shí)時(shí)輸出,作為對(duì)語(yǔ)音信號(hào)的補(bǔ)充。在特定條件下,可以通過口部圖像來(lái)輔助理解語(yǔ)音,并為發(fā)聲矯正、語(yǔ)音康復(fù)評(píng)價(jià)等方面的工作積累相關(guān)材料。
電子喉的自動(dòng)控制是一個(gè)相對(duì)新穎的課題,其核心問題在于控制量的選擇、分析與提取。選擇易于提取、誤差較小且能精確反映電子喉工作狀態(tài)的控制量,是整個(gè)系統(tǒng)的基礎(chǔ)。譜相減算法在正常語(yǔ)音增強(qiáng)領(lǐng)域已經(jīng)得到了廣泛應(yīng)用,但在病理語(yǔ)音特別是電子喉語(yǔ)音增強(qiáng)領(lǐng)域,需要通過譜減系數(shù)的設(shè)定和調(diào)整,對(duì)其進(jìn)行相應(yīng)的修改和完善,以達(dá)到更好的增強(qiáng)效果。將電子喉從工作控制到語(yǔ)音增強(qiáng)的整個(gè)工作流程進(jìn)行集成化處理,并進(jìn)行系統(tǒng)實(shí)現(xiàn)工作,能夠給使用者帶來(lái)更多便利和更好的語(yǔ)音質(zhì)量,使喉部病變患者的語(yǔ)音重建工作達(dá)到更高的水平,并在語(yǔ)音通信、傳輸?shù)阮I(lǐng)域發(fā)揮重要的作用。
權(quán)利要求
1.一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng),其特征在于,該系統(tǒng)基于雙DSP的硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)的應(yīng)用軟件平臺(tái)兩種實(shí)現(xiàn)方式,包括應(yīng)變傳感采集模塊、圖像傳感采集模塊、電子喉振動(dòng)模塊、語(yǔ)音數(shù)據(jù)采集模塊、A/D轉(zhuǎn)換模塊、控制模塊、數(shù)據(jù)處理模塊、D/A轉(zhuǎn)換模塊、濾波整形、功率放大和語(yǔ)音輸出模塊、電源模塊、擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊;應(yīng)變傳感采集模塊、圖像傳感采集模塊、電子喉振動(dòng)模塊與控制模塊連接,電子喉振動(dòng)模塊與語(yǔ)音數(shù)據(jù)采集模塊相連,語(yǔ)音數(shù)據(jù)采集模塊通過A/D轉(zhuǎn)換模塊與數(shù)據(jù)處理模塊連接;控制模塊和數(shù)據(jù)處理模塊分別與擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊連接,數(shù)據(jù)處理模塊還通過D/A轉(zhuǎn)換模塊與濾波整形、功率放大和語(yǔ)音輸出模塊連接,電源模塊負(fù)責(zé)整個(gè)系統(tǒng)的電源供應(yīng);其中,在DSP硬件系統(tǒng)平臺(tái)中,控制模塊、數(shù)據(jù)處理模塊由DSP芯片實(shí)現(xiàn),A/D轉(zhuǎn)換模塊、D/A轉(zhuǎn)換模塊、擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊由專門芯片實(shí)現(xiàn);在計(jì)算機(jī)應(yīng)用軟件平臺(tái)中,控制模塊、數(shù)據(jù)處理模塊由計(jì)算機(jī)CPU和相應(yīng)的軟件實(shí)現(xiàn),A/D轉(zhuǎn)換模塊、D/A轉(zhuǎn)換模塊由計(jì)算機(jī)聲卡實(shí)現(xiàn),擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊由計(jì)算機(jī)內(nèi)存、硬盤實(shí)現(xiàn)。
2.權(quán)利要求1所述的自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng)的控制方法,其特征在于,包括如下步驟1)系統(tǒng)啟動(dòng)后,采集當(dāng)前靜息狀態(tài)下的應(yīng)變值、口部圖像以及電子喉輻射噪聲;2)根據(jù)實(shí)際環(huán)境和使用者需要選擇工作模式,所述的工作模式為應(yīng)變傳感方式、圖像傳感方式和手動(dòng)控制三種,當(dāng)外部環(huán)境不適合采用前兩種自動(dòng)工作模式時(shí),則選擇手動(dòng)控制工作模式;3)如果采用自動(dòng)工作模式,則循環(huán)采集控制量信號(hào),即應(yīng)變或圖像變化信號(hào),采樣頻率為2Hz;4)將采集到的控制量信號(hào)與設(shè)定閾值比較,超過閾值則啟動(dòng)電子喉;5)電子喉開始工作后,通過麥克風(fēng)分幀采集使用者發(fā)出的電子喉語(yǔ)音,并進(jìn)行數(shù)字化處理;6)通過基于聽覺掩蔽效應(yīng)的電子喉語(yǔ)音增強(qiáng)算法,結(jié)合之前采集的輻射噪聲,對(duì)每幀電子喉語(yǔ)音進(jìn)行增強(qiáng);7)將增強(qiáng)后的電子喉語(yǔ)音經(jīng)標(biāo)準(zhǔn)音頻接口輸出,并通過壓縮算法儲(chǔ)存;8)當(dāng)采集到的控制量信號(hào)低于閾值,則關(guān)閉電子喉,完成一個(gè)工作周期。
3.如權(quán)利要求2所述的方法,其特征在于,所述的應(yīng)變傳感方式的電子喉自動(dòng)控制實(shí)現(xiàn)步驟如下盡量保持面部平靜松弛,將兩個(gè)應(yīng)變傳感器分別置于面部?jī)蓚?cè),開機(jī)后傳感器將自動(dòng)讀取當(dāng)前的應(yīng)變值,并通過8位模數(shù)轉(zhuǎn)換送入DSP芯片,求出面部?jī)蓚?cè)應(yīng)變的平均值;設(shè)面部?jī)蓚?cè)應(yīng)變經(jīng)傳感器和模數(shù)轉(zhuǎn)換送入DSP的值分別為sL和sR,則求出兩側(cè)應(yīng)變平均值sM=(sL+sR)/2;由于模數(shù)轉(zhuǎn)換為8位精度,故最大值為255,判斷電子喉開關(guān)的閾值S0設(shè)定為S0=sM+(255-sM)×0.1根據(jù)上式求出閾值S0并儲(chǔ)存起來(lái),并以2Hz的頻率不斷循環(huán)采集面部?jī)蓚?cè)應(yīng)變信號(hào);由于人發(fā)聲時(shí),面部?jī)蓚?cè)肌肉動(dòng)作應(yīng)該是一致的,因此當(dāng)兩側(cè)采集到的應(yīng)變信號(hào)都高于閾值后,判定為使用者開始發(fā)聲,則啟動(dòng)電子喉;電子喉開始工作后,面部應(yīng)變信號(hào)依然以原頻率進(jìn)行采集,以判斷電子喉停止工作的時(shí)刻;由于發(fā)聲過程中的語(yǔ)音間隔可能也導(dǎo)致面部低應(yīng)變狀態(tài),因此為了避免這種誤差影響,當(dāng)采集到低于閾值的應(yīng)變值時(shí),并不停止電子喉工作,而是當(dāng)連續(xù)兩幀的兩側(cè)應(yīng)變信號(hào)都低于閾值S0時(shí),才認(rèn)為使用者停止發(fā)聲,關(guān)閉電子喉。
4.如權(quán)利要求2所述的方法,其特征在于,所述的圖像傳感方式的電子喉自動(dòng)控制實(shí)現(xiàn)步驟如下盡量保持面部、口部松弛平靜,系統(tǒng)開機(jī)后自動(dòng)通過攝像頭記錄當(dāng)前靜止?fàn)顟B(tài)下的口部8位灰度圖像作為參考,圖像分辨率設(shè)定為80×60;之后以2Hz的頻率對(duì)口部圖像進(jìn)行采樣,并將采集到的圖像劃分為12個(gè)20×20的子區(qū)域,分別編號(hào)1~12;在每一個(gè)子區(qū)域應(yīng)用下式與原參考圖像的相應(yīng)子區(qū)域進(jìn)行比較ϵk=Σi=120Σj=120|Xi,j-Yi,j|]]>其中,k為子區(qū)域編號(hào),1≤k≤12,(i,j)為子區(qū)域中任意一點(diǎn)的坐標(biāo),Xi,j為參考圖像中相應(yīng)點(diǎn)的灰度值,Yi,j則為當(dāng)前圖像中相應(yīng)點(diǎn)的灰度值;最后求出第k個(gè)子區(qū)域中的灰度絕對(duì)值差分和εk;在口部圖像運(yùn)動(dòng)檢測(cè)中,將超過3%的平均灰度變化視為顯著運(yùn)動(dòng),則設(shè)定的閾值ε0為ε0=255×0.03×20×20=3060將每個(gè)εk(1≤k≤12)與閾值ε0進(jìn)行比較,當(dāng)εk≥ε0時(shí),則可認(rèn)為第k個(gè)子區(qū)域圖像發(fā)生顯著運(yùn)動(dòng);設(shè)發(fā)生顯著運(yùn)動(dòng)的子區(qū)域共計(jì)n個(gè),則當(dāng)n≥6時(shí),即發(fā)生顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為整個(gè)口部發(fā)生顯著運(yùn)動(dòng),即可判定為使用者開始發(fā)聲,電子喉開始工作;啟動(dòng)電子喉之后,仍然以2Hz的頻率進(jìn)行圖像采樣,將采集到的每一幀圖像按照同樣的求絕對(duì)值差分和算法,與上一幀圖像進(jìn)行比較如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為運(yùn)動(dòng)沒有停止,電子喉保持工作狀態(tài);如果當(dāng)前圖像與上一幀圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則采用相同的求絕對(duì)值差分和算法,將當(dāng)前圖像再與最初儲(chǔ)存的靜止?fàn)顟B(tài)參考圖像比較;如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域達(dá)到或超過半數(shù),則認(rèn)為使用者沒有恢復(fù)口部靜止?fàn)顟B(tài),電子喉保持工作狀態(tài);如果當(dāng)前圖像與參考圖像相比,顯著運(yùn)動(dòng)的子區(qū)域不到半數(shù),則認(rèn)為使用者已恢復(fù)口部靜止?fàn)顟B(tài),此時(shí)應(yīng)關(guān)閉電子喉。
5.如權(quán)利要求2所述的方法,其特征在于,所述的聽覺掩蔽效應(yīng)的電子喉語(yǔ)音增強(qiáng)算法及步驟如下設(shè)y(t)=s(t)+n(t),其中y(t)為帶噪語(yǔ)音,s(t)為純凈語(yǔ)音,n(t)=n1(t)+n2(t),其中n1(t)為周期性輻射噪聲,n2(t)為隨機(jī)環(huán)境噪聲,這是建立在語(yǔ)音與噪聲不相關(guān),因而具有加性的假設(shè)前提下的;則求出y(t)的頻譜為Y(ω)=Y(jié)R(ω)+iYI(ω)=FFT[y(t)]其中Y(ω)為y(t)的頻譜,YR(ω)和YI(ω)分別為Y(ω)的實(shí)部和虛部;相應(yīng)的求出周期性背景噪聲和隨機(jī)噪聲頻譜估值為N(ω)=NR(ω)+iNI(ω)=FFT[n(t)]其中,n1(t)保持在整個(gè)電子喉發(fā)聲階段基本穩(wěn)定不變,而n2(t)則可能隨時(shí)隨環(huán)境發(fā)生變化;因此PN(ω)也可能是隨時(shí)間變化的,為了抵消這種變化帶來(lái)的影響,實(shí)現(xiàn)譜減系數(shù)的動(dòng)態(tài)調(diào)整,對(duì)帶噪語(yǔ)音計(jì)算其感知加權(quán)濾波器的頻響T(z)=A(zσ1)A(zσ2)=1-Σk=1pakσ1kz-k1-Σk=1pakσ2kz-k]]>其中T(z)即為感知加權(quán)濾波器的z域頻響,αk為當(dāng)前語(yǔ)音幀的k階LPC系數(shù),p為L(zhǎng)PC系數(shù)的最高階數(shù),σ1、σ2為控制共振峰能量偏移的系數(shù),0≤σ2≤σ1≤1;由感知加權(quán)濾波器頻響求出譜減系數(shù)α=αmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+αmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>β=βmax(T(ω)max-T(ω)T(ω)max-T(ω)min)+βmin(T(ω)-T(ω)maxT(ω)max-T(ω)min)]]>其中,α、β即為所求的譜減系數(shù),T(ω)為當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻響,T(ω)max、T(ω)min分別為當(dāng)前語(yǔ)音幀中T(ω)的最大值和最小值,αmax和βmax分別為α和β的最大值,αmin和βmin則分別為α和β的最小值,αmax、βmax、αmin和βmin根據(jù)語(yǔ)音中噪聲的類型和程度確定;根據(jù)上式求出的譜減系數(shù),代入下式 求出純凈語(yǔ)音頻譜估值為 則純凈語(yǔ)音估值為s^(t)=IFFT[S^(ω)]]]>在系統(tǒng)中,上述算法的實(shí)現(xiàn)步驟如下將電子喉置于正常使用位置并保持固定,系統(tǒng)啟動(dòng)后電子喉自動(dòng)振動(dòng)約0.5秒,以采集輻射噪聲和當(dāng)前環(huán)境噪聲,將這段噪聲做FFT變換,得到其功率譜,作為噪聲譜估值記錄下來(lái);電子喉開始工作后,以8kHz的頻率對(duì)語(yǔ)音進(jìn)行采樣,每256個(gè)記錄點(diǎn)作為一幀;對(duì)每幀語(yǔ)音進(jìn)行FFT變換,得到其頻譜,并進(jìn)一步得到帶噪語(yǔ)音的功率譜;之后利用帶噪語(yǔ)音的功率譜,通過線性預(yù)測(cè)分析得到當(dāng)前語(yǔ)音幀的感知加權(quán)濾波器頻率響應(yīng);再根據(jù)感知加權(quán)濾波器頻響T(z)求出當(dāng)前幀中的譜減系數(shù)α、β,即可通過譜減運(yùn)算得到純凈語(yǔ)音功率譜估值;經(jīng)過相位還原和IFFT變換,則得到一幀純凈語(yǔ)音的估值;在系統(tǒng)實(shí)現(xiàn)過程中,算法中的一些參數(shù)取值如下σ1=1,σ2=0.8;αmin=1,αmax=6;βmin=0,βmax=0.02,當(dāng)帶噪語(yǔ)音信噪比低于-5dB時(shí),βmax=0.002。
全文摘要
本發(fā)明涉及一種自動(dòng)電子喉的電子喉語(yǔ)音增強(qiáng)系統(tǒng),基于雙DSP的硬件系統(tǒng)平臺(tái)和基于計(jì)算機(jī)的應(yīng)用軟件平臺(tái)兩種實(shí)現(xiàn)方式,系統(tǒng)包括應(yīng)變傳感采集模塊、圖像傳感采集模塊、電子喉振動(dòng)模塊、語(yǔ)音數(shù)據(jù)采集模塊、A/D轉(zhuǎn)換模塊、控制模塊、數(shù)據(jù)處理模塊、D/A轉(zhuǎn)換模塊、濾波整形、功率放大和語(yǔ)音輸出模塊、電源模塊、擴(kuò)展程序存儲(chǔ)模塊、擴(kuò)展數(shù)據(jù)存儲(chǔ)模塊;通過應(yīng)變傳感和圖像運(yùn)動(dòng)檢測(cè)傳感的控制方式,對(duì)電子喉工作狀態(tài)自動(dòng)控制,從而使電子喉使用者無(wú)須手持操作電子喉,并對(duì)電子喉語(yǔ)音進(jìn)行去噪與增強(qiáng),改善發(fā)聲質(zhì)量,提高電子喉語(yǔ)音重建的便捷程度和語(yǔ)音質(zhì)量。使用的信號(hào)處理算法經(jīng)過軟件仿真檢驗(yàn),有效的提高了電子喉語(yǔ)音的客觀和主觀評(píng)價(jià)水平。
文檔編號(hào)A61F2/72GK101030384SQ20071001756
公開日2007年9月5日 申請(qǐng)日期2007年3月27日 優(yōu)先權(quán)日2007年3月27日
發(fā)明者萬(wàn)明習(xí), 趙欽, 王素品, 王衛(wèi)波, 劉漢軍 申請(qǐng)人:西安交通大學(xué)