專利名稱:一種自動調(diào)節(jié)的咽腔電子喉語音通訊系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明屬于病變語音重建及語音通訊技術(shù)領(lǐng)域,特別涉及一種可 以自動調(diào)節(jié)的咽腔電子喉語音通訊系統(tǒng)及方法。
背景技術(shù):
我國每年都有大量患者因喉切除而失去發(fā)聲能力,而現(xiàn)有技術(shù)中 的電子喉以其適用范圍廣、操作簡單、可長時間發(fā)聲且易于理解而被 廣泛使用。但是目前的電子喉語音不自然,使用起來不方便,而且?guī)?有很大成分的輻射背景噪聲和環(huán)境噪聲,嚴(yán)重影響了語音的理解和悅 耳程度。
目前國內(nèi)外使用的電子喉主要是頸外式,工作原理是波形發(fā)生器 提供聲門嗓音源波形,用以驅(qū)動換能器振動,但是使用時電子喉的施 加位置并非在聲門處,而是頸部兩側(cè)咽腔部位,這使得聲門與咽腔之 間的聲道作用被忽略而造成重建語音的失真,影響了電子喉語音的使 用。
如何改善電子喉語音,滿足嗓音源頻率和按語音和語言需要自動 調(diào)節(jié)的要求,是近些年國內(nèi)外學(xué)者研究的熱點。目前有運用指頭施加 在壓阻組件上的壓力來實現(xiàn)對電子喉的振蕩頻率的調(diào)節(jié),也有通過控 制呼氣量和聲帶緊張程度來調(diào)節(jié)語音的頻率和強度的電子喉,還有美
國哈佛大學(xué)的E.A.Goldstein等于2004年研究提出用頸前肌電信號特 征來控制電子喉開關(guān)的方法,取得了較好的結(jié)果。然而這幾種方法都 存在使用困難、訓(xùn)練方法復(fù)雜、成本高的缺點。
7及,電子喉的發(fā)展也需要滿足 網(wǎng)絡(luò)化的需求,而目前專門適合于網(wǎng)絡(luò)通訊的電子喉還沒有相關(guān)報 導(dǎo)。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術(shù)電子喉的應(yīng)用中存在的使用困難、訓(xùn)練方法復(fù) 雜、成本高的缺點,本發(fā)明提供一種可自動調(diào)節(jié)的咽腔電子喉語音通 訊系統(tǒng)及方法,該系統(tǒng)以計算機硬件系統(tǒng)為主,通過軟件開發(fā)實現(xiàn)了 基于面部和頸部運動特征自動調(diào)節(jié)的咽腔嗓音源合成,電子喉無需手 持,使用便捷,同時集成了咽腔電子喉重建語音的增強處理功能,并 通過互聯(lián)網(wǎng)技術(shù)實現(xiàn)了電子喉語音的網(wǎng)絡(luò)實時通訊,進(jìn)一步拓展了電 子喉的功能。
一種自動調(diào)節(jié)的咽腔電子喉語音通訊系統(tǒng),包括麥克風(fēng)、攝像頭, 電子喉振蕩器,音視頻采集模塊與計算機軟硬件系統(tǒng),攝像頭和麥克 風(fēng)固定于麥克風(fēng)支架上,耳機下方設(shè)置有固定帶,電子喉振蕩器設(shè)置 于固定帶上,該系統(tǒng)還包括下述三個主要模塊
1) 發(fā)聲過程中面部和頸部運動圖像采集與處理模塊,實現(xiàn)從運 動圖像的分析到視覺語音特征參數(shù)的提取;
2) 咽腔嗓音源動態(tài)合成模塊,將提取的視覺語音特征參數(shù)轉(zhuǎn)換 為嗓音源合成模型參數(shù),并按照咽腔嗓音源數(shù)學(xué)模型合成波形;
3) 咽腔電子喉重建語音實時增強與網(wǎng)絡(luò)通訊模塊,對采集的咽 腔電子喉重建語音進(jìn)行實時增強處理,并將處理后的語音進(jìn)行遠(yuǎn)程網(wǎng) 絡(luò)傳輸,實現(xiàn)網(wǎng)絡(luò)通訊功能;
攝像頭通過數(shù)據(jù)連接線將采集到的運動圖像作為輸入信號傳輸 給運動圖像處理模塊進(jìn)行視覺語音特征參數(shù)提??;運動圖像處理后輸
8出的視覺語音特征參數(shù),又作為輸入信號進(jìn)入咽腔嗓音源合成模塊控 制波形的合成;合成的咽腔嗓音源波形再次通過數(shù)據(jù)線輸出給電子喉 振蕩器,施加于頸部咽腔處;重建的咽腔電子喉語音經(jīng)麥克風(fēng)設(shè)備采 集后,通過數(shù)據(jù)線輸入語音增強模塊,同時該模塊也接收控制信號的 輸入;通訊模塊的輸入則包括攝像頭采集的視頻信號與增強后輸出的 語音信號兩部分,最終經(jīng)過網(wǎng)絡(luò)輸出到另一個客戶端,同時另一個客 戶端發(fā)出的音視頻信號也是在通訊模塊接收并播放。
由電子喉施加裝置向計算機傳輸音視頻信號進(jìn)行處理,計算機提 取的電子喉開關(guān)信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝 置,電子喉施加裝置工作所需的電能由計算機提供。
一種自動調(diào)節(jié)的咽腔電子喉語音通訊的方法,音視頻采集模塊同 時開始工作,利用視頻采集模塊攝像頭獲取發(fā)聲過程中使用者面部和 頸部的運動圖像作為系統(tǒng)輸入,圖像處理模塊對輸入圖像進(jìn)行預(yù)處 理,去除干擾信號,再通過目標(biāo)區(qū)域定位、分割、特征參數(shù)提取,以 及特征區(qū)域運動的跟蹤,得到與發(fā)聲特征相關(guān)的視覺語音特征參數(shù), 再經(jīng)自動控制合成系統(tǒng)通過關(guān)系轉(zhuǎn)換由視覺語音參數(shù)推導(dǎo)出咽腔嗓 音源合成所需的模型參數(shù)和開關(guān)信號,控制咽腔嗓音源波形合成以及 施加裝置的振動;與此同時,音頻采集模塊麥克風(fēng)記錄下咽腔電子喉 重建語音信號,結(jié)合開關(guān)控制信號和咽腔嗓音源合成信息,指導(dǎo)泄露 周期噪聲和環(huán)境噪聲的估計,以及譜減參數(shù)的調(diào)整,并對有音幀進(jìn)行 譜減語音增強處理,最終將得到的視頻圖像和增強的音頻信號整合 后,由網(wǎng)絡(luò)系統(tǒng)模塊完成發(fā)送、接受和本地播放,實現(xiàn)遠(yuǎn)程通訊。
本發(fā)明的系統(tǒng)與方法,通過提取使用者面部和頸部運動圖像的視 覺語音特征信息,實現(xiàn)了對電子喉工作狀態(tài)及咽腔嗓音源合成的自動控制,使用時無需手持,更加簡單便捷,解決了合成嗓音源與電子喉 施加部位不一致和電子喉語音不自然的問題,同時對咽腔電子喉重建 語音進(jìn)行動態(tài)去噪增強處理,提高了重建語音的質(zhì)量與可懂度,并通 過網(wǎng)絡(luò)傳輸技術(shù)實現(xiàn)了電子喉語音的遠(yuǎn)程實時通訊,拓展了電子喉的 應(yīng)用范圍,改善了喉切除患者的生活質(zhì)量
圖1為本發(fā)明咽腔電子喉語音合成與通訊系統(tǒng)的結(jié)構(gòu)示意圖。
圖2為本發(fā)明運動圖像處理程序流程圖。 圖3為本發(fā)明連續(xù)語音波形圖。
圖4為與圖3連續(xù)語音對應(yīng)的嘴唇特征曲線(實線)、閾值(點 線)和開關(guān)信號(虛線)的對比圖。
圖5為本發(fā)明咽腔嗓音源合成流程圖。
圖6為本發(fā)明電子喉施加裝置外觀圖,其中標(biāo)號分別表示耳機 1;電子喉振蕩器2;攝像機和麥克風(fēng)3;連接線4,固定帶5。
圖7為本發(fā)明咽腔電子喉語音增強過程流程圖。
具體實施例方式
以下結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)描述。
本發(fā)明以計算機硬件系統(tǒng)為主,利用麥克風(fēng)、攝像頭等音視頻采 集模塊對發(fā)聲過程中使用者面部和頸部的運動圖像和咽腔電子喉重 建語音進(jìn)行實時采集,通過計算機程序設(shè)計實現(xiàn)視覺語音特征參數(shù)提 取、咽腔嗓音源合成等各種功能的系統(tǒng)軟件,完成對咽腔電子喉嗓音 源波形的自動控制合成,再由振蕩器施加于頸部咽腔處輸出振動,重 建語音采集后經(jīng)過語音增強處理,最終由網(wǎng)絡(luò)通訊模塊實現(xiàn)遠(yuǎn)程通訊 的功能。
10整個系統(tǒng)實現(xiàn)的結(jié)構(gòu)圖可參看圖1,圖像采集模塊通過圖像處理 模塊與自動控制模塊相連接,同時圖像采集模塊通過通訊模塊與外部 網(wǎng)絡(luò)雙相連通;語音采集模塊,語音增強模塊通過通訊模塊與外部網(wǎng) 絡(luò)相雙向相連接;自動控制模塊通過嗓音源合成模塊與電子喉施加裝 置相連接。系統(tǒng)啟動后,音視頻采集模塊同時開始工作,利用視頻采 集模塊攝像頭獲取發(fā)聲過程中使用者面部和頸部的運動圖像作為系 統(tǒng)輸入,圖像處理模塊對輸入圖像進(jìn)行預(yù)處理,去除干擾信號,再通 過目標(biāo)區(qū)域定位、分割、特征參數(shù)提取,以及特征區(qū)域運動的跟蹤, 得到與發(fā)聲特征相關(guān)的視覺語音特征參數(shù),再經(jīng)自動控制合成系統(tǒng)通 過關(guān)系轉(zhuǎn)換由視覺語音參數(shù)推導(dǎo)出咽腔嗓音源合成所需的模型參數(shù) 和開關(guān)信號,控制咽腔嗓音源波形合成以及施加裝置的振動;與此同 時,音頻采集模塊麥克風(fēng)記錄下咽腔電子喉重建語音信號,結(jié)合開關(guān) 控制信號和咽腔嗓音源合成信息,指導(dǎo)泄露周期噪聲和環(huán)境噪聲的估 計,以及譜減參數(shù)的調(diào)整,并對有音幀進(jìn)行譜減語音增強處理,最終 將得到的視頻圖像和增強的音頻信號整合后,由網(wǎng)絡(luò)系統(tǒng)模塊完成發(fā) 送、接受和本地播放,實現(xiàn)遠(yuǎn)程通訊。
本發(fā)明的第一模塊由面部和頸部運動圖像采集與處理模塊組成。 該模塊從視覺語音特征出發(fā),利用攝像頭采集發(fā)聲過程中面部和頸部 的運動圖像,并以視頻信號作為系統(tǒng)輸入,通過預(yù)處理、目標(biāo)區(qū)域檢 測與定位、特征區(qū)域分割與跟蹤,提取得到反映發(fā)聲特點的唇部和頸 部視覺語音特征參數(shù),包括嘴唇張開閉合程度、頸部運動信號,并以 此作為輸出用于指導(dǎo)咽腔嗓音源的合成,實現(xiàn)對電子喉語音的實時自 動調(diào)節(jié)。
本發(fā)明的第二模塊由自動控制模塊與可動態(tài)調(diào)節(jié)的咽腔嗓音源合成模塊及電子喉施加裝置組成。該模塊以提取到的唇部和頸部視覺 語音特征參數(shù)作為輸入,通過視覺特征與發(fā)聲特征之間的對應(yīng)關(guān)系, 變換得到相應(yīng)的咽腔嗓音源模型參數(shù),其中包括控制電子喉合成的開 關(guān)信號,嗓音源基頻變化參數(shù),以及聲門上聲道形狀參數(shù),這些參數(shù) 將根據(jù)源-濾波器模型動態(tài)合成咽腔嗓音源波形,最終通過咽腔電子 喉外設(shè)振蕩器輸出,并施加于頸部咽腔部位。針對施加部位與合成嗓 音源不一致的問題,該模塊在合成嗓音源時考慮了聲門上至咽腔段聲 道的調(diào)制作用,提供了與施加部位相符合的咽腔嗓音源波形。
本發(fā)明的第三模塊由語音采集模塊,咽腔電子喉重建語音的實時 增強與通訊模塊組成。語音增強以可調(diào)參數(shù)譜減法為基礎(chǔ),利用嗓音 源合成信息作為參考指導(dǎo)電子喉輻射背景噪聲的估計,根據(jù)咽腔電子 喉語音的背景噪聲特點,動態(tài)選擇合適的譜減系數(shù),再結(jié)合電子喉 開關(guān)控制信號,針對性的選擇發(fā)聲語音進(jìn)行增強處理,而無音幀則靜 音輸出,同時對背景噪聲更新估計;網(wǎng)絡(luò)通訊基于傳輸控制協(xié)議
(TCP),客戶端計算器具有發(fā)送音視頻信號、接收音視頻信號以及本
地播放音視頻信號三個工作單元,最終實現(xiàn)了電子喉語音的視頻通訊。
本發(fā)明系統(tǒng)軟件部分采用流媒體開發(fā)技術(shù),整個軟件設(shè)計分為用
戶接口、控制邏輯、數(shù)據(jù)分離的三層結(jié)構(gòu);模塊化設(shè)計,使各功能模 塊相互獨立,耦合性小。
圖像處理部分的實現(xiàn)流程可見圖2,對于輸入的每一幀視頻圖像, 首先要經(jīng)過預(yù)處理,以消除背景噪聲、緩慢運動(包括呼吸、吞咽等 動作)和光照等各種干擾噪聲的影響。經(jīng)過處理的圖像采用基于膚色 的人臉檢測方法,選取不同色彩空間的膚色濾波器,得到唇部、面部和頸部的膚色空間圖像。在不同膚色空間,利用改進(jìn)的最大類間方差 (OtSU)法求取最佳閾值,得到唇部、面部和頸部的預(yù)分割圖像。預(yù) 分割的圖像中會由于光照、膚色等影響參雜有較小且分散的干擾塊, 采用閾值面積消去法,消除較小的干擾塊而保留較大的目標(biāo)區(qū)域。對 于不同的特征部位,分別提取不同的特征參數(shù),得到不同的控制信號。 對于面部圖像的處理主要是利用嘴唇形狀特征反應(yīng)發(fā)聲起止的 變化提取電子喉開關(guān)信號。具體步驟如下-
1) 初始化參數(shù),采集一幀視頻圖像;
2) 利用唇色濾波器計算規(guī)定矩形范圍的唇色特征值,并歸一化 為0-255灰度級,得到唇色特征值圖像。如果存在前一幀,利用前一 幀唇部區(qū)域范圍和膚色平均特征值,指導(dǎo)這一幀計算;
3) 利用改進(jìn)的最大類間方差(Otsu)法計算最佳分割閾值,以 此進(jìn)行圖像二值化分割,得到唇部預(yù)分割圖像。如果存在前一幀,利 用前一幀分割閾值指導(dǎo)這一幀分割閾值的計算;
4) 對嘴唇預(yù)分割圖像進(jìn)行閾值面積消去處理,消除較小的圖像 噪聲和背景干擾塊;
5) 對嘴唇區(qū)域進(jìn)行輪廓和中心點提取,利用改進(jìn)的一維哈夫 (Hough)變換檢測得到匹配嘴唇的橢圓模型參數(shù),主要為長短軸,
同時得到嘴唇區(qū)域范圍,用于指導(dǎo)下一幀唇色特征值計算。如果存在 前一幀,利用前一幀的長短軸指導(dǎo)這一幀的橢圓匹配;
6) 以長短軸之比作為嘴形判別,通過與閾值比較,得到開關(guān)電 平信號,輸出作為電子喉開關(guān)控制信號。
對于頸部圖像的處理主要是利用喉上頸部區(qū)域的運動信號來提 取嗓音源基頻、幅度變化控制信號。具體步驟如下
131) 初始化參數(shù),采集一幀視頻圖像;
2) 利用膚色濾波器計算規(guī)定矩形范圍的膚色特征值,并歸一化 為0-255灰度級,得到唇色特征值圖像。如果存在前一幀,利用前一 幀喉上頸部區(qū)域范圍,指導(dǎo)這一幀計算范圍;
3) 利用最大類間方差(Otsu)法計算最佳分割閾值,并進(jìn)行圖 像二值化分割,得到面部和頸部膚色區(qū)域圖像。如果存在前一幀,利 用前一幀分割閾值指導(dǎo)這一幀分割閾值的計算;
4) 對分割圖像進(jìn)行閾值面積消去處理,消除較小的圖像噪聲和 背景干擾塊;
5) 參考嘴唇下邊緣信息,分割得到從嘴唇下開始到圖像中膚色 區(qū)域的最下端之間的喉頸部目標(biāo)區(qū)域,保存范圍用于指導(dǎo)下一幀膚色 特征值計算;
6) 利用Lucas-Kanada微分法計算喉下頸部區(qū)域的光流場,得到 反應(yīng)運動特征的速度分量信息;
7) 對光流場進(jìn)行聚類分析,計算其與平均得到的各聚類中心距 離,以此判斷頻率、幅度變化,得到頻率、幅度變化系數(shù),并輸入作 為咽腔嗓音源合成參數(shù)。
本系統(tǒng)采用了基于膚色的人臉檢測方法,利用膚色的聚類性,在 YUV色彩空間計算唇色特征值和膚色特征值來增強目標(biāo)區(qū)域與背景 的區(qū)分度。
目標(biāo)得到增強后進(jìn)入分割環(huán)節(jié),本系統(tǒng)采用改進(jìn)的最大類間方差 (Otsu)法選取最佳分割閾值。為了使其適合唇色和膚色分割,并且 提高執(zhí)行效率,該系統(tǒng)中做了如下改進(jìn)
1)最大類間方差(Otsu)法的求解并不依靠灰度值或RGB彩色圖像的某一色彩分量,而是對每個像素的唇色和膚色特征值歸一化到
灰度級0~255,并在此灰度圖上利用最大類間方差(Otsu)法求最佳
閾值T;
2)基于時間的連貫性和閾值變化的連續(xù)性,以此借助上一幀圖 像的最佳分割閾值,并在其鄰域內(nèi)搜索本幀圖像的最佳分割閾值,不 僅滿足分割要求,而且提高執(zhí)行速度。
采用面積閾值消去法進(jìn)行降噪,去除噪聲和干擾塊,保留目標(biāo)區(qū) 域。面積閾值的大小,設(shè)置為跟蹤面積矩形框大小的五十分之一。
圖像去噪后即為準(zhǔn)確的唇部和頸部目標(biāo)區(qū)域,己經(jīng)滿足特征參數(shù)
提取算法的要求。參數(shù)的提取針對不同的部位特征采用不同的方法 唇部區(qū)域主要利用嘴形特征,故采用橢圓檢測的方法;頸部區(qū)域主要
利用運動特征,故采用光流法提取速度信息。
對于一般的橢圓,需要5個參數(shù)來確定中心坐標(biāo)、長短軸、長
軸與x軸夾角,本發(fā)明只利用嘴唇的外輪廓形狀信息,同時出于實
時性要求的考慮,假設(shè)橢圓長軸與x軸成o度角,而且橢圓中心坐
標(biāo)可由嘴唇外輪廓點計算平均近似得到,剩下長半軸《和短半軸6兩
個參數(shù),利用一維哈夫(Hough)變換獲得最佳參數(shù),在滿足要求的
前提下大大提高了效率。
根據(jù)提取的橢圓形狀參數(shù),本發(fā)明選擇短半軸與長半軸的比值
6/。作為判斷指標(biāo),如圖3為本發(fā)明連續(xù)語音波形圖、圖4為與圖3 連續(xù)語音對應(yīng)的嘴唇特征曲線(實線)、閾值(點線)和開關(guān)信號(虛 線)的對比圖,可見利用6/"值具有很好的形狀不變性,可以克服由 于采集距離造成圖像中嘴唇面積大小改變而產(chǎn)生的判斷錯誤,準(zhǔn)確反 映嘴形的變化情況,用它得到的判斷信號與語音波形具有很好的吻合度,判斷準(zhǔn)確率較高。對于連續(xù)發(fā)音時,采用延時方式,去掉字詞間隔帶來的關(guān)信號,使得過程中保持開信號,當(dāng)出現(xiàn)長時間停頓時,就會出現(xiàn)關(guān)信號,符合電子喉使用習(xí)慣。
本發(fā)明采用微分法中的Lucas-Kanada法提取頸部的微小運動信息。以目標(biāo)像素為中心選取合適鄰域,在整個鄰域內(nèi)利用Lucas-Kanada方程計算得到該像素點的光流,并以同樣的方法計算整個圖像就能得到整個圖像的光流場。
頸部圖像的運動中包含有頻率變化的信息,通過實驗統(tǒng)計,將光流變化按照頻率變化進(jìn)行聚類分析,得到兩個典型聚類,即頻率升高聚類和頻率降低聚類。將每一幀圖像提取的光流場信息與聚類模板進(jìn)行距離判斷,當(dāng)距離小于一定范圍時,認(rèn)定為升高或降低,否則認(rèn)為頻率不變,以此作為頻率變化參數(shù)輸出。
對于一個完整的視頻信號包括空域和時域兩部分信息,分別對應(yīng)幀內(nèi)和幀間信息?;谡f話時面部和頸部變化是緩慢連續(xù)的假設(shè),本發(fā)明的圖像處理中采用了時空域聯(lián)合的實時跟蹤控制方法,即通過上一幀圖像分割區(qū)域信息指導(dǎo)本幀目標(biāo)區(qū)域的分割,很好的利用了幀內(nèi)和幀間信息,不僅彌補了靜態(tài)圖像分割不精確的問題,而且提高了分割速度。
本發(fā)明的系統(tǒng)中跟蹤控制方法主要體現(xiàn)在以下幾方面
1) 特征區(qū)域檢測時,利用前一幀得到的唇部、頸部目標(biāo)區(qū)域范圍,指導(dǎo)設(shè)定本幀檢測的范圍,這樣縮小了處理的圖片大小,同時去除部分背景干擾,使后續(xù)處理的效果更好。
2) 最大類間方差(Otsu)法求解分割閾值時,利用前一幀的最佳閾值,縮小本幀圖像閾值搜索范圍,可以減少計算量,而且能避免
16得到局部最優(yōu)的分割閾值,以及出現(xiàn)兩幀間閾值突變的錯誤,保證閾值曲線的平穩(wěn)性。
3) —維哈夫(Hough)變換橢圓檢測時,利用上一幀的短半軸6值縮小本幀6值的搜索范圍,保證跟蹤的連貫性,防止哈夫(Hough)變換本身出現(xiàn)躍變的情況,同時,設(shè)置校正判斷機制,如果6/ 值不符合嘴形的正常比例范圍,則舍棄這一次的結(jié)果,保持上一幀的結(jié)果。
本發(fā)明圖像處理部分,在滿足實時性的前提下,從視頻信號中成功的提取了各種語音合成參數(shù)控制信號,并作為控制信號自動調(diào)節(jié)咽腔嗓音源的合成,以及輔助重建語音的增強處理。
咽腔嗓音源的自動控制合成,以咽腔嗓音源模型為指導(dǎo),利用從運動圖像中提取的視覺語音特征參數(shù)自動調(diào)節(jié)咽腔嗓音源模型的合成參數(shù),從而達(dá)到自動控制合成咽腔嗓音源波形的目的,最終通過電子喉施加裝置按合成波形輸出振動。
本發(fā)明中咽腔嗓音源波形合成采用源-濾波器模型。如圖5所示,
首先利用聲門嗓音源的參數(shù)模型,根據(jù)采集系統(tǒng)參數(shù)、提取的開關(guān)十
'、,
號和模型參數(shù)信號、以及用戶參數(shù),調(diào)整并設(shè)定各模型參數(shù)值,按照數(shù)學(xué)模型合成聲門嗓音源波形。其次,利用均勻面積的單管模型,根據(jù)控制信號調(diào)整聲道模型參數(shù),合成聲門上聲道的頻率響應(yīng)函數(shù),并對聲門嗓音源波形進(jìn)行調(diào)制,最終合成咽腔嗓音源模型。
聲門嗓音源的合成采用分段參數(shù)模型,具體數(shù)學(xué)表示如下
<formula>formula see original document page 17</formula>
其中,^p為聲門上阻尼振蕩系數(shù),"為閉合相幅度衰減系數(shù),均根據(jù)實驗設(shè)定;巧、"2、巧為嗓音源單周期波形的形狀參數(shù),分別表
示開放相上升段、開放相下降段和閉合相長度,其比例根據(jù)發(fā)聲模式
設(shè)定,iV為周期長度,即iV-A+"2+"3; ^為幅度控制,義為聲門上聲道第一共振峰頻率^與基頻/。的比值,這三個值都根據(jù)提取的控制信號動態(tài)調(diào)整。
由于聲門到咽部的聲門上聲道長度較短,故可近似為均勻面積的單管模型,其頻率響應(yīng)函數(shù)和共振峰頻率為
w)=—^—
cos(2;r / c)F =(2"-1)^ = (2" —l)巧("=1,2,3 )
其中,/為聲道長度,可由控制參數(shù)在較小范圍內(nèi)動態(tài)調(diào)整,其變化會根據(jù)上式影響聲門上第一共振峰,同時調(diào)整嗓音源合成參數(shù)義的值。
本發(fā)明中基頻/。、幅度」和聲道長度/等模型參數(shù)的動態(tài)調(diào)整,都是根據(jù)前一幀的值作為基準(zhǔn),根據(jù)控制信號做出適當(dāng)調(diào)整。對于第一幀則由初值設(shè)定,其中基頻/。初值根據(jù)使用者性別按照平均基頻進(jìn)行設(shè)定,幅度^也可由使用者根據(jù)效果設(shè)定,聲道長度/則根據(jù)實驗結(jié)果平均值設(shè)定。最終,咽腔嗓音源波形由聲門嗓音源波形經(jīng)聲門上聲道調(diào)制后得到。
合成的咽腔嗓音源波形通過電子喉施加裝置振動輸出,并施加于頸下咽腔部位,其外觀設(shè)計如圖6所示。整個結(jié)構(gòu)設(shè)計與耳機形狀相似,攝像頭和麥克風(fēng)固定于麥克風(fēng)支架上,耳機下方設(shè)置有固定帶,將電子喉振蕩器置于其上,全部設(shè)備通過框架整合在一起,使用時可固定于需要位置,無須手持。其中,電子喉振蕩器的位置可在連接帶上進(jìn)行調(diào)整,以滿足不同使用者的需要。整個電子喉施加裝置須通過標(biāo)準(zhǔn)通用串行總線(USB)接口與計算機系統(tǒng)連接進(jìn)行信號傳輸,主要包括以下三方面第一,由電子喉施加裝置向計算機傳輸音視頻信號進(jìn)行處理;第二,計算機提取的電子喉開關(guān)信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝置;第三,電子喉施加裝置工作所需的電能由計算機提供。
本發(fā)明對于咽腔電子喉重建語音增強的具體流程可參看圖7,該方法以可調(diào)參數(shù)的譜減法為基礎(chǔ),利用開關(guān)信號判斷有無電子喉語音,若為無音幀則靜音輸出,同時更新環(huán)境噪聲,若為有音幀則利用可調(diào)參數(shù)功率譜減進(jìn)行增強處理,以消除語音中所帶有的泄露周期噪聲和環(huán)境噪聲,提高語音信噪比和主觀可懂度、悅耳度。
咽腔電子喉語音增強方法基于周期性背景噪聲、環(huán)境噪聲和重建語音都保持短時平穩(wěn)且不相關(guān)的假設(shè),在頻域進(jìn)行參數(shù)能量譜減,具體公式如下
其中,;r(w)、 S( )、 W(w)分別為帶噪語音、純凈語音和噪聲的頻譜,AreW為閾值系數(shù),其值由實驗統(tǒng)計設(shè)定,"為可調(diào)譜減參數(shù),/ 為譜平滑系數(shù),其值可根據(jù)帶噪語音能量和估計噪聲能量的比例動態(tài)
豐M
調(diào)整,即假設(shè)/
譜減系數(shù)可根據(jù)下式調(diào)整:
其中A,、 ^兩個系數(shù)通過統(tǒng)計實驗設(shè)定。
則純凈語音估值為:
19雄)=/F/T
一)
譜減法進(jìn)行語音增強最關(guān)鍵的部分就是噪聲估計,本系統(tǒng)利用開關(guān)控制信號和嗓音源合成參數(shù)等,分別從電子喉泄露周期噪聲和環(huán)境噪聲兩方面進(jìn)行噪聲估計。
電子喉泄露噪聲為周期噪聲,它的周期性與電子喉振動周期相一致,可以利用合成咽腔嗓音源波形的基頻/。、幅值^等參數(shù)信息,估計電子喉泄露周期噪聲,而且根據(jù)嗓音源合成的動態(tài)調(diào)節(jié),電子喉泄露噪聲的估計也會隨之調(diào)整,保證了噪聲的隨時更新。
環(huán)境噪聲的估計分為初始噪聲估計和噪聲更新兩部分初始噪聲的估計是在系統(tǒng)開始工作,使用者發(fā)聲之前,連續(xù)采集L幀噪聲并計算平均功率譜,作為初始噪聲功率譜
々。(w)2=+i|,)|2
繼續(xù)采集M幀噪聲,用此M幀噪聲的功率譜驗證》。(一是否滿足以下條件
(1-力|々。(《)|2 <|iV |2 〈(l +力po(6;)12
若滿足,則々。(w)合格,初始噪聲估計結(jié)束;若不滿足,則重新采集噪聲估計。上式中Z為寬松系數(shù),不宜過大也不宜過小,本系統(tǒng)取為0.4。
噪聲更新是環(huán)境噪聲估計中很重要的一步,在整個電子喉工作過程中環(huán)境噪聲無法保證穩(wěn)態(tài),本系統(tǒng)采用權(quán)重平均來自適應(yīng)的更新噪聲。用公式表述如下
,
々M(w) +(i-a偶(w)I2 ,當(dāng)"(w)"d⑨時
,其他其中l(wèi)々,(w)1是當(dāng)前噪聲功率譜估計,|》M(0>)|是前一幀功率譜估
計,;i和f為固定系數(shù)。考慮到算法的穩(wěn)定性以及對非平穩(wěn)噪聲的跟
蹤性能,義一般取值為0.9 0.98, s—般取值為1.5 2.5。
網(wǎng)絡(luò)通訊部分主要在本地實現(xiàn)音視頻數(shù)據(jù)的Socket傳輸模塊,在遠(yuǎn)程端則實現(xiàn)音視頻數(shù)據(jù)的Socket接受模塊,然后在本地播放。模塊采用音視頻數(shù)據(jù)相分離的傳輸方法,為它們分別創(chuàng)建一個Socket連接,而在每一個Socket上,可以同時進(jìn)行資料的發(fā)送和接收。由于音視頻同步發(fā)送與接收,可以解決同步問題。因為音視頻數(shù)據(jù)是大量的、連續(xù)的、需要可靠傳輸?shù)模虼诉@些數(shù)據(jù)的傳輸選用傳輸控制協(xié)議(TCP)。
本發(fā)明的音視頻采集模塊對不同硬件系統(tǒng)具有通用性和適用性,對于音視頻采集模塊沒有特殊限制,系統(tǒng)中采用USB攝像頭作為視頻采集模塊,麥克風(fēng)作為默認(rèn)音頻采集模塊。
視頻信號采用帕爾制(PAL),圖像采集參數(shù)可以通過攝像頭自帶屬性頁進(jìn)行調(diào)整,為了保證視頻的流暢性和分割跟蹤效果,采集圖像的大小定為640X480,彩色圖像元數(shù)據(jù)格式為24位圖,視頻幀率默認(rèn)為20幀/秒,視頻延時為50ms。
音頻信號采用雙聲道,量化精度為16位。音頻緩存的設(shè)置很重要,設(shè)得過小會影響音頻采集效率,過大則產(chǎn)生較大延遲,而且其與視頻采集幀率關(guān)系到音視頻的同步問題,經(jīng)過實驗測定,本系統(tǒng)中默認(rèn)為70ms。
本發(fā)明的系統(tǒng)對實時性的要求很高, 一般來說,音視頻輸入和輸出之間的時間間隔不應(yīng)超過0.5s。本發(fā)明系統(tǒng)的外部設(shè)備較少,執(zhí)行速度主要受計算機信號處理方法速度的影響。由于各種算法的復(fù)雜度都不是很高,而且利用音視頻跟蹤等技術(shù)手段簡化了處理過程,使得總的系統(tǒng)延遲得到嚴(yán)格的控制,保證了實時性要求。
權(quán)利要求
1. 一種自動調(diào)節(jié)的咽腔電子喉語音通訊系統(tǒng),包括麥克風(fēng)、攝像頭,電子喉振蕩器(2),音視頻采集模塊與計算機軟硬件系統(tǒng),攝像頭和麥克風(fēng)(3)固定于麥克風(fēng)支架上,耳機(1)下方設(shè)置有固定帶,電子喉振蕩器設(shè)置于固定帶(5)上,其特征在于該系統(tǒng)包括下述三個主要模塊1)發(fā)聲過程中面部和頸部運動圖像采集與處理模塊,實現(xiàn)從運動圖像的分析到視覺語音特征參數(shù)的提?。?)咽腔嗓音源動態(tài)合成模塊,將提取的視覺語音特征參數(shù)轉(zhuǎn)換為嗓音源合成模型參數(shù),并按照咽腔嗓音源數(shù)學(xué)模型合成波形;3)咽腔電子喉重建語音實時增強與網(wǎng)絡(luò)通訊模塊,對采集的咽腔電子喉重建語音進(jìn)行實時增強處理,并將處理后的語音進(jìn)行遠(yuǎn)程網(wǎng)絡(luò)傳輸,實現(xiàn)網(wǎng)絡(luò)通訊功能;攝像頭通過數(shù)據(jù)連接線將采集到的運動圖像作為輸入信號傳輸給運動圖像處理模塊進(jìn)行視覺語音特征參數(shù)提??;運動圖像處理后輸出的視覺語音特征參數(shù),又作為輸入信號進(jìn)入咽腔嗓音源合成模塊控制波形的合成;合成的咽腔嗓音源波形再次通過數(shù)據(jù)線輸出給電子喉振蕩器,施加于頸部咽腔處;重建的咽腔電子喉語音經(jīng)麥克風(fēng)設(shè)備采集后,通過數(shù)據(jù)線輸入語音增強模塊,同時該模塊也接收控制信號的輸入;通訊模塊的輸入則包括攝像頭采集的視頻信號與增強后輸出的語音信號兩部分,最終經(jīng)過網(wǎng)絡(luò)輸出到另一個客戶端,同時另一個客戶端發(fā)出的音視頻信號也是在通訊模塊接收并播放;由電子喉施加裝置向計算機傳輸音視頻信號進(jìn)行處理,計算機提取的電子喉開關(guān)信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝置,電子喉施加裝置工作所需的電能由計算機提供。
2. —種自動調(diào)節(jié)的咽腔電子喉語音通訊的方法,其特征在于音視 頻采集模塊同時開始工作,利用視頻采集模塊攝像頭獲取發(fā)聲過程中 使用者面部和頸部的運動圖像作為系統(tǒng)輸入,圖像處理模塊對輸入圖 像進(jìn)行預(yù)處理,去除千擾信號,再利用人臉膚色特征目標(biāo)區(qū)域定位、 分割、特征參數(shù)提取,以及特征區(qū)域運動的跟蹤,得到與發(fā)聲特征相 關(guān)的視覺語音特征參數(shù),再經(jīng)自動控制合成系統(tǒng)通過關(guān)系轉(zhuǎn)換由視覺 語音參數(shù)推導(dǎo)出咽腔嗓音源合成所需的模型參數(shù)和開關(guān)信號,控制咽 腔嗓音源波形合成以及施加裝置的振動;與此同時,音頻采集模塊麥 克風(fēng)記錄下咽腔電子喉重建語音信號,結(jié)合開關(guān)控制信號和咽腔嗓音 源合成信息,指導(dǎo)泄露周期噪聲和環(huán)境噪聲的估計,以及譜減參數(shù)的 調(diào)整,并對有音幀進(jìn)行譜減語音增強處理,最終將得到的視頻圖像和 增強的音頻信號整合后,由網(wǎng)絡(luò)系統(tǒng)模塊完成發(fā)送、接受和本地播放, 實現(xiàn)遠(yuǎn)程通訊。
3. 根據(jù)權(quán)利要求2所述的自動調(diào)節(jié)的咽腔電子喉語音通訊的方法,其特征在于所述的面部運動圖像處理主要是利用嘴唇形狀特征反應(yīng) 發(fā)聲起止的變化提取電子喉開關(guān)信號,具體步驟如下1) 初始化參數(shù),采集一幀視頻圖像;2) 利用唇色濾波器計算規(guī)定矩形范圍的唇色特征值,并歸一化為 0-255灰度級,得到唇色特征值圖像,如果存在前一幀,利用前一幀 唇部區(qū)域范圍和膚色平均特征值,指導(dǎo)這一幀計算;3) 利用改進(jìn)的最大類間方差Otsu法計算最佳分割閾值,以此進(jìn)行圖 像二值化分割,得到唇部預(yù)分割圖像,如果存在前一幀,利用前一幀 分割閾值指導(dǎo)這一幀分割閾值的計算;4) 對嘴唇預(yù)分割圖像進(jìn)行閾值面積消去處理,消除較小的圖像噪聲 和背景干擾塊;5) 對嘴唇區(qū)域進(jìn)行輪廓和中心點提取,利用改進(jìn)的一維哈夫Hough 變換檢測得到匹配嘴唇的橢圓模型參數(shù),主要為長短軸,同時得到嘴 唇區(qū)域范圍,用于指導(dǎo)下一幀唇色特征值計算,如果存在前一幀,利 用前一幀的長短軸指導(dǎo)這一幀的橢圓匹配;6) 以長短軸之比作為嘴形判別,通過與閾值比較,得到開關(guān)電平信 號,輸出作為電子喉開關(guān)控制信號。
4.根據(jù)權(quán)利要求2所述的自動調(diào)節(jié)的咽腔電子喉語音通訊的方法, 其特征在于所述的頸部圖像處理是利用喉上頸部區(qū)域的運動信號來 提取嗓音源基頻、幅度變化控制信號,具體步驟如下-1) 初始化參數(shù),采集一幀視頻圖像;2) 利用膚色濾波器計算規(guī)定矩形范圍的膚色特征值,并歸一化為 0-255灰度級,得到唇色特征值圖像,如果存在前一幀,利用前一幀 喉上頸部區(qū)域范圍,指導(dǎo)這一幀計算范圍;3) 利用最大類間方差Otsu法計算最佳分割閾值,并進(jìn)行圖像二值化 分割,得到面部和頸部膚色區(qū)域圖像,如果存在前一幀,利用前一幀 分割閾值指導(dǎo)這一幀分割閾值的計算;4) 對分割圖像進(jìn)行閾值面積消去處理,消除較小的圖像噪聲和背景 干擾塊;5) 參考嘴唇下邊緣信息,分割得到從嘴唇下開始到圖像中膚色區(qū)域 的最下端之間的喉頸部目標(biāo)區(qū)域,保存范圍用于指導(dǎo)下一幀膚色特征 值計算;6) 利用Lucas-Kanada微分法計算喉下頸部區(qū)域的光流場,得到反應(yīng) 運動特征的速度分量信息;7) 對光流場進(jìn)行聚類分析,計算其與平均得到的各聚類中心距離, 以此判斷頻率、幅度變化,得到頻率、幅度變化系數(shù),并輸入作為咽 腔嗓音源合成參數(shù)。
5.根據(jù)權(quán)利要求2所述的自動調(diào)節(jié)的咽腔電子喉語音通訊的方法, 其特征在于采用基于膚色的人臉檢測方法,利用膚色的聚類性,在 YUV色彩空間計算唇色特征值和膚色特征值來增強目標(biāo)區(qū)域與背景 的區(qū)分度,目標(biāo)得到增強后進(jìn)入分割環(huán)節(jié),采用最大類間方差Otsu 法選取最佳分割閾值,為了使其適合唇色和膚色分割,提高執(zhí)行效率, 做了如下改進(jìn)1) 最大類間方差Otsu法的求解并不依靠灰度值或RGB彩色圖像的 某一色彩分量,而是對每個像素的唇色和膚色特征值歸一化到灰度級 0~255,并在此灰度圖上利用最大類間方差Otsu法求最佳閾值T;2) 基于時間的連貫性和閾值變化的連續(xù)性,借助上一幀圖像的最佳 分割閾值,并在其鄰域內(nèi)搜索本幀圖像的最佳分割閾值,滿足分割要求,而且提高執(zhí)行速度。
6.根據(jù)權(quán)利要求2所述的自動調(diào)節(jié)的咽腔電子喉語音通訊的方法,其特征在于所述參數(shù)的提取針對不同的部位特征采用不同的方法 利用一維哈夫Hough變換檢測得到匹配嘴唇的橢圓模型參數(shù),提取 唇部區(qū)域的嘴形特征參數(shù),作為咽腔電子喉開關(guān)的控制信號;采用光 流法提取頸部區(qū)域的運動信息特征參數(shù),通過聚類分析作為咽腔電子 喉嗓音源頻率和幅度的控制信號,咽腔嗓音源的自動控制合成,以咽 腔嗓音源模型為基礎(chǔ),利用從運動圖像中提取的視覺語音特征參數(shù)自 動調(diào)節(jié)咽腔嗓音源模型的合成參數(shù),合成咽腔嗓音源波形,通過電子 喉施加裝置按合成波形輸出振動。
全文摘要
本發(fā)明涉及一種可自動調(diào)節(jié)的咽腔電子喉語音合成與通訊系統(tǒng)與方法,基于計算機軟件平臺和外部硬件設(shè)備,包括攝像頭、麥克風(fēng)和電子喉振蕩器,通過提取使用者面部和頸部運動圖像的視覺語音特征信息,實現(xiàn)了對電子喉工作狀態(tài)及咽腔嗓音源合成的自動控制,不僅使電子喉的使用無需手持,更加簡單便捷,而且解決了合成嗓音源與電子喉施加部位不一致和電子喉語音機械不自然的問題,同時對咽腔電子喉重建語音進(jìn)行動態(tài)去噪增強處理,提高了重建語音的質(zhì)量與可懂度,并通過網(wǎng)絡(luò)傳輸技術(shù)實現(xiàn)了電子喉語音的遠(yuǎn)程實時通訊,進(jìn)一步拓展了電子喉的應(yīng)用范圍,改善了喉切除患者的生活質(zhì)量。
文檔編號A61F2/50GK101474104SQ20091002089
公開日2009年7月8日 申請日期2009年1月14日 優(yōu)先權(quán)日2009年1月14日
發(fā)明者萬明習(xí), 菲 劉, 亮 吳, 吳輝雄, 王素品, 翟健東 申請人:西安交通大學(xué)