專利名稱:一種聾人學(xué)習(xí)說話的電子教學(xué)方法
技術(shù)領(lǐng)域:
本發(fā)明屬于學(xué)習(xí)用具技術(shù)領(lǐng)域,具體涉及一種聾人學(xué)習(xí)說話的電子教學(xué)方法。
背景技術(shù):
專利CN2057550 “頻率可變式聾人語音訓(xùn)練助聽器”,提出一種適用于聾人進行語音聽覺訓(xùn)練的助聽器,該助聽器的特點是利用聾人對于語音的不同頻率分量的不同反應(yīng),采用語音帶通濾波器、放大器來構(gòu)成助聽器,從而使聾人在不感覺痛苦的情況下聽清楚語音,從而達到對聾人進行語音聽覺訓(xùn)練的目的。專利CN2279662 “一種適合于室外活動用的聾人語言訓(xùn)練機”提出了一種多功能的適合于室外活動用的聾人語言訓(xùn)練機,其特征在于由話筒和無線發(fā)射機組成無線話筒,供老師攜帶,由無線接收機、后置放大器、七段均衡器、功率放大器和雙聲道耳機依次連接組成信號接收放大裝置,供同學(xué)使用。專利CN1183945 “使聾人感知聲音的裝置”,提出一種利用電子裝置以聲音的振動形式,以能夠使人體皮膚產(chǎn)生感覺的方式作用于人體皮膚,使人通過對皮膚的感覺感知聲音的信息。由拾音器、放大器和對人體皮膚的振動傳感器所組成,其特征在于對人體皮膚的振動傳感器貼于人體皮膚,并以聲音的振動形式,以能夠使人體皮膚產(chǎn)生感覺的機械振動方式作用于人體皮膚。以上技術(shù)的原理均是采用模擬電路使聾人感知聲音產(chǎn)生的振動,其共同缺點有以下幾點1、教學(xué)裝置本身沒有采用圖片、視頻顯示這些可視化的教學(xué)方式,而是需要教學(xué)人員的現(xiàn)場示范,可重復(fù)性差,也不容易引起學(xué)習(xí)者的興趣;2、學(xué)習(xí)者無法通過“示范說明-學(xué)話者發(fā)音-糾正發(fā)音”這樣的互動方式進行自主學(xué)習(xí);3、學(xué)習(xí)過程離不開教學(xué)人員的大量干預(yù),例如需要由教學(xué)人員反復(fù)進行示范和評價發(fā)音是否規(guī)范并進行糾正;4、在一對多的教學(xué)環(huán)境下,教學(xué)人員不能同時輔導(dǎo)多名學(xué)習(xí)者。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)的不足,提出一種能夠以可視化的方式進行教學(xué),能夠自動分析學(xué)習(xí)者發(fā)音是否規(guī)范,并顯示糾正錯誤的對應(yīng)示范教學(xué)內(nèi)容,學(xué)習(xí)過程基本無需教學(xué)人員的干預(yù)的聾人學(xué)習(xí)說話電子教學(xué)裝置。本發(fā)明通過以下技術(shù)方案實現(xiàn)—種聾人學(xué)習(xí)說話的電子教學(xué)方法,在進行電子教學(xué)之前,已經(jīng)在教學(xué)裝置里預(yù)存有教學(xué)內(nèi)容,與教學(xué)內(nèi)容相關(guān)的標準發(fā)音的特征參數(shù)模板庫和常見錯誤發(fā)音的特征參數(shù)模板庫,在進行電子教學(xué)的時候,采用如下的步驟(I)播放教學(xué)內(nèi)容(2)通過麥克風和攝像頭獲取學(xué)習(xí)者在練習(xí)發(fā)音時的音頻和視頻數(shù)據(jù)以及音頻、視頻內(nèi)容的時間同步信息;(3)對獲得的音頻數(shù)據(jù)進行預(yù)處理,做離散傅里葉變換,根據(jù)頻域能量標記出靜音幀與非靜音幀,對非靜音幀提取音頻特征參數(shù);(4)對獲得的視頻數(shù)據(jù)采用基于哈爾特征推進級聯(lián)分類器的快速人臉嘴部檢測方法,檢測、跟蹤視頻流中說話人的嘴部運動,提取嘴的有關(guān)口型的視覺特征,包括高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動;(5)采用隱馬爾可夫模型作為訓(xùn)練識別算法,將提取出的音頻特征參數(shù)與預(yù)存在標準發(fā)音的特征參數(shù)模板庫里對應(yīng)的特征參數(shù)進行比較分類,通過分析聲音的頻率、音調(diào)、 音高、音長等語音特征,判斷學(xué)習(xí)者的發(fā)音是否正確;(6)如果判斷學(xué)習(xí)者的發(fā)音與標準發(fā)音差異較大,則通過將其音頻特征及有關(guān)口型的視覺特征與常見錯誤發(fā)音的特征參數(shù)模板庫對比,判斷屬于哪一類常見錯誤,用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比。其中,對非靜音幀采用MFCC倒譜系數(shù)法進行音頻特征提取。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是I.以圖片、視頻這些可視化的手段進行教學(xué),使學(xué)習(xí)者在學(xué)習(xí)時更有興趣,注意力更加集中;2.自動對在學(xué)習(xí)者發(fā)音時采集到的聲音和視頻內(nèi)容進行分析,找出發(fā)音不規(guī)范的原因,給出對應(yīng)的范例視頻來糾正發(fā)音;3.學(xué)習(xí)過程基本為自學(xué),教學(xué)人員只需要事后觀看學(xué)習(xí)時的錄像來掌握學(xué)習(xí)進度;4.教學(xué)人員可同時對多名學(xué)習(xí)人員進行監(jiān)督;5.教學(xué)內(nèi)容可通過網(wǎng)絡(luò)更新。
具體實施例方式下面結(jié)合實施例對本發(fā)明進行說明。本發(fā)明采用的裝置由顯示屏、麥克風、攝像頭、計算機或其它具備計算能力的設(shè)備和專門設(shè)計的教學(xué)軟件組成,教學(xué)軟件分為視頻或圖片播放、聲音與圖像采集、聲音與圖像的分析比較共3個模塊。本裝置的工作過程為1、播放標準的發(fā)音教學(xué)內(nèi)容,如展示音標與口型、聲帶運動的對應(yīng)關(guān)系的圖片或視頻;2、通過麥克風和攝像頭采集學(xué)習(xí)者發(fā)音時的聲音與視頻;3、通過對聲音和視頻的分析,將學(xué)習(xí)者的發(fā)音與口型同標準的發(fā)音與口型進行比較,分析兩者的差異及其原因,例如口型、舌頭位置、聲帶運動等;4、以圖示的方式展示學(xué)習(xí)者的錯誤并有針對性地播放糾正這些錯誤的圖片或視頻;5、在學(xué)習(xí)者的發(fā)音比較接近標準發(fā)音時給予肯定提示并進入下一段內(nèi)容的學(xué)習(xí)。本裝置的硬件部分可以是外接麥克風和攝像頭的計算機,或者是平板電腦、智能手機,或者是帶有顯示屏、麥克風、攝像頭的嵌入式計算機系統(tǒng)。最佳實施方式為硬件采用平板電腦,軟件為按上一段所述技術(shù)方案設(shè)計的教學(xué)軟件。該軟件支持運行Linux、Mac OS、WindowsXP>ffindows7操作系統(tǒng)的計算機,或者是運行Android、iOS、移動版Windows操作系統(tǒng)的平板電腦以及智能手機。本裝置的軟件部分采用聲音、視頻雙模式識別系統(tǒng),此系統(tǒng)包含一個音頻分析子系統(tǒng)、一個視頻分析子系統(tǒng)、一個發(fā)音識別子系統(tǒng),以及一個標準發(fā)音的特征參數(shù)模板庫和一個常見錯誤發(fā)音的特征參數(shù)模板庫。視頻分析子系統(tǒng)對從攝像頭獲取的學(xué)習(xí)者發(fā)音時的視頻內(nèi)容進行分析,提取嘴的高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動等有關(guān)口型的視覺特征;同時,音頻分析子系統(tǒng)對從麥克風獲取的學(xué)習(xí)者發(fā)音時的音頻內(nèi)容進行頻譜分析,提取頻率、音調(diào)、音高、音長等語音特征。然后,發(fā)音識別子系統(tǒng)將視頻分析和音頻分析兩個子系統(tǒng)獲取的特征參數(shù)與兩個模板庫中對應(yīng)內(nèi)容的特征參數(shù)進行比較分類(即對學(xué)習(xí)者的發(fā)音與口型和標準庫、常見錯誤庫的發(fā)音與口型進行比較分類),從而判斷學(xué)習(xí)者的發(fā)音是否正確,或是屬于哪一類常見錯誤,并用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比,幫助學(xué)習(xí)者糾正發(fā)音。主要完成的工作如下一·視、音頻特征檢測與提取。利用麥克風和攝像頭采集學(xué)習(xí)者音、視頻信息,對采集到的純音頻信息進行預(yù)處理,預(yù)處理過程包括預(yù)濾波、采樣和量化、分幀、加窗、預(yù)加重、端點檢測等。經(jīng)過預(yù)處理的語音數(shù)據(jù)就可以進行特征參數(shù)提??;對采集到的純視頻信息引入旋轉(zhuǎn)哈爾特征在積分圖像中的應(yīng)用,在基于Adaboost推進學(xué)習(xí)算法的基礎(chǔ)上,通過使用單值分類作為基礎(chǔ)特征分類 器,并且以級聯(lián)的方式合并強分類器,劃分檢測區(qū)域并用于嘴部定位,提取嘴的高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動等有關(guān)口型的視覺特征。二.視、音頻特征融和與識別。在發(fā)音識別子系統(tǒng)中,采用隱馬爾可夫模型(HMM)作為訓(xùn)練識別算法,將提取出的音頻的特征參數(shù)與兩個模板庫中對應(yīng)內(nèi)容的特征參數(shù)進行比較分類,通過分析聲音的頻率、音調(diào)、音高、音長等語音特征判斷學(xué)習(xí)者的發(fā)音是否正確,并結(jié)合分析學(xué)習(xí)者的嘴的高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動等口型特征,判斷屬于哪一類常見錯誤,用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比,幫助學(xué)習(xí)者糾正及曰。本發(fā)明進行教學(xué)的具體步驟如下(I)通過麥克風和攝像頭獲取學(xué)習(xí)者在練習(xí)發(fā)音時的音頻和視頻數(shù)據(jù)(即語音和圖像信息)以及音、視頻內(nèi)容的時間同步信息。(2)對獲得的音頻數(shù)據(jù)進行預(yù)處理,做離散傅里葉變換,根據(jù)頻域能量標記出靜音中貞與非靜音巾貞,對非靜音巾貞采用MFCC倒譜系數(shù)(Mel Frequency Cepstmm Coefficient)進行音頻特征提取。(3)對獲得的視頻數(shù)據(jù)采用基于旋轉(zhuǎn)哈爾特征推進級聯(lián)分類器的快速人臉嘴部檢測方法,檢測、跟蹤視頻流中說話人的嘴部運動,提取嘴的高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動等有關(guān)口型的視覺特征。(4)采用隱馬爾可夫模型(HMM)作為訓(xùn)練識別算法,將提取出的音頻的特征參數(shù)與標準模板庫中對應(yīng)內(nèi)容的特征參數(shù)進行比較分類。通過分析聲音的頻率、音調(diào)、音高、音長等語音特征,判斷學(xué)習(xí)者的發(fā)音是否正確。(5)如果學(xué)習(xí)者的發(fā)音與標準發(fā)音差異較大,則通過將其音頻特征及口型特征與標準庫、常見錯誤庫的對比,判斷屬于哪一類常見錯誤,用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比,幫助學(xué)習(xí)者糾正發(fā)音。
權(quán)利要求
1.一種聾人學(xué)習(xí)說話的電子教學(xué)方法,在進行教學(xué)之前,已經(jīng)在教學(xué)裝置里預(yù)存有教學(xué)內(nèi)容,與教學(xué)內(nèi)容相關(guān)的標準發(fā)音的特征參數(shù)模板庫和常見錯誤發(fā)音的特征參數(shù)模板庫,在進行電子教學(xué)的時候,采用如下的步驟 (1)播放教學(xué)內(nèi)容; (2)通過麥克風和攝像頭獲取學(xué)習(xí)者在練習(xí)發(fā)音時的音頻和視頻數(shù)據(jù)以及音頻、視頻內(nèi)容的時間同步信息; (3)對獲得的音頻數(shù)據(jù)進行預(yù)處理,做離散傅里葉變換,根據(jù)頻域能量標記出靜音幀與非靜音幀,對非靜音幀提取音頻特征參數(shù); (4)對獲得的視頻數(shù)據(jù)采用基于哈爾特征推進級聯(lián)分類器的快速人臉嘴部檢測方法,檢測、跟蹤視頻流中說話人的嘴部運動,提取嘴的有關(guān)口型的視覺特征,包括高度、寬度、形狀、圓度、下頜的位置、面部肌肉運動; (5)采用隱馬爾可夫模型作為訓(xùn)練識別算法,將提取出的音頻特征參數(shù)與預(yù)存在標準發(fā)音的特征參數(shù)模板庫里對應(yīng)的特征參數(shù)進行比較分類,通過分析聲音的頻率、音調(diào)、音高、音長等語音特征,判斷學(xué)習(xí)者的發(fā)音是否正確; (6)如果判斷學(xué)習(xí)者的發(fā)音與標準發(fā)音差異較大,則通過將其音頻特征及有關(guān)口型的視覺特征與常見錯誤發(fā)音的特征參數(shù)模板庫對比,判斷屬于哪一類常見錯誤,用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比。
2.根據(jù)權(quán)利要求I所述的聾人學(xué)習(xí)說話的電子教學(xué)方法,其特征在于,對非靜音幀采用MFCC倒譜系數(shù)法進行音頻特征提取。
全文摘要
本發(fā)明屬于學(xué)習(xí)用具技術(shù)領(lǐng)域,涉及一種聾人學(xué)習(xí)說話的電子教學(xué)方法,包括通過麥克風和攝像頭獲取學(xué)習(xí)者在練習(xí)發(fā)音時的音頻和視頻數(shù)據(jù)以及音頻、視頻內(nèi)容的時間同步信息;提取音頻特征參數(shù);提取嘴的有關(guān)口型的視覺特征;將提取出的音頻特征參數(shù)與預(yù)存在標準發(fā)音的特征參數(shù)模板庫里對應(yīng)的特征參數(shù)進行比較分類,判斷學(xué)習(xí)者的發(fā)音是否正確;如果差異較大,則通過將其音頻特征及有關(guān)口型的視覺特征與常見錯誤發(fā)音的特征參數(shù)模板庫對比,判斷屬于哪一類常見錯誤,用圖像、動畫、視頻內(nèi)容給出學(xué)習(xí)者的錯誤發(fā)音方式與標準發(fā)音方式的對比。本發(fā)明能夠自動分析學(xué)習(xí)者發(fā)音是否規(guī)范,糾正錯誤,學(xué)習(xí)過程基本無需教學(xué)人員的干預(yù)。
文檔編號G09B21/04GK102663928SQ20121005837
公開日2012年9月12日 申請日期2012年3月7日 優(yōu)先權(quán)日2012年3月7日
發(fā)明者呂衛(wèi), 楊博菲, 楊德龍, 褚晶輝, 鄭巖 申請人:天津大學(xué)