專利名稱:具有智能糾錯功能的交互式虛擬教師系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種虛擬教師系統(tǒng),尤其涉及一種具有智能糾錯功能的交互式虛擬教師系統(tǒng)。適用于智能可視化互動人機對話學習平臺。
背景技術(shù):
語音糾錯是語言學習和交流中的重要環(huán)節(jié),也是人機對話教學需要解決的難點之一。理想狀態(tài)下,虛擬教師應(yīng)具有充分的智能性,不僅能自主發(fā)現(xiàn)錯誤,還要分析其錯誤的根源,知道如何糾正,何時糾正,糾正同時考慮學習者的情感因素,這樣才能激發(fā)學習者的學習興趣和學習信心,提高教學效率。而目前市場上存在的軟件產(chǎn)品大多糾錯時機固定, 一旦發(fā)現(xiàn)學習者語音不達標,立刻糾正,不能根據(jù)學習者的情緒變化隨時調(diào)整;并且糾錯方式單一,只能針對某一確定官方標準語種,識別出學習者的語音,將其與標準語音做簡單的對比分析,然后采用打分的形式對發(fā)音進行評判,根據(jù)分數(shù)的高低判斷學習者的發(fā)音正誤, 如果系統(tǒng)認為發(fā)音有誤,則提供正確的發(fā)音示范,供學生反復(fù)跟讀練習,直至系統(tǒng)認為發(fā)音符合要求為止。這種糾錯示范方式存在的一個明顯弊端是,學習者必須具備良好的聽音辨音能力,才能獲得良好的糾錯效果,而事實上,大多數(shù)學習者需要長期訓練才能獲得這種能力,這就與系統(tǒng)的糾錯策略形成了一對矛盾體,學習者只能自己摸索發(fā)音差異,盲目的“模仿”學習,由于找不到發(fā)音差異和錯誤的真正根源,往往導(dǎo)致反復(fù)跟讀都不正確發(fā)音,長此以往,打擊學習者的自信心,造成了學習的厭煩和抵觸情緒。為了彌補上述缺點,一些產(chǎn)品增加了聲音波形對比圖或者發(fā)音的視覺演示圖,從視覺上提供個人語音與標準語音間的差異信息,雖然可以使學習者看到差異所在,但是并未用明確的文字信息告訴學習者如何改正。美國語言學家S. D. Krashen認為語言使用能力如口語,不是教出來的,而是隨著時間的推移,接觸大量的可理解語料之后自然獲得的,并且同樣也能獲得必要的語法。據(jù)此,本發(fā)明設(shè)計的糾錯評價模塊著重分析學習者語音錯誤的產(chǎn)生原因,虛擬教師的主要任務(wù)是向?qū)W習者提供可理解的文字信息,輔以多視角發(fā)音口型圖像同步示范,讓學習者明確發(fā)音差距及如何糾正,養(yǎng)成主動糾錯意識,有利于學習者養(yǎng)成良好的發(fā)音習慣,極大地提高語音糾錯效率,快速提高學習者的語言交流使用能力。此外現(xiàn)有產(chǎn)品的糾錯功能都依賴于語音識別的準確率,即使語音識別技術(shù)再出色,也不可能包容所有的干擾情況和類型。一旦由于環(huán)境噪聲的干擾或?qū)W習者明顯地域特色的發(fā)音使得系統(tǒng)的語音識別出現(xiàn)誤判,學習者的糾錯學習也會隨之出現(xiàn)偏差。 Q. Summerfield等通過實驗證明,在有噪背景下,與只提供聲音信息相比,同時提供聲音和同步的說話人臉視頻圖像,實驗對象對語言的理解正確率提高31%。即使在聲學環(huán)境良好的情況下,視覺信息的輔助也有利于語音的識別和學習?;趫D像處理的唇型識別技術(shù)通過說話人的口型變化識別出說話的內(nèi)容,最早研究源于聽障者的學習,其后唇讀技術(shù)又用于情報獲取等場合,1984年P(guān)etajan提出了首個計算機唇讀系統(tǒng),聽覺視覺語音識別(AVSR)研究開始受到廣泛關(guān)注,現(xiàn)有相關(guān)產(chǎn)品或?qū)@褂梅秶邢?,主要針對語音殘障人群。而且該技術(shù)側(cè)重于語音口型的識別和演示輸出,沒有充分挖掘聲音圖像中隱含的關(guān)聯(lián)信息、分析探究會話中出現(xiàn)的錯誤根源及糾正方法,對說話人的情感識別關(guān)注也較少。本發(fā)明在語音識別的基礎(chǔ)上結(jié)合了基于圖像處理的唇型識別技術(shù),對采集的音視頻信號分析處理,識別出學習者的語音口型和情感狀態(tài),不僅最大限度地提高語音識別的準確性、魯棒性,而且根據(jù)學習者的情感和發(fā)音口型利用人工智能方法查找分析錯誤原因、 解釋錯誤、提供改正建議,自主調(diào)整糾錯時機和糾錯策略,增強了糾錯的有效性,拓展了各種人群的語音培訓和交互學習范疇。
發(fā)明內(nèi)容
本發(fā)明為了解決傳統(tǒng)的人機對話教學通常只利用單純的語音識別技術(shù),識別率低、抗噪能力差,語言培訓軟件產(chǎn)品主要還是處于特定行業(yè)的中英文語音合成信息和口語評測狀態(tài),在智能糾錯互動方面無法滿足學習和交流需求的技術(shù)問題,提供了一種具有智能糾錯功能的交互式虛擬教師系統(tǒng),它包括音視頻數(shù)據(jù)采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數(shù)據(jù)庫。所述音視頻數(shù)據(jù)采集模塊,通過視頻音頻兩路傳感器采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經(jīng)融合后的學習者口型、發(fā)音內(nèi)容和情感;由糾錯評價模塊,從標準口型發(fā)音數(shù)據(jù)庫中提取與之對應(yīng)的標準口型和發(fā)音數(shù)據(jù),自動評斷學習者的發(fā)音和口型,并在互動交流中,自主選擇恰當?shù)臅r機反饋給學習者與標準發(fā)音口型間的差異信息、差異產(chǎn)生原因,指導(dǎo)學習者如何糾正;再由教學策略模塊根據(jù)糾錯評價模塊對學習者的評斷數(shù)據(jù)和情感狀態(tài),制定出師生一對一互動的個性化教學實施方案, 形成具有智能糾錯功能的可視化互動人機對話學習平臺。本發(fā)明的特點及有益效果運用先進的語音識別技術(shù)和圖像識別技術(shù)實現(xiàn)具有智能糾錯功能的虛擬教師,形成智能可視化互動人機對話學習系統(tǒng)。該系統(tǒng)利用語音情感多源信息交融加上虛擬教師視頻交互糾正英語發(fā)音。將語音識別和基于視覺的圖像處理技術(shù)結(jié)合,提高了系統(tǒng)的識別率、魯棒性;此外,系統(tǒng)加入了動畫演示功能,實現(xiàn)交互模擬、實時溝通的學習模式,彌補了聲音教學的枯燥性,提高了學習的趣味性和準確性。該系統(tǒng)至少有三種語音輸出格式由學習者設(shè)定,并且能直接導(dǎo)入學習者自定義語音。學習者可存儲視頻對話文件,音頻對話文件和文本文件,以備查詢。學習者可以自定義輸入性別、年齡、地域、英語掌握程度等信息,減少程序判斷負擔。所述信息識別模塊在識別過程中包括語音信息、口型信息和情感信息的相互融合,結(jié)合預(yù)先輸入的學習者年齡、性別、民族和省份等信息學習的情緒,有效提高識別速率和準確率。語音和情感特征的融合研究表明語音信號中的音質(zhì)特征也包含情感信息,情感不同發(fā)音方式及聲音韻律也不同,從而可以根據(jù)聲學特征參數(shù)識別人類的三種以上的基本情感,如高興,生氣,驚奇等。根據(jù)語音與情感的對應(yīng)關(guān)系,一是判斷學習者當前的學習狀態(tài)及時改變教學內(nèi)容;二是模擬各種情景,提供表演式朗誦范例或進行角色扮演。教學策略模塊根據(jù)學習者成績和學習者情緒自適應(yīng)調(diào)整交互訓練學習的難度,若學習者情緒不高,降低交互學習訓練的難度;若學習者情緒積極,緩慢提高互學習訓練的難度;若學習者情緒平穩(wěn),保持交互學習訓練的難度;若學習者情緒積極,緩慢提高互學習訓練的難度。同時在動畫演示時加入情感激勵信息,鼓勵激發(fā)學習者的學習熱情。糾錯評價模塊實現(xiàn)了虛擬教師與學習者智能互動學習的過程虛擬教師根據(jù)學習者的發(fā)音口型判斷學習者的發(fā)音口型是否準確,結(jié)合專家知識庫,對偏差糾正調(diào)理,以文字形式反饋給學習者發(fā)音不準確的原因和改正辦法,并作標準的音像示范,學習者糾正發(fā)音的結(jié)果反饋回教師,教師再次進行識別判斷,根據(jù)當前觀測信號(即學習者發(fā)音口型)與標準信號(標準發(fā)音口型)之差遞進反饋,在線自適應(yīng)調(diào)整,用文字聲音動畫多種形式明確偏差的差異點、差異度及如何糾正,力求將學習者的偏差控制在理想的容許范圍內(nèi),遞進式智能糾正觀測錯誤,形成完全自動閉環(huán)反饋模式的智能糾錯,如此循環(huán)往復(fù),直至教師認為學習者的發(fā)音口型已經(jīng)標準,本次學習內(nèi)容結(jié)束,可以進入下一階段的學習。判定學習者發(fā)音口型已經(jīng)合格的標準是將當前觀測信號與標準信號之差量化為百分制,各項分數(shù)達到95分以上為合格。包含的各項指標具體為口型分、發(fā)音分、情緒分、 綜合分,其中發(fā)音分還可進一步細分為聲學分數(shù)、韻律分數(shù)和感知分數(shù)三部分。各項分數(shù)可輸出到顯示屏,供學習者參考。同時虛擬教師將學習者的成績存入學習者檔案,作為今后教學策略調(diào)整的依據(jù)。糾錯評價模塊中,虛擬教師著重解決學習者由于受生活地域影響,語言發(fā)音中特有的不標準的發(fā)音習慣,虛擬教師,根據(jù)學習者地域特點可以預(yù)判學習者可能出現(xiàn)的語音錯誤,據(jù)此選擇相應(yīng)的課程進行針對性指導(dǎo)。學習者可以根據(jù)自己的需要選擇虛擬教師作標準口型發(fā)音的三維多視角動畫示范,包括舌、齒等口腔內(nèi)的細節(jié)演示。融入圖像特征,結(jié)合預(yù)先輸入的性別年齡等信息,軟件也可以自主選擇設(shè)計一個與學習者容貌和聲音特質(zhì)相近的虛擬教師,同時可以實時將學習者的發(fā)音唇形疊加顯示到正確唇形上,直觀比較兩者差異,還可觀察虛擬教師與學習者的聲音波形對比圖,經(jīng)過量化的口型發(fā)音的各項分數(shù),配以教師指導(dǎo)意見和評語,形象直觀的了解自己發(fā)音不正確的原因、錯在哪里、如何糾正,糾正后的發(fā)音口型是否達到了教師的要求。所有的口型發(fā)聲表情演示及相關(guān)文字說明動態(tài)同步。融合區(qū)域發(fā)音特征。中國地域廣闊,各區(qū)域發(fā)言和發(fā)音特征顯著不同,適應(yīng)各地發(fā)音習慣的語音和唇形語料極度缺乏,當前軟件一般只能保證官方語言說得好的用戶才可以在對話練習、發(fā)音糾錯方面取得相對滿意的成績,因此本發(fā)明建立不同地域發(fā)音習慣的語音和唇形語料數(shù)據(jù)庫,可以提高系統(tǒng)的適應(yīng)性,對不同個體特征進行針對性的教學輔導(dǎo)。
圖1是本發(fā)明的整體結(jié)構(gòu)示意圖;圖2是本發(fā)明中信息識別模塊的結(jié)構(gòu)示意圖;圖3是本發(fā)明的發(fā)音口型差異解釋糾正流程圖;圖4是本發(fā)明的智能糾錯閉環(huán)反饋系統(tǒng)原理圖;圖5是本發(fā)明的閉環(huán)反饋控制系統(tǒng)框圖;圖6是本發(fā)明的RBF神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。
具體實施例方式參看圖1,具有智能糾錯功能的交互式虛擬教師系統(tǒng),它包括音視頻數(shù)據(jù)采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數(shù)據(jù)庫。通過所述音視頻數(shù)據(jù)采集模塊的視頻音頻兩路傳感器,采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經(jīng)融合后的學習者發(fā)音內(nèi)容,如口型,面部和心理情感;由糾錯評價模塊,從標準口型發(fā)音數(shù)據(jù)庫數(shù)據(jù)中提讀取與之對應(yīng)的標準口型和發(fā)音數(shù)據(jù),自動評斷學習者的發(fā)音內(nèi)容、口型是否標準,根據(jù)偏差信息結(jié)合專家知識,確定偏差產(chǎn)生原因、所屬類型、改正方法,進而以文字說明的形式反饋給學習者,幫助其改正偏差,遞進式智能糾正學習者的音頻和視頻口型錯誤,同時虛擬教師輔以標準口型發(fā)聲多視角動畫演示、聲音波形對比圖、口型重合對比圖等形式直觀提示學習者如何正確發(fā)音,音像文字多種技術(shù)手段結(jié)合,錯誤根源分析、改正方法等的具體解釋說明與分數(shù)、評語、動畫演示動態(tài)同步,形成完全自動閉環(huán)反饋模式的智能糾錯; 再由教學策略模塊根據(jù)糾錯評價模塊對學習者的評斷數(shù)據(jù),制定出師生一對一互動的個性化教學實施方案,讓學習者反復(fù)練習,以提高個人的語言會話水平,同時虛擬教師可根據(jù)學習者情緒和學習成績分析隨時調(diào)整教學內(nèi)容。用于采集音頻和視頻信號的傳感器沒有特殊限定,可以是學習平臺自帶的,如智能手機本身帶有的攝像頭和錄音器,也可以是自配的攝像頭和麥克,只要其接口能與學習者使用的學習平臺匹配即可。攝像頭采集學習者的面部圖像,學習者可預(yù)設(shè)參數(shù),確定采集的圖像分辨率,采集圖像范圍是整個面部還是只有唇部區(qū)域,系統(tǒng)默認采集區(qū)域為唇部區(qū)域;麥克采集學習者聲音。然后由信息識別模塊對采集到的聲音和圖像兩路原始信息進行預(yù)處理、唇部區(qū)域檢測、唇動跟蹤和定位、特征提取、特征融合、訓練進而識別出語音口型和情緒。參看圖2本發(fā)明中信息識別模塊的結(jié)構(gòu)示意圖,做進一步描述。圖中虛線部分表示該部分不是必需處理的。對原始信息的預(yù)處理包括聲音和圖像兩路信息數(shù)字化預(yù)處理。其中圖像信息的預(yù)處理首先用圖像增強算法去除噪聲,然后根據(jù)采集模塊的預(yù)先設(shè)定值確定采集的圖像范圍是整個人臉還是唇部區(qū)域,若采集的是整個人臉,則需要首先從人臉中確定出唇部區(qū)域,本發(fā)明采用基于人臉結(jié)構(gòu)特征的方法,首先確定眼睛和鼻孔的位置,再根據(jù)眼睛鼻孔的位置信息確定嘴唇的大致范圍,然后采用基于運動目標的檢測方法準確跟蹤定位發(fā)音時口型的運動變化過程。對聲音信息的預(yù)處理首先采用視覺通道的唇動信息區(qū)分語音和非語音信號時段,再利用去噪濾波技術(shù)去除信道噪聲和所有可能的背景加性噪聲,獲得盡可能純凈的學習者聲音信號。預(yù)處理后的圖像和聲音信號提取特征供系統(tǒng)訓練識別,提取的特征信息包括初級特征語音特征、唇型特征、面部特征(采集的圖像范圍是整個人臉時)和高級特征情感特征;其中初級特征是從預(yù)處理后的音頻視頻傳感器采集的語音圖像信息中提取出來的,高級特征不能從傳感器采集的信息中直接獲得,而是各初級特征中的隱含信息,由基于專家知識的信息融合技術(shù)生成的。各初級特征中語音特征具體包括聲學特征、韻律特征和感知特征三類特征,例如反應(yīng)基本聲音信息的LPCC(Linear Predictive Cepstral Coefficient,線性預(yù)測倒譜系數(shù))特征參數(shù)、MFCC (Mel Frequency Cepstral Coefficient,梅爾頻率倒譜系數(shù))特征參數(shù),與情感、唇動相關(guān)的一次共振峰和二次共振峰、能量、說話速率等特征參數(shù);唇型特征包括與語音、情感相關(guān)的內(nèi)外唇唇線輪廓特征、嘴唇變化速率、人臉側(cè)面圖像的嘴唇突出度動態(tài)變化特征、口腔內(nèi)的舌頭和牙齒位置變化特征等;面部特征包括眼睛、鼻子、口型的整體輪廓關(guān)系特征,面部特征不是必需提取的特征, 但如果學習平臺的傳感器能保證采集圖像分辨率的要求,則加入該特征可進一步提高虛擬教師識別學習者情感的識別準確率和識別速度。高級特征情感特征由學習者的聲學特征、 韻律特征和感知特征、唇線輪廓特征隱含的潛在信息和面部特征融合而成的。訓練識別采用人工智能神經(jīng)網(wǎng)絡(luò)方法,首先建立訓練集樣本訓練網(wǎng)絡(luò),建立朗讀內(nèi)容與語音、唇型、面部表情、心理情感間的對應(yīng)關(guān)系,網(wǎng)絡(luò)訓練好后,即可用于識別任務(wù),將使用者的所有特征作為多權(quán)值神經(jīng)元網(wǎng)絡(luò)的輸入層,輸出層為要識別的內(nèi)容,使得虛擬教師可以實時準確地識別出學習者當前的發(fā)音內(nèi)容、發(fā)音口型、情感狀態(tài),即完成語音口型情感三重識別。虛擬教師將識別出的學習者發(fā)音與之對應(yīng)的口型變化和當前情緒作為一個整體記錄,并輸出到糾錯評價模塊,以便與標準發(fā)音和口型比較尋找差異、分析解釋錯誤原因、錯誤所屬類型、 改正方法,同時參考學習者情緒,給出發(fā)音口型修正建議,評價分數(shù)和直觀的多視角發(fā)音口型演示比對圖。參看圖3本發(fā)明的發(fā)音口型差異解釋糾正流程圖,本發(fā)明的糾錯重點是自主分析錯誤根源,提供改正意見,指導(dǎo)學習者有意識的修正不準確的發(fā)音口型。具體描述如下,首先把識別出的學習者的語音口型和標準的語音口型的所有特征參數(shù)放在一起分類比較,尋找它們之間的差異點并計算差異度,如果差異度超過了容忍的閾值范圍,則認為學習者的語音口型錯誤或不標準,需要糾正;然后根據(jù)差異點利用專家知識對錯誤進行描述,最后解釋錯誤,其中解釋錯誤的關(guān)鍵是根據(jù)描述結(jié)果分析錯誤的根源,屬于什么類型,回答為什么會犯這樣的錯誤,如何改正。參看圖4本發(fā)明糾錯評價模塊中的智能糾錯閉環(huán)反饋系統(tǒng)原理圖,從數(shù)學模型的角度對發(fā)音口型差異解釋糾正流程做進一步描述。圖4中y(t)為當前觀測信號,即識別出的學習者聲音和口型;r(t)為標準信號,即數(shù)據(jù)庫中給定的標準聲音和口型;e(t)為觀測信號與標準信號的差,即偏差信號。該系統(tǒng)的關(guān)鍵在于根據(jù)當前觀測信號與標準信號之差, 確定差異點和差異度,進而結(jié)合專家知識描述錯誤、解釋錯誤,即將量化的差異數(shù)字信息轉(zhuǎn)化為對應(yīng)的可以理解的文字信息,把學習者錯誤產(chǎn)生原因、所屬類型、改進方法遞進反饋給學習者,指導(dǎo)其縮短與標準口型發(fā)音間的偏差、遞進式智能改正學習者的聲音和口型錯誤, 達到完全自動閉環(huán)反饋模式的智能糾錯。具體數(shù)學模型及智能控制糾錯算法如下(l)e (t) = y(t)-r(t)(1)(2)E(s) =L[e(t)],L 為拉普拉斯變換(2)(3) Y (s) = G(S)E(S)(3)(4) y (t) = L—1 [Y (S) ],L—1 為拉普拉斯變換(4)(5)返回(1) e(t)可以歸類為兩組偏差信號視頻信號偏差包括唇,喉,舌,牙齒和氣流特征參數(shù)的偏差、具體特征參數(shù)包括嘴唇的開合度、寬度,舌、齒與嘴唇的位置形狀因子等靜態(tài)特征和舌、唇收縮度等動態(tài)變化特征;音頻偏差包括LPCC、MPCC的偏差等。對e(t)中的所有元素計算偏差容許度,其計算公式為偏差與標準信號比值的百分率,如果任一項的偏差容許度大于等于5%,則認為學習者的發(fā)音或口型不準確,需要糾正,智能糾錯的根本在于對各個信號誤差的糾正調(diào)理過程,公式表示為
權(quán)利要求
1.具有智能糾錯功能的交互式虛擬教師系統(tǒng),它包括音視頻數(shù)據(jù)采集模塊、信息識別模塊、糾錯評價模塊、教學策略模塊和數(shù)據(jù)庫,其特征在于所述音視頻數(shù)據(jù)采集模塊,通過視頻音頻兩路傳感器采集學習者面部圖像和聲音信號;再由信息識別模塊,辨識經(jīng)融合后的學習者口型,發(fā)音內(nèi)容和情緒;由糾錯評價模塊,從標準口型發(fā)音數(shù)據(jù)庫中提讀取與之對應(yīng)的標準口型和發(fā)音數(shù)據(jù),自動評斷學習者的發(fā)音內(nèi)容、發(fā)音口型,智能分析發(fā)音不準確的原因,并提供修正發(fā)音的方法,同時多視角動畫示范正確的發(fā)音和口型;再由教學策略模塊根據(jù)糾錯評價模塊對學習者的評斷數(shù)據(jù),制定出師生一對一互動的個性化教學實施方案, 形成智能可視化互動人機對話學習系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述視頻音頻兩路傳感器,通過預(yù)設(shè)參數(shù),確定所采集的學習者面部圖像分辨率和所要采集的面部區(qū)域。
3.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述糾錯示范模塊,通過建立閉環(huán)智能反饋控制系統(tǒng),自動決定糾錯方式和時機,提供修正口型和發(fā)聲方法的指導(dǎo)意見,并通過文字解釋和圖像形象顯示兩者的差異性。
4.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述信息識別模塊提供將語音、情感及口型相互融合的數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述糾錯評價模塊,根據(jù)信息識別模塊提供的學習者口型和發(fā)聲的缺陷數(shù)據(jù),將學習者多視角的面部圖像疊加到對應(yīng)視角的虛擬教師的面部圖像上,通過輸出設(shè)備形象觀察差異點, 輔助口型糾正。
6.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述教學策略模塊,由虛擬教師根據(jù)評價參數(shù)和學習者口型和發(fā)聲的缺陷數(shù)據(jù)和學習者情緒數(shù)據(jù)調(diào)整教學策略,制定個性化教學方案數(shù)據(jù)。
7.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述虛擬教師,根據(jù)性別,年齡,地域,面貌和發(fā)音聲線特征而不同,供學習者根據(jù)自己喜好及自身特點自由選擇。
8.根據(jù)權(quán)利要求7所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述虛擬教師所有的口型發(fā)聲表情演示及相關(guān)文字說明動態(tài)同步。
9.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述信息識別模塊的工作流程為對采集到的聲音和圖像兩路原始信息進行預(yù)處理、唇部區(qū)域檢測、唇動跟蹤和定位、特征提取、特征融合、訓練及語音唇型情緒識別。
10.根據(jù)權(quán)利要求1所述的具有智能糾錯功能的交互式虛擬教師系統(tǒng),其特征在于所述虛擬教師,根據(jù)學習者地域特點可以預(yù)判學習者可能出現(xiàn)的語音錯誤,據(jù)此選擇相應(yīng)的課程進行針對性指導(dǎo)。
全文摘要
具有智能糾錯功能的交互式虛擬教師系統(tǒng)是為解決目前人機對話教學只限于語音合成信息和口語評測,在學習和交流中無法滿足智能糾錯互動需求的技術(shù)問題而設(shè)計的。它包括音視頻數(shù)據(jù)采集、信息識別、糾錯評價及教學策略等模塊。由視音頻兩路傳感器,采集學習者面部圖像和聲音信號;再由信息識別模塊辨識經(jīng)融合后的學習者口型、發(fā)音和情感;糾錯評價模塊自動評斷學習者發(fā)音口型,檢測與標準發(fā)音口型數(shù)據(jù)庫中的標準數(shù)據(jù)間的差異,自主選擇恰當時機,指明發(fā)音不正確的原因和改正方法,提供正確的發(fā)音口型及動畫示范;再由教學策略模塊根據(jù)評斷數(shù)據(jù)和情感狀態(tài)制定出師生一對一互動的個性化教學實施方案。利用語音情感多源信息交融,與虛擬教師視頻交互智能糾錯、模擬,實現(xiàn)實時溝通,動畫演示。提高了聲音教學準確性。
文檔編號G09B5/06GK102169642SQ201110085339
公開日2011年8月31日 申請日期2011年4月6日 優(yōu)先權(quán)日2011年4月6日
發(fā)明者任濤, 劉洋, 李一波, 王志怡, 王揚揚 申請人:李一波