專(zhuān)利名稱(chēng):一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用戶(hù)在線學(xué)習(xí)監(jiān)測(cè)方法,尤其涉及一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法。
背景技術(shù):
目前,在全球化的大趨勢(shì)下,口語(yǔ)教育正成為全球的一個(gè)龐大產(chǎn)業(yè)。對(duì)于中國(guó)的情況來(lái)說(shuō),中國(guó)人學(xué)習(xí)外語(yǔ)以及外國(guó)人學(xué)習(xí)漢語(yǔ)的熱潮越發(fā)高漲。一方面,外語(yǔ)(特別是英語(yǔ))是商業(yè)交流活動(dòng)中不可缺少的工具,從而推動(dòng)了中國(guó)在職人員學(xué)習(xí)外語(yǔ)的熱情。據(jù)不完全統(tǒng)計(jì),北京、上海等大城市約有1%的在職人員在外語(yǔ)學(xué)習(xí)方面投入超過(guò)收入的10%。另一方面,全球化推動(dòng)學(xué)習(xí)英語(yǔ)的熱潮中,也成就了新的熱潮,比如“中國(guó)熱”。
但是目前的傳統(tǒng)語(yǔ)言教育方式越來(lái)越不能滿(mǎn)足這一趨勢(shì)。作為相互交流的基礎(chǔ),現(xiàn)代語(yǔ)言的學(xué)習(xí)越來(lái)越強(qiáng)調(diào)發(fā)音的學(xué)習(xí)。語(yǔ)言教學(xué)中,教師作為一個(gè)有效的反饋源,仍然有一些無(wú)法解決的問(wèn)題:語(yǔ)言的學(xué)習(xí)是需要反復(fù)訓(xùn)練的,需要隨時(shí)隨地有效利用碎片時(shí)間進(jìn)行練習(xí);但是教師資源的有限性,不可能對(duì)所有學(xué)生隨時(shí)進(jìn)行一對(duì)一的指導(dǎo)。不少學(xué)生在傳統(tǒng)語(yǔ)言教學(xué)模式下逐漸對(duì)語(yǔ)言學(xué)習(xí)失去興趣,進(jìn)而變成啞巴外語(yǔ)、應(yīng)試外語(yǔ)。
計(jì)算機(jī)輔助語(yǔ)言教學(xué)(computer-assistedlanguage learning,簡(jiǎn)稱(chēng)CALL),按照人們事先安排的語(yǔ)言教學(xué)計(jì)劃和內(nèi)容進(jìn)行課堂教學(xué)和輔助課外操。早在1955年左右就有人探討如何把計(jì)算機(jī)用于教育?,F(xiàn)在,計(jì)算機(jī)輔助語(yǔ)言教學(xué)和遠(yuǎn)程網(wǎng)絡(luò)結(jié)合起來(lái)廣泛應(yīng)用于口語(yǔ)學(xué)習(xí)。在線口語(yǔ)學(xué)習(xí)平臺(tái)因時(shí)間自由,費(fèi)用低廉,越來(lái)越得到普通用戶(hù)的青睞;而對(duì)于口語(yǔ)學(xué)習(xí)平臺(tái)來(lái)說(shuō),用戶(hù)的增加,若不增加師資力量,必然導(dǎo)致單個(gè)用戶(hù)資源的不足,而當(dāng)今社會(huì),人力成本越來(lái)越高,如何有效的監(jiān)管用戶(hù)的學(xué)習(xí)情況,已成為擺在口語(yǔ)學(xué)習(xí)平臺(tái)的一個(gè)重要問(wèn)題。因此有必要提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,能夠替代大部分教師資源,自動(dòng)實(shí)現(xiàn)用戶(hù)口語(yǔ)學(xué)習(xí)發(fā)音和嘴型的比對(duì)分析,找出用戶(hù)發(fā)音的不足及產(chǎn)生原因,幫助用戶(hù)改正,促進(jìn)用戶(hù)的語(yǔ)言學(xué)習(xí)。發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,能夠自動(dòng)實(shí)現(xiàn)用戶(hù)口語(yǔ)學(xué)習(xí)發(fā)音和嘴型的比對(duì)分析,幫助用戶(hù)找出發(fā)音的不足及產(chǎn)生原因,減少對(duì)教師資源的依賴(lài)并提高學(xué)習(xí)效率。
本發(fā)明為解決上述技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,包括如下步驟:a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù)山)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息,壓縮編碼后傳送到服務(wù)器端;c)服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)解碼后,對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分,得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息,并給出用戶(hù)的每個(gè)發(fā)音單兀與標(biāo)準(zhǔn)發(fā)音單兀的聲音信息匹配度;d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息,并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。
上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其中,所述聲音信息匹配度采用隱馬爾可夫模型,特征為梅爾倒譜特征,匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其中,所述圖像特征信息包括每個(gè)發(fā)音單元對(duì)應(yīng)的嘴唇、牙齒和舌頭的位置,所述圖像特征信息匹配度為用戶(hù)發(fā)音時(shí)的嘴唇、牙齒和舌頭的位置與標(biāo)準(zhǔn)發(fā)音單元對(duì)應(yīng)的位置偏差。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其中,所述步驟c)中對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分后給出每個(gè)發(fā)音單元的起止時(shí)間,所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取該發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其中,所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取N張圖片,比較每一張圖片與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度后計(jì)算平均值,N為自然數(shù)。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其中,所述提取發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息包括如下過(guò)程:對(duì)每一張圖片先將人臉定位出來(lái),然后采用基于顏色梯度場(chǎng)的邊緣提取算法檢測(cè)嘴唇、舌頭和牙齒的輪廓位置。本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,通過(guò)同時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)中的語(yǔ)音及視頻信息,并分別對(duì)語(yǔ)音及發(fā)音時(shí)的圖像特征信息進(jìn)行切分比對(duì),從而能夠幫助用戶(hù)快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因,減少對(duì)教師資源的依賴(lài)并大大提高學(xué)習(xí)效率。
圖1為本發(fā)明基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。圖1為本發(fā)明基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)流程示意圖。請(qǐng)參見(jiàn)圖1,本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法包括如下步驟:SlOl:建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù);如以漢語(yǔ)的音素單元,或者更細(xì)的子音素單元為標(biāo)準(zhǔn)發(fā)音單元;在一數(shù)據(jù)庫(kù)上訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型,數(shù)據(jù)庫(kù)包含了不同年齡段、不同性別的、覆蓋了所有標(biāo)準(zhǔn)發(fā)音單元的發(fā)音的圖像信息,并含標(biāo)準(zhǔn)發(fā)音標(biāo)注;聲學(xué)信息庫(kù)模型選擇隱馬爾可夫模型,圖像特征信息庫(kù)構(gòu)建優(yōu)選采用支持向量機(jī)。S102:用戶(hù)根據(jù)語(yǔ)言學(xué)習(xí)系統(tǒng)的要求,打開(kāi)麥克風(fēng)及攝像頭,讀/說(shuō)出要學(xué)習(xí)的內(nèi)容;這時(shí),系統(tǒng)將實(shí)時(shí)采集用戶(hù)的語(yǔ)音及嘴形音視頻信息,壓縮編碼后傳送到服務(wù)器端。S103:服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)后,對(duì)語(yǔ)音和嘴形(視頻)信息解碼分析;語(yǔ)音切分模塊通過(guò)采用自動(dòng)語(yǔ)音識(shí)別技術(shù),利用在大規(guī)模數(shù)據(jù)集上訓(xùn)練的聲學(xué)模型,對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分,得到用戶(hù)發(fā)音的每個(gè)基本單元對(duì)應(yīng)的時(shí)間戳;以漢語(yǔ)為例,可以將“我們”這個(gè)詞對(duì)應(yīng)的語(yǔ)音切分成“w O m en”四個(gè)音素單元,并給出音素單元的發(fā)音起止時(shí)間,甚至可以劃分到更細(xì)的子音素單元;然后,通過(guò)聲學(xué)評(píng)測(cè)模塊對(duì)用戶(hù)語(yǔ)音進(jìn)行評(píng)測(cè)。聲學(xué)評(píng)測(cè)過(guò)程如下:音頻切分后,將切分后的語(yǔ)音單元與標(biāo)準(zhǔn)發(fā)音單元的模型進(jìn)行匹配,聲學(xué)信息匹配度模型采用隱馬爾可夫模型,特征為梅爾倒譜特征,匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。S104:由于音視頻是同時(shí)采集的,通過(guò)音頻的音素切分信息對(duì)視頻進(jìn)行切分,并分別從視頻中提取出發(fā)音的一些發(fā)音動(dòng)作特征信息,如嘴、牙齒、舌頭等的位置;然后通過(guò)視頻評(píng)測(cè)模塊對(duì)用戶(hù)的發(fā)音動(dòng)作進(jìn)行評(píng)測(cè),評(píng)測(cè)時(shí),對(duì)比嘴、牙齒、舌頭的位置與音素標(biāo)準(zhǔn)發(fā)音(模型)的匹配程度,主要以嘴、牙齒、舌頭位置偏差作為圖像特征信息匹配度,若匹配度低于該音素對(duì)應(yīng)的閾值,則用戶(hù)的當(dāng)前音素發(fā)音可能存在問(wèn)題。具體匹配過(guò)程如下:
1.根據(jù)音頻對(duì)視頻的切分信息,對(duì)視頻進(jìn)行標(biāo)注,得到切分后的視頻;
2.從切分后的視頻中取一張圖片;
3.首先通過(guò)人臉檢測(cè)模塊將圖片中人臉定位出來(lái),如基于模板匹配的方法;
4.然后采用目標(biāo)提取模塊檢測(cè)嘴唇、舌頭、牙齒等輪廓位置并將檢測(cè)到的嘴唇、舌頭、牙齒等輪廓轉(zhuǎn)參數(shù)化;如采用常用的基于顏色梯度場(chǎng)的邊緣提取算法;注意,有時(shí)候舌頭、牙齒是不可見(jiàn)的,其邊緣可能不存在,匹配時(shí)則忽略;
5.接著根據(jù)切分結(jié)果,將輸入?yún)?shù)與對(duì)應(yīng)的模型進(jìn)行匹配,得到視頻評(píng)測(cè)結(jié)果;
為了提高匹配精度,對(duì)每段切分視頻,根據(jù)起止時(shí)間可以共提取N張圖片,N為自然數(shù),重復(fù)匹配過(guò)程1-5,獲得N個(gè)圖像特征信息匹配度后求取平均值,綜合得到最終的視頻評(píng)測(cè)結(jié)果。最后,對(duì)音視頻的評(píng)測(cè)結(jié)果進(jìn)行綜合分析,確定用戶(hù)的發(fā)音不標(biāo)準(zhǔn)的地方及可能的錯(cuò)誤原因,反饋給用戶(hù);同時(shí)將收集到的發(fā)音不標(biāo)準(zhǔn)的用戶(hù)數(shù)據(jù)添加到數(shù)據(jù)庫(kù)中,積累用戶(hù)數(shù)據(jù)。
綜上所述,本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,通過(guò)同時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)中的語(yǔ)音及視頻信息,并分別對(duì)語(yǔ)音及發(fā)音時(shí)的圖像特征信息進(jìn)行切分比對(duì),從而能夠幫助用戶(hù)快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因,具體優(yōu)點(diǎn)如下:1)通過(guò)音視頻雙模的方式,定位用戶(hù)發(fā)音的不足所在,更精確;2)通過(guò)音頻信息對(duì)視頻信息進(jìn)行切分,降低了視頻分析的計(jì)算復(fù)雜度;3)通過(guò)視頻信息對(duì)用戶(hù)發(fā)音過(guò)程的動(dòng)作進(jìn)行分析,可以更有效的找到用戶(hù)發(fā)音不規(guī)范的原因;4)通過(guò)音視頻雙模的方式,可以讓用戶(hù)互訪,聽(tīng)到/看到具體不足之處,通過(guò)對(duì)比,可以幫助更有效的進(jìn)行針對(duì)性訓(xùn)練。
雖然本發(fā)明已以較佳實(shí)施例揭示如上,然其并非用以限定本發(fā)明,任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可作些許的修改和完善,因此本發(fā)明的保護(hù)范圍當(dāng)以權(quán)利要求書(shū)所界定的為準(zhǔn)。
權(quán)利要求
1.一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,包括如下步驟: a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù); b)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息,壓縮編碼后傳送到服務(wù)器端; c)服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)解碼后,對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分,得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息,并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的聲音信息匹配度; d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息,并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。
2.如權(quán)利要求1所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,所述聲學(xué)信息匹配度采用隱馬爾可夫模型,特征為梅爾倒譜特征,匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。
3.如權(quán)利要求1所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,所述圖像特征信息包括每個(gè)發(fā)音單元對(duì)應(yīng)的嘴唇、牙齒和舌頭的位置,所述圖像特征信息匹配度為用戶(hù)發(fā)音時(shí)的嘴唇、牙齒和舌頭的位置與標(biāo)準(zhǔn)發(fā)音單元對(duì)應(yīng)的位置偏差。
4.如權(quán)利要求1 3任一項(xiàng)所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,所述步驟c)中對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分后給出每個(gè)發(fā)音單元的起止時(shí)間,所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取該發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息。
5.如權(quán)利要求4所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取N張圖片,比較每一張圖片與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度后計(jì)算平均值,N為自然數(shù)。
6.如權(quán)利要求5所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,其特征在于,所述提取發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息包括如下過(guò)程:對(duì)每一張圖片先將人臉定位出來(lái),然后采用基于顏色梯度場(chǎng)的邊緣提取算法檢測(cè)嘴唇、舌頭和牙齒的輪廓位置。
全文摘要
本發(fā)明公開(kāi)了一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,包括如下步驟a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù);b)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息,壓縮編碼后傳送到服務(wù)器端;c)服務(wù)器對(duì)用戶(hù)的語(yǔ)音解碼后進(jìn)行切分,得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息匹配度;d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息,并給出其與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法,通過(guò)同時(shí)采集語(yǔ)音及視頻信息,并分別對(duì)語(yǔ)音及圖像特征信息進(jìn)行切分比對(duì),從而能夠快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因,減少對(duì)教師資源的依賴(lài)并大大提高學(xué)習(xí)效率。
文檔編號(hào)G09B5/06GK103218924SQ20131010883
公開(kāi)日2013年7月24日 申請(qǐng)日期2013年3月29日 優(yōu)先權(quán)日2013年3月29日
發(fā)明者許東星 申請(qǐng)人:上海眾實(shí)科技發(fā)展有限公司