一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法

文檔序號(hào)：2528161閱讀：176來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

專(zhuān)利名稱(chēng)：一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用戶(hù)在線學(xué)習(xí)監(jiān)測(cè)方法，尤其涉及一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法。
背景技術(shù)：
目前,在全球化的大趨勢(shì)下，口語(yǔ)教育正成為全球的一個(gè)龐大產(chǎn)業(yè)。對(duì)于中國(guó)的情況來(lái)說(shuō)，中國(guó)人學(xué)習(xí)外語(yǔ)以及外國(guó)人學(xué)習(xí)漢語(yǔ)的熱潮越發(fā)高漲。一方面，外語(yǔ)(特別是英語(yǔ))是商業(yè)交流活動(dòng)中不可缺少的工具，從而推動(dòng)了中國(guó)在職人員學(xué)習(xí)外語(yǔ)的熱情。據(jù)不完全統(tǒng)計(jì)，北京、上海等大城市約有1%的在職人員在外語(yǔ)學(xué)習(xí)方面投入超過(guò)收入的10%。另一方面，全球化推動(dòng)學(xué)習(xí)英語(yǔ)的熱潮中，也成就了新的熱潮，比如“中國(guó)熱”。
但是目前的傳統(tǒng)語(yǔ)言教育方式越來(lái)越不能滿(mǎn)足這一趨勢(shì)。作為相互交流的基礎(chǔ)，現(xiàn)代語(yǔ)言的學(xué)習(xí)越來(lái)越強(qiáng)調(diào)發(fā)音的學(xué)習(xí)。語(yǔ)言教學(xué)中，教師作為一個(gè)有效的反饋源，仍然有一些無(wú)法解決的問(wèn)題:語(yǔ)言的學(xué)習(xí)是需要反復(fù)訓(xùn)練的，需要隨時(shí)隨地有效利用碎片時(shí)間進(jìn)行練習(xí)；但是教師資源的有限性，不可能對(duì)所有學(xué)生隨時(shí)進(jìn)行一對(duì)一的指導(dǎo)。不少學(xué)生在傳統(tǒng)語(yǔ)言教學(xué)模式下逐漸對(duì)語(yǔ)言學(xué)習(xí)失去興趣，進(jìn)而變成啞巴外語(yǔ)、應(yīng)試外語(yǔ)。
計(jì)算機(jī)輔助語(yǔ)言教學(xué)(computer-assistedlanguage learning,簡(jiǎn)稱(chēng)CALL),按照人們事先安排的語(yǔ)言教學(xué)計(jì)劃和內(nèi)容進(jìn)行課堂教學(xué)和輔助課外操。早在1955年左右就有人探討如何把計(jì)算機(jī)用于教育?，F(xiàn)在，計(jì)算機(jī)輔助語(yǔ)言教學(xué)和遠(yuǎn)程網(wǎng)絡(luò)結(jié)合起來(lái)廣泛應(yīng)用于口語(yǔ)學(xué)習(xí)。在線口語(yǔ)學(xué)習(xí)平臺(tái)因時(shí)間自由，費(fèi)用低廉，越來(lái)越得到普通用戶(hù)的青睞；而對(duì)于口語(yǔ)學(xué)習(xí)平臺(tái)來(lái)說(shuō)，用戶(hù)的增加，若不增加師資力量，必然導(dǎo)致單個(gè)用戶(hù)資源的不足，而當(dāng)今社會(huì)，人力成本越來(lái)越高，如何有效的監(jiān)管用戶(hù)的學(xué)習(xí)情況，已成為擺在口語(yǔ)學(xué)習(xí)平臺(tái)的一個(gè)重要問(wèn)題。因此有必要提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，能夠替代大部分教師資源，自動(dòng)實(shí)現(xiàn)用戶(hù)口語(yǔ)學(xué)習(xí)發(fā)音和嘴型的比對(duì)分析，找出用戶(hù)發(fā)音的不足及產(chǎn)生原因，幫助用戶(hù)改正，促進(jìn)用戶(hù)的語(yǔ)言學(xué)習(xí)。發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，能夠自動(dòng)實(shí)現(xiàn)用戶(hù)口語(yǔ)學(xué)習(xí)發(fā)音和嘴型的比對(duì)分析，幫助用戶(hù)找出發(fā)音的不足及產(chǎn)生原因，減少對(duì)教師資源的依賴(lài)并提高學(xué)習(xí)效率。
本發(fā)明為解決上述技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，包括如下步驟:a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù)山)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息，壓縮編碼后傳送到服務(wù)器端；c)服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)解碼后，對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分，得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息，并給出用戶(hù)的每個(gè)發(fā)音單兀與標(biāo)準(zhǔn)發(fā)音單兀的聲音信息匹配度；d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息，并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。
上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其中，所述聲音信息匹配度采用隱馬爾可夫模型，特征為梅爾倒譜特征，匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其中，所述圖像特征信息包括每個(gè)發(fā)音單元對(duì)應(yīng)的嘴唇、牙齒和舌頭的位置，所述圖像特征信息匹配度為用戶(hù)發(fā)音時(shí)的嘴唇、牙齒和舌頭的位置與標(biāo)準(zhǔn)發(fā)音單元對(duì)應(yīng)的位置偏差。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其中，所述步驟c)中對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分后給出每個(gè)發(fā)音單元的起止時(shí)間，所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取該發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其中，所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取N張圖片，比較每一張圖片與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度后計(jì)算平均值，N為自然數(shù)。上述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其中，所述提取發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息包括如下過(guò)程:對(duì)每一張圖片先將人臉定位出來(lái)，然后采用基于顏色梯度場(chǎng)的邊緣提取算法檢測(cè)嘴唇、舌頭和牙齒的輪廓位置。本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，通過(guò)同時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)中的語(yǔ)音及視頻信息，并分別對(duì)語(yǔ)音及發(fā)音時(shí)的圖像特征信息進(jìn)行切分比對(duì)，從而能夠幫助用戶(hù)快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因，減少對(duì)教師資源的依賴(lài)并大大提高學(xué)習(xí)效率。

圖1為本發(fā)明基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。圖1為本發(fā)明基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)流程示意圖。請(qǐng)參見(jiàn)圖1，本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法包括如下步驟:SlOl:建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù)；如以漢語(yǔ)的音素單元，或者更細(xì)的子音素單元為標(biāo)準(zhǔn)發(fā)音單元；在一數(shù)據(jù)庫(kù)上訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型，數(shù)據(jù)庫(kù)包含了不同年齡段、不同性別的、覆蓋了所有標(biāo)準(zhǔn)發(fā)音單元的發(fā)音的圖像信息，并含標(biāo)準(zhǔn)發(fā)音標(biāo)注；聲學(xué)信息庫(kù)模型選擇隱馬爾可夫模型，圖像特征信息庫(kù)構(gòu)建優(yōu)選采用支持向量機(jī)。S102:用戶(hù)根據(jù)語(yǔ)言學(xué)習(xí)系統(tǒng)的要求，打開(kāi)麥克風(fēng)及攝像頭，讀/說(shuō)出要學(xué)習(xí)的內(nèi)容；這時(shí)，系統(tǒng)將實(shí)時(shí)采集用戶(hù)的語(yǔ)音及嘴形音視頻信息，壓縮編碼后傳送到服務(wù)器端。S103:服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)后，對(duì)語(yǔ)音和嘴形(視頻)信息解碼分析；語(yǔ)音切分模塊通過(guò)采用自動(dòng)語(yǔ)音識(shí)別技術(shù)，利用在大規(guī)模數(shù)據(jù)集上訓(xùn)練的聲學(xué)模型，對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分，得到用戶(hù)發(fā)音的每個(gè)基本單元對(duì)應(yīng)的時(shí)間戳；以漢語(yǔ)為例，可以將“我們”這個(gè)詞對(duì)應(yīng)的語(yǔ)音切分成“w O m en”四個(gè)音素單元，并給出音素單元的發(fā)音起止時(shí)間，甚至可以劃分到更細(xì)的子音素單元；然后，通過(guò)聲學(xué)評(píng)測(cè)模塊對(duì)用戶(hù)語(yǔ)音進(jìn)行評(píng)測(cè)。聲學(xué)評(píng)測(cè)過(guò)程如下:音頻切分后，將切分后的語(yǔ)音單元與標(biāo)準(zhǔn)發(fā)音單元的模型進(jìn)行匹配，聲學(xué)信息匹配度模型采用隱馬爾可夫模型，特征為梅爾倒譜特征，匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。S104:由于音視頻是同時(shí)采集的，通過(guò)音頻的音素切分信息對(duì)視頻進(jìn)行切分，并分別從視頻中提取出發(fā)音的一些發(fā)音動(dòng)作特征信息，如嘴、牙齒、舌頭等的位置；然后通過(guò)視頻評(píng)測(cè)模塊對(duì)用戶(hù)的發(fā)音動(dòng)作進(jìn)行評(píng)測(cè)，評(píng)測(cè)時(shí)，對(duì)比嘴、牙齒、舌頭的位置與音素標(biāo)準(zhǔn)發(fā)音(模型)的匹配程度，主要以嘴、牙齒、舌頭位置偏差作為圖像特征信息匹配度，若匹配度低于該音素對(duì)應(yīng)的閾值，則用戶(hù)的當(dāng)前音素發(fā)音可能存在問(wèn)題。具體匹配過(guò)程如下:
1.根據(jù)音頻對(duì)視頻的切分信息，對(duì)視頻進(jìn)行標(biāo)注，得到切分后的視頻；
2.從切分后的視頻中取一張圖片；
3.首先通過(guò)人臉檢測(cè)模塊將圖片中人臉定位出來(lái)，如基于模板匹配的方法；
4.然后采用目標(biāo)提取模塊檢測(cè)嘴唇、舌頭、牙齒等輪廓位置并將檢測(cè)到的嘴唇、舌頭、牙齒等輪廓轉(zhuǎn)參數(shù)化；如采用常用的基于顏色梯度場(chǎng)的邊緣提取算法；注意，有時(shí)候舌頭、牙齒是不可見(jiàn)的，其邊緣可能不存在，匹配時(shí)則忽略；
5.接著根據(jù)切分結(jié)果，將輸入?yún)?shù)與對(duì)應(yīng)的模型進(jìn)行匹配，得到視頻評(píng)測(cè)結(jié)果；
為了提高匹配精度，對(duì)每段切分視頻，根據(jù)起止時(shí)間可以共提取N張圖片，N為自然數(shù)，重復(fù)匹配過(guò)程1-5，獲得N個(gè)圖像特征信息匹配度后求取平均值，綜合得到最終的視頻評(píng)測(cè)結(jié)果。最后，對(duì)音視頻的評(píng)測(cè)結(jié)果進(jìn)行綜合分析，確定用戶(hù)的發(fā)音不標(biāo)準(zhǔn)的地方及可能的錯(cuò)誤原因，反饋給用戶(hù)；同時(shí)將收集到的發(fā)音不標(biāo)準(zhǔn)的用戶(hù)數(shù)據(jù)添加到數(shù)據(jù)庫(kù)中，積累用戶(hù)數(shù)據(jù)。
綜上所述，本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，通過(guò)同時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)中的語(yǔ)音及視頻信息，并分別對(duì)語(yǔ)音及發(fā)音時(shí)的圖像特征信息進(jìn)行切分比對(duì)，從而能夠幫助用戶(hù)快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因，具體優(yōu)點(diǎn)如下:1)通過(guò)音視頻雙模的方式，定位用戶(hù)發(fā)音的不足所在，更精確；2)通過(guò)音頻信息對(duì)視頻信息進(jìn)行切分，降低了視頻分析的計(jì)算復(fù)雜度；3)通過(guò)視頻信息對(duì)用戶(hù)發(fā)音過(guò)程的動(dòng)作進(jìn)行分析，可以更有效的找到用戶(hù)發(fā)音不規(guī)范的原因；4)通過(guò)音視頻雙模的方式，可以讓用戶(hù)互訪，聽(tīng)到/看到具體不足之處，通過(guò)對(duì)比，可以幫助更有效的進(jìn)行針對(duì)性訓(xùn)練。
雖然本發(fā)明已以較佳實(shí)施例揭示如上，然其并非用以限定本發(fā)明，任何本領(lǐng)域技術(shù)人員，在不脫離本發(fā)明的精神和范圍內(nèi)，當(dāng)可作些許的修改和完善，因此本發(fā)明的保護(hù)范圍當(dāng)以權(quán)利要求書(shū)所界定的為準(zhǔn)。
權(quán)利要求
1.一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，包括如下步驟: a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù)； b)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息，壓縮編碼后傳送到服務(wù)器端； c)服務(wù)器接收到用戶(hù)上傳的數(shù)據(jù)解碼后，對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分，得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息，并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的聲音信息匹配度； d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息，并給出用戶(hù)的每個(gè)發(fā)音單元與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。
2.如權(quán)利要求1所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，所述聲學(xué)信息匹配度采用隱馬爾可夫模型，特征為梅爾倒譜特征，匹配度為隱馬爾可夫模型后驗(yàn)概率輸出。
3.如權(quán)利要求1所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，所述圖像特征信息包括每個(gè)發(fā)音單元對(duì)應(yīng)的嘴唇、牙齒和舌頭的位置，所述圖像特征信息匹配度為用戶(hù)發(fā)音時(shí)的嘴唇、牙齒和舌頭的位置與標(biāo)準(zhǔn)發(fā)音單元對(duì)應(yīng)的位置偏差。
4.如權(quán)利要求1 3任一項(xiàng)所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，所述步驟c)中對(duì)用戶(hù)的語(yǔ)音進(jìn)行切分后給出每個(gè)發(fā)音單元的起止時(shí)間，所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取該發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息。
5.如權(quán)利要求4所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，所述步驟d)根據(jù)每個(gè)發(fā)音單元的起止時(shí)間從同時(shí)采集的視頻信息中提取N張圖片，比較每一張圖片與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度后計(jì)算平均值，N為自然數(shù)。
6.如權(quán)利要求5所述的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，其特征在于，所述提取發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息包括如下過(guò)程:對(duì)每一張圖片先將人臉定位出來(lái)，然后采用基于顏色梯度場(chǎng)的邊緣提取算法檢測(cè)嘴唇、舌頭和牙齒的輪廓位置。
全文摘要
本發(fā)明公開(kāi)了一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，包括如下步驟a)建立所有標(biāo)準(zhǔn)發(fā)音單元的聲音信息庫(kù)和圖像特征信息庫(kù)；b)實(shí)時(shí)采集用戶(hù)口語(yǔ)學(xué)習(xí)時(shí)的語(yǔ)音及視頻信息，壓縮編碼后傳送到服務(wù)器端；c)服務(wù)器對(duì)用戶(hù)的語(yǔ)音解碼后進(jìn)行切分，得到用戶(hù)的每個(gè)發(fā)音單元的聲音信息匹配度；d)服務(wù)器從同時(shí)采集的視頻信息中提取出每個(gè)發(fā)音單元對(duì)應(yīng)的圖像動(dòng)作特征信息，并給出其與標(biāo)準(zhǔn)發(fā)音單元的圖像特征信息匹配度。本發(fā)明提供的基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法，通過(guò)同時(shí)采集語(yǔ)音及視頻信息，并分別對(duì)語(yǔ)音及圖像特征信息進(jìn)行切分比對(duì)，從而能夠快速、準(zhǔn)確地找出發(fā)音的不足及產(chǎn)生原因，減少對(duì)教師資源的依賴(lài)并大大提高學(xué)習(xí)效率。
文檔編號(hào)G09B5/06GK103218924SQ20131010883
公開(kāi)日2013年7月24日申請(qǐng)日期2013年3月29日優(yōu)先權(quán)日2013年3月29日
發(fā)明者許東星申請(qǐng)人:上海眾實(shí)科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許東星
技術(shù)所有人：上海眾實(shí)科技發(fā)展有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：像素電路及其驅(qū)動(dòng)方法、顯示裝置的制作方法
上一篇：智能培養(yǎng)盤(pán)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于音視頻雙模態(tài)的口語(yǔ)學(xué)習(xí)監(jiān)測(cè)方法