多媒體數(shù)據(jù)控制方法和系統(tǒng)的制作方法

文檔序號：2536629閱讀：199來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

多媒體數(shù)據(jù)控制方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種多媒體數(shù)據(jù)控制方法和系統(tǒng)，該方法包括：利用音頻采集模塊采集承載語音內(nèi)容的音頻信號；計算音頻信號與預(yù)設(shè)各個參考音頻信號的波形曲線相似度，并選擇相似度最高的參考音頻信號為目的音頻信號；如果目的音頻信號與音頻采集模塊采集的音頻信號之間的相似度超過多媒體響應(yīng)門限，則將預(yù)存的多媒體數(shù)據(jù)中對應(yīng)目的音頻信號的數(shù)據(jù)段提供給多媒體設(shè)備，由多媒體設(shè)備播放成與目的音頻信號所承載的語音內(nèi)容相匹配的動畫和/或聲音。本發(fā)明加強了人機交互，將設(shè)定的多媒體數(shù)據(jù)作為語言學(xué)習(xí)者的發(fā)音標(biāo)準(zhǔn)性的響應(yīng)，并且所述多媒體數(shù)據(jù)的具體內(nèi)容與語言學(xué)習(xí)者的語音內(nèi)容相匹配，因此，能夠給予語言學(xué)習(xí)者形象、快捷和明確的指示和引導(dǎo)。
【專利說明】多媒體數(shù)據(jù)控制方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體數(shù)據(jù)處理【技術(shù)領(lǐng)域】，更具體的說是涉及一種多媒體數(shù)據(jù)控制方法和系統(tǒng)。
【背景技術(shù)】
[0002]傳統(tǒng)的語言培訓(xùn)教學(xué)是以班級形式的集體教學(xué)，側(cè)重點在于“講”，教師講，學(xué)生們聽或記。這種方式一方面受到場地的限制，另一方面，教師和學(xué)生是一對多的形式，教師的時間和精力有限，無法兼顧每個學(xué)生的學(xué)習(xí)。
[0003]為了解決此問題，計算機技術(shù)被引入語言培訓(xùn)教學(xué)，例如計算機遠(yuǎn)程教學(xué)，即以視頻或音頻方式播放語言學(xué)習(xí)資料(例如課件或錄制的多媒體資料)，由學(xué)生在各自計算機上進(jìn)行接收和學(xué)習(xí)。
[0004]在本發(fā)明創(chuàng)造的過程中，發(fā)明人發(fā)現(xiàn)，上述現(xiàn)有技術(shù)雖然采用的計算機技術(shù)，但是計算機技術(shù)只是被簡單使用，語言學(xué)習(xí)者只是機械地依照多媒體資料進(jìn)行學(xué)習(xí)，學(xué)習(xí)方式主要是模仿，由于人機之間并沒有交互，語言發(fā)音無法得到糾正和指導(dǎo)。

【發(fā)明內(nèi)容】

[0005]有鑒于此，本發(fā)明的目的在于提供一種多媒體數(shù)據(jù)控制方法和系統(tǒng)，以解決現(xiàn)有技術(shù)無法利用計算機技術(shù)糾正及指導(dǎo)語言學(xué)習(xí)者語言發(fā)音的問題。
[0006]本發(fā)明的技術(shù)方案如下:
[0007]一種多媒體數(shù)據(jù)控制方法，包括:`[0008]利用音頻采集模塊采集承載語音內(nèi)容的音頻信號；
[0009]計算所述音頻信號與預(yù)設(shè)音頻庫中的各個參考音頻信號的波形曲線相似度，并選擇相似度最高的參考音頻信號為目的音頻信號；
[0010]若所述目的音頻信號與所述音頻采集模塊采集的音頻信號之間的相似度超過多媒體響應(yīng)門限，則將預(yù)存的多媒體數(shù)據(jù)中對應(yīng)所述目的音頻信號的數(shù)據(jù)段提供給多媒體設(shè)備，由多媒體設(shè)備播放成與所述目的音頻信號所承載的語音內(nèi)容相匹配的動畫和/或聲
曰?
[0011]—種多媒體數(shù)據(jù)控制系統(tǒng)，包括:
[0012]音頻采集模塊，用于采集承載語音內(nèi)容的音頻信號；
[0013]語音識別引擎，獲取所述音頻信號，計算所述音頻信號與預(yù)設(shè)音頻庫中的各個參考音頻信號的波形曲線相似度，并選擇相似度最高的參考音頻信號為目的音頻信號；
[0014]控制器，由存儲器和處理器組成，其中，所述存儲器中存儲有用于指示所述處理器在相似度超過多媒體響應(yīng)門限時發(fā)出運行操作指令的命令，所述運行操作指令與所述目的音頻信號相對應(yīng)；所述處理器用于從所述語音識別引擎獲取信息，及執(zhí)行所述存儲器中的命令；
[0015]多媒體運行模塊，用于從預(yù)存的多媒體數(shù)據(jù)中調(diào)用對應(yīng)所述運行操作指令的數(shù)據(jù)段，通過通信接口提供給多媒體設(shè)備，由所述多媒體數(shù)據(jù)播放成與所述目的音頻信號所承載的語音內(nèi)容相匹配的動畫和/或聲音。
[0016]從上述技術(shù)方案可以看出，本發(fā)明提供的方案綜合了音頻采集及識別多媒體數(shù)據(jù)處理和控制等技術(shù)手段，通過采集學(xué)習(xí)者的音頻信號，與預(yù)先存儲的標(biāo)準(zhǔn)音頻進(jìn)行比較，計算兩者的相似度，并根據(jù)相似度的不同調(diào)用不同的多媒體數(shù)據(jù)，作為對學(xué)習(xí)者的發(fā)音準(zhǔn)確性的響應(yīng)。此方式加強了人機交互，將設(shè)定的多媒體數(shù)據(jù)作為語言學(xué)習(xí)者的發(fā)音標(biāo)準(zhǔn)性的響應(yīng)，并且所述多媒體數(shù)據(jù)的具體內(nèi)容與語言學(xué)習(xí)者的語音內(nèi)容相匹配，因此，能夠給予語言學(xué)習(xí)者形象、快捷和明確的指示和引導(dǎo)。
【專利附圖】

【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)提供的附圖獲得其他的附圖。
[0018]圖1為本發(fā)明一種實施例公開的多媒體數(shù)據(jù)控制方法的工作流程圖；
[0019]圖2為本發(fā)明另一種實施例公開的多媒體數(shù)據(jù)控制方法的工作流程圖；
[0020]圖3為本發(fā)明一種實施例公開的一種多媒體數(shù)據(jù)控制系統(tǒng)的結(jié)構(gòu)示意圖；
[0021]圖4為本發(fā)明另一種實施例公開的一種多媒體數(shù)據(jù)控制系統(tǒng)的結(jié)構(gòu)示意圖；
[0022]圖5?圖8為本發(fā)明一種實施例公開的一種多媒體數(shù)據(jù)控制系統(tǒng)的幾種應(yīng)用示意圖。
【具體實施方式】
[0023]現(xiàn)在的語言教學(xué)，尤其是外語教學(xué)，方式僵化、死板，主要靠死記硬背、題海戰(zhàn)術(shù)，有些人學(xué)了多年外語，竟然通過該外語與人交流，產(chǎn)生了類似“啞巴英語”的不良后果。
[0024]外語學(xué)習(xí)最為重要的是語言環(huán)境的創(chuàng)設(shè)和“說”的次數(shù)，如果能夠讓學(xué)習(xí)者愿意主動說，經(jīng)常說，就解決了學(xué)習(xí)外語的瓶頸問題。發(fā)明人從事過多年的外語教育，同時熟悉計算機技術(shù)，在本發(fā)明創(chuàng)造過程中，可以采用計算機技術(shù)創(chuàng)設(shè)語言環(huán)境，使學(xué)習(xí)者能夠在這種環(huán)境下與機器進(jìn)行語言交流，并且在交流過程中，通過機器的不同反應(yīng)指示學(xué)習(xí)者發(fā)音存在的問題，并予以糾正。于是，創(chuàng)新性地提出了一種技術(shù)方案，綜合了音頻采集及識別多媒體數(shù)據(jù)處理和控制等技術(shù)手段，通過采集學(xué)習(xí)者的音頻信號，與預(yù)先存儲的標(biāo)準(zhǔn)音頻進(jìn)行比較，計算兩者的相似度，并根據(jù)相似度的不同調(diào)用不同的多媒體數(shù)據(jù)，作為對學(xué)習(xí)者的發(fā)音準(zhǔn)確性的響應(yīng)。在相似度超過預(yù)設(shè)的啟動多媒體程序的門限時，執(zhí)行設(shè)定的多媒體程序，通過多媒體設(shè)備播放成設(shè)定的多媒體信息(例如視頻或音頻)，在此過程中，另外進(jìn)行音頻信號的采集及比較操作，在相似度超過預(yù)設(shè)的運行多媒體程序的門限時，控制多媒體設(shè)備播放所述多媒體信息中與學(xué)習(xí)者輸入的音頻信號的內(nèi)容相匹配的數(shù)據(jù)段(視頻或音頻)。
[0025]下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然，所描述的實施例僅是本發(fā)明的一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護(hù)的范圍。[0026]請參考圖1，為本申請一種實施例公開的多媒體數(shù)據(jù)控制方法的工作流程圖，包括以下步驟:
[0027]步驟S101、利用音頻采集模塊采集承載語言學(xué)習(xí)者的語音內(nèi)容的音頻信號。
[0028]所述音頻采集模塊具體可以是音頻采集卡或話筒(即麥克風(fēng))。
[0029]語言學(xué)習(xí)者發(fā)出語音信息后，音頻采集卡或話筒即采集該語音信息，形成承載語音信息內(nèi)容(即語音內(nèi)容)的音頻信號。
[0030]步驟S102、計算所述音頻信號與預(yù)存的參考音頻信號的波形曲線相似度。
[0031]可以預(yù)先存儲各種標(biāo)準(zhǔn)音頻信號作為參考音頻信號，即各種參考音頻信號針對某些語音內(nèi)容(例如某個字、某個詞或者某個句子)，并以所述語音內(nèi)容作為索引存儲于音頻庫中。
[0032]于是，在上述音頻采集模塊采集到音頻信號后，計算所述音頻信號與音頻庫中所有的音頻信號的相似度，確定相似度最高的音頻信號及相似度。
[0033]計算相似度的方式可以是:比較所述音頻采集模塊采集到的音頻信號與音頻庫中的音頻信號兩者之間的波形曲線圖相似度，所述波形曲線圖以時間作為橫軸，以幅度作為縱軸。
[0034]所述波形曲線圖包括反應(yīng)各種聲學(xué)屬性的圖形，所述各種聲學(xué)屬性包括音調(diào)、響度和帶寬等，其中，所述音調(diào)是聽覺分辨聲音高低的特性，其由頻率決定，可以通過計算一系列短時傅里葉頻譜來估計；所述響度表示輕重的程度，以聲音的振幅表示；所述帶寬用短時傅里葉頻譜的加權(quán)值方差計算。
[0035]計算波形曲線相似度的過程，可以是通過分析音頻信號特征矢量在特征矢量空間中的分布來計算音頻信號的相似度來實現(xiàn)，包括以下步驟:
[0036]首先，對所述音頻采集模塊采集到的音頻信號“加窗預(yù)處理”，將音頻信號分割成短時幀數(shù)據(jù)，提取其特征，計算結(jié)果為一個音頻特征矢量序列；
[0037]接著，根據(jù)預(yù)先生成的特征空間區(qū)域，計算此序列在各區(qū)域中的分布；
[0038]然后，比較音頻信號與預(yù)設(shè)音頻庫中的音頻模板的音頻特征矢量序列的分布確定相似度。
[0039]計算波形曲線相似度的過程還可以為:提取所述音頻采集模塊采集到的音頻信號的指紋；比較該指紋和預(yù)設(shè)音頻庫中的各個參考音頻信號的指紋；將指紋比較結(jié)果作為所述相似度。
[0040]其中，提取所述音頻信號的指紋的方式可以是:先得到音頻信號的特征數(shù)據(jù)；利用特征數(shù)據(jù)判斷音頻信號是否存在特征突變(通過信號幅度或頻率的變化大于設(shè)定閾值判斷)，如果存在，分割出包含突變信號的信號窗口；將所述信號窗口中的信號分割成η等分(例如窗口長度=10毫秒，η=1000)，將每一等份信號的幅度值或頻率值作為信號指紋。
[0041]步驟S103、確定相似度最高的參考音頻信號為目標(biāo)音頻信號。
[0042]步驟S104、判斷所述相似度是否超過預(yù)設(shè)的多媒體響應(yīng)門限，若是，則進(jìn)入步驟S105，否則，進(jìn)入步驟S107。
[0043]所述多媒體響應(yīng)門限是用于啟動后續(xù)多媒體響應(yīng)操作的一個門限，例如可以設(shè)定為80%，即當(dāng)所述采集的音頻信號與目標(biāo)音頻信號之間的相似度超過80%時，確定所述相似度超過多媒體響應(yīng)門限。[0044]步驟S105、將處于解鎖狀態(tài)的多媒體數(shù)據(jù)中，與所述目標(biāo)音頻信號的語音內(nèi)容相對應(yīng)的數(shù)據(jù)段提供給多媒體設(shè)備，進(jìn)入步驟S106。
[0045]步驟S106、所述多媒體設(shè)備將所述數(shù)據(jù)段播放成與所述語音內(nèi)容的含義相匹配的動畫和/或聲音。
[0046]步驟S107、不做反應(yīng)。
[0047]不做反應(yīng)意味著步驟SlOl中采集的所述語音學(xué)習(xí)者的語音內(nèi)容的發(fā)音不夠標(biāo)準(zhǔn)，在其他實施例中，還可以播放其他設(shè)定的多媒體數(shù)據(jù)(例如播放設(shè)定的聲音，顯示設(shè)定的圖像或字母等)，以指示步驟SlOl中采集的所述語音學(xué)習(xí)者的語音內(nèi)容的發(fā)音不夠標(biāo)準(zhǔn)。
[0048]上述實施例公開的技術(shù)方案根據(jù)音頻信號的相似度調(diào)用多媒體數(shù)據(jù)，該音頻信號的相似度是波形曲線相似度確定的，符合自然規(guī)律(即不以人為意愿或思想所左右)。并且，正是在利用這種自然規(guī)律，通過人機交互的方式，實現(xiàn)對語言學(xué)習(xí)者的語言發(fā)音的標(biāo)準(zhǔn)型進(jìn)行判斷(或評估)，并根據(jù)判斷結(jié)果做出形象的指示和引導(dǎo)，為語言學(xué)習(xí)者的語言學(xué)習(xí)提供了方便。
[0049]上述多媒體數(shù)據(jù)，可以僅在相似度超過預(yù)設(shè)門限時才解鎖(即能夠被使用)，在相似度低于所述預(yù)設(shè)門限時保持鎖閉狀態(tài)(即處于無法使用的狀態(tài))。例如另一個實施例記載的方案中，在進(jìn)行圖1所示流程之前，先進(jìn)行多媒體數(shù)據(jù)的解鎖過程，如圖2所示，包括以下步驟:
[0050]步驟S201?步驟S203、與前文步驟SlOl?步驟S102內(nèi)容基本相同。
[0051]步驟S204、若所述相似度等于或高于預(yù)設(shè)的多媒體解鎖門限，則進(jìn)入步驟S205，否則，進(jìn)入步驟S206。
[0052]所述多媒體解鎖門限是用于將多媒體數(shù)據(jù)從鎖閉狀態(tài)轉(zhuǎn)換為解鎖狀態(tài)的一個門限，例如可以設(shè)定為70%，即當(dāng)所述采集的音頻信號與目標(biāo)音頻信號之間的相似度超過70%時，確定所述相似度超過多媒體解鎖門限。
[0053]步驟S205、對預(yù)設(shè)的所述多媒體數(shù)據(jù)進(jìn)行解鎖。
[0054]步驟S206、不做反應(yīng)。
[0055]不做反應(yīng)意味著步驟S201中采集的所述語音學(xué)習(xí)者的語音內(nèi)容的發(fā)音不夠標(biāo)準(zhǔn)，在其他實施例中，還可以播放其他設(shè)定的多媒體數(shù)據(jù)(例如播放設(shè)定的聲音，顯示設(shè)定的圖像或字母等)，告知所述語言學(xué)習(xí)者，所述多媒體數(shù)據(jù)解鎖不成功，即表明步驟S201中采集的所述語音學(xué)習(xí)者的語音內(nèi)容的發(fā)音不夠標(biāo)準(zhǔn)，還需努力。
[0056]可以認(rèn)為，本實施例公開的方案中，包括兩個過程，第一過程是解鎖多媒體數(shù)據(jù)的過程(也可稱為多媒體啟動過程)，只有語言學(xué)習(xí)者的發(fā)音標(biāo)準(zhǔn)程度達(dá)到一定程度，才能解鎖所述多媒體數(shù)據(jù)，第二過程是播放多媒體的程序與語言學(xué)習(xí)者音頻信號的互動過程(也可稱為多媒體響應(yīng)過程，即圖1所示過程)，在該過程中，如果語言學(xué)習(xí)者發(fā)出標(biāo)準(zhǔn)的語音內(nèi)容，則播放多媒體的程序?qū)⒁罁?jù)所述語音內(nèi)容做出符合所述語音內(nèi)容含義的響應(yīng)。
[0057]需要說明的是，所述多媒體解鎖門限和多媒體響應(yīng)門限可以相同，也就是說，語言學(xué)習(xí)者的兩次發(fā)音與參考音頻信號的相似度超過某程度，才“有資格”調(diào)用多媒體數(shù)據(jù)，由此降低了隨機程度。所述多媒體解鎖門限和多媒體響應(yīng)門限也可以不同，多媒體響應(yīng)門限高于多媒體解鎖門限，通過門限的提高，為語言學(xué)習(xí)者設(shè)置一種“循序漸進(jìn)”的環(huán)境，讓其得至IJ “進(jìn)階式”的練習(xí)機會。[0058]本方案可以適用于語言學(xué)習(xí)過程，例如各種語言(中文、英文或德文......)的學(xué)
習(xí)或語言障礙者的語言練習(xí)。
[0059]下面以英文學(xué)習(xí)過程為例對本案進(jìn)行進(jìn)一步的闡述，該過程可以多媒體啟動過程和多媒體響應(yīng)過程，其中:
[0060]所述多媒體啟動過程如下:
[0061]首先，從詞庫或者語句庫中隨機選出一個單詞或一個語句，或者由若干語句組合成一段話，由語言學(xué)習(xí)者念讀。
[0062]然后，利用麥克風(fēng)采集所述語言學(xué)習(xí)者發(fā)出的承載英文單詞或語句的音頻信號。
[0063]接著，計算所述音頻信號與音頻庫中所存儲的參考音頻信號的波形曲線相似度，選定相似度最高的參考音頻信號為目的音頻信號。并且，如果所采集的音頻信號與目的音頻信號之間的相似度超過預(yù)設(shè)門限(如60%)，則解鎖處于鎖閉狀態(tài)的多媒體數(shù)據(jù)，并可同時向語言學(xué)習(xí)者呈現(xiàn)解鎖成功的指示信息，以指示所述語言學(xué)習(xí)者可繼續(xù)發(fā)送語音信息，即進(jìn)入多媒體響應(yīng)過程；否則，保持所述多媒體數(shù)據(jù)處于鎖閉狀態(tài)，并可同時呈現(xiàn)解鎖不成功的指示信息，以指示所述語言學(xué)習(xí)者繼續(xù)努力。
[0064]所述多媒體響應(yīng)過程如下:
[0065]利用麥克風(fēng)采集所述語言學(xué)習(xí)者針對所述指示信息發(fā)出的音頻信號(承載英文單詞或語句)。從音頻庫中確定波形曲線相似度與所采集的音頻信號的波形曲線相似度最高的音頻信號，作為目的音頻信號。并且，如果所述相似度超過預(yù)設(shè)門限(如80%)，則從所述多媒體數(shù)據(jù)中調(diào)用與所述英文單詞或語句相對應(yīng)的數(shù)據(jù)段，提供給多媒體設(shè)備進(jìn)行播放，播放成符合所述目的音頻信號的語音內(nèi)容的含義的圖像或聲音。否則，則不作任何反應(yīng)，或者向語言學(xué)習(xí)者指示其發(fā)音不夠標(biāo)準(zhǔn)，需要繼續(xù)努力。
[0066]所述多媒體數(shù)據(jù)可以是各種軟件程序，例如Flash程序，具體可以是具有至少一個虛擬實體的Flash動畫程序，所述與所述英文單詞或語句相對應(yīng)的數(shù)據(jù)段為控制該虛擬實體做出符合所述英文單詞或語句的含義的動作。例如，語言學(xué)習(xí)者發(fā)出“jump”的音頻信號，則遍歷音頻庫中的所有音頻段，找到與語言學(xué)習(xí)者發(fā)出的音頻信號的波形曲線相似度最高的音頻段，作為目的音頻信號，并且，在目的音頻信號與語言學(xué)習(xí)者發(fā)出的音頻信號的相似度超過80%時，可認(rèn)為語言學(xué)習(xí)者對于“jump”這個單詞的發(fā)音標(biāo)準(zhǔn)，則控制所述Flash程序中的虛擬實體做出“跳”的動作，作為“jump”這個音頻信號的響應(yīng)，如果相似度低于80%，則可認(rèn)為語言學(xué)習(xí)者對于“jump”這個單詞的發(fā)音不夠標(biāo)準(zhǔn)，則不做出反應(yīng)。甚至，可以將Flash程序為某虛擬實體在奔跑中需要跳過一些障礙物的游戲程序，在該虛擬實體奔跑至某障礙物預(yù)設(shè)距離處，需要跳起來才能跨過所述障礙物，否則會被阻擋而導(dǎo)致時間延長，于是，在采集語言學(xué)習(xí)者的“jump”音頻信號后，識別并確定標(biāo)準(zhǔn)度符合要求時，產(chǎn)生與控制虛擬實體做出“跳”這個動作的指令，發(fā)給運行Flash程序的模塊，由該模塊運行使虛擬實體做出“跳”這個動作的程序段。
[0067]針對前文所述業(yè)務(wù)數(shù)據(jù)控制方法，本發(fā)明同時還提供了一種多媒體數(shù)據(jù)控制系統(tǒng)，其一種結(jié)構(gòu)如圖3所示，包括音頻采集模塊31、語音識別引擎32、控制器33和多媒體運行模塊34，其中:
[0068]所述音頻采集模塊31，可以是音頻采集卡或話筒，用于采集承載語言學(xué)習(xí)者語音內(nèi)容的音頻信號。[0069]所述語音識別引擎32，獲取所述音頻信號，計算所述音頻信號與預(yù)設(shè)音頻庫中所有參考音頻信號之間的波形曲線的相似度，并確定相似度最高的參考音頻信號為目的音頻信號；具體的計算過程可以參考前文方法部分的描述，在此不再贅述。
[0070]控制器33，由存儲器331和處理器332組成，其中，所述存儲器331中存儲有用于指示在相似度大于多媒體響應(yīng)門限時發(fā)出運行操作指令的命令3311，所述處理器332與所述語音識別引擎32相連，用于從所述語音識別引擎32獲取信息，及執(zhí)行存儲器331中存儲的命令。所述運行操作指令與目的音頻信號相對應(yīng)，具體的，所述運行操作指令與所述目的音頻信號的含義相對應(yīng)。
[0071]多媒體運行模塊34，從處于解鎖狀態(tài)的多媒體數(shù)據(jù)中調(diào)用匹配所述運行操作指令的數(shù)據(jù)段，提供給多媒體設(shè)備，由所述多媒體數(shù)據(jù)播放成與所述內(nèi)容的含義相匹配的動畫
和/或聲音。
[0072]其工作過程和工作原理可以如下:
[0073]在語言學(xué)習(xí)者念讀語言內(nèi)容時，所述音頻采集模塊31采集承載所述語言內(nèi)容的音頻信號，提供給所述語音識別引擎32;所述語音識別引擎32遍歷預(yù)設(shè)音頻庫中的所有音頻段，依次計算音頻庫中各個音頻段與所述音頻采集模塊31采集的音頻信號之間的波形曲線的相似度，從中選擇相似度最高的音頻段作為目的音頻信號，將所述音頻信號內(nèi)容含義(或者含義的指示信息)與相似度信息提供給所述控制器33 ;所述控制器33在所述相似度大于預(yù)設(shè)的多媒體響應(yīng)門限時，發(fā)出運行操作指令，該運行操作指令與所述目的音頻信號的內(nèi)容含義(或含義的指示信息)相對應(yīng)；所述多媒體運行模塊34接收所述運行操作指令，從處于解鎖狀態(tài)的多媒體數(shù)據(jù)中調(diào)用匹配所述運行操作指令的數(shù)據(jù)段，提供給多媒體設(shè)備，由所述多媒體數(shù)據(jù)播放成與所述目的音頻信號的內(nèi)容的含義相匹配的動畫和/或聲
曰?
[0074]所述語音識別引擎32和控制器33之間需要進(jìn)行配合，以實現(xiàn)根據(jù)語言學(xué)習(xí)者發(fā)音的標(biāo)準(zhǔn)程度，來執(zhí)行相應(yīng)的控制操作，配合的方式包括以下兩種:
[0075]A、所述語音識別引擎32在確定目的音頻信號后，產(chǎn)生與所述目的音頻信號與所述音頻采集模塊31提供的音頻信號的相似度對應(yīng)的字符串，及所述目的音頻信號的語音內(nèi)容對應(yīng)的字符串，并將產(chǎn)生的字符串傳輸給所述控制器33，所述控制器33依據(jù)所述相似度對應(yīng)的字符串確定相似度是否超過預(yù)設(shè)門限，若是，則依據(jù)與語音內(nèi)容對應(yīng)的字符串，如產(chǎn)生對應(yīng)的運行操作指令，傳輸給多媒體運行模塊34，所述多媒體運行模塊34調(diào)用相應(yīng)數(shù)據(jù)提供給多媒體設(shè)備，進(jìn)行播放，否則不做反應(yīng)；
[0076]B、所述語音識別引擎32在確定目的音頻信號后，判斷其與所述音頻采集模塊31提供的音頻信號的相似度是否超過預(yù)設(shè)門限，若是，則產(chǎn)生與所述目的音頻信號的語音內(nèi)容對應(yīng)的字符串，傳輸給所述控制器33，所述控制器33依據(jù)所述字符串，產(chǎn)生對應(yīng)的運行操作指令，傳輸給多媒體運行模塊34。
[0077]此外，所述存儲器331還存儲有解鎖操作指令3312，如圖4所示，該解鎖操作指令3312用于指示所述處理器332在所述語音識別引擎32計算出特征參數(shù)相似度大于多媒體啟動門限時，解鎖處于鎖閉狀態(tài)的所述多媒體數(shù)據(jù)，使其處于解鎖狀態(tài)，即將原先不可調(diào)用的多媒體數(shù)據(jù)變成可調(diào)用的多媒體數(shù)據(jù)，具體的，可以是為所述處理器332提供調(diào)用指令及調(diào)用對象(即多媒體數(shù)據(jù))的存放地址。[0078]本申請的一些實施例中，所述語音識別引擎32中可以設(shè)置有音頻庫和動態(tài)庫，所述音頻庫中包括多個音頻段，所述動態(tài)庫中存儲多個字符串，不同的音頻段對應(yīng)不同的字符串，這種對應(yīng)關(guān)系是預(yù)先根據(jù)音頻段的語音內(nèi)容進(jìn)行設(shè)置的，例如，設(shè)置語音內(nèi)容為“jump”的音頻段與指示“跳”這個動作的字符串相對應(yīng)。而所述多媒體運行模塊34可以是各種軟件程序的運行模塊，這些軟件程序可以是Flash程序或者其他多媒體程序，在接收到控制器33產(chǎn)生的運行操作指令后執(zhí)行相應(yīng)操作。對于連接所述語音識別引擎32和多媒體運行模塊34的所述控制器33，需要將語音識別引擎32產(chǎn)生的字符串對應(yīng)成能夠被所述多媒體運行模塊34識別的運行操作指令，例如將與語音內(nèi)容為“jump”的音頻段的應(yīng)的字符串，“轉(zhuǎn)換成”能夠被所述多媒體運行模塊34識別的指示“跳”這個動作的操作指令。具體的，對于動態(tài)庫中的字符串而言，其屬于動態(tài)庫字符，即具有DLL后綴的字符，這種字符可能無法直接被多媒體運行模塊34所識別，于是，需要控制器33進(jìn)行協(xié)議轉(zhuǎn)換，即將DLL后綴的字符轉(zhuǎn)換為能夠被多媒體運行模塊34所識別的字符，若多媒體運行模塊34為Flash運行模塊，則將DLL后綴的字符轉(zhuǎn)換為Flash動作指令，例如將與語音內(nèi)容為“jump”的音頻段的應(yīng)的字符串轉(zhuǎn)換為指示某實體執(zhí)行“跳躍”動作的Flash動作指令。
[0079]本申請?zhí)峁┑南到y(tǒng)具體產(chǎn)品形式可以是USB設(shè)備，或者由USB設(shè)備和麥克風(fēng)的組合。如圖5所示，為一種USB設(shè)備的結(jié)構(gòu)示意圖，所述USB設(shè)備包括主板51及連接所述主板的USB接口 52，其中主板51上設(shè)置有音頻采集模塊(音頻卡)511、語音識別引擎512、控制器513和多媒體運行模塊514，各模塊的功能與前文同名單元的功能基本相同。
[0080]語言學(xué)習(xí)者在進(jìn)行語言學(xué)習(xí)時，將所述USB設(shè)備通過所述USB接口插接于具有某電子設(shè)備(可以是計算機或多媒體設(shè)備)上，即可通過人機互動以進(jìn)行語言學(xué)習(xí)和訓(xùn)練。
[0081]這種USB設(shè)備結(jié)構(gòu)為人機互動提供了方便性，語言學(xué)習(xí)者只要攜帶所述USB設(shè)備，即可在具有設(shè)置USB接口的任何多媒體設(shè)備的任意場合，進(jìn)行人機互動式的語言學(xué)習(xí)和訓(xùn)練。例如圖6所示，所述多媒體設(shè)備可以是平板電腦。
[0082]在另外示例中，上述音頻采集模塊511還可以是前文所述的外置的麥克風(fēng)，如圖7所示，麥克風(fēng)將采集的語音通過無線或者有線的方式傳輸給所述USB設(shè)備，具體的，傳輸給所述USB設(shè)備中的語音識別引擎。
[0083]此外，在一些實施例中，所述多媒體數(shù)據(jù)控制系統(tǒng)還可以集成于耳機設(shè)備中，例如圖8所示的耳機設(shè)備，耳機設(shè)備包括殼體、通信接口、連接于所述殼體上的話筒和置于所述殼體內(nèi)的與所述語音識別引擎、控制器和多媒體運行模塊。所述多媒體運行模塊通過通信接口與外部多媒體設(shè)備進(jìn)行通信，所述通信接口可以是有線網(wǎng)絡(luò)接口或者無線網(wǎng)絡(luò)接口。
[0084]這種結(jié)構(gòu)將多媒體數(shù)據(jù)控制系統(tǒng)集成于耳機設(shè)備中，語言學(xué)習(xí)者戴上所述耳機設(shè)備即可進(jìn)行人機交互式的語言學(xué)習(xí)和訓(xùn)練，比較方便。
[0085]所述語音識別引擎還可以位于USB設(shè)備(或耳機設(shè)備)外部的某臺設(shè)備中，例如外部某臺服務(wù)器中，及音頻采集模塊采集到音頻信號后，通過網(wǎng)絡(luò)或者線路傳輸給所述服務(wù)器中的語音識別引擎，由語音識別引擎計算相似度并選定目的音頻信號后，返回相應(yīng)信息，由USB設(shè)備(或耳機設(shè)備)中的其他模塊繼續(xù)處理。
[0086]需要說明的是，本說明書中各個實施例可相互補充，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似部分互相參見即可。
[0087]另外，還需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。另外，在本文中，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方
法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定
的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0088]對所公開的實施例的上述說明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實施例中實現(xiàn)。因此，本發(fā)明將不會被限制于本文所示的這些實施例，而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
【權(quán)利要求】
1.一種多媒體數(shù)據(jù)控制方法，其特征在于，包括: 利用音頻采集模塊采集承載語音內(nèi)容的音頻信號；計算所述音頻信號與預(yù)設(shè)音頻庫中的各個參考音頻信號的波形曲線相似度，并選擇相似度最高的參考音頻信號為目的音頻信號；若所述目的音頻信號與所述音頻采集模塊采集的音頻信號之間的相似度超過多媒體響應(yīng)門限，則將預(yù)存的多媒體數(shù)據(jù)中對應(yīng)所述目的音頻信號的數(shù)據(jù)段提供給多媒體設(shè)備，由多媒體設(shè)備播放成與所述目的音頻信號所承載的語音內(nèi)容相匹配的動畫和/或聲音。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于還包括: 當(dāng)所述音頻信號與預(yù)設(shè)參考音頻信號的波形曲線的相似度等于或高于預(yù)設(shè)的多媒體解鎖門限時，解鎖所述多媒體數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述多媒體數(shù)據(jù)為Flash程序，所述數(shù)據(jù)段為所述Flash程序中針對某個虛擬實體、用于指示所述虛擬實體做出動作的程序段。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，按照以下步驟將所述數(shù)據(jù)段提供給多媒體設(shè)備: 接收所述目的音頻信號所承載的語音內(nèi)容對應(yīng)的動態(tài)庫函數(shù)；查找預(yù)置的動態(tài)庫函數(shù)與Flash程序協(xié)議適配的操作指令之間的對應(yīng)關(guān)系，確定與接收的動態(tài)庫函數(shù)對應(yīng)的操作指令；將確定的操作指令發(fā)送給執(zhí)行所述Flash程序的模塊，由所述模塊依據(jù)所述操作指令從處于解鎖狀態(tài)的多媒體數(shù)據(jù)中調(diào)用對應(yīng)的數(shù)據(jù)段，將所述數(shù)據(jù)段提供給所述多媒體設(shè)備。
5.一種多媒體數(shù)據(jù)控制系統(tǒng)，其特征在于，包括: 音頻采集模塊，用于采集承載語音內(nèi)容的音頻信號；語音識別引擎，獲取所述音頻信號，計算所述音頻信號與預(yù)設(shè)音頻庫中的各個參考音頻信號的波形曲線相似度，并選擇相似度最高的參考音頻信號為目的音頻信號；控制器，由存儲器和處理器組成，其中，所述存儲器中存儲有用于指示所述處理器在相似度超過多媒體響應(yīng)門限時發(fā)出運行操作指令的命令，所述運行操作指令與所述目的音頻信號相對應(yīng)；所述處理器用于從所述語音識別引擎獲取信息，及執(zhí)行所述存儲器中的命令；多媒體運行模塊，用于從預(yù)存的多媒體數(shù)據(jù)中調(diào)用對應(yīng)所述運行操作指令的數(shù)據(jù)段，通過通信接口提供給多媒體設(shè)備，由所述多媒體數(shù)據(jù)播放成與所述目的音頻信號所承載的語音內(nèi)容相匹配的動畫和/或聲音。
6.根據(jù)權(quán)利要求5所述的系統(tǒng)，其特征在于，所述存儲器還存儲有解鎖操作指令，該解鎖操作指令用于指示所述處理器在所述語音識別引擎計算出相似度大于多媒體啟動門限時，解鎖處于鎖閉狀態(tài)的所述多媒體數(shù)據(jù)，使其處于解鎖狀態(tài)。
7.根據(jù)權(quán)利要求5或6所述的系統(tǒng)，其特征在于，所述多媒體數(shù)據(jù)為Flash程序，所述多媒體運行模塊為Flash模塊，所述數(shù)據(jù)段為所述Flash程序中針對某個虛擬實體、用于指示所述虛擬實體做出動作的程序段。
8.根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，所述處理器從所述語音識別引擎獲取的信息包括: 與所述目的音頻信號對應(yīng)的字符串，所述字符串，由所述語音識別引擎在所述目的音頻信號與所述音頻采集模塊采集的音頻信號之間的相似度超過多媒體響應(yīng)門限時發(fā)送。
9.根據(jù)權(quán)利要求7所述的系統(tǒng)，其特征在于，所述處理器從所述語音識別引擎獲取的信息包括: 由所述語音識別引擎發(fā)送的，用于指示目的音頻信號與所述音頻采集模塊采集的音頻信號之間的相似度的字符串，及與所述目的音頻信號對應(yīng)的字符串。
10.根據(jù)權(quán)利要求51所述的系統(tǒng)，其特征在于: 所述字符串為動態(tài)庫函數(shù)，所述運行操作指令為與所述動態(tài)庫函數(shù)相對應(yīng)的Flash協(xié)議指令；所述通信接口為電連接接口或無線接口。
【文檔編號】G09B5/04GK103730032SQ201210387698
【公開日】2014年4月16日申請日期:2012年10月12日優(yōu)先權(quán)日:2012年10月12日
【發(fā)明者】李志剛申請人:李志剛

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李志剛
技術(shù)所有人：李志剛
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多媒體中央控制系統(tǒng)相關(guān)技術(shù)

多媒體控制系統(tǒng)相關(guān)技術(shù)

多媒體數(shù)據(jù)庫系統(tǒng)相關(guān)技術(shù)

多媒體集中控制系統(tǒng)相關(guān)技術(shù)

系統(tǒng)數(shù)據(jù)權(quán)限控制相關(guān)技術(shù)

數(shù)據(jù)采集控制系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多媒體數(shù)據(jù)控制方法和系統(tǒng)的制作方法