一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的制作方法

文檔序號(hào)：2555317閱讀：399來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

專利名稱：：一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和語(yǔ)音處理
技術(shù)領(lǐng)域：
，特別是一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)。
背景技術(shù)：
：我國(guó)傳統(tǒng)的普通話學(xué)習(xí)和測(cè)試方法，目前正面臨著普通話推廣的迫切需求與學(xué)習(xí)和測(cè)試條件不足的突出矛盾。普通話學(xué)習(xí)需要針對(duì)學(xué)生個(gè)別的問(wèn)題進(jìn)行糾正，需要長(zhǎng)時(shí)間的互動(dòng)式交流，這些條件以目前的師資是無(wú)法滿足的。同時(shí)，口語(yǔ)考試是檢驗(yàn)學(xué)習(xí)成果的有效手段，但耗時(shí)耗力的人力組織，不可避免的公正性問(wèn)題以及很難提供反饋信息等因素已成為制約普通話口語(yǔ)考試發(fā)展的瓶頸。要解決以上問(wèn)題，計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和測(cè)試是個(gè)可行的方案。隨著計(jì)算機(jī)技術(shù)和語(yǔ)音識(shí)別技術(shù)的發(fā)展，計(jì)算機(jī)語(yǔ)言學(xué)習(xí)和測(cè)試系統(tǒng)已經(jīng)從最初的只能進(jìn)行聽(tīng)力、閱讀、書(shū)寫(xiě)等功能發(fā)展到對(duì)語(yǔ)言學(xué)習(xí)者的發(fā)音水平進(jìn)行自動(dòng)評(píng)分、指出發(fā)音錯(cuò)誤并根據(jù)發(fā)音錯(cuò)誤提供診斷信息，從而對(duì)學(xué)習(xí)者的發(fā)音水平進(jìn)行全方位測(cè)試并幫助學(xué)習(xí)者改進(jìn)發(fā)音，提高學(xué)習(xí)效率。因此，作為新一代計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和測(cè)試系統(tǒng)的核心部分，自動(dòng)發(fā)音評(píng)估和診斷技術(shù)日益受到關(guān)注。目前的自動(dòng)發(fā)音評(píng)估和診斷技術(shù)是基于統(tǒng)計(jì)語(yǔ)音識(shí)別框架下的發(fā)音評(píng)估和檢錯(cuò)策略。它首先對(duì)輸入語(yǔ)音進(jìn)行音素分割，對(duì)分割得到的每一個(gè)音素，計(jì)算對(duì)數(shù)后驗(yàn)概率或其簡(jiǎn)化形式作為發(fā)音特征，進(jìn)行發(fā)音質(zhì)量評(píng)估，針對(duì)學(xué)習(xí)者的發(fā)音水平給出相應(yīng)的得分，并采用統(tǒng)一門(mén)限進(jìn)行錯(cuò)誤檢測(cè)。上述方法所面臨的問(wèn)題是首先，發(fā)音評(píng)估和診斷的準(zhǔn)確性不是很高，特別是對(duì)一些在實(shí)際發(fā)音中經(jīng)常犯錯(cuò)的、發(fā)音又很接近的易混淆音素對(duì)。其次，只能針對(duì)學(xué)習(xí)者的發(fā)音水平高低給出相應(yīng)的得分，無(wú)法給出更有指導(dǎo)意義的診斷信息。為解決以上問(wèn)題，本發(fā)明構(gòu)建一個(gè)基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，該系統(tǒng)不僅可以對(duì)學(xué)習(xí)者的發(fā)音給出分?jǐn)?shù)，而且可以給出更為細(xì)致的診斷信息。
發(fā)明內(nèi)容(—)要解決的技術(shù)問(wèn)題有鑒于此，本發(fā)明的主要目的在于針對(duì)現(xiàn)有發(fā)音評(píng)估和診斷方法的缺點(diǎn)，引入語(yǔ)言學(xué)和普通話教學(xué)中的先驗(yàn)專家知識(shí)，提供一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，以提高語(yǔ)言學(xué)習(xí)和測(cè)試的效率和效果。(二)技術(shù)方案為達(dá)到上述目的，本發(fā)明采用的技術(shù)方案如下—種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，該系統(tǒng)包括語(yǔ)音預(yù)處理單元，用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理，以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn)，將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元，輸入到發(fā)音評(píng)估單元進(jìn)行判別；發(fā)音評(píng)估單元，用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估，利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估，計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí)；發(fā)音評(píng)估確認(rèn)和診斷單元，用于對(duì)發(fā)音評(píng)估單元輸入的初步評(píng)估結(jié)果，利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)，采用基于區(qū)別性特征及分類器的方法，進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn)，并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息；模型和先驗(yàn)知識(shí)庫(kù)單元，用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型，以及先驗(yàn)知識(shí)庫(kù)；以及評(píng)估信息和診斷信息輸出單元，用于輸出包括分級(jí)和打分結(jié)果的發(fā)音評(píng)估的分?jǐn)?shù)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型，并給出矯正的指導(dǎo)性建議。上述方案中，所述語(yǔ)音預(yù)處理單元包括端點(diǎn)檢測(cè)子單元，用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào)，確定語(yǔ)音的起點(diǎn)和終點(diǎn)；特征提取子單元，用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù)，并進(jìn)行特征的計(jì)算，提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)；內(nèi)容確認(rèn)子單元，用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證，如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大，則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷；對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音，不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷，直接判斷為用戶發(fā)音錯(cuò)誤；音素對(duì)齊子單元，用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元，以便后續(xù)的處理。上述方案中，所述反映信號(hào)特征的關(guān)鍵特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)MFCC，包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征，以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。上述方案中，所述音素對(duì)齊子單元采用維特比Viterbi算法將輸入的有效語(yǔ)音分割成音素級(jí)的單元，實(shí)現(xiàn)音素的對(duì)齊。上述方案中，所述發(fā)音評(píng)估單元進(jìn)一步采用分音素門(mén)限策略，對(duì)不同的音素采用不同門(mén)限值，低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤，輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。上述方案中，所述發(fā)音評(píng)估確認(rèn)和診斷單元在利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)時(shí)，對(duì)于特定的發(fā)音錯(cuò)誤類型，利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí)，將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi)，從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷，具體是先根據(jù)先驗(yàn)知識(shí)，提取區(qū)別性特征，得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后，訓(xùn)練兩類分類器，每個(gè)音素建立一個(gè)分類器，由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到，由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同，所以對(duì)不同音素，所用的區(qū)別性特征種類和維數(shù)不同。上述方案中，所述發(fā)音評(píng)估確認(rèn)和診斷單元利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)構(gòu)建兩類分類器后，對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn)；根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí)，預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表；從該表中查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器，以進(jìn)行錯(cuò)誤檢測(cè)；錯(cuò)誤檢測(cè)的結(jié)果，一方面可以作為確認(rèn)信息，用以確認(rèn)初步評(píng)估結(jié)果是否正確，另一方面，可以根據(jù)該音素使用的區(qū)5別性特征，得到更為細(xì)致的診斷信息。上述方案中，所述模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成，其中，模型包括音素標(biāo)準(zhǔn)模型和分級(jí)打分模型，先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合，為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí)，并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。上述方案中，所述音素標(biāo)準(zhǔn)模型為HMM模型，用于音素對(duì)齊和計(jì)算后驗(yàn)概率。上述方案中，所述分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型，用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。上述方案中，所述先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得，由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到，或者直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。上述方案中，所述評(píng)估信息和診斷信息輸出單元的輸出形式具有多樣化特點(diǎn)，融合圖、表、文字和語(yǔ)音，具有良好的用戶界面。(三)有益效果從上述技術(shù)方案可以看出，本發(fā)明具有以下有益效果本發(fā)明提供的這種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，對(duì)先驗(yàn)知識(shí)的利用比較靈活和充分。先驗(yàn)知識(shí)從兩個(gè)方面得到應(yīng)用首先利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次，利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)，采用基于區(qū)別性特征及分類器的方法，確認(rèn)評(píng)估結(jié)果，獲得更好的評(píng)估性能，從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息。這兩方面的應(yīng)用都可以根據(jù)實(shí)際情況添加或刪減先驗(yàn)知識(shí)的規(guī)則數(shù)目。由于先驗(yàn)知識(shí)的引入，本發(fā)明可以對(duì)常見(jiàn)的易混淆音素做出準(zhǔn)確判斷，不僅能夠針對(duì)發(fā)音水平高低給出相應(yīng)的分?jǐn)?shù)，而且可以提供更有指導(dǎo)意義的診斷信息。此外，后驗(yàn)概率的分音素門(mén)限策略、基于區(qū)別性特征及分類器的方法、整個(gè)系統(tǒng)的合理流程都保證了高效、準(zhǔn)確的發(fā)音評(píng)估和診斷的進(jìn)行。圖1是本發(fā)明提供的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的示意圖。具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。先驗(yàn)專家知識(shí)在本系統(tǒng)的兩個(gè)方面得到應(yīng)用首先，利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次，利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)，采用基于區(qū)別性特征及分類器的方法，確認(rèn)評(píng)估結(jié)果，獲得更好的評(píng)估性能，從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息，幫助學(xué)習(xí)者矯正和改善發(fā)音。本發(fā)明所提出的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，主要包括五個(gè)單元語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、發(fā)音評(píng)估確認(rèn)和診斷單元、模型和先驗(yàn)知識(shí)庫(kù)單元、評(píng)估信息和診斷信息輸出單元。具體如下1.語(yǔ)音預(yù)處理單元6語(yǔ)音預(yù)處理單元用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理，以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn)，將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元，輸入到發(fā)音評(píng)估單元進(jìn)行判別。語(yǔ)音預(yù)處理單元主要包括以下四個(gè)子單元端點(diǎn)檢測(cè)子單元、特征提取子單元、內(nèi)容確認(rèn)子單元和音素對(duì)齊子單元，各子單元的功能具體如下端點(diǎn)檢測(cè)子單元用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào)，確定語(yǔ)音的起點(diǎn)和終點(diǎn)。在實(shí)際環(huán)境中，背景噪聲對(duì)評(píng)估和診斷系統(tǒng)的影響非常大，在信噪比低的情況下，系統(tǒng)無(wú)法對(duì)輸入的語(yǔ)音進(jìn)行正確判斷。準(zhǔn)確地從背景噪聲中檢測(cè)出語(yǔ)音有效范圍的開(kāi)始和結(jié)束位置，刪除不含語(yǔ)音的背景噪聲，不僅可以提高系統(tǒng)性能，還可以減少處理的數(shù)據(jù)量，從而降低處理時(shí)間。特征提取子單元用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù)，并進(jìn)行特征的計(jì)算，提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)，以降低維數(shù)并便于后續(xù)步驟的進(jìn)行。本系統(tǒng)中使用的特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)(MFCC)，包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征，以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。內(nèi)容確認(rèn)子單元用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證，如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大，則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷；對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音，不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷，直接判斷為用戶發(fā)音錯(cuò)誤。音素對(duì)齊子單元用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元，以便后續(xù)的處理。本系統(tǒng)的音素對(duì)齊采用維特比(Viterbi)算法。2.發(fā)音評(píng)估單元發(fā)音評(píng)估單元用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估，利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估，計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí)。同時(shí)，采用分音素門(mén)限策略，對(duì)不同的音素采用不同門(mén)限值，低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤，輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。1)基于修正后驗(yàn)概率的發(fā)音評(píng)估語(yǔ)言學(xué)家長(zhǎng)期研究表明，發(fā)音錯(cuò)誤或缺陷分為兩類一類是由于不認(rèn)識(shí)字或不熟悉發(fā)音規(guī)則而生成的，另一類是受母語(yǔ)或方言的影響而生成的。后者的規(guī)律性較強(qiáng)，往往也是學(xué)習(xí)者常犯的典型發(fā)音錯(cuò)誤，應(yīng)該得到更充分的重視和反饋。這種發(fā)音錯(cuò)誤的規(guī)律性可以作為先驗(yàn)知識(shí)，引入到發(fā)音評(píng)估及診斷系統(tǒng)中，在本發(fā)明中，它用于修正傳統(tǒng)的后驗(yàn)概率計(jì)算方法，以得到更好的發(fā)音評(píng)估性能。對(duì)音素qi，傳統(tǒng)的后驗(yàn)概率定義為<formula>formulaseeoriginaldocumentpage7</formula>其中，Pi是對(duì)應(yīng)的發(fā)音數(shù)據(jù)0i對(duì)音素Qi的后驗(yàn)概率，Prob(0iIqi)是音素qi的似然度，1音素qi的時(shí)長(zhǎng)，Q是模型集合。—般，Q取所有音素或者當(dāng)Qi為聲母時(shí)，Q取聲母集合，Qi為韻母時(shí)，Q取韻母集合。引入發(fā)音錯(cuò)誤先驗(yàn)知識(shí)，0i對(duì)音素Qi的后驗(yàn)概率改進(jìn)為<formula>formulaseeoriginaldocumentpage8</formula>其中，Qi是音素&常見(jiàn)發(fā)音錯(cuò)誤類型的模型集合。采用以上計(jì)算方法，本質(zhì)上是減少了后驗(yàn)概率計(jì)算過(guò)程中分母的計(jì)算空間，這不僅提高了后驗(yàn)概率的計(jì)算速度，而且由于排除了常見(jiàn)典型錯(cuò)誤外其它易混淆音素模型的影響，所以加強(qiáng)了常見(jiàn)典型錯(cuò)誤的檢測(cè)能力。對(duì)于發(fā)音錯(cuò)誤先驗(yàn)知識(shí)的獲取，一種方法是直接利用語(yǔ)言學(xué)家總結(jié)出的發(fā)音錯(cuò)誤基本類型，另一種方法是采用數(shù)據(jù)驅(qū)動(dòng)技術(shù)，從大量語(yǔ)音數(shù)據(jù)中統(tǒng)計(jì)得到。本發(fā)明采用兩種方法結(jié)合的形式得到最終的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)，所使用的部分發(fā)音錯(cuò)誤先驗(yàn)知識(shí)如表1所示，表1是易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)。<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>表1上述是針對(duì)某一個(gè)音素計(jì)算的修正后驗(yàn)概率，采用映射的方法，可以把后驗(yàn)概率值映射到系統(tǒng)需要的分制上，保持與主觀測(cè)試的一致。映射方法可以采取線性方法和非線性方法，線性方法比較簡(jiǎn)單，而非線性方法更符合客觀實(shí)際。經(jīng)過(guò)映射后，系統(tǒng)得到學(xué)習(xí)者對(duì)該音素發(fā)音的分?jǐn)?shù)，而針對(duì)學(xué)習(xí)者的整體評(píng)價(jià)，可以將每個(gè)音素的后驗(yàn)概率值在詞匯上或整個(gè)語(yǔ)流上進(jìn)行規(guī)整，得到該詞匯或整個(gè)語(yǔ)流的后驗(yàn)概率后再進(jìn)行映射以得到整體評(píng)價(jià)。規(guī)整方法可以是簡(jiǎn)單的所有音素后驗(yàn)概率的平均或者加權(quán)平均。2)分音素門(mén)限策略上述評(píng)估方法可以得到對(duì)音素、詞匯和整個(gè)語(yǔ)流的發(fā)音評(píng)估分?jǐn)?shù)，對(duì)于后驗(yàn)概率偏高的音素，發(fā)音評(píng)估分?jǐn)?shù)應(yīng)該比較高，而對(duì)于后驗(yàn)概率偏低的音素，發(fā)音評(píng)估分?jǐn)?shù)就比較低。對(duì)于發(fā)音分?jǐn)?shù)偏低的音素，我們需要在后驗(yàn)概率層次上設(shè)定門(mén)限，低于該門(mén)限的音素輸入到下一單元進(jìn)行處理，以提供更細(xì)致的發(fā)音診斷信息。傳統(tǒng)的門(mén)限方法采用統(tǒng)一門(mén)限進(jìn)行錯(cuò)誤檢測(cè)，由于各音素模型的后驗(yàn)概率分布并不相同，而且這種不同在采用后驗(yàn)概率修正方法后更加突出，所以本發(fā)明采用分音素門(mén)限策略，對(duì)不同的音素采用不同的門(mén)限。門(mén)限值由訓(xùn)練語(yǔ)音得到。3.發(fā)音評(píng)估確認(rèn)及診斷單元發(fā)音評(píng)估確認(rèn)及診斷單元的作用是對(duì)發(fā)音評(píng)估得到的結(jié)果進(jìn)行確認(rèn)并進(jìn)行發(fā)音錯(cuò)誤診斷。它對(duì)發(fā)音評(píng)估單元輸入的音素信息(包括初步評(píng)估結(jié)果)，利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)，采用基于區(qū)別性特征及分類器的方法，進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn)，并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息。1)區(qū)別性特征先驗(yàn)知識(shí)的利用對(duì)于特定的發(fā)音錯(cuò)誤類型，利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí)，可以將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi)，從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷。一方面，這種方法可以彌補(bǔ)后驗(yàn)概率特征對(duì)某些錯(cuò)誤評(píng)估性能不佳的缺陷，對(duì)后驗(yàn)概率評(píng)估結(jié)果進(jìn)行確認(rèn)，減少誤報(bào)。另一方面，聲學(xué)語(yǔ)音學(xué)區(qū)別性特征與發(fā)音機(jī)理密切相關(guān)，具有明顯的生理物理特性，可以給學(xué)習(xí)者提供更加細(xì)致和詳細(xì)的反饋，更有利于學(xué)習(xí)者對(duì)缺陷音的掌握。在這種方法中，首先根據(jù)先驗(yàn)知識(shí)，提取區(qū)別性特征。本發(fā)明使用的區(qū)別性特征如表2所示，表2是易混淆音素對(duì)的區(qū)分性特征先驗(yàn)知識(shí)。9元音(韻母)的區(qū)別性特征表現(xiàn)形式共振峰模式共振峰在頻率軸上排列的形式，稱為共振峰模式，不同的元音(韻母)，共振峰模式不同。a)第一共振峰Fl受舌位高低的影響大(舌位高F1就低，舌位低，F(xiàn)l就高)b)Fl還和開(kāi)口度有關(guān)，開(kāi)口大則Fl大c)第二共振峰F2受舌位前后的影響大(舌位前F2就高，舌位后F2就低)d)F2還與唇型的圓展有關(guān)，圓唇作用可以使F2降低。e)第三共振峰F3受舌尖活動(dòng)的影響，當(dāng)舌尖巻起發(fā)音時(shí)，F(xiàn)3的頻率降低。f)三條共振峰的軌跡和它們之間的相對(duì)位置對(duì)不同的韻母有明顯的區(qū)分度元音時(shí)長(zhǎng)a)長(zhǎng)元音的時(shí)長(zhǎng)經(jīng)常大于相應(yīng)短元音的時(shí)長(zhǎng)b)開(kāi)口元音的時(shí)長(zhǎng)一般大于閉口元音的時(shí)長(zhǎng)c)復(fù)合元音的時(shí)長(zhǎng)一般要大于單元音的時(shí)長(zhǎng)基音頻率基音頻率FO隨元音高低而變化，相對(duì)低元音，高元音具有相對(duì)高一些的FO輔音(聲母)混淆音素對(duì)區(qū)別性特征表現(xiàn)形式巻舌音一平舌音能量集中區(qū)平舌音和巻舌音，由于發(fā)音部位不同，造成發(fā)音時(shí)的共鳴腔的大小不同，不同大小的共鳴腔使得共鳴頻率不同，即能量得到加強(qiáng)的頻率位置不同，進(jìn)而造成能量集中區(qū)的不同。塞擦音一清擦音能量變化率塞擦音在發(fā)音過(guò)程中存在短爆破，這段很短的時(shí)間大約為IOms，能量的上升速度較其它音段更加迅速，頻域的頻率10<table>tableseeoriginaldocumentpage11</column></row><table>表2得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后，可以訓(xùn)練兩類分類器。每個(gè)音素建立一個(gè)，由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到。由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同，所以對(duì)不同音素，所用的區(qū)別性特征種類和維數(shù)不同。2)發(fā)音評(píng)估確認(rèn)和診斷利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)，構(gòu)建兩類分類器后，就可以對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn)。根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí)，系統(tǒng)預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表。從表中可以查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器，以進(jìn)行錯(cuò)誤檢測(cè)。錯(cuò)誤檢測(cè)的結(jié)果，一方面可以作為確認(rèn)信息，用以確認(rèn)初步評(píng)估結(jié)果是否正確，另一方面，可以根據(jù)該音素使用的區(qū)別性特征，得到更為細(xì)致的診斷信息。4.模型和先驗(yàn)知識(shí)庫(kù)單元模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成，用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型，以及先驗(yàn)知識(shí)庫(kù)。其中，模型包括音素的標(biāo)準(zhǔn)模型和分級(jí)打分模型。音素單元模型一般為HMM模型，用于音素對(duì)齊和計(jì)算后驗(yàn)概率。分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型，用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合，它為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí)，并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得，可以由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到，也可以直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。5.評(píng)估信息和診斷信息輸出單元評(píng)估信息和診斷信息輸出單元用于輸出發(fā)音評(píng)估的分?jǐn)?shù)(包括分級(jí)和打分結(jié)果)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型，并給出矯正的指導(dǎo)性建議。該單元的輸出形式具有多樣化特點(diǎn)，融合圖、表、文字和語(yǔ)音，具有良好的用戶界面。再次參照?qǐng)Dl，左邊的虛線框部分是模型和先驗(yàn)知識(shí)庫(kù)單元，由系統(tǒng)預(yù)先獲得。右邊是評(píng)估信息和診斷信息輸出單元，用以輸出系統(tǒng)最終結(jié)果。中間部分包含三個(gè)過(guò)程單元語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、發(fā)音評(píng)估確認(rèn)和診斷單元。各單元之間的交互流程如下系統(tǒng)首先對(duì)輸入的語(yǔ)音進(jìn)行預(yù)處理，通過(guò)端點(diǎn)檢測(cè)、特征提取，內(nèi)容確認(rèn)和音素對(duì)齊等過(guò)程，將學(xué)習(xí)者語(yǔ)音分割為音素級(jí)的小單元，輸入到發(fā)音評(píng)估單元。發(fā)音評(píng)估單元?jiǎng)t根據(jù)易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)來(lái)計(jì)算音素的修正后驗(yàn)概率。對(duì)于計(jì)算得到的后驗(yàn)概率值，一方面通過(guò)分級(jí)打分模型轉(zhuǎn)換為直觀的分?jǐn)?shù)或等級(jí)，另一方面和對(duì)應(yīng)的音素門(mén)限進(jìn)行比較。當(dāng)后驗(yàn)概率低于相應(yīng)門(mén)限時(shí)，初步判定該音素發(fā)音錯(cuò)誤。門(mén)限是根據(jù)所要求的系統(tǒng)性能預(yù)先設(shè)置好的。接著，初步被判定為錯(cuò)誤的音素信息被輸入到評(píng)估確認(rèn)和診斷單元做進(jìn)一步處理。首先根據(jù)音素的區(qū)別性特征先驗(yàn)知識(shí)，提取該音素對(duì)應(yīng)的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征，然后進(jìn)行分類，給出是否錯(cuò)誤、錯(cuò)誤位置和相應(yīng)矯正建議等信息。最后，發(fā)音評(píng)估單元輸出的分?jǐn)?shù)等級(jí)和發(fā)音評(píng)估確認(rèn)和診斷單元輸出的其它信息在右邊的輸出單元進(jìn)行融合后給出系統(tǒng)的最終結(jié)果。融合的原則是發(fā)音評(píng)估確認(rèn)和診斷單元輸出的信息對(duì)發(fā)音評(píng)估單元輸出信息起糾正作用，以減少系統(tǒng)對(duì)發(fā)音錯(cuò)誤的誤報(bào)率。以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。1權(quán)利要求一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，該系統(tǒng)包括語(yǔ)音預(yù)處理單元，用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理，以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn)，將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元，輸入到發(fā)音評(píng)估單元進(jìn)行判別；發(fā)音評(píng)估單元，用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估，利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估，計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí)；發(fā)音評(píng)估確認(rèn)和診斷單元，用于對(duì)發(fā)音評(píng)估單元輸入的初步評(píng)估結(jié)果，利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)，采用基于區(qū)別性特征及分類器的方法，進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn)，并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息；模型和先驗(yàn)知識(shí)庫(kù)單元，用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型，以及先驗(yàn)知識(shí)庫(kù)；以及評(píng)估信息和診斷信息輸出單元，用于輸出包括分級(jí)和打分結(jié)果的發(fā)音評(píng)估的分?jǐn)?shù)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型，并給出矯正的指導(dǎo)性建議。2.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述語(yǔ)音預(yù)處理單元包括端點(diǎn)檢測(cè)子單元，用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào)，確定語(yǔ)音的起點(diǎn)和終點(diǎn)；特征提取子單元，用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù)，并進(jìn)行特征的計(jì)算，提取出反映信號(hào)特征的關(guān)鍵特征參數(shù)；內(nèi)容確認(rèn)子單元，用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證，如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大，則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷；對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音，不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷，直接判斷為用戶發(fā)音錯(cuò)誤；音素對(duì)齊子單元，用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元，以便后續(xù)的處理。3.根據(jù)權(quán)利要求2所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述反映信號(hào)特征的關(guān)鍵特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)MFCC，包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征，以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。4.根據(jù)權(quán)利要求2所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述音素對(duì)齊子單元采用維特比Viterbi算法將輸入的有效語(yǔ)音分割成音素級(jí)的單元，實(shí)現(xiàn)音素的對(duì)齊。5.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述發(fā)音評(píng)估單元進(jìn)一步采用分音素門(mén)限策略，對(duì)不同的音素采用不同門(mén)限值，<低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤，輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。6.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述發(fā)音評(píng)估確認(rèn)和診斷單元在利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)時(shí)，對(duì)于特定的發(fā)音錯(cuò)誤類型，利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí)，將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi)，從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷，具體是先根據(jù)先驗(yàn)知識(shí)，提取區(qū)別性特征，得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后，訓(xùn)練兩類分類器，每個(gè)音素建立一個(gè)分類器，由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到，由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同，所以對(duì)不同音素，所用的區(qū)別性特征種類和維數(shù)不同。7.根據(jù)權(quán)利要求6所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述發(fā)音評(píng)估確認(rèn)和診斷單元利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)構(gòu)建兩類分類器后，對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn)；根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí)，預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表；從該表中查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器，以進(jìn)行錯(cuò)誤檢測(cè)；錯(cuò)誤檢測(cè)的結(jié)果，一方面可以作為確認(rèn)信息，用以確認(rèn)初步評(píng)估結(jié)果是否正確，另一方面，可以根據(jù)該音素使用的區(qū)別性特征，得到更為細(xì)致的診斷信息。8.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成，其中，模型包括音素標(biāo)準(zhǔn)模型和分級(jí)打分模型，先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合，為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí)，并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。9.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述音素標(biāo)準(zhǔn)模型為HMM模型，用于音素對(duì)齊和計(jì)算后驗(yàn)概率。10.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型，用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。11.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得，由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到，或者直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。12.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，其特征在于，所述評(píng)估信息和診斷信息輸出單元的輸出形式具有多樣化特點(diǎn)，融合圖、表、文字和語(yǔ)音，具有良好的用戶界面。全文摘要本發(fā)明公開(kāi)了一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)，包括語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、評(píng)估確認(rèn)和診斷單元、模型和先驗(yàn)知識(shí)庫(kù)單元和評(píng)估信息和診斷信息輸出單元。先驗(yàn)知識(shí)在本系統(tǒng)的兩個(gè)方面得到應(yīng)用首先，利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正，采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次，利用易混淆音素對(duì)的區(qū)分性特征先驗(yàn)知識(shí)，采用基于區(qū)分性特征及分類器的方法，確認(rèn)評(píng)估結(jié)果，獲得更好的評(píng)估性能，從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息，幫助學(xué)習(xí)者矯正和改善發(fā)音。本發(fā)明的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)能夠滿足普通話學(xué)習(xí)和測(cè)試中的高穩(wěn)定性、高準(zhǔn)確性要求，是一種創(chuàng)新且有效的方法。文檔編號(hào)G09B19/06GK101739869SQ20081022667公開(kāi)日2010年6月16日申請(qǐng)日期2008年11月19日優(yōu)先權(quán)日2008年11月19日發(fā)明者徐波,徐爽,江杰,浦劍濤,陳振標(biāo)申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐波;徐爽;江杰;陳振標(biāo);浦劍濤
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

先驗(yàn)知識(shí)相關(guān)技術(shù)

什么是先驗(yàn)知識(shí)相關(guān)技術(shù)

圖像的先驗(yàn)知識(shí)相關(guān)技術(shù)

圖像的先驗(yàn)知識(shí)是什么相關(guān)技術(shù)

圖像先驗(yàn)知識(shí)相關(guān)技術(shù)

圖像先驗(yàn)知識(shí)定義相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的制作方法