專利名稱::一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和語(yǔ)音處理
技術(shù)領(lǐng)域:
,特別是一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)。
背景技術(shù):
:我國(guó)傳統(tǒng)的普通話學(xué)習(xí)和測(cè)試方法,目前正面臨著普通話推廣的迫切需求與學(xué)習(xí)和測(cè)試條件不足的突出矛盾。普通話學(xué)習(xí)需要針對(duì)學(xué)生個(gè)別的問(wèn)題進(jìn)行糾正,需要長(zhǎng)時(shí)間的互動(dòng)式交流,這些條件以目前的師資是無(wú)法滿足的。同時(shí),口語(yǔ)考試是檢驗(yàn)學(xué)習(xí)成果的有效手段,但耗時(shí)耗力的人力組織,不可避免的公正性問(wèn)題以及很難提供反饋信息等因素已成為制約普通話口語(yǔ)考試發(fā)展的瓶頸。要解決以上問(wèn)題,計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和測(cè)試是個(gè)可行的方案。隨著計(jì)算機(jī)技術(shù)和語(yǔ)音識(shí)別技術(shù)的發(fā)展,計(jì)算機(jī)語(yǔ)言學(xué)習(xí)和測(cè)試系統(tǒng)已經(jīng)從最初的只能進(jìn)行聽(tīng)力、閱讀、書(shū)寫(xiě)等功能發(fā)展到對(duì)語(yǔ)言學(xué)習(xí)者的發(fā)音水平進(jìn)行自動(dòng)評(píng)分、指出發(fā)音錯(cuò)誤并根據(jù)發(fā)音錯(cuò)誤提供診斷信息,從而對(duì)學(xué)習(xí)者的發(fā)音水平進(jìn)行全方位測(cè)試并幫助學(xué)習(xí)者改進(jìn)發(fā)音,提高學(xué)習(xí)效率。因此,作為新一代計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)和測(cè)試系統(tǒng)的核心部分,自動(dòng)發(fā)音評(píng)估和診斷技術(shù)日益受到關(guān)注。目前的自動(dòng)發(fā)音評(píng)估和診斷技術(shù)是基于統(tǒng)計(jì)語(yǔ)音識(shí)別框架下的發(fā)音評(píng)估和檢錯(cuò)策略。它首先對(duì)輸入語(yǔ)音進(jìn)行音素分割,對(duì)分割得到的每一個(gè)音素,計(jì)算對(duì)數(shù)后驗(yàn)概率或其簡(jiǎn)化形式作為發(fā)音特征,進(jìn)行發(fā)音質(zhì)量評(píng)估,針對(duì)學(xué)習(xí)者的發(fā)音水平給出相應(yīng)的得分,并采用統(tǒng)一門(mén)限進(jìn)行錯(cuò)誤檢測(cè)。上述方法所面臨的問(wèn)題是首先,發(fā)音評(píng)估和診斷的準(zhǔn)確性不是很高,特別是對(duì)一些在實(shí)際發(fā)音中經(jīng)常犯錯(cuò)的、發(fā)音又很接近的易混淆音素對(duì)。其次,只能針對(duì)學(xué)習(xí)者的發(fā)音水平高低給出相應(yīng)的得分,無(wú)法給出更有指導(dǎo)意義的診斷信息。為解決以上問(wèn)題,本發(fā)明構(gòu)建一個(gè)基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),該系統(tǒng)不僅可以對(duì)學(xué)習(xí)者的發(fā)音給出分?jǐn)?shù),而且可以給出更為細(xì)致的診斷信息。
發(fā)明內(nèi)容(—)要解決的技術(shù)問(wèn)題有鑒于此,本發(fā)明的主要目的在于針對(duì)現(xiàn)有發(fā)音評(píng)估和診斷方法的缺點(diǎn),引入語(yǔ)言學(xué)和普通話教學(xué)中的先驗(yàn)專家知識(shí),提供一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),以提高語(yǔ)言學(xué)習(xí)和測(cè)試的效率和效果。(二)技術(shù)方案為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案如下—種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),該系統(tǒng)包括語(yǔ)音預(yù)處理單元,用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理,以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn),將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元,輸入到發(fā)音評(píng)估單元進(jìn)行判別;發(fā)音評(píng)估單元,用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估,利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估,計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí);發(fā)音評(píng)估確認(rèn)和診斷單元,用于對(duì)發(fā)音評(píng)估單元輸入的初步評(píng)估結(jié)果,利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí),采用基于區(qū)別性特征及分類器的方法,進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn),并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息;模型和先驗(yàn)知識(shí)庫(kù)單元,用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型,以及先驗(yàn)知識(shí)庫(kù);以及評(píng)估信息和診斷信息輸出單元,用于輸出包括分級(jí)和打分結(jié)果的發(fā)音評(píng)估的分?jǐn)?shù)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型,并給出矯正的指導(dǎo)性建議。上述方案中,所述語(yǔ)音預(yù)處理單元包括端點(diǎn)檢測(cè)子單元,用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào),確定語(yǔ)音的起點(diǎn)和終點(diǎn);特征提取子單元,用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù),并進(jìn)行特征的計(jì)算,提取出反映信號(hào)特征的關(guān)鍵特征參數(shù);內(nèi)容確認(rèn)子單元,用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷;對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音,不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷,直接判斷為用戶發(fā)音錯(cuò)誤;音素對(duì)齊子單元,用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元,以便后續(xù)的處理。上述方案中,所述反映信號(hào)特征的關(guān)鍵特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)MFCC,包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。上述方案中,所述音素對(duì)齊子單元采用維特比Viterbi算法將輸入的有效語(yǔ)音分割成音素級(jí)的單元,實(shí)現(xiàn)音素的對(duì)齊。上述方案中,所述發(fā)音評(píng)估單元進(jìn)一步采用分音素門(mén)限策略,對(duì)不同的音素采用不同門(mén)限值,低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤,輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。上述方案中,所述發(fā)音評(píng)估確認(rèn)和診斷單元在利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)時(shí),對(duì)于特定的發(fā)音錯(cuò)誤類型,利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí),將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi),從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷,具體是先根據(jù)先驗(yàn)知識(shí),提取區(qū)別性特征,得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后,訓(xùn)練兩類分類器,每個(gè)音素建立一個(gè)分類器,由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到,由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同,所以對(duì)不同音素,所用的區(qū)別性特征種類和維數(shù)不同。上述方案中,所述發(fā)音評(píng)估確認(rèn)和診斷單元利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)構(gòu)建兩類分類器后,對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn);根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí),預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表;從該表中查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器,以進(jìn)行錯(cuò)誤檢測(cè);錯(cuò)誤檢測(cè)的結(jié)果,一方面可以作為確認(rèn)信息,用以確認(rèn)初步評(píng)估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)5別性特征,得到更為細(xì)致的診斷信息。上述方案中,所述模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成,其中,模型包括音素標(biāo)準(zhǔn)模型和分級(jí)打分模型,先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合,為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí),并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。上述方案中,所述音素標(biāo)準(zhǔn)模型為HMM模型,用于音素對(duì)齊和計(jì)算后驗(yàn)概率。上述方案中,所述分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型,用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。上述方案中,所述先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得,由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到,或者直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。上述方案中,所述評(píng)估信息和診斷信息輸出單元的輸出形式具有多樣化特點(diǎn),融合圖、表、文字和語(yǔ)音,具有良好的用戶界面。(三)有益效果從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果本發(fā)明提供的這種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),對(duì)先驗(yàn)知識(shí)的利用比較靈活和充分。先驗(yàn)知識(shí)從兩個(gè)方面得到應(yīng)用首先利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次,利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí),采用基于區(qū)別性特征及分類器的方法,確認(rèn)評(píng)估結(jié)果,獲得更好的評(píng)估性能,從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息。這兩方面的應(yīng)用都可以根據(jù)實(shí)際情況添加或刪減先驗(yàn)知識(shí)的規(guī)則數(shù)目。由于先驗(yàn)知識(shí)的引入,本發(fā)明可以對(duì)常見(jiàn)的易混淆音素做出準(zhǔn)確判斷,不僅能夠針對(duì)發(fā)音水平高低給出相應(yīng)的分?jǐn)?shù),而且可以提供更有指導(dǎo)意義的診斷信息。此外,后驗(yàn)概率的分音素門(mén)限策略、基于區(qū)別性特征及分類器的方法、整個(gè)系統(tǒng)的合理流程都保證了高效、準(zhǔn)確的發(fā)音評(píng)估和診斷的進(jìn)行。圖1是本發(fā)明提供的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)的示意圖。具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。先驗(yàn)專家知識(shí)在本系統(tǒng)的兩個(gè)方面得到應(yīng)用首先,利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次,利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí),采用基于區(qū)別性特征及分類器的方法,確認(rèn)評(píng)估結(jié)果,獲得更好的評(píng)估性能,從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息,幫助學(xué)習(xí)者矯正和改善發(fā)音。本發(fā)明所提出的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),主要包括五個(gè)單元語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、發(fā)音評(píng)估確認(rèn)和診斷單元、模型和先驗(yàn)知識(shí)庫(kù)單元、評(píng)估信息和診斷信息輸出單元。具體如下1.語(yǔ)音預(yù)處理單元6語(yǔ)音預(yù)處理單元用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理,以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn),將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元,輸入到發(fā)音評(píng)估單元進(jìn)行判別。語(yǔ)音預(yù)處理單元主要包括以下四個(gè)子單元端點(diǎn)檢測(cè)子單元、特征提取子單元、內(nèi)容確認(rèn)子單元和音素對(duì)齊子單元,各子單元的功能具體如下端點(diǎn)檢測(cè)子單元用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào),確定語(yǔ)音的起點(diǎn)和終點(diǎn)。在實(shí)際環(huán)境中,背景噪聲對(duì)評(píng)估和診斷系統(tǒng)的影響非常大,在信噪比低的情況下,系統(tǒng)無(wú)法對(duì)輸入的語(yǔ)音進(jìn)行正確判斷。準(zhǔn)確地從背景噪聲中檢測(cè)出語(yǔ)音有效范圍的開(kāi)始和結(jié)束位置,刪除不含語(yǔ)音的背景噪聲,不僅可以提高系統(tǒng)性能,還可以減少處理的數(shù)據(jù)量,從而降低處理時(shí)間。特征提取子單元用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù),并進(jìn)行特征的計(jì)算,提取出反映信號(hào)特征的關(guān)鍵特征參數(shù),以降低維數(shù)并便于后續(xù)步驟的進(jìn)行。本系統(tǒng)中使用的特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)(MFCC),包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。內(nèi)容確認(rèn)子單元用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷;對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音,不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷,直接判斷為用戶發(fā)音錯(cuò)誤。音素對(duì)齊子單元用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元,以便后續(xù)的處理。本系統(tǒng)的音素對(duì)齊采用維特比(Viterbi)算法。2.發(fā)音評(píng)估單元發(fā)音評(píng)估單元用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估,利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估,計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí)。同時(shí),采用分音素門(mén)限策略,對(duì)不同的音素采用不同門(mén)限值,低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤,輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。1)基于修正后驗(yàn)概率的發(fā)音評(píng)估語(yǔ)言學(xué)家長(zhǎng)期研究表明,發(fā)音錯(cuò)誤或缺陷分為兩類一類是由于不認(rèn)識(shí)字或不熟悉發(fā)音規(guī)則而生成的,另一類是受母語(yǔ)或方言的影響而生成的。后者的規(guī)律性較強(qiáng),往往也是學(xué)習(xí)者常犯的典型發(fā)音錯(cuò)誤,應(yīng)該得到更充分的重視和反饋。這種發(fā)音錯(cuò)誤的規(guī)律性可以作為先驗(yàn)知識(shí),引入到發(fā)音評(píng)估及診斷系統(tǒng)中,在本發(fā)明中,它用于修正傳統(tǒng)的后驗(yàn)概率計(jì)算方法,以得到更好的發(fā)音評(píng)估性能。對(duì)音素qi,傳統(tǒng)的后驗(yàn)概率定義為<formula>formulaseeoriginaldocumentpage7</formula>其中,Pi是對(duì)應(yīng)的發(fā)音數(shù)據(jù)0i對(duì)音素Qi的后驗(yàn)概率,Prob(0iIqi)是音素qi的似然度,1音素qi的時(shí)長(zhǎng),Q是模型集合。—般,Q取所有音素或者當(dāng)Qi為聲母時(shí),Q取聲母集合,Qi為韻母時(shí),Q取韻母集合。引入發(fā)音錯(cuò)誤先驗(yàn)知識(shí),0i對(duì)音素Qi的后驗(yàn)概率改進(jìn)為<formula>formulaseeoriginaldocumentpage8</formula>其中,Qi是音素&常見(jiàn)發(fā)音錯(cuò)誤類型的模型集合。采用以上計(jì)算方法,本質(zhì)上是減少了后驗(yàn)概率計(jì)算過(guò)程中分母的計(jì)算空間,這不僅提高了后驗(yàn)概率的計(jì)算速度,而且由于排除了常見(jiàn)典型錯(cuò)誤外其它易混淆音素模型的影響,所以加強(qiáng)了常見(jiàn)典型錯(cuò)誤的檢測(cè)能力。對(duì)于發(fā)音錯(cuò)誤先驗(yàn)知識(shí)的獲取,一種方法是直接利用語(yǔ)言學(xué)家總結(jié)出的發(fā)音錯(cuò)誤基本類型,另一種方法是采用數(shù)據(jù)驅(qū)動(dòng)技術(shù),從大量語(yǔ)音數(shù)據(jù)中統(tǒng)計(jì)得到。本發(fā)明采用兩種方法結(jié)合的形式得到最終的發(fā)音錯(cuò)誤先驗(yàn)知識(shí),所使用的部分發(fā)音錯(cuò)誤先驗(yàn)知識(shí)如表1所示,表1是易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)。<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>表1上述是針對(duì)某一個(gè)音素計(jì)算的修正后驗(yàn)概率,采用映射的方法,可以把后驗(yàn)概率值映射到系統(tǒng)需要的分制上,保持與主觀測(cè)試的一致。映射方法可以采取線性方法和非線性方法,線性方法比較簡(jiǎn)單,而非線性方法更符合客觀實(shí)際。經(jīng)過(guò)映射后,系統(tǒng)得到學(xué)習(xí)者對(duì)該音素發(fā)音的分?jǐn)?shù),而針對(duì)學(xué)習(xí)者的整體評(píng)價(jià),可以將每個(gè)音素的后驗(yàn)概率值在詞匯上或整個(gè)語(yǔ)流上進(jìn)行規(guī)整,得到該詞匯或整個(gè)語(yǔ)流的后驗(yàn)概率后再進(jìn)行映射以得到整體評(píng)價(jià)。規(guī)整方法可以是簡(jiǎn)單的所有音素后驗(yàn)概率的平均或者加權(quán)平均。2)分音素門(mén)限策略上述評(píng)估方法可以得到對(duì)音素、詞匯和整個(gè)語(yǔ)流的發(fā)音評(píng)估分?jǐn)?shù),對(duì)于后驗(yàn)概率偏高的音素,發(fā)音評(píng)估分?jǐn)?shù)應(yīng)該比較高,而對(duì)于后驗(yàn)概率偏低的音素,發(fā)音評(píng)估分?jǐn)?shù)就比較低。對(duì)于發(fā)音分?jǐn)?shù)偏低的音素,我們需要在后驗(yàn)概率層次上設(shè)定門(mén)限,低于該門(mén)限的音素輸入到下一單元進(jìn)行處理,以提供更細(xì)致的發(fā)音診斷信息。傳統(tǒng)的門(mén)限方法采用統(tǒng)一門(mén)限進(jìn)行錯(cuò)誤檢測(cè),由于各音素模型的后驗(yàn)概率分布并不相同,而且這種不同在采用后驗(yàn)概率修正方法后更加突出,所以本發(fā)明采用分音素門(mén)限策略,對(duì)不同的音素采用不同的門(mén)限。門(mén)限值由訓(xùn)練語(yǔ)音得到。3.發(fā)音評(píng)估確認(rèn)及診斷單元發(fā)音評(píng)估確認(rèn)及診斷單元的作用是對(duì)發(fā)音評(píng)估得到的結(jié)果進(jìn)行確認(rèn)并進(jìn)行發(fā)音錯(cuò)誤診斷。它對(duì)發(fā)音評(píng)估單元輸入的音素信息(包括初步評(píng)估結(jié)果),利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí),采用基于區(qū)別性特征及分類器的方法,進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn),并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息。1)區(qū)別性特征先驗(yàn)知識(shí)的利用對(duì)于特定的發(fā)音錯(cuò)誤類型,利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí),可以將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi),從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷。一方面,這種方法可以彌補(bǔ)后驗(yàn)概率特征對(duì)某些錯(cuò)誤評(píng)估性能不佳的缺陷,對(duì)后驗(yàn)概率評(píng)估結(jié)果進(jìn)行確認(rèn),減少誤報(bào)。另一方面,聲學(xué)語(yǔ)音學(xué)區(qū)別性特征與發(fā)音機(jī)理密切相關(guān),具有明顯的生理物理特性,可以給學(xué)習(xí)者提供更加細(xì)致和詳細(xì)的反饋,更有利于學(xué)習(xí)者對(duì)缺陷音的掌握。在這種方法中,首先根據(jù)先驗(yàn)知識(shí),提取區(qū)別性特征。本發(fā)明使用的區(qū)別性特征如表2所示,表2是易混淆音素對(duì)的區(qū)分性特征先驗(yàn)知識(shí)。9元音(韻母)的區(qū)別性特征表現(xiàn)形式共振峰模式共振峰在頻率軸上排列的形式,稱為共振峰模式,不同的元音(韻母),共振峰模式不同。a)第一共振峰Fl受舌位高低的影響大(舌位高F1就低,舌位低,F(xiàn)l就高)b)Fl還和開(kāi)口度有關(guān),開(kāi)口大則Fl大c)第二共振峰F2受舌位前后的影響大(舌位前F2就高,舌位后F2就低)d)F2還與唇型的圓展有關(guān),圓唇作用可以使F2降低。e)第三共振峰F3受舌尖活動(dòng)的影響,當(dāng)舌尖巻起發(fā)音時(shí),F(xiàn)3的頻率降低。f)三條共振峰的軌跡和它們之間的相對(duì)位置對(duì)不同的韻母有明顯的區(qū)分度元音時(shí)長(zhǎng)a)長(zhǎng)元音的時(shí)長(zhǎng)經(jīng)常大于相應(yīng)短元音的時(shí)長(zhǎng)b)開(kāi)口元音的時(shí)長(zhǎng)一般大于閉口元音的時(shí)長(zhǎng)c)復(fù)合元音的時(shí)長(zhǎng)一般要大于單元音的時(shí)長(zhǎng)基音頻率基音頻率FO隨元音高低而變化,相對(duì)低元音,高元音具有相對(duì)高一些的FO輔音(聲母)混淆音素對(duì)區(qū)別性特征表現(xiàn)形式巻舌音一平舌音能量集中區(qū)平舌音和巻舌音,由于發(fā)音部位不同,造成發(fā)音時(shí)的共鳴腔的大小不同,不同大小的共鳴腔使得共鳴頻率不同,即能量得到加強(qiáng)的頻率位置不同,進(jìn)而造成能量集中區(qū)的不同。塞擦音一清擦音能量變化率塞擦音在發(fā)音過(guò)程中存在短爆破,這段很短的時(shí)間大約為IOms,能量的上升速度較其它音段更加迅速,頻域的頻率10<table>tableseeoriginaldocumentpage11</column></row><table>表2得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后,可以訓(xùn)練兩類分類器。每個(gè)音素建立一個(gè),由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到。由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同,所以對(duì)不同音素,所用的區(qū)別性特征種類和維數(shù)不同。2)發(fā)音評(píng)估確認(rèn)和診斷利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí),構(gòu)建兩類分類器后,就可以對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn)。根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí),系統(tǒng)預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表。從表中可以查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器,以進(jìn)行錯(cuò)誤檢測(cè)。錯(cuò)誤檢測(cè)的結(jié)果,一方面可以作為確認(rèn)信息,用以確認(rèn)初步評(píng)估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)別性特征,得到更為細(xì)致的診斷信息。4.模型和先驗(yàn)知識(shí)庫(kù)單元模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成,用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型,以及先驗(yàn)知識(shí)庫(kù)。其中,模型包括音素的標(biāo)準(zhǔn)模型和分級(jí)打分模型。音素單元模型一般為HMM模型,用于音素對(duì)齊和計(jì)算后驗(yàn)概率。分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型,用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合,它為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí),并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得,可以由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到,也可以直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。5.評(píng)估信息和診斷信息輸出單元評(píng)估信息和診斷信息輸出單元用于輸出發(fā)音評(píng)估的分?jǐn)?shù)(包括分級(jí)和打分結(jié)果)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型,并給出矯正的指導(dǎo)性建議。該單元的輸出形式具有多樣化特點(diǎn),融合圖、表、文字和語(yǔ)音,具有良好的用戶界面。再次參照?qǐng)Dl,左邊的虛線框部分是模型和先驗(yàn)知識(shí)庫(kù)單元,由系統(tǒng)預(yù)先獲得。右邊是評(píng)估信息和診斷信息輸出單元,用以輸出系統(tǒng)最終結(jié)果。中間部分包含三個(gè)過(guò)程單元語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、發(fā)音評(píng)估確認(rèn)和診斷單元。各單元之間的交互流程如下系統(tǒng)首先對(duì)輸入的語(yǔ)音進(jìn)行預(yù)處理,通過(guò)端點(diǎn)檢測(cè)、特征提取,內(nèi)容確認(rèn)和音素對(duì)齊等過(guò)程,將學(xué)習(xí)者語(yǔ)音分割為音素級(jí)的小單元,輸入到發(fā)音評(píng)估單元。發(fā)音評(píng)估單元?jiǎng)t根據(jù)易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)來(lái)計(jì)算音素的修正后驗(yàn)概率。對(duì)于計(jì)算得到的后驗(yàn)概率值,一方面通過(guò)分級(jí)打分模型轉(zhuǎn)換為直觀的分?jǐn)?shù)或等級(jí),另一方面和對(duì)應(yīng)的音素門(mén)限進(jìn)行比較。當(dāng)后驗(yàn)概率低于相應(yīng)門(mén)限時(shí),初步判定該音素發(fā)音錯(cuò)誤。門(mén)限是根據(jù)所要求的系統(tǒng)性能預(yù)先設(shè)置好的。接著,初步被判定為錯(cuò)誤的音素信息被輸入到評(píng)估確認(rèn)和診斷單元做進(jìn)一步處理。首先根據(jù)音素的區(qū)別性特征先驗(yàn)知識(shí),提取該音素對(duì)應(yīng)的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征,然后進(jìn)行分類,給出是否錯(cuò)誤、錯(cuò)誤位置和相應(yīng)矯正建議等信息。最后,發(fā)音評(píng)估單元輸出的分?jǐn)?shù)等級(jí)和發(fā)音評(píng)估確認(rèn)和診斷單元輸出的其它信息在右邊的輸出單元進(jìn)行融合后給出系統(tǒng)的最終結(jié)果。融合的原則是發(fā)音評(píng)估確認(rèn)和診斷單元輸出的信息對(duì)發(fā)音評(píng)估單元輸出信息起糾正作用,以減少系統(tǒng)對(duì)發(fā)音錯(cuò)誤的誤報(bào)率。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。1權(quán)利要求一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,該系統(tǒng)包括語(yǔ)音預(yù)處理單元,用于對(duì)學(xué)習(xí)者輸入的原始語(yǔ)音進(jìn)行預(yù)處理,以實(shí)現(xiàn)對(duì)語(yǔ)音基本內(nèi)容的確認(rèn),將內(nèi)容基本符合標(biāo)準(zhǔn)腳本的語(yǔ)音分割為音素級(jí)的小單元,輸入到發(fā)音評(píng)估單元進(jìn)行判別;發(fā)音評(píng)估單元,用于對(duì)輸入的語(yǔ)音進(jìn)行初步發(fā)音質(zhì)量評(píng)估,利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,基于修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估,計(jì)算出的后驗(yàn)概率通過(guò)映射模型可以轉(zhuǎn)換為直觀的衡量發(fā)音水平的分?jǐn)?shù)或等級(jí);發(fā)音評(píng)估確認(rèn)和診斷單元,用于對(duì)發(fā)音評(píng)估單元輸入的初步評(píng)估結(jié)果,利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí),采用基于區(qū)別性特征及分類器的方法,進(jìn)行發(fā)音評(píng)估結(jié)果的確認(rèn),并從聲學(xué)語(yǔ)音學(xué)角度提供發(fā)音診斷信息;模型和先驗(yàn)知識(shí)庫(kù)單元,用于保存音素對(duì)齊和計(jì)算后驗(yàn)概率的模型,以及先驗(yàn)知識(shí)庫(kù);以及評(píng)估信息和診斷信息輸出單元,用于輸出包括分級(jí)和打分結(jié)果的發(fā)音評(píng)估的分?jǐn)?shù)、發(fā)音錯(cuò)誤的定位信息、發(fā)音錯(cuò)誤類型,并給出矯正的指導(dǎo)性建議。2.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述語(yǔ)音預(yù)處理單元包括端點(diǎn)檢測(cè)子單元,用于從信號(hào)中區(qū)分出語(yǔ)音和非語(yǔ)音信號(hào),確定語(yǔ)音的起點(diǎn)和終點(diǎn);特征提取子單元,用于計(jì)算有效語(yǔ)音的聲學(xué)參數(shù),并進(jìn)行特征的計(jì)算,提取出反映信號(hào)特征的關(guān)鍵特征參數(shù);內(nèi)容確認(rèn)子單元,用于對(duì)輸入的語(yǔ)音進(jìn)行內(nèi)容方面的驗(yàn)證,如果輸入發(fā)音的內(nèi)容與給定文本內(nèi)容差異不大,則對(duì)語(yǔ)音進(jìn)行后續(xù)的發(fā)音評(píng)估和診斷;對(duì)于內(nèi)容和給定文本差異很大的語(yǔ)音,不再進(jìn)行后續(xù)發(fā)音評(píng)估和診斷,直接判斷為用戶發(fā)音錯(cuò)誤;音素對(duì)齊子單元,用于將輸入的有效語(yǔ)音分割成音素級(jí)的單元,以便后續(xù)的處理。3.根據(jù)權(quán)利要求2所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述反映信號(hào)特征的關(guān)鍵特征參數(shù)是反映人耳聽(tīng)覺(jué)特征的Mel頻率倒譜系數(shù)MFCC,包含由12維倒譜值加上1維能量值構(gòu)成的靜態(tài)特征,以及該靜態(tài)特征的一階動(dòng)態(tài)特征和二階動(dòng)態(tài)特征。4.根據(jù)權(quán)利要求2所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述音素對(duì)齊子單元采用維特比Viterbi算法將輸入的有效語(yǔ)音分割成音素級(jí)的單元,實(shí)現(xiàn)音素的對(duì)齊。5.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述發(fā)音評(píng)估單元進(jìn)一步采用分音素門(mén)限策略,對(duì)不同的音素采用不同門(mén)限值,<低于相應(yīng)門(mén)限的音素被初步判定為發(fā)音錯(cuò)誤,輸入到發(fā)音評(píng)估確認(rèn)和診斷單元進(jìn)行確認(rèn)和錯(cuò)誤診斷。6.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述發(fā)音評(píng)估確認(rèn)和診斷單元在利用易混淆音素對(duì)的區(qū)別性特征的先驗(yàn)知識(shí)時(shí),對(duì)于特定的發(fā)音錯(cuò)誤類型,利用聲學(xué)語(yǔ)音學(xué)方面的區(qū)別性特征的先驗(yàn)知識(shí),將正確發(fā)音和錯(cuò)誤發(fā)音區(qū)別開(kāi),從而進(jìn)行發(fā)音錯(cuò)誤檢測(cè)和診斷,具體是先根據(jù)先驗(yàn)知識(shí),提取區(qū)別性特征,得到聲學(xué)語(yǔ)音學(xué)區(qū)別性特征后,訓(xùn)練兩類分類器,每個(gè)音素建立一個(gè)分類器,由該音素的發(fā)音正確樣本和發(fā)音錯(cuò)誤樣本提取的聲學(xué)語(yǔ)音學(xué)區(qū)別性特征訓(xùn)練得到,由于不同特定發(fā)音錯(cuò)誤的區(qū)別性特征種類不同,所以對(duì)不同音素,所用的區(qū)別性特征種類和維數(shù)不同。7.根據(jù)權(quán)利要求6所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述發(fā)音評(píng)估確認(rèn)和診斷單元利用易混淆音素對(duì)的區(qū)別性特征先驗(yàn)知識(shí)構(gòu)建兩類分類器后,對(duì)發(fā)音評(píng)估單元輸出的初步評(píng)估結(jié)果進(jìn)行確認(rèn);根據(jù)發(fā)音錯(cuò)誤先驗(yàn)知識(shí)和區(qū)別性特征先驗(yàn)知識(shí),預(yù)先生成一個(gè)音素和區(qū)別性特征及分類器的對(duì)應(yīng)表;從該表中查到某個(gè)音素應(yīng)該對(duì)應(yīng)何種特征和分類器,以進(jìn)行錯(cuò)誤檢測(cè);錯(cuò)誤檢測(cè)的結(jié)果,一方面可以作為確認(rèn)信息,用以確認(rèn)初步評(píng)估結(jié)果是否正確,另一方面,可以根據(jù)該音素使用的區(qū)別性特征,得到更為細(xì)致的診斷信息。8.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述模型和先驗(yàn)知識(shí)庫(kù)單元由模型和先驗(yàn)知識(shí)庫(kù)組成,其中,模型包括音素標(biāo)準(zhǔn)模型和分級(jí)打分模型,先驗(yàn)知識(shí)庫(kù)是先驗(yàn)知識(shí)的集合,為發(fā)音評(píng)估單元和發(fā)音評(píng)估確認(rèn)和診斷單元提供前面所述的兩種先驗(yàn)知識(shí),并提供音素與先驗(yàn)知識(shí)相映射的對(duì)應(yīng)表。9.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述音素標(biāo)準(zhǔn)模型為HMM模型,用于音素對(duì)齊和計(jì)算后驗(yàn)概率。10.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述分級(jí)打分模型是由專家主觀分?jǐn)?shù)和客觀后驗(yàn)概率值得到的映射模型,用于把后驗(yàn)概率值轉(zhuǎn)換為衡量發(fā)音質(zhì)量的分值或等級(jí)。11.根據(jù)權(quán)利要求8所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述先驗(yàn)知識(shí)由系統(tǒng)預(yù)先獲得,由大量語(yǔ)音數(shù)據(jù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)技術(shù)得到,或者直接采用語(yǔ)音語(yǔ)言學(xué)家總結(jié)出的知識(shí)。12.根據(jù)權(quán)利要求1所述的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),其特征在于,所述評(píng)估信息和診斷信息輸出單元的輸出形式具有多樣化特點(diǎn),融合圖、表、文字和語(yǔ)音,具有良好的用戶界面。全文摘要本發(fā)明公開(kāi)了一種基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng),包括語(yǔ)音預(yù)處理單元、發(fā)音評(píng)估單元、評(píng)估確認(rèn)和診斷單元、模型和先驗(yàn)知識(shí)庫(kù)單元和評(píng)估信息和診斷信息輸出單元。先驗(yàn)知識(shí)在本系統(tǒng)的兩個(gè)方面得到應(yīng)用首先,利用易混淆音素對(duì)的發(fā)音錯(cuò)誤先驗(yàn)知識(shí)對(duì)傳統(tǒng)后驗(yàn)概率進(jìn)行修正,采用修正后的后驗(yàn)概率進(jìn)行發(fā)音評(píng)估。其次,利用易混淆音素對(duì)的區(qū)分性特征先驗(yàn)知識(shí),采用基于區(qū)分性特征及分類器的方法,確認(rèn)評(píng)估結(jié)果,獲得更好的評(píng)估性能,從更基礎(chǔ)、更細(xì)致的角度為學(xué)習(xí)者提供診斷信息,幫助學(xué)習(xí)者矯正和改善發(fā)音。本發(fā)明的基于先驗(yàn)知識(shí)的發(fā)音評(píng)估與診斷系統(tǒng)能夠滿足普通話學(xué)習(xí)和測(cè)試中的高穩(wěn)定性、高準(zhǔn)確性要求,是一種創(chuàng)新且有效的方法。文檔編號(hào)G09B19/06GK101739869SQ20081022667公開(kāi)日2010年6月16日申請(qǐng)日期2008年11月19日優(yōu)先權(quán)日2008年11月19日發(fā)明者徐波,徐爽,江杰,浦劍濤,陳振標(biāo)申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所