用于發(fā)音評(píng)估的方法和系統(tǒng)的制作方法

文檔序號(hào)：2825191閱讀：363來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：用于發(fā)音評(píng)估的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言教學(xué)領(lǐng)域，更具體地涉及用于發(fā)音評(píng)估的方法和系統(tǒng)。
背景技術(shù)：
語(yǔ)言是人類(lèi)交流的工具，在國(guó)際化程度越來(lái)越高的今日，掌握多門(mén)語(yǔ)言已經(jīng)被越來(lái)越多人所推崇。在這種背景條件下，利用計(jì)算機(jī)輔助口語(yǔ)學(xué)習(xí)的各種方式應(yīng)運(yùn)而生。專(zhuān)利98103685. 6公開(kāi)了一種利用音標(biāo)評(píng)估學(xué)習(xí)者發(fā)音好壞的方法。該方法根據(jù)專(zhuān)家知識(shí)指定一些常見(jiàn)的發(fā)音錯(cuò)誤模式，通過(guò)將說(shuō)話人的發(fā)音與標(biāo)準(zhǔn)模式對(duì)比而得到得分，可以獲得說(shuō)話人發(fā)音是否準(zhǔn)確的信息，從而對(duì)說(shuō)話人的發(fā)音質(zhì)量進(jìn)行評(píng)估。該方法的缺陷是，錯(cuò)誤模式需要預(yù)先設(shè)定，如果發(fā)音人的錯(cuò)誤不在預(yù)先設(shè)定的錯(cuò)誤模式之中，則很可能檢測(cè)不出發(fā)音錯(cuò)誤。專(zhuān)利02160031. 7公開(kāi)了一種自動(dòng)發(fā)音矯正的方法。該方法從發(fā)音、音高、音強(qiáng)、長(zhǎng)短四個(gè)方面衡量說(shuō)話人發(fā)音水平。該方法的缺陷是需要人工標(biāo)注每句話的發(fā)音音標(biāo)，需要花費(fèi)大量的人力勞動(dòng)。該方法采用音標(biāo)建立模型，并通過(guò)模型概率進(jìn)行發(fā)音質(zhì)量評(píng)分，需要對(duì)每個(gè)語(yǔ)種建立相應(yīng)的音標(biāo)模型，因此它不利于進(jìn)行多語(yǔ)言的擴(kuò)展，更難以支持在一句話中混入多語(yǔ)言的情況。專(zhuān)利200510107681. 2公開(kāi)了一種利用音素識(shí)別器評(píng)估語(yǔ)音的方法。由于該方法需要預(yù)先對(duì)各個(gè)音素進(jìn)行建模，因而同樣存在著無(wú)法支持多語(yǔ)言發(fā)音評(píng)估的問(wèn)題。同理，專(zhuān)利 200510114848. 8，專(zhuān)利 200710145859. 1，專(zhuān)利 200810102076. X，專(zhuān)利 200810107118. 9，專(zhuān)利 200810168514. 2，專(zhuān)利 200810141036. 6，專(zhuān)利 20081022675. 2，專(zhuān)利 200810240811. 3的本質(zhì)均是采用標(biāo)準(zhǔn)發(fā)音模型與被評(píng)測(cè)語(yǔ)音對(duì)比獲得得分，從而評(píng)估被測(cè)語(yǔ)音的發(fā)音水平，其不同點(diǎn)在于計(jì)算得分的算法上的差異。這種類(lèi)型的基于標(biāo)準(zhǔn)發(fā)音模型的方法，均難以進(jìn)行多語(yǔ)言擴(kuò)展，對(duì)未知語(yǔ)言的未知發(fā)音無(wú)法進(jìn)行準(zhǔn)確評(píng)估。然而，在日常生活中，人們口語(yǔ)中漢語(yǔ)與英語(yǔ)混用的情況越來(lái)越普遍，有時(shí)候甚至一句話里面混入兩種以上不同的語(yǔ)言。這就使得傳統(tǒng)的基于特定語(yǔ)言的標(biāo)準(zhǔn)模型的發(fā)音評(píng)估方法漸漸變得無(wú)所適從。所有基于音標(biāo)的方法，均無(wú)法描述語(yǔ)言的連讀現(xiàn)象。在進(jìn)行音標(biāo)標(biāo)注時(shí)，連讀和不連讀的音標(biāo)的標(biāo)注相同，因此它無(wú)法評(píng)估一些詞組(例如“a lot of”)是否被準(zhǔn)確連讀。所有基于音標(biāo)的方法，均無(wú)法準(zhǔn)確評(píng)判詞內(nèi)鼻音的準(zhǔn)確歸屬問(wèn)題。例如“any”的 /a-ηγ/^jk /an-γ/^jk /gm—ny/。綜上所述，需要一種新的發(fā)音評(píng)估方式，特別是在語(yǔ)言學(xué)習(xí)中的發(fā)音評(píng)估方式，以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。

發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)的問(wèn)題，本發(fā)明提供用于發(fā)音評(píng)估的方法和系統(tǒng)，能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。本發(fā)明提供了一種用于發(fā)音評(píng)估的方法，包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；根據(jù)所述實(shí)測(cè)聲音信號(hào)，生成實(shí)測(cè)音頻幀信號(hào)；將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息，所述標(biāo)準(zhǔn)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種；和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息，所述實(shí)測(cè)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種；其中，所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述比較包括利用動(dòng)態(tài)時(shí)間歸整(DTW)算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)應(yīng)而進(jìn)行比較。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊，每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀；在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊，每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀；其中，所述A和B為大于1的整數(shù)，所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度，獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度；其中，如果A興B，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格，或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較；更優(yōu)選地，如果A > 2B或B > 2A，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化的曲線，并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi)，以形成所述A個(gè)實(shí)測(cè)幀塊；和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化的曲線，并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi)，以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種，構(gòu)成實(shí)測(cè)音頻幀特征序列；通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種，構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列；其中，所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊，對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較；更優(yōu)選地，所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)(SVM)、多層感知機(jī)(MLP) 中的至少一種方式進(jìn)行。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí)，確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確；否則，確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分；或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。優(yōu)選地，在本發(fā)明的各實(shí)施例中，進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分；和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分，相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。本發(fā)明提供了一種用于發(fā)音評(píng)估的系統(tǒng)，包括聲音接收裝置，用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；音頻幀生成裝置，用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào)；評(píng)估裝置，用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng)，能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，以下將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，以下描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員而言，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖所示實(shí)施例得到其它的實(shí)施例及其附圖。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。圖2是根據(jù)本發(fā)明的另一實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。
具體實(shí)施例方式以下將結(jié)合附圖對(duì)本發(fā)明各實(shí)施例的技術(shù)方案進(jìn)行清楚、完整的描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施例，都屬于本發(fā)明所保護(hù)的范圍。本發(fā)明提供一種用于發(fā)音評(píng)估的方法，包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；根據(jù)所述實(shí)測(cè)聲音信號(hào)，生成實(shí)測(cè)音頻幀信號(hào)；
將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。能夠想到的是，標(biāo)準(zhǔn)音頻幀信號(hào)可以從數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)信息中獲得；也可以實(shí)時(shí)地獲得，例如，基于教師的發(fā)音形成標(biāo)準(zhǔn)音頻幀信號(hào)，而基于學(xué)生的發(fā)音形成與其比較的實(shí)測(cè)音頻幀信號(hào)。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng)，利用實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的音頻幀的聲學(xué)比較，以簡(jiǎn)單的方式準(zhǔn)確有效地評(píng)估實(shí)測(cè)聲音信號(hào)的發(fā)音質(zhì)量，例如，實(shí)測(cè)聲音信號(hào)是否準(zhǔn)確(準(zhǔn)確度達(dá)到預(yù)定值)，而且，由于這種聲學(xué)評(píng)估方式與文本無(wú)關(guān)，因而可容易地應(yīng)用于對(duì)單語(yǔ)種和多語(yǔ)種(即，多語(yǔ)種混雜)的實(shí)測(cè)聲音信號(hào)的評(píng)估，例如，對(duì)中英文混雜的實(shí)測(cè)聲音信號(hào)的評(píng)估。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息；和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息；其中，所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。在本發(fā)明的各實(shí)施例中，優(yōu)選地，可利用各種音頻特征信息用于所述比較，例如，所述標(biāo)準(zhǔn)音頻特征信息和實(shí)測(cè)音頻特征信息可為以下頻譜特征信息中的至少一種(即，可利用以下類(lèi)型的單個(gè)音頻特征信息或者多個(gè)音頻特征信息的組合梅爾頻率倒譜系數(shù)(MFCC,Mel Frequency Cepstrum Coefficient),聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP, Perceptual Linear Prediction)，線譜頻率參數(shù)(LSF,Line Spectral Frequency)，線性預(yù)測(cè)系數(shù)(LPC,Linear Predictive Coefficient)，線性預(yù)測(cè)倒譜系數(shù)(LPCC,Linear Prediction Cepstral Coefficient)，時(shí)序模板(TRAP，TempoRAl Patterns)。更優(yōu)選地，可采用PLP或TRAP作為音頻特征信息用于所述比較。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述比較包括利用動(dòng)態(tài)時(shí)間規(guī)整(DTW，Dynamic time warping)算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)齊(其中的幀塊一一對(duì)應(yīng))而進(jìn)行比較。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊，每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀；在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊，每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀；其中，所述A和B為大于1的整數(shù)，所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度，獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度；其中，如果A興B，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格，或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較；優(yōu)選地，如果A > 2B或B > 2A，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。也就是說(shuō)，如果A = B，則可直接進(jìn)行所述比較；否則，可直接確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格，或者可替代地也可以利用DTW算法將A個(gè)實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較以確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量是否合格。優(yōu)選地，在一個(gè)實(shí)施例中，如果A > 2B或8 > 2A，則可認(rèn)為所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的差別過(guò)大或不相同，即，相似度過(guò)低或不相似，因而可直接確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。為了實(shí)現(xiàn)在此所述的強(qiáng)制劃分，首先必須形成B個(gè)標(biāo)準(zhǔn)幀塊，在知曉B值的情況下，進(jìn)行所述強(qiáng)制劃分而得到B個(gè)實(shí)測(cè)幀塊。其方法是利用DTW算法將實(shí)測(cè)幀特征與標(biāo)準(zhǔn)幀特征對(duì)齊以獲得二者之間的幀和幀的對(duì)應(yīng)關(guān)系，然后可再通過(guò)B個(gè)標(biāo)準(zhǔn)幀塊的邊界確定 B個(gè)實(shí)測(cè)幀塊的邊界。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化曲線，并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi)，以形成所述A個(gè)實(shí)測(cè)幀塊；和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化曲線，并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi)，以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)(MFCC)、聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP)、線譜頻率參數(shù)(LSF)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、時(shí)序模板(TRAP)中的至少一種，構(gòu)成實(shí)測(cè)音頻幀特征序列；通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)(MFCC)、聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP)、線譜頻率參數(shù)(LSF)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、時(shí)序模板(TRAP)中的至少一種，構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列；其中，所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊，對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較；優(yōu)選地，所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)(SVM)、多層感知機(jī)(MLP)中的至少一種方式進(jìn)行。在需要時(shí)，也可利用高斯混合模型(GMM)進(jìn)行相似度比較。通過(guò)DTW算法，將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊，從而使得原先可能難以比較的兩個(gè)不等長(zhǎng)的序列中的元素?fù)碛幸灰粚?duì)應(yīng)關(guān)系。將擁有一一對(duì)應(yīng)關(guān)系的每組特征對(duì)(即，相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征)送入相似度比較器進(jìn)行相似度比較。在一個(gè)實(shí)施例中，相似度比較器可以用相關(guān)系數(shù)實(shí)現(xiàn)，采用相關(guān)系數(shù)比較實(shí)測(cè)音頻幀信號(hào)和標(biāo)準(zhǔn)音頻幀信號(hào)的相似度，即
N__Yj(Xi-X)(Yi-Y)KX, Y) = CORiX, Y)=卜_ N _
WiXi-Xf Yj(Yi-Y)2
V i=0i=Q若f(X，Y)彡threshold則認(rèn)為X和Y相同或具有充分相似度，否則認(rèn)為X和Y不同或不相似。在一個(gè)實(shí)施例中，為了比較實(shí)測(cè)音頻幀信號(hào)和標(biāo)準(zhǔn)音頻幀信號(hào)的相似度，可采用以下分類(lèi)器中的至少一種，以最終獲得聲音信號(hào)質(zhì)量得分支持向量機(jī)(SVM, support vector machine),多層感知機(jī)(MLP，multi layer perceptron),
高斯混合模型(GMM,Gaussian Mixture Model)。在一個(gè)實(shí)施例中，采用SVM，S卩，f(X，Y) = SVM([X ；Y]) e [_1，+1]，其中，[Χ ;Y]表示把兩個(gè)列向量X和Y拼接成一個(gè)列向量送入SVM分類(lèi)器。若f(X，Y)彡0，則認(rèn)為X和Y 相同或具有充分相似度，否則認(rèn)為X和Y不同或不相似。在優(yōu)選實(shí)施例中，采用MLP，S卩，f(X，Y) =MLP ([X ；Y]) e
，其中，[X J]表示把兩個(gè)列向量X和Y拼接成一個(gè)列向量送入MLP分類(lèi)器。若f(X，Y)彡threshold，則認(rèn)為 X和Y相同或具有充分相似度，否則認(rèn)為X和Y不同或不相似。在另一實(shí)施例中，采用GMM，SP，KX, Y) = pMMx (Y)GMMr (X),其中，GMMx 表示
由X估計(jì)得到的GMM模型，GMMx(Y)表示Y在X的概率模型中的概率得分，GMMy表示由Y估計(jì)得到的GMM模型，GMMy(X)表示X在Y的概率模型中的概率得分。若f (X，Y)彡threshold 則認(rèn)為X和Y相同或具有充分相似度，否則認(rèn)為X和Y不同或不相似。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí)，確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確；否則，確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分；或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。這樣，可利用實(shí)測(cè)音頻幀塊中所含有的準(zhǔn)確(或不準(zhǔn)確的)幀占總幀數(shù)量的比例獲得每個(gè)幀塊以及實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。也可以利用各個(gè)實(shí)測(cè)音頻幀塊的質(zhì)量平均得分作為實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分；和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分，相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。在一個(gè)實(shí)施例中，根據(jù)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分，可獲得發(fā)音不準(zhǔn)確的位置(例如發(fā)音不準(zhǔn)確的幀塊位置)，并可將其記錄下來(lái)。在一個(gè)實(shí)施例中，針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分，可相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分，從而可根據(jù)需要對(duì)特定的音節(jié)、單詞、或詞組進(jìn)行語(yǔ)音比對(duì)，以及時(shí)糾正錯(cuò)誤發(fā)音，例如可用于語(yǔ)言教學(xué)，這在著重糾正個(gè)人語(yǔ)音錯(cuò)誤的情況下特別有用。優(yōu)選地，在本發(fā)明的各實(shí)施例中，所述的方法進(jìn)一步包括根據(jù)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分的比例，確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。在一個(gè)實(shí)施例中，通過(guò)計(jì)算發(fā)音不準(zhǔn)確的音節(jié)個(gè)數(shù)或單詞個(gè)數(shù)或詞組個(gè)數(shù)所占的比例，獲得聲音信號(hào)質(zhì)量得分。在一個(gè)實(shí)施例中，在基于所述實(shí)測(cè)音頻幀信號(hào)而形成的A個(gè)實(shí)測(cè)幀塊中，通過(guò)計(jì)算A個(gè)實(shí)測(cè)幀塊中準(zhǔn)確/不準(zhǔn)確的塊數(shù)計(jì)算質(zhì)量得分。在一個(gè)實(shí)施例中，先按幀轉(zhuǎn)成音頻特征，再以DTW比較對(duì)齊，從而獲得實(shí)測(cè)音幀與標(biāo)準(zhǔn)音幀之間的對(duì)應(yīng)關(guān)系，將每一組對(duì)應(yīng)的音頻幀信號(hào)(一幀標(biāo)準(zhǔn)音和對(duì)應(yīng)的一幀實(shí)測(cè)音合并在一起)送入神經(jīng)網(wǎng)絡(luò)中進(jìn)行對(duì)比獲得輸出結(jié)果，或者直接計(jì)算相關(guān)系數(shù)而獲得相似度。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。在步驟101-103，將獲取的實(shí)測(cè)音頻幀信號(hào)分幀而形成A個(gè)幀塊(其中每個(gè)幀塊中可包括多個(gè)幀)，并可從中提取實(shí)測(cè)音頻特征信息(例如MFCC)。在步驟104-106，將獲取的標(biāo)準(zhǔn)音頻幀信號(hào)分幀而形成B個(gè)幀塊(其中每個(gè)幀塊中可包括多個(gè)幀)，并可從中提取標(biāo)準(zhǔn)音頻特征信息(例如MFCC)。其中，所述A和B為大于1的整數(shù)，如果A = B(在圖1所示實(shí)施例中)，則繼續(xù)進(jìn)行后續(xù)步驟，否則認(rèn)為實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)不同或不相似而認(rèn)為發(fā)音質(zhì)量不合格，當(dāng)然也可利用前述的強(qiáng)制劃分方式形成B個(gè)實(shí)測(cè)幀塊(強(qiáng)制使得新的A = B)以與B個(gè)標(biāo)準(zhǔn)幀塊進(jìn)行DTW對(duì)齊比較。而且，步驟101-103與步驟104-106可同時(shí)進(jìn)行，也可不同時(shí)進(jìn)行；不過(guò)，在采用前述強(qiáng)制劃分方式時(shí)，步驟104-106必須先于步驟101-103執(zhí)行。以下將通過(guò)比較實(shí)測(cè)幀塊與標(biāo)準(zhǔn)幀塊的相似度，獲得實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的相似度。在步驟107，使實(shí)測(cè)音頻幀與標(biāo)準(zhǔn)音頻幀對(duì)齊。在步驟108，使實(shí)測(cè)音頻幀信號(hào)的實(shí)測(cè)幀塊與標(biāo)準(zhǔn)音頻幀信號(hào)的標(biāo)準(zhǔn)幀塊對(duì)齊。在上述對(duì)齊狀態(tài)下，可獲得實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的幀塊相似度，由此獲得實(shí)測(cè)幀塊的得分。在步驟109，確定實(shí)測(cè)音頻幀信號(hào)的實(shí)測(cè)幀塊的得分。在步驟110，確定實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。在步驟201，將標(biāo)準(zhǔn)聲音信號(hào)轉(zhuǎn)換成16k、16位(BIT)的脈沖編碼調(diào)制(PCM)格式的標(biāo)準(zhǔn)音頻幀信號(hào)。當(dāng)然，在其它實(shí)施例中，相應(yīng)的標(biāo)準(zhǔn)音頻幀信號(hào)可以是已預(yù)先完成的 (例如存儲(chǔ)在數(shù)據(jù)庫(kù)中供調(diào)用)，則不必執(zhí)行該轉(zhuǎn)換步驟。在步驟202，標(biāo)準(zhǔn)聲音信號(hào)可被分成25毫秒(ms)的音頻幀(窗)，相鄰窗之間的距離可為10毫秒(ms)。當(dāng)然，在其它實(shí)施例中，也可以采取不同的窗(例如為20ms)和/ 或相鄰窗之間的距離(例如為5ms)。聲音信號(hào)是連續(xù)的“波形信號(hào)”，可以按照幀長(zhǎng)20毫秒、幀移10毫秒將波形信號(hào)分幀處理獲得所述“音頻幀信號(hào)”，則100毫秒的語(yǔ)音將變成9 幀音頻幀信號(hào)，1000毫秒的語(yǔ)音將變成99幀音頻幀信號(hào)。將語(yǔ)音按照能量低谷劃分，又可以劃分為若干個(gè)“幀塊”，比如一句話5秒鐘，可被分為499幀，但是里面只有5個(gè)音節(jié)，于是被分割為5個(gè)幀塊。在步驟203，每個(gè)音頻幀的波形信號(hào)被高頻提升后轉(zhuǎn)換成快速傅立葉變換(FFT) 譜，將FFT譜按照梅爾(MEL)而等距離地分成24個(gè)子帶并分別提取子帶能量(當(dāng)然也可分為其它數(shù)量的子帶，例如36個(gè))，將子帶能量單位轉(zhuǎn)換為分貝，再作離散余弦變換(DCT)，獲得MEL頻率倒譜系數(shù)(MFCC)特征。在另一實(shí)施例中，也可采取其它方式提取聲學(xué)特征(例如MFCC)；而在又一實(shí)施例中，也可提取不同于MFCC的其它聲學(xué)特征作為比較參數(shù)。
在步驟204-206，實(shí)測(cè)聲音信號(hào)的處理方法與標(biāo)準(zhǔn)聲音信號(hào)在201-203的處理方法相似，最后獲得實(shí)測(cè)聲音信號(hào)的MFCC特征。其中，步驟201-203與步驟204-206可同時(shí)進(jìn)行，也可不同時(shí)進(jìn)行。在步驟207，利用動(dòng)態(tài)時(shí)間歸整(DTW)算法將實(shí)測(cè)音頻幀和標(biāo)準(zhǔn)音頻幀對(duì)齊，獲得實(shí)測(cè)音頻幀每一幀與標(biāo)準(zhǔn)音頻幀每一幀的對(duì)應(yīng)關(guān)系。在步驟208，提取實(shí)測(cè)聲音信號(hào)的能量曲線，在能量的低谷處把實(shí)測(cè)聲音信號(hào)音分割成若干段(語(yǔ)音學(xué)上稱(chēng)為音節(jié))。在步驟209，將實(shí)測(cè)聲音信號(hào)的幀塊內(nèi)若干幀的MFCC拼接成實(shí)數(shù)序列，將其對(duì)應(yīng)的標(biāo)準(zhǔn)聲音信號(hào)的MFCC也拼成實(shí)數(shù)序列，求兩個(gè)序列的相關(guān)系數(shù)和/或神經(jīng)網(wǎng)絡(luò)評(píng)分輸
出ο在步驟210，當(dāng)相關(guān)系數(shù)低于預(yù)定門(mén)限時(shí)，認(rèn)為實(shí)測(cè)聲音信號(hào)發(fā)音不準(zhǔn)確，轉(zhuǎn)到步驟211 ；否則，認(rèn)為實(shí)測(cè)聲音信號(hào)發(fā)音準(zhǔn)確，轉(zhuǎn)到步驟212。在步驟213，統(tǒng)計(jì)在步驟212中被認(rèn)為發(fā)音準(zhǔn)確的實(shí)測(cè)幀塊的數(shù)量，計(jì)算發(fā)音準(zhǔn)確的幀塊在實(shí)測(cè)幀塊總量中所占的比例。在步驟214，根據(jù)發(fā)音準(zhǔn)確的幀塊在實(shí)測(cè)幀塊總量中所占的比例，將發(fā)音準(zhǔn)確比例轉(zhuǎn)化為分?jǐn)?shù)，并可反饋給使用者。在一個(gè)實(shí)施例中，大于90%為滿分；小于50%為零分；在 50% -90%之間的按照線性插值求分?jǐn)?shù)。本發(fā)明還提供一種用于發(fā)音評(píng)估的系統(tǒng)，包括聲音接收裝置，用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；音頻幀生成裝置，用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào)；評(píng)估裝置，用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。通過(guò)本發(fā)明的實(shí)施例的技術(shù)方案，克服現(xiàn)有發(fā)音評(píng)估方法的缺陷，從聲學(xué)上評(píng)估實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的相似度以確定發(fā)音質(zhì)量。它形式簡(jiǎn)潔，操作簡(jiǎn)單，可以實(shí)現(xiàn)語(yǔ)種無(wú)關(guān)的發(fā)音質(zhì)量評(píng)估，因此具有更好的通用性和易用性。本發(fā)明提供的各種實(shí)施例可根據(jù)需要以任意方式相互組合，通過(guò)這種組合得到的技術(shù)方案，也在本發(fā)明的范圍內(nèi)。顯然，本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣，倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種用于發(fā)音評(píng)估的方法，其特征在于，包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；根據(jù)所述實(shí)測(cè)聲音信號(hào)，生成實(shí)測(cè)音頻幀信號(hào)；將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。
2.如權(quán)利要求1所述的方法，其特征在于，進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息，所述標(biāo)準(zhǔn)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種；和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息，所述實(shí)測(cè)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種；其中，所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。
3.如權(quán)利要求1或2所述的方法，其特征在于，所述比較包括利用動(dòng)態(tài)時(shí)間歸整DTW算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)應(yīng)而進(jìn)行比較。
4.如權(quán)利要求1至3之一所述的方法，其特征在于，進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊，每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀；在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊，每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀；其中，所述A和B為大于1的整數(shù)，所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度，獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度；其中，如果A興B，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格，或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較；優(yōu)選地，如果A > 2B或8 > 2A，則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。
5.如權(quán)利要求1至4之一所述的方法，其特征在于，進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化的曲線，并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi)，以形成所述A個(gè)實(shí)測(cè)幀塊；和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化的曲線，并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi)，以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。
6.如權(quán)利要求1至5之一所述的方法，其特征在于，進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種，構(gòu)成實(shí)測(cè)音頻幀特征序列；通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種，構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列；其中，所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊，對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較；優(yōu)選地，所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)SVM、多層感知機(jī)MLP中的至少一種方式進(jìn)行。
7.如權(quán)利要求1至6之一所述的方法，其特征在于，所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí)，確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確；否則，確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。
8.如權(quán)利要求1至7之一所述的方法，其特征在于，進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分；或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分，獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。
9.如權(quán)利要求1至8之一所述的方法，其特征在于，進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分；和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分，相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。
10.一種用于發(fā)音評(píng)估的系統(tǒng)，其特征在于，包括聲音接收裝置，用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；音頻幀生成裝置，用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào)；評(píng)估裝置，用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。
全文摘要
本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言教學(xué)領(lǐng)域，提供一種用于發(fā)音評(píng)估的方法，其包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào)；根據(jù)所述實(shí)測(cè)聲音信號(hào)，生成實(shí)測(cè)音頻幀信號(hào)；將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較，對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。本發(fā)明還提供一種用于發(fā)音評(píng)估的系統(tǒng)。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng)，能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。
文檔編號(hào)G10L11/00GK102214462SQ20111015276
公開(kāi)日2011年10月12日申請(qǐng)日期2011年6月8日優(yōu)先權(quán)日2011年6月8日
發(fā)明者王鷹, 趙璇, 黃玩惠申請(qǐng)人:北京愛(ài)說(shuō)吧科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙璇;王鷹;黃玩惠
技術(shù)所有人：北京愛(ài)說(shuō)吧科技有限公司
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

系統(tǒng)評(píng)估方法相關(guān)技術(shù)

成本法主要適用于評(píng)估相關(guān)技術(shù)

適用于資產(chǎn)評(píng)估的假設(shè)相關(guān)技術(shù)

成本法適用于評(píng)估的是相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于發(fā)音評(píng)估的方法和系統(tǒng)的制作方法