亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于發(fā)音評(píng)估的方法和系統(tǒng)的制作方法

文檔序號(hào):2825191閱讀:363來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于發(fā)音評(píng)估的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言教學(xué)領(lǐng)域,更具體地涉及用于發(fā)音評(píng)估的方法和系統(tǒng)。
背景技術(shù)
語(yǔ)言是人類(lèi)交流的工具,在國(guó)際化程度越來(lái)越高的今日,掌握多門(mén)語(yǔ)言已經(jīng)被越來(lái)越多人所推崇。在這種背景條件下,利用計(jì)算機(jī)輔助口語(yǔ)學(xué)習(xí)的各種方式應(yīng)運(yùn)而生。專(zhuān)利98103685. 6公開(kāi)了一種利用音標(biāo)評(píng)估學(xué)習(xí)者發(fā)音好壞的方法。該方法根據(jù)專(zhuān)家知識(shí)指定一些常見(jiàn)的發(fā)音錯(cuò)誤模式,通過(guò)將說(shuō)話人的發(fā)音與標(biāo)準(zhǔn)模式對(duì)比而得到得分,可以獲得說(shuō)話人發(fā)音是否準(zhǔn)確的信息,從而對(duì)說(shuō)話人的發(fā)音質(zhì)量進(jìn)行評(píng)估。該方法的缺陷是,錯(cuò)誤模式需要預(yù)先設(shè)定,如果發(fā)音人的錯(cuò)誤不在預(yù)先設(shè)定的錯(cuò)誤模式之中,則很可能檢測(cè)不出發(fā)音錯(cuò)誤。專(zhuān)利02160031. 7公開(kāi)了一種自動(dòng)發(fā)音矯正的方法。該方法從發(fā)音、音高、音強(qiáng)、長(zhǎng)短四個(gè)方面衡量說(shuō)話人發(fā)音水平。該方法的缺陷是需要人工標(biāo)注每句話的發(fā)音音標(biāo),需要花費(fèi)大量的人力勞動(dòng)。該方法采用音標(biāo)建立模型,并通過(guò)模型概率進(jìn)行發(fā)音質(zhì)量評(píng)分,需要對(duì)每個(gè)語(yǔ)種建立相應(yīng)的音標(biāo)模型,因此它不利于進(jìn)行多語(yǔ)言的擴(kuò)展,更難以支持在一句話中混入多語(yǔ)言的情況。專(zhuān)利200510107681. 2公開(kāi)了一種利用音素識(shí)別器評(píng)估語(yǔ)音的方法。由于該方法需要預(yù)先對(duì)各個(gè)音素進(jìn)行建模,因而同樣存在著無(wú)法支持多語(yǔ)言發(fā)音評(píng)估的問(wèn)題。同理,專(zhuān)利 200510114848. 8,專(zhuān)利 200710145859. 1,專(zhuān)利 200810102076. X,專(zhuān)利 200810107118. 9,專(zhuān)利 200810168514. 2,專(zhuān)利 200810141036. 6,專(zhuān)利 20081022675. 2,專(zhuān)利 200810240811. 3的本質(zhì)均是采用標(biāo)準(zhǔn)發(fā)音模型與被評(píng)測(cè)語(yǔ)音對(duì)比獲得得分,從而評(píng)估被測(cè)語(yǔ)音的發(fā)音水平,其不同點(diǎn)在于計(jì)算得分的算法上的差異。這種類(lèi)型的基于標(biāo)準(zhǔn)發(fā)音模型的方法,均難以進(jìn)行多語(yǔ)言擴(kuò)展,對(duì)未知語(yǔ)言的未知發(fā)音無(wú)法進(jìn)行準(zhǔn)確評(píng)估。然而,在日常生活中,人們口語(yǔ)中漢語(yǔ)與英語(yǔ)混用的情況越來(lái)越普遍,有時(shí)候甚至一句話里面混入兩種以上不同的語(yǔ)言。這就使得傳統(tǒng)的基于特定語(yǔ)言的標(biāo)準(zhǔn)模型的發(fā)音評(píng)估方法漸漸變得無(wú)所適從。所有基于音標(biāo)的方法,均無(wú)法描述語(yǔ)言的連讀現(xiàn)象。在進(jìn)行音標(biāo)標(biāo)注時(shí),連讀和不連讀的音標(biāo)的標(biāo)注相同,因此它無(wú)法評(píng)估一些詞組(例如“a lot of”)是否被準(zhǔn)確連讀。所有基于音標(biāo)的方法,均無(wú)法準(zhǔn)確評(píng)判詞內(nèi)鼻音的準(zhǔn)確歸屬問(wèn)題。例如“any”的 /a-ηγ/^jk /an-γ/^jk /gm—ny/。綜上所述,需要一種新的發(fā)音評(píng)估方式,特別是在語(yǔ)言學(xué)習(xí)中的發(fā)音評(píng)估方式,以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。

發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明提供用于發(fā)音評(píng)估的方法和系統(tǒng),能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。本發(fā)明提供了一種用于發(fā)音評(píng)估的方法,包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);根據(jù)所述實(shí)測(cè)聲音信號(hào),生成實(shí)測(cè)音頻幀信號(hào);將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息,所述標(biāo)準(zhǔn)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、 時(shí)序模板中的至少一種;和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息,所述實(shí)測(cè)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、 時(shí)序模板中的至少一種;其中,所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述比較包括利用動(dòng)態(tài)時(shí)間歸整(DTW)算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)應(yīng)而進(jìn)行比較。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊,每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀;在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊,每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀;其中,所述A和B為大于1的整數(shù),所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度,獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度;其中,如果A興B,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格,或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較;更優(yōu)選地,如果A > 2B或B > 2A,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化的曲線,并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi),以形成所述A個(gè)實(shí)測(cè)幀塊;和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化的曲線,并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi),以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種,構(gòu)成實(shí)測(cè)音頻幀特征序列;通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種,構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列;其中,所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊,對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較;更優(yōu)選地,所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)(SVM)、多層感知機(jī)(MLP) 中的至少一種方式進(jìn)行。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí),確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確;否則,確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例,獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分;或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分,獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。優(yōu)選地,在本發(fā)明的各實(shí)施例中,進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分;和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分,相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。本發(fā)明提供了一種用于發(fā)音評(píng)估的系統(tǒng),包括聲音接收裝置,用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);音頻幀生成裝置,用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào);評(píng)估裝置,用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng),能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,以下將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,以下描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖所示實(shí)施例得到其它的實(shí)施例及其附圖。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。圖2是根據(jù)本發(fā)明的另一實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。
具體實(shí)施例方式以下將結(jié)合附圖對(duì)本發(fā)明各實(shí)施例的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例, 本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施例,都屬于本發(fā)明所保護(hù)的范圍。本發(fā)明提供一種用于發(fā)音評(píng)估的方法,包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);根據(jù)所述實(shí)測(cè)聲音信號(hào),生成實(shí)測(cè)音頻幀信號(hào);
將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。能夠想到的是,標(biāo)準(zhǔn)音頻幀信號(hào)可以從數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)信息中獲得;也可以實(shí)時(shí)地獲得,例如,基于教師的發(fā)音形成標(biāo)準(zhǔn)音頻幀信號(hào),而基于學(xué)生的發(fā)音形成與其比較的實(shí)測(cè)音頻幀信號(hào)。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng),利用實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的音頻幀的聲學(xué)比較,以簡(jiǎn)單的方式準(zhǔn)確有效地評(píng)估實(shí)測(cè)聲音信號(hào)的發(fā)音質(zhì)量,例如,實(shí)測(cè)聲音信號(hào)是否準(zhǔn)確(準(zhǔn)確度達(dá)到預(yù)定值),而且,由于這種聲學(xué)評(píng)估方式與文本無(wú)關(guān),因而可容易地應(yīng)用于對(duì)單語(yǔ)種和多語(yǔ)種(即,多語(yǔ)種混雜)的實(shí)測(cè)聲音信號(hào)的評(píng)估,例如,對(duì)中英文混雜的實(shí)測(cè)聲音信號(hào)的評(píng)估。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息;和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息;其中,所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。在本發(fā)明的各實(shí)施例中,優(yōu)選地,可利用各種音頻特征信息用于所述比較,例如, 所述標(biāo)準(zhǔn)音頻特征信息和實(shí)測(cè)音頻特征信息可為以下頻譜特征信息中的至少一種(即,可利用以下類(lèi)型的單個(gè)音頻特征信息或者多個(gè)音頻特征信息的組合梅爾頻率倒譜系數(shù)(MFCC,Mel Frequency Cepstrum Coefficient),聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP, Perceptual Linear Prediction),線譜頻率參數(shù)(LSF,Line Spectral Frequency),線性預(yù)測(cè)系數(shù)(LPC,Linear Predictive Coefficient),線性預(yù)測(cè)倒譜系數(shù)(LPCC,Linear Prediction Cepstral Coefficient),時(shí)序模板(TRAP,TempoRAl Patterns)。更優(yōu)選地,可采用PLP或TRAP作為音頻特征信息用于所述比較。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述比較包括利用動(dòng)態(tài)時(shí)間規(guī)整(DTW,Dynamic time warping)算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)齊(其中的幀塊一一對(duì)應(yīng))而進(jìn)行比較。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊,每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀;在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊,每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀;其中,所述A和B為大于1的整數(shù),所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度,獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度;其中,如果A興B,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格,或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較;優(yōu)選地,如果A > 2B或B > 2A,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。也就是說(shuō),如果A = B,則可直接進(jìn)行所述比較;否則,可直接確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格,或者可替代地也可以利用DTW算法將A個(gè)實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較以確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量是否合格。優(yōu)選地,在一個(gè)實(shí)施例中,如果A > 2B或8 > 2A,則可認(rèn)為所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的差別過(guò)大或不相同,即,相似度過(guò)低或不相似,因而可直接確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。為了實(shí)現(xiàn)在此所述的強(qiáng)制劃分,首先必須形成B個(gè)標(biāo)準(zhǔn)幀塊,在知曉B值的情況下,進(jìn)行所述強(qiáng)制劃分而得到B個(gè)實(shí)測(cè)幀塊。其方法是利用DTW算法將實(shí)測(cè)幀特征與標(biāo)準(zhǔn)幀特征對(duì)齊以獲得二者之間的幀和幀的對(duì)應(yīng)關(guān)系,然后可再通過(guò)B個(gè)標(biāo)準(zhǔn)幀塊的邊界確定 B個(gè)實(shí)測(cè)幀塊的邊界。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化曲線,并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi),以形成所述A個(gè)實(shí)測(cè)幀塊;和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化曲線,并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi),以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)(MFCC)、聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP)、線譜頻率參數(shù)(LSF)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、時(shí)序模板(TRAP)中的至少一種,構(gòu)成實(shí)測(cè)音頻幀特征序列;通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)(MFCC)、聽(tīng)感線性預(yù)測(cè)系數(shù)(PLP)、線譜頻率參數(shù)(LSF)、線性預(yù)測(cè)系數(shù)(LPC)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、時(shí)序模板(TRAP)中的至少一種,構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列;其中,所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊,對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較;優(yōu)選地,所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)(SVM)、多層感知機(jī)(MLP)中的至少一種方式進(jìn)行。在需要時(shí),也可利用高斯混合模型(GMM)進(jìn)行相似度比較。通過(guò)DTW算法,將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊,從而使得原先可能難以比較的兩個(gè)不等長(zhǎng)的序列中的元素?fù)碛幸灰粚?duì)應(yīng)關(guān)系。將擁有一一對(duì)應(yīng)關(guān)系的每組特征對(duì)(即,相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征)送入相似度比較器進(jìn)行相似度比較。在一個(gè)實(shí)施例中,相似度比較器可以用相關(guān)系數(shù)實(shí)現(xiàn),采用相關(guān)系數(shù)比較實(shí)測(cè)音頻幀信號(hào)和標(biāo)準(zhǔn)音頻幀信號(hào)的相似度,即
N__Yj(Xi-X)(Yi-Y)KX, Y) = CORiX, Y)=卜_ N _
WiXi-Xf Yj(Yi-Y)2
V i=0i=Q若f(X,Y)彡threshold則認(rèn)為X和Y相同或具有充分相似度,否則認(rèn)為X和Y不同或不相似。在一個(gè)實(shí)施例中,為了比較實(shí)測(cè)音頻幀信號(hào)和標(biāo)準(zhǔn)音頻幀信號(hào)的相似度,可采用以下分類(lèi)器中的至少一種,以最終獲得聲音信號(hào)質(zhì)量得分支持向量機(jī)(SVM, support vector machine),多層感知機(jī)(MLP,multi layer perceptron),
高斯混合模型(GMM,Gaussian Mixture Model)。在一個(gè)實(shí)施例中,采用SVM,S卩,f(X,Y) = SVM([X ;Y]) e [_1,+1],其中,[Χ ;Y]表示把兩個(gè)列向量X和Y拼接成一個(gè)列向量送入SVM分類(lèi)器。若f(X,Y)彡0,則認(rèn)為X和Y 相同或具有充分相似度,否則認(rèn)為X和Y不同或不相似。在優(yōu)選實(shí)施例中,采用MLP,S卩,f(X,Y) =MLP ([X ;Y]) e
,其中,[X J]表示把兩個(gè)列向量X和Y拼接成一個(gè)列向量送入MLP分類(lèi)器。若f(X,Y)彡threshold,則認(rèn)為 X和Y相同或具有充分相似度,否則認(rèn)為X和Y不同或不相似。在另一實(shí)施例中,采用GMM,SP,KX, Y) = pMMx (Y)GMMr (X),其中,GMMx 表示
由X估計(jì)得到的GMM模型,GMMx(Y)表示Y在X的概率模型中的概率得分,GMMy表示由Y估計(jì)得到的GMM模型,GMMy(X)表示X在Y的概率模型中的概率得分。若f (X,Y)彡threshold 則認(rèn)為X和Y相同或具有充分相似度,否則認(rèn)為X和Y不同或不相似。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí),確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確;否則,確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例,獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分;或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分,獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。這樣,可利用實(shí)測(cè)音頻幀塊中所含有的準(zhǔn)確(或不準(zhǔn)確的)幀占總幀數(shù)量的比例獲得每個(gè)幀塊以及實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。也可以利用各個(gè)實(shí)測(cè)音頻幀塊的質(zhì)量平均得分作為實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分;和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分,相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。在一個(gè)實(shí)施例中,根據(jù)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分,可獲得發(fā)音不準(zhǔn)確的位置(例如發(fā)音不準(zhǔn)確的幀塊位置),并可將其記錄下來(lái)。在一個(gè)實(shí)施例中,針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分,可相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分,從而可根據(jù)需要對(duì)特定的音節(jié)、單詞、或詞組進(jìn)行語(yǔ)音比對(duì),以及時(shí)糾正錯(cuò)誤發(fā)音,例如可用于語(yǔ)言教學(xué),這在著重糾正個(gè)人語(yǔ)音錯(cuò)誤的情況下特別有用。優(yōu)選地,在本發(fā)明的各實(shí)施例中,所述的方法進(jìn)一步包括根據(jù)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分的比例,確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。在一個(gè)實(shí)施例中,通過(guò)計(jì)算發(fā)音不準(zhǔn)確的音節(jié)個(gè)數(shù)或單詞個(gè)數(shù)或詞組個(gè)數(shù)所占的比例,獲得聲音信號(hào)質(zhì)量得分。在一個(gè)實(shí)施例中,在基于所述實(shí)測(cè)音頻幀信號(hào)而形成的A個(gè)實(shí)測(cè)幀塊中,通過(guò)計(jì)算A個(gè)實(shí)測(cè)幀塊中準(zhǔn)確/不準(zhǔn)確的塊數(shù)計(jì)算質(zhì)量得分。在一個(gè)實(shí)施例中,先按幀轉(zhuǎn)成音頻特征,再以DTW比較對(duì)齊,從而獲得實(shí)測(cè)音幀與標(biāo)準(zhǔn)音幀之間的對(duì)應(yīng)關(guān)系,將每一組對(duì)應(yīng)的音頻幀信號(hào)(一幀標(biāo)準(zhǔn)音和對(duì)應(yīng)的一幀實(shí)測(cè)音合并在一起)送入神經(jīng)網(wǎng)絡(luò)中進(jìn)行對(duì)比獲得輸出結(jié)果,或者直接計(jì)算相關(guān)系數(shù)而獲得相似度。圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。在步驟101-103,將獲取的實(shí)測(cè)音頻幀信號(hào)分幀而形成A個(gè)幀塊(其中每個(gè)幀塊中可包括多個(gè)幀),并可從中提取實(shí)測(cè)音頻特征信息(例如MFCC)。在步驟104-106,將獲取的標(biāo)準(zhǔn)音頻幀信號(hào)分幀而形成B個(gè)幀塊(其中每個(gè)幀塊中可包括多個(gè)幀),并可從中提取標(biāo)準(zhǔn)音頻特征信息(例如MFCC)。其中,所述A和B為大于1的整數(shù),如果A = B(在圖1所示實(shí)施例中),則繼續(xù)進(jìn)行后續(xù)步驟,否則認(rèn)為實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)不同或不相似而認(rèn)為發(fā)音質(zhì)量不合格,當(dāng)然也可利用前述的強(qiáng)制劃分方式形成B個(gè)實(shí)測(cè)幀塊(強(qiáng)制使得新的A = B)以與B個(gè)標(biāo)準(zhǔn)幀塊進(jìn)行DTW對(duì)齊比較。而且,步驟101-103與步驟104-106可同時(shí)進(jìn)行,也可不同時(shí)進(jìn)行;不過(guò),在采用前述強(qiáng)制劃分方式時(shí),步驟104-106必須先于步驟101-103執(zhí)行。以下將通過(guò)比較實(shí)測(cè)幀塊與標(biāo)準(zhǔn)幀塊的相似度,獲得實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的相似度。在步驟107,使實(shí)測(cè)音頻幀與標(biāo)準(zhǔn)音頻幀對(duì)齊。在步驟108,使實(shí)測(cè)音頻幀信號(hào)的實(shí)測(cè)幀塊與標(biāo)準(zhǔn)音頻幀信號(hào)的標(biāo)準(zhǔn)幀塊對(duì)齊。在上述對(duì)齊狀態(tài)下,可獲得實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的幀塊相似度,由此獲得實(shí)測(cè)幀塊的得分。在步驟109,確定實(shí)測(cè)音頻幀信號(hào)的實(shí)測(cè)幀塊的得分。在步驟110,確定實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于發(fā)音評(píng)估的方法的示意性流程圖。在步驟201,將標(biāo)準(zhǔn)聲音信號(hào)轉(zhuǎn)換成16k、16位(BIT)的脈沖編碼調(diào)制(PCM)格式的標(biāo)準(zhǔn)音頻幀信號(hào)。當(dāng)然,在其它實(shí)施例中,相應(yīng)的標(biāo)準(zhǔn)音頻幀信號(hào)可以是已預(yù)先完成的 (例如存儲(chǔ)在數(shù)據(jù)庫(kù)中供調(diào)用),則不必執(zhí)行該轉(zhuǎn)換步驟。在步驟202,標(biāo)準(zhǔn)聲音信號(hào)可被分成25毫秒(ms)的音頻幀(窗),相鄰窗之間的距離可為10毫秒(ms)。當(dāng)然,在其它實(shí)施例中,也可以采取不同的窗(例如為20ms)和/ 或相鄰窗之間的距離(例如為5ms)。聲音信號(hào)是連續(xù)的“波形信號(hào)”,可以按照幀長(zhǎng)20毫秒、幀移10毫秒將波形信號(hào)分幀處理獲得所述“音頻幀信號(hào)”,則100毫秒的語(yǔ)音將變成9 幀音頻幀信號(hào),1000毫秒的語(yǔ)音將變成99幀音頻幀信號(hào)。將語(yǔ)音按照能量低谷劃分,又可以劃分為若干個(gè)“幀塊”,比如一句話5秒鐘,可被分為499幀,但是里面只有5個(gè)音節(jié),于是被分割為5個(gè)幀塊。在步驟203,每個(gè)音頻幀的波形信號(hào)被高頻提升后轉(zhuǎn)換成快速傅立葉變換(FFT) 譜,將FFT譜按照梅爾(MEL)而等距離地分成24個(gè)子帶并分別提取子帶能量(當(dāng)然也可分為其它數(shù)量的子帶,例如36個(gè)),將子帶能量單位轉(zhuǎn)換為分貝,再作離散余弦變換(DCT),獲得MEL頻率倒譜系數(shù)(MFCC)特征。在另一實(shí)施例中,也可采取其它方式提取聲學(xué)特征(例如MFCC);而在又一實(shí)施例中,也可提取不同于MFCC的其它聲學(xué)特征作為比較參數(shù)。
在步驟204-206,實(shí)測(cè)聲音信號(hào)的處理方法與標(biāo)準(zhǔn)聲音信號(hào)在201-203的處理方法相似,最后獲得實(shí)測(cè)聲音信號(hào)的MFCC特征。其中,步驟201-203與步驟204-206可同時(shí)進(jìn)行,也可不同時(shí)進(jìn)行。在步驟207,利用動(dòng)態(tài)時(shí)間歸整(DTW)算法將實(shí)測(cè)音頻幀和標(biāo)準(zhǔn)音頻幀對(duì)齊,獲得實(shí)測(cè)音頻幀每一幀與標(biāo)準(zhǔn)音頻幀每一幀的對(duì)應(yīng)關(guān)系。在步驟208,提取實(shí)測(cè)聲音信號(hào)的能量曲線,在能量的低谷處把實(shí)測(cè)聲音信號(hào)音分割成若干段(語(yǔ)音學(xué)上稱(chēng)為音節(jié))。在步驟209,將實(shí)測(cè)聲音信號(hào)的幀塊內(nèi)若干幀的MFCC拼接成實(shí)數(shù)序列,將其對(duì)應(yīng)的標(biāo)準(zhǔn)聲音信號(hào)的MFCC也拼成實(shí)數(shù)序列,求兩個(gè)序列的相關(guān)系數(shù)和/或神經(jīng)網(wǎng)絡(luò)評(píng)分輸
出ο在步驟210,當(dāng)相關(guān)系數(shù)低于預(yù)定門(mén)限時(shí),認(rèn)為實(shí)測(cè)聲音信號(hào)發(fā)音不準(zhǔn)確,轉(zhuǎn)到步驟211 ;否則,認(rèn)為實(shí)測(cè)聲音信號(hào)發(fā)音準(zhǔn)確,轉(zhuǎn)到步驟212。在步驟213,統(tǒng)計(jì)在步驟212中被認(rèn)為發(fā)音準(zhǔn)確的實(shí)測(cè)幀塊的數(shù)量,計(jì)算發(fā)音準(zhǔn)確的幀塊在實(shí)測(cè)幀塊總量中所占的比例。在步驟214,根據(jù)發(fā)音準(zhǔn)確的幀塊在實(shí)測(cè)幀塊總量中所占的比例,將發(fā)音準(zhǔn)確比例轉(zhuǎn)化為分?jǐn)?shù),并可反饋給使用者。在一個(gè)實(shí)施例中,大于90%為滿分;小于50%為零分;在 50% -90%之間的按照線性插值求分?jǐn)?shù)。本發(fā)明還提供一種用于發(fā)音評(píng)估的系統(tǒng),包括聲音接收裝置,用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);音頻幀生成裝置,用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào);評(píng)估裝置,用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。通過(guò)本發(fā)明的實(shí)施例的技術(shù)方案,克服現(xiàn)有發(fā)音評(píng)估方法的缺陷,從聲學(xué)上評(píng)估實(shí)測(cè)聲音信號(hào)與標(biāo)準(zhǔn)聲音信號(hào)的相似度以確定發(fā)音質(zhì)量。它形式簡(jiǎn)潔,操作簡(jiǎn)單,可以實(shí)現(xiàn)語(yǔ)種無(wú)關(guān)的發(fā)音質(zhì)量評(píng)估,因此具有更好的通用性和易用性。本發(fā)明提供的各種實(shí)施例可根據(jù)需要以任意方式相互組合,通過(guò)這種組合得到的技術(shù)方案,也在本發(fā)明的范圍內(nèi)。顯然,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種用于發(fā)音評(píng)估的方法,其特征在于,包括以下步驟 接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);根據(jù)所述實(shí)測(cè)聲音信號(hào),生成實(shí)測(cè)音頻幀信號(hào);將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。
2.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括從所述標(biāo)準(zhǔn)音頻幀信號(hào)中提取標(biāo)準(zhǔn)音頻特征信息,所述標(biāo)準(zhǔn)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種;和從所述實(shí)測(cè)音頻幀信號(hào)中提取實(shí)測(cè)音頻特征信息,所述實(shí)測(cè)音頻特征信息例如為梅爾頻率倒譜系數(shù)、聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種;其中,所述比較包括將所述實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻特征信息比較。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述比較包括利用動(dòng)態(tài)時(shí)間歸整DTW算法使所述實(shí)測(cè)音頻幀信號(hào)與所述標(biāo)準(zhǔn)音頻幀信號(hào)對(duì)應(yīng)而進(jìn)行比較。
4.如權(quán)利要求1至3之一所述的方法,其特征在于,進(jìn)一步包括在所述實(shí)測(cè)音頻幀信號(hào)中形成A個(gè)實(shí)測(cè)幀塊,每個(gè)實(shí)測(cè)幀塊中包含一個(gè)或多個(gè)實(shí)測(cè)音頻幀;在所述標(biāo)準(zhǔn)音頻幀信號(hào)中形成B個(gè)標(biāo)準(zhǔn)幀塊,每個(gè)標(biāo)準(zhǔn)幀塊中包含一個(gè)或多個(gè)標(biāo)準(zhǔn)音頻幀;其中,所述A和B為大于1的整數(shù),所述比較包括通過(guò)比較所述實(shí)測(cè)幀塊與所述標(biāo)準(zhǔn)幀塊的相似度,獲得所述實(shí)測(cè)聲音信號(hào)與所述標(biāo)準(zhǔn)聲音信號(hào)的相似度;其中,如果A興B,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格,或利用DTW算法將A個(gè)所述實(shí)測(cè)幀塊強(qiáng)制劃分成B個(gè)實(shí)測(cè)幀塊之后進(jìn)行所述比較;優(yōu)選地,如果A > 2B或8 > 2A,則確定所述實(shí)測(cè)聲音信號(hào)的質(zhì)量不合格。
5.如權(quán)利要求1至4之一所述的方法,其特征在于,進(jìn)一步包括獲得所述實(shí)測(cè)音頻幀信號(hào)的能量隨時(shí)間變化的曲線,并在其中的能量低谷處將所述實(shí)測(cè)音頻幀信號(hào)分開(kāi),以形成所述A個(gè)實(shí)測(cè)幀塊;和/或獲得所述標(biāo)準(zhǔn)音頻幀信號(hào)的能量隨時(shí)間變化的曲線,并在其中的能量低谷處將所述標(biāo)準(zhǔn)音頻幀信號(hào)分開(kāi),以形成所述B個(gè)標(biāo)準(zhǔn)幀塊。
6.如權(quán)利要求1至5之一所述的方法,其特征在于,進(jìn)一步包括通過(guò)所述實(shí)測(cè)音頻幀信號(hào)的所述實(shí)測(cè)幀塊中的多個(gè)實(shí)測(cè)音頻幀的梅爾頻率倒譜系數(shù)、 聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種,構(gòu)成實(shí)測(cè)音頻幀特征序列;通過(guò)所述標(biāo)準(zhǔn)音頻幀信號(hào)的所述標(biāo)準(zhǔn)幀塊中的多個(gè)標(biāo)準(zhǔn)音頻幀的梅爾頻率倒譜系數(shù)、 聽(tīng)感線性預(yù)測(cè)系數(shù)、線譜頻率參數(shù)、線性預(yù)測(cè)系數(shù)、線性預(yù)測(cè)倒譜系數(shù)、時(shí)序模板中的至少一種,構(gòu)成標(biāo)準(zhǔn)音頻幀特征序列;其中,所述比較包括通過(guò)DTW算法將所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列對(duì)齊,對(duì)于在所述實(shí)測(cè)音頻幀特征序列與所述標(biāo)準(zhǔn)音頻幀特征序列中的相應(yīng)的實(shí)測(cè)音頻幀特征和標(biāo)準(zhǔn)音頻幀特征進(jìn)行相似度比較;優(yōu)選地,所述相似度比較通過(guò)相關(guān)系數(shù)、支持向量機(jī)SVM、多層感知機(jī)MLP中的至少一種方式進(jìn)行。
7.如權(quán)利要求1至6之一所述的方法,其特征在于,所述評(píng)估質(zhì)量包括當(dāng)所述實(shí)測(cè)音頻幀信號(hào)中的實(shí)測(cè)音頻特征信息與所述標(biāo)準(zhǔn)音頻幀信號(hào)中的標(biāo)準(zhǔn)音頻特征信息的相似度小于預(yù)定門(mén)限時(shí),確定所述實(shí)測(cè)聲音信號(hào)不準(zhǔn)確;否則,確定所述實(shí)測(cè)聲音信號(hào)準(zhǔn)確。
8.如權(quán)利要求1至7之一所述的方法,其特征在于,進(jìn)一步包括利用各個(gè)所述實(shí)測(cè)幀塊中質(zhì)量合格的實(shí)測(cè)幀塊的數(shù)量占所述實(shí)測(cè)幀塊的總數(shù)的比例, 獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分;或利用所述實(shí)測(cè)音頻幀信號(hào)中所有實(shí)測(cè)幀塊的質(zhì)量平均得分,獲得所述實(shí)測(cè)聲音信號(hào)的質(zhì)量得分。
9.如權(quán)利要求1至8之一所述的方法,其特征在于,進(jìn)一步包括記錄和/或輸出在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分;和/或針對(duì)在所述實(shí)測(cè)聲音信號(hào)中被確定為不準(zhǔn)確的部分,相應(yīng)輸出在所述標(biāo)準(zhǔn)聲音信號(hào)中的對(duì)應(yīng)部分。
10.一種用于發(fā)音評(píng)估的系統(tǒng),其特征在于,包括聲音接收裝置,用于接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);音頻幀生成裝置,用于根據(jù)所述實(shí)測(cè)聲音信號(hào)生成實(shí)測(cè)音頻幀信號(hào);評(píng)估裝置,用于將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,和對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。
全文摘要
本發(fā)明涉及計(jì)算機(jī)輔助語(yǔ)言教學(xué)領(lǐng)域,提供一種用于發(fā)音評(píng)估的方法,其包括以下步驟接收單語(yǔ)種或多語(yǔ)種的實(shí)測(cè)聲音信號(hào);根據(jù)所述實(shí)測(cè)聲音信號(hào),生成實(shí)測(cè)音頻幀信號(hào);將所述實(shí)測(cè)音頻幀信號(hào)與標(biāo)準(zhǔn)音頻幀信號(hào)比較,對(duì)所述實(shí)測(cè)聲音信號(hào)評(píng)估質(zhì)量。本發(fā)明還提供一種用于發(fā)音評(píng)估的系統(tǒng)。通過(guò)本發(fā)明提供的用于發(fā)音評(píng)估的方法和系統(tǒng),能夠以簡(jiǎn)單的方式更準(zhǔn)確有效地評(píng)估發(fā)音質(zhì)量。
文檔編號(hào)G10L11/00GK102214462SQ20111015276
公開(kāi)日2011年10月12日 申請(qǐng)日期2011年6月8日 優(yōu)先權(quán)日2011年6月8日
發(fā)明者王鷹, 趙璇, 黃玩惠 申請(qǐng)人:北京愛(ài)說(shuō)吧科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1