專利名稱:測試英文口語韻律水平的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能行業(yè)語音信號處理與模式識別技術(shù)領(lǐng)域,尤其涉及一種測試英文口語韻律水平的方法。
背景技術(shù):
韻律是針對言語這一人類的行為提出來的,言語交流的媒介是聲音,所以說者要傳達(dá)的信息以及聽者能夠聽到的信息都包含在聲波中。在計算機(jī)輔助語言學(xué)習(xí)中,韻律表現(xiàn)好比語言學(xué)習(xí)者表達(dá)境界“信、達(dá)、雅”中的“雅”,是言語中最高級的一環(huán),它通過復(fù)雜的物理和聲學(xué)模式在言語上進(jìn)行作用,以表征說話者的語氣、態(tài)度、意圖和情感等超音段特性??梢哉f,學(xué)習(xí)者在表達(dá)過程中,只是會讀并不一定代表對語言已經(jīng)掌握,而真正對所述內(nèi)容的融會貫通在很大程度上取決于其韻律的表現(xiàn)程度。韻律水平測試是計算機(jī)輔助自動口語測試系統(tǒng)中的一個重要組成部分,本發(fā)明所述的韻律測試和以往針對語音合成領(lǐng)域的韻律生成和測試是有著本質(zhì)區(qū)別的。以往針對語音合成領(lǐng)域的韻律生成和測試,其所關(guān)注的是如何有效提高所合成出語音的韻律性和自然度。而本發(fā)明的韻律測試則是關(guān)注測試人群的真實口語發(fā)音的韻律掌握水平。本發(fā)明更為關(guān)注口語水平較高的測試人群,即在內(nèi)容表達(dá)比較完整、發(fā)音準(zhǔn)確度較高以及流利程度較高的口語測試人群中,通過對韻律水平的測試,達(dá)到進(jìn)一步“好中取優(yōu)”之目的。韻律感知的基本聲學(xué)相關(guān)物是基頻、時長和能量,而從人感知的角度來看,通常從語調(diào)和節(jié)奏兩個方面去衡量某個句子或段落的韻律水平。語調(diào)主要反映主觀聽感中的“抑” 和“揚(yáng)”,在聲學(xué)特征層面,則是通過語音中的基頻隨時間的變化,去反映語調(diào)、語氣和情感的變化。節(jié)奏則包括重音、停頓、語流控制等層面,重音主要反映主觀聽感中對表達(dá)內(nèi)容的輕重、偏頗和加重,英語是一種典型的重音節(jié)奏語言,正是依靠這種重音變化才在聽覺上帶來強(qiáng)烈的節(jié)奏感。停頓主要反映主觀聽感節(jié)奏中的錯落感,多由意群、語義或內(nèi)容轉(zhuǎn)換的間隙而產(chǎn)生。語流控制則主要反映主觀聽感節(jié)奏中對整個語流中各音段時長的宏觀分布的總體把握情況。從人機(jī)通訊的角度來看,言語交際實質(zhì)上就是一個對于說者是編碼、對于聽者是解碼的過程,而韻律測試正是利用機(jī)器對言語進(jìn)行自動化解碼過程的重要一環(huán)。而從語音心理學(xué)角度來說,對于人在感知上為什么會覺得一段語音的韻律比另一段好,至今并沒有形成普遍的認(rèn)識和共識。目前,面向語音合成任務(wù)的韻律分析的研究較多,而針對教育測量目標(biāo)的韻律測試的研究相對較少,但其應(yīng)用需求呈現(xiàn)遞增趨勢?,F(xiàn)有的韻律測試方法普遍采用直接使用單純的基頻、時長和能量特征的方式,沒有對特征本身進(jìn)行深入加工,也沒有針對性地引入與韻律表現(xiàn)、韻律產(chǎn)生以及韻律影響相關(guān)聯(lián)的多知識源模型。而教育測量和模式識別領(lǐng)域的大量研究實踐表明,單純籠統(tǒng)地使用韻律特征很難進(jìn)一步提高測試性能
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題為解決上述的一個或多個問題,本發(fā)明提供了一種測試英文口語韻律水平的方法,以使用多知識源信息進(jìn)行細(xì)化并融合的策略取得更佳的測試效果,提高測試的客觀性和準(zhǔn)確性。( 二 )技術(shù)方案根據(jù)本發(fā)明的一個方面,提供了一種測試英語口語韻律水平的方法。該方法包括 步驟A,對原始英語語音信號進(jìn)行預(yù)處理;步驟B,在進(jìn)行預(yù)處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數(shù),多知識源特征參數(shù)包括韻律表現(xiàn)特征;韻律產(chǎn)生特征;韻律影響特征;步驟C,由多知識源特征參數(shù)獲取原始英語語音的韻律水平測試分?jǐn)?shù)。 優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟A包括步驟Al,對原始英語語音信號進(jìn)行有效語音段檢測,濾除噪音段和過長的停頓段,保留有效語音段信號;步驟A2, 對有效語音段信號進(jìn)行分幀處理;步驟A3,使用語音識別器對進(jìn)行分幀處理后的有效語音段信號和對應(yīng)文本進(jìn)行自動對齊,獲得音素、音節(jié)、單詞和句子的邊界點信息。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟A2中,以25ms為幀長度,IOms為幀間隔。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進(jìn)行預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律表現(xiàn)特征包括步驟Bla,提取各語音幀的基音頻率和能量,形成基頻序列和能量序列,計算基頻序列的基頻平均值和基頻方差值,計算能量序列的能量平均值和能量方差值。將基頻平均值、基頻方差值、能量平均值、能量方差值作為4維韻律特征;步驟Blb,提取各輔音段時長、各元音段時長、各音節(jié)段時長以及各單詞停頓段時長,分別計算輔音段平均時長和輔音段時長方差,分別計算元音段平均時長和元音段時長方差,分別計算音節(jié)段平均時長和音節(jié)段時長方差,分別計算單詞停頓段平均時長和單詞停頓段時長方差。將輔音段平均時長、輔音段時長方差、元音段平均時長、元音段時長方差、音節(jié)段平均時長、音節(jié)段時長方差、單詞停頓段平均時長、單詞停頓段時長方差作為8維韻律特征;步驟Blc,將步驟Bla提取出的4維韻律特征和步驟Blb提取出的8維韻律特征拼接為一起,作為基于韻律表現(xiàn)知識源的12維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進(jìn)行預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律產(chǎn)生特征包括步驟B2a,提取各語音幀的基頻序列,并對該基頻序列進(jìn)行魯棒性處理;步驟B2b,以經(jīng)過魯棒性處理后的基頻序列為對象, 提取出對應(yīng)的重讀部件,提取源于重讀部件的階躍個數(shù)、平均階躍時間、階躍時間方差,形成共3維韻律特征;步驟B2c,以經(jīng)過魯棒性處理后的基頻序列為對象,提取出對應(yīng)的基準(zhǔn)基頻,提取源于基準(zhǔn)基頻的基準(zhǔn)基頻特征;步驟B2d,以經(jīng)過魯棒性處理后的基頻序列為對象,提取出對應(yīng)的短語部件,提取源于短語部件的沖激個數(shù)、平均沖激幅度、沖激幅度方差, 形成共3維韻律特征;步驟B2e,將步驟B2b提取出的3維韻律特征、步驟B2c提取出的1維基準(zhǔn)基頻特征、步驟B2d提取出的3維韻律特征進(jìn)行拼接,作為基于韻律產(chǎn)生模型的7維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2a中對已經(jīng)提取出的基頻序列進(jìn)行魯棒性處理包括對已經(jīng)提取出的基頻序列去除半頻和倍頻干擾;對去除半頻和倍頻干擾后的基頻序列進(jìn)行平滑操作;對進(jìn)行平滑操作后的基頻序列進(jìn)行風(fēng)格化處理。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2b包括對經(jīng)過魯棒性處理的基頻序列進(jìn)行高通濾波,利用梯度法自動提取出其中曲率變化劇烈的極大值和極小值部分;計算高通濾波后的基頻序列的曲率劇烈變化部分的數(shù)量,作為基頻序列的階躍個數(shù)特征;計算高通濾波后的基頻序列的曲率劇烈變化部分的平均持續(xù)時間和方差變化,作為基頻序列的平均階躍時間和階躍時間方差特征;將上述提取出的階躍個數(shù)、平均階躍時間、階躍時間方差作為源于重讀部件的3維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B2d包括用步驟Bh處理后的基頻序列減去步驟B2c提取出的基準(zhǔn)基頻,形成反映短語部件的基頻序列曲線;計算反映短語部件的基頻序列中的曲率劇烈變化部分的數(shù)量,作為基頻序列的沖激個數(shù)特征;計算反映短語部件的基頻序列中的曲率劇烈變化部分的平均沖激幅度和幅度方差,作為基頻序列的平均沖激幅度和沖激幅度方差特征;將上述提取出的沖激個數(shù)、平均沖激幅度、沖激幅度方差作為源于短語部件的3維韻律特征。優(yōu)選地,本發(fā)明英語口語韻律水平的方法中,步驟B中在進(jìn)行預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律影響特征包括步驟B3a,由公式一提取輔音段基頻PVI特征、元音段基頻PVI特征、音節(jié)段基頻PVI特征,形成共3維基于基頻 PVI的韻律特征;步驟B3b,由公式一提取輔音段時長PVI特征、元音段時長PVI特征、 音節(jié)段時長PVI特征,形成共3維基于時長PVI的韻律特征,其中,公式一的表達(dá)式為
權(quán)利要求
1.一種測試英語口語韻律水平的方法,其特征在于,包括 步驟A,對原始英語語音信號進(jìn)行預(yù)處理;步驟B,在預(yù)處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數(shù),該多知識源特征參數(shù)包括韻律表現(xiàn)特征、韻律產(chǎn)生特征和韻律影響特征;步驟C,由所述多知識源特征參數(shù)獲取所述原始英語語音的韻律水平測試分?jǐn)?shù)。
2.根據(jù)權(quán)利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟A包括步驟Al,對原始英語語音信號進(jìn)行有效語音段檢測,濾除噪音段和過長的停頓段,保留有效語音段信號;步驟A2,對有效語音段信號進(jìn)行分幀處理;步驟A3,使用語音識別器對進(jìn)行分幀處理后的有效語音段信號和對應(yīng)文本進(jìn)行自動對齊,獲得音素、音節(jié)、單詞和句子的邊界點信息。
3.根據(jù)權(quán)利要求2所述的測試英語口語韻律水平的方法,其特征在于,所述步驟A2中, 以25ms為幀長度,IOms為幀間隔。
4.根據(jù)權(quán)利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律表現(xiàn)特征包括步驟Bla,提取各語音幀的基音頻率和能量,形成基頻序列和能量序列,計算基頻序列的基頻平均值和基頻方差值,計算能量序列的能量平均值和能量方差值;將基頻平均值、基頻方差值、能量平均值、能量方差值作為4維韻律特征;步驟Blb,提取各輔音段時長、各元音段時長、各音節(jié)段時長以及各單詞停頓段時長,分別計算輔音段平均時長和輔音段時長方差,分別計算元音段平均時長和元音段時長方差, 分別計算音節(jié)段平均時長和音節(jié)段時長方差,分別計算單詞停頓段平均時長和單詞停頓段時長方差;將輔音段平均時長、輔音段時長方差、元音段平均時長、元音段時長方差、音節(jié)段平均時長、音節(jié)段時長方差、單詞停頓段平均時長、單詞停頓段時長方差作為8維韻律特征;步驟Blc,將步驟Bla提取出的4維韻律特征和步驟Blb提取出的8維韻律特征拼接為一起,作為基于韻律表現(xiàn)知識源的12維韻律表現(xiàn)特征。
5.根據(jù)權(quán)利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在進(jìn)行所述預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律產(chǎn)生特征包括步驟B2a,提取各語音幀的基頻序列,并對該基頻序列進(jìn)行魯棒性處理; 步驟B2b,以經(jīng)過魯棒性處理后的基頻序列為對象,提取出對應(yīng)的重讀部件,提取源于重讀部件的階躍個數(shù)、平均階躍時間、階躍時間方差,形成共3維韻律特征;步驟B2c,以經(jīng)過魯棒性處理后的基頻序列為對象,提取出對應(yīng)的基準(zhǔn)基頻,提取源于基準(zhǔn)基頻的基準(zhǔn)基頻特征;步驟B2d,以經(jīng)過魯棒性處理后的基頻序列為對象,提取出對應(yīng)的短語部件,提取源于短語部件的沖激個數(shù)、平均沖激幅度、沖激幅度方差,形成共3維韻律特征;步驟B2e,將步驟B2b提取出的3維韻律特征、步驟B2c提取出的1維基準(zhǔn)基頻特征、步驟B2d提取出的3維韻律特征進(jìn)行拼接,作為基于韻律產(chǎn)生模型的7維韻律產(chǎn)生特征。
6.根據(jù)權(quán)利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟似3中對已經(jīng)提取出的基頻序列進(jìn)行魯棒性處理包括 對已經(jīng)提取出的基頻序列去除半頻和倍頻干擾; 對去除半頻和倍頻干擾后的基頻序列進(jìn)行平滑操作; 對進(jìn)行平滑操作后的基頻序列進(jìn)行風(fēng)格化處理。
7.根據(jù)權(quán)利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B2b包括對經(jīng)過魯棒性處理的基頻序列進(jìn)行高通濾波,利用梯度法自動提取出其中曲率變化劇烈的極大值和極小值部分;計算高通濾波后的基頻序列的曲率劇烈變化部分的數(shù)量,作為基頻序列的階躍個數(shù)特征;計算高通濾波后的基頻序列的曲率劇烈變化部分的平均持續(xù)時間和方差變化,作為基頻序列的平均階躍時間和階躍時間方差特征;將上述提取出的階躍個數(shù)、平均階躍時間、階躍時間方差作為源于重讀部件的3維韻律產(chǎn)生特征。
8.根據(jù)權(quán)利要求5所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B2d包括用步驟Bh處理后的基頻序列減去步驟B2c提取出的基準(zhǔn)基頻,形成反映短語部件的基頻序列曲線;計算反映短語部件的基頻序列中的曲率劇烈變化部分的數(shù)量,作為基頻序列的沖激個數(shù)特征;計算反映短語部件的基頻序列中的曲率劇烈變化部分的平均沖激幅度和幅度方差,作為基頻序列的平均沖激幅度和沖激幅度方差特征;將上述提取出的沖激個數(shù)、平均沖激幅度、沖激幅度方差作為源于短語部件的3維韻律產(chǎn)生特征。
9.根據(jù)權(quán)利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟B中在進(jìn)行所述預(yù)處理后的原始英語語音信號中提取用于韻律測試的韻律影響特征包括步驟B3a,由公式一提取輔音段基頻PVI特征、元音段基頻PVI特征、音節(jié)段基頻PVI特征,形成共3維基于基頻PVI的韻律特征;步驟B3b,由公式一提取輔音段時長PVI特征、元音段時長PVI特征、音節(jié)段時長PVI特征,形成共3維基于時長PVI的韻律影響特征,其中,公式一的表達(dá)式為:Ρ^ = ιοοχΣ;; Xk-Xk+l L-1),連續(xù)語音段分為 、xk + xk+\)' ^ I和xk+1兩個部分,并分別代表第k個和第k+Ι個語音段的基頻值或時長值,m代表連續(xù)語音段的數(shù)目;這里的語音段是輔音段、元音段或音節(jié)段。
10.根據(jù)權(quán)利要求1所述的測試英語口語韻律水平的方法,其特征在于,所述步驟C之前還包括步驟C' 1,收集語音數(shù)據(jù)訓(xùn)練樣本作為開發(fā)集,并對所述語音數(shù)據(jù)訓(xùn)練樣本進(jìn)行人工韻律分?jǐn)?shù)的標(biāo)注;步驟C' 2,選擇韻律分?jǐn)?shù)擬合器模型;步驟 C' 3,將各個語音數(shù)據(jù)訓(xùn)練樣本的多知識源特征參數(shù)作為所述韻律分?jǐn)?shù)擬合器模型的前端輸入?yún)?shù),將各個語音數(shù)據(jù)訓(xùn)練樣本的人工韻律分?jǐn)?shù)作為韻律分?jǐn)?shù)擬合器模型的后端輸出結(jié)果;步驟C' 4,利用所述韻律分?jǐn)?shù)擬合器模型所對應(yīng)的模型訓(xùn)練算法,訓(xùn)練所述韻律分?jǐn)?shù)擬合器模型,獲取所述韻律分?jǐn)?shù)擬合器模型的模型參數(shù);所述步驟C包括將所述原始英語語音信號對應(yīng)的多知識源特征參數(shù)輸入訓(xùn)練后的韻律分?jǐn)?shù)擬合器,從而獲取所述原始英語語音的韻律水平評價測試分?jǐn)?shù)。
11.根據(jù)權(quán)利要求10所述的測試英語口語韻律水平的方法,其特征在于,所述韻律分?jǐn)?shù)擬合器模型為以下模型中的一種混合高斯模型、支撐向量機(jī)模型、多層感知器網(wǎng)絡(luò)模型。
全文摘要
本發(fā)明公開了一種測試英文口語韻律水平的方法。該方法包括步驟A,對原始英語語音信號進(jìn)行預(yù)處理;步驟B,在進(jìn)行預(yù)處理后的原始英語語音信號中提取用于韻律測試的多知識源特征參數(shù),該多知識源特征參數(shù)包括韻律表現(xiàn)特征、韻律產(chǎn)生特征和韻律影響特征;步驟C,由多數(shù)多知識源特征參數(shù)獲取所述原始英語語音的韻律水平測試分?jǐn)?shù)。本發(fā)明測試英文口語韻律水平的方法,以使用多知識源信息進(jìn)行細(xì)化并融合的策略取得更佳的測試效果,提高測試的客觀性和準(zhǔn)確性。
文檔編號G10L11/00GK102426834SQ201110252779
公開日2012年4月25日 申請日期2011年8月30日 優(yōu)先權(quán)日2011年8月30日
發(fā)明者徐波, 李宏言, 李鵬, 柯登峰, 王士進(jìn), 陳振標(biāo), 高鵬 申請人:中國科學(xué)院自動化研究所