亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種智能口語測評方法與流程

文檔序號:12128429閱讀:444來源:國知局

本發(fā)明涉及語言溝通領域,尤其涉及一種智能口語測評方法。



背景技術:

隨著全球經(jīng)濟一體化的發(fā)展,英語作為國際通用語言,越來越顯示出其重要的作用。商務往來、文化交流、跨國旅游等活動日益頻繁,越來越多的人需要學習一門外語,這樣口語交際能力的提高已經(jīng)成為了外語學習的迫切需求。如何提高外語的學習效果,更好地滿足用戶對外語學習的需求,已經(jīng)成為目前亟待解決的問題。



技術實現(xiàn)要素:

為了克服上述現(xiàn)有技術中的不足,本發(fā)明的目的在于,提供一種智能口語測評方法,方法包括:

S1:使用計算機的錄音設備獲取用戶的口語語音數(shù)據(jù)信息,提取用戶語音數(shù)據(jù)中的用戶語音特征;

S2:將用戶語音特征與標準語音特征進行對齊,并將用戶語音特征中的母音,輔音分別對應與標準語音特征的母音,輔音進行對比,形成對比數(shù)據(jù)信息;

S3:將對比數(shù)據(jù)信息進行評分;

S4:將對比數(shù)據(jù)信息及評分結果儲存至數(shù)據(jù)庫中。

優(yōu)選地,步驟S1之前還包括:設置標準朗讀文本,獲取標準朗讀文本的標準語音特征;

將標準語音特征按時間進行分段,分為n段,以20ms為一時間分段;

將每一時間段標準語音特征分為靜態(tài)特征及動態(tài)特征;

將每一時間段標準語音特征的頻譜能量進行分解,分解出每一時間段標準語音特征的母音節(jié)的頻譜能量分布以及輔音節(jié)的頻譜能量分布;

設置每一時間段內(nèi)標準語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量;

將每一時間段內(nèi)標準語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量儲存至數(shù)據(jù)庫中。

優(yōu)選地,步驟S1還包括:

S11將用戶語音數(shù)據(jù)按時間進行分段,分為n段,以20ms為一時間分段,對每一時間段用戶語音數(shù)據(jù)加矩形窗,或漢明窗處理得到分段語音信號Xn,n為分段數(shù);

S12對分段語音信號Xn進行短時傅里葉變換,變換為頻域信號,將短時時域信號轉化為頻域信號Yn,并通過Qn=│Yn2計算其短時能量譜Qn;

S13采用先進先出的方式將短時能量譜Qn從矢量空間S移動至帶通濾波器進行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,這時第k個濾波器輸出功率譜x'(k);

S14將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到M個MFCC系數(shù),一般M取13~15個;MFCC系數(shù)為:

S15將得到的每一時間段的用戶語音MFCC特征作為靜態(tài)特征,再將所述靜態(tài)特征做一階和二階差分,得到相應的動態(tài)特征。

優(yōu)選地,步驟S1還包括:

獲取每一語音段頻率范圍的頻譜能量(fk),該語音段內(nèi)的頻率上限值k1,下限值k2,獲取語音段內(nèi)的頻譜能量比值PNn;

優(yōu)選地,步驟S1還包括:

若語音段內(nèi)頻譜能量(fk)≥第一閾值,該語音段內(nèi)頻譜能量比值PNn≥第二閾值,則判斷此語音段為母音節(jié);第一閾值0.1-0.5,第二閾值取60%-85%;

以具有母音節(jié)的頻譜能量為基準,判斷具有母音節(jié)的頻譜能量之前的頻譜能量的過零率是否大于第三閾值,若大于第三閾值,則斷定該頻譜能量為母音前的輔音節(jié),第三閾值取100;

以具有母音節(jié)的頻譜能量為基準,判斷具有母音節(jié)的頻譜能量之后的頻譜能量的過零率是否大于第三閾值,若大于第三閾值,則判斷該頻譜能量為母音后的輔音;

若具有母音節(jié)的頻譜能量之后的頻譜能量的過零率大于第三閾值,且該頻譜能量為語音段的最后一幀,則判斷為鼻尾輔音。

優(yōu)選地,步驟S2還包括:

設置每一時間段內(nèi)用戶語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量;

使用DTW算法,得到一條誤差最小的對齊路徑以,得到一條誤差最小的對齊路徑和對應的DTW距離;

基于該對齊路徑和對應的DTW距離,將相同時間段內(nèi)用戶語音特征的母音節(jié)MFCC特征向量與標準語音特征的母音節(jié)MFCC特征向量進行語音比較以及將相同時間段內(nèi)用戶語音特征的輔音節(jié)MFCC特征向量與標準語音特征的輔音節(jié)MFCC特征向量進行語音比較,得出用戶語音特征與標準語音特征之間的發(fā)音差別。

優(yōu)選地,步驟S2還包括:

設置每一時間段內(nèi)標準語音特征的母音節(jié)標準語音特征向量為P1=[p1(1),p1(2),…,p1(R)],一階差分向量為PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R為標準語音特征的母音節(jié)語音長度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;

設置每一時間段內(nèi)標準語音特征的輔音節(jié)標準語音特征向量為P’1=[p’1(1),p’1(2),…,p’1(R)],一階差分向量為P’Δ1=[p’Δ1(1),p’Δ1(2),…,p’Δ1(R)](R為標準語音特征的語音長度),P’Δ1(n)=|p’1(n)-p’1(n-1)|,n=1,2,…,R,p’1(0)=0;

優(yōu)選地,步驟S2還包括:

設置每一時間段內(nèi)用戶語音特征的母音節(jié)特征向量為P2=[p2(1),p2(2),…,p2(T)],其一階差分向量為PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T為待評價語音的長度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;

設置每一時間段內(nèi)用戶語音特征的輔音節(jié)特征向量為P’2=[p’2(1),p’2(2),…,p’2(T)],其一階差分向量為P’Δ2=[p’Δ2(1),p’Δ2(2),…,p’Δ2(T)](T為待評價語音的長度),

P’Δ2(n)=|p’2(n)-p’2(n-1)|,n=1,2,…,T,p’2(0)=0;

使用DTW算法,得到一條誤差最小的對齊路徑以,得到一條誤差最小的對齊路徑,進行每一時間段內(nèi)的母音節(jié)和輔音節(jié)比較;

比較得出母音節(jié)的差距dp,以及變化量的差距Δdp,比較得出輔音節(jié)的差距d’p,以及變化量的差距Δd’p,來獲得用戶語音特征與標準語音特征的相似度,即:

dp=|p1(n)-p2(m)|

d’p=|p’1(n)-p’2(m)|

Δdp=|Δp1(n)-Δp2(m)|

Δd’p=|Δp’1(n)-Δp’2(m)|

其中,Δpi(n)=|pi(n)-pi(n-1)|

Δp’i(n)=|p’i(n)-p’i(n-1)|。

優(yōu)選地,步驟S3還包括:評分s為:

s=ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)

其中,ω1,ω2,ωn分別代表每一語音段的權重;

j代表每一語音段內(nèi)母音節(jié)加輔音節(jié)的總數(shù)量;

ω11,ω12……ω1j分別代表第一個語音段內(nèi)音節(jié)的權重;

s11,s12……+s1j,代表第一個語音段內(nèi)的各個音節(jié);

ω21,ω22……ω2j分別代表第二個語音段內(nèi)音節(jié)的權重;

s21,s22……+s2j,代表第二個語音段內(nèi)的各個音節(jié);

ωn1,ωn2……ωnj分別代表第n個語音段內(nèi)音節(jié)的權重;

sn1,sn2……+snj,代表第n個語音段內(nèi)的各個音節(jié)。

從以上技術方案可以看出,本發(fā)明具有以下優(yōu)點:

智能口語測評方法使得用戶與計算機獲取同樣的一片文本,進行朗讀對比,使用戶能夠獲悉到自己的口語與標準的口語有哪些詞語發(fā)音不準確,還需要在哪些詞語進行改進及進一步學習。這樣給學習者帶來了學習語言的便捷性,提高外語學習的效率,增加用戶學習興趣。

附圖說明

圖1為智能口語測評方法的流程圖。

具體實施方式

為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點能夠更加的明顯和易懂,下面將運用具體的實施例及附圖,對本發(fā)明保護的技術方案進行清楚、完整地描述,顯然,下面所描述的實施例僅僅是本發(fā)明一部分實施例,而非全部的實施例?;诒緦@械膶嵤├?,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本專利保護的范圍。

本發(fā)明提供一種智能口語測評方法,如圖1所示,本方法采用一標準朗讀文本,計算機先獲取該標準朗讀文本的內(nèi)容,并獲取標準朗讀文本的標準讀音。本發(fā)明所涉及的方法是基于計算機硬件配合相應的程序實現(xiàn)。這樣用戶與計算機獲取同樣的一片文本,進行朗讀對比,使得用戶能夠獲悉到自己的口語與標準的口語有哪些詞語發(fā)音不準確,還需要在哪些詞語進行改進及進一步學習。這樣給學習者帶來了學習語言的便捷性,提高外語學習的效率,增加用戶學習興趣。

方法包括:

S1:使用計算機的錄音設備獲取用戶的口語語音數(shù)據(jù)信息,提取用戶語音數(shù)據(jù)中的用戶語音特征;

S2:將用戶語音特征與標準語音特征進行對齊,并將用戶語音特征中的母音,輔音分別對應與標準語音特征的母音,輔音進行對比,形成對比數(shù)據(jù)信息;

S3:將對比數(shù)據(jù)信息進行評分;

S4:將對比數(shù)據(jù)信息及評分結果儲存至數(shù)據(jù)庫中。

步驟S1之前還包括:設置標準朗讀文本,獲取標準朗讀文本的標準語音特征;

將標準語音特征按時間進行分段,分為n段,以20ms為一時間分段;

將每一時間段標準語音特征分為靜態(tài)特征及動態(tài)特征;

將每一時間段標準語音特征的頻譜能量進行分解,分解出每一時間段標準語音特征的母音節(jié)的頻譜能量分布以及輔音節(jié)的頻譜能量分布;

設置每一時間段內(nèi)標準語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量;

將每一時間段內(nèi)標準語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量儲存至數(shù)據(jù)庫中。

步驟S1還包括:

S11將用戶語音數(shù)據(jù)按時間進行分段,分為n段,以20ms為一時間分段,對每一時間段用戶語音數(shù)據(jù)加矩形窗,或漢明窗處理得到分段語音信號Xn,n為分段數(shù);

S12對分段語音信號Xn進行短時傅里葉變換,變換為頻域信號,將短時時域信號轉化為頻域信號Yn,并通過Qn=│Yn2計算其短時能量譜Qn;

S13采用先進先出的方式將短時能量譜Qn從矢量空間S移動至帶通濾波器進行濾波;由于每一個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,這時第k個濾波器輸出功率譜x'(k);

S14將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到M個MFCC系數(shù),一般M取13~15個;MFCC系數(shù)為:

S15將得到的每一時間段的用戶語音MFCC特征作為靜態(tài)特征,再將所述靜態(tài)特征做一階和二階差分,得到相應的動態(tài)特征。

本實施例中,步驟S1還包括:

獲取每一語音段頻率范圍的頻譜能量(fk),該語音段內(nèi)的頻率上限值k1,下限值k2,獲取語音段內(nèi)的頻譜能量比值PNn

步驟S1還包括:

若語音段內(nèi)頻譜能量(fk)≥第一閾值,該語音段內(nèi)頻譜能量比值PNn≥第二閾值,則判斷此語音段為母音節(jié);第一閾值0.1-0.5,第二閾值取60%-85%;

以具有母音節(jié)的頻譜能量為基準,判斷具有母音節(jié)的頻譜能量之前的頻譜能量的過零率是否大于第三閾值,若大于第三閾值,則斷定該頻譜能量為母音前的輔音,第三閾值取100;

以具有母音節(jié)的頻譜能量為基準,判斷具有母音節(jié)的頻譜能量之后的頻譜能量的過零率是否大于第三閾值,若大于第三閾值,則判斷該頻譜能量為母音后的輔音;

若具有母音節(jié)的頻譜能量之后的頻譜能量的過零率大于第三閾值,且該頻譜能量為語音段的最后一幀,則判斷為鼻尾輔音。

將用戶的每一語音段進行分解得出母音節(jié),輔音節(jié)以及在語音段的最后一幀是否有鼻尾輔音,鼻尾輔音即為鼻音。

在計算機預先設置了標準朗讀文本中每一語音段的母音節(jié),輔音節(jié)以及在語音段的最后一幀是否有鼻尾輔音,鼻尾輔音即為鼻音。將用戶朗讀的每一語音段的母音節(jié),輔音節(jié)以及在語音段的最后一幀的鼻尾輔音,分別與標準語音特征進行比較。

本實施例中,步驟S2還包括:

設置每一時間段內(nèi)用戶語音特征的母音節(jié)MFCC特征向量,輔音節(jié)MFCC特征向量;

使用DTW算法,得到一條誤差最小的對齊路徑以,得到一條誤差最小的對齊路徑和對應的DTW距離;

基于該對齊路徑和對應的DTW距離,將相同時間段內(nèi)用戶語音特征的母音節(jié)MFCC特征向量與標準語音特征的母音節(jié)MFCC特征向量進行語音比較以及將相同時間段內(nèi)用戶語音特征的輔音節(jié)MFCC特征向量與標準語音特征的輔音節(jié)MFCC特征向量進行語音比較,得出用戶語音特征與標準語音特征之間的發(fā)音差別。

本實施例中,步驟S2還包括:

設置每一時間段內(nèi)標準語音特征的母音節(jié)標準語音特征向量為P1=[p1(1),p1(2),…,p1(R)],一階差分向量為PΔ1=[pΔ1(1),pΔ1(2),…,pΔ1(R)](R為標準語音特征的母音節(jié)語音長度),PΔ1(n)=|p1(n)-p1(n-1)|,n=1,2,…,R,p1(0)=0;

設置每一時間段內(nèi)標準語音特征的輔音節(jié)標準語音特征向量為P’1=[p’1(1),p’1(2),…,p’1(R)],一階差分向量為P’Δ1=[p’Δ1(1),p’Δ1(2),…,p’Δ1(R)](R為標準語音特征的語音長度),P’Δ1(n)=|p’1(n)-p’1(n-1)|,n=1,2,…,R,p’1(0)=0;

步驟S2還包括:

設置每一時間段內(nèi)用戶語音特征的母音節(jié)特征向量為P2=[p2(1),p2(2),…,p2(T)],其一階差分向量為PΔ2=[pΔ2(1),pΔ2(2),…,pΔ2(T)](T為待評價語音的長度),PΔ2(n)=|p2(n)-p2(n-1)|,n=1,2,…,T,p2(0)=0;

設置每一時間段內(nèi)用戶語音特征的輔音節(jié)特征向量為P’2=[p’2(1),p’2(2),…,p’2(T)],其一階差分向量為P’Δ2=[p’Δ2(1),p’Δ2(2),…,p’Δ2(T)](T為待評價語音的長度),

P’Δ2(n)=|p’2(n)-p’2(n-1)|,n=1,2,…,T,p’2(0)=0;

使用DTW算法,得到一條誤差最小的對齊路徑以,得到一條誤差最小的對齊路徑,進行每一時間段內(nèi)的母音節(jié)和輔音節(jié)比較;

比較得出母音節(jié)的差距dp,以及變化量的差距Δdp,比較得出輔音節(jié)的差距d’p,以及變化量的差距Δd’p,來獲得用戶語音特征與標準語音特征的相似度,即:

dp=|p1(n)-p2(m)|

d’p=|p’1(n)-p’2(m)|

Δdp=|Δp1(n)-Δp2(m)|

Δd’p=|Δp’1(n)-Δp’2(m)|

其中,Δpi(n)=|pi(n)-pi(n-1)|

Δp’i(n)=|p’i(n)-p’i(n-1)|。

步驟S3還包括:評分s為:

s=ω1(ω11s11+ω12s12+……+ω1js1j)+ω2(ω21s21+ω22s22+……+ω2js2j)+……+ωn(ωn1sn1+ωn2sn2+……+ωnjsnj)

其中,ω1,ω2,ωn分別代表每一語音段的權重;

j代表每一語音段內(nèi)母音節(jié)加輔音節(jié)的總數(shù)量;

ω11,ω12……ω1j分別代表第一個語音段內(nèi)音節(jié)的權重;

s11,s12……+s1j,代表第一個語音段內(nèi)的各個音節(jié);

在第一個語音段內(nèi)如果第一個音節(jié)是輔音節(jié)則s11為輔音節(jié),如果第一個音節(jié)是母音節(jié)則s11為母音節(jié);如果第一個音節(jié)是輔音節(jié)則s12為輔音節(jié),如果第一個音節(jié)是母音節(jié)則s12為母音節(jié);每一個語音段以此類推。

ω21,ω22……ω2j分別代表第二個語音段內(nèi)音節(jié)的權重;

s21,s22……+s2j,代表第二個語音段內(nèi)的各個音節(jié);

ωn1,ωn2……ωnj分別代表第n個語音段內(nèi)音節(jié)的權重;

sn1,sn2……+snj,代表第n個語音段內(nèi)的各個音節(jié)。

各個權重參數(shù),是經(jīng)由大量的實驗得出,也可以由每一語音段的權重比例分配得知。也可以根據(jù)每一語音段對于文本的重要性設定。也可以由研發(fā)人員基于大量實驗后得出最佳效果進行設定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1