一種英語口語自動打分方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及信號處理技術領域,尤其涉及一種英語口語自動打分方法及系統(tǒng)。
【背景技術】
[0002] 隨著計算機技術的發(fā)展,越來越多的學習軟件可以幫助人們更方便地學習外語。 目前絕大多數(shù)計算機輔助外語學習軟件主要關注文字應用能力和語言理解能力的訓練,卻 很少關注口語發(fā)音能力訓練。應用語音處理技術,可以實現(xiàn)英語學習中的口語發(fā)音自動打 分。
[0003] 當前主流的英語口語打分系統(tǒng)分為整體打分系統(tǒng)和對比打分系統(tǒng)兩種。整體打分 系統(tǒng)不提供標準發(fā)音,直接測試發(fā)音人的發(fā)音標準程度,因而需要依賴一個背景標準發(fā)音 模型;對比打分系統(tǒng)提供標準發(fā)音,發(fā)音人跟讀標準發(fā)音,系統(tǒng)評價發(fā)音人發(fā)音與標準發(fā)音 的相似程度,從而實現(xiàn)英語口語的打分。但是,現(xiàn)有的英語口語打分系統(tǒng)并沒有對評價分數(shù) 進行合理分布,信道魯棒性差。
【發(fā)明內容】
[0004] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或 者減緩上述問題的英語口語自動打分方法及系統(tǒng)。
[0005] 根據(jù)本發(fā)明的一個方面,提供了一種英語口語自動打分方法,該方法包括:
[0006] 提取待測語音信號的多幀語音特征;
[0007] 將所述多幀語音特征輸入深度神經(jīng)網(wǎng)絡DNN模型,提取各幀語音特征的幀后驗概 率,所述DNN模型為預先訓練的,DNN模型的輸入量為幀語音特征,輸出量為幀語音特征對 不同發(fā)音的幀后驗概率;
[0008] 對所述各幀語音特征的幀后驗概率進行分布統(tǒng)計,得到待測語音信號的全局特 征;
[0009] 利用多層前向神經(jīng)網(wǎng)絡模型MLP對所述全局特征進行打分。
[0010] 可選的,所述對所述各幀語音特征的幀后驗概率進行分布統(tǒng)計,提取待測語音信 號的全局特征,包括:
[0011] 將所述多幀語音特征與預設音素串進行對齊,得到每幀語音特征在其對應的音素 上的后驗概率;
[0012] 根據(jù)所述每幀語音特征在其對應的音素上的后驗概率,對各幀語音特征在其對應 的音素上的后驗概率進行分布統(tǒng)計,得到待測語音信號的全局特征。
[0013] 可選的,所述對各幀語音特征在其對應的音素上的后驗概率進行分布統(tǒng)計,提取 待測語音信號的全局特征,包括:
[0014]統(tǒng)計各幀語音特征在其對應的音素上的后驗概率在N個取值區(qū)間的分布比例,得 到一個N維的全局特征向量[s(1),s(2),…s(N)],記為:
[0015]
[0016] 其中,T為待測語音信號的總幀數(shù),S為狄拉克函數(shù),N為預設取值區(qū)間的個數(shù),當 參數(shù)中所設條件滿足時,s(i)取1,否則取0 ;
[0017] {c(i) ;i = 0, 一N}是一個對概率取值區(qū)間[0, 1]的劃分,考慮到DNN模型輸出概 率的非均勻性,取對數(shù)劃分,即:
[0018] c(0) = 0
[0019] c (i) = 101-N i = 1,2, 3. ? ?,N。
[0020] 可選的,所述方法還包括:
[0021] 根據(jù)預設數(shù)據(jù)進行DNN模型訓練。
[0022] 根據(jù)本發(fā)明的另一個方面,提供了一種英語口語自動打分系統(tǒng),該系統(tǒng)包括:
[0023] 語音特征提取模塊,用于提取待測語音信號的多幀語音特征;
[0024] 幀后驗概率提取模塊,用于將所述語音特征提取模塊提取的多幀語音特征輸入深 度神經(jīng)網(wǎng)絡DNN模型,提取各幀語音特征的幀后驗概率,所述DNN模型為預先訓練的,DNN模 型的輸入量為幀語音特征,輸出量為幀語音特征對不同發(fā)音的幀后驗概率;
[0025] 分布統(tǒng)計模塊,用于對所述幀后驗概率提取模塊提取的各幀語音特征的幀后驗概 率進行分布統(tǒng)計,得到待測語音信號的全局特征;
[0026] 打分模塊,用于利用多層前向神經(jīng)網(wǎng)絡模型MLP對所述全局特征進行打分。
[0027] 可選的,所述分布統(tǒng)計模塊包括:
[0028] 音素對齊單元,用于將所述多幀語音特征與預設音素串進行對齊,得到每幀語音 特征在其對應的音素上的后驗概率;
[0029] 分布統(tǒng)計單元,用于根據(jù)所述每幀語音特征在其對應的音素上的后驗概率,對各 幀語音特征在其對應的音素上的后驗概率進行分布統(tǒng)計,得到待測語音信號的全局特征。
[0030] 可選的,所述分布統(tǒng)計單元用于統(tǒng)計各幀語音特征在其對應的音素上的后驗概率 在N個取信嘆間的分布比例,得到 t N維的今局特征向量「s⑴.s⑵.一s (N) 1,iP,為:
[0031]
[0032] 其中,T為待測語音信號的總幀數(shù),S為狄拉克函數(shù),N為預設取值區(qū)間的個數(shù),當 參數(shù)中所設條件滿足時,s(i)取1,否則取0 ;
[0033] {c(i) ;i = 0,…吣是一個對概率取值區(qū)間[0, 1]的劃分,考慮到DNN模型輸出概 率的非均勻性,取對數(shù)劃分,即:
[0034] c(0) = 0
[0035] c (i) = 101' i = 1,2, 3. ? ?,N〇
[0036] 可選的,所述系統(tǒng)還包括:
[0037] DNN模型訓練模塊,用于根據(jù)預設數(shù)據(jù)進行DNN模型訓練。
[0038] 本發(fā)明的有益效果為:
[0039]本發(fā)明提供的英語口語自動打分方法及系統(tǒng),基于深度神經(jīng)網(wǎng)絡DNN模型后驗概 率特征進行整體打分,利用DNN的區(qū)分性建模特性,得到對噪聲更加魯棒的幀后驗概率(局 部描述特征),進而得到有效的句子全局特征,最后利用多層感知器MLP網(wǎng)絡進行打分,相 較傳統(tǒng)基于GMM的打分方法具有更強的噪音和信道魯棒性;而且MLP基于人工標注的質量 評價進行學習優(yōu)化參數(shù),對發(fā)音質量亦具有更強的區(qū)分性,進而得到的分數(shù)分布更加合理。
【附圖說明】
[0040] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0041] 圖1為本發(fā)明實施例提出的一種英語口語自動打分方法的流程圖;
[0042] 圖2為本發(fā)明實施例提出的深度神經(jīng)網(wǎng)絡DNN模型的示意圖;
[0043] 圖3為本發(fā)明實施例提出的了利用多層感知器MLP網(wǎng)絡進行打分的示意圖;
[0044] 圖4為本發(fā)明實施例提出的一種英語口語自動打分系統(tǒng)的結構框圖。
【具體實施方式】
[0045] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0046] 本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個"、"所述"和"該"也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0047] 本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術 術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應 該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中 的意義一致的意義,并且除非被特定定義,否則不會用理想化或過于正式的含義來解釋。 [0048] 為解決上述技術問題,本發(fā)明實施例提出一種英語口語自動打分方法及系統(tǒng),傳 統(tǒng)整體打分方法一般基于高斯混模型(GMM)或隱馬爾可夫-高斯混合模型(HMM-GMM)。而 本發(fā)明實施例提出的英語口語自動打分方法及系統(tǒng),基于深度神經(jīng)網(wǎng)絡(DNN)后驗概率特 征的整體打分,利用DNN的區(qū)分性建模特性,得到一種對噪聲更加魯棒的局部描述特征(幀 后驗概率),進而得到有效的句子全局特征,最后利用多層感知器(MLP)網(wǎng)絡進行打分。
[0049] DNN模型是一種非統(tǒng)計模型,不能直接對句子進行建模,只能對語音幀建模,得到 局部特征,即幀后驗概率。得到局部特征后,進而提取全局特征,從局部特征中分布統(tǒng)計得 到句子層的全局特征。最后,根據(jù)全局特征用來進行句子級的口語打分。
[0050] 圖1示出了本發(fā)明實施例的一種英語口語自動打分方法的流程圖。
[0051] 參照圖1,本發(fā)明實施例提出的英語口語自動打分方法包括:
[0052] S11、提取待測語音信號的多幀語音特征;
[0053] S12、將所述多幀語音特征輸入深度神經(jīng)網(wǎng)絡DNN模型,提取各幀語音特征的幀后 驗概率,所述DNN模型為預先訓練的,DNN模型的輸入量為幀語音特征,輸出量為幀語音特 征對不同發(fā)音的幀后驗概率;
[0054] 本步驟中,DNN模型經(jīng)過充分訓練以后,給定一個語音特征向量幀0(t)作為輸入, 其輸出即為該語音幀對不同發(fā)音(包括噪音)的后驗概率向量,記為u(t)。在打分過程中, 對各幀后驗概率進行分布統(tǒng)計,提取全局特征,送入多層前向神經(jīng)網(wǎng)絡模型(MLP)進行區(qū) 分性打分。
[0055] S13、對所述各幀語音特征的幀后驗概率進行分布統(tǒng)計,得到待測語音信號的全局 特征;
[0056] S14、利用多層前向神經(jīng)網(wǎng)絡模型MLP對所述全局特征進行打分。
[0057] 本發(fā)明實施例提出的英語口語自動打分方法,基于深度神經(jīng)網(wǎng)絡(DNN)后驗概率 特征的整體打分。其中,DNN模型是一種深度區(qū)分性神經(jīng)網(wǎng)絡模型,如圖2所示,其優(yōu)化目 標為不同發(fā)音之間的區(qū)分性,即使得對不同發(fā)音的區(qū)分能力最大化,DNN的這一特性使其可 對抗背景噪聲和信道影響。
[0058] 在本發(fā)明實施例中,所述步驟S13 :對所述各幀語音特征的幀后驗概率進行分布 統(tǒng)計,提取待測語音信號的全局特征,進一步包括:
[0059] 將所述多幀語音特征與預設音素串進行對齊,得到每幀語音特征在其對應的音素 上的后驗概率;
[0060] 根據(jù)所述每幀語音特征在其對應的音素上的后驗概率,對各幀語音特征在其對應 的音素上的后驗概率進行分布統(tǒng)計,得到待測語音信號的全局特征。
[0061] 更進一步地,所述對各幀語音特征在其對應的音素上的后驗概率進行分布統(tǒng)計, 提取待測語音信號的全局特征,包括:
[0062] 統(tǒng)計各幀語音特征在其對應的音素上的后驗概率在N個取值區(qū)間的分布比例,得 到一個N維的全局特征向量[s (1),s (2),…s (N)],記為:
[0063]
[0064]