一種語音評分方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語音評分方法,包括步驟:S1、錄制考生的考卷語音;S2、對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料;S3、提取所述考卷語音語料的特征參數(shù);S4、采用基于HMM和ANN混合模型的語音識別方法將所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出所述考卷語音的內(nèi)容,并給予初步評分;S5、若初步評分低于閾值,則初步評分為最終評分;否則進行準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)等分指標(biāo)的評分;S6、綜合各種評分計算得到考卷語音的最終評分。本發(fā)明還公開了一種語音評分系統(tǒng)。本發(fā)明采用基于混合模型的語音識別方法,識別更準(zhǔn)確,還能夠通過評價標(biāo)準(zhǔn)分級實現(xiàn)考生錄制后以文件形式存放的語音試卷進行客觀評分。
【專利說明】一種語音評分方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音識別和評價技術(shù),尤其涉及一種語音評分方法及系統(tǒng)。
【背景技術(shù)】
[0002]語音識別技術(shù)從應(yīng)用角度上通常分為兩類:一類是特定人語音識別,一類是非特定人語音識別。特定人語音識別技術(shù)是針對一個特定的人的識別技術(shù),簡單說就是只識別一個人的聲音,不適用于更廣泛的群體;而非特定人識別技術(shù)恰恰相反,可以滿足不同人的語音識別要求,適合廣泛人群應(yīng)用。
[0003]目前在大詞匯語音識別方面處于領(lǐng)先地位的IBM語音研究小組。AT&T的貝爾研究所也開始了一系列有關(guān)非特定人語音識別的實驗,其成果確立了如何制作用于非特定人語音識別的標(biāo)準(zhǔn)模板的方法。
[0004]這一時期所取得的重大進展有:
[0005](I)隱式馬爾科夫模型(Hidden Markov Models, HMM)技術(shù)的成熟和不斷完善成為語音識別的主流方法;
[0006](2)在進行連續(xù)語音識別的時候,除了識別聲學(xué)信息外,更多地利用各種語言知識,諸如構(gòu)詞、句法、語義、對話背景方面等的知識來幫助進一步對語音作出識別和理解;同時在語音識別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計概率的語言模型;
[0007](3)人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò);此外,還有網(wǎng)絡(luò)結(jié)構(gòu)簡單、易于實現(xiàn)、沒有反饋信號的前向網(wǎng)絡(luò);系統(tǒng)的穩(wěn)定性與聯(lián)想記憶功能有密切關(guān)系、神經(jīng)元間有反饋的反饋網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類邊界的能力,顯然它十分有助于模式劃分。
[0008]另外,面向個人用途的連續(xù)語音聽寫機技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對全部詞匯進行訓(xùn)練,便可在使用中不斷提高識別率。
[0009]中國的語音識別技術(shù)的發(fā)展:在北京有中科院聲學(xué)所、自動化所、清華大學(xué)、北方交通大學(xué)等科研機構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國科技大學(xué)、四川大學(xué)等也紛紛行動起來?,F(xiàn)在,國內(nèi)有不少語音識別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色:在孤立字大詞匯量語音識別方面,最具代表性的是清華大學(xué)電子工程系與中國電子器件公司合作研制成功的THED-919特定人語音識別與理解實時系統(tǒng);在連續(xù)語音識別方面,四川大學(xué)計算機中心在微機上實現(xiàn)了一個主題受限的特定人連續(xù)英語一漢語語音翻譯演示系統(tǒng);在非特定人語音識別方面,有清華大學(xué)計算機科學(xué)與技術(shù)系研制的聲控電話查號系統(tǒng)并投入實際使用。
[0010]另外,科大訊飛作為中國最大的智能語音技術(shù)提供商,在2010年發(fā)布了全球首個移動互聯(lián)網(wǎng)智能語音交互平臺“訊飛語音云”,宣告移動互聯(lián)網(wǎng)語音聽寫時代到來。
[0011]在智能語音【技術(shù)領(lǐng)域】科大訊飛有著長期的研究積累,并在中文語音合成、語音識另IJ、語音評測等多項技術(shù)上擁有國際領(lǐng)先的成果:語音合成和語音識別技術(shù)是實現(xiàn)人機語音通信,建立一個有聽和講能力的語音系統(tǒng)所必需的兩項關(guān)鍵技術(shù);自動語音識別技術(shù)(Auto Speech Recognize, ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來;語音評測技術(shù)是智能語音處理領(lǐng)域的一項研究前沿,又稱計算機輔助語言學(xué)習(xí)(Computer Assisted Language Learning)技術(shù),是一種通過機器自動對發(fā)音進行評分、檢錯并給出矯正指導(dǎo)的技術(shù);聲紋識別技術(shù),又稱說話人識別技術(shù)(Speaker Recognition),是一項通過語音信號提取代表說話人身份的相關(guān)特征(如反映聲門開合頻率的基頻特征、反映口腔大小形狀及聲道長度的頻譜特征等),進而識別出說話人身份等工作方面的技術(shù);自然語言是幾千年來人們生活、工作、學(xué)習(xí)中必不可少的元素,而計算機是20世紀(jì)最偉大的發(fā)明之一,如何利用計算機對人類掌握的自然語言進行處理、甚至理解,使計算機具備人類的聽說讀寫能力,一直是國內(nèi)外研究機構(gòu)非常關(guān)注和積極開展的研究工作。
【發(fā)明內(nèi)容】
[0012]本發(fā)明所要解決的技術(shù)問題在于,提供一種語音評分方法和系統(tǒng),能夠快捷準(zhǔn)確地進行閱卷評分,以客觀的評分標(biāo)準(zhǔn)給考生評分。本發(fā)明融合了現(xiàn)有發(fā)音質(zhì)量客觀評價模型的優(yōu)點,獲取了性能更好的語音識別模型和語音訓(xùn)練模型以及更為準(zhǔn)確的語音口語評分方案;并且能夠通過多重評價指標(biāo)體系實現(xiàn)對以文件形式存放的語音試卷進行客觀評分。本發(fā)明具有更加穩(wěn)定、效率更高的優(yōu)點,為研究成果的實用化奠定基礎(chǔ),有利于實現(xiàn)大規(guī)模英語口語測試全自動閱卷的目標(biāo)。
[0013]為解決上述技術(shù)問題,本發(fā)明提供了一種語音評分方法,包括步驟:
[0014]S1、錄制考生的考卷語音;
[0015]S2、對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料;
[0016]S3、提取所述考卷語音語料的特征參數(shù);
[0017]S4、采用基于HMM和ANN混合模型的語音識別方法將所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出所述考卷語音的內(nèi)容,并給予初步評分;
[0018]S5、若初步評分低于預(yù)先設(shè)定閾值,則所述初步評分為該考卷語音的最終評分,并標(biāo)記該考卷語音為問題卷;若初步評分高于預(yù)先設(shè)定閾值,則對所述考卷語音進行準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)分指標(biāo)評分;
[0019]S6、對所述分指標(biāo)評分進行加權(quán)計算得到所述考卷語音的最終評分。
[0020]進一步的,所述步驟SI之前還包括步驟S0,所述步驟SO具體包括步驟:
[0021]S01、錄制專家的標(biāo)準(zhǔn)語音;
[0022]S02、對所述標(biāo)準(zhǔn)語音進行預(yù)處理,得到標(biāo)準(zhǔn)語音語料;
[0023]S03、提取所述標(biāo)準(zhǔn)語音語料的特征參數(shù);
[0024]S04、對所述標(biāo)準(zhǔn)語音語料的特征參數(shù)進行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語音模板。
[0025]進一步的,所述步驟S4中基于HMM和ANN混合模型的語音識別方法的具體步驟為:
[0026]S41、建立所述考卷語音語料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率;
[0027]S42、將所述所有狀態(tài)累積概率作為ANN分類器的輸入特征進行處理,從而輸出識別結(jié)果;
[0028]S43、將所述識別結(jié)果與所述標(biāo)準(zhǔn)語音模板進行特征匹配,從而識別出所述考卷語音的內(nèi)容。
[0029]進一步的,所述步驟S2中的預(yù)處理具體包括預(yù)加重、分幀、加窗、降噪、端點檢測和切詞,其中,所述降噪的具體步驟為采用語音的空白語音段作為噪聲的基值對后續(xù)語音進行去噪處理。
[0030]進一步的,所述切詞具體包括步驟:
[0031]S21、提取語音中每個音素的MFCC參數(shù),并建立對應(yīng)音素的HMM模型;
[0032]S22、對語音進行粗切分,得到有效的語音段;
[0033]S23、根據(jù)所述音素的HMM模型識別出所述語音段的單詞,從而將語音識別為單詞
隹A
口 O
[0034]進一步的,所述步驟S3中的提取參數(shù)特征具體為提取MFCC特征參數(shù),具體步驟為將預(yù)處理后得到的語料進行快速傅里葉變換、三角窗濾波、求對數(shù)、離散余弦變換得到MFCC特征參數(shù)。
[0035]進一步的,所述步驟S5中的準(zhǔn)確度評分具體步驟為:
[0036]采用抽插值的方法將待評分語音語句規(guī)整到與標(biāo)準(zhǔn)語音語句相近的程度;采用短時能量作為特征來提取所述待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線;通過比較待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線的擬合程度進行評分。
[0037]進一步的,所述步驟S5中的流利度評分具體步驟為:
[0038]將待評分語音截成前后兩部分,并對前半部份和后半部份切詞從而得到有效語音段;將前后兩部分的有效語音段的長度分別與總待評分語音的長度作除運算,并將得到的值與對應(yīng)的閾值相比較,若都大于對應(yīng)的閾值,則判定為流利;否則,判定為不流利。
[0039]語速評分具體步驟為:計算待評分語音中發(fā)音部分占整個待評分語音時長的比例,根據(jù)所述比例進行語速評分。
[0040]節(jié)奏評分具體步驟為:采用改進的dPVI參數(shù)計算公式計算待評分語音的節(jié)奏。
[0041]重音評分具體步驟為:在規(guī)整后的強度曲線基礎(chǔ)上,通過設(shè)置重音閾值和非重音閾值作為特征的雙門限以及重讀元音時長劃分重音單元,并采用DTW算法對所述待評分語音語句和標(biāo)準(zhǔn)語音語句進行模式匹配,實現(xiàn)重音的評。
[0042]語調(diào)評分具體步驟為:提取待評分語音和標(biāo)準(zhǔn)語音的共振峰,并根據(jù)所述待評分語音共振峰的變化趨勢與標(biāo)準(zhǔn)語音共振峰的變化趨勢的擬合程度對語調(diào)進行評分。
[0043]本發(fā)明還提供了一種語音評分系統(tǒng),包括:
[0044]語音錄制模塊,用于錄制考生的考卷語音;
[0045]預(yù)處理模塊,用于對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料;
[0046]參數(shù)特征提取模塊,用于提取所述考卷語音語料的特征參數(shù);
[0047]語音識別模塊,用于采用基于HMM和ANN混合模型的語音識別方法對所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出考卷語音的內(nèi)容,并給予初步評分;
[0048]語音評分模塊,用于對于初步評分高于設(shè)定閾值的考卷語音進行準(zhǔn)確度評分、流利度評分、語速評分、節(jié)奏評分、重音評分和語調(diào)評分。[0049]綜合評分模塊,用于綜合準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)的評分計算得到初步評分高于設(shè)定閾值的考卷語音的最終評分。
[0050]實施本發(fā)明,具有如下有益效果:
[0051]1、本發(fā)明在預(yù)處理模塊中加入了實用的降噪和切詞方法,得到質(zhì)量更好的語音語料;
[0052]2、采用基于HMM和ANN混合模型的語音識別方法,性能更佳,識別更為準(zhǔn)確;
[0053]3、通過對語速、節(jié)奏、重音和語調(diào)的多指標(biāo)分析,比原有朗讀題的評分指標(biāo)更多元化,結(jié)果更具客觀性;
[0054]4、通過對準(zhǔn)確度和流利度的雙重分析,在原有只能實現(xiàn)對朗讀題評分的基礎(chǔ)上,實現(xiàn)了對翻譯題、問答題和復(fù)述題等非朗讀題的客觀評分,建立了一個合理完善的語音評分方法和系統(tǒng),能快捷準(zhǔn)確地進行閱卷評分,以客觀的評分標(biāo)準(zhǔn)給考生評分;
[0055]5、本發(fā)明具有更加穩(wěn)定、效率更高的優(yōu)點,且實用性強,應(yīng)用范圍廣,能夠運用到口語考試的評改過程,大幅度有效地縮短評改時間,提高系統(tǒng)處理的高效性,也提高了評改的客觀性。
【專利附圖】
【附圖說明】
[0056]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0057]圖1是本發(fā)明實施例提供的語音評分方法的流程示意圖;
[0058]圖2是步驟SO的具體步驟的流程示意圖;
[0059]圖3是圖1中預(yù)處理的具體步驟的流程示意圖;
[0060]圖4是圖3中切詞的具體步驟的流程示意圖;
[0061]圖5是MFCC特征參數(shù)提取的具體步驟的流程示意圖;
[0062]圖6是基于HMM和ANN混合模型的語音識別方法的具體步驟的流程示意圖;
[0063]圖7是本發(fā)明實施例提供的語音評分系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0064]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0065]本發(fā)明實施例提供了一種語音評分方法,如圖1所示,包括步驟:
[0066]S1、錄制考生的考卷語音;
[0067]S2、對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料;
[0068]S3、提取所述考卷語音語料的特征參數(shù);
[0069]S4、采用基于隱馬爾可夫模型(Hidden Markov Models, HMM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANN)混合模型的語音識別方法將所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出所述考卷語音的內(nèi)容,并給予初步評分;
[0070]S5、若初步評分低于預(yù)先設(shè)定閾值,則所述初步評分為該考卷語音的最終評分,并標(biāo)記該考卷語音為問題卷;若初步評分高于預(yù)先設(shè)定閾值,則對所述考卷語音進行準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)分指標(biāo)評分;
[0071]S6、對所述分指標(biāo)的評分進行加權(quán)計算得到所述考卷語音的最終評分。
[0072]進一步的,所述步驟SI之前還包括步驟S0,如圖2所示,所述步驟SO具體包括步驟:
[0073]SO1、錄制專家的標(biāo)準(zhǔn)語音;
[0074]其中標(biāo)準(zhǔn)語音都是由多數(shù)專業(yè)人士在特定的環(huán)境下錄制的,語音內(nèi)容與英語口語考試內(nèi)容相對應(yīng);
[0075]S02、對所述標(biāo)準(zhǔn)語音進行預(yù)處理,得到標(biāo)準(zhǔn)語音語料;
[0076]S03、提取所述標(biāo)準(zhǔn)語音語料的特征參數(shù);
[0077]S04、對所述標(biāo)準(zhǔn)語音語料的特征參數(shù)進行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語音模板。
[0078]其中,標(biāo)準(zhǔn)語音的模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),即標(biāo)準(zhǔn)語音模板。所述模型訓(xùn)練的過程具體是指為了使語音識別系統(tǒng)達到某種最佳狀態(tài),通過對初始構(gòu)造數(shù)據(jù)不斷地迭代調(diào)整系統(tǒng)模板的參數(shù)(包括狀態(tài)轉(zhuǎn)移矩陣的概率以及高斯混合模型的方差,均值,權(quán)重等),使系統(tǒng)的性能不斷向這種最佳狀態(tài)逼近的過程。由于專業(yè)人士的標(biāo)準(zhǔn)語音與考生的語音具有一定程度上的差異,而且本發(fā)明的評分對象是自然人,所以本發(fā)明將會努力擴展語料庫,由特定的專業(yè)人士擴展到普通人,特定環(huán)境擴展到普通環(huán)境,并且包含不同性別、年齡、口音的說話人的聲音。
[0079]接下來將對各步驟進行具體介紹。
[0080]1、預(yù)處理
[0081]如圖3所示,所述步驟S2中的預(yù)處理具體包括降噪、預(yù)加重、分幀、加窗、端點檢測和切詞,預(yù)處理的目的是消除因為人發(fā)音器官本身和由于語音信號的設(shè)備對語音信號質(zhì)量產(chǎn)生的影響,為語音特征提取提供優(yōu)質(zhì)的參數(shù),從而提高語音處理的質(zhì)量。
[0082]其中,所述降噪的具體步驟為采用語音的空白語音段作為噪聲的基值對后續(xù)語音進行去噪處理,因為根據(jù)研究發(fā)現(xiàn),當(dāng)考生在錄制錄音之前,通常在開始的一小段時間里是沒有發(fā)聲的,而這一小段錄音卻并不是空白的,而是具有噪音的錄音段。因此,通過提取這錄音段的音頻作為噪聲的基值,對之后的錄音就可以進行一個去處噪聲的處理了,同時也排除了無聲段的噪聲干擾。
[0083]其中,所述切詞是指把一句話切成一個個單詞或者詞組,以使得計算機能夠通過識別一個個單詞或詞組而“聽懂”考生的表述內(nèi)容,為后階段計算機進行相應(yīng)的加分或扣分因素的分析以及最后自動評分做準(zhǔn)備。如圖4所示,所述切詞具體包括步驟:
[0084]S21、提取語音中每個音素的Mel頻率倒譜系數(shù)(Mel Frequency CepstrumCoefficient, MFCC)參數(shù),并建立對應(yīng)音素的HMM模型;
[0085]S22、對語音進行粗切分,得到有效的語音段;
[0086]粗切分的目的有兩點:一是減少運算量,借此減少切詞的時間;二是增加切詞的準(zhǔn)確度。關(guān)于粗分,利用的是雙門限法,把明顯空白的地方截取掉,但是使用的門限值較低,目的是為了得到有效的語音段;[0087]S23、根據(jù)所述音素的HMM模型識別出所述語音段的單詞,從而將語音識別為單詞
隹A
口 O
[0088]該切詞方法具有識別率、準(zhǔn)確率高,誤差小的優(yōu)點:1)識別模板的個數(shù)是固定的,對于HMM模型來說,準(zhǔn)確率非常高;而且不需要再去設(shè)置輸出概率的閾值,這將很大程度上提高識別率。2)切分單詞之后,即得到單詞的讀音,讀音可輔助進行關(guān)鍵詞的匹配,從而減少了匹配單詞所帶來的誤差。
[0089]2、提取參數(shù)特征
[0090]所述步驟S3中的提取特征參數(shù)具體為提取MFCC特征參數(shù),如圖5所示,具體步驟為將預(yù)處理后得到的語料進行快速傅里葉變換、三角窗濾波、求對數(shù)、離散余弦變換得到MFCC特征參數(shù)。其中,采用MFCC特征參數(shù)是因為其考慮了人耳的聽覺特性,將頻譜轉(zhuǎn)化為基于Mel頻率的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。而且沒有任何前提假設(shè),用數(shù)學(xué)的方法來模擬人耳的聽覺特性,使用一串在低頻區(qū)域交叉重疊排列的三角型濾波器,捕獲語音的頻譜信息;另外,MFCC特征參數(shù)的抗噪能力和抗頻譜失真能力強,能夠更好的提高系統(tǒng)的識別性能。
[0091]3、語音內(nèi)容識別
[0092]所述步驟S4中采用了基于HMM和ANN混合模型的語音識別方法,其中HMM方法有需要語音信號的先驗統(tǒng)計知識、分類決策能力弱、結(jié)構(gòu)復(fù)雜,需要大量的訓(xùn)練樣本和需要進行大量計算的缺點;ANN雖然在決策能力上有著一定的優(yōu)勢,但是它對動態(tài)時間信號的描述能力尚不盡人意,而且基于神經(jīng)網(wǎng)絡(luò)的語音識別算法存在訓(xùn)練、識別時間太長的缺點。為了克服各自的缺點,本發(fā)明將具有較強時間建模能力的HMM和具有較強分類能力的ANN兩種方法有機的結(jié)合起來,進一步提高了語音識別的魯棒性和準(zhǔn)確率。這種方法不僅克服了HMM本身難以解決的模式類別間的相互重疊問題,提高了對易混淆詞的識別能力,同時也克服了 ANN僅能處理固定長輸入模式的局限,省去了復(fù)雜的歸整運算。具體的,如圖6所示,所述步驟S4中基于HMM和ANN混合模型的語音識別方法的具體步驟為:
[0093]S41、建立所述考卷語音語料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率;
[0094]S42、將所述所有狀態(tài)累積概率作為ANN(具體為自組織神經(jīng)網(wǎng)絡(luò))分類器的輸入特征進行處理,從而輸出識別結(jié)果;
[0095]S43、將所述識別結(jié)果與所述標(biāo)準(zhǔn)語音模板進行特征匹配,從而識別出所述考卷語音的內(nèi)容。
[0096]4、語音評價
[0097]由于在日常生活中,有一些考生并不能很好地在規(guī)定的時間進行口語測驗,得到的考卷語音將出現(xiàn)大量空白或者無法識別,我們將這些考卷錄音標(biāo)記為問題卷。問題卷包括空白錄音以及各種無法識別的有聲錄音,如非英語語種的錄音、噪聲過大的錄音等,而步驟S4的目的不只是識別出考生所讀的內(nèi)容,還有就是檢測問題卷,并且根據(jù)實際的情況給出較低的分數(shù),對于此類問題卷語音就沒有必要對其進行準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)進行評分。只有當(dāng)初始評分高于預(yù)先設(shè)定閾值時才進行進一步的語音評價。
[0098](I)所述步驟S5中的準(zhǔn)確度評分具體步驟為:采用抽插值的方法將待評分語音語句規(guī)整到與標(biāo)準(zhǔn)語音語句相近的程度;采用短時能量作為特征來提取所述待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線;通過比較待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線的擬合程度進行評分。
[0099]語句的強度曲線圖可以反映語音信號隨著時間的變化。語句中重讀音節(jié)響亮的特征將反映到時域上的能量強度,即重音音節(jié)表現(xiàn)為語音能量強度大。但由于不同人不同時間對同一句話的發(fā)音時長不相等、發(fā)音強度也不同,如果將待評分語音語句和標(biāo)準(zhǔn)語音語句的強度曲線直接進行模板匹配,結(jié)果將影響評價的客觀性。因此本發(fā)明在原有技術(shù)的基礎(chǔ)上修改出一種基于標(biāo)準(zhǔn)語音語句的強度曲線提取方法:當(dāng)待評分語音語句時長比標(biāo)準(zhǔn)用語音語句短的時候,采用插值方法對其進行時長的補充;當(dāng)待評分語音語句時長比標(biāo)準(zhǔn)語音語句長的時候,采用抽值方法對其進行時長的調(diào)整;最后,利用標(biāo)準(zhǔn)語音語句的強度曲線的最強點,對待評分語音語句的強度曲線進行強度規(guī)整。
[0100](2)流利度評分具體步驟為:將待評分語音截成前后兩部分,并對前半部份和后半部份切詞從而得到有效語音段;將前后兩部分的有效語音段的長度分別與總待評分語音的長度作除運算,并將得到的值與對應(yīng)的閾值相比較,若都大于對應(yīng)的閾值,則判定為流利;否則,判定為不流利;
[0101]針對句子級的流利度,旨在通過計算句子表達的通順程度,并且利用標(biāo)準(zhǔn)語音計算發(fā)音的韻律得分,兩者融合得到句子的流利度診斷模型。這種句子流利度評分方法也可以應(yīng)用到篇章流利度評分。該方法考慮到發(fā)音者在表述語句過程中的通順性,比傳統(tǒng)方法有更高的相關(guān)度。因此可以應(yīng)用到語音評分系統(tǒng)中。
[0102](3)語速評分具體步驟為:計算待評分語音中發(fā)音部分占整個待評分語音時長的比例,根據(jù)所述比例對語速進行評分。 [0103](4)節(jié)奏評分具體步驟為:采用改進的差異性成對變異指數(shù)(the DistinctPairwise Variability Index, dPVI)參數(shù)計算公式計算待評分語音的節(jié)奏。dPVI根據(jù)語音單元時長差異性的特征,將標(biāo)準(zhǔn)語音語句與帶評分語音語句的音節(jié)單元片段時長分別進行對比計算,并將轉(zhuǎn)換出的參數(shù)用于客觀評價和反饋指導(dǎo)依據(jù)。
【權(quán)利要求】
1.一種語音評分方法,其特征在于,包括步驟: S1、錄制考生的考卷語音; S2、對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料; S3、提取所述考卷語音語料的特征參數(shù); S4、采用基于HMM和ANN混合模型的語音識別方法將所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出所述考卷語音的內(nèi)容,并給予初步評分; S5、若初步評分低于預(yù)先設(shè)定閾值,則所述初步評分為該考卷語音的最終評分,并標(biāo)記該考卷語音為問題卷;若初步評分高于預(yù)先設(shè)定閾值,則對所述考卷語音進行準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)分指標(biāo)評分; S6、對所述分指標(biāo)評分進行加權(quán)計算得到所述考卷語音的最終評分。
2.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟SI之前還包括步驟S0,所述步驟SO具體包括步驟: S01、錄制專家的標(biāo)準(zhǔn)語音; S02、對所述標(biāo)準(zhǔn)語音進行預(yù)處理,得到標(biāo)準(zhǔn)語音語料; S03、提取所述標(biāo)準(zhǔn)語音語料的特征參數(shù); S04、對所述標(biāo)準(zhǔn)語音語料的特征參數(shù)進行模型訓(xùn)練,得到所述標(biāo)準(zhǔn)語音模板。
3.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S4中基于HMM和ANN混合模型的語音識別方法的具體步驟為: S41、建立所述考卷語音語料的特征參數(shù)的HMM模型,得到HMM模型中所有狀態(tài)累積概率; S42、將所述所有狀態(tài)累積概率作為ANN分類器的輸入特征進行處理,從而輸出識別結(jié)果; S43、將所述識別結(jié)果與所述標(biāo)準(zhǔn)語音模板進行特征匹配,從而識別出所述考卷語音的內(nèi)容。
4.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S2中的預(yù)處理具體包括降噪、預(yù)加重、分幀、加窗、端點檢測和切詞,其中,所述降噪的具體步驟為采用語音的空白語音段作為噪聲的基值對后續(xù)語音進行去噪處理。
5.如權(quán)利要求4所述的語音評分方法,其特征在于,所述切詞具體包括步驟: S21、提取語音中每個音素的MFCC參數(shù),并建立對應(yīng)音素的HMM模型; S22、對語音進行粗切分,得到有效的語音段; S23、根據(jù)所述音素的HMM模型識別出所述語音段的單詞,從而將語音識別為單詞集入口 ο
6.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S3中的提取參數(shù)特征具體為提取MFCC特征參數(shù),具體步驟為將預(yù)處理后得到的語料進行快速傅里葉變換、三角窗濾波、求對數(shù)、離散余弦變換得到MFCC特征參數(shù)。
7.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S5中的準(zhǔn)確度評分具體步驟為: 采用抽插值的方法將待評分語音語句規(guī)整到與標(biāo)準(zhǔn)語音語句相近的程度;采用短時能量作為特征來提取所述待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線;通過比較待評分語音語句與標(biāo)準(zhǔn)語音語句的強度曲線的擬合程度進行評分。
8.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S5中的流利度評分具體步驟為: 將待評分語音截成前后兩部分,并對前半部份和后半部份切詞從而得到有效語音段;將前后兩部分的有效語音段的長度分別與總待評分語音的長度作除運算,并將得到的值與對應(yīng)的閾值相比較,若大于對應(yīng)的閾值,則判定為流利;否則,判定為不流利。
9.如權(quán)利要求1所述的語音評分方法,其特征在于,所述步驟S5中的 語速評分具體步驟為:計算待評分語音中發(fā)音部分占整個待評分語音時長的比例,根據(jù)所述比例對語速進行評分; 節(jié)奏評分具體步驟為:采用改進的dPVI參數(shù)計算公式計算待評分語音的節(jié)奏; 重音評分具體步驟為:在規(guī)整后的強度曲線基礎(chǔ)上,通過設(shè)置重音閾值和非重音閾值作為特征的雙門限以及重讀元音時長劃分重音單元,并采用DTW算法對所述待評分語音語句和標(biāo)準(zhǔn)語音語句進行模式匹配,實現(xiàn)重音的評分; 語調(diào)評分具體步驟為:提取待評分語音和標(biāo)準(zhǔn)語音的共振峰,并根據(jù)所述待評分語音共振峰的變化趨勢與標(biāo)準(zhǔn)語音共振峰的變化趨勢的擬合程度對語調(diào)進行評分。
10.一種語音評分系統(tǒng),其特征在于,包括: 語音錄制模塊,用于錄制考生的考卷語音; 預(yù)處理模塊,用于對所述考生的考卷語音進行預(yù)處理,得到考卷語音語料; 特征參數(shù)提取模塊,用于提取所述考卷語音語料的特征參數(shù); 語音識別模塊,用于采用基于HMM和ANN混合模型的語音識別方法對所述考卷語音語料的特征參數(shù)和標(biāo)準(zhǔn)語音模板進行特征匹配,識別出考卷語音的內(nèi)容,并給予初步評分以及標(biāo)記是否為問題卷; 語音評分模塊,用于對于 初步評分高于預(yù)先設(shè)定閾值的非問題考卷語音進行準(zhǔn)確度評分、流利度評分、語速評分、節(jié)奏評分、重音評分和語調(diào)評分。 綜合評分模塊,用于綜合準(zhǔn)確度、流利度、語速、節(jié)奏、重音和語調(diào)的評分計算得到初步評分高于設(shè)定閾值的考卷語音的最終評分。
【文檔編號】G09B7/02GK103928023SQ201410178813
【公開日】2014年7月16日 申請日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】李心廣, 李蘇梅, 何智明, 陳澤群, 李婷婷, 陳廣豪, 馬曉純, 王曉杰, 陳嘉華, 徐集優(yōu) 申請人:廣東外語外貿(mào)大學(xué), 李心廣