待測試語音的處理方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種待測試語音的處理方法、裝置及系統(tǒng)。其中,該方法包括:對待測試語音進行語音識別得到識別結(jié)果;依據(jù)識別結(jié)果中的聲學概率數(shù)據(jù)和音素切分信息計算置信度;對待測試語音和識別結(jié)果進行特征分析得到特征數(shù)據(jù);使用特征數(shù)據(jù)和置信度構(gòu)建用于拒識的特征向量;對特征向量進行拒識判決確定待測試語音是否為拒識語音。采用本發(fā)明,解決了口語自動評測系統(tǒng)無法對無關(guān)語音準確拒識導致評測結(jié)果不準確的問題,實現(xiàn)了準確拒識無關(guān)語音,獲取準確地語音評測結(jié)果的效果。
【專利說明】待測試語音的處理方法、裝置及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音處理領(lǐng)域,具體而言,涉及一種待測試語音的處理方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]在口語自動評測系統(tǒng)中,被測試者往往被要求發(fā)出受限定的發(fā)音,例如朗讀制定的文本,或是復述聽到的語音等。而口語自動評測系統(tǒng)會對被測試者(即說話人)發(fā)出的聲音錄音后進行評測,然后給出發(fā)音質(zhì)量的反饋,例如句子得分、單詞得分等。在實際應用中說話人的發(fā)音可能同目標發(fā)音不一致,這種不一致存在兩種情況:一是說話人發(fā)音不標準或是發(fā)音錯誤,這種現(xiàn)象在非母語說話人中非常常見,例如說話人受母語影響,導致某些音素發(fā)音不夠標準,或是不知道字母對應音素的正確發(fā)音導致音素發(fā)音錯誤等等,對于這種情況,系統(tǒng)應當根據(jù)錯誤情況給出反饋,如發(fā)音不標準時音素和單詞得分比正確讀時的得分低,并且系統(tǒng)可以指出讀錯的音素等;另一種情況是是無關(guān)語音,即實際錄音同目標發(fā)音無關(guān),例如系統(tǒng)錄音時說話人根本沒說話,錄音中只有環(huán)境噪聲,或是錄音時說話人胡亂說一些和目標發(fā)音不相關(guān)的語音,這種情況與第一種情況不同,它無規(guī)律可循。由上述可知,口語自動評測系統(tǒng)給出很低的分數(shù)可能由于環(huán)境影響錄入噪聲,也可能由于說話人口語水平太差。當然在使用口語自動評測系統(tǒng)時即使一個口語發(fā)音很好的人也可能故意亂說來測試系統(tǒng)性能。當用戶在測試系統(tǒng)的魯棒性和評分準確性時,往往會用各種聲音(如無關(guān)語音和有關(guān)語音)作為輸入,來看系統(tǒng)輸出是否合理,對于系統(tǒng)噪音或者有人故意干擾的無關(guān)語音,錄音系統(tǒng)應當直接拒識。
[0003]對無關(guān)語音拒識的途徑主要有兩種:一是通過對說話人語音的識別來判斷某段發(fā)音是否是目標發(fā)音,具體地,利用垃圾模型或背景模型來識別出錄入的聲音是否為非目標發(fā)音,這種方法主要用于識別系統(tǒng)中集外詞檢測及發(fā)音評測系統(tǒng)中的發(fā)音錯誤檢測,但是對于環(huán)境噪音無法準確拒識,得到的評測結(jié)果不準確;另一種是識別結(jié)果的后處理方法,在得到識別結(jié)果后利用置信度來鑒別識別結(jié)果是否正確,對于置信度低于一定閾值的語音予以拒識,使用這種方法只是對結(jié)果進行過濾,無法對錄入的語音進行準確的拒識,有可能會將相關(guān)語音的結(jié)果拒識掉,而保留了無關(guān)語音的識別結(jié)果,從而得到的結(jié)果也不準確。
[0004]上述的口語自動評測系統(tǒng)是指對口語的發(fā)音、節(jié)奏和語調(diào)提供客觀統(tǒng)一標準的評估系統(tǒng);上述的無關(guān)語音即為不屬于語音評測系統(tǒng)的評測對象的聲音。
[0005]針對現(xiàn)有技術(shù)中口語自動評測系統(tǒng)無法對無關(guān)語音準確拒識導致評測結(jié)果不準確的問題,目如尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0006]針對相關(guān)技術(shù)中口語自動評測系統(tǒng)無法對無關(guān)語音準確拒識導致評測結(jié)果不準確的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種待測試語音的處理方法、裝置及系統(tǒng),以解決上述問題。[0007]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種待測試語音的處理方法,該處理方法包括:對待測試語音進行語音識別,得到識別結(jié)果;依據(jù)識別結(jié)果中的聲學概率數(shù)據(jù)和音素切分信息計算置信度;對待測試語音和識別結(jié)果進行特征分析,得到特征數(shù)據(jù);使用特征數(shù)據(jù)和置信度構(gòu)建用于拒識的特征向量;對特征向量進行拒識判決,確定待測試語音是否為拒識語音。
[0008]進一步地,對特征向量進行拒識判決,確定待測試語音是否為拒識語音包括:計算特征向量的接受概率和拒絕概率;在拒絕概率與接受概率的對數(shù)域差值大于預設(shè)閾值時,確定待測試語音為拒識語音;在對數(shù)域差值小于或等于預設(shè)閾值時確定待測試語音不為拒識語音。
[0009]進一步地,計算特征向量的接受概率和拒絕概率包括:使用判決方程計算接受概
率和拒絕概率,判決方程為
【權(quán)利要求】
1.一種待測試語音的處理方法,其特征在于,包括: 對待測試語音進行語音識別,得到識別結(jié)果; 依據(jù)所述識別結(jié)果中的聲學概率數(shù)據(jù)和音素切分信息計算置信度; 對所述待測試語音和所述識別結(jié)果進行特征分析,得到特征數(shù)據(jù); 使用所述特征數(shù)據(jù)和所述置信度構(gòu)建用于拒識的特征向量; 對所述特征向量進行拒識判決,確定所述待測試語音是否為拒識語音。
2.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,對所述特征向量進行拒識判決,確定所述待測試語音是否為拒識語音包括: 計算所述特征向量的接受概率和拒絕概率; 在所述拒絕概率與所述接受概率的對數(shù)域差值大于預設(shè)閾值時,確定所述待測試語音為所述拒識語音; 在所述對數(shù)域差值小于或等于所述預設(shè)閾值時確定所述待測試語音不為所述拒識語音?
3.根據(jù)權(quán)利要求2所述的處理方法,其特征在于,計算所述特征向量的接受概率和拒絕概率包括: 使用判決方程計算所述接受概率和所述拒絕概率,所述判決方程為:
4.根據(jù)權(quán)利要求1所述的處理方法,其特征在于,對待測試語音進行語音識別,得到識別結(jié)果包括: 對所述待測試語音進行強制匹配得到第一識別結(jié)果; 對所述待測試語音進行音素循環(huán)識別得到第二識別結(jié)果; 其中,所述識別結(jié)果包括所述第一識別結(jié)果和所述第二識別結(jié)果。
5.根據(jù)權(quán)利要求4所述的處理方法,其特征在于,對所述待測試語音和所述識別結(jié)果進行特征分析得到特征數(shù)據(jù)包括: 按照預設(shè)段長條件從所述第一識別結(jié)果中的第一音素切分信息中提取段長特征;和/或 按照預設(shè)基音特征從所述待測試語音中提取基音特征; 其中,所述特征數(shù)據(jù)包括所述段長特征和/或所述基音特征。
6.根據(jù)權(quán)利要求4所述的處理方法,其特征在于, 所述第一識別結(jié)果包括音素的第一聲學概率數(shù)據(jù)和第一音素切分信息,所述第二識別結(jié)果包括所述音素的第二聲學概率數(shù)據(jù)和第二音素切分信息,其中, 依據(jù)所述識別結(jié)果中的聲學概率數(shù)據(jù)和音素切分信息計算置信度包括:依據(jù)所述第一音素切分信息和所述第二音素切分信息計算所述第一聲學概率數(shù)據(jù)和所述第二聲學概率數(shù)據(jù)的音素置信度; 計算所述待測試語音中單詞對應所有所述音素的所述音素置信度的均值得到所述單詞的單詞置信度, 其中,所述置信度包括所述音素置信度和所述單詞置信度。
7.根據(jù)權(quán)利要求6所述的處理方法,其特征在于, 依據(jù)所述第一音素切分信息和所述第二音素切分信息計算所述第一聲學概率數(shù)據(jù)和所述第二聲學概率數(shù)據(jù)的音素置信度包括:使用第一公式計算所述第一聲學概率數(shù)據(jù)和所述第二聲學概率數(shù)據(jù)的音素置信度GOP(p),其中,所述第一公式為:
8.一種待測試語音的處理裝置,其特征在于,包括: 識別模塊,用于對待測試語音進行語音識別得到識別結(jié)果; 計算模塊,用于依據(jù)所述識別結(jié)果中的聲學概率數(shù)據(jù)和音素切分信息計算置信度; 特征分析模塊,用于對所述待測試語音和所述識別結(jié)果進行特征分析,得到特征數(shù)據(jù); 構(gòu)建模塊,用于使用所述特征數(shù)據(jù)和所述置信度構(gòu)建用于拒識的特征向量; 判決模塊,用于對所述特征向量進行拒識判決,確定所述待測試語音是否為拒識語音。
9.根據(jù)權(quán)利要求8所述的處理裝置,其特征在于,所述判決模塊包括: 概率計算模塊,用于計算所述特征向量的接受概率和拒絕概率; 第一拒識模塊,用于在所述拒絕概率與所述接受概率的對數(shù)域差值大于預設(shè)閾值時確定所述待測試語音為所述拒識語音; 第二拒識模塊,用于在所述對數(shù)域差值小于或等于所述預設(shè)閾值時確定所述待測試語音不為所述拒識語音。
10.根據(jù)權(quán)利要求8所述的處理裝置,其特征在于,所述識別模塊包括: 匹配模塊,用于對所述待測試語音進行強制匹配得到第一識別結(jié)果; 循環(huán)識別模塊,用于對所述待測試語音進行音素循環(huán)識別得到第二識別結(jié)果; 其中,所述識別結(jié)果包括所述第一識別結(jié)果和所述第二識別結(jié)果。
11.根據(jù)權(quán)利要求10所述的處理裝置,其特征在于,特征分析模塊包括: 第一提取模塊,用于按照預設(shè)段長條件從所述第一識別結(jié)果中的第一音素切分信息中提取段長特征;和/或 第二提取模塊,用于按照預設(shè)基音特征從所述待測試語音中提取基音特征;其中,所述特征數(shù)據(jù)包括所述段長特征和/或所述基音特征。
12.根據(jù)權(quán)利要求10所述的處理裝置,其特征在于, 所述第一識別結(jié)果包括音素的第一聲學概率數(shù)據(jù)和第一音素切分信息,所述第二識別結(jié)果包括所述音素的第二聲學概率數(shù)據(jù)和第二音素切分信息,其中, 所述計算模塊包括: 對數(shù)計算模塊,用于依據(jù)所述第一音素切分信息和所述第二音素切分信息計算所述第一聲學概率數(shù)據(jù)和所述第二聲學概率數(shù)據(jù)的音素置信度; 置信度計算模塊,用于計算所述待測試語音中單詞對應所有所述音素的所述音素置信度的均值得到所述單詞的單詞置信度, 其中,所述置信度包括所述音素置信度和所述單詞置信度。
13.—種待測試語音的處理系統(tǒng),其特征在于,包括:權(quán)利要求8至12中任意一項所述的待測試語音的處理裝 置。
【文檔編號】G10L25/51GK103810996SQ201410060241
【公開日】2014年5月21日 申請日期:2014年2月21日 優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】董明, 劉志, 吳延年, 丁玉國 申請人:北京凌聲芯語音科技有限公司