專利名稱:錄音結(jié)束點(diǎn)檢測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及錄音控制技術(shù),尤其涉及錄音結(jié)束點(diǎn)自動(dòng)檢測(cè)技術(shù)。
背景技術(shù):
經(jīng)過(guò)多年的技術(shù)發(fā)展,文本相關(guān)的語(yǔ)音評(píng)測(cè)已經(jīng)步入實(shí)用階段。所謂文本相關(guān)的語(yǔ)音評(píng)測(cè),指的是用戶在給定的文本下進(jìn)行朗讀,語(yǔ)音評(píng)測(cè)系統(tǒng)存儲(chǔ)用戶的發(fā)音數(shù)據(jù)并對(duì)發(fā)音數(shù)據(jù)進(jìn)行評(píng)價(jià),給出評(píng)分。現(xiàn)有的語(yǔ)音評(píng)測(cè)系統(tǒng)中,用戶的錄音控制一般由用戶手動(dòng)完成,也即當(dāng)用戶點(diǎn)擊預(yù)設(shè)的開(kāi)始錄音按鈕后錄音開(kāi)始,而當(dāng)用戶點(diǎn)擊預(yù)設(shè)的完成錄音按鈕后錄音結(jié)束。這種錄音控制需要用戶多次手動(dòng)點(diǎn)擊,操作繁瑣,影響了用戶體驗(yàn)。因此,現(xiàn)有技術(shù)中出現(xiàn)了一種自動(dòng)進(jìn)行錄音控制的方法,在該方法中,由語(yǔ)音評(píng)測(cè)系統(tǒng)自動(dòng)檢測(cè)用戶錄音狀態(tài)為發(fā)音或靜音,當(dāng)用戶的靜音持續(xù)時(shí)間超過(guò)一預(yù)設(shè)的時(shí)間閾值時(shí),確定錄音結(jié)束。但是,這種自動(dòng)進(jìn)行錄音控制的方法中,所述時(shí)間閾值的設(shè)置如果較短時(shí),可能出現(xiàn)將用戶的正常發(fā)音停頓判定為錄音結(jié)束點(diǎn)的問(wèn)題,造成用戶語(yǔ)音截?cái)啵虼耍?現(xiàn)有技術(shù)中一般將該時(shí)間閾值設(shè)置為較大的值,例如2秒甚至更長(zhǎng),因此,用戶完成發(fā)音后需等待很長(zhǎng)時(shí)間,語(yǔ)音評(píng)測(cè)系統(tǒng)才能識(shí)別出錄音結(jié)束點(diǎn),結(jié)束錄音,使得語(yǔ)音評(píng)測(cè)系統(tǒng)對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率低,影響了語(yǔ)音評(píng)測(cè)效率,降低用戶體驗(yàn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種錄音結(jié)束點(diǎn)檢測(cè)方法及系統(tǒng),能夠提高對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率。為此,本發(fā)明實(shí)施例采用如下技術(shù)方案本發(fā)明實(shí)施例提供一種錄音結(jié)束點(diǎn)檢測(cè)方法,包括預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該方法還包括獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型;判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。所述確定文本結(jié)束點(diǎn)聲學(xué)模型包括根據(jù)錄音文本生成文本對(duì)應(yīng)的解碼網(wǎng)絡(luò),將所述解碼網(wǎng)絡(luò)對(duì)應(yīng)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。所述確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型包括從當(dāng)前幀的錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的MFCC特征,得到當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑;確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型為解碼最優(yōu)路徑的特
4征聲學(xué)模型。還包括判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),保持所述靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值。每次獲取到一幀錄音數(shù)據(jù)之后還包括獲取到的當(dāng)前幀錄音數(shù)據(jù)為靜音數(shù)據(jù),而且,當(dāng)前靜音持續(xù)時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值時(shí),結(jié)束錄音。所述獲取每一幀錄音數(shù)據(jù)之前,進(jìn)一步包括接收錄音數(shù)據(jù),從錄音數(shù)據(jù)中確定錄音開(kāi)始幀。所述從錄音數(shù)據(jù)中確定錄音開(kāi)始幀包括依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。本發(fā)明實(shí)施例還提供一種錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng),預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該系統(tǒng)還包括第一確定單元,用于獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;第一獲取單元,用于從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);第二確定單元,用于確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型;閾值確定單元,用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。第一確定單元包括獲取子單元,用于獲取錄音文本;網(wǎng)絡(luò)建立子單元,用于根據(jù)錄音文本建立文本對(duì)應(yīng)的解碼網(wǎng)絡(luò);第一特征確定子單元,用于將所述解碼網(wǎng)絡(luò)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。第二確定單元包括提取子單元,從當(dāng)前幀的錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的MFCC特征, 得到當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑;第二特征確定子單元,用于確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型為解碼最優(yōu)路徑的特征聲學(xué)模型。閾值確定單元還用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),保持所述靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值。還包括錄音控制單元,用于判斷獲取到的當(dāng)前幀錄音數(shù)據(jù)為靜音數(shù)據(jù),而且,當(dāng)前靜音持續(xù)時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值時(shí),結(jié)束錄音。還包括接收單元,用于接收錄音數(shù)據(jù),從錄音數(shù)據(jù)中確定錄音開(kāi)始幀。接收單元包括接收子單元,用于接收錄音數(shù)據(jù);開(kāi)始幀確定子單元,用于依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。對(duì)于上述技術(shù)方案的技術(shù)效果分析如下將文本結(jié)束點(diǎn)聲學(xué)模型與當(dāng)前幀錄音數(shù)據(jù)所對(duì)應(yīng)的解碼最優(yōu)路徑的特征聲學(xué)模型比較,如果相同,說(shuō)明用戶已經(jīng)朗讀完了錄音文本,則將靜音持續(xù)時(shí)間閾值更新為相對(duì)于第一時(shí)間閾值來(lái)說(shuō)較短的第二時(shí)間閾值,用戶的靜音持續(xù)時(shí)間超過(guò)第二時(shí)間閾值即結(jié)束錄音,從而相對(duì)于現(xiàn)有技術(shù),提高了對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率,縮短了用戶錄音結(jié)束后所需要等待的時(shí)間。
圖1為本發(fā)明實(shí)施例一種錄音結(jié)束點(diǎn)檢測(cè)方法流程示意圖;圖2為本發(fā)明實(shí)施例另一種錄音結(jié)束點(diǎn)檢測(cè)方法流程示意圖;圖3為本發(fā)明實(shí)施例Viterbi算法示意圖;圖4為本發(fā)明實(shí)施例解碼網(wǎng)絡(luò)示例圖;圖5為本發(fā)明實(shí)施例一種錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng)結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng)中一單元的實(shí)現(xiàn)結(jié)構(gòu)示意圖;圖7為本發(fā)明實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng)中另一單元的實(shí)現(xiàn)結(jié)構(gòu)示意圖。
具體實(shí)施例方式以下,結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)方法及系統(tǒng)的實(shí)現(xiàn)。圖1為本發(fā)明實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)方法流程示意圖,如圖1所示,包括預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該方法還包括步驟101 獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;具體的,所述錄音文本也即為錄音中用戶所需要朗讀的文本,該文本可以為中文、 英文等任何語(yǔ)言,這里并不限制。步驟102 從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);所述錄音數(shù)據(jù)也即為錄音過(guò)程中錄音設(shè)備獲取到的聲音數(shù)據(jù)。步驟103 確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型;步驟101和步驟102 103之間的執(zhí)行順序并不限制,只要在步驟104之前執(zhí)行即可。步驟104 判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。圖1所示的錄音結(jié)束點(diǎn)檢測(cè)方法中,將文本結(jié)束點(diǎn)聲學(xué)模型與解碼最優(yōu)路徑的特征聲學(xué)模型相比較,如果相同,說(shuō)明用戶已經(jīng)朗讀完了錄音文本,則將靜音持續(xù)時(shí)間閾值的取值更新為相對(duì)于第一時(shí)間閾值來(lái)說(shuō)較短的第二時(shí)間閾值,用戶的靜音持續(xù)時(shí)間超過(guò)第二時(shí)間閾值即結(jié)束錄音,相對(duì)于現(xiàn)有技術(shù),提高了對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率,縮短了用戶朗讀完成后所需要等待錄音結(jié)束的時(shí)間。在圖1的基礎(chǔ)上,通過(guò)圖2對(duì)本發(fā)明實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)方法進(jìn)行更為詳細(xì)的說(shuō)明。如圖2所示,該方法包括將靜音持續(xù)時(shí)間閾值設(shè)置為第一時(shí)間閾值。步驟201 獲取錄音文本,確定錄音文本的結(jié)束點(diǎn)對(duì)應(yīng)的文本結(jié)束點(diǎn)聲學(xué)模型。其中,所述確定錄音文本的結(jié)束點(diǎn)對(duì)應(yīng)的文本結(jié)束點(diǎn)聲學(xué)模型可以包括根據(jù)錄音文本生成對(duì)應(yīng)的解碼網(wǎng)絡(luò);將所述解碼網(wǎng)絡(luò)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。具體的,所建立的解碼網(wǎng)絡(luò)可以由錄音文本的開(kāi)始點(diǎn)靜音模型、錄音文本中各個(gè)字或詞的聲學(xué)模型以及錄音文本的結(jié)束點(diǎn)的靜音模型構(gòu)成,這里的所述文本結(jié)束點(diǎn)聲學(xué)模型可以為錄音文本的結(jié)束點(diǎn)的靜音模型。例如,如圖4所示,對(duì)于錄音文本“Hello World”來(lái)說(shuō),所建立的解碼網(wǎng)絡(luò)包括錄音文本的開(kāi)始點(diǎn)的靜音模型Sil_Begin,單詞Hello的聲學(xué)模型、單詞World的聲學(xué)模型以及錄音文本結(jié)束點(diǎn)的靜音模型Sil_End,本步驟中即需要得到所述靜音模型Sil_End。步驟202 接收錄音數(shù)據(jù)并存儲(chǔ)于預(yù)設(shè)的緩沖區(qū)中。步驟203 從所述錄音數(shù)據(jù)中確定錄音開(kāi)始幀。所述從錄音數(shù)據(jù)中確定錄音開(kāi)始幀可以包括依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。其中,當(dāng)判斷錄音數(shù)據(jù)是靜音數(shù)據(jù)或非靜音數(shù)據(jù)時(shí),可以利用VAD(VoiceActivity Detection)策略實(shí)現(xiàn)。 例如,在 “A statistical model-based voice activitydetection(J. Sohn, N. S. Kim,and W. Sung,IEEE Signal Process. Lett. , vol.16, no. 1,pp. 1—3,1999),,禾口 Speech processing, transmission and quality aspects (STQ); distributed speech recognition ;advanced front-end feature extraction algorithm ;compression algorithms (ETSI, ETSI ES 202050Rec.,2002)兩篇文章中即介紹了如何利用VAD策略實(shí)現(xiàn)靜音數(shù)據(jù)或非靜音數(shù)據(jù)的判斷,這里不再贅述。這里,在不同的應(yīng)用環(huán)境中,每一幀錄音數(shù)據(jù)的時(shí)間間隔和取樣窗長(zhǎng)可能不同,這里并不限定。例如,一般可以設(shè)置時(shí)間間隔(也即幀移)為IOms ;取樣窗長(zhǎng)為25ms。步驟204 從錄音開(kāi)始幀開(kāi)始,依次從緩沖區(qū)中獲取一幀錄音數(shù)據(jù)。步驟205 對(duì)獲取到的當(dāng)前幀錄音數(shù)據(jù)進(jìn)行解碼,得到該幀錄音數(shù)據(jù)對(duì)應(yīng)的解碼最優(yōu)路徑的特征聲學(xué)模型。具體的,本步驟中對(duì)錄音數(shù)據(jù)進(jìn)行解碼可以包括從當(dāng)前幀錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的梅爾倒譜參數(shù)(MFCC)特征,得到該幀錄音數(shù)據(jù)對(duì)應(yīng)的解碼最優(yōu)路徑;確定該解碼最優(yōu)路徑的特征聲學(xué)模型。其中,與步驟201中相對(duì)應(yīng)的,可以將解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型確定為所述解碼最優(yōu)路徑的特征聲學(xué)模型。其中,用來(lái)進(jìn)行解碼的所述預(yù)設(shè)的聲學(xué)模型可以是音素層面的單音素 (Mono-Phone)模型,也可以是上下文相關(guān)(Context-d印endent)的三音素(Tri-phone)模型;還包括靜音模型。利用所述預(yù)設(shè)的聲學(xué)模型對(duì)所述MFCC特征進(jìn)行解碼,得到所述錄音數(shù)據(jù)對(duì)應(yīng)的解碼最優(yōu)路徑,所述解碼最優(yōu)路徑可以為模型的似然度或代價(jià)函數(shù)最大的路徑。所述解碼可以使用維特比(Viterbi)算法等實(shí)現(xiàn)。例如,通過(guò)Viterbi算法進(jìn)行解碼后,得到如圖3所示的解碼結(jié)果,本發(fā)明實(shí)施例中的所述解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型也即為最后時(shí)刻t所對(duì)應(yīng)的聲學(xué)模型。確定該錄音數(shù)據(jù)對(duì)應(yīng)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型,將該聲學(xué)模型作為該幀錄音數(shù)據(jù)對(duì)應(yīng)的解碼最優(yōu)路徑的特征聲學(xué)模型。步驟206 判斷文本結(jié)束點(diǎn)聲學(xué)模型與該幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型是否相同,如果相同,執(zhí)行步驟207 ;否則,執(zhí)行步驟208。步驟207 將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于所述第一時(shí)間閾值;執(zhí)行步驟209。步驟208 保持靜音持續(xù)時(shí)間閾值為第一時(shí)間閾值;執(zhí)行步驟209。步驟209 判斷從緩沖區(qū)中獲取到的當(dāng)前幀的錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),如果是靜音數(shù)據(jù),則執(zhí)行步驟210;否則,返回步驟204,從緩沖區(qū)中獲取當(dāng)前幀的下一幀錄音數(shù)據(jù)。其中,錄音數(shù)據(jù)是按幀從緩沖區(qū)中依次獲取的,本步驟中的當(dāng)前幀錄音數(shù)據(jù)也即為當(dāng)前從緩沖區(qū)中獲取到的、需要進(jìn)行處理的一幀錄音數(shù)據(jù)。其中,本步驟中當(dāng)判斷錄音數(shù)據(jù)是靜音數(shù)據(jù)或非靜音數(shù)據(jù)時(shí),也可以利用 VAD(Voice Activity Detection)策略實(shí)現(xiàn)。例如,在"A statistical model-basedvoice activity detection(J. Sohn,N. S. Kim,and W. Sung,IEEE Signal Process.Lett.,vol.16, no. 1, pp. 1—3,1999),,禾口 Speech processing, transmission andquality aspects (STQ); distributed speech recognition ;advanced front-end featureextraction algorithm ; compression algorithms (ETSI, ETSI ES 202050Rec. ,2002)兩篇文章中即介紹了如何利用VAD策略實(shí)現(xiàn)靜音數(shù)據(jù)或非靜音數(shù)據(jù)的判斷,這里不再贅述。步驟210 判斷當(dāng)前靜音持續(xù)時(shí)間是否超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值,如果是,結(jié)束錄音;否則,返回步驟204,從緩沖區(qū)獲取當(dāng)前幀的下一幀錄音數(shù)據(jù),將該幀錄音數(shù)據(jù)作為當(dāng)前幀錄音數(shù)據(jù)。其中,步驟209只要在步驟204 步驟210之間執(zhí)行即可,與步驟205 步驟208 之間的執(zhí)行順序不限制。本步驟中的當(dāng)前靜音持續(xù)時(shí)間與當(dāng)前幀錄音數(shù)據(jù)之前連續(xù)若干幀的錄音數(shù)據(jù)是否為靜音數(shù)據(jù)相關(guān)。具體的,當(dāng)前靜音持續(xù)時(shí)間可以通過(guò)以下公式計(jì)算當(dāng)前靜音持續(xù)時(shí)間=(當(dāng)前幀數(shù)-當(dāng)前幀之前第一幀非靜音數(shù)據(jù)所對(duì)應(yīng)幀數(shù))* 一個(gè)幀長(zhǎng)度;例如,第m-1和第m-2幀錄音數(shù)據(jù)均為非靜音數(shù)據(jù),第m 第m+n幀錄音數(shù)據(jù)均為靜音數(shù)據(jù),則在處理第m幀錄音數(shù)據(jù)時(shí),當(dāng)前靜音持續(xù)時(shí)間為1個(gè)幀長(zhǎng)度;在處理第m+1幀錄音數(shù)據(jù)時(shí),當(dāng)前靜音持續(xù)時(shí)間為2個(gè)幀長(zhǎng)度...在處理第m+n幀錄音數(shù)據(jù)時(shí),當(dāng)前靜音持續(xù)時(shí)間為n+1個(gè)幀長(zhǎng)度。另外,本步驟中的所述當(dāng)前的靜音持續(xù)時(shí)間閾值在不同的時(shí)刻可能取值為第一時(shí)間閾值也可能取值第二時(shí)間閾值,具體的,在步驟206判斷出存在特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相同的一幀錄音數(shù)據(jù)之前,所述當(dāng)前的靜音持續(xù)時(shí)間均取值為第一時(shí)間閾值,而一旦步驟206中判斷某一幀解碼最優(yōu)路徑的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相同之后,所述靜音持續(xù)時(shí)間閾值的取值更新為時(shí)間長(zhǎng)度較短的所述第二時(shí)間閾值。在圖2所示的方法中,一直判斷解碼最優(yōu)路徑的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),則說(shuō)明用戶未結(jié)束錄音文本的朗讀,此時(shí)靜音持續(xù)時(shí)間閾值為第一時(shí)間閾值,只有用戶保持靜音的時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值(即第一時(shí)間閾值)時(shí),才結(jié)束錄音,保證用戶非正常錄音(例如朗讀出現(xiàn)錯(cuò)誤或者中途結(jié)束等)下,也可以自動(dòng)結(jié)束錄音;而一旦判斷解碼最優(yōu)路徑的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相同,說(shuō)明用戶已經(jīng)結(jié)束了錄音文本的朗讀,此時(shí),將靜音持續(xù)時(shí)間閾值更新為第一時(shí)間閾值和第二時(shí)間閾值中相對(duì)較短的第二時(shí)間閾值,從而只要用戶靜音持續(xù)的時(shí)間超過(guò)了當(dāng)前的靜音持續(xù)時(shí)間閾值(即第二時(shí)間閾值)即結(jié)束錄音,從而在用戶正常朗讀完錄音文本的情況下,用戶所等待的時(shí)間僅為第二時(shí)間閾值,相對(duì)于現(xiàn)有技術(shù)中的第一時(shí)間閾值,等待的時(shí)間縮短,從而提高了錄音結(jié)束點(diǎn)的識(shí)別效率。但是,在圖2所示的方法中,對(duì)于步驟206中判斷解碼最優(yōu)路徑的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相同的情況,雖然已經(jīng)判定用戶結(jié)束了錄音文本的朗讀,但是,在判定用戶結(jié)束了錄音文本的朗讀后,后續(xù)對(duì)于每一幀錄音數(shù)據(jù)還進(jìn)行步驟206的判斷,此時(shí),該判斷步驟并非必須步驟,例如,對(duì)第N幀錄音數(shù)據(jù)進(jìn)行步驟206的判斷結(jié)果為相同時(shí),說(shuō)明用戶在第N幀錄音數(shù)據(jù)中已經(jīng)結(jié)束了錄音文本的朗讀,此時(shí),對(duì)于第N+1以及后續(xù)的若干幀錄音數(shù)據(jù)而言,并不一定需要再進(jìn)行步驟206的判斷。因此,在實(shí)際應(yīng)用中,為了進(jìn)一步錄音結(jié)束點(diǎn)的識(shí)別效率和處理效率,可以在步驟206中第一次判斷錄音數(shù)據(jù)的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相同后,不再對(duì)后續(xù)幀的錄音數(shù)據(jù)執(zhí)行步驟205 步驟208,而只執(zhí)行步驟209 步驟210,也即只判斷獲取到的當(dāng)前幀錄音數(shù)據(jù)是否為靜音數(shù)據(jù),為靜音數(shù)據(jù)時(shí),進(jìn)行靜音持續(xù)時(shí)間的判斷。與所述錄音結(jié)束點(diǎn)檢測(cè)方法相對(duì)應(yīng)的,本發(fā)明實(shí)施例還提供錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng),如圖5所示,在該系統(tǒng)中,預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該系統(tǒng)還包括第一確定單元510,用于獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;第一獲取單元520,用于從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);第二確定單元530,用于確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型;閾值確定單元M0,用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。優(yōu)選地,閾值確定單元540還可以用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),保持所述靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值。另外,如圖5所示,該系統(tǒng)還可以包括錄音控制單元550,用于判斷獲取到的當(dāng)前幀錄音數(shù)據(jù)為靜音數(shù)據(jù),而且,當(dāng)前靜音持續(xù)時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值時(shí),結(jié)束錄音。優(yōu)選地,如圖6所示,第一確定單元510可以包括
獲取子單元610,用于獲取錄音文本;網(wǎng)絡(luò)建立子單元620,用于根據(jù)錄音文本建立文本對(duì)應(yīng)的解碼網(wǎng)絡(luò);第一特征確定子單元630,用于將所述解碼網(wǎng)絡(luò)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。優(yōu)選地,如圖7所示,第二確定單元520可以包括提取子單元710,從當(dāng)前幀的錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的MFCC特征,得到當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑;第二特征確定子單元720,用于確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型為解碼最優(yōu)路徑的特征聲學(xué)模型。如圖5所示,該系統(tǒng)還可以包括接收單元500,用于接收錄音數(shù)據(jù),從錄音數(shù)據(jù)中確定錄音開(kāi)始幀。優(yōu)選地,接收單元500可以包括接收子單元,用于接收錄音數(shù)據(jù);開(kāi)始幀確定子單元,用于依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。以上在判斷錄音數(shù)據(jù)是靜音數(shù)據(jù)或非靜音數(shù)據(jù)時(shí),可以利用VAD策略,這里不再贅述。圖5 7所示的錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng),閾值確定單元將解碼最優(yōu)路徑的特征聲學(xué)模型與文本結(jié)束點(diǎn)聲學(xué)模型相比較,如果相同,說(shuō)明用戶已經(jīng)朗讀完了錄音文本,則將靜音持續(xù)時(shí)間閾值更新為相對(duì)于第一時(shí)間閾值來(lái)說(shuō)較短的第二時(shí)間閾值,之后,錄音控制單元判斷當(dāng)前靜音持續(xù)時(shí)間超過(guò)第二時(shí)間閾值即結(jié)束錄音,相對(duì)于現(xiàn)有技術(shù),縮短了用戶錄音結(jié)束后所需要等待的時(shí)間,提高了對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率,提升了用戶體驗(yàn)。本發(fā)明實(shí)施例所述的錄音結(jié)束點(diǎn)檢測(cè)方法和系統(tǒng)不僅可以應(yīng)用于語(yǔ)音評(píng)測(cè)系統(tǒng)中,還可以應(yīng)用于其他需要對(duì)已知文本的朗讀進(jìn)行錄音的場(chǎng)景中。本領(lǐng)域普通技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例錄音結(jié)束點(diǎn)檢測(cè)方法的過(guò)程可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí)執(zhí)行上述方法中的對(duì)應(yīng)步驟。所述的存儲(chǔ)介質(zhì)可以如R0M/RAM、磁碟、光盤(pán)等。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種錄音結(jié)束點(diǎn)檢測(cè)方法,其特征在于,包括預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該方法還包括獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型; 判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí), 將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定文本結(jié)束點(diǎn)聲學(xué)模型包括根據(jù)錄音文本生成文本對(duì)應(yīng)的解碼網(wǎng)絡(luò),將所述解碼網(wǎng)絡(luò)對(duì)應(yīng)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型包括從當(dāng)前幀的錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的MFCC特征,得到當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑;確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型為解碼最優(yōu)路徑的特征聲學(xué)模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),保持所述靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,每次獲取到一幀錄音數(shù)據(jù)之后還包括判斷獲取到的當(dāng)前幀錄音數(shù)據(jù)為靜音數(shù)據(jù),而且,當(dāng)前靜音持續(xù)時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值時(shí),結(jié)束錄音。
6.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述獲取每一幀錄音數(shù)據(jù)之前,進(jìn)一步包括接收錄音數(shù)據(jù),從錄音數(shù)據(jù)中確定錄音開(kāi)始幀。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述從錄音數(shù)據(jù)中確定錄音開(kāi)始幀包括 依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。
8.一種錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng),其特征在于,預(yù)設(shè)靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值;該系統(tǒng)還包括第一確定單元,用于獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型; 第一獲取單元,用于從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù); 第二確定單元,用于確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型; 閾值確定單元,用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,第一確定單元包括 獲取子單元,用于獲取錄音文本;網(wǎng)絡(luò)建立子單元,用于根據(jù)錄音文本建立文本對(duì)應(yīng)的解碼網(wǎng)絡(luò);第一特征確定子單元,用于將所述解碼網(wǎng)絡(luò)的最后一個(gè)聲學(xué)模型確定為文本結(jié)束點(diǎn)聲學(xué)模型。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,第二確定單元包括提取子單元,從當(dāng)前幀的錄音數(shù)據(jù)中提取與預(yù)設(shè)的聲學(xué)模型相對(duì)應(yīng)的MFCC特征,得到當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑;第二特征確定子單元,用于確定當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的最后一個(gè)聲學(xué)模型為解碼最優(yōu)路徑的特征聲學(xué)模型。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,閾值確定單元還用于判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型不相同時(shí),保持所述靜音持續(xù)時(shí)間閾值為所述第一時(shí)間閾值。
12.根據(jù)權(quán)利要求8至11任一項(xiàng)所述的系統(tǒng),其特征在于,還包括錄音控制單元,用于判斷獲取到的當(dāng)前幀錄音數(shù)據(jù)為靜音數(shù)據(jù),而且,當(dāng)前靜音持續(xù)時(shí)間超過(guò)當(dāng)前的靜音持續(xù)時(shí)間閾值時(shí),結(jié)束錄音。
13.根據(jù)權(quán)利要求8至11任一項(xiàng)所述的系統(tǒng),其特征在于,還包括接收單元,用于接收錄音數(shù)據(jù),從錄音數(shù)據(jù)中確定錄音開(kāi)始幀。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,接收單元包括接收子單元,用于接收錄音數(shù)據(jù);開(kāi)始幀確定子單元,用于依次判斷每一幀錄音數(shù)據(jù)為靜音數(shù)據(jù)或非靜音數(shù)據(jù),將第一幀非靜音數(shù)據(jù)所在的幀作為錄音開(kāi)始幀。
全文摘要
本發(fā)明公開(kāi)了一種錄音結(jié)束點(diǎn)自動(dòng)檢測(cè)方法,包括獲取錄音文本,確定該錄音文本的文本結(jié)束點(diǎn)聲學(xué)模型;從錄音數(shù)據(jù)中的錄音開(kāi)始幀開(kāi)始,依次獲取每一幀錄音數(shù)據(jù);確定獲取到的當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型;判斷當(dāng)前幀錄音數(shù)據(jù)的解碼最優(yōu)路徑的特征聲學(xué)模型與所述結(jié)束點(diǎn)聲學(xué)模型相同時(shí),將靜音持續(xù)時(shí)間閾值更新為第二時(shí)間閾值,所述第二時(shí)間閾值小于第一時(shí)間閾值。還提供一種錄音結(jié)束點(diǎn)檢測(cè)系統(tǒng),該方法及系統(tǒng)能夠提高對(duì)于錄音結(jié)束點(diǎn)的識(shí)別效率。
文檔編號(hào)G09B19/04GK102456343SQ20101052633
公開(kāi)日2012年5月16日 申請(qǐng)日期2010年10月29日 優(yōu)先權(quán)日2010年10月29日
發(fā)明者劉慶峰, 胡國(guó)平, 胡郁, 魏思 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司