亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法與流程

文檔序號(hào):12678419閱讀:1579來(lái)源:國(guó)知局

本發(fā)明屬于語(yǔ)音識(shí)別領(lǐng)域,具體地說(shuō),涉及一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法。



背景技術(shù):

關(guān)鍵詞檢索任務(wù)是快速地從大規(guī)模、多樣性的語(yǔ)音數(shù)據(jù)中找到給定的關(guān)鍵詞所在的位置。在基于語(yǔ)音片段的關(guān)鍵詞檢索任務(wù)中,待檢索關(guān)鍵詞以一組音頻片段模板的形式給出。這些片段通常來(lái)自不同的說(shuō)話人或提取自不同的上下文,因此在包含的信息上有所區(qū)別。為了獲得具有較好的泛化性的檢索結(jié)果,即為了能夠處理待檢索語(yǔ)音中出現(xiàn)的來(lái)自不同說(shuō)話人或具有不同上下文的關(guān)鍵詞,需要充分利用某個(gè)關(guān)鍵詞的盡可能多的音頻片段。傳統(tǒng)的做法是對(duì)屬于單個(gè)關(guān)鍵詞的所有模板進(jìn)行平均,獲得單一模板,將其作為該關(guān)鍵詞的模板進(jìn)行檢索操作。

然而在實(shí)際的任務(wù)中,關(guān)鍵詞的不同音頻片段往往在質(zhì)量上有很大的差異,這些差異可能來(lái)自噪聲、信道不匹配、標(biāo)記錯(cuò)誤等因素。這樣的音頻片段可能不具有足夠的區(qū)分性,因此如果將其直接引入關(guān)鍵詞檢索過(guò)程,可能導(dǎo)致系統(tǒng)的檢索性能降低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服目前語(yǔ)音關(guān)鍵詞模板匹配的檢索系統(tǒng)中存在的上述問(wèn)題,提出一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,該方法制定了一種衡量模板質(zhì)量的標(biāo)準(zhǔn),并利用該標(biāo)準(zhǔn)對(duì)選取的音頻關(guān)鍵詞模板進(jìn)行篩選,得到代表性模板,最后對(duì)這些代表性模板進(jìn)行優(yōu)化,獲取到最終的質(zhì)量更高的音頻關(guān)鍵詞模板;用該方法得到的音頻關(guān)鍵詞模板進(jìn)行音頻檢索時(shí),能夠提高檢索的性能。

為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,所述方法包括:

步驟1)對(duì)每個(gè)音頻關(guān)鍵詞模板樣本進(jìn)行特征提取,將所提取的特征通過(guò)一個(gè)深層神經(jīng)網(wǎng)絡(luò),計(jì)算在一個(gè)給定音素集上全部音素的后驗(yàn)概率;

步驟2)基于步驟1)生成的后驗(yàn)概率,計(jì)算模板的后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)、發(fā)音可靠性分?jǐn)?shù)和鄰域相似性分?jǐn)?shù);

步驟3)計(jì)算每個(gè)音頻關(guān)鍵詞模板的上述三種分?jǐn)?shù)的加權(quán)平均值,記為平均分?jǐn)?shù);

步驟4)按照平均分?jǐn)?shù)從大到小的順序進(jìn)行排序,選取前L個(gè)音頻關(guān)鍵詞模板作為代表性發(fā)音模板;

步驟5)對(duì)每個(gè)代表性發(fā)音模板進(jìn)行處理,調(diào)整其發(fā)音序列上每一幀的各發(fā)音單元的后驗(yàn)概率,并最小化模板的鄰域相似性分?jǐn)?shù);生成優(yōu)化的L個(gè)音頻檢索詞模板。

上述技術(shù)方案中,所述步驟1)的音素集為采用基于國(guó)際音標(biāo)系統(tǒng)的通用音素集或采用目標(biāo)語(yǔ)言的特定音素集。

上述技術(shù)方案中,所述步驟1)的特征提取中所涉及的特征為語(yǔ)音識(shí)別特征;所述語(yǔ)音識(shí)別特征為梅爾頻率倒譜系數(shù)或感知線性預(yù)測(cè)。

上述技術(shù)方案中,所述步驟5)具體包括:

步驟501)選取一條代表性發(fā)音模板為當(dāng)前模板q;設(shè)置迭代次數(shù)初始值N=0;

步驟502)計(jì)算當(dāng)前模板q和所有音頻關(guān)鍵詞模板的動(dòng)態(tài)時(shí)間規(guī)整距離,選取距離最小的K個(gè)模板,組成集合QN;

步驟503)利用步驟502)選取的K個(gè)模板計(jì)算當(dāng)前模板q的LS分?jǐn)?shù);設(shè)置初始學(xué)習(xí)率λ=λ0

步驟504)對(duì)當(dāng)前模板q的第i幀的聲學(xué)單元j,對(duì)這一幀的后驗(yàn)概率做變換:

對(duì)每個(gè)i和j的組合,將修改之后的模板作為一個(gè)候選模板qij,共有i×j個(gè)候選模板;

步驟505)利用步驟502)選取的K個(gè)模板計(jì)算所有候選模板qij的LS分?jǐn)?shù),選出LS分?jǐn)?shù)最小的一個(gè)候選模板為qbest;如果當(dāng)前模板q的LS分?jǐn)?shù)與qbest的分?jǐn)?shù)的差的絕對(duì)值超過(guò)了預(yù)設(shè)的閾值∈,用qbest替換當(dāng)前模板q,轉(zhuǎn)到步驟504);否則,學(xué)習(xí)率λ減半,轉(zhuǎn)到步驟506);

步驟506)判斷學(xué)習(xí)率λ是否大于預(yù)設(shè)的閾值λT,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟504);否則,進(jìn)入步驟507);

步驟507)判斷N是否小于最大迭代次數(shù)N0,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟508);否則,轉(zhuǎn)到步驟509);

步驟508)判斷集合QN和集合QN-1是否相同,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步 驟509);否則,令N=N+1,轉(zhuǎn)入步驟502);

步驟509)保存當(dāng)前模板q;轉(zhuǎn)入步驟501),直至所有的代表性發(fā)音模板處理完畢。

本發(fā)明的優(yōu)點(diǎn)在于:

1、在檢索過(guò)程中,本發(fā)明的方法通過(guò)對(duì)輸入語(yǔ)音模板的自動(dòng)處理,減小輸入的不確定性,獲得更穩(wěn)定的輸入,從而提升系統(tǒng)的輸入適應(yīng)性,同時(shí)為后續(xù)處理過(guò)程中的優(yōu)化提供更多可能;

2、采用本發(fā)明的方法獲得的用品關(guān)鍵詞模板能夠更好地處理多模板關(guān)鍵詞的檢索任務(wù),在模板質(zhì)量不穩(wěn)定的情況下也能獲得良好的檢索效果,同時(shí)相比傳統(tǒng)的模板平均方法,能夠以更小的計(jì)算量獲得更好的檢索性能。

附圖說(shuō)明

圖1為本發(fā)明的音頻關(guān)鍵詞模板的篩選和優(yōu)化方法的流程圖。

具體實(shí)施方式

本發(fā)明的方法應(yīng)用于基于音頻模板的語(yǔ)音關(guān)鍵詞檢索系統(tǒng)前端。首先將關(guān)鍵詞檢索系統(tǒng)的語(yǔ)音樣例模板通過(guò)聲學(xué)模型前端轉(zhuǎn)換成概率分布的序列,然后計(jì)算序列內(nèi)部的概率分布穩(wěn)定性和序列間的相似性。據(jù)此可以對(duì)每個(gè)模板的質(zhì)量作出評(píng)價(jià)。進(jìn)一步,根據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),選出最具有代表性的若干個(gè)模板,并對(duì)這些模板的概率分布進(jìn)行調(diào)整,獲得較原始模板質(zhì)量更高的新模板。這些模板將作為關(guān)鍵詞的模板用于后續(xù)檢索過(guò)程。

下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。

如圖1所示,一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,所述方法包括:

步驟1)對(duì)每個(gè)音頻關(guān)鍵詞模板樣本進(jìn)行特征提取,將所提取的特征通過(guò)一個(gè)深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network),計(jì)算在一個(gè)給定音素集上全部音素的后驗(yàn)概率;

其中,所述音素集為采用基于國(guó)際音標(biāo)系統(tǒng)的通用音素集或采用目標(biāo)語(yǔ)言的特定音素集;所述深層神經(jīng)網(wǎng)絡(luò)預(yù)先基于若干種語(yǔ)言的數(shù)據(jù)訓(xùn)練產(chǎn)生。

計(jì)算后驗(yàn)概率是將音頻關(guān)鍵詞模板轉(zhuǎn)化為幀級(jí)音素后驗(yàn)概率;因此在特征提取前,首先對(duì)音頻關(guān)鍵詞模板進(jìn)行分幀操作,所述分幀操作是在輸入語(yǔ)音流上,以25毫秒為幀長(zhǎng)、10毫秒為幀移,進(jìn)行時(shí)域上的切分;所述特征提取中所涉及的特征為 語(yǔ)音識(shí)別特征:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)或感知線性預(yù)測(cè)(Perceptual Linear Prediction,PLP);然后,這些特征被送入所述深層神經(jīng)網(wǎng)絡(luò)生成特定音素集狀態(tài)的后驗(yàn)概率;該后驗(yàn)概率滿足如下條件:

假設(shè)pi,s(t)為第t幀時(shí)音素i(1≤i≤M)、狀態(tài)s(1≤s≤S)的后驗(yàn)概率,則音素后驗(yàn)概率pi(t)為該音素所有狀態(tài)的概率和,即:

并滿足:

步驟2)基于步驟1)生成的后驗(yàn)概率,計(jì)算模板的后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)、發(fā)音可靠性分?jǐn)?shù)和鄰域相似性分?jǐn)?shù);

所述后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)用于描述模板后驗(yàn)概率在聲學(xué)狀態(tài)上分布的穩(wěn)定程度。為了計(jì)算此分?jǐn)?shù),首先對(duì)模板后驗(yàn)概率序列進(jìn)行分段,每個(gè)分段近似對(duì)應(yīng)一個(gè)音素;在每個(gè)分段上選取前N個(gè)后驗(yàn)概率最高的發(fā)音單元,計(jì)算后驗(yàn)概率穩(wěn)定性分?jǐn)?shù):

上式中,S表示模板分段數(shù),bi和ei分別表示分段i的起點(diǎn)和終點(diǎn),pj,top(i,n)是第j幀上聲學(xué)狀態(tài)top(i,n)的后驗(yàn)概率,top(i,n)表示分段i上后驗(yàn)概率第n大的狀態(tài),;該分?jǐn)?shù)描述的是模板的后驗(yàn)概率是否穩(wěn)定。實(shí)驗(yàn)證明,后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)較低的模板在檢索過(guò)程中通常帶來(lái)更高的虛警率,因此,這一分?jǐn)?shù)可以作為衡量模板質(zhì)量的依據(jù)。

所述發(fā)音可靠性分?jǐn)?shù)用于描述根據(jù)后驗(yàn)概率給出的最優(yōu)聲學(xué)單元序列的可靠程度。對(duì)模板后驗(yàn)概率序列按照前段所述的方法進(jìn)行分段,然后列出每個(gè)分段上后驗(yàn)概率最高的音素。對(duì)屬于同一關(guān)鍵詞的兩個(gè)模板,計(jì)算其編輯距離:

c(qi,qj)=max(1-aNsub-b(Nins+Ndel))

式中Nsub、Nins和Ndel分別代表替換錯(cuò)誤、插入錯(cuò)誤和刪除錯(cuò)誤。參數(shù)b>a,這種取法代表更重視長(zhǎng)度不一致,而接受一定的相似發(fā)音混淆。由此,定義發(fā)音可靠性分?jǐn)?shù)為:

這一分?jǐn)?shù)描述屬于同一關(guān)鍵詞的模板之間發(fā)音的相似性,由此篩選出發(fā)音異常的模板,這些模板通常不應(yīng)作為匹配的依據(jù)。

所述鄰域相似性分?jǐn)?shù)用于描述屬于同一關(guān)鍵詞的模板之間后驗(yàn)概率序列的相似性;定義為距當(dāng)前模板最近的K個(gè)模板到當(dāng)前模板的平均距離:

這一分?jǐn)?shù)描述的是一個(gè)模板與臨近模板的相似程度;這將作為后續(xù)聚類過(guò)程中的依據(jù)。

步驟3)計(jì)算每個(gè)音頻關(guān)鍵詞模板的上述三種分?jǐn)?shù)的加權(quán)平均值,記為平均分?jǐn)?shù);

三種分?jǐn)?shù)的權(quán)重根據(jù)實(shí)際情況進(jìn)行設(shè)定。

步驟4)對(duì)每個(gè)音頻關(guān)鍵詞的模板按平均分?jǐn)?shù)從大到小排序,選出前L個(gè)音頻關(guān)鍵詞模板作為代表性發(fā)音模板;

步驟5)對(duì)代表性發(fā)音模板進(jìn)行迭代,調(diào)整發(fā)音序列上每一幀的各發(fā)音單元的后驗(yàn)概率,并最小化模板的鄰域相似性分?jǐn)?shù);生成最終的音頻檢索詞模板;具體包括:

步驟501)選取一條代表性發(fā)音模板為當(dāng)前模板q;設(shè)置迭代次數(shù)初始值N=0;

步驟502)計(jì)算當(dāng)前模板q和所有音頻關(guān)鍵詞模板的動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)距離,選取距離最小的K個(gè)模板,組成集合QN;

步驟503)利用步驟502)選取的K個(gè)模板計(jì)算當(dāng)前模板q的LS分?jǐn)?shù);設(shè)置初始學(xué)習(xí)率λ=λ0

步驟504)對(duì)當(dāng)前模板q的第i幀的聲學(xué)單元j,對(duì)這一幀的后驗(yàn)概率做如下的操作:

對(duì)每個(gè)i和j的組合,將修改之后的模板作為一個(gè)候選模板qij,共有i×j個(gè)候選模板;

步驟505)利用步驟502)選取的K個(gè)模板計(jì)算所有候選模板qij的LS分?jǐn)?shù),選出LS分?jǐn)?shù)最小的一個(gè)候選模板為qbest;如果當(dāng)前模板q的LS分?jǐn)?shù)與qbest的分?jǐn)?shù)的差的絕對(duì)值超過(guò)了預(yù)設(shè)的閾值∈,用qbest替換當(dāng)前模板q,跳到步驟504);否則,學(xué)習(xí)率λ減 半,跳到步驟506);

步驟506)判斷學(xué)習(xí)率λ是否大于預(yù)設(shè)的閾值λT,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟504);否則,進(jìn)入步驟507);

步驟507)判斷N是否小于最大迭代次數(shù)N0,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟508);否則,轉(zhuǎn)到步驟509);

步驟508)判斷集合QN和集合QN-1是否相同,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟509);否則,令N=N+1,轉(zhuǎn)入步驟502);

步驟509)保存當(dāng)前模板q;轉(zhuǎn)入步驟501),直至所有的代表性發(fā)音模板處理完畢。

上述步驟的優(yōu)化目標(biāo)是模板的鄰域相似性分?jǐn)?shù)。通常情況下,隨著模板鄰域相似性分?jǐn)?shù)的提高,其后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)也會(huì)提高,原因是模板間的共性越多,其發(fā)音單元層面的差異也會(huì)減小。而且后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)通常不會(huì)改變,因?yàn)橥痪垲愔械哪0灏l(fā)音通常相似。所以通過(guò)步驟5)可以獲得質(zhì)量更高的模板,用于后續(xù)檢索。

實(shí)驗(yàn)證明,在通常的基于動(dòng)態(tài)時(shí)間規(guī)整的語(yǔ)音關(guān)鍵詞檢索系統(tǒng)中,僅通過(guò)基于模板質(zhì)量評(píng)分的篩選方法選出關(guān)鍵詞的最優(yōu)模板,可以將關(guān)鍵詞檢索的F-分?jǐn)?shù)從27.05提升到35.08;再加入模板質(zhì)量提升的方法之后,可以將F-分?jǐn)?shù)提升到46.10。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1