1.一種音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,所述方法包括:
步驟1)對(duì)每個(gè)音頻關(guān)鍵詞模板樣本進(jìn)行特征提取,將所提取的特征通過(guò)一個(gè)深層神經(jīng)網(wǎng)絡(luò),計(jì)算在一個(gè)給定音素集上全部音素的后驗(yàn)概率;
步驟2)基于步驟1)生成的后驗(yàn)概率,計(jì)算模板的后驗(yàn)概率穩(wěn)定性分?jǐn)?shù)、發(fā)音可靠性分?jǐn)?shù)和鄰域相似性分?jǐn)?shù);
步驟3)計(jì)算每個(gè)音頻關(guān)鍵詞模板的上述三種分?jǐn)?shù)的加權(quán)平均值,記為平均分?jǐn)?shù);
步驟4)按照平均分?jǐn)?shù)從大到小的順序進(jìn)行排序,選取前L個(gè)音頻關(guān)鍵詞模板作為代表性發(fā)音模板;
步驟5)對(duì)每個(gè)代表性發(fā)音模板進(jìn)行處理,調(diào)整其發(fā)音序列上每一幀的各發(fā)音單元的后驗(yàn)概率,并最小化模板的鄰域相似性分?jǐn)?shù);生成優(yōu)化的L個(gè)音頻檢索詞模板。
2.根據(jù)權(quán)利要求1所述的音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,其特征在于,所述步驟1)的音素集為采用基于國(guó)際音標(biāo)系統(tǒng)的通用音素集或采用目標(biāo)語(yǔ)言的特定音素集。
3.根據(jù)權(quán)利要求1所述的音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,其特征在于,所述步驟1)的特征提取中所涉及的特征為語(yǔ)音識(shí)別特征;所述語(yǔ)音識(shí)別特征為梅爾頻率倒譜系數(shù)或感知線性預(yù)測(cè)。
4.根據(jù)權(quán)利要求1所述的音頻關(guān)鍵詞模板的篩選和優(yōu)化方法,其特征在于,所述步驟5)具體包括:
步驟501)選取一條代表性發(fā)音模板為當(dāng)前模板q;設(shè)置迭代次數(shù)初始值N=0;
步驟502)計(jì)算當(dāng)前模板q和所有音頻關(guān)鍵詞模板的動(dòng)態(tài)時(shí)間規(guī)整距離,選取距離最小的K個(gè)模板,組成集合QN;
步驟503)利用步驟502)選取的K個(gè)模板計(jì)算當(dāng)前模板q的LS分?jǐn)?shù);設(shè)置初始學(xué)習(xí)率λ=λ0;
步驟504)對(duì)當(dāng)前模板q的第i幀的聲學(xué)單元j,對(duì)這一幀的后驗(yàn)概率做變換:
對(duì)每個(gè)i和j的組合,將修改之后的模板作為一個(gè)候選模板qij,共有i×j個(gè)候選模板;
步驟505)利用步驟502)選取的K個(gè)模板計(jì)算所有候選模板qij的LS分?jǐn)?shù),選出 LS分?jǐn)?shù)最小的一個(gè)候選模板為qbest;如果當(dāng)前模板q的LS分?jǐn)?shù)與qbest的分?jǐn)?shù)的差的絕對(duì)值超過(guò)了預(yù)設(shè)的閾值∈,用qbest替換當(dāng)前模板q,轉(zhuǎn)到步驟504);否則,學(xué)習(xí)率λ減半,轉(zhuǎn)到步驟506);
步驟506)判斷學(xué)習(xí)率λ是否大于預(yù)設(shè)的閾值λT,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟504);否則,進(jìn)入步驟507);
步驟507)判斷N是否小于最大迭代次數(shù)N0,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟508);否則,轉(zhuǎn)到步驟509);
步驟508)判斷集合QN和集合QN-1是否相同,如果判斷結(jié)果是肯定的,轉(zhuǎn)到步驟509);否則,令N=N+1,轉(zhuǎn)入步驟502);
步驟509)保存當(dāng)前模板q;轉(zhuǎn)入步驟501),直至所有的代表性發(fā)音模板處理完畢。