亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于鑒別性訓(xùn)練的定制語(yǔ)音喚醒優(yōu)化方法及系統(tǒng)與流程

文檔序號(hào):11409468閱讀:562來(lái)源:國(guó)知局
基于鑒別性訓(xùn)練的定制語(yǔ)音喚醒優(yōu)化方法及系統(tǒng)與流程

本發(fā)明涉及的是一種語(yǔ)音識(shí)別領(lǐng)域的技術(shù),具體是一種基于鑒別性訓(xùn)練的定制語(yǔ)音喚醒優(yōu)化方法及系統(tǒng)。



背景技術(shù):

可定制的語(yǔ)音喚醒(voicewake-up)系統(tǒng)的任務(wù)是指從一段連續(xù)的語(yǔ)音中自動(dòng)發(fā)現(xiàn)并定位一些事先指定的命令詞(喚醒詞)??啥ㄖ频奶匦泽w現(xiàn)在喚醒詞檢測(cè)模型不依賴于用戶指定的喚醒詞,從而實(shí)現(xiàn)無(wú)需修改模型即可方便更改用戶喚醒詞。主要的語(yǔ)音喚醒技術(shù)包括早期的動(dòng)態(tài)時(shí)間規(guī)整法,如今的基于隱馬爾科夫模型的方法,以及基于深度學(xué)習(xí)的方法。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對(duì)現(xiàn)有技術(shù)無(wú)法明確區(qū)分喚醒詞和非喚醒詞語(yǔ)之間的區(qū)分性不高,或通過(guò)定制語(yǔ)音模型才能實(shí)現(xiàn)從而提高了實(shí)現(xiàn)成本的同時(shí)降低了魯棒性等缺陷和不足,提出一種基于鑒別性訓(xùn)練的定制語(yǔ)音喚醒優(yōu)化方法及系統(tǒng),利用前后文無(wú)關(guān)音素的聲學(xué)解碼進(jìn)行高效搜索,從而完成對(duì)喚醒詞置信度選擇。

本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:

本發(fā)明包括以下步驟:

步驟1)在給定帶標(biāo)注的聲學(xué)數(shù)據(jù)后,結(jié)合初始的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過(guò)神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率;

步驟2)結(jié)合標(biāo)注序列及逐幀聲學(xué)概率,得到標(biāo)注喚醒詞的建模概率。

步驟3)利用在大量文本上統(tǒng)計(jì)得到的音素級(jí)語(yǔ)言模型,構(gòu)建為相應(yīng)的搜索網(wǎng)絡(luò),具體是指:在測(cè)試階段根據(jù)關(guān)鍵詞構(gòu)建搜索網(wǎng)絡(luò),而后在搜索網(wǎng)絡(luò)上結(jié)合聲學(xué)模型進(jìn)行搜索。本發(fā)明采用基于上下文無(wú)關(guān)音素的聲學(xué)模型,這是由于經(jīng)過(guò)了鑒別性訓(xùn)練,聲學(xué)模型具有更強(qiáng)的序列級(jí)信息,因此采用上下文相關(guān)音素和上下文無(wú)關(guān)音素對(duì)聲學(xué)模型的建模效果沒(méi)有差別?;谏舷挛臒o(wú)關(guān)音素的聲學(xué)模型,所構(gòu)建的搜索網(wǎng)絡(luò)只有傳統(tǒng)方法的三分之一大小,而對(duì)喚醒性能沒(méi)有影響。

所述的搜索是指:在測(cè)試階段結(jié)合已訓(xùn)練好的聲學(xué)模型和已構(gòu)建好的搜索網(wǎng)絡(luò),進(jìn)行逐幀維特比解碼,搜索得到發(fā)音特征序列對(duì)應(yīng)的最優(yōu)喚醒詞序列,及其相應(yīng)的識(shí)別概率,作為喚醒詞置信度。

步驟4)基于音素級(jí)語(yǔ)言模型的搜索空間和逐幀聲學(xué)模型可以進(jìn)行喚醒詞競(jìng)爭(zhēng)項(xiàng)建模,得到后驗(yàn)概率。

步驟5)結(jié)合喚醒詞競(jìng)爭(zhēng)項(xiàng)建模和標(biāo)注喚醒詞建模,進(jìn)行聲學(xué)模型的鑒別性訓(xùn)練。

步驟6)通過(guò)鑒別性訓(xùn)練得到的聲學(xué)模型對(duì)喚醒詞和非喚醒詞的區(qū)分性更強(qiáng),能夠得到更好的喚醒結(jié)果;通過(guò)該聲學(xué)模型采用基于喚醒詞置信度與自動(dòng)估計(jì)閾值的比較以判別是否喚醒。

由于可定制喚醒系統(tǒng)不限定喚醒詞,對(duì)于不同喚醒詞所使用的閾值也很難統(tǒng)一,本發(fā)明采用針對(duì)不同喚醒詞自動(dòng)估計(jì)閾值的方法,一定程度上解決閾值難以統(tǒng)一的問(wèn)題,從而提升系統(tǒng)喚醒的準(zhǔn)確性。自動(dòng)估計(jì)閾值方法基于對(duì)filler(填充物)的識(shí)別概率,將其作為閾值。當(dāng)喚醒詞置信度大于閾值時(shí),系統(tǒng)將輸出喚醒詞,否則不輸出喚醒詞,等待下次喚醒語(yǔ)音。

所述的filler是由所有的音素并行構(gòu)建而成的搜索空間,其識(shí)別概率是指在該搜索空間上基于已訓(xùn)練得到的聲學(xué)模型和聲學(xué)特征序列進(jìn)行解碼搜索得到的識(shí)別概率。

技術(shù)效果

與現(xiàn)有技術(shù)相比,本發(fā)明基于鑒別性訓(xùn)練、音素級(jí)語(yǔ)言模型搜索空間以及前后文無(wú)關(guān)音素的聲學(xué)解碼,從而具有更好的序列級(jí)建模,提高喚醒率、更好的序列級(jí)非喚醒詞建模,降低誤喚醒率以及相對(duì)更少的模型搜索計(jì)算量。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例系統(tǒng)示意圖;

圖2為本發(fā)明流程圖;

圖3為閾值建立示意圖。

具體實(shí)施方式

如圖1所示,本實(shí)施例涉及一種基于鑒別性訓(xùn)練的定制語(yǔ)音喚醒優(yōu)化系統(tǒng),包括:基于喚醒詞的搜索網(wǎng)絡(luò)、解碼搜索模塊、基于鑒別性訓(xùn)練的聲學(xué)模型模塊以及置信度判別模塊,其中:搜索網(wǎng)絡(luò)與解碼搜索模塊相連并傳輸針對(duì)定制喚醒詞的語(yǔ)言學(xué)信息,聲學(xué)模型模塊與解碼搜索模塊相連并傳輸針對(duì)信號(hào)進(jìn)行建模的聲學(xué)信息分值,解碼搜索模塊經(jīng)模型推測(cè)得到后驗(yàn)概率并輸出至置信度判別模塊,置信度判別模塊采用自動(dòng)估計(jì)閾值得到喚醒判定結(jié)果。

所述的聲學(xué)模型模塊具體包括:標(biāo)注喚醒詞建模單元、喚醒詞競(jìng)爭(zhēng)項(xiàng)建模單元和聲學(xué)模型鑒別性訓(xùn)練單元,其中:?jiǎn)拘言~競(jìng)爭(zhēng)項(xiàng)建模單元根據(jù)搜索空間生成基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型并輸出至喚醒詞競(jìng)爭(zhēng)項(xiàng)建模單元,標(biāo)注喚醒詞建模單元根據(jù)帶標(biāo)注的聲學(xué)數(shù)據(jù)和初始的聲學(xué)模型,通過(guò)神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率并輸出至聲學(xué)模型鑒別性訓(xùn)練單元,得到基于鑒別性訓(xùn)練的聲學(xué)模型用于對(duì)信號(hào)進(jìn)行建模的聲學(xué)信息評(píng)分。

所述的喚醒詞競(jìng)爭(zhēng)項(xiàng)建模單元內(nèi)含有基于音素級(jí)語(yǔ)言模型的搜索空間,喚醒詞競(jìng)爭(zhēng)項(xiàng)聲學(xué)信息,通過(guò)傳輸逐幀各音素聲學(xué)概率,用以得到喚醒詞競(jìng)爭(zhēng)項(xiàng)建模后驗(yàn)概率。

如圖2所示,本實(shí)施例包括以下步驟:

步驟1)在給定帶標(biāo)注的聲學(xué)數(shù)據(jù)后,結(jié)合初始的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過(guò)神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率;

步驟2)結(jié)合標(biāo)注序列及逐幀聲學(xué)概率,得到標(biāo)注喚醒詞的建模概率。

步驟3)利用在大量文本上統(tǒng)計(jì)得到的音素級(jí)語(yǔ)言模型,構(gòu)建為相應(yīng)的搜索網(wǎng)絡(luò),具體是指:在測(cè)試階段根據(jù)關(guān)鍵詞構(gòu)建搜索網(wǎng)絡(luò),而后在搜索網(wǎng)絡(luò)上結(jié)合聲學(xué)模型進(jìn)行搜索。本發(fā)明采用基于上下文無(wú)關(guān)音素的聲學(xué)模型,這是由于經(jīng)過(guò)了鑒別性訓(xùn)練,聲學(xué)模型具有更強(qiáng)的序列級(jí)信息,因此采用上下文相關(guān)音素和上下文無(wú)關(guān)音素對(duì)聲學(xué)模型的建模效果沒(méi)有差別?;谏舷挛臒o(wú)關(guān)音素的聲學(xué)模型,本模塊所構(gòu)建的搜索網(wǎng)絡(luò)只有傳統(tǒng)方法的三分之一大小,而對(duì)喚醒性能沒(méi)有影響。

所述的搜索是指:在測(cè)試階段結(jié)合已訓(xùn)練好的聲學(xué)模型和已構(gòu)建好的搜索網(wǎng)絡(luò),進(jìn)行逐幀維特比解碼,搜索得到發(fā)音特征序列對(duì)應(yīng)的最優(yōu)喚醒詞序列,及其相應(yīng)的識(shí)別概率,作為喚醒詞置信度。

步驟4)基于音素級(jí)語(yǔ)言模型的搜索空間和逐幀聲學(xué)模型可以進(jìn)行喚醒詞競(jìng)爭(zhēng)項(xiàng)建模,得到其概率。

步驟5)結(jié)合喚醒詞競(jìng)爭(zhēng)項(xiàng)建模和標(biāo)注喚醒詞建模,進(jìn)行聲學(xué)模型的鑒別性訓(xùn)練。

所述的鑒別性訓(xùn)練具體包括:

5.1)根據(jù)標(biāo)注喚醒詞建模,使用前后向算法,得到喚醒詞的對(duì)數(shù)概率;

5.2)根據(jù)喚醒詞競(jìng)爭(zhēng)項(xiàng)建模,使用前后向算法,得到搜索網(wǎng)絡(luò)對(duì)應(yīng)的對(duì)數(shù)邊緣概率;

5.3)逐幀將對(duì)數(shù)概率減去對(duì)數(shù)邊緣概率,得到喚醒詞在該幀的后驗(yàn)概率;

5.4)基于后驗(yàn)概率使用誤差反向傳播算法更新聲學(xué)模型的參數(shù),完成訓(xùn)練。

步驟6)通過(guò)鑒別性訓(xùn)練得到的聲學(xué)模型對(duì)喚醒詞和非喚醒詞的區(qū)分性更強(qiáng),能夠得到更好的喚醒結(jié)果;通過(guò)該聲學(xué)模型采用基于喚醒詞置信度與自動(dòng)估計(jì)閾值的比較以判別是否喚醒。

如圖3所示,本發(fā)明基于喚醒詞置信度與閾值的比較以判別是否喚醒。由于可定制喚醒系統(tǒng)不限定喚醒詞,對(duì)于不同喚醒詞所使用的閾值也很難統(tǒng)一,所以這里提出了一種針對(duì)不同喚醒詞自動(dòng)估計(jì)閾值的方法,一定程度上解決閾值難以統(tǒng)一的問(wèn)題,從而提升系統(tǒng)喚醒的準(zhǔn)確性。自動(dòng)估計(jì)閾值方法基于對(duì)filler的識(shí)別概率,將其作為閾值。當(dāng)喚醒詞置信度大于閾值時(shí),系統(tǒng)將輸出喚醒詞,否則不輸出喚醒詞,等待下次喚醒語(yǔ)音。

所述的filler是由所有的音素并行構(gòu)建而成的搜索空間,其識(shí)別概率是指在該搜索空間上基于已訓(xùn)練得到的聲學(xué)模型和聲學(xué)特征序列進(jìn)行解碼搜索得到的識(shí)別概率。

以下為本實(shí)施例與現(xiàn)有技術(shù)比較得到的實(shí)驗(yàn)數(shù)據(jù),其中第一行是基于逐幀交叉熵訓(xùn)練(ce)的傳統(tǒng)方法,第二行是基于ce初始化后訓(xùn)練最小貝葉斯風(fēng)險(xiǎn)(ce+smbr)的傳統(tǒng)方法,第三行是本方法(lf-bmmi)。倒數(shù)第二列是性能指標(biāo),越小越好,倒數(shù)第三列是效率指標(biāo),越小越好;由表中可以看出本發(fā)明相對(duì)兩種傳統(tǒng)方法,在性能上,等錯(cuò)率(eer)分別有相對(duì)40%和相對(duì)20%的顯著提升,同時(shí)在效率上,實(shí)時(shí)率(rtf)有近一倍改善。

上述具體實(shí)施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對(duì)其進(jìn)行局部調(diào)整,本發(fā)明的保護(hù)范圍以權(quán)利要求書(shū)為準(zhǔn)且不由上述具體實(shí)施所限,在其范圍內(nèi)的各個(gè)實(shí)現(xiàn)方案均受本發(fā)明之約束。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1