技術(shù)特征:
技術(shù)總結(jié)
一種基于鑒別性訓(xùn)練的定制語音喚醒優(yōu)化方法及系統(tǒng),在給定帶標(biāo)注的聲學(xué)數(shù)據(jù)后,結(jié)合初始的基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型,通過神經(jīng)網(wǎng)絡(luò)前向傳播得到逐幀聲學(xué)概率;結(jié)合標(biāo)注序列及逐幀聲學(xué)概率,得到標(biāo)注喚醒詞的建模概率;利用在大量文本上統(tǒng)計(jì)得到的音素級語言模型,構(gòu)建為相應(yīng)的搜索網(wǎng)絡(luò);基于音素級語言模型的搜索空間和逐幀聲學(xué)模型可以進(jìn)行喚醒詞競爭項(xiàng)建模,得到后驗(yàn)概率;結(jié)合喚醒詞競爭項(xiàng)建模和標(biāo)注喚醒詞建模,進(jìn)行聲學(xué)模型的鑒別性訓(xùn)練;通過鑒別性訓(xùn)練得到的聲學(xué)模型采用基于喚醒詞置信度與自動(dòng)估計(jì)閾值的比較以判別是否喚醒。
技術(shù)研發(fā)人員:俞凱;陳哲懷
受保護(hù)的技術(shù)使用者:上海交通大學(xué);蘇州思必馳信息科技有限公司
技術(shù)研發(fā)日:2017.05.16
技術(shù)公布日:2017.09.01