1.一種基于人工智能的語音喚醒方法,其特征在于,包括以下步驟:
獲取自定義喚醒詞對應(yīng)的發(fā)音信息;
獲取所述發(fā)音信息對應(yīng)的近似發(fā)音信息;
根據(jù)預(yù)設(shè)的垃圾詞列表、所述發(fā)音信息和所述近似發(fā)音信息構(gòu)建喚醒詞識別網(wǎng)絡(luò),以根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別,并根據(jù)識別結(jié)果確定是否執(zhí)行喚醒操作。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的垃圾詞列表、所述發(fā)音信息和所述近似發(fā)音信息構(gòu)建喚醒詞識別網(wǎng)絡(luò),包括:
根據(jù)所述垃圾詞列表和所述自定義喚醒詞中預(yù)設(shè)詞語的發(fā)音信息生成第一發(fā)音信息;
根據(jù)所述垃圾詞列表、所述自定義喚醒的發(fā)音信息、所述第一發(fā)音信息和所述近似發(fā)音信息構(gòu)建所述喚醒詞識別網(wǎng)絡(luò)。
3.如權(quán)利要求1所述的方法,其特征在于,在根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別之前,還包括:
根據(jù)所述自定義喚醒詞構(gòu)建線性識別網(wǎng)絡(luò);
利用所述自定義喚醒詞的示例語音在所述線性解碼網(wǎng)絡(luò)上做強制對齊,得到所述線性解碼網(wǎng)絡(luò)對應(yīng)的似然得分總和;
所述根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別,包括:
提取所述語音的聲學特征;
根據(jù)預(yù)設(shè)的聲學模型對所述聲學特征進行分析,得到所述語音對應(yīng)的N個狀態(tài)及所述N個狀態(tài)的似然得分,其中,N為正整數(shù);
如果第i個狀態(tài)屬于所述自定義喚醒詞對應(yīng)的狀態(tài)集合,則根據(jù)所述似然得分總和對所述第i個狀態(tài)的似然得分進行修正,其中,i為不大于N的正整數(shù);
根據(jù)所述N個狀態(tài)修正后的似然得分,基于所述喚醒詞識別網(wǎng)絡(luò),采用維特比算法對所述語音進行識別。
4.如權(quán)利要求3所述的方法,其特征在于,在根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別之前,還包括:
根據(jù)所述自定義喚醒詞的發(fā)音信息確定所述自定義喚醒詞對應(yīng)的音素數(shù)量;
根據(jù)所述音素數(shù)量對預(yù)設(shè)的語音識別過程中使用的第一活躍路徑數(shù)量進行調(diào)整,得到第二活躍路徑數(shù)量;
所述根據(jù)所述N個狀態(tài)修正后的似然得分,基于所述喚醒詞識別網(wǎng)絡(luò),采用維特比算法對所述語音進行識別,包括:
根據(jù)所述N個狀態(tài)修正后的似然得分和所述第二活躍路徑數(shù)量,從所述喚醒詞識別網(wǎng)絡(luò)中選取最優(yōu)識別路徑,得到所述語音的識別結(jié)果。
5.如權(quán)利要求3或4所述的方法,其特征在于,在根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別之前,還包括:
獲取所述自定義喚醒詞的文本長度信息,并獲取所述自定義喚醒詞的發(fā)音得分;
根據(jù)所述文本長度信息、所述發(fā)音得分和所述似然得分總和,對預(yù)設(shè)的第一置信度閾值進行調(diào)整,得到第二置信度閾值;
所述根據(jù)識別結(jié)果確定是否執(zhí)行喚醒操作,包括:
獲取所述識別結(jié)果的置信度;
如果所述置信度大于所述第二置信度閾值,則執(zhí)行喚醒操作;
如果所述置信度不大于所述第二置信度閾值,則拒絕執(zhí)行喚醒操作。
6.如權(quán)利要求5所述的方法,其特征在于,所述獲取所述自定義喚醒詞的發(fā)音得分,包括:
查詢預(yù)先建立的喚醒詞概率分布表,得到所述自定義喚醒詞對應(yīng)的各個音節(jié)的發(fā)音得分。
7.如權(quán)利要求6所述的方法,其特征在于,所述喚醒詞概率分布表通過以下步驟建立:
對于每個音節(jié),統(tǒng)計字庫中發(fā)音包括所述音節(jié)的字符的第一數(shù)量,并統(tǒng)計預(yù)設(shè)文本數(shù)據(jù)集合中發(fā)音包括所述音節(jié)的字符的第二數(shù)量,并統(tǒng)計與所述音節(jié)具有相似發(fā)音的音節(jié)的第三數(shù)量;
根據(jù)每個音節(jié)對應(yīng)的所述第一數(shù)量、所述第二數(shù)量和所述第三數(shù)量計算相應(yīng)音節(jié)的喚醒詞概率發(fā)音得分,建立所述喚醒詞概率分布表。
8.一種基于人工智能的語音喚醒裝置,其特征在于,包括:
第一獲取模塊,用于獲取自定義喚醒詞對應(yīng)的發(fā)音信息;
第二獲取模塊,用于獲取所述發(fā)音信息對應(yīng)的近似發(fā)音信息;
第一構(gòu)建模塊,用于根據(jù)預(yù)設(shè)的垃圾詞列表、所述發(fā)音信息和所述近似發(fā)音信息構(gòu)建喚醒詞識別網(wǎng)絡(luò);
喚醒模塊,用于根據(jù)所述喚醒詞識別網(wǎng)絡(luò)對用戶輸入的語音進行識別,并根據(jù)識別結(jié)果確定是否執(zhí)行喚醒操作。
9.如權(quán)利要求8所述的裝置,其特征在于,所述第一構(gòu)建模塊用于:
根據(jù)所述垃圾詞列表和所述自定義喚醒詞中預(yù)設(shè)詞語的發(fā)音信息生成第一發(fā)音信息;
根據(jù)所述垃圾詞列表、所述自定義喚醒的發(fā)音信息、所述第一發(fā)音信息和所述近似發(fā)音信息構(gòu)建所述喚醒詞識別網(wǎng)絡(luò)。
10.如權(quán)利要求8所述的裝置,其特征在于,還包括:
第二構(gòu)建模塊,用于根據(jù)所述自定義喚醒詞構(gòu)建線性識別網(wǎng)絡(luò);
對齊模塊,用于利用所述自定義喚醒詞的示例語音在所述線性解碼網(wǎng)絡(luò)上做強制對齊,得到所述線性解碼網(wǎng)絡(luò)對應(yīng)的似然得分總和;
喚醒模塊包括:
提取單元,用于提取所述語音的聲學特征;
分析單元,用于根據(jù)預(yù)設(shè)的聲學模型對所述聲學特征進行分析,得到所述語音對應(yīng)的N個狀態(tài)及所述N個狀態(tài)的似然得分,其中,N為正整數(shù);
修正單元,用于如果第i個狀態(tài)屬于所述自定義喚醒詞對應(yīng)的狀態(tài)集合,則根據(jù)所述似然得分總和對所述第i個狀態(tài)的似然得分進行修正,其中,i為不大于N的正整數(shù);
識別單元,用于根據(jù)所述N個狀態(tài)修正后的似然得分,基于所述喚醒詞識別網(wǎng)絡(luò),采用維特比算法對所述語音進行識別。
11.如權(quán)利要求10所述的裝置,其特征在于,還包括:
確定模塊,用于根據(jù)所述自定義喚醒詞的發(fā)音信息確定所述自定義喚醒詞對應(yīng)的音素數(shù)量;
第一調(diào)整模塊,用于根據(jù)所述音素數(shù)量對預(yù)設(shè)的語音識別過程中使用的第一活躍路徑數(shù)量進行調(diào)整,得到第二活躍路徑數(shù)量;
所述識別單元用于:
根據(jù)所述N個狀態(tài)修正后的似然得分和所述第二活躍路徑數(shù)量,從所述喚醒詞識別網(wǎng)絡(luò)中選取最優(yōu)識別路徑,得到所述語音的識別結(jié)果。
12.如權(quán)利要求10或11所述的裝置,其特征在于,還包括:
第三獲取模塊,用于獲取所述自定義喚醒詞的文本長度信息,并獲取所述自定義喚醒詞的發(fā)音得分;
第二調(diào)整模塊,用于根據(jù)所述文本長度信息、所述發(fā)音得分和所述似然得分總和,對預(yù)設(shè)的第一置信度閾值進行調(diào)整,得到第二置信度閾值;
所述喚醒模塊,用于:
獲取所述識別結(jié)果的置信度;
如果所述置信度大于所述第二置信度閾值,則執(zhí)行喚醒操作;
如果所述置信度不大于所述第二置信度閾值,則拒絕執(zhí)行喚醒操作。
13.如權(quán)利要求12所述的裝置,其特征在于,所述第三獲取模塊用于:
查詢預(yù)先建立的喚醒詞概率分布表,得到所述自定義喚醒詞對應(yīng)的各個音節(jié)的發(fā)音得分。
14.如權(quán)利要求13所述的裝置,其特征在于,還包括建立模塊,用于通過以下步驟建立所述喚醒詞概率分布表:
對于每個音節(jié),統(tǒng)計字庫中發(fā)音包括所述音節(jié)的字符的第一數(shù)量,并統(tǒng)計預(yù)設(shè)文本數(shù)據(jù)集合中發(fā)音包括所述音節(jié)的字符的第二數(shù)量,并統(tǒng)計與所述音節(jié)具有相似發(fā)音的音節(jié)的第三數(shù)量;
根據(jù)每個音節(jié)對應(yīng)的所述第一數(shù)量、所述第二數(shù)量和所述第三數(shù)量計算相應(yīng)音節(jié)的喚醒詞概率發(fā)音得分,建立所述喚醒詞概率分布表。