1.一種語音喚醒方法,其特征在于,包括:
獲取輸入的當前語音信息對應(yīng)的當前音頻幀特征序列信息;
將所述當前音頻幀序列信息與目標喚醒詞對應(yīng)的目標聲學(xué)模型序列信息進行強制對齊處理,以從所述當前音頻幀序列信息中定位出與所述目標聲學(xué)模型序列信息中的每個音素對應(yīng)的音頻幀的范圍;
計算每個音頻幀的范圍中每個音頻幀的聲學(xué)似然評分,并從所述每個音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標音頻幀;
根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標音頻幀對應(yīng)的特征信息,確定所述當前語音信息屬于所述目標喚醒詞的置信度;
根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述當前音頻幀序列信息與目標喚醒詞對應(yīng)的目標聲學(xué)模型序列信息進行強制對齊處理,以從所述當前音頻幀序列信息中定位出與所述目標聲學(xué)模型序列信息中的每個音素對應(yīng)的音頻幀的范圍,包括:
將所述當前音頻幀序列信息與使用子空間聚類高斯混合方法對所述目標喚醒詞進行建模得到的目標聲學(xué)模型序列信息進行強制對齊處理,以確定所述目標聲學(xué)模型序列信息中每個音節(jié)的每個音素與所述當前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從所述音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標音頻幀,包括:
從與每個音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標音頻幀。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標音頻幀對應(yīng)的特征信息,確定所述當前語音信息屬于所述目標喚醒詞的置信度,包括:
使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計算與每個音素對應(yīng)的多個目標音頻幀中每個目標音頻幀的聲學(xué)后驗得分;
從與每個音素對應(yīng)的多個聲學(xué)后驗得分中選取出最大聲學(xué)后驗得分;
根據(jù)所有音素的最大聲學(xué)后驗得分計算所述當前語音信息屬于所述目標喚醒詞的置信度。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能,包括:
當所述置信度大于或者等于預(yù)設(shè)置信度時,確定允許喚醒所述語音喚醒功能;
當所述置信度小于所述預(yù)設(shè)置信度時,確定不允許喚醒所述語音喚醒功能。
6.一種語音喚醒裝置,其特征在于,包括:
獲取模塊,用于獲取輸入的當前語音信息對應(yīng)的當前音頻幀特征序列信息;
對齊模塊,用于將所述當前音頻幀序列信息與目標喚醒詞對應(yīng)的目標聲學(xué)模型序列信息進行強制對齊處理,以從所述當前音頻幀序列信息中定位出與所述目標聲學(xué)模型序列信息中的每個音素對應(yīng)的音頻幀的范圍;
選取模塊,用于計算每個音頻幀的范圍中每個音頻幀的聲學(xué)似然評分,并從所述每個音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標音頻幀;
確定模塊,用于根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標音頻幀對應(yīng)的特征信息,確定所述當前語音信息屬于所述目標喚醒詞的置信度;
喚醒模塊,用于根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述對齊模塊用于:
將所述當前音頻幀序列信息與使用子空間聚類高斯混合方法對所述目標喚醒詞進行建模得到的目標聲學(xué)模型序列信息進行強制對齊處理,以確定所述目標聲學(xué)模型序列信息中每個音節(jié)的每個音素與所述當前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述選取模塊用于:
從與每個音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標音頻幀。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述確定模塊包括:
第一計算子模塊,用于使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計算與每個音素對應(yīng)的多個目標音頻幀中每個目標音頻幀的聲學(xué)后驗得分;
選取子模塊,用于從與每個音素對應(yīng)的多個聲學(xué)后驗得分中選取出最大聲學(xué)后驗得分;
第二計算子模塊,用于根據(jù)所有音素的最大聲學(xué)后驗得分計算所述當前語音信息屬于所述目標喚醒詞的置信度。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述喚醒模塊包括:
第一處理子模塊,用于當所述置信度大于或者等于預(yù)設(shè)置信度時,確定允許喚醒所述語音喚醒功能;
第二處理子模塊,用于當所述置信度小于所述預(yù)設(shè)置信度時,確定不允許喚醒所述語音喚醒功能。