本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音喚醒方法及裝置。
背景技術(shù):
目前,在對語音喚醒功能的喚醒詞進(jìn)行識別時(shí),是采用深度學(xué)習(xí)算法對用戶輸入的整個(gè)語音信息進(jìn)行識別,計(jì)算量比較大,耗時(shí)長。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種語音喚醒方法及裝置,用以減少語音喚醒的計(jì)算量,從而使語音喚醒方法能應(yīng)用于存在低計(jì)算資源限制的語音設(shè)備中。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種語音喚醒方法,包括:
獲取輸入的當(dāng)前語音信息對應(yīng)的當(dāng)前音頻幀特征序列信息;
將所述當(dāng)前音頻幀序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍;
計(jì)算每個(gè)音頻幀的范圍中每個(gè)音頻幀的聲學(xué)似然評分,并從所述每個(gè)音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀;
根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀對應(yīng)的特征信息,確定所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度;
根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能。
在該實(shí)施例中,將當(dāng)前語音幀特征序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列進(jìn)行對齊強(qiáng)制處理,進(jìn)而從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍,并從該范圍中選取出預(yù)設(shè)數(shù)量的目標(biāo)音頻幀,通過使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀的特征信息確定當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,進(jìn)而確定是否喚醒語音喚醒功能。這樣,有效地減少了語音喚醒的計(jì)算量,從而能應(yīng)用于存在低計(jì)算資源限制的語音設(shè)備中。
在一個(gè)實(shí)施例中,將所述當(dāng)前音頻幀序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍,包括:
將所述當(dāng)前音頻幀序列信息與使用子空間聚類高斯混合方法對所述目標(biāo)喚醒詞進(jìn)行建模得到的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以確定所述目標(biāo)聲學(xué)模型序列信息中每個(gè)音節(jié)的每個(gè)音素與所述當(dāng)前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
在該實(shí)施例中,利用子空間聚類高斯混合方法確定當(dāng)前語音信息中與目標(biāo)喚醒詞的每個(gè)音素對應(yīng)的音頻幀的范圍,從而縮小語音喚醒的計(jì)算量。
在一個(gè)實(shí)施例中,所述從所述音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀,包括:
從與每個(gè)音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀。
在該實(shí)施例中,預(yù)設(shè)數(shù)量可以遠(yuǎn)小于音頻幀的范圍的數(shù)量,例如,某個(gè)音素對應(yīng)的音頻幀的范圍為0至30幀,假設(shè)預(yù)設(shè)數(shù)量為5幀,則可以從0至30幀的音頻幀中選擇出聲學(xué)似然評分高的5幀音頻幀,還可以選擇同時(shí)根據(jù)聲學(xué)似然評分和物理位置進(jìn)行選擇,如選擇出3幀音頻幀高的幀,其他2幀按照物理位置進(jìn)行選擇,如選擇處于中間位置的第10幀和第20幀,從而保證選取出的目標(biāo)音頻幀的準(zhǔn)確性。
在一個(gè)實(shí)施例中,所述根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀對應(yīng)的特征信息,確定所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度,包括:
使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算與每個(gè)音素對應(yīng)的多個(gè)目標(biāo)音頻幀中每個(gè)目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分;
從與每個(gè)音素對應(yīng)的多個(gè)聲學(xué)后驗(yàn)得分中選取出最大聲學(xué)后驗(yàn)得分;
根據(jù)所有音素的最大聲學(xué)后驗(yàn)得分計(jì)算所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度。
在該實(shí)施例中,將選出的全部目標(biāo)語音幀對應(yīng)的特征信息使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算對應(yīng)的聲學(xué)后驗(yàn)得分,對每個(gè)音素的多個(gè)聲學(xué)后驗(yàn)得分選擇其中的最大后驗(yàn)得分,并使用全部音素的最大后驗(yàn)得分計(jì)算得到當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,這樣,只需要計(jì)算目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分,無需計(jì)算所有的音頻幀的得分,在保證識別結(jié)果的準(zhǔn)確性的基礎(chǔ)上,大大減少了計(jì)算量,縮短了識別當(dāng)前語音信息所需的時(shí)長,提升了用戶的使用體驗(yàn)。
在一個(gè)實(shí)施例中,所述根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能,包括:
當(dāng)所述置信度大于或者等于預(yù)設(shè)置信度時(shí),確定允許喚醒所述語音喚醒功能;
當(dāng)所述置信度小于所述預(yù)設(shè)置信度時(shí),確定不允許喚醒所述語音喚醒功能。
在該實(shí)施例中,在當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度大于或者等于預(yù)設(shè)置信度時(shí),才允許喚醒語音喚醒功能,從而避免語音喚醒功能誤喚醒。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種語音喚醒裝置,包括:
獲取模塊,用于獲取輸入的當(dāng)前語音信息對應(yīng)的當(dāng)前音頻幀特征序列信息;
對齊模塊,用于將所述當(dāng)前音頻幀序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍;
選取模塊,用于計(jì)算每個(gè)音頻幀的范圍中每個(gè)音頻幀的聲學(xué)似然評分,并從所述每個(gè)音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀;
確定模塊,用于根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀對應(yīng)的特征信息,確定所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度;
喚醒模塊,用于根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能。
在一個(gè)實(shí)施例中,所述對齊模塊用于:
將所述當(dāng)前音頻幀序列信息與使用子空間聚類高斯混合方法對所述目標(biāo)喚醒詞進(jìn)行建模得到的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以確定所述目標(biāo)聲學(xué)模型序列信息中每個(gè)音節(jié)的每個(gè)音素與所述當(dāng)前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
在一個(gè)實(shí)施例中,所述選取模塊用于:
從與每個(gè)音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀。
在一個(gè)實(shí)施例中,所述確定模塊包括:
第一計(jì)算子模塊,用于使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算與每個(gè)音素對應(yīng)的多個(gè)目標(biāo)音頻幀中每個(gè)目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分;
選取子模塊,用于從與每個(gè)音素對應(yīng)的多個(gè)聲學(xué)后驗(yàn)得分中選取出最大聲學(xué)后驗(yàn)得分;
第二計(jì)算子模塊,用于根據(jù)所有音素的最大聲學(xué)后驗(yàn)得分計(jì)算所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度。
在一個(gè)實(shí)施例中,所述喚醒模塊包括:
第一處理子模塊,用于當(dāng)所述置信度大于或者等于預(yù)設(shè)置信度時(shí),確定允許喚醒所述語音喚醒功能;
第二處理子模塊,用于當(dāng)所述置信度小于所述預(yù)設(shè)置信度時(shí),確定不允許喚醒所述語音喚醒功能。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法的流程圖。
圖2是根據(jù)一示例性實(shí)施例示出的另一種語音喚醒方法的流程圖。
圖3是根據(jù)一示例性實(shí)施例示出的又一種語音喚醒方法的流程圖。
圖4是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法中步驟S104的流程圖。
圖5是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法中步驟S105的流程圖。
圖6是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置的框圖。
圖7是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置中確定模塊的框圖。
圖8是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置中喚醒模塊的框圖。
具體實(shí)施方式
這里將詳細(xì)地對示例性實(shí)施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法的流程圖。該語音喚醒方法應(yīng)用于低計(jì)算資源的終端設(shè)備中,該終端設(shè)備可以是移動電話,計(jì)算機(jī),數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個(gè)人數(shù)字助理等任一具有語音控制功能的設(shè)備。如圖1所示,該方法包括步驟S101-S105:
在步驟S101中,獲取輸入的當(dāng)前語音信息對應(yīng)的當(dāng)前音頻幀特征序列信息;
在步驟S102中,將當(dāng)前音頻幀序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以從當(dāng)前音頻幀序列信息中定位出與目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍;
在步驟S103中,計(jì)算每個(gè)音頻幀的范圍中每個(gè)音頻幀的聲學(xué)似然評分,并從每個(gè)音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀;
在步驟S104中,根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀對應(yīng)的特征信息,確定當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度;
在步驟S105中,根據(jù)置信度確定是否允許喚醒語音喚醒功能。
在該實(shí)施例中,將當(dāng)前語音幀特征序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列進(jìn)行對齊強(qiáng)制處理,進(jìn)而從當(dāng)前音頻幀序列信息中定位出與目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍,并從該范圍中選取出預(yù)設(shè)數(shù)量的目標(biāo)音頻幀,通過使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀的特征信息確定當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,進(jìn)而確定是否喚醒語音喚醒功能。這樣,有效地減少了語音喚醒的計(jì)算量,從而能應(yīng)用于存在低計(jì)算資源限制的語音設(shè)備中。
圖2是根據(jù)一示例性實(shí)施例示出的另一種語音喚醒方法的流程圖。
在一個(gè)實(shí)施例中,上述步驟S102包括步驟S201:
在步驟S201中,將當(dāng)前音頻幀序列信息與使用子空間聚類高斯混合方法對目標(biāo)喚醒詞進(jìn)行建模得到的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以確定目標(biāo)聲學(xué)模型序列信息中每個(gè)音節(jié)的每個(gè)音素與當(dāng)前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
在該實(shí)施例中,利用子空間聚類高斯混合方法確定當(dāng)前語音信息中與目標(biāo)喚醒詞的每個(gè)音素對應(yīng)的音頻幀的范圍,從而縮小語音喚醒的計(jì)算量。
圖3是根據(jù)一示例性實(shí)施例示出的又一種語音喚醒方法的流程圖。
如圖3所示,在一個(gè)實(shí)施例中,上述步驟S103包括步驟S301:
在步驟S301中,從與每個(gè)音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀。
在該實(shí)施例中,預(yù)設(shè)數(shù)量可以遠(yuǎn)小于音頻幀的范圍的數(shù)量,例如,某個(gè)音素對應(yīng)的音頻幀的范圍為0至30幀,假設(shè)預(yù)設(shè)數(shù)量為5幀,則可以從0至30幀的音頻幀中選擇出聲學(xué)似然評分高的5幀音頻幀,還可以選擇同時(shí)根據(jù)聲學(xué)似然評分和物理位置進(jìn)行選擇,如選擇出3幀音頻幀高的幀,其他2幀按照物理位置進(jìn)行選擇,如選擇處于中間位置的第10幀和第20幀,從而保證選取出的目標(biāo)音頻幀的準(zhǔn)確性。
圖4是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法中步驟S104的流程圖。
如圖4所示,在一個(gè)實(shí)施例中,上述步驟S104包括步驟S401-S403:
在步驟S401中,使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算與每個(gè)音素對應(yīng)的多個(gè)目標(biāo)音頻幀中每個(gè)目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分;
在步驟S402中,從與每個(gè)音素對應(yīng)的多個(gè)聲學(xué)后驗(yàn)得分中選取出最大聲學(xué)后驗(yàn)得分;
在步驟S403中,根據(jù)所有音素的最大聲學(xué)后驗(yàn)得分計(jì)算當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度。
在該實(shí)施例中,將選出的全部目標(biāo)語音幀對應(yīng)的特征信息使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算對應(yīng)的聲學(xué)后驗(yàn)得分,對每個(gè)音素的多個(gè)聲學(xué)后驗(yàn)得分選擇其中的最大后驗(yàn)得分,并使用全部音素的最大后驗(yàn)得分計(jì)算得到當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,這樣,只需要計(jì)算目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分,無需計(jì)算所有的音頻幀的得分,在保證識別結(jié)果的準(zhǔn)確性的基礎(chǔ)上,大大減少了計(jì)算量,縮短了識別當(dāng)前語音信息所需的時(shí)長,提升了用戶的使用體驗(yàn)。
圖5是根據(jù)一示例性實(shí)施例示出的一種語音喚醒方法中步驟S105的流程圖。
如圖5所示,在一個(gè)實(shí)施例中,上述步驟S105包括步驟S501-S502:
在步驟S501中,當(dāng)置信度大于或者等于預(yù)設(shè)置信度時(shí),確定允許喚醒語音喚醒功能;
在步驟S502中,當(dāng)置信度小于預(yù)設(shè)置信度時(shí),確定不允許喚醒語音喚醒功能。
在該實(shí)施例中,在當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度大于或者等于預(yù)設(shè)置信度時(shí),才允許喚醒語音喚醒功能,從而避免語音喚醒功能誤喚醒。
下面以一個(gè)具體實(shí)施例詳細(xì)說明本發(fā)明的技術(shù)方案。
例如,目標(biāo)喚醒詞為“打開手機(jī)”,則利用子空間聚類高斯混合方法對目標(biāo)喚醒詞進(jìn)行建模得到的目標(biāo)聲學(xué)模型序列信息,如果用戶輸入語音信息,如“開啟手機(jī)”,則獲取“開啟手機(jī)”對應(yīng)的當(dāng)前音頻幀序列信息,并將其與目標(biāo)聲學(xué)模型序列信息強(qiáng)制對齊,強(qiáng)制對齊即從當(dāng)前音頻幀序列信息中定位出與目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍,其中,目標(biāo)聲學(xué)模型序列信息中的音素包括“d”“a”“k”“ai”“sh”“ou”“j”“i”,假設(shè)強(qiáng)制對齊結(jié)果為:“d”對應(yīng)當(dāng)前語音幀序列中的0-30幀,“a”對應(yīng)當(dāng)前語音幀序列中的30-50幀,“k”對應(yīng)當(dāng)前語音幀序列中的50-80幀,“ai”對應(yīng)當(dāng)前語音幀序列中的80-120幀,“sh”對應(yīng)當(dāng)前語音幀序列中的120-150幀,“ou”對應(yīng)當(dāng)前語音幀序列中的150-180幀,“j”對應(yīng)當(dāng)前語音幀序列中的180-200幀,“i”對應(yīng)當(dāng)前語音幀序列中的200-220幀,其中,可以計(jì)算0-220幀中每個(gè)音頻幀的的聲學(xué)似然評分,根據(jù)聲學(xué)似然評分和在音頻幀范圍中的物理位置,在每個(gè)音頻幀的范圍中選取出預(yù)設(shè)數(shù)量的目標(biāo)音頻幀,假設(shè)預(yù)設(shè)數(shù)量為5幀,則可以從每個(gè)音頻幀的范圍中選取出聲學(xué)似然評分高和排列在中間位置的5幀目標(biāo)音頻幀,這樣,8個(gè)音素就選取出40幀目標(biāo)音頻幀,使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算每個(gè)音素對應(yīng)的5幀目標(biāo)音頻幀中每個(gè)目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分,并選取出其中聲學(xué)后驗(yàn)得分最高的聲學(xué)后驗(yàn)得分,8個(gè)音素就得到8個(gè)最大聲學(xué)后驗(yàn)得分,根據(jù)這8個(gè)最大聲學(xué)后驗(yàn)得分計(jì)算當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,如將8個(gè)最大聲學(xué)后驗(yàn)求平均值等,進(jìn)而根據(jù)當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度的高低,確定是否進(jìn)行語音喚醒。
下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。
圖6是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置的框圖,該裝置可以通過軟件、硬件或者兩者的結(jié)合實(shí)現(xiàn)成為終端設(shè)備的部分或者全部。如圖6所示,該語音喚醒裝置包括:
獲取模塊61,用于獲取輸入的當(dāng)前語音信息對應(yīng)的當(dāng)前音頻幀特征序列信息;
對齊模塊62,用于將所述當(dāng)前音頻幀序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍;
選取模塊63,用于計(jì)算每個(gè)音頻幀的范圍中每個(gè)音頻幀的聲學(xué)似然評分,并從所述每個(gè)音頻幀的范圍中選取出符合預(yù)設(shè)要求的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀;
確定模塊64,用于根據(jù)使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀對應(yīng)的特征信息,確定所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度;
喚醒模塊65,用于根據(jù)所述置信度確定是否允許喚醒所述語音喚醒功能。
在該實(shí)施例中,將當(dāng)前語音幀特征序列信息與目標(biāo)喚醒詞對應(yīng)的目標(biāo)聲學(xué)模型序列進(jìn)行對齊強(qiáng)制處理,進(jìn)而從所述當(dāng)前音頻幀序列信息中定位出與所述目標(biāo)聲學(xué)模型序列信息中的每個(gè)音素對應(yīng)的音頻幀的范圍,并從該范圍中選取出預(yù)設(shè)數(shù)量的目標(biāo)音頻幀,通過使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型和目標(biāo)音頻幀的特征信息確定當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,進(jìn)而確定是否喚醒語音喚醒功能。這樣,有效地減少了語音喚醒的計(jì)算量,從而能應(yīng)用于存在低計(jì)算資源限制的語音設(shè)備中。
在一個(gè)實(shí)施例中,所述對齊模塊62用于:
將所述當(dāng)前音頻幀序列信息與使用子空間聚類高斯混合方法對所述目標(biāo)喚醒詞進(jìn)行建模得到的目標(biāo)聲學(xué)模型序列信息進(jìn)行強(qiáng)制對齊處理,以確定所述目標(biāo)聲學(xué)模型序列信息中每個(gè)音節(jié)的每個(gè)音素與所述當(dāng)前語音幀特征序列信息中音頻幀的范圍之間的對應(yīng)關(guān)系。
在該實(shí)施例中,利用子空間聚類高斯混合方法確定當(dāng)前語音信息中與目標(biāo)喚醒詞的每個(gè)音素對應(yīng)的音頻幀的范圍,從而縮小語音喚醒的計(jì)算量。
例如,用戶說“打開空調(diào)”,這4個(gè)字可能是總時(shí)長2秒。其中,每個(gè)字的時(shí)長大概是200毫秒,字與字之間有停頓,因此,可以確定出“打開空調(diào)”這4個(gè)字對應(yīng)的800毫秒的音頻幀,進(jìn)而對這800毫秒的音頻幀進(jìn)行識別處理,而不是對整體的2秒音頻幀進(jìn)行識別處理。
在一個(gè)實(shí)施例中,所述選取模塊63用于:
從與每個(gè)音素對應(yīng)的音頻幀的范圍中選取出聲學(xué)似然評分大于或者等于預(yù)設(shè)評分和/或物理位置滿足預(yù)設(shè)物理位置的預(yù)設(shè)數(shù)量的目標(biāo)音頻幀。
在該實(shí)施例中,預(yù)設(shè)數(shù)量可以遠(yuǎn)小于音頻幀的范圍的數(shù)量,例如,某個(gè)音素對應(yīng)的音頻幀的范圍為0至30幀,假設(shè)預(yù)設(shè)數(shù)量為5幀,則可以從0至30幀的音頻幀中選擇出聲學(xué)似然評分高的5幀音頻幀,還可以選擇同時(shí)根據(jù)聲學(xué)似然評分和物理位置進(jìn)行選擇,如選擇出3幀音頻幀高的幀,其他2幀按照物理位置進(jìn)行選擇,如選擇處于中間位置的第10幀和第20幀,從而保證選取出的目標(biāo)音頻幀的準(zhǔn)確性。
圖7是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置中確定模塊的框圖。
如圖7所示,在一個(gè)實(shí)施例中,所述確定模塊64包括:
第一計(jì)算子模塊71,用于使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算與每個(gè)音素對應(yīng)的多個(gè)目標(biāo)音頻幀中每個(gè)目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分;
選取子模塊72,用于從與每個(gè)音素對應(yīng)的多個(gè)聲學(xué)后驗(yàn)得分中選取出最大聲學(xué)后驗(yàn)得分;
第二計(jì)算子模塊73,用于根據(jù)所有音素的最大聲學(xué)后驗(yàn)得分計(jì)算所述當(dāng)前語音信息屬于所述目標(biāo)喚醒詞的置信度。
在該實(shí)施例中,將選出的全部目標(biāo)語音幀對應(yīng)的特征信息使用深度神經(jīng)網(wǎng)絡(luò)建模的聲學(xué)模型計(jì)算對應(yīng)的聲學(xué)后驗(yàn)得分,對每個(gè)音素的多個(gè)聲學(xué)后驗(yàn)得分選擇其中的最大后驗(yàn)得分,并使用全部音素的最大后驗(yàn)得分計(jì)算得到當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度,這樣,只需要計(jì)算目標(biāo)音頻幀的聲學(xué)后驗(yàn)得分,無需計(jì)算所有的音頻幀的得分,在保證識別結(jié)果的準(zhǔn)確性的基礎(chǔ)上,大大減少了計(jì)算量,縮短了識別當(dāng)前語音信息所需的時(shí)長,提升了用戶的使用體驗(yàn)。
圖8是根據(jù)一示例性實(shí)施例示出的一種語音喚醒裝置中喚醒模塊的框圖。
如圖8所示,在一個(gè)實(shí)施例中,所述喚醒模塊65包括:
第一處理子模塊81,用于當(dāng)所述置信度大于或者等于預(yù)設(shè)置信度時(shí),確定允許喚醒所述語音喚醒功能;
第二處理子模塊82,用于當(dāng)所述置信度小于所述預(yù)設(shè)置信度時(shí),確定不允許喚醒所述語音喚醒功能。
在該實(shí)施例中,在當(dāng)前語音信息屬于目標(biāo)喚醒詞的置信度大于或者等于預(yù)設(shè)置信度時(shí),才允許喚醒語音喚醒功能,從而避免語音喚醒功能誤喚醒。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。