本公開涉及數(shù)據(jù)處理,尤其涉及人工智能、計算機視覺、語音技術(shù)、智能搜索等。
背景技術(shù):
1、語音識別是人工智能領(lǐng)域中的一項關(guān)鍵技術(shù),它使得機器能夠理解和處理人類的語音,將其轉(zhuǎn)換為文本或執(zhí)行特定的命令。這項技術(shù)跨越了信號處理、模式識別、概率論、信息論、語言學(xué)等多個學(xué)科領(lǐng)域。
2、近年來,隨著深度學(xué)習(xí)技術(shù)的突破性進展,使得這項技術(shù)得以在多個行業(yè)中得到實際應(yīng)用,包括但不限于工業(yè)自動化、家用電器、汽車、電子消費品等。
技術(shù)實現(xiàn)思路
1、本公開提供了一種模型訓(xùn)練方法,語音識別方法及相關(guān)裝置。
2、根據(jù)本公開的一方面,提供了一種模型訓(xùn)練方法,包括:
3、輸入口型樣本序列到口型處理模型,以得到基于口型樣本序列預(yù)測的第一詞典編碼預(yù)測結(jié)果;
4、基于第一詞典編碼預(yù)測結(jié)果和第二詞典編碼預(yù)測結(jié)果,確定損失值;第二詞典編碼預(yù)測結(jié)果基于口型樣本序列對應(yīng)的目標(biāo)文本確定;
5、基于損失值調(diào)整口型處理模型的模型參數(shù),以得到口型解讀模型;其中,口型解讀模型用于輔助進行語音識別。
6、根據(jù)本公開的另一方面,提供了一種語音識別方法,應(yīng)用于前述方法訓(xùn)練得到的口型解讀模型,包括:
7、獲取目標(biāo)對象的目標(biāo)語音以及與目標(biāo)語音對應(yīng)的口型圖像序列;
8、基于口型解讀模型處理口型圖像序列,得到第三詞典編碼預(yù)測結(jié)果;以及,
9、將目標(biāo)語音輸入目標(biāo)語音識別網(wǎng)絡(luò),得到第四詞典編碼預(yù)測結(jié)果;
10、融合第三詞典編碼預(yù)測結(jié)果和第四詞典編碼預(yù)測結(jié)果,得到融合編碼預(yù)測結(jié)果;
11、基于詞典解析融合編碼預(yù)測結(jié)果,得到目標(biāo)語音對應(yīng)的文本信息。
12、根據(jù)本公開的另一方面,提供了一種模型訓(xùn)練裝置,包括:
13、輸入模塊,用于輸入口型樣本序列到口型處理模型,以得到基于口型樣本序列預(yù)測的第一詞典編碼預(yù)測結(jié)果;
14、確定模塊,用于基于第一詞典編碼預(yù)測結(jié)果和第二詞典編碼預(yù)測結(jié)果,確定損失值;第二詞典編碼預(yù)測結(jié)果基于口型樣本序列對應(yīng)的目標(biāo)文本確定;
15、優(yōu)化模塊,用于基于損失值調(diào)整口型處理模型的模型參數(shù),以得到口型解讀模型;其中,口型解讀模型用于輔助進行語音識別。
16、根據(jù)本公開的另一方面,提供了一種語音識別裝置,應(yīng)用前述模型訓(xùn)練裝置訓(xùn)練得到的口型解讀模型,包括:
17、獲取模塊,用于獲取目標(biāo)對象的目標(biāo)語音以及與目標(biāo)語音對應(yīng)的口型圖像序列;
18、第一預(yù)測模塊,用于基于口型解讀模型處理口型圖像序列,得到第三詞典編碼預(yù)測結(jié)果;以及,
19、第二預(yù)測模塊,用于將目標(biāo)語音輸入目標(biāo)語音識別網(wǎng)絡(luò),得到第四詞典編碼預(yù)測結(jié)果;
20、融合模塊,用于融合第三詞典編碼預(yù)測結(jié)果和第四詞典編碼預(yù)測結(jié)果,得到融合編碼預(yù)測結(jié)果;
21、識別模塊,用于基于詞典解析融合編碼預(yù)測結(jié)果,得到目標(biāo)語音對應(yīng)的文本信息。
22、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:
23、至少一個處理器;以及
24、與該至少一個處理器通信連接的存儲器;其中,
25、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行本公開實施例中任一的方法。
26、根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,該計算機指令用于使該計算機執(zhí)行根據(jù)本公開實施例中任一的方法。
27、根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)本公開實施例中任一的方法。
28、根據(jù)本公開的另一方面,提供了一種車輛,包括前述的電子設(shè)備。
29、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種模型訓(xùn)練方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述口型處理模型包括口型編碼器,口型解碼器以及連接在所述口型解碼器之后的詞分類器;
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述基于所述第一詞典編碼預(yù)測結(jié)果和第二詞典編碼預(yù)測結(jié)果,確定損失值,包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述參考損失包括以下中的至少一種:
5.根據(jù)權(quán)利要求4所述的方法,其中,確定所述第一損失,包括:
6.根據(jù)權(quán)利要求4所述的方法,其中,確定所述第二損失,包括:
7.根據(jù)權(quán)利要求6所述的方法,其中,所述音素識別網(wǎng)絡(luò)包括音素級回歸網(wǎng)絡(luò)和音素分類器;
8.根據(jù)權(quán)利要求3所述的方法,其中,所述參考損失和所述預(yù)測損失的權(quán)重通過訓(xùn)練所述口型處理模型得到。
9.根據(jù)權(quán)利要求1-8中任一項所述的方法,其中,在詞典中具有新增詞匯的情況下,在所述口型解讀模型的模型參數(shù)的基礎(chǔ)上繼續(xù)優(yōu)化所述口型解讀模型,以使所述口型解讀模型適用于所述新增詞匯。
10.一種語音識別方法,應(yīng)用于權(quán)利要求1-9中任一項所述的方法訓(xùn)練得到的口型解讀模型,包括:
11.根據(jù)權(quán)利要求10所述的方法,其中,所述融合所述第三詞典編碼預(yù)測結(jié)果和所述第四詞典編碼預(yù)測結(jié)果,得到融合編碼預(yù)測結(jié)果,包括:
12.根據(jù)權(quán)利要求10所述的方法,其中,所述融合所述第三詞典編碼預(yù)測結(jié)果和所述第四詞典編碼預(yù)測結(jié)果,得到融合編碼預(yù)測結(jié)果,包括:
13.根據(jù)權(quán)利要求10所述的方法,其中,所述獲取目標(biāo)對象的目標(biāo)語音以及與所述目標(biāo)語音對應(yīng)的口型圖像序列,包括:
14.根據(jù)權(quán)利要求10所述的方法,其中,所述基于所述口型解讀模型處理所述口型圖像序列,得到第三詞典編碼預(yù)測結(jié)果,包括:
15.一種模型訓(xùn)練裝置,包括:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述口型處理模型包括口型編碼器,口型解碼器以及連接在所述口型解碼器之后的詞分類器;
17.根據(jù)權(quán)利要求15或16所述的裝置,其中,所述確定模塊,包括:
18.根據(jù)權(quán)利要求17所述的裝置,其中,所述參考損失包括以下中的至少一種:
19.根據(jù)權(quán)利要求18所述的裝置,其中,所述確定模塊,具體用于:
20.根據(jù)權(quán)利要求18所述的裝置,其中,所述確定模塊,具體用于:
21.根據(jù)權(quán)利要求20所述的裝置,其中,所述音素識別網(wǎng)絡(luò)包括音素級回歸網(wǎng)絡(luò)和音素分類器;
22.根據(jù)權(quán)利要求17所述的裝置,其中,所述參考損失和所述預(yù)測損失的權(quán)重通過訓(xùn)練所述口型處理模型得到。
23.根據(jù)權(quán)利要求15-22中任一項所述的裝置,還包括優(yōu)化單元,用于:在詞典中具有新增詞匯的情況下,在所述口型解讀模型的模型參數(shù)的基礎(chǔ)上繼續(xù)優(yōu)化所述口型解讀模型,以使所述口型解讀模型適用于所述新增詞匯。
24.一種語音識別裝置,應(yīng)用于權(quán)利要求15-23中任一項所述的裝置訓(xùn)練得到的口型解讀模型,包括:
25.根據(jù)權(quán)利要求24所述的裝置,其中,所述融合模塊,包括:
26.根據(jù)權(quán)利要求24所述的裝置,其中,所述融合模塊,包括:
27.根據(jù)權(quán)利要求24所述的裝置,其中,所述獲取模塊,包括:
28.根據(jù)權(quán)利要求24所述的裝置,其中,所述第一預(yù)測模塊,包括:
29.一種電子設(shè)備,包括:
30.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行根據(jù)權(quán)利要求1-14中任一項所述的方法。
31.一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-14中任一項所述的方法。
32.一種車輛,包括權(quán)利要求29所述的電子設(shè)備。