本申請涉及自然語言處理,具體涉及一種文本糾錯處理方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
1、語音識別技術(shù)是以語音為研究對象,通過語音信號處理和模式識別讓機(jī)器自動識別和理解人類口述的語言。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音數(shù)據(jù)轉(zhuǎn)變?yōu)橄鄳?yīng)文本的技術(shù)。
2、但是,由于受口音、口語習(xí)慣等主觀或客觀因素影響,語音識別技術(shù)往往存在識別不準(zhǔn)確的問題,因此,需要對語音識別文本進(jìn)行糾錯處理,即對語音識別文本中的錯誤進(jìn)行修正,以得到更為準(zhǔn)確的語音識別文本。因此,在實(shí)際業(yè)務(wù)使用場景中,文本糾錯對于語音識別技術(shù)至關(guān)重要;比如,在保險(xiǎn)服務(wù)中,文本糾錯技術(shù)可以發(fā)揮重要作用,針對客戶的語音輸入信息能夠自動識別并更正錯誤單詞或短語,使客戶能夠更流暢地輸入信息,從而提高客戶體驗(yàn)和工作效率。但是,相關(guān)技術(shù)中,文本糾錯方案的文本糾錯準(zhǔn)確度低。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┮环N文本糾錯處理方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì),屬于自然語言處理技術(shù)領(lǐng)域,可以利用不同模態(tài)之間的信息檢測和糾正文本錯誤,提高文本糾錯能力。
2、第一方面,本申請?zhí)峁┮环N文本糾錯處理方法,所述方法包括:
3、獲取待處理文本中每個目標(biāo)字符的文本特征;
4、獲取所述待處理文本中每個目標(biāo)字符的語音特征;
5、獲取所述待處理文本中每個目標(biāo)字符的字形特征;
6、基于所述每個目標(biāo)字符的文本特征、所述每個目標(biāo)字符的語音特征和所述每個目標(biāo)字符的字形特征進(jìn)行融合處理,得到所述待處理文本中每個目標(biāo)字符的特征集成表示;
7、通過訓(xùn)練好的糾錯模型,基于所述待處理文本中每個目標(biāo)字符的特征集成表示進(jìn)行糾錯處理,得到所述待處理文本的糾錯后文本。
8、第二方面,本申請?zhí)峁┮环N文本糾錯處理裝置,所述文本糾錯處理裝置包括:
9、獲取單元,用于獲取待處理文本中每個目標(biāo)字符的文本特征;
10、所述獲取單元,還用于獲取所述待處理文本中每個目標(biāo)字符的語音特征;
11、所述獲取單元,還用于獲取所述待處理文本中每個目標(biāo)字符的字形特征;
12、融合單元,用于基于所述每個目標(biāo)字符的文本特征、所述每個目標(biāo)字符的語音特征和所述每個目標(biāo)字符的字形特征進(jìn)行融合處理,得到所述待處理文本中每個目標(biāo)字符的特征集成表示;
13、處理單元,用于通過訓(xùn)練好的糾錯模型,基于所述待處理文本中每個目標(biāo)字符的特征集成表示進(jìn)行糾錯處理,得到所述待處理文本的糾錯后文本。
14、第三方面,本申請還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;所述存儲器用于存儲計(jì)算機(jī)程序;所述處理器用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時實(shí)現(xiàn)所述的文本糾錯處理方法。
15、第四方面,本申請還提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器進(jìn)行加載,以執(zhí)行所述的文本糾錯處理方法。
16、本申請中,第一方面,通過獲取待處理文本中每個目標(biāo)字符的文本特征、語音特征和字形特征,利用文本特征、語音特征和字形特征,可以融合語義、聲學(xué)和視覺三種維度信息來檢測和糾正文本錯誤,提高糾錯模型的準(zhǔn)確性,提高文本糾錯能力;第二方面,通過對文本特征、語音特征和字形特征融合處理控制不同模態(tài)之間的信息流,使得糾錯模型可以更好地利用不同模態(tài)之間的信息,從而提高糾錯模型的準(zhǔn)確性,提高文本糾錯能力。
1.一種文本糾錯處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的文本糾錯處理方法,其特征在于,所述基于所述每個目標(biāo)字符的文本特征、所述每個目標(biāo)字符的語音特征和所述每個目標(biāo)字符的字形特征進(jìn)行融合處理,得到所述待處理文本中每個目標(biāo)字符的特征集成表示,包括:
3.根據(jù)權(quán)利要求2所述的文本糾錯處理方法,其特征在于,所述通過訓(xùn)練好的文本選擇門參數(shù),根據(jù)所述每個目標(biāo)字符的文本特征、所述每個目標(biāo)字符的語音特征和所述每個目標(biāo)字符的字形特征,獲取所述每個目標(biāo)字符的文本融合權(quán)重,包括:
4.根據(jù)權(quán)利要求1所述的文本糾錯處理方法,其特征在于,所述訓(xùn)練好的糾錯模型通過如下方式訓(xùn)練得到:
5.根據(jù)權(quán)利要求1所述的文本糾錯處理方法,其特征在于,所述獲取待處理文本中每個目標(biāo)字符的文本特征,包括:
6.根據(jù)權(quán)利要求1所述的文本糾錯處理方法,其特征在于,所述獲取所述待處理文本中每個目標(biāo)字符的語音特征,包括:
7.根據(jù)權(quán)利要求1所述的文本糾錯處理方法,其特征在于,所述獲取所述待處理文本中每個目標(biāo)字符的字形特征,包括:
8.一種文本糾錯處理裝置,其特征在于,所述文本糾錯處理裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器進(jìn)行加載,以執(zhí)行權(quán)利要求1至7任一項(xiàng)所述的文本糾錯處理方法。