本技術(shù)涉及人工智能開(kāi)發(fā)與金融科技領(lǐng)域,尤其涉及基于人工智能的中文糾錯(cuò)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、在金融企業(yè)的日常運(yùn)營(yíng)中,確保信息的準(zhǔn)確無(wú)誤是維護(hù)客戶(hù)信任、保障交易安全及提升服務(wù)質(zhì)量的基石。特別是在處理涉及大量文本數(shù)據(jù)的場(chǎng)景,如客戶(hù)資料錄入、交易記錄保存、財(cái)務(wù)報(bào)告編制等,文字的正確性尤為重要。然而,由于人為輸入錯(cuò)誤、系統(tǒng)識(shí)別偏差或語(yǔ)言復(fù)雜性等因素,文本數(shù)據(jù)中難免會(huì)出現(xiàn)錯(cuò)別字、筆誤等問(wèn)題,這些問(wèn)題若不及時(shí)糾正,可能引發(fā)誤解、數(shù)據(jù)錯(cuò)誤乃至法律糾紛。
2、傳統(tǒng)上,金融企業(yè)針對(duì)中文文本中的錯(cuò)誤糾正,廣泛采用了基于拼音編輯距離(pinyin?edit?distance)或鍵盤(pán)編輯距離(keyboard?edit?distance)的方法。這些方法的核心思想是通過(guò)模擬用戶(hù)可能的輸入錯(cuò)誤(如誤擊、漏擊鍵盤(pán)鍵位),計(jì)算將錯(cuò)誤字符串轉(zhuǎn)換為正確字符串所需的最小編輯操作數(shù)(包括插入、刪除、替換等),從而實(shí)現(xiàn)對(duì)錯(cuò)誤文本的自動(dòng)修正。盡管錯(cuò)誤糾正方法在特定場(chǎng)景下展現(xiàn)了一定的有效性,但其固有的局限性也日益凸顯:1.計(jì)算復(fù)雜度高昂:由于需要對(duì)輸入的每一個(gè)字符與數(shù)據(jù)庫(kù)中所有可能的正確字符串進(jìn)行逐一比對(duì),并計(jì)算其編輯距離,導(dǎo)致算法的時(shí)間復(fù)雜度高達(dá)o(n*l),其中n代表字符總數(shù)(即數(shù)據(jù)庫(kù)中所有可能正確字符串的集合大小),l為待糾錯(cuò)字符串的長(zhǎng)度。隨著數(shù)據(jù)庫(kù)規(guī)模的擴(kuò)大和文本長(zhǎng)度的增加,這種計(jì)算負(fù)擔(dān)將急劇上升,影響系統(tǒng)的響應(yīng)速度和效率,導(dǎo)致糾錯(cuò)處理的效率低下。2.強(qiáng)依賴(lài)數(shù)據(jù)庫(kù)內(nèi)容:此類(lèi)方法高度依賴(lài)于預(yù)先建立的正確字符串?dāng)?shù)據(jù)庫(kù)。對(duì)于數(shù)據(jù)庫(kù)中不存在的詞匯或新出現(xiàn)的詞匯,則無(wú)法進(jìn)行有效糾錯(cuò),限制了其適用范圍和靈活性,導(dǎo)致糾錯(cuò)效果較差。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例的目的在于提出一種基于人工智能的中文糾錯(cuò)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決現(xiàn)有的金融企業(yè)針對(duì)中文文本中的錯(cuò)誤糾正方式存在糾錯(cuò)處理的效率低下,且糾錯(cuò)效果較差的技術(shù)問(wèn)題。
2、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例提供一種基于人工智能的中文糾錯(cuò)方法,采用了如下所述的技術(shù)方案:
3、獲取待處理的輸入文本,并對(duì)所述輸入文本進(jìn)行分詞處理得到對(duì)應(yīng)的詞語(yǔ);
4、對(duì)所述詞語(yǔ)進(jìn)行編碼特征提取處理,得到對(duì)應(yīng)的目標(biāo)編碼特征;
5、基于預(yù)設(shè)的錯(cuò)誤檢測(cè)模型對(duì)所述目標(biāo)編碼特征進(jìn)行錯(cuò)誤檢測(cè)處理,得到對(duì)應(yīng)的錯(cuò)誤檢測(cè)結(jié)果;
6、若所述錯(cuò)誤檢測(cè)結(jié)果為錯(cuò)詞,則基于預(yù)設(shè)的錯(cuò)誤類(lèi)型推理模型對(duì)所述目標(biāo)編碼特征進(jìn)行錯(cuò)誤類(lèi)型推理處理,得到對(duì)應(yīng)的目標(biāo)錯(cuò)誤類(lèi)型;
7、基于預(yù)設(shè)的錯(cuò)誤糾正模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于預(yù)設(shè)的各個(gè)候選替換漢字的第一替換概率值;
8、調(diào)用與所述目標(biāo)錯(cuò)誤類(lèi)型對(duì)應(yīng)的目標(biāo)預(yù)測(cè)模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的第二替換概率值;
9、基于所述第一替換概率值與所述第二替換概率值,生成所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的修正替換概率值;
10、從所有所述候選替換漢字中篩選出修正替換概率值最高的目標(biāo)替換漢字,并將所述目標(biāo)替換漢字作為所述詞語(yǔ)的糾正詞。
11、進(jìn)一步的,所述目標(biāo)錯(cuò)誤類(lèi)型包括音似錯(cuò)誤或形似錯(cuò)誤,所述調(diào)用與所述目標(biāo)錯(cuò)誤類(lèi)型對(duì)應(yīng)的目標(biāo)預(yù)測(cè)模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的第二替換概率值的步驟,具體包括:
12、若所述目標(biāo)錯(cuò)誤類(lèi)型為音似錯(cuò)誤,則調(diào)用預(yù)設(shè)的音似模型作為所述目標(biāo)預(yù)測(cè)模型;
13、基于所述音似模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的第一預(yù)測(cè)替換概率值;
14、將所述第一預(yù)測(cè)替換概率值作為所述第二替換概率值;
15、若所述目標(biāo)錯(cuò)誤類(lèi)型為形似錯(cuò)誤,則調(diào)用預(yù)設(shè)的形似模型作為所述目標(biāo)預(yù)測(cè)模型;
16、基于所述形似模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的第二預(yù)測(cè)替換概率值;
17、將所述第二預(yù)測(cè)替換概率值作為所述第二替換概率值。
18、進(jìn)一步的,所述基于所述第一替換概率值與所述第二替換概率值,生成所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的修正替換概率值的步驟,具體包括:
19、獲取與指定候選替換漢字對(duì)應(yīng)的第一指定替換概率值與第二指定替換概率值;其中,所述指定候選替換漢字為所有所述候選替換漢字中的任意一個(gè)漢字;
20、獲取預(yù)設(shè)的相加策略;
21、基于所述相加策略,對(duì)所述第一指定替換概率值與第二指定替換概率值進(jìn)行相加處理,得到對(duì)應(yīng)的指定替換概率和值;
22、將所述指定替換概率和值作為所述目標(biāo)編碼特征對(duì)應(yīng)于所述指定候選替換漢字的修正替換概率值。
23、進(jìn)一步的,所述對(duì)所述輸入文本進(jìn)行分詞處理得到對(duì)應(yīng)的詞語(yǔ)的步驟,具體包括:
24、調(diào)用預(yù)設(shè)的分詞工具;
25、基于所述分詞工具對(duì)所述輸入文本進(jìn)行分詞處理,得到對(duì)應(yīng)的分詞結(jié)果;
26、將所述分詞結(jié)果作為所述詞語(yǔ)。
27、進(jìn)一步的,所述對(duì)所述詞語(yǔ)進(jìn)行編碼特征提取處理,得到對(duì)應(yīng)的目標(biāo)編碼特征的步驟,具體包括:
28、調(diào)用預(yù)訓(xùn)練語(yǔ)言模型;
29、基于所述預(yù)訓(xùn)練語(yǔ)言模型對(duì)所述詞語(yǔ)進(jìn)行編碼處理,得到對(duì)應(yīng)的第一編碼特征;
30、對(duì)所述第一編碼特征進(jìn)行正則化處理,得到對(duì)應(yīng)的第二編碼特征;
31、將所述第二編碼特征作為所述目標(biāo)編碼特征。
32、進(jìn)一步的,在所述基于預(yù)設(shè)的錯(cuò)誤類(lèi)型推理模型對(duì)所述目標(biāo)編碼特征進(jìn)行錯(cuò)誤類(lèi)型推理處理,得到對(duì)應(yīng)的目標(biāo)錯(cuò)誤類(lèi)型的步驟之前,還包括:
33、獲取預(yù)先構(gòu)建的錯(cuò)詞數(shù)據(jù)集;
34、對(duì)所述錯(cuò)詞數(shù)據(jù)集進(jìn)行特征編碼,得到對(duì)應(yīng)的編碼特征數(shù)據(jù);
35、對(duì)所述編碼特征數(shù)據(jù)進(jìn)行預(yù)處理,得到對(duì)應(yīng)的錯(cuò)詞樣本數(shù)據(jù);
36、調(diào)用預(yù)設(shè)的多層感知機(jī)分類(lèi)器,并確定所述多層感知機(jī)分類(lèi)器的網(wǎng)絡(luò)結(jié)構(gòu);
37、確定與所述多層感知機(jī)分類(lèi)器對(duì)應(yīng)的目標(biāo)激活函數(shù)與目標(biāo)損失函數(shù);
38、基于所述目標(biāo)激活函數(shù)與所述目標(biāo)損失函數(shù),使用所述錯(cuò)詞樣本數(shù)據(jù)對(duì)所述多層感知機(jī)分類(lèi)器進(jìn)行訓(xùn)練,得到符合預(yù)設(shè)構(gòu)建條件的指定模型;
39、將所述指定模型作為所述錯(cuò)誤類(lèi)型推理模型。
40、進(jìn)一步的,在所述從所有所述候選替換漢字中篩選出修正替換概率值最高的目標(biāo)替換漢字,并將所述目標(biāo)替換漢字作為所述詞語(yǔ)的糾正詞的步驟之后,還包括:
41、基于所述糾正詞對(duì)所述輸入文本中的所述詞語(yǔ)進(jìn)行相應(yīng)的替換處理,得到對(duì)應(yīng)的糾錯(cuò)文本;
42、獲取與所述糾錯(cuò)文本對(duì)應(yīng)的目標(biāo)存儲(chǔ)方式;
43、基于所述目標(biāo)存儲(chǔ)方式對(duì)所述糾錯(cuò)文本進(jìn)行存儲(chǔ)處理。
44、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種基于人工智能的中文糾錯(cuò)裝置,采用了如下所述的技術(shù)方案:
45、分詞模塊,用于獲取待處理的輸入文本,并對(duì)所述輸入文本進(jìn)行分詞處理得到對(duì)應(yīng)的詞語(yǔ);
46、提取模塊,用于對(duì)所述詞語(yǔ)進(jìn)行編碼特征提取處理,得到對(duì)應(yīng)的目標(biāo)編碼特征;
47、檢測(cè)模塊,用于基于預(yù)設(shè)的錯(cuò)誤檢測(cè)模型對(duì)所述目標(biāo)編碼特征進(jìn)行錯(cuò)誤檢測(cè)處理,得到對(duì)應(yīng)的錯(cuò)誤檢測(cè)結(jié)果;
48、推理模塊,用于若所述錯(cuò)誤檢測(cè)結(jié)果為錯(cuò)詞,則基于預(yù)設(shè)的錯(cuò)誤類(lèi)型推理模型對(duì)所述目標(biāo)編碼特征進(jìn)行錯(cuò)誤類(lèi)型推理處理,得到對(duì)應(yīng)的目標(biāo)錯(cuò)誤類(lèi)型;
49、第一預(yù)測(cè)模塊,用于基于預(yù)設(shè)的錯(cuò)誤糾正模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于預(yù)設(shè)的各個(gè)候選替換漢字的第一替換概率值;
50、第二預(yù)測(cè)模塊,用于調(diào)用與所述目標(biāo)錯(cuò)誤類(lèi)型對(duì)應(yīng)的目標(biāo)預(yù)測(cè)模型對(duì)所述目標(biāo)編碼特征進(jìn)行預(yù)測(cè)處理,得到所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的第二替換概率值;
51、生成模塊,用于基于所述第一替換概率值與所述第二替換概率值,生成所述目標(biāo)編碼特征對(duì)應(yīng)于各個(gè)所述候選替換漢字的修正替換概率值;
52、篩選模塊,用于從所有所述候選替換漢字中篩選出修正替換概率值最高的目標(biāo)替換漢字,并將所述目標(biāo)替換漢字作為所述詞語(yǔ)的糾正詞。
53、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,采用了如下所述的技術(shù)方案:
54、所述計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本技術(shù)實(shí)施例中提出的任一項(xiàng)所述的基于人工智能的中文糾錯(cuò)方法的步驟。
55、為了解決上述技術(shù)問(wèn)題,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),采用了如下所述的技術(shù)方案:
56、所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本技術(shù)實(shí)施例中提出的任一項(xiàng)所述的基于人工智能的中文糾錯(cuò)方法的步驟。
57、與現(xiàn)有技術(shù)相比,本技術(shù)實(shí)施例主要有以下有益效果:
58、本技術(shù)在對(duì)獲取的輸入文本進(jìn)行分詞并提取出與目標(biāo)編碼特征后,通過(guò)使用錯(cuò)誤檢測(cè)模型檢測(cè)輸入文本中的錯(cuò)詞,并基于錯(cuò)誤類(lèi)型推理模型檢測(cè)該錯(cuò)詞的目標(biāo)錯(cuò)誤類(lèi)型,進(jìn)而根據(jù)該目標(biāo)錯(cuò)誤類(lèi)型利用相應(yīng)的目標(biāo)預(yù)測(cè)模型建立對(duì)應(yīng)的第二替換概率值,并與基于錯(cuò)誤糾正模型輸出的與該錯(cuò)詞對(duì)應(yīng)的第一指定替換概率值進(jìn)行對(duì)于目標(biāo)錯(cuò)誤類(lèi)型的概率修正處理并得到相應(yīng)的修正替換概率值,使得后續(xù)根據(jù)該修正替換概率值進(jìn)行詞語(yǔ)糾錯(cuò),可以有效地提高糾錯(cuò)處理的處理效率,并且對(duì)文本中出現(xiàn)錯(cuò)誤的詞的判斷更加準(zhǔn)確,糾錯(cuò)效果更好,有效地提高了糾錯(cuò)效果。