本申請屬于自然語言處理,涉及一種古文標點預測方法,特別是涉及一種古文標點預測方法、系統(tǒng)、電子設備及介質。
背景技術:
1、隨著互聯(lián)網(wǎng)的發(fā)展,非結構化的數(shù)據(jù)量也在逐漸增大,人們開始利用人工智能處理數(shù)據(jù),提取出來其中的有效信息。古文,作為漢語歷史的重要組成部分,其語言結構、語法規(guī)則以及標點的使用方式與現(xiàn)代漢語有著顯著差異。古文中常常省略標點符號,且標點的使用也并非固定,往往依賴于語境和作者的個人習慣,這使得機器學習模型在處理古文標點時容易出現(xiàn)歧義和不準確的情況。目前的標點預測技術大多基于現(xiàn)代漢語的標點規(guī)則進行訓練,而現(xiàn)代漢語的語法結構和古文差異較大。例如,古文中的句子往往省略主謂結構或使用倒裝句,而這些特征在現(xiàn)代漢語中較為少見。傳統(tǒng)的基于規(guī)則的模型和深度學習方法,雖然在現(xiàn)代漢語標點預測中取得了一定的成功,但在古文處理中,由于缺乏足夠的語料和規(guī)則支持,導致預測結果的準確性不高。尤其是當古文中出現(xiàn)復雜的修辭手法、長句嵌套或多重義項時,現(xiàn)有技術的模型難以正確理解上下文,從而給出不適當?shù)臉它c符號。
2、因此,如何解決古文標點預測中的不準確問題,成為當前研究的重要方向。
技術實現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術的缺點,本申請的目的在于提供一種古文標點預測方法、系統(tǒng)、電子設備及介質,用于解決現(xiàn)有技術中古文標點預測準確度不高的問題。
2、第一方面,本申請?zhí)峁┮环N古文標點預測方法,所述古文標點預測方法包括:獲取訓練數(shù)據(jù);對所述訓練數(shù)據(jù)進行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓練數(shù)據(jù)集;利用最小哈希算法構建索引庫,以獲取所述訓練數(shù)據(jù)集的參考文本;利用所述參考文本和所述訓練數(shù)據(jù)集的原始文本對初始語言模型進行訓練,以獲取古文標點預測模型;利用所述古文標點預測模型對待預測文本進行預測,以獲取預測結果。
3、本申請中,對訓練數(shù)據(jù)進行拆分處理,以獲取數(shù)據(jù)增強的訓練數(shù)據(jù)集,利用最小哈希算法獲取訓練數(shù)據(jù)集的參考文本,利用參考文本和原始文本對初始語言模型進行訓練,獲取古文標點預測模型,利用古文標點預測模型獲取待預測文本的預測結果。此種古文標點預測方法能夠避免連續(xù)標點預測的漏報、誤報問題,適應復雜的古文場景,快速完成古籍文本的斷句和標點,提高古文標點預測的準確度。
4、在第一方面的一種實現(xiàn)方式中,對所述訓練數(shù)據(jù)進行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓練數(shù)據(jù)集包括:對所述訓練數(shù)據(jù)進行句子拆分和文本拆分,以獲取短句集合和文本集合;根據(jù)所述短句集合和所述文本集合獲取窗口范圍內的最大短句數(shù)量和最大文本數(shù)量;根據(jù)所述最大短句數(shù)量、所述最大文本數(shù)量、所述短句集合和所述文本集合獲取所述訓練數(shù)據(jù)集。
5、在第一方面的一種實現(xiàn)方式中,所述訓練數(shù)據(jù)集包括至少一個待檢索文本,利用最小哈希算法構建索引庫,以獲取所述待檢索文本的參考文本包括:基于最小哈希算法獲取所述訓練數(shù)據(jù)集的哈希簽名向量;利用所述哈希簽名向量基于局部敏感哈希森林構建簽名索引庫;基于最小哈希算法獲取待檢索文本的哈希簽名向量;利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進行檢索,獲取所述待檢索文本的參考文本。
6、在第一方面的一種實現(xiàn)方式中,利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進行檢索,獲取所述待檢索文本的參考文本包括:利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進行檢索,獲取至少一條檢索結果;利用杰卡德相似度對所述檢索結果進行篩選,獲取杰卡德相似度大于設定閾值的檢索結果作為所述待檢索文本的參考文本。
7、在第一方面的一種實現(xiàn)方式中,所述古文標點預測方法包括:在利用所述古文標點預測模型對所述待預測文本進行預測時,將下一個預測字符限制為與所述待預測文本字符一致。
8、在第一方面的一種實現(xiàn)方式中,所述古文標點預測方法包括:在利用所述古文標點預測模型對所述待預測文本進行預測時,獲取至少一個候選預測結果,將概率值最大的所述候選預測結果作為所述預測結果。
9、在第一方面的一種實現(xiàn)方式中,利用所述參考文本和所述訓練數(shù)據(jù)集的原始文本對初始語言模型進行訓練,以獲取古文標點預測模型包括:利用訓練數(shù)據(jù)集的原始文本和所述參考文本輸入所述初始語言模型進行訓練,獲取初始古文標點預測模型;利用反向傳播對所述初始古文標點預測模型的參數(shù)進行調整直至模型收斂,以獲取所述古文標點預測模型。
10、第二方面,本申請?zhí)峁┮环N古文標點預測系統(tǒng),所述古文標點預測系統(tǒng)包括:數(shù)據(jù)獲取模塊,用于獲取訓練數(shù)據(jù);數(shù)據(jù)處理模塊,用于對所述訓練數(shù)據(jù)進行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓練數(shù)據(jù)集;參考文本模塊,用于利用最小哈希算法構建索引庫,以獲取所述訓練數(shù)據(jù)集的參考文本;模型獲取模塊,用于利用所述參考文本和所述訓練數(shù)據(jù)集的原始文本對初始語言模型進行訓練,以獲取古文標點預測模型;結果預測模塊,用于利用所述古文標點預測模型對待預測文本進行預測,以獲取預測結果。
11、第三方面,本申請?zhí)峁┮环N電子設備,所述電子設備包括:存儲器,用于存儲計算機程序;處理器,所述處理器用于執(zhí)行所述存儲器存儲的計算機程序,以使所述電子設備執(zhí)行如第一方面中任一項所述的古文標點預測方法。
12、第四方面,本申請?zhí)峁┮环N計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)第一方面中任一項所述的古文標點預測方法。
1.一種古文標點預測方法,其特征在于,包括:
2.根據(jù)權利要求1所述的古文標點預測方法,其特征在于,對所述訓練數(shù)據(jù)進行拆分處理,利用拆分后的數(shù)據(jù)塊獲取訓練數(shù)據(jù)集包括:
3.根據(jù)權利要求1所述的古文標點預測方法,其特征在于,所述訓練數(shù)據(jù)集包括至少一個待檢索文本,利用最小哈希算法構建索引庫,以獲取所述待檢索文本的參考文本包括:
4.根據(jù)權利要求3所述的古文標點預測方法,其特征在于,利用所述待檢索文本的哈希簽名向量在所述簽名索引庫中進行檢索,獲取所述待檢索文本的參考文本包括:
5.根據(jù)權利要求1所述的古文標點預測方法,其特征在于,包括:
6.根據(jù)權利要求1所述的古文標點預測方法,其特征在于,包括:
7.根據(jù)權利要求1所述的古文標點預測方法,其特征在于,利用所述參考文本和所述訓練數(shù)據(jù)集的原始文本對初始語言模型進行訓練,以獲取古文標點預測模型包括:
8.一種古文標點預測系統(tǒng),其特征在于,包括:
9.一種電子設備,其特征在于,所述電子設備包括:
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權利要求1至7任一項所述的古文標點預測方法。