本發(fā)明屬于文本處理,具體而言,涉及基于大型語言模型的文本事實性校對方法與系統(tǒng)。
背景技術(shù):
1、目前關(guān)于文本中的字詞錯誤、語法錯誤等顯式文本糾錯已比較成熟,方法與工具都比較多,而對于文本稿件中的事實性或知識性錯誤的智能校對還有較大不足,常需要具備一定專業(yè)知識的編輯進行人工校對,費時費力。在新聞、自媒體和博客等領(lǐng)域均有需要,以確定發(fā)出給公眾瀏覽的文本中不包含事實性錯誤,比如某國的首都是某地,某物品是由某材料制成的、某件事發(fā)生的日期、某國現(xiàn)在的總統(tǒng)是誰以及某領(lǐng)導(dǎo)目前的職務(wù)名稱等。
2、目前常用的智能事實校對方法大多需要自己維護一個包含眾多知識與事實的知識庫,這個知識庫可能是非結(jié)構(gòu)化的文本文檔庫,也可能是結(jié)構(gòu)化的知識圖譜,但是知識是無限的,對于單個公司或機構(gòu)來說,建立的知識庫是無法完全羅列的。這些方法通常還需要進行顯式地執(zhí)行一些古典自然語言處理子任務(wù),如分詞任務(wù)、實體識別任務(wù)和句子詞向量化等,通過一系列的子模型執(zhí)行子任務(wù),然后進行組合后,再使用大型語言模型判斷實體關(guān)系,進一步進行糾錯。這些方法步驟繁多,涉及多個模型,如分詞模型、實體識別模型、向量化模型與大型語言模型等,眾多模型和步驟容易造成錯誤累積,并且大多沒有充分利用目前大型語言模型的強大能力;此外,現(xiàn)有的方法為了保證知識的實時性與全面性,需要對知識庫進行實時維護與更新,耗時耗力。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明提供基于大型語言模型的文本事實性校對方法與系統(tǒng)。
2、第一方面,本發(fā)明提供了基于大型語言模型的文本事實性校對方法,包括:
3、構(gòu)建任務(wù)自適應(yīng)的大型語言模型提示詞框架,包括任務(wù)目標及描述單元、任務(wù)工作流單元、任務(wù)約束單元、任務(wù)示例單元與任務(wù)輸出格式設(shè)定單元;任務(wù)目標及描述單元用于定義提示詞的任務(wù)目標與描述大型語言模型提示詞框架的期望輸出;任務(wù)工作流單元用于定義完成任務(wù)需要遵循的工作流程;任務(wù)約束單元用于設(shè)定任務(wù)約束條件,引導(dǎo)大型語言模型提示詞框架在指定條件下執(zhí)行任務(wù);任務(wù)示例單元用于在提示詞中加入任務(wù)示例;任務(wù)輸出格式設(shè)定單元用于指定期望的大型語言模型提示詞框架回復(fù)格式;
4、基于大型語言模型提示詞框架構(gòu)建文本分解提示詞模板,對于包含事實知識的文本,使用文本分解提示詞模板將文本分解為若干個獨立的精簡事實表達文本;
5、基于大型語言模型提示詞框架構(gòu)建實體提取和事實查詢語句生成提示詞模板,將精簡事實表達文本填充至實體提取和事實查詢語句生成提示詞模板,提取精簡事實表達文本的關(guān)鍵實體,生成事實查詢語句;
6、建立本地自有知識庫與可信網(wǎng)址庫;本地自有知識庫包括固定常識、從動態(tài)變化知識庫獲取的事實文本與自定義設(shè)定的事實文本;
7、基于大型語言模型提示詞框架合成事實校驗指令數(shù)據(jù),使用合成的事實校驗指令數(shù)據(jù)對大型語言模型提示詞框架進行微調(diào)訓(xùn)練,得到訓(xùn)練后的大型語言模型;
8、使用訓(xùn)練后的大型語言模型進行三路并行判斷校驗,包括:構(gòu)建提示詞模板,將原始文本輸入至訓(xùn)練后的大型語言模型直接對事實表達文本進行判斷校驗;構(gòu)建文本校驗提示詞模板,使用關(guān)鍵實體利用事實查詢語句搜索本地自有知識庫,將搜索到的知識文本與原始文本填充入文本校驗提示詞模板,使用訓(xùn)練后的大型語言模型根據(jù)填充入文本校驗提示詞模板的內(nèi)容進行判斷校驗;使用事實查詢語句進行互聯(lián)網(wǎng)檢索,采用可信網(wǎng)址庫中的信息源,將檢索到的內(nèi)容與原始文本填充入文本校驗提示詞模板構(gòu)建校驗提示詞,使用訓(xùn)練后的大型語言模型進行判斷校驗;
9、輸出判斷校驗結(jié)果與信息來源。
10、第二方面,本發(fā)明提供了基于大型語言模型的文本事實性校對系統(tǒng),包括第一構(gòu)建單元、第二構(gòu)建單元、提取與生成單元、庫建立單元、訓(xùn)練單元、判斷校驗單元與輸出單元;
11、第一構(gòu)建單元,用于構(gòu)建任務(wù)自適應(yīng)的大型語言模型提示詞框架,包括任務(wù)目標及描述單元、任務(wù)工作流單元、任務(wù)約束單元、任務(wù)示例單元與任務(wù)輸出格式設(shè)定單元;任務(wù)目標及描述單元用于定義提示詞的任務(wù)目標與描述大型語言模型提示詞框架的期望輸出;任務(wù)工作流單元用于定義完成任務(wù)需要遵循的工作流程;任務(wù)約束單元用于設(shè)定任務(wù)約束條件,引導(dǎo)大型語言模型提示詞框架在指定條件下執(zhí)行任務(wù);任務(wù)示例單元用于在提示詞中加入任務(wù)示例;任務(wù)輸出格式設(shè)定單元用于指定期望的大型語言模型提示詞框架回復(fù)格式;
12、第二構(gòu)建單元,用于基于大型語言模型提示詞框架構(gòu)建文本分解提示詞模板,對于包含事實知識的文本,使用文本分解提示詞模板將文本分解為若干個獨立的精簡事實表達文本;
13、提取與生成單元,用于基于大型語言模型提示詞框架構(gòu)建實體提取和事實查詢語句生成提示詞模板,將精簡事實表達文本填充至實體提取和事實查詢語句生成提示詞模板,提取精簡事實表達文本的關(guān)鍵實體,生成事實查詢語句;
14、庫建立單元,用于建立本地自有知識庫與可信網(wǎng)址庫;本地自有知識庫包括固定常識、從動態(tài)變化知識庫獲取的事實文本與自定義設(shè)定的事實文本;
15、訓(xùn)練單元,用于基于大型語言模型提示詞框架合成事實校驗指令數(shù)據(jù),使用合成的事實校驗指令數(shù)據(jù)對大型語言模型提示詞框架進行微調(diào)訓(xùn)練,得到訓(xùn)練后的大型語言模型;
16、判斷校驗單元,用于使用訓(xùn)練后的大型語言模型進行三路并行判斷校驗,包括:構(gòu)建提示詞模板,將原始文本輸入至訓(xùn)練后的大型語言模型直接對事實表達文本進行判斷校驗;構(gòu)建文本校驗提示詞模板,使用關(guān)鍵實體利用事實查詢語句搜索本地自有知識庫,將搜索到的知識文本與原始文本填充入文本校驗提示詞模板,使用訓(xùn)練后的大型語言模型根據(jù)填充入文本校驗提示詞模板的內(nèi)容進行判斷校驗;使用事實查詢語句進行互聯(lián)網(wǎng)檢索,采用可信網(wǎng)址庫中的信息源,將檢索到的內(nèi)容與原始文本填充入文本校驗提示詞模板構(gòu)建校驗提示詞,使用訓(xùn)練后的大型語言模型進行判斷校驗;
17、輸出單元,用于輸出判斷校驗結(jié)果與信息來源。
18、在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進。
19、進一步,文本分解提示詞模板、實體提取和事實查詢語句生成提示詞模板與文本校驗提示詞模板均為包含預(yù)設(shè)字符串的模板。
20、進一步,通過標點符號標識進行分段與分句,對文章的每個分句按照描述、抒情與議論進行分類,判斷每個分句是否包含事實知識,如果分句的分類為描述,則該分句包含事實知識,保留該分句中的事實知識,否則刪除該分句。
21、進一步,提取精簡事實表達文本的關(guān)鍵實體,將關(guān)鍵實體轉(zhuǎn)換為疑問句,生成事實查詢語句。
22、進一步,使用訓(xùn)練后的大型語言模型進行三路并行判斷校驗的優(yōu)先級為:構(gòu)建文本校驗提示詞模板,使用關(guān)鍵實體利用事實查詢語句搜索本地自有知識庫,將搜索到的知識文本與原始文本填充入文本校驗提示詞模板,使用訓(xùn)練后的大型語言模型根據(jù)填充入文本校驗提示詞模板的內(nèi)容進行判斷校驗;使用事實查詢語句進行互聯(lián)網(wǎng)檢索,采用可信網(wǎng)址庫中的信息源,將檢索到的內(nèi)容與原始文本填充入文本校驗提示詞模板構(gòu)建校驗提示詞,使用訓(xùn)練后的大型語言模型進行判斷校驗;構(gòu)建提示詞模板,將原始文本輸入至訓(xùn)練后的大型語言模型直接對事實表達文本進行判斷校驗。
23、進一步,校驗結(jié)果為事實陳述與已知信息相符或不相符;輸出校驗結(jié)果并輸出差異文本。
24、本發(fā)明的有益效果是:本發(fā)明充分利用大型語言模型強大的文本分析處理能力,僅依賴大型語言模型,所有任務(wù)均使用同一個大型語言模型為基座,而不必使用眾多nlp(natural?language?processing,?自然語言處理)子任務(wù)模型,大大減少了由其它子模型造成的錯誤累積,以達成更高精度的校對;另外,本發(fā)明的方法支持多種知識庫,既能夠包含固定常識,也能夠獲得那些隨時間動態(tài)變化的知識庫而不需要派專人去實時維護,此外還可以自定義事實文本如比較網(wǎng)絡(luò)無法查詢到的事實,這些知識庫可以確保事實的高精度和高實時性,當天發(fā)生的事件可以在互聯(lián)網(wǎng)檢索時實時搜到,進而進行事實性校驗,避免本地知識庫的更新等待造成延遲而耽誤校對。