亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于大語(yǔ)言模型的檔案知識(shí)管理方法和系統(tǒng)與流程

文檔序號(hào):40452023發(fā)布日期:2024-12-27 09:17閱讀:6來源:國(guó)知局
一種基于大語(yǔ)言模型的檔案知識(shí)管理方法和系統(tǒng)與流程

本發(fā)明涉及檔案知識(shí)管理,特別指一種基于大語(yǔ)言模型的檔案知識(shí)管理方法和系統(tǒng)。


背景技術(shù):

1、檔案知識(shí)管理就是針對(duì)檔案的維護(hù)、歸檔、查閱等行為的管理,在當(dāng)前檔案知識(shí)管理技術(shù)領(lǐng)域,檔案存在分散、零亂、質(zhì)雜、量大、孤本等狀況,信息孤島、檢索效率低下、知識(shí)難以深度挖掘和利用等行業(yè)痛點(diǎn)日益凸顯。

2、針對(duì)檔案知識(shí)的管理,有的通過人工維護(hù)、人工審核發(fā)布的方式進(jìn)行管理,并通過人工將知識(shí)與檔案進(jìn)行關(guān)聯(lián),存在維護(hù)工作量巨大、檔案知識(shí)也無法得到及時(shí)更新的缺點(diǎn);有的通過構(gòu)建檔案知識(shí)庫(kù),憑借分詞技術(shù)對(duì)檔案知識(shí)進(jìn)行提取,但僅憑借分詞技術(shù)提取檔案知識(shí),檔案知識(shí)的范圍將受限于分詞庫(kù),并且無法得到檔案知識(shí)之間的關(guān)聯(lián)關(guān)系,進(jìn)而無法充分發(fā)揮檔案知識(shí)的價(jià)值,即目前檔案知識(shí)管理存在一定的局限性。

3、因此,如何提供一種基于大語(yǔ)言模型的檔案知識(shí)管理方法和系統(tǒng),實(shí)現(xiàn)提高檔案知識(shí)管理的效率以及質(zhì)量,成為一個(gè)亟待解決的技術(shù)問題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題,在于提供一種基于大語(yǔ)言模型的檔案知識(shí)管理方法,包括如下步驟:

2、步驟s1、創(chuàng)建一檔案知識(shí)庫(kù)、一檔案知識(shí)提取規(guī)則庫(kù)以及一問題模板庫(kù);

3、步驟s2、獲取大量的歷史檔案文件,通過ocr技術(shù)識(shí)別各所述歷史檔案文件的歷史檔案內(nèi)容,對(duì)各所述歷史檔案內(nèi)容進(jìn)行標(biāo)注后構(gòu)建數(shù)據(jù)集;

4、步驟s3、創(chuàng)建一用于提取檔案知識(shí)的大語(yǔ)言模型,通過所述數(shù)據(jù)集對(duì)大語(yǔ)言模型進(jìn)行訓(xùn)練;

5、步驟s4、獲取待管理檔案文件,通過ocr技術(shù)識(shí)別所述待管理檔案文件得到待管理檔案內(nèi)容,基于所述待管理檔案文件的領(lǐng)域分別從檔案知識(shí)提取規(guī)則庫(kù)以及問題模板庫(kù)匹配對(duì)應(yīng)的檔案知識(shí)提取規(guī)則以及問題模板;

6、步驟s5、基于匹配的所述檔案知識(shí)提取規(guī)則以及問題模板生成知識(shí)提取問題,將所述知識(shí)提取問題以及待管理檔案內(nèi)容輸入大語(yǔ)言模型,得到包括知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以及知識(shí)附屬信息的檔案知識(shí),將所述檔案知識(shí)存儲(chǔ)至檔案知識(shí)庫(kù);

7、步驟s6、將所述知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以知識(shí)三元組的模式寫入預(yù)先創(chuàng)建的neo4j圖型知識(shí)庫(kù),將所述知識(shí)附屬信息寫入預(yù)先創(chuàng)建的mysql關(guān)系型知識(shí)庫(kù);

8、步驟s7、基于所述neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù),對(duì)所述檔案知識(shí)中的知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性或者知識(shí)附屬信息,進(jìn)行增加、刪除、更新、查詢的管理。

9、進(jìn)一步的,所述步驟s1中,所述檔案知識(shí)庫(kù)用于對(duì)檔案知識(shí)按領(lǐng)域進(jìn)行分類存儲(chǔ);

10、所述檔案知識(shí)提取規(guī)則庫(kù)用于存儲(chǔ)不同領(lǐng)域的檔案知識(shí)提取規(guī)則;

11、所述問題模板庫(kù)用于存儲(chǔ)不同領(lǐng)域的問題模板,所述問題模板用于依據(jù)檔案知識(shí)提取規(guī)則生成知識(shí)提取問題;

12、所述步驟s2具體為:

13、獲取大量的歷史檔案文件,通過ocr技術(shù)識(shí)別各所述歷史檔案文件的歷史檔案內(nèi)容,對(duì)各所述歷史檔案內(nèi)容進(jìn)行知識(shí)提取問題以及檔案知識(shí)的標(biāo)注,基于標(biāo)注后的各所述歷史檔案內(nèi)容構(gòu)建數(shù)據(jù)集。

14、進(jìn)一步的,所述步驟s3具體為:

15、創(chuàng)建一用于提取檔案知識(shí)的大語(yǔ)言模型,基于7:2:1的比例將所述數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集;

16、通過所述訓(xùn)練集對(duì)大語(yǔ)言模型進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的收斂條件,訓(xùn)練過程中不斷優(yōu)化所述大語(yǔ)言模型至少包括迭代次數(shù)、學(xué)習(xí)率、訓(xùn)練批次的超參數(shù);通過所述驗(yàn)證集對(duì)訓(xùn)練后的大語(yǔ)言模型進(jìn)行驗(yàn)證,判斷所述大語(yǔ)言模型的提取精度是否大于預(yù)設(shè)的精度閾值,若否,則驗(yàn)證不通過,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練;若是,則驗(yàn)證通過,并:

17、通過所述測(cè)試集對(duì)大語(yǔ)言模型進(jìn)行測(cè)試,判斷所述大語(yǔ)言模型的置信度是否大于預(yù)設(shè)的置信度閾值,若否,則測(cè)試不通過,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練;若是,則測(cè)試通過,結(jié)束訓(xùn)練。

18、進(jìn)一步的,所述步驟s5中,所述知識(shí)附屬信息至少包括檔案描述信息以及源頭檔案id;

19、所述步驟s6中,所述neo4j圖型知識(shí)庫(kù)與mysql關(guān)系型知識(shí)庫(kù),存在知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性與知識(shí)附屬信息的映射關(guān)系;當(dāng)所述neo4j圖型知識(shí)庫(kù)或者mysql關(guān)系型知識(shí)庫(kù)更新時(shí),所述mysql關(guān)系型知識(shí)庫(kù)或者neo4j圖型知識(shí)庫(kù)同步更新。

20、進(jìn)一步的,所述步驟s7具體為:

21、獲取輸入的檔案管理指令,解析所述檔案管理指令得到檔案管理事項(xiàng)以及檢索條件,基于所述檢索條件從neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù)匹配包括知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以及知識(shí)附屬信息的檔案知識(shí),基于所述檔案管理事項(xiàng)對(duì)檔案知識(shí)進(jìn)行增加、刪除、更新、查詢的管理,并通過知識(shí)圖譜的形式展示所述檔案知識(shí)。

22、第二方面,本發(fā)明提供了一種基于大語(yǔ)言模型的檔案知識(shí)管理系統(tǒng),包括:

23、庫(kù)創(chuàng)建模塊,用于創(chuàng)建一檔案知識(shí)庫(kù)、一檔案知識(shí)提取規(guī)則庫(kù)以及一問題模板庫(kù);

24、數(shù)據(jù)集構(gòu)建模塊,用于獲取大量的歷史檔案文件,通過ocr技術(shù)識(shí)別各所述歷史檔案文件的歷史檔案內(nèi)容,對(duì)各所述歷史檔案內(nèi)容進(jìn)行標(biāo)注后構(gòu)建數(shù)據(jù)集;

25、大語(yǔ)言模型創(chuàng)建模塊,用于創(chuàng)建一用于提取檔案知識(shí)的大語(yǔ)言模型,通過所述數(shù)據(jù)集對(duì)大語(yǔ)言模型進(jìn)行訓(xùn)練;

26、檔案文件識(shí)別模塊,用于獲取待管理檔案文件,通過ocr技術(shù)識(shí)別所述待管理檔案文件得到待管理檔案內(nèi)容,基于所述待管理檔案文件的領(lǐng)域分別從檔案知識(shí)提取規(guī)則庫(kù)以及問題模板庫(kù)匹配對(duì)應(yīng)的檔案知識(shí)提取規(guī)則以及問題模板;

27、檔案知識(shí)提取模塊,用于基于匹配的所述檔案知識(shí)提取規(guī)則以及問題模板生成知識(shí)提取問題,將所述知識(shí)提取問題以及待管理檔案內(nèi)容輸入大語(yǔ)言模型,得到包括知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以及知識(shí)附屬信息的檔案知識(shí),將所述檔案知識(shí)存儲(chǔ)至檔案知識(shí)庫(kù);

28、檔案知識(shí)存儲(chǔ)模塊,用于將所述知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以知識(shí)三元組的模式寫入預(yù)先創(chuàng)建的neo4j圖型知識(shí)庫(kù),將所述知識(shí)附屬信息寫入預(yù)先創(chuàng)建的mysql關(guān)系型知識(shí)庫(kù);

29、檔案知識(shí)管理模塊,用于基于所述neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù),對(duì)所述檔案知識(shí)中的知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性或者知識(shí)附屬信息,進(jìn)行增加、刪除、更新、查詢的管理。

30、進(jìn)一步的,所述庫(kù)創(chuàng)建模塊中,所述檔案知識(shí)庫(kù)用于對(duì)檔案知識(shí)按領(lǐng)域進(jìn)行分類存儲(chǔ);

31、所述檔案知識(shí)提取規(guī)則庫(kù)用于存儲(chǔ)不同領(lǐng)域的檔案知識(shí)提取規(guī)則;

32、所述問題模板庫(kù)用于存儲(chǔ)不同領(lǐng)域的問題模板,所述問題模板用于依據(jù)檔案知識(shí)提取規(guī)則生成知識(shí)提取問題;

33、所述數(shù)據(jù)集構(gòu)建模塊具體用于:

34、獲取大量的歷史檔案文件,通過ocr技術(shù)識(shí)別各所述歷史檔案文件的歷史檔案內(nèi)容,對(duì)各所述歷史檔案內(nèi)容進(jìn)行知識(shí)提取問題以及檔案知識(shí)的標(biāo)注,基于標(biāo)注后的各所述歷史檔案內(nèi)容構(gòu)建數(shù)據(jù)集。

35、進(jìn)一步的,所述大語(yǔ)言模型創(chuàng)建模塊具體用于:

36、創(chuàng)建一用于提取檔案知識(shí)的大語(yǔ)言模型,基于7:2:1的比例將所述數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集;

37、通過所述訓(xùn)練集對(duì)大語(yǔ)言模型進(jìn)行訓(xùn)練,直至滿足預(yù)設(shè)的收斂條件,訓(xùn)練過程中不斷優(yōu)化所述大語(yǔ)言模型至少包括迭代次數(shù)、學(xué)習(xí)率、訓(xùn)練批次的超參數(shù);通過所述驗(yàn)證集對(duì)訓(xùn)練后的大語(yǔ)言模型進(jìn)行驗(yàn)證,判斷所述大語(yǔ)言模型的提取精度是否大于預(yù)設(shè)的精度閾值,若否,則驗(yàn)證不通過,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練;若是,則驗(yàn)證通過,并:

38、通過所述測(cè)試集對(duì)大語(yǔ)言模型進(jìn)行測(cè)試,判斷所述大語(yǔ)言模型的置信度是否大于預(yù)設(shè)的置信度閾值,若否,則測(cè)試不通過,擴(kuò)充所述訓(xùn)練集繼續(xù)訓(xùn)練;若是,則測(cè)試通過,結(jié)束訓(xùn)練。

39、進(jìn)一步的,所述檔案知識(shí)提取模塊中,所述知識(shí)附屬信息至少包括檔案描述信息以及源頭檔案id;

40、所述檔案知識(shí)存儲(chǔ)模塊中,所述neo4j圖型知識(shí)庫(kù)與mysql關(guān)系型知識(shí)庫(kù),存在知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性與知識(shí)附屬信息的映射關(guān)系;當(dāng)所述neo4j圖型知識(shí)庫(kù)或者mysql關(guān)系型知識(shí)庫(kù)更新時(shí),所述mysql關(guān)系型知識(shí)庫(kù)或者neo4j圖型知識(shí)庫(kù)同步更新。

41、進(jìn)一步的,所述檔案知識(shí)管理模塊具體用于:

42、獲取輸入的檔案管理指令,解析所述檔案管理指令得到檔案管理事項(xiàng)以及檢索條件,基于所述檢索條件從neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù)匹配包括知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以及知識(shí)附屬信息的檔案知識(shí),基于所述檔案管理事項(xiàng)對(duì)檔案知識(shí)進(jìn)行增加、刪除、更新、查詢的管理,并通過知識(shí)圖譜的形式展示所述檔案知識(shí)。

43、本發(fā)明的優(yōu)點(diǎn)在于:

44、1、通過創(chuàng)建檔案知識(shí)庫(kù)、檔案知識(shí)提取規(guī)則庫(kù)、問題模板庫(kù),通過ocr技術(shù)識(shí)別大量歷史檔案內(nèi)容構(gòu)建數(shù)據(jù)集,通過構(gòu)建的數(shù)據(jù)集對(duì)創(chuàng)建的大語(yǔ)言模型進(jìn)行訓(xùn)練;接著通過ocr技術(shù)識(shí)別待管理檔案內(nèi)容,基于待管理檔案文件的領(lǐng)域分別從檔案知識(shí)提取規(guī)則庫(kù)和問題模板庫(kù)中獲取檔案知識(shí)提取規(guī)則和問題模板,將基于檔案知識(shí)提取規(guī)則和問題模板生成知識(shí)提取問題和待管理檔案內(nèi)容輸入大語(yǔ)言模型以得到檔案知識(shí);接著將檔案知識(shí)存入neo4j圖型知識(shí)庫(kù)和mysql關(guān)系型知識(shí)庫(kù),基于neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù),對(duì)檔案知識(shí)進(jìn)行增加、刪除、更新、查詢的管理;即結(jié)合ocr技術(shù)和大語(yǔ)言模型進(jìn)行檔案知識(shí)的自動(dòng)提取,無需人工操作,通過neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù)對(duì)檔案知識(shí)進(jìn)行存儲(chǔ),結(jié)合知識(shí)圖譜,后續(xù)可快速查找檔案知識(shí)之間的關(guān)聯(lián)關(guān)系,充分發(fā)揮檔案知識(shí)的價(jià)值,最終極大的提高了檔案知識(shí)管理的效率以及質(zhì)量。

45、2、通過設(shè)置檔案知識(shí)庫(kù)對(duì)檔案知識(shí)按領(lǐng)域進(jìn)行分類存儲(chǔ),檔案知識(shí)提取規(guī)則庫(kù)用于存儲(chǔ)不同領(lǐng)域的檔案知識(shí)提取規(guī)則,問題模板庫(kù)用于存儲(chǔ)不同領(lǐng)域的問題模板,通過各檔案文件、檔案知識(shí)提取規(guī)則、問題模板的分類儲(chǔ)存,實(shí)現(xiàn)檔案文件進(jìn)行分領(lǐng)域管理,有助于提升檔案管理的針對(duì)性和專業(yè)性,構(gòu)建和維護(hù)各自獨(dú)立的知識(shí)提取規(guī)則集合與問題規(guī)則庫(kù),有助于大語(yǔ)言模型去理解各領(lǐng)域規(guī)則的具體應(yīng)用場(chǎng)景,有效提升檔案知識(shí)管理專業(yè)性和處理效率,更加精準(zhǔn)地滿足各領(lǐng)域文件管理的特性與需求。

46、3、通過在訓(xùn)練大語(yǔ)言模型過程中不斷優(yōu)化迭代次數(shù)、學(xué)習(xí)率、訓(xùn)練批次的超參數(shù),通過驗(yàn)證集對(duì)訓(xùn)練大語(yǔ)言模型進(jìn)行驗(yàn)證,判斷大語(yǔ)言模型的提取精度是否高于預(yù)設(shè)閾值,通過測(cè)試集對(duì)大語(yǔ)言模型進(jìn)行測(cè)試,判斷大語(yǔ)言模型置信度是否大于預(yù)設(shè)的置信度閾值,進(jìn)行多次訓(xùn)練、測(cè)試、驗(yàn)證,極大的提高了大語(yǔ)言模型提取檔案知識(shí)的精度。

47、4、通過定期對(duì)檔案知識(shí)庫(kù)進(jìn)行更新維護(hù),同步mysql關(guān)系型知識(shí)庫(kù)與neo4j圖型知識(shí)庫(kù)中的檔案知識(shí),當(dāng)修改mysql關(guān)系型知識(shí)庫(kù)或者neo4j圖型知識(shí)庫(kù)中的檔案知識(shí)時(shí),修改的檔案知識(shí)將同步更新至neo4j圖型知識(shí)庫(kù)或者mysql關(guān)系型知識(shí)庫(kù)中,有利于提高檔案知識(shí)的可維護(hù)性,保證檔案知識(shí)查找的時(shí)效性。

48、5、通過檔案管理指令攜帶的檢索條件從neo4j圖型知識(shí)庫(kù)以及mysql關(guān)系型知識(shí)庫(kù)中,匹配包括知識(shí)實(shí)體、實(shí)體關(guān)系、知識(shí)屬性以及知識(shí)附屬信息的檔案知識(shí),同時(shí)對(duì)檔案知識(shí)進(jìn)行增加、刪除、更新、查詢的管理,最終通過知識(shí)圖譜展示相關(guān)的檔案知識(shí),令用戶可以直觀地理解檔案知識(shí)之間的關(guān)系和結(jié)構(gòu),便于用戶查找檔案知識(shí)、分析檔案知識(shí)間關(guān)系,快速獲取有價(jià)值的信息。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1