亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)與流程

文檔序號:40396424發(fā)布日期:2024-12-20 12:19閱讀:8來源:國知局
基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)采集與數(shù)據(jù)檢索、圖像識別、知識庫和大模型應(yīng)用,特別是涉及一種基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng)。


背景技術(shù):

1、近年來,隨著信息化技術(shù)特別是人工智能大語言模型的飛速發(fā)展,為法律監(jiān)督自動挖掘線索提供了可行的方向。2017年,google提出基于自注意力機制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,openai和google分別發(fā)布了gpt-1與bert大模型,預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流。2022年底,openai推出其擁有強大的自然語言交互與生成能力的chatgpt轟動全球,2023年,openai多模態(tài)預(yù)訓(xùn)練大模型gpt-4發(fā)布,其具備多模態(tài)理解與多類型內(nèi)容生成能力。與此同時,國內(nèi)的ai大模型也涌現(xiàn)出如文心一言、通義千問、訊飛星火、華為盤古等,大模型產(chǎn)業(yè)呈現(xiàn)蓬勃發(fā)展的態(tài)勢,伴隨多家科技廠商推出的ai?大模型落地商用,各類通用、行業(yè)以及端側(cè)大模型已在多個領(lǐng)域取得了顯著的成果,如在金融、醫(yī)療、政務(wù)等領(lǐng)域,ai?大模型已成為提升服務(wù)質(zhì)量和效率的重要手段。大語言模型通過在海量無標(biāo)注數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練,讓模型學(xué)習(xí)大量知識并進(jìn)行指令微調(diào),從而具備了面向多種任務(wù)的通用求解能力,ai技術(shù)的發(fā)展已經(jīng)由大語言模型相關(guān)技術(shù)引領(lǐng)。

2、但在實際法律監(jiān)督工作中,并未與信息化技術(shù)特別是人工智能大語言模型關(guān)聯(lián)起來,依然采用傳統(tǒng)的工作方法,只能使用人工一份份翻看業(yè)務(wù)文書,工作量大,效率低下還不準(zhǔn)確,對文書數(shù)據(jù)的利用卻又較為困難。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于全文檢索和大模型的法律監(jiān)督線索挖掘方法及系統(tǒng),從業(yè)人員不需要逐份翻閱各類案件的內(nèi)外部文書或卷宗材料,通過設(shè)定關(guān)鍵詞自動全文檢索收集基礎(chǔ)數(shù)據(jù),再通過大模型的自動要素解析和對話推理分析,便可從海量的數(shù)據(jù)中挖掘出有價值的法律監(jiān)督線索。

2、本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:基于全文檢索和大模型的法律監(jiān)督線索挖掘方法,包括以下步驟:

3、s1.梳理監(jiān)督規(guī)則和檢索關(guān)鍵詞:基于法律監(jiān)督專題進(jìn)行任務(wù)拆解,梳理監(jiān)督規(guī)則和全文檢索的關(guān)鍵詞;

4、s101.將法律監(jiān)督問題進(jìn)行專題分類,包括立案監(jiān)督、偵查活動監(jiān)督、裁判監(jiān)督和執(zhí)行監(jiān)督;

5、s102.針對不同類型的法律監(jiān)督問題,梳理是否區(qū)分案由,需要區(qū)分案由的法律監(jiān)督問題根據(jù)不同案由類型梳理監(jiān)督規(guī)則,不需要區(qū)分案由的法律監(jiān)督問題梳理通用的監(jiān)督規(guī)則;

6、s103.根據(jù)s102梳理的不同監(jiān)督規(guī)則分別梳理需要檢索的文書類型和關(guān)鍵詞。

7、s2.全文檢索:利用監(jiān)督專題梳理的關(guān)鍵詞和全文檢索系統(tǒng)進(jìn)行數(shù)據(jù)檢索,從多種數(shù)據(jù)源收集指定時間段內(nèi)所有相關(guān)的圖文數(shù)據(jù);

8、s201.獲取全文檢索系統(tǒng)的采集器的信息,配置數(shù)據(jù)源(文件路徑和數(shù)據(jù)庫地址)、圖像識別服務(wù)、分詞器,配置專業(yè)詞庫;

9、s202.根據(jù)不同監(jiān)督類型和案由配置檢索關(guān)鍵詞和時間范圍,開啟數(shù)據(jù)采集,過解析采集sql,從而組裝成flink任務(wù),對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集;

10、s203.利用圖像識別服務(wù)結(jié)合關(guān)鍵詞對圖像數(shù)據(jù)進(jìn)行檢索和采集;

11、s204.將采集的數(shù)據(jù)批量保存到elasticsearch中,再進(jìn)行下一批次數(shù)據(jù)采集操作,直到采集的數(shù)據(jù)為空為止。

12、s3.信息蒸餾和信息過濾:利用大模型對收集的數(shù)據(jù)進(jìn)行內(nèi)容摘要、要素解析和信息過濾;

13、s301.對s2采集的文本數(shù)據(jù),利用大模型逐份進(jìn)行解析和內(nèi)容摘要,建立標(biāo)題-摘要-段落三層索引;

14、s302.對s2采集的文本數(shù)據(jù),指定類型的文書利用大模型解析關(guān)鍵信息并結(jié)構(gòu)化,所述關(guān)鍵信息包括法律文書中的涉案人員信息、事實要素、案件情節(jié),然后存入數(shù)據(jù)庫,解析涉案人員信息和涉案人員關(guān)系存入知識圖譜,為法律監(jiān)督線索挖掘需要進(jìn)行的文書比對和人員關(guān)系挖掘提供數(shù)據(jù)源;

15、s303.對s2采集的圖像數(shù)據(jù),利用ocr和圖像識別技術(shù),識別圖像里的文字內(nèi)容,然后采用s302步驟利用大模型對文字內(nèi)容并進(jìn)行摘要和結(jié)構(gòu)化,同時對圖像中的類似指紋、印章、簽名等關(guān)鍵證據(jù)要素進(jìn)行識別和標(biāo)記;

16、s304.對上述步驟s302、s303步驟解析和標(biāo)記的數(shù)據(jù)建立篩選規(guī)則并進(jìn)行信息過濾,篩選出需要分析的案件數(shù)據(jù);

17、s4.構(gòu)建專題分析的知識庫:利用上一步大模型摘要和結(jié)構(gòu)化解析后的數(shù)據(jù),構(gòu)建分層索引的向量知識庫、結(jié)構(gòu)化數(shù)據(jù)知識庫和圖數(shù)據(jù)知識庫;

18、s401.基于s3所有步驟獲取到的數(shù)據(jù),構(gòu)建案件-文書-人物-要素的多層次關(guān)聯(lián)關(guān)系表;

19、s402.針對s301步驟處理完成的文本和摘要數(shù)據(jù),利用ebemding詞嵌入模型分別構(gòu)建標(biāo)題-摘要-段落三層索引的向量數(shù)據(jù)庫;

20、s403.針對s303、s304步驟處理得到的結(jié)構(gòu)化數(shù)據(jù)和圖譜數(shù)據(jù),存入相應(yīng)的數(shù)據(jù)庫,并構(gòu)建查詢sql和圖數(shù)據(jù)庫查詢語言模板。

21、s5.知識庫檢索與排序:基于向量知識庫、結(jié)構(gòu)化數(shù)據(jù)知識庫和圖數(shù)據(jù)知識庫,采用向量相似度檢索、結(jié)構(gòu)化查詢和知識圖譜搜索相結(jié)合的方法進(jìn)行聯(lián)合檢索,并利用相似度值閾值取出前n條數(shù)據(jù),再利用重排模型對對檢索到的數(shù)據(jù)進(jìn)行排序篩選;

22、s501.根據(jù)步驟s102梳理的需要結(jié)合文書分析的法律監(jiān)督規(guī)則,梳理出向量庫檢索的語句,所述檢索語句即需要查找目標(biāo)數(shù)據(jù)的自然語言;例如:“找出所有具有某某情節(jié)的裁判文書”;

23、s502.將s501步驟構(gòu)建的向量庫檢索語句利用embedding詞嵌入模型向量化,為提高檢索的召回率還可將檢索問題利用大模型生成預(yù)設(shè)答案再向量化,然后利用知庫的向量相似度檢索器進(jìn)行檢索,知識庫檢索器將根據(jù)上述s402步驟建立的三層索引進(jìn)行“文書-段落-關(guān)鍵詞”逐層根據(jù)向量相似度檢索,設(shè)置返回最大個數(shù)或相似度閾值,找到符合條件的目標(biāo)數(shù)據(jù);

24、s503.利用重排模型bge-reranker-large對上一步s502檢索到的數(shù)據(jù)進(jìn)行排序,取與目標(biāo)問題最相關(guān)的前n條數(shù)據(jù);

25、s504.根據(jù)s102梳理的需要結(jié)合結(jié)構(gòu)化數(shù)據(jù)分析的法律監(jiān)督規(guī)則,構(gòu)建關(guān)系數(shù)據(jù)庫和圖數(shù)據(jù)庫查詢規(guī)則,例如審判監(jiān)督的分析專題,需要檢索起訴和審判階段認(rèn)定事實、情節(jié)、適用法律不一致的案件,將利用查詢模板語句從s403步驟構(gòu)建的數(shù)據(jù)庫中檢索出所有滿足條件的案件數(shù)據(jù);

26、s505.將s503、s504檢索到的符合條件的數(shù)據(jù)利用s401的關(guān)聯(lián)表進(jìn)行整合存儲。

27、s6.大模型智能分析與線索挖掘:構(gòu)建大模型交互對話的分析決策樹,對上一步檢索到的數(shù)據(jù)利用大模型逐個進(jìn)行分析并得出結(jié)論,并對發(fā)現(xiàn)監(jiān)督線索的數(shù)據(jù)進(jìn)行標(biāo)記和輸出。

28、s601.針對上述s5梳理得到數(shù)據(jù)還需要進(jìn)一步分析和過濾的法律監(jiān)督類型,根據(jù)不同的情形梳理不同的大模型的對話分析決策樹:

29、s602.通過上述s601構(gòu)建的大模型多輪對話分析推理決策流程,對每個分析節(jié)點大模型的回答可能出現(xiàn)的結(jié)果進(jìn)行測驗和歸納,并做好下一步?jīng)Q策分析的預(yù)設(shè)對話輸入和異常處理機制;

30、s603.調(diào)用大模型對話接口,利用上述s601、s602步驟梳理的對話機制與大模型進(jìn)行對話,并對大模型得出最終的結(jié)論列為法律監(jiān)督線索的案件進(jìn)行記錄和預(yù)警。

31、基于全文檢索和大模型的法律監(jiān)督線索挖掘系統(tǒng),包括數(shù)據(jù)檢索模塊、數(shù)據(jù)解析模塊、數(shù)據(jù)存儲模塊、規(guī)則配置模塊、大模型分析推理模塊和后臺管理模塊;

32、所述數(shù)據(jù)檢索模塊,即全文檢索模塊,包含數(shù)據(jù)采集、數(shù)據(jù)檢索、圖像識別、es監(jiān)控與運維,從多種數(shù)據(jù)源檢索并收集與法律監(jiān)督專題相關(guān)的數(shù)據(jù);

33、所述數(shù)據(jù)解析模塊,利用大模型對全文檢索到的數(shù)據(jù)進(jìn)行內(nèi)容摘要和要素解析,構(gòu)建向量庫、結(jié)構(gòu)化數(shù)據(jù)和圖數(shù)據(jù)庫;

34、所述數(shù)據(jù)存儲模塊,用于存儲法律監(jiān)督線索挖掘系統(tǒng)中數(shù)據(jù)檢索、數(shù)據(jù)解析、規(guī)則配置和大模型分析過程中的各種類型數(shù)據(jù);

35、所述規(guī)則配置模塊,用于配置全文檢索的關(guān)鍵詞、大模型解析的要素項,以及大模型智能分析的對話流程和輸出結(jié)論的規(guī)則;

36、所述大模型分析推理模塊,利用大模型的分析推理能力進(jìn)行文書內(nèi)容摘要、要素解析,基于配置的對話分析流程挖掘法律監(jiān)督線索;

37、所述后臺管理模塊,包括配置管理、數(shù)據(jù)源管理、詞庫管理、大模型管理。配置管理單元負(fù)責(zé)系統(tǒng)的各項設(shè)置與參數(shù)調(diào)整;數(shù)據(jù)源管理單元確保數(shù)據(jù)的有效接入與整合;詞庫管理單元維護(hù)專業(yè)術(shù)語和關(guān)鍵詞的更新;大模型管理單元則支持多種大模型的部署與優(yōu)化,共同保障平臺的高效運行與靈活性。

38、本發(fā)明的有益效果是:?(1)本發(fā)明支持多數(shù)據(jù)源采集,以及實時數(shù)據(jù)采集功能,還支持“以文搜圖”功能;

39、(2)本發(fā)明可以基于sql語句進(jìn)行檢索,還提供了比較豐富的多組合關(guān)鍵字檢索以及多聚合檢索功能;

40、(3)本發(fā)明基于自然語言大模型的技術(shù)實現(xiàn)無標(biāo)注訓(xùn)練自動解析文書,包括各類案件的基本信息、認(rèn)定事實、案件要素等等;

41、(4)本發(fā)明實現(xiàn)了以大模型對話推理的方式,自動對相關(guān)法律監(jiān)督內(nèi)容的構(gòu)成要素進(jìn)行分析判斷,極大地減輕了業(yè)務(wù)人員翻閱文書的工作量。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1