本發(fā)明涉及大數(shù)據(jù)和人工智能,尤其涉及數(shù)據(jù)的處理及分析領(lǐng)域,具體是指一種基于大模型和因果圖譜實現(xiàn)行業(yè)研報智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)。
背景技術(shù):
1、在當(dāng)今信息化時代,隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,數(shù)據(jù)的處理和分析變得尤為關(guān)鍵。特別是在金融和投資領(lǐng)域,研究報告(研報)的處理與生成是獲取市場洞察和指導(dǎo)投資決策的重要工具。本技術(shù)背景主要討論大語言模型、數(shù)據(jù)抽取技術(shù)及因果圖譜在研報處理和生成領(lǐng)域的應(yīng)用。
2、大語言模型(large?language?model)已被廣泛應(yīng)用于自然語言處理領(lǐng)域。這些模型通過深度學(xué)習(xí)技術(shù),能夠理解和生成復(fù)雜的文本內(nèi)容。在研報生成的應(yīng)用中,大語言模型可以自動撰寫報告草稿,提供市場趨勢分析、數(shù)據(jù)解讀等內(nèi)容,極大地提高了報告制作的效率和質(zhì)量。然而,大語言模型直接生成的文本存在幻覺、無法溯源等問題,需要通過數(shù)據(jù)抽取、圖譜檢索等方式增強生成內(nèi)容的質(zhì)量。
3、數(shù)據(jù)抽取技術(shù)是從大量未結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中識別出有價值的信息,并轉(zhuǎn)換為更易分析和報告的格式。在研報處理中,利用數(shù)據(jù)抽取技術(shù)可以從多種金融文檔和在線資源中提取關(guān)鍵數(shù)據(jù),如股價變動、公司財報數(shù)據(jù)、市場交易動態(tài)等。這些數(shù)據(jù)經(jīng)過抽取和處理后,可直接用于研報的數(shù)據(jù)分析部分,確保信息的準(zhǔn)確性和及時性。
4、因果事件圖譜技術(shù)通過建立因果事件關(guān)系模型,幫助分析事件之間的影響力和相互作用。在研報生成中,通過構(gòu)建因果圖譜,可以更深入地分析各種經(jīng)濟指標(biāo)、政策變化與市場表現(xiàn)之間的因果關(guān)系。這種深入的分析幫助研報撰寫者提供更具洞察力的市場預(yù)測和建議,為投資者提供更為科學(xué)的決策支持。
5、現(xiàn)階段,使用大語言模型輔助研報生成的技術(shù)尚未成熟,可用性差,投研人員難以信任模型生成的結(jié)果;再加上金融領(lǐng)域行業(yè)變動大,事件之間的因果關(guān)系影響復(fù)雜,也會造成模型生成的研報準(zhǔn)確率差,價值低等問題,阻礙了大語言模型輔助行業(yè)研報生成這一應(yīng)用的落地。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是克服了上述現(xiàn)有技術(shù)的缺點,提供了一種滿足可溯源性高、可解釋性高、適用范圍較為廣泛的基于大模型和因果圖譜實現(xiàn)行業(yè)研報智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)。
2、為了實現(xiàn)上述目的,本發(fā)明的基于大模型和因果圖譜實現(xiàn)行業(yè)研報智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì)如下:
3、該基于大模型和因果圖譜實現(xiàn)行業(yè)研報智能生成處理的系統(tǒng),其主要特點是,所述的系統(tǒng)包括數(shù)據(jù)抽取模塊、數(shù)據(jù)整理模塊和研報生成模塊,所述的數(shù)據(jù)整理模塊與數(shù)據(jù)抽取模塊相連接,所述的研報生成模塊與數(shù)據(jù)整理模塊相連接,所述的數(shù)據(jù)抽取模塊用于獲取研報片段中的觀點、事件數(shù)據(jù)以及事件之間的因果關(guān)系;所述的數(shù)據(jù)整理模塊用于對從數(shù)據(jù)抽取模塊獲得的觀點、事件和因果關(guān)系數(shù)據(jù)進行進一步的清洗和結(jié)構(gòu)化處理;所述的研報生成模塊用于將處理后的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的研究報告。
4、較佳地,所述的數(shù)據(jù)抽取模塊包括行業(yè)觀點抽取單元、行業(yè)事件抽取單元和行業(yè)事件因果關(guān)系抽取單元,所述的行業(yè)事件抽取單元與行業(yè)觀點抽取單元相連接,所述的行業(yè)事件因果關(guān)系抽取單元與行業(yè)觀點抽取單元和行業(yè)事件抽取單元相連接,所述的行業(yè)觀點抽取單元用于將完整研報切分為固定長度的片段,通過觀點抽取模型標(biāo)注小批量數(shù)據(jù)片段中的行業(yè)觀點,并推斷行業(yè)觀點抽取結(jié)果;所述的行業(yè)事件抽取單元用于通過事件抽取模型標(biāo)注小批量觀點數(shù)據(jù)中包含的行業(yè)事件,并推斷行業(yè)事件抽取結(jié)果;所述的行業(yè)事件因果關(guān)系抽取單元用于結(jié)合研報片段和片段中抽取出的事件,使用大語言模型抽取事件間的因果關(guān)系;并獲取研報片段中的觀點、事件數(shù)據(jù)以及事件之間的因果關(guān)系。
5、較佳地,所述的數(shù)據(jù)整理模塊包括數(shù)據(jù)驗證清洗單元、數(shù)據(jù)歸一化單元和數(shù)據(jù)關(guān)聯(lián)單元,所述的數(shù)據(jù)歸一化單元與數(shù)據(jù)驗證清洗單元相連接,所述的數(shù)據(jù)關(guān)聯(lián)單元與數(shù)據(jù)歸一化單元相連接,所述的數(shù)據(jù)驗證清洗單元用于確認(rèn)數(shù)據(jù)的準(zhǔn)確性和完整性,自動檢測和糾正數(shù)據(jù)中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術(shù)進行修正或補充;所述的數(shù)據(jù)歸一化單元用于將經(jīng)過清洗后的數(shù)據(jù)做數(shù)據(jù)歸一化,對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理;所述的數(shù)據(jù)關(guān)聯(lián)單元用于記錄原文片段中抽取到的觀點和事件,同時根據(jù)某一特定事件找到包含該事件的觀點與原文片段;將不同數(shù)據(jù)片段中相關(guān)聯(lián)的事件和觀點進行鏈接。
6、較佳地,所述的研報生成模塊選定生成行業(yè)研報的行業(yè)和時間范圍,在數(shù)據(jù)庫中檢索該時間段內(nèi)的符合選定行業(yè)的事件,并統(tǒng)計出該選定時間和選定行業(yè)下出現(xiàn)頻率最高的若干事件作為核心事件,生成研究報告。
7、該利用上述系統(tǒng)實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的方法,其主要特點是,所述的方法包括以下步驟:
8、(1)獲取研報片段中的觀點、事件數(shù)據(jù)以及事件之間的因果關(guān)系;
9、(2)從數(shù)據(jù)抽取模塊獲得的觀點、事件和因果關(guān)系數(shù)據(jù)進行進一步的清洗和結(jié)構(gòu)化處理;
10、(3)將處理后的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的研究報告。
11、較佳地,所述的步驟(1)具體包括以下步驟:
12、(1.1)將完整研報切分為固定長度的片段,通過觀點抽取模型標(biāo)注小批量數(shù)據(jù)片段中的行業(yè)觀點,并推斷行業(yè)觀點抽取結(jié)果;
13、(1.2)通過事件抽取模型標(biāo)注小批量觀點數(shù)據(jù)中包含的行業(yè)事件,并推斷行業(yè)事件抽取結(jié)果;
14、(1.3)結(jié)合研報片段和片段中抽取出的事件,使用大語言模型抽取事件間的因果關(guān)系;
15、(1.4)獲取研報片段中的觀點、事件數(shù)據(jù)以及事件之間的因果關(guān)系。
16、較佳地,所述的步驟(2)具體包括以下步驟:
17、(2.1)進行數(shù)據(jù)驗證和清洗;
18、(2.2)將經(jīng)過清洗后的數(shù)據(jù)做數(shù)據(jù)歸一化,對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理;
19、(2.3)將數(shù)據(jù)關(guān)聯(lián);
20、(2.4)將觀點事件數(shù)據(jù)和因果關(guān)系數(shù)據(jù)記錄到數(shù)據(jù)庫中。
21、較佳地,所述的步驟(2.1)具體為:
22、自動檢測和糾正數(shù)據(jù)中的錯誤和不一致,對語義上不清晰或不完整的信息使用自然語言處理技術(shù)進行修正或補充。
23、較佳地,所述的步驟(2.3)具體包括以下步驟:
24、(2.3.1)記錄原文片段中抽取到的觀點和事件,同時根據(jù)某一特定事件找到包含該事件的觀點與原文片段;
25、(2.3.2)將不同數(shù)據(jù)片段中相關(guān)聯(lián)的事件和觀點進行鏈接。
26、較佳地,所述的步驟(3)具體為:
27、選定生成行業(yè)研報的行業(yè)和時間范圍,在數(shù)據(jù)庫中檢索該時間段內(nèi)的符合選定行業(yè)的事件,并統(tǒng)計出該選定時間和選定行業(yè)下出現(xiàn)頻率最高的若干事件作為核心事件,生成研究報告。
28、該用于實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的裝置,其主要特點是,所述的裝置包括:
29、處理器,被配置成執(zhí)行計算機可執(zhí)行指令;
30、存儲器,存儲一個或多個計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的方法的各個步驟。
31、該用于實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的處理器,其主要特點是,所述的處理器被配置成執(zhí)行計算機可執(zhí)行指令,所述的計算機可執(zhí)行指令被所述的處理器執(zhí)行時,實現(xiàn)上述的實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的方法的各個步驟。
32、該計算機可讀存儲介質(zhì),其主要特點是,其上存儲有計算機程序,所述的計算機程序可被處理器執(zhí)行以實現(xiàn)上述的實現(xiàn)基于大模型和因果圖譜進行行業(yè)研報智能生成處理的方法的各個步驟。
33、采用了本發(fā)明的基于大模型和因果圖譜實現(xiàn)行業(yè)研報智能生成處理的系統(tǒng)、方法、裝置、處理器及其計算機可讀存儲介質(zhì),提出了一種大語言模型輔助行業(yè)研報生成的范式,解決了使用大語言模型輔助研報生成的技術(shù)可用性差,投研人員難以信任模型生成的結(jié)果的痛點。構(gòu)建行業(yè)事件因果關(guān)系圖譜,使用圖譜增強模型生成內(nèi)容,增強了模型生成內(nèi)容的可溯源性和可解釋性。本發(fā)明提供的方案縮短了行業(yè)投研人員產(chǎn)出行業(yè)研報的時間,使從業(yè)人員能夠在短時間內(nèi)獲得一段時間內(nèi)相關(guān)研報的要點,很大程度上提升相關(guān)人員的工作效率。