本發(fā)明涉及一種基于大數(shù)據(jù)的信息文件解析響應管理系統(tǒng),屬于大數(shù)據(jù)處理和政務管理領域。
背景技術:
1、隨著互聯(lián)網(wǎng)技術的快速發(fā)展,“互聯(lián)網(wǎng)+”模式應運而生,并迅速滲透到社會生活的各領域;特別是在政務服務領域,“互聯(lián)網(wǎng)+政務服務”的新型服務模式正在悄然興起,為節(jié)約人力成本的同時切實為群眾提供更加便捷、高效的政務服務;并且隨著部門數(shù)字化轉型的深入,信息文件的數(shù)量和復雜度不斷增加,傳統(tǒng)的手工處理方式已經(jīng)無法滿足現(xiàn)代政務管理的需求。
2、現(xiàn)有公告號為cn112615855b的發(fā)明專利一種基于政務秒批平臺的數(shù)據(jù)安全傳輸方法,屬于政務信息化領域。所述數(shù)據(jù)安全傳輸方法對客戶端政務秒批業(yè)務的請求數(shù)據(jù)進行預處理,分別判定為待加密數(shù)據(jù)、敏感數(shù)據(jù)及普通數(shù)據(jù);對普通數(shù)據(jù),對所述請求數(shù)據(jù)進行初步過濾,當數(shù)據(jù)本身安全時即進行傳輸;對待加密數(shù)據(jù),根據(jù)動態(tài)密鑰請求生成動態(tài)密鑰并反饋給客戶端,完成數(shù)據(jù)加密及通信加密;對敏感數(shù)據(jù),根據(jù)敏感點選擇加密規(guī)則進行加密;在通信加密中,生成加密路徑,加密路徑中包含證書,數(shù)據(jù)通過證書驗證后通過檢查站完成傳輸及數(shù)據(jù)歸檔。
3、盡管現(xiàn)有技術實現(xiàn)了必要數(shù)據(jù)在傳輸時的數(shù)據(jù)安全和通信安全,確保數(shù)據(jù)的完整性,實現(xiàn)數(shù)據(jù)的快速流轉,提高秒批業(yè)務的效率,真正實現(xiàn)政務的審批秒辦,但對于不同平臺或網(wǎng)站中的信息文件,文件內容復雜且難以高效管理和處理。因此,本技術提供了一種基于大數(shù)據(jù)的信息文件解析響應管理系統(tǒng),通過構建語義解析模型對信息文件進行深度解析,并自動生成響應策略,如對于涉及多個部門的協(xié)調事項,系統(tǒng)會按照預設的規(guī)則分配責任部門或直接推送至責任人的工作界面,大大縮短了文件處理的時間,提升了部門工作的響應速度和處理效率。
技術實現(xiàn)思路
1、針對現(xiàn)有技術存在的不足,本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的信息文件解析響應管理系統(tǒng),通過構建對文件的自動解析響應體系,實現(xiàn)信息文件的自動解析和快速響應,提升了文件的處理效率。
2、為實現(xiàn)上述目的,本發(fā)明提供了如下技術方案:
3、一種基于大數(shù)據(jù)的信息文件解析響應管理系統(tǒng),包括:數(shù)據(jù)采集模塊、預處理模塊、解析模塊、響應模塊和存儲模塊;
4、所述數(shù)據(jù)采集模塊用于利用爬蟲技術收集信息文件,并將所述信息文件實時傳送至所述存儲模塊;
5、所述預處理模塊用于對采集的原始信息文件進行初步處理;
6、所述解析模塊用于對預處理后的信息文件進行深度解析,提取所述信息文件的關鍵信息并挖掘潛在的關聯(lián)信息,生成解析文件;
7、所述解析模塊內配置了用于解析紅頭文件的解析策略;
8、所述解析策略包括:
9、構建語義模型,并利用所述語義模型對所述文件類型庫中的紅頭文件進行解析,生成解析結果;
10、將解析結果保存至所述文件類型庫的所述紅頭文件中;
11、計算所述紅頭文件與目標文件的相似度,所述目標文件為所述文件類型庫中的其他紅頭文件;
12、設定相似度閾值為,判斷所述目標文件是否為所述紅頭文件的關聯(lián)文件;若,所述目標文件不為關聯(lián)文件;若,所述目標文件為關聯(lián)文件;
13、基于所述紅頭文件的關聯(lián)文件,進行關聯(lián)模擬分析,生成所述紅頭文件的指向趨勢,并將所述指向趨勢和關聯(lián)文件保存至構建的分析列表中;
14、所述響應模塊用于根據(jù)所述解析文件自動生成響應文件,并根據(jù)預設的響應渠道將所述響應文件發(fā)送相關機構或人員;
15、所述存儲模塊用于存儲各模塊生成的文件,并采用結構化的存儲方式,以及數(shù)據(jù)加密和訪問控制技術。
16、具體地,所述數(shù)據(jù)采集模塊內配置有用于獲取信息文件的爬蟲策略;
17、所述爬蟲策略包括:
18、獲取目標網(wǎng)站的基礎結構和url規(guī)則;利用瀏覽器的開發(fā)者工具查看所述目標網(wǎng)站的網(wǎng)頁源代碼,并獲取目標文件所在的html標簽和屬性;
19、基于所述目標網(wǎng)站的結構,編寫python爬蟲代碼;
20、配置爬蟲網(wǎng)絡,避免被所述目標網(wǎng)站封禁;
21、記錄爬蟲的運行日志,以便監(jiān)控爬蟲的運行狀態(tài)和排查問題。
22、具體地,所述預處理模塊內配置了用于對紅頭文件進行初步處理的歸類策略;
23、所述歸類策略包括:
24、設計正則表達式以匹配所述紅頭文件中不同類型的文號;
25、對所述紅頭文件進行預處理;
26、使用所述正則表達式對預處理后的紅頭文件進行匹配,提取所述紅頭文件的文號信息;
27、以文號+文件名的格式重新命名所述紅頭文件;
28、構建文件類型庫,并將所述紅頭文件保存至所述文件類型庫中以文號的部分信息為命名格式的子文件夾中。
29、具體地,構建所述語義模型的步驟包括:
30、采集歷史紅頭文件,并對文件進行數(shù)據(jù)清洗,將文件分為訓練集和驗證集;
31、利用bert分詞器將所述驗證集中的紅頭文件轉換為詞序列;
32、利用 transformer的編碼器結構將所述詞序列轉化為詞序列向量;
33、利用rnn提取所述詞序列向量中的隱藏序列向量;
34、定義文件中的情感序列向量為,并計算文件的平均情感向量;
35、經(jīng)過情感注意力機制的處理后,獲取文件的特征向量;
36、利用 softmax函數(shù)計算文件的情感概率 p,表達式如下所示:,式中,為權重矩陣,為偏置矩陣;
37、定義兩種情感級性,分別為正面和負面,并設定情感概率的閾值為,其中;若,情感級性為負面;若,情感級性為正面;
38、輸出紅頭文件的特征向量和情感級性;
39、利用所述驗證集對所述語義模型進行驗證;若驗證未通過,擴充訓練集,并對模型繼續(xù)進行訓練;若驗證通過,所述語義模型構建成功。
40、具體地,情感注意力機制的處理步驟包括:
41、基于所述平均情感向量,利用雙曲正切函數(shù)計算隱藏向量的情感得分,其中,為所述隱藏序列向量中第個隱藏向量,;
42、基于所述情感得分,利用指數(shù)函數(shù)獲取所述隱藏序列向量的注意力權重矩陣;
43、基于所述注意力權重矩陣,計算所述紅頭文件的特征向量。
44、具體地,所述相似度的計算步驟包括:
45、獲取所述紅頭文件和所述目標文件的解析結果,并提取文件的特征向量和;
46、利用 jaccard相似度算法計算和之間的相似度,表達式如下所示:,式中,為特征向量、之間的交集特征量,為特征向量、之間的并集特征量。
47、具體地,所述關聯(lián)模擬分析的步驟包括:
48、提取紅頭文件和關聯(lián)文件的情感概率序列,計算每個時間段的情感概率均值序列;
49、計算所述紅頭文件中每個詞的tf-idf值,并根據(jù)所述tf-idf值的大小,選取排名靠前的個詞匯作為關鍵詞,并構建關鍵詞序列;
50、計算每個時間段的關鍵詞概率序列;
51、利用線性回歸擬合所述情感概率均值序列和所述關鍵詞概率序列的趨勢走向,并生成趨勢折線圖;
52、構建分析列表,并將所述趨勢折線圖和關聯(lián)文件的相關信息保存至所述分析列表中。
53、具體地,所述解析策略包括用于訪問目標網(wǎng)站中的普通信息文件并實時更新所述分析列表的更新邏輯;
54、所述更新邏輯包括:
55、獲取紅頭文件的所述關鍵詞序列以及對應的tf-idf值;
56、根據(jù)tf-idf值構建所述紅頭文件的關鍵詞權重矩陣;
57、利用所述紅頭文件的關鍵詞和關鍵詞權重矩陣構建得分模型,所述得分模型中關聯(lián)度的表達式如下所示:,式中,為普通信息文件中關鍵詞的匹配得分,采用二進制0或1表示;若普通信息文件中包含關鍵詞,;若不包含關鍵詞,;
58、獲取目標網(wǎng)站的網(wǎng)頁結構和url規(guī)則,使用requests庫發(fā)送http請求到所述目標網(wǎng)站并獲取網(wǎng)頁內容,使用beautiful?soup庫解析網(wǎng)頁內容,獲取普通信息文件;
59、利用所述得分模型計算所述普通信息文件與所述紅頭文件的關聯(lián)度,并設置關聯(lián)度閾值;若,所述普通信息文件不為關聯(lián)文件;若,所述普通信息文件為關聯(lián)文件;
60、更新所述分析列表中的關聯(lián)文件信息,并利用所述關聯(lián)模擬分析實時更新所述分析列表。
61、具體地,所述響應模塊包括響應生成單元和發(fā)送單元;
62、所述響應生成單元用于根據(jù)所述解析結果和分析列表生成響應文件;
63、所述發(fā)送單元用于根據(jù)所述響應文件、接收者的需求以及響應文件的緊急程度進行排隊等待,選擇抄送方式并發(fā)送所述響應文件。
64、具體地,所述存儲模塊包括數(shù)據(jù)存儲單元和備份單元;
65、所述數(shù)據(jù)存儲單元用于實時接收各模塊產(chǎn)生的文件,構建文件數(shù)據(jù)表,所述文件數(shù)據(jù)表根據(jù)抄送接收方分為多個數(shù)據(jù)子表,所述數(shù)據(jù)子表以接收方名稱命名;
66、所述備份單元用于根據(jù)設定的時間表自動備份所述文件數(shù)據(jù)表,并將所述文件數(shù)據(jù)表保存至所述時間表中的對應位置中;設置數(shù)據(jù)恢復功能,使得文件在丟失或損壞時從備份中恢復文件數(shù)據(jù)表。
67、本發(fā)明的有益效果:
68、利用爬蟲技術抓取網(wǎng)絡中的紅頭文件,提取信息文件的關鍵信息,降低了人為錯誤出現(xiàn)的概率,并對信息文件進行分類以匹配相應的響應接收方;并對提取的關鍵信息進行分析,文件進行深度解析,發(fā)現(xiàn)文件之間的關聯(lián)和發(fā)展趨勢,為部門決策提供支持;并基于解析結果生成響應文件,實現(xiàn)信息文件的自動解析和快速響應,減少了人工處理的時間和成本,提高政務處理效率。