本發(fā)明涉及信息技術(shù)和大數(shù)據(jù)處理領(lǐng)域,具體為一種基于大數(shù)據(jù)的政務(wù)信息暫存式響應(yīng)系統(tǒng)。
背景技術(shù):
1、當(dāng)下,隨著政府?dāng)?shù)字化轉(zhuǎn)型的發(fā)展,政府內(nèi)部的信息化建設(shè)與數(shù)字化建設(shè)有著大大的提高,提供給民眾的渠道終端從傳統(tǒng)的辦事大廳發(fā)展到現(xiàn)在可以通過移動app、官方網(wǎng)站、熱線電話、公眾號、小程序等渠道接收民眾以及基層工作人員的政務(wù)事件上報(bào)。渠道的增多使得政務(wù)信息處理的數(shù)量也同時(shí)增多。
2、現(xiàn)有公布號為cn117350670a的發(fā)明專利提出了一種政務(wù)處理系統(tǒng)及方法,包括信息公布模塊、信息處理模塊、信息監(jiān)管模塊和信息決策模塊,通過信息采集模塊進(jìn)行數(shù)據(jù)收集與發(fā)布,并將數(shù)據(jù)存儲于數(shù)據(jù)倉庫中,通過信息決策模塊建立決策支持系統(tǒng)對數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)進(jìn)行分析和決策。
3、現(xiàn)有的政務(wù)信息處理系統(tǒng)大多采用實(shí)時(shí)處理方式,在面對海量政務(wù)信息時(shí)無法有效過濾重復(fù)政務(wù)信息,導(dǎo)致處理效率低下,且多種渠道上傳的政務(wù)信息往往存在格式混亂和文本錯(cuò)誤的問題,會進(jìn)一步影響系統(tǒng)處理效率,無法滿足高效、便捷的政務(wù)處理需求。因此,本發(fā)明提出一種基于大數(shù)據(jù)的政務(wù)信息暫存式響應(yīng)系統(tǒng),以解決上述問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于大數(shù)據(jù)的政務(wù)信息暫存式響應(yīng)系統(tǒng),對政務(wù)信息進(jìn)行預(yù)處理和暫存,提高政務(wù)處理效率,滿足高效、便捷的政務(wù)處理需求。
2、實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
3、一種基于大數(shù)據(jù)的政務(wù)信息暫存式響應(yīng)系統(tǒng),包括數(shù)據(jù)接收模塊、預(yù)處理模塊、中繼模塊、存儲模塊和響應(yīng)模塊;
4、數(shù)據(jù)接收模塊接收并檢驗(yàn)政務(wù)信息,轉(zhuǎn)發(fā)通過檢驗(yàn)的政務(wù)信息至預(yù)處理模塊;
5、預(yù)處理模塊清洗政務(wù)信息,生成待辦政務(wù)信息并轉(zhuǎn)發(fā)至中繼模塊;
6、中繼模塊基于待辦政務(wù)信息的級別標(biāo)簽選擇發(fā)送存儲模塊或處理方;
7、存儲模塊基于防延誤策略暫存待辦政務(wù)信息,長期存儲必備資料;
8、響應(yīng)模塊基于實(shí)時(shí)應(yīng)對策略響應(yīng)處理方發(fā)起的處理通知并傳輸待辦政務(wù)信息至處理方。
9、進(jìn)一步的,第個(gè)政務(wù)部門的政務(wù)信息包括部門編號、上報(bào)時(shí)間、政務(wù)文本,簽名和證書;
10、部門編號用于標(biāo)識部門;
11、上報(bào)時(shí)間為發(fā)送政務(wù)信息的時(shí)間;
12、政務(wù)文本為文本文件,包括政務(wù)名稱和政務(wù)內(nèi)容;
13、簽名由第個(gè)政務(wù)部門在上報(bào)時(shí)間生成;
14、證書在第個(gè)政務(wù)部門注冊時(shí)由系統(tǒng)頒發(fā)。
15、進(jìn)一步的,數(shù)據(jù)接收模塊包括驗(yàn)證單元和收發(fā)單元;
16、驗(yàn)證單元獲取公開信息,基于第一等式和第二等式分別檢驗(yàn)政務(wù)信息的有效性和真實(shí)性,滿足等式的政務(wù)信息視為通過檢驗(yàn);
17、收發(fā)單元接收政務(wù)信息,并轉(zhuǎn)發(fā)通過檢驗(yàn)的政務(wù)信息至預(yù)處理模塊。
18、更進(jìn)一步的,驗(yàn)證單元檢驗(yàn)政務(wù)信息包括以下步驟:
19、獲取政務(wù)信息和公開信息;
20、通過第一等式驗(yàn)證政務(wù)信息的有效性;
21、通過第二等式驗(yàn)證政務(wù)信息的真實(shí)性;
22、第一等式和第二等式均成立時(shí),政務(wù)信息檢驗(yàn)通過,其余情形均視為檢驗(yàn)未通過。
23、進(jìn)一步的,預(yù)處理模塊包括去重單元、優(yōu)化單元、評級單元和通信單元;
24、去重單元采用文本相似度檢測算法識別并剔除重復(fù)政務(wù)信息;
25、優(yōu)化單元基于文本糾錯(cuò)網(wǎng)絡(luò)糾正拼寫錯(cuò)誤,標(biāo)準(zhǔn)化政務(wù)文本;
26、評級單元基于關(guān)鍵詞檢測算法賦予政務(wù)信息級別標(biāo)簽,生成待辦政務(wù)信息;
27、通信單元接收通過檢驗(yàn)的政務(wù)信息,發(fā)送待辦政務(wù)信息至中繼模塊,同時(shí)發(fā)送督促標(biāo)簽至存儲模塊。
28、更進(jìn)一步的,去重單元采用文本相似度檢測算法識別并剔除重復(fù)政務(wù)信息包括以下步驟:
29、獲取政務(wù)信息,基于部門編號查詢存儲模塊中是否已存在相同部門編號的待辦政務(wù)信息;
30、若不存在,則直接判定政務(wù)信息不重復(fù);
31、若存在,獲取所有相同部門編號的待辦政務(wù)信息以構(gòu)建待辦政務(wù)信息集;
32、從待辦政務(wù)信息集中獲取最近待辦政務(wù)信息,執(zhí)行重復(fù)判定,統(tǒng)計(jì)政務(wù)文本和最近待辦政務(wù)文本的文本長度和;
33、比較文本差與差值閾值的大小關(guān)系,差值閾值和文本長度和中的較大者存在固定的比例關(guān)系,該比例為預(yù)設(shè)的文本差比例;
34、當(dāng)文本差大于差值閾值,判定政務(wù)信息與最近待辦政務(wù)信息不重復(fù),從待辦政務(wù)信息集中剔除最近待辦政務(wù)信息;
35、當(dāng)文本差小于等于差值閾值,采用雙向lstm+crf的組合模型作為分詞器,對政務(wù)文本和最近待辦政務(wù)文本進(jìn)行分詞,分別獲取分詞向量和最近待辦分詞向量并合并生成合并分詞集;
36、針對合并分詞集中的第個(gè)分詞,分別計(jì)算第個(gè)分詞在政務(wù)文本和最近待辦政務(wù)文本的詞頻和最近待辦詞頻,并計(jì)算第個(gè)分詞的逆文本頻率,以獲取第個(gè)分詞在政務(wù)文本和最近待辦政務(wù)文本的權(quán)重和最近待辦權(quán)重;
37、基于公開信息處理合并分詞集中第個(gè)分詞,生成二進(jìn)制編碼,并基于權(quán)重和最近待辦權(quán)重獲取權(quán)重編碼和最近待辦權(quán)重編碼;
38、分別疊加合并分詞集中所有分詞的權(quán)重編碼和最近待辦權(quán)重編碼生成疊加編碼和最近待辦疊加編碼,判斷疊加編碼和最近待辦疊加編碼的漢明距離是否大于距離閾值,
39、若疊加編碼和最近待辦疊加編碼的漢明距離大于距離閾值,判定政務(wù)信息與最近待辦政務(wù)信息不重復(fù),從待辦政務(wù)信息集中剔除最近待辦政務(wù)信息,反之,則判定政務(wù)信息與最近待辦政務(wù)信息重復(fù),剔除政務(wù)信息并生成督促標(biāo)簽,停止重復(fù)判定。
40、執(zhí)行空集判定,判斷待辦政務(wù)信息集是否為空集,若為空集,則判定政務(wù)信息不重復(fù),反之,則從剔除后的待辦政務(wù)信息集中獲取新的最近待辦政務(wù)信息繼續(xù)執(zhí)行重復(fù)判定和空集判定。
41、更進(jìn)一步的,優(yōu)化單元基于文本糾錯(cuò)網(wǎng)絡(luò)糾正政務(wù)文本的拼寫錯(cuò)誤包括以下步驟:
42、構(gòu)建混淆集、發(fā)音近似字符關(guān)系圖和形狀近似字符關(guān)系圖,并定義近似字符關(guān)系圖,;
43、基于圖卷積運(yùn)算操作和注意力圖組合操作重新表示混淆集中的字符生成聚合表示集;
44、通過bert提取政務(wù)文本,獲取對應(yīng)的表示集并輸入檢測器,計(jì)算政務(wù)文本中第個(gè)字符的出錯(cuò)概率;
45、獲取聚合表示集中與字符表示相似度最高的個(gè)聚合表示,在混淆集中索引至對應(yīng)字符,分別構(gòu)建候選表示集和候選集;
46、采用修正器計(jì)算候選集中候選字符為正例的預(yù)測概率;
47、引入對比損失,通過對比學(xué)習(xí)最大化對正例的預(yù)測概率,并最小化對負(fù)例的預(yù)測概率,定義最終損失,其中,為檢測損失,為修正損失,為對比損失。
48、更進(jìn)一步的,混淆集為預(yù)先定義的字符集合,共包含個(gè)字符,,考慮了以上的字符相似性;
49、將發(fā)音相同或相似的字符作為圖節(jié)點(diǎn),定義并生成邊以構(gòu)建發(fā)音近似字符關(guān)系圖,將形狀相似的字符作為圖節(jié)點(diǎn),定義并生成邊以構(gòu)建形狀近似字符關(guān)系圖,并定義近似字符關(guān)系圖;
50、邊的定義為混淆集中第個(gè)字符和第個(gè)字符的相似度,相似度基于第個(gè)字符和第個(gè)字符的字符表示和的距離獲取。
51、更進(jìn)一步的,基于圖卷積運(yùn)算操作和注意力圖組合操作生成聚合表示集包括以下步驟:
52、通過bert提取混淆集以獲得表示集;
53、通過輕量級卷積層處理近似字符關(guān)系圖獲取卷積圖,時(shí)卷積圖為發(fā)音卷積圖,時(shí)卷積圖為形狀卷積圖;
54、采用注意力機(jī)制組合字符發(fā)音和字符形狀的相似性,生成注意力組合圖;
55、疊加注意力組合圖和表示集以獲取聚合表示集。
56、更進(jìn)一步的,優(yōu)化單元標(biāo)準(zhǔn)化政務(wù)文本包括以下步驟:
57、統(tǒng)一數(shù)據(jù)格式,日期采用iso?8601格式表示,數(shù)字采用浮點(diǎn)數(shù)表示,字符串采用utf-8編碼表示;
58、統(tǒng)一數(shù)據(jù)結(jié)構(gòu),列表、序列和向量均采用數(shù)組表示,樹形結(jié)構(gòu)均采用二叉樹表示;
59、設(shè)置數(shù)據(jù)約束,日期不能為空,字符串不能包含特殊符號,二叉樹不能包含重復(fù)元素;
60、統(tǒng)一命名政務(wù)文本為“部門編號-上報(bào)時(shí)間-政務(wù)名稱”。
61、更進(jìn)一步的,評級單元基于關(guān)鍵詞檢測算法賦予級別標(biāo)簽,生成待辦政務(wù)信息包括以下步驟:
62、獲取政務(wù)信息中的政務(wù)文本;
63、獲取部門編號,查詢部門級別表,獲取初始級別標(biāo)簽;
64、采用雙向lstm+crf的組合模型對政務(wù)文本進(jìn)行分詞,獲取分詞向量;
65、統(tǒng)計(jì)分詞向量的分詞總數(shù)和關(guān)鍵分詞總數(shù),計(jì)算分詞向量的增級量;
66、計(jì)算級別標(biāo)簽并賦予政務(wù)信息,生成待辦政務(wù)信息,其中,為最高級別。
67、進(jìn)一步的,中繼模塊包括判斷控制單元和轉(zhuǎn)發(fā)單元;
68、判斷控制單元獲取待辦政務(wù)信息中的級別標(biāo)簽,判斷是否為最高級別,是則控制轉(zhuǎn)發(fā)單元的下一跳為響應(yīng)模塊,反之則控制轉(zhuǎn)發(fā)單元的下一跳為存儲模塊;
69、轉(zhuǎn)發(fā)單元轉(zhuǎn)發(fā)待辦政務(wù)信息至下一跳。
70、進(jìn)一步的,存儲模塊包括暫存單元、主存單元和傳輸單元;
71、暫存單元基于防延誤策略暫存待辦政務(wù)信息,并調(diào)整暫存順序;
72、主存單元長期存儲必備資料,必備資料包括語料庫、關(guān)鍵詞典和部門級別表,其中,語料庫由歷史政務(wù)信息構(gòu)建;
73、傳輸單元接收待辦政務(wù)信息、督促標(biāo)簽和存檔指令,傳輸待辦政務(wù)信息至響應(yīng)模塊,基于存檔指令移交歷史政務(wù)信息至主存單元。
74、更進(jìn)一步的,暫存單元基于防延誤策略暫存待辦政務(wù)信息,并調(diào)整暫存順序包括以下步驟:
75、獲取待辦政務(wù)信息中的上報(bào)時(shí)間和級別標(biāo)簽,設(shè)置最大存儲時(shí)長,實(shí)時(shí)記錄存儲時(shí)長,確定暫存順序;
76、若獲取待辦政務(wù)信息對應(yīng)的督促標(biāo)簽,更新督促次數(shù)并判斷是否大于3次,是則不予理會,反之則更新暫存順序;
77、若存儲時(shí)長與最大存儲時(shí)長的比值大于等于告警比例,則通過傳輸單元直接傳輸待辦政務(wù)信息至響應(yīng)模塊。
78、更進(jìn)一步的,傳輸單元基于存檔指令移交歷史政務(wù)信息至主存單元包括以下步驟:
79、獲取存檔指令,其中,為完成時(shí)間;
80、生成歷史政務(wù)信息并傳輸至主存單元長期存儲;
81、清除暫存單元中的待辦政務(wù)信息。
82、進(jìn)一步的,響應(yīng)模塊基于實(shí)時(shí)應(yīng)對策略響應(yīng)處理方發(fā)起的處理通知并傳輸待辦政務(wù)信息至處理方包括以下步驟;
83、獲取處理通知,基于處理標(biāo)簽判斷處理通知類型;
84、若處理標(biāo)簽指示為常規(guī)調(diào)用請求,選擇暫存順序最先的待辦政務(wù)信息傳輸至處理方;
85、若處理標(biāo)簽指示為特定調(diào)用請求,獲取特定調(diào)用請求中的部門編號,選擇部門編號相同且暫存順序最先的待辦政務(wù)信息傳輸至處理方;
86、若處理標(biāo)簽指示為處理反饋,獲取處理反饋中的部門編號、上報(bào)時(shí)間、級別標(biāo)簽和完成時(shí)間,生成存檔指令并發(fā)送至存儲模塊;
87、獲取待辦政務(wù)信息,轉(zhuǎn)發(fā)至處理方。
88、本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)在于:
89、1、設(shè)置預(yù)處理單元,通過文本相似度檢測算法剔除重復(fù)政務(wù)信息,基于文本糾錯(cuò)網(wǎng)絡(luò)自動糾正政務(wù)信息的拼寫錯(cuò)誤,統(tǒng)一政務(wù)信息的數(shù)據(jù)格式、數(shù)據(jù)結(jié)構(gòu)和命名,并自主賦予級別標(biāo)簽,提升政務(wù)信息處理效率;
90、2、在存儲模塊中設(shè)置暫存單元,暫存待辦政務(wù)信息,通過防延誤策略和響應(yīng)模塊的實(shí)時(shí)應(yīng)對策略協(xié)同作用,確保政務(wù)信息能夠得到及時(shí)處理,加快政務(wù)信息中轉(zhuǎn)流程,進(jìn)一步提升政務(wù)信息處理效率;
91、3、在數(shù)據(jù)接收模塊設(shè)置檢驗(yàn)步驟,確保政務(wù)信息的來源可靠和真實(shí)性,確保政務(wù)信息安全性。