一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法

文檔序號：40393909發(fā)布日期：2024-12-20 12:17閱讀：5來源：國知局

本發(fā)明屬于數(shù)據(jù)聚合，具體涉及一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法。

背景技術：

1、隨著信息技術的迅猛發(fā)展和高校管理模式的不斷創(chuàng)新，高校財務數(shù)據(jù)的來源日益多元化，包括財務報表、審計報告、在線支付記錄、科研經費管理系統(tǒng)等多個方面。這些多來源的財務數(shù)據(jù)對聚合方法提出了更高的要求。

2、多來源高校財務數(shù)據(jù)的智能聚合旨在通過自動化、智能化的技術手段，將來自不同系統(tǒng)、不同格式、不同來源的財務數(shù)據(jù)進行整合，形成一個統(tǒng)一、規(guī)范、易于分析的數(shù)據(jù)集。這樣不僅可以提高數(shù)據(jù)整合的效率和準確性，降低人工處理的成本，還可以為高校管理層提供更加全面、深入的財務數(shù)據(jù)分析報告，幫助高校做出更加科學、合理的決策。因此，研究多來源高校財務數(shù)據(jù)的智能聚合方法，對于提高高校財務管理效率、優(yōu)化資源配置、促進高?？沙掷m(xù)發(fā)展具有重要意義。

3、目前，越來越多的學者針對數(shù)據(jù)聚合方法展開相關研究，并取得一系列成果。文獻1：基于語義的制造企業(yè)多價值鏈協(xié)同數(shù)據(jù)空間數(shù)字資源聚合識別方法研究，根據(jù)多源數(shù)據(jù)的空間語義網(wǎng)絡節(jié)點發(fā)現(xiàn)方法，實現(xiàn)了數(shù)據(jù)聚合識別，具有良好的聚合效果，但是數(shù)據(jù)語義標注復雜性較高，導致該方法的聚合效率在實際應用中受到一定限制；文獻2：基于車聯(lián)網(wǎng)的隱私保護數(shù)據(jù)聚合研究綜述，針對車聯(lián)網(wǎng)中隱私數(shù)據(jù)聚合問題，設計一種基于加密算法的數(shù)據(jù)聚合方案，但是車聯(lián)網(wǎng)中數(shù)據(jù)進行密鑰交換時往往需要額外的通信，導致該聚合方法的實際通信開銷較大；文獻3：跨組織醫(yī)療健康大數(shù)據(jù)聚合與案例知識推理方法研究，面對大規(guī)模多源異構醫(yī)療健康數(shù)據(jù)的安全共享，設計一種基于聯(lián)邦學習機制的深度聚合方法，但是該方法存在一定隱私泄露風險，實際應用效果不佳。

技術實現(xiàn)思路

1、本發(fā)明的目的在于提供一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，旨在解決高校財務數(shù)據(jù)來源廣泛且數(shù)量龐大，影響了財務數(shù)據(jù)的利用效率的技術問題。

2、本發(fā)明為實現(xiàn)上述發(fā)明目的，采取的技術方案如下：

3、一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，包括以下步驟：

4、s1、爬取并預處理多來源高校財務文本數(shù)據(jù)：以高校財務文本數(shù)據(jù)為對象，深入研究多來源數(shù)據(jù)的智能聚合；首先，引入基于哈希表的去重算法，也就是在爬取到新的文本數(shù)據(jù)后，先通過哈希函數(shù)將數(shù)據(jù)轉換為哈希值，表達式如下式所示：

5、z(x)＝fmd5(x)(1)

6、式中，z(x)為高校財務數(shù)據(jù)x的哈希值；fmd5為md5哈希函數(shù)；通過上述爬取與預處理，本發(fā)明得到了高質量的多來源高校財務文本數(shù)據(jù)，為后續(xù)智能聚合提供數(shù)據(jù)基礎；

7、s2、過濾多來源高校財務數(shù)據(jù)的不良文本：首先，構建一個樸素貝葉斯分類器進行多來源高校財務數(shù)據(jù)分類，這是一種基于貝葉斯定理與特征條件獨立假設的文本分類方法，其關鍵在于計算待分類文本數(shù)據(jù)歸類到各類別的概率，計算公式如下式所示：

8、

9、式中，g(bn|x)為給定高校財務文本數(shù)據(jù)x屬于類別bn的概率，其值越大表明數(shù)據(jù)x屬于類別bn的可能性越大；g(x|bn)為在類別bn下，高校財務文本數(shù)據(jù)x出現(xiàn)的概率；g(bn)為類別bn出現(xiàn)的概率；g(x)為高校財務文本數(shù)據(jù)x出現(xiàn)的概率。假設不良文本類別閾值為γ，如果式(3)所求高校財務文本數(shù)據(jù)x的所屬概率g(bn|x)≥γ，那么該類別屬于正例類別，予以保留；如果g(bn|x)＜γ，那么該類別屬于反例類別，也就是不良文本，則進行剔除；

10、s3、多來源高校財務文本數(shù)據(jù)聚合：在根據(jù)上述內容完成多來源高校財務數(shù)據(jù)不良文本的過濾后，即可對剩余正常文本進行聚合；基于多來源高校財務文本數(shù)據(jù)的特殊性，本發(fā)明采用jaro-winkler相似度算法進行不同來源高校財務文本數(shù)據(jù)的匹配，其是一種基于字符串比較的相似度度量方法，結合了jaro算法和winkler算法的優(yōu)點，從而提高了相似度計算的準確性。首先，需要利用jaro算法計算每對文本之間的jarodistance相似度，表達式如下式：

11、

12、式中，d1為兩個不同來源的高校財務文本數(shù)據(jù)之間的jaro?distance相似度；m為高校財務文本數(shù)據(jù)中待匹配字符的個數(shù)；|l1|、|l2|分別為兩個不同來源的高校財務文本數(shù)據(jù)中待匹配的字符串的長度；為待匹配的字符串中發(fā)生換位操作的字符數(shù)目；f0為兩個待匹配的字符串在相同位置上進行換位操作的次數(shù)。在jaro?distance的基礎上，本文采用winkler算法進行修正，得到jaro-winkler相似度值，表達式如下所示：

13、d2＝d1+(ak(1-d1))(4)

14、式中，d2為兩個不同來源的高校財務文本數(shù)據(jù)之間的jaro-winkler相似度；a為兩個待匹配字符串的前綴長度；k為常量，一般設置為0.1。

15、本發(fā)明所述的一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，采用以上技術方案與現(xiàn)有技術相比，具有以下技術效果：

16、本發(fā)明提出了一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，通過對多來源財務文本數(shù)據(jù)的爬取、預處理、不良文本過濾以及相似度匹配聚合，有效提高了高校財務數(shù)據(jù)整合的效率和準確性。

技術特征：

1.一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，其特征在于，包括以下步驟：

技術總結
本發(fā)明屬于數(shù)據(jù)聚合技術領域，具體涉及一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法。本發(fā)明方法，首先爬取并預處理多來源高校財務文本數(shù)據(jù)，利用樸素貝葉斯分類器，結合類別閾值設計文本過濾技術，過濾多來源高校財務數(shù)據(jù)中的不良文本。然后，通過Jaro?Winkler相似度匹配算法將過濾后文本聚合在一起，實現(xiàn)多來源高校財務數(shù)據(jù)智能聚合。本發(fā)明提出了一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法，通過對多來源財務文本數(shù)據(jù)的爬取、預處理、不良文本過濾以及相似度匹配聚合，有效提高了高校財務數(shù)據(jù)整合的效率和準確性。

技術研發(fā)人員：宗烜逸,周宇,程實,陳曉紅
受保護的技術使用者：南通大學
技術研發(fā)日：
技術公布日：2024/12/19

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：宗烜逸,周宇,程實,陳曉紅
技術所有人：南通大學
我是此專利的發(fā)明人

上一篇：一種丙烯酸重組分分解釜的制作方法
上一篇：一種用于隧道式液氮速凍機的除霜密封裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文本過濾的多來源高校財務數(shù)據(jù)聚合方法