本發(fā)明涉及文本處理,具體涉及一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)。
背景技術(shù):
1、在數(shù)字化時代,企業(yè)和組織面臨著海量信息管理的挑戰(zhàn),尤其是文檔數(shù)據(jù)的快速增長使得傳統(tǒng)管理方法難以應(yīng)對。隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)分析能力得到了顯著提升,企業(yè)亟需有效利用這些技術(shù)以實現(xiàn)信息的高效處理和管理。然而,現(xiàn)有的文檔管理系統(tǒng)多依賴于靜態(tài)和主觀的篩選標(biāo)準(zhǔn),導(dǎo)致重要信息易被忽視或錯誤評估。此外,缺乏對文本內(nèi)容深入分析的能力,導(dǎo)致文檔管理混亂,存在分類存儲精度低的問題。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種基于大數(shù)據(jù)分析的數(shù)字化管理方法及系統(tǒng)解決了現(xiàn)有技術(shù)存在分類存儲精度低的問題。
2、為了達到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種基于大數(shù)據(jù)分析的數(shù)字化管理方法,包括以下步驟:
3、s1、對文檔中文本內(nèi)容進行分句,得到多句文本;
4、s2、將每句文本中的字進行組合,得到第一類詞組集合、第二類詞組集合和第三類詞組集合;
5、s3、計算每類詞組集合中每個詞組的顯著度,構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列;
6、s4、采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合,基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度,得到每句文本的重要度;
7、s5、對文檔中各句文本的重要度進行加權(quán),得到文檔的重要度,基于文檔的重要度,對文檔分配存儲空間。
8、進一步地,所述s2包括以下分步驟:
9、s21、采用長度為2的滑動隊列在每句文本上滑動,得到每句文本對應(yīng)的第一類詞組集合,其中,第一類詞組集合包含多個詞組,一個詞組長度為2;
10、s22、采用長度為3的滑動隊列在每句文本上滑動,得到每句文本對應(yīng)的第二類詞組子集,其中,第二類詞組子集中包含多個詞組,一個詞組長度為3;
11、s23、采用長度為4的滑動隊列在每句文本上滑動,得到每句文本對應(yīng)的第三類詞組子集,其中,第三類詞組子集中包含多個詞組,一個詞組長度為4,其中,滑動窗口每次前進1個字的長度,每滑動一次,得到一個詞組。
12、進一步地,所述s3包括以下分步驟:
13、s31、提取每類詞組集合中每個詞組,計算每個詞組與關(guān)鍵詞集合中各關(guān)鍵詞的相似度;
14、s32、根據(jù)最大相似度對應(yīng)的關(guān)鍵詞標(biāo)注的重要度和最大相似度,計算每個詞組的關(guān)鍵系數(shù);
15、s33、標(biāo)記包含該詞組的已分配存儲空間的文檔為參考文檔;
16、s34、統(tǒng)計詞組在參考文檔中出現(xiàn)的頻次;
17、s35、根據(jù)該詞組在參考文檔中出現(xiàn)的頻次、參考文檔的重要度和關(guān)鍵系數(shù),計算詞組的顯著度;
18、s36、將各個詞組的顯著度作為元素構(gòu)建顯著度序列,其中,s31中詞組集合為第一類詞組集合時,s35中顯著度序列為第一類顯著度序列;s31中詞組集合為第二類詞組集合時,s35中顯著度序列為第二類顯著度序列;s31中詞組集合為第三類詞組集合時,s35中顯著度序列為第三類顯著度序列。
19、進一步地,所述s32中計算每個詞組的關(guān)鍵系數(shù)的公式為:,其中,γ為詞組的關(guān)鍵系數(shù),θkey為最大相似度對應(yīng)的關(guān)鍵詞標(biāo)注的重要度,s為最大相似度。
20、進一步地,所述s35中計算詞組的顯著度的公式為:,其中,μ為詞組的顯著度,ni為該詞組在第i個參考文檔中出現(xiàn)的頻次,θfile,i為第i個參考文檔的重要度,i為參考文檔的數(shù)量,γ為詞組的關(guān)鍵系數(shù),i為正整數(shù)。
21、進一步地,所述s4中多層語義分類模型包括:第一類語義提取單元、第二類語義提取單元、第三類語義提取單元、第一乘法器m1、第二乘法器m2、第三乘法器m3和分類器;
22、所述第一類語義提取單元的輸入端用于輸入第一類詞組集合;所述第二類語義提取單元的輸入端用于輸入第二類詞組集合;所述第三類語義提取單元的輸入端用于輸入第三類詞組集合;所述第一乘法器m1的第一輸入端與第一類語義提取單元的輸出端連接,其第二輸入端用于輸入第一類顯著度序列;所述第二乘法器m2的第一輸入端與第二類語義提取單元的輸出端連接,其第二輸入端用于輸入第二類顯著度序列;所述第三乘法器m3的第一輸入端與第三類語義提取單元的輸出端連接,其第二輸入端用于輸入第三類顯著度序列;所述分類器的輸入端分別與第一乘法器m1的輸出端、第二乘法器m2的輸出端和第三乘法器m3的輸出端連接,其輸出端作為多層語義分類模型的輸出端。
23、進一步地,所述第一類語義提取單元、第二類語義提取單元和第三類語義提取單元均包括:多個lilstm層、多個詞組語義提取層和concat層,每個lilstm層用于處理一個詞組,一個詞組語義提取層用于處理一個lilstm層輸出的特征,所述concat層用于將多個詞組語義提取層輸出的語義特征值拼接成語義特征向量。
24、進一步地,所述詞組語義提取層的表達式為:,其中,x為詞組語義提取層輸出的語義特征值,tanh為雙曲正切激活函數(shù),hm為lilstm層輸出的第m個特征,ωm為hm的權(quán)重,bm為hm的偏置,m為lilstm層輸出的特征的數(shù)量,m為正整數(shù)。
25、進一步地,所述第一乘法器m1、第二乘法器m2和第三乘法器m3用于對兩個輸入進行按元素相乘。
26、一種基于大數(shù)據(jù)分析的數(shù)字化管理系統(tǒng),包括:分句子系統(tǒng)、組合子系統(tǒng)、序列構(gòu)建子系統(tǒng)、分類子系統(tǒng)和空間分配子系統(tǒng);
27、所述分句子系統(tǒng)用于對文檔中文本內(nèi)容進行分句,得到多句文本;
28、所述組合子系統(tǒng)用于將每句文本中的字進行組合,得到第一類詞組集合、第二類詞組集合和第三類詞組集合;
29、所述序列構(gòu)建子系統(tǒng)用于計算每類詞組集合中每個詞組的顯著度,構(gòu)建第一類顯著度序列、第二類顯著度序列和第三類顯著度序列;
30、所述分類子系統(tǒng)用于采用多層語義分類模型處理第一類詞組集合、第二類詞組集合和第三類詞組集合,基于第一類顯著度序列、第二類顯著度序列和第三類顯著度序列施加的顯著度,得到每句文本的重要度;
31、所述空間分配子系統(tǒng)用于對文檔中各句文本的重要度進行加權(quán),得到文檔的重要度,基于文檔的重要度,對文檔分配存儲空間。
32、本發(fā)明的有益效果為:本發(fā)明將文檔中文本內(nèi)容進行分句,實現(xiàn)按句分析,將每句文本中的字進行組合得到三種字組合,分別構(gòu)成三類詞組集合,每類詞組集合體現(xiàn)不同的字組合,不同字組合具備不同層次的含義,計算出每個詞組的顯著度,構(gòu)建三類顯著度序列,采用多層語義分類模型提取不同層次的含義,并結(jié)合詞組的顯著度,預(yù)測出每句文本的重要度,結(jié)合文檔中每句文本的重要度,得到文檔的重要度,按文檔的重要度對文檔進行存儲,實現(xiàn)對不同重要性的文檔分類存儲,便于文檔管理,極大地提升了文檔管理的效率與準(zhǔn)確性,且本發(fā)明結(jié)合多層次詞組的語義提高了每句文本分析的精度,具備深入分析文本的能力,本發(fā)明結(jié)合詞組的顯著度防止重要信息丟失,提高了分類存儲精度。