本公開涉及數(shù)據(jù)分級分類,尤其涉及一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法及其系統(tǒng)。
背景技術(shù):
1、目前,隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)的數(shù)量與復雜性不斷的增加,數(shù)據(jù)分類和管理的問題也一直是學術(shù)界和商業(yè)數(shù)據(jù)集團的重點問題?,F(xiàn)代大數(shù)據(jù)有著大容量、多類別、多關(guān)聯(lián)、形式多樣化等特性,此類大數(shù)據(jù)多是結(jié)構(gòu)化數(shù)據(jù),但是又包含著部分極長、描述極其復雜的非結(jié)構(gòu)化數(shù)據(jù)信息。目前的常見的文本分類方法可以分為基于規(guī)則的方法、基于樸素貝葉斯分類器的方法、基于支持向量機分類器的方法、基于深度學習分類器的方法等。
2、文本分詞(word?segmentation)是將連續(xù)的文本流切分成有意義的單詞。在許多語言中,單詞之間通常沒有顯式的分隔符,因此分詞是必要的預處理步驟,對于后續(xù)的語言處理任務(wù)如詞性標注、語法分析、信息提取等都是至關(guān)重要的。常見的文本分詞的技術(shù)有:基于詞典的方法、基于規(guī)則的方法、基于統(tǒng)計的方法、基于機器學習的方法和基于深度學習的方法。
3、大數(shù)據(jù)分類中由于其數(shù)據(jù)特有性質(zhì),詞頻信息極為重要,目前已有的文本表示方法對于此類信息并不能直接使用,同時,在此類大數(shù)據(jù)中,數(shù)據(jù)長度差異大,極為重要的相對位置信息也不能充分使用或易在訓練過程中丟失位置信息。如何有效獲取大數(shù)據(jù)的稀疏特征的同時兼顧復雜數(shù)據(jù)特征的提取,準確的識別出數(shù)據(jù)所屬類別是目前面臨的重要問題。
技術(shù)實現(xiàn)思路
1、為解決傳統(tǒng)數(shù)據(jù)分類研究方法在數(shù)據(jù)特征稀疏、數(shù)據(jù)極度不均衡和數(shù)據(jù)類型復雜的情況下,數(shù)據(jù)分級分類不準確、精度低,且無法保障數(shù)據(jù)安全等問題。本公開提出了一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法以解決以上問題。
2、根據(jù)本公開的一方面,提供了一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法,包括:
3、s10、獲取原始文本數(shù)據(jù),對所述原始文本數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)增強操作得到輸入數(shù)據(jù);
4、s20、根據(jù)所述輸入數(shù)據(jù)構(gòu)建基于概率分布的主題模型,通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關(guān)系,將主題-詞匯關(guān)系與詞嵌入模型進行特征融合,得到新的詞嵌入模型;
5、s30、根據(jù)新的詞嵌入模型,利用改進transformer網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度學習網(wǎng)絡(luò)模型;
6、s40、對所述深度學習網(wǎng)絡(luò)模型進行訓練與參數(shù)優(yōu)化,得到訓練好的深度學習網(wǎng)絡(luò)模型;
7、s50、將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型中,得到分級分類結(jié)果。
8、優(yōu)選地,通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關(guān)系,表示為:
9、,
10、式中,表示抽樣主題,表示單詞,為抽樣主題中單詞對應(yīng)的權(quán)重。
11、優(yōu)選地,將主題-詞匯關(guān)系與詞嵌入模型進行特征融合,得到新的詞嵌入模型,表示為:
12、,
13、式中,為每個詞匯融合后的詞向量,為每個單詞對應(yīng)的詞向量, k表示主題數(shù)量。
14、優(yōu)選地,所述深度學習網(wǎng)絡(luò)模型包括融合相對位置的可學習位置編碼層和基于注意力卷積模塊的改進編碼器層。
15、優(yōu)選地,融合相對位置的可學習位置編碼層,包括引入相對位置編碼與可學習位置編碼矩陣,將輸入數(shù)據(jù)的位置信息加入數(shù)據(jù)特征中,表示為:
16、,
17、式中, lrpe表示加權(quán)平均后的結(jié)果, pe表示相對位置編碼結(jié)果, l為一個可學習的位置編碼矩陣。
18、優(yōu)選地,基于注意力卷積模塊的改進編碼器層,包括將輸入數(shù)據(jù)的位置信息加入注意力卷積模塊中,通過卷積核放大輸入數(shù)據(jù)的特征后進行函數(shù)激活,表示為:
19、,
20、新的注意力計算公式表示為:
21、,
22、式中, q、k、v為注意力機制的輸入,為詞嵌入的維度。
23、優(yōu)選地,將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型中,包括:待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型后依次進行字段預測、表預測、庫預測。
24、根據(jù)本公開的一方面,提供一種基于詞頻概率融合的文本大數(shù)據(jù)分級分類系統(tǒng),包括:
25、輸入數(shù)據(jù)獲取模塊,獲取原始文本數(shù)據(jù),對所述原始文本數(shù)據(jù)進行數(shù)據(jù)清洗和數(shù)據(jù)增強操作得到輸入數(shù)據(jù);
26、詞嵌入特征融合模塊,根據(jù)所述輸入數(shù)據(jù)構(gòu)建基于概率分布的主題模型,通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關(guān)系,將主題-詞匯關(guān)系與詞嵌入模型進行特征融合,得到新的詞嵌入模型;
27、模型構(gòu)建模塊,根據(jù)新的詞嵌入模型,利用改進transformer網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度學習網(wǎng)絡(luò)模型;
28、模型訓練模塊,對所述深度學習網(wǎng)絡(luò)模型進行訓練與參數(shù)優(yōu)化,得到訓練好的深度學習網(wǎng)絡(luò)模型;
29、數(shù)據(jù)分級分類模塊,將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型中,得到分級分類結(jié)果。
30、根據(jù)本公開的一方面,提供了一種電子設(shè)備,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:執(zhí)行上述基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。
31、根據(jù)本公開的一方面,提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,所述計算機程序指令被處理器執(zhí)行時實現(xiàn)上述基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。
32、相對于現(xiàn)有技術(shù),本公開的有益效果為:
33、1)本公開提出了一種基于詞頻概率的詞嵌入特征融合方式,通過對文檔進行主題-詞匯關(guān)系提取并與詞嵌入進行特征融合,為詞嵌入數(shù)據(jù)中添加了詞頻概率信息,提高了專用領(lǐng)域的分類精度。
34、2)本公開提出了一種改進的可學習的相對位置編碼,通過引入相對位置編碼與可學習位置編碼矩陣,將位置信息加入數(shù)據(jù)特征中,解決了傳統(tǒng)位置編碼相對位置信息不足且泛化能力不足的缺點。
35、3)本公開提出了一種注意力卷積模塊ac模塊,通過將位置信息加入注意力操作中,并通過1*1的卷積核放大特征后進行relu函數(shù)激活,使得位置信息能更好的被注意力機制捕捉與使用,避免了深層網(wǎng)絡(luò)位置信息的丟失問題。
36、4)提出了一種基于transformer模塊與cnn模塊的級聯(lián)模型,通過在全局、局部上分別進行特征提取強化數(shù)據(jù)特征,并通過改進的位置信息的添加,使得其在面對數(shù)據(jù)長度極度不均衡,數(shù)據(jù)種類極度繁雜的數(shù)據(jù)分類情況下依舊可以保持良好、準確的效果。
37、應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,而非限制本公開。
38、根據(jù)下面參考附圖對示例性實施例的詳細說明,本公開的其它特征及方面將變得清楚。
1.基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過基于概率分布的主題模型得到輸入數(shù)據(jù)的主題-詞匯關(guān)系,表示為:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,將主題-詞匯關(guān)系與詞嵌入模型進行特征融合,得到新的詞嵌入模型,表示為:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述深度學習網(wǎng)絡(luò)模型包括融合相對位置的可學習位置編碼層和基于注意力卷積模塊的改進編碼器層。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,融合相對位置的可學習位置編碼層,包括引入相對位置編碼與可學習位置編碼矩陣,將輸入數(shù)據(jù)的位置信息加入數(shù)據(jù)特征中,表示為:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,基于注意力卷積模塊的改進編碼器層,包括將輸入數(shù)據(jù)的位置信息加入注意力卷積模塊中,通過卷積核放大輸入數(shù)據(jù)的特征后進行函數(shù)激活,表示為:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,將待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型中,包括:待分類數(shù)據(jù)輸入訓練好的深度學習網(wǎng)絡(luò)模型后依次進行字段預測、表預測、庫預測。
8.基于詞頻概率融合的文本大數(shù)據(jù)分級分類系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7任一項所述的基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7任一項所述的基于詞頻概率融合的文本大數(shù)據(jù)分級分類方法。