1.一種基于RNNs的短信自動安全審核的方法,其特征在于,具體步驟包括:
(1)對歷史短信數(shù)據(jù)進行預處理,預處理包括去除噪音、中文分詞;
(2)對步驟(1)預處理后的歷史短信數(shù)據(jù)提取特征,生成詞向量;
(3)用RNNs與樸素貝葉斯相集成的分類模型實時對短信文本進行分類。
2.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(2),基于Hierarchical Softmax的CBOW模型提取特征,具體包括:最大化基于Hierarchical Softmax的CBOW模型的優(yōu)化函數(shù),訓練得到每個中文分詞的詞向量;基于Hierarchical Softmax的CBOW模型的優(yōu)化函數(shù)如式(Ⅰ)所示:
C為語料庫,w是指步驟(1)中文分詞后得到的任意詞;Context(w)是w的上下文。
3.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(2),通過GloVe模型生成詞向量,具體包括:最小化式(Ⅱ),所述式(Ⅱ)如下所示:
式(Ⅱ)中,矩陣第i行第j列的值為詞vi與詞vj在與語料庫中的出現(xiàn)次數(shù)xij的對數(shù);pi為詞vi作為目標詞時的詞向量,一句話中中間的詞作為目標詞;qi為詞vj作為上下文時的詞向量,目標詞左右的詞為其上下文,b(1)、b(2)為針對詞表中各詞的偏移向量,語料庫中不重復的詞組成了詞表,f(x)是一個加權函數(shù),f(x)的定義為:當x<xmax時,f(x)=(x/xmax)α;否則,f(x)=1;xmax是指兩個詞共同出現(xiàn)的最大次數(shù),GloVe模型中xmax的取值為100。
4.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(3),將含有的敏感詞的短信通過樸素貝葉斯訓練分類,不含敏感詞的短信通過RNNs訓練分類;敏感詞包括{w1,w2,…,wn},所述敏感詞是指根據(jù)監(jiān)獄規(guī)定人工提取的敏感詞。
5.根據(jù)權利要求4所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,將含有的敏感詞的短信通過樸素貝葉斯訓練分類,具體步驟包括:
a、訓練過程:敏感詞{w1,w2,…,wn}作為樸素貝葉斯x的特征屬性,即a1:{w1,w2,…,wn},a1為敏感詞{w1,w2,…,wn}組成的集合,類別集合C={y0=0(安全),y1=1(非安全)};
假設各敏感詞之間相互獨立,根據(jù)貝葉斯概率公式,某條短信里有m個敏感詞,wi∈{w1,w2,…,wm},通過式(Ⅲ)求取其包含的敏感詞在非安全短信和安全的短信里出現(xiàn)的概率的比值,式(Ⅲ)如下所示:
式(Ⅴ)中,P(C=y(tǒng)1|wi)為短信中包含敏感詞wi時此條短信不安全的概率;P(C=y(tǒng)0|wi)為短信中包含敏感詞wi時此條短信不安全的概率;
P(y1),P(y0)為先驗概率;
P(wi|C=y(tǒng)1)是在非安全的短信里包含敏感詞wi的概率;P(wi|C=y(tǒng)0)是在安全的短信里包含敏感詞wi的概率;α為訓練參數(shù),α為1.138;
b、測試過程:測試集包括安全短信和非安全短信,根據(jù)安全短信和非安全短信中包含的敏感詞計算出式(Ⅴ)的概率比值,當這個比值大于或者等于α時,此短信被判為非安全,否則就是安全的。
6.根據(jù)權利要求4所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,不含敏感詞的短信通過RNNs訓練分類,所述RNNs模型包括輸入單元、輸出單元、隱藏單元,輸入單元的輸入集標記為{x0,x1,…xt,xt+1…},輸出單元的輸出集標記為{o0,o1,…ot,ot+1…},隱藏單元標記為{s0,s1,…st,st+1…},st為隱藏單元的第t步的狀態(tài),具體步驟包括:
①通過誤差向后傳播算法訓練,將輸入矩陣N×d×M輸入至RNNs模型,N是指批量處理歷史短信的個數(shù),d是指步驟(2)得到的詞向量的維數(shù),M是指批量處理歷史短信中最長的短信的詞的個數(shù);
②st根據(jù)當前步輸入單元的輸出xt與上一步隱藏單元的狀態(tài)st-1進行計算,如式(Ⅳ)所示:
st=f(Uxt+Wst-1) (Ⅳ)
式(Ⅳ)中,f為非線性的激活函數(shù),s0為0向量,W是指隱藏單元的權重,U是指輸入單元的權重,需要通過訓練網(wǎng)絡得到;
③ot是輸出單元第t步的輸出,計算公式如式(Ⅴ)所示:
ot=softmax(Vst) (Ⅴ)
式(Ⅴ)中,softmax()是指歸一化的激活函數(shù),V是輸出單元的權重,隱藏單元第t步的狀態(tài)st是網(wǎng)絡的記憶單元,包含前面所有步的隱藏單元狀態(tài),輸出單位的輸出ot只與當前步的st有關;
④將步驟(3)的實際輸出ot與預期輸出進行比較,產(chǎn)生誤差;
⑤將步驟(4)得到的誤差通過隱藏單元向輸入單元逐層反傳,修改網(wǎng)絡的權重U,V,W和網(wǎng)絡參數(shù),直到訓練達到預先設定的訓練次數(shù)30-50次停止訓練。
7.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(1),所述去除噪音包括去除短信中的標點符號、剔除字數(shù)小于3的短信;所述中文分詞為使用ANSJ研發(fā)工具進行中文分詞。
8.根據(jù)權利要求6所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟⑤,將步驟(4)得到的誤差通過隱藏單元向輸入單元逐層反傳,修改網(wǎng)絡的權重U,V,W和網(wǎng)絡參數(shù),直到訓練達到預先設定的訓練次數(shù)30次停止訓練。