亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于RNNs的短信自動安全審核的方法與流程

文檔序號:11918842閱讀:來源:國知局

技術特征:

1.一種基于RNNs的短信自動安全審核的方法,其特征在于,具體步驟包括:

(1)對歷史短信數(shù)據(jù)進行預處理,預處理包括去除噪音、中文分詞;

(2)對步驟(1)預處理后的歷史短信數(shù)據(jù)提取特征,生成詞向量;

(3)用RNNs與樸素貝葉斯相集成的分類模型實時對短信文本進行分類。

2.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(2),基于Hierarchical Softmax的CBOW模型提取特征,具體包括:最大化基于Hierarchical Softmax的CBOW模型的優(yōu)化函數(shù),訓練得到每個中文分詞的詞向量;基于Hierarchical Softmax的CBOW模型的優(yōu)化函數(shù)如式(Ⅰ)所示:

<mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>&Element;</mo> <mi>C</mi> </mrow> </munder> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>|</mo> <mi>C</mi> <mi>o</mi> <mi>n</mi> <mi>t</mi> <mi>e</mi> <mi>x</mi> <mi>t</mi> <mo>(</mo> <mi>w</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

C為語料庫,w是指步驟(1)中文分詞后得到的任意詞;Context(w)是w的上下文。

3.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(2),通過GloVe模型生成詞向量,具體包括:最小化式(Ⅱ),所述式(Ⅱ)如下所示:

<mrow> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>V</mi> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&NotEqual;</mo> <mn>0</mn> </mrow> </munder> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mo>-</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>+</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅱ)中,矩陣第i行第j列的值為詞vi與詞vj在與語料庫中的出現(xiàn)次數(shù)xij的對數(shù);pi為詞vi作為目標詞時的詞向量,一句話中中間的詞作為目標詞;qi為詞vj作為上下文時的詞向量,目標詞左右的詞為其上下文,b(1)、b(2)為針對詞表中各詞的偏移向量,語料庫中不重復的詞組成了詞表,f(x)是一個加權函數(shù),f(x)的定義為:當x<xmax時,f(x)=(x/xmax)α;否則,f(x)=1;xmax是指兩個詞共同出現(xiàn)的最大次數(shù),GloVe模型中xmax的取值為100。

4.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(3),將含有的敏感詞的短信通過樸素貝葉斯訓練分類,不含敏感詞的短信通過RNNs訓練分類;敏感詞包括{w1,w2,…,wn},所述敏感詞是指根據(jù)監(jiān)獄規(guī)定人工提取的敏感詞。

5.根據(jù)權利要求4所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,將含有的敏感詞的短信通過樸素貝葉斯訓練分類,具體步驟包括:

a、訓練過程:敏感詞{w1,w2,…,wn}作為樸素貝葉斯x的特征屬性,即a1:{w1,w2,…,wn},a1為敏感詞{w1,w2,…,wn}組成的集合,類別集合C={y0=0(安全),y1=1(非安全)};

假設各敏感詞之間相互獨立,根據(jù)貝葉斯概率公式,某條短信里有m個敏感詞,wi∈{w1,w2,…,wm},通過式(Ⅲ)求取其包含的敏感詞在非安全短信和安全的短信里出現(xiàn)的概率的比值,式(Ⅲ)如下所示:

<mrow> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>|</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> <munderover> <mo>&Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>C</mi> <mo>=</mo> <msub> <mi>y</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>=</mo> <mi>&alpha;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅴ)中,P(C=y(tǒng)1|wi)為短信中包含敏感詞wi時此條短信不安全的概率;P(C=y(tǒng)0|wi)為短信中包含敏感詞wi時此條短信不安全的概率;

P(y1),P(y0)為先驗概率;

P(wi|C=y(tǒng)1)是在非安全的短信里包含敏感詞wi的概率;P(wi|C=y(tǒng)0)是在安全的短信里包含敏感詞wi的概率;α為訓練參數(shù),α為1.138;

b、測試過程:測試集包括安全短信和非安全短信,根據(jù)安全短信和非安全短信中包含的敏感詞計算出式(Ⅴ)的概率比值,當這個比值大于或者等于α時,此短信被判為非安全,否則就是安全的。

6.根據(jù)權利要求4所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,不含敏感詞的短信通過RNNs訓練分類,所述RNNs模型包括輸入單元、輸出單元、隱藏單元,輸入單元的輸入集標記為{x0,x1,…xt,xt+1…},輸出單元的輸出集標記為{o0,o1,…ot,ot+1…},隱藏單元標記為{s0,s1,…st,st+1…},st為隱藏單元的第t步的狀態(tài),具體步驟包括:

①通過誤差向后傳播算法訓練,將輸入矩陣N×d×M輸入至RNNs模型,N是指批量處理歷史短信的個數(shù),d是指步驟(2)得到的詞向量的維數(shù),M是指批量處理歷史短信中最長的短信的詞的個數(shù);

②st根據(jù)當前步輸入單元的輸出xt與上一步隱藏單元的狀態(tài)st-1進行計算,如式(Ⅳ)所示:

st=f(Uxt+Wst-1) (Ⅳ)

式(Ⅳ)中,f為非線性的激活函數(shù),s0為0向量,W是指隱藏單元的權重,U是指輸入單元的權重,需要通過訓練網(wǎng)絡得到;

③ot是輸出單元第t步的輸出,計算公式如式(Ⅴ)所示:

ot=softmax(Vst) (Ⅴ)

式(Ⅴ)中,softmax()是指歸一化的激活函數(shù),V是輸出單元的權重,隱藏單元第t步的狀態(tài)st是網(wǎng)絡的記憶單元,包含前面所有步的隱藏單元狀態(tài),輸出單位的輸出ot只與當前步的st有關;

④將步驟(3)的實際輸出ot與預期輸出進行比較,產(chǎn)生誤差;

⑤將步驟(4)得到的誤差通過隱藏單元向輸入單元逐層反傳,修改網(wǎng)絡的權重U,V,W和網(wǎng)絡參數(shù),直到訓練達到預先設定的訓練次數(shù)30-50次停止訓練。

7.根據(jù)權利要求1所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟(1),所述去除噪音包括去除短信中的標點符號、剔除字數(shù)小于3的短信;所述中文分詞為使用ANSJ研發(fā)工具進行中文分詞。

8.根據(jù)權利要求6所述的一種基于RNNs的短信自動安全審核的方法,其特征在于,所述步驟⑤,將步驟(4)得到的誤差通過隱藏單元向輸入單元逐層反傳,修改網(wǎng)絡的權重U,V,W和網(wǎng)絡參數(shù),直到訓練達到預先設定的訓練次數(shù)30次停止訓練。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1