亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種垃圾郵件識別方法及裝置與流程

文檔序號:12131884閱讀:來源:國知局

技術特征:

1.一種垃圾郵件識別方法,其特征在于,所述方法包括:

提取待識別郵件中的文本,并將所述文本以詞為單位進行分割,得到詞序列;

根據(jù)預先獲取的詞與特征向量的對應關系,將所述詞序列中的詞轉換為與所述詞具有對應關系的特征向量,得到向量序列,所述向量序列中包括分別與所述詞序列中各個詞具有對應關系的特征向量;

將所述向量序列中的特征向量以預設標準進行分組后,得到若干向量組;

將所述向量組作為分類器的輸入參數(shù),以使所述分類器結合上下文相關性對所述待識別郵件進行分類,得到分類結果,所述分類結果用于確定所述待識別郵件是否屬于垃圾郵件。

2.根據(jù)權利要求1所述的垃圾郵件識別方法,其特征在于,所述將所述向量序列中的特征向量以預設標準進行分組后,得到若干向量組,包括:

以句子或段落為標準,對所述向量序列中的特征向量進行分組后,得到若干向量組。

3.根據(jù)權利要求2所述的垃圾郵件識別方法,其特征在于,所述分類器采用卷積神經網絡構成;

所述將所述向量組作為分類器的輸入參數(shù),以使所述分類器結合上下文相關性對所述待識別郵件進行分類,得到分類結果,所述分類結果用于確定所述待識別郵件是否屬于垃圾郵件,包括:

將所述向量組中的特征向量作為所述分類器的第一層卷積神經網絡的輸入參數(shù),得到所述向量組對應的特征向量,其中,所述向量組對應的特征向量用于表示句子或段落的語義;

將所述向量組對應的特征向量作為所述分類器的第二層卷積神經網絡的輸入參數(shù),得到所述待識別郵件中的文本的特征向量,其中,所述待識別郵件中的文本的特征向量用于表示結合上下文相關性后的所述文本的語義;

將所述待識別郵件中的文本的特征向量作為所述分類器的全連接層的輸入參數(shù),經過所述全連接層的分類處理后,得到分類結果,所述分類結果用于確定所述待識別郵件是否屬于垃圾郵件。

4.根據(jù)權利要求3所述的垃圾郵件識別方法,其特征在于,所述分類器的第一層卷積神經網絡包括N個卷積核,N為自然數(shù);

將所述向量組中的特征向量作為所述分類器的第一層卷積神經網絡的輸入參數(shù),得到所述向量組對應的特征向量,其中,所述向量組對應的特征向量用于表示句子或段落的語義,包括:

利用一維卷積運算,得到所述向量組在每個卷積核的卷積層輸出結果,所述卷積層輸出結果包括依次以所述向量組中各個特征向量作為卷積運算起始值,分別與所述卷積核進行卷積運算的輸出結果;

分別獲取所述向量組在每個卷積核的卷積層輸出結果中的最大值;

將所述向量組在每個卷積核的卷積層輸出結果中的最大值進行組合,得到所述向量組對應的特征向量。

5.根據(jù)權利要求1-4中的任一項所述的垃圾郵件識別方法,其特征在于,所述根據(jù)預先獲取的詞與特征向量的對應關系,將所述詞序列中的詞轉換為與所述詞具有對應關系的特征向量,得到向量序列之前,還包括:

將所述詞序列中預設類型的詞替換為預設標簽;

預先為所述標簽構建特征向量,并獲取所述標簽與所述特征向量的對應關系;

相應的,所述根據(jù)預先獲取的詞與特征向量的對應關系,將所述詞序列中的詞轉換為與所述詞具有對應關系的特征向量,得到向量序列,包括:

根據(jù)預先獲取的詞與特征向量的對應關系,將所述詞序列中的詞轉換為與所述詞具有對應關系的特征向量;以及,根據(jù)所述標簽與所述特征向量的對應關系,將所述詞序列中的標簽轉換為與所述標簽具有對應關系的特征向量,得到向量序列。

6.根據(jù)權利要求5所述的垃圾郵件識別方法,其特征在于,所述預先為所述標簽構建特征向量,包括:

隨機生成特征向量,并判斷所述特征向量與所述詞與特征向量的對應關系中各個特征向量之間的歐式距離是否小于預設常數(shù);

當所述特征向量與所述各個特征向量之間的歐式距離小于預設常數(shù)時,將所述特征向量分配給標簽。

7.一種垃圾郵件識別裝置,其特征在于,所述裝置包括:

分割模塊,用于提取待識別郵件中的文本,并將所述文本以詞為單位進行分割,得到詞序列;

轉換模塊,用于根據(jù)預先獲取的詞與特征向量的對應關系,將所述詞序列中的詞轉換為與所述詞具有對應關系的特征向量,得到向量序列,所述向量序列中包括分別與所述詞序列中各個詞具有對應關系的特征向量;

分組模塊,用于將所述向量序列中的特征向量以預設標準進行分組后,得到若干向量組;

分類模塊,用于將所述向量組作為分類器的輸入參數(shù),以使所述分類器結合上下文相關性對所述待識別郵件進行分類,得到分類結果,所述分類結果用于確定所述待識別郵件是否屬于垃圾郵件。

8.根據(jù)權利要求7所述的垃圾郵件識別裝置,其特征在于,所述分組模塊,具體用于:

以句子或段落為標準,對所述向量序列中的特征向量進行分組后,得到若干向量組。

9.根據(jù)權利要求8所述的垃圾郵件識別裝置,其特征在于,所述分類器采用卷積神經網絡構成;所述分類模塊,包括:

第一分類子模塊,用于將所述向量組中的特征向量作為所述分類器的第一層卷積神經網絡的輸入參數(shù),得到所述向量組對應的特征向量,其中,所述向量組對應的特征向量用于表示句子或段落的語義;

第二分類子模塊,用于將所述向量組對應的特征向量作為所述分類器的第二層卷積神經網絡的輸入參數(shù),得到所述待識別郵件中的文本的特征向量,其中,所述待識別郵件中的文本的特征向量用于表示結合上下文相關性后的所述文本的語義;

第三分類子模塊,用于將所述待識別郵件中的文本的特征向量作為所述分類器的全連接層的輸入參數(shù),經過所述全連接層的分類處理后,得到分類結果,所述分類結果用于確定所述待識別郵件是否屬于垃圾郵件。

10.根據(jù)權利要求9所述的垃圾郵件識別裝置,其特征在于,所述分類器的第一層卷積神經網絡包括N個卷積核,N為自然數(shù);

所述第一分類子模塊,包括:

卷積運算子模塊,用于利用一維卷積運算,得到所述向量組在每個卷積核的卷積層輸出結果,所述卷積層輸出結果包括依次以所述向量組中各個特征向量作為卷積運算起始值,分別與所述卷積核進行卷積運算的輸出結果;

獲取子模塊,用于分別獲取所述向量組在每個卷積核的卷積層輸出結果中的最大值;

組合子模塊,用于將所述向量組在每個卷積核的卷積層輸出結果中的最大值進行組合,得到所述向量組對應的特征向量。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1