技術(shù)總結(jié)
本發(fā)明公開(kāi)一種垃圾郵件識(shí)別方法及裝置,所述方法包括:提取待識(shí)別郵件中的文本,并將所述文本以詞為單位進(jìn)行分割,得到詞序列;根據(jù)預(yù)先獲取的詞與特征向量的對(duì)應(yīng)關(guān)系,將所述詞序列中的詞轉(zhuǎn)換為與所述詞具有對(duì)應(yīng)關(guān)系的特征向量,得到向量序列,所述向量序列中包括分別與所述詞序列中各個(gè)詞具有對(duì)應(yīng)關(guān)系的特征向量。將所述向量序列中的特征向量以預(yù)設(shè)標(biāo)準(zhǔn)進(jìn)行分組后,得到若干向量組。將所述向量組作為分類(lèi)器的輸入?yún)?shù),以使所述分類(lèi)器結(jié)合上下文相關(guān)性對(duì)所述待識(shí)別郵件進(jìn)行分類(lèi),得到分類(lèi)結(jié)果,所述分類(lèi)結(jié)果用于確定所述待識(shí)別郵件是否屬于垃圾郵件。本發(fā)明結(jié)合了上下文相關(guān)性對(duì)郵件識(shí)別的影響,提高了垃圾郵件識(shí)別的準(zhǔn)確性。
技術(shù)研發(fā)人員:杜強(qiáng)
受保護(hù)的技術(shù)使用者:東軟集團(tuán)股份有限公司
文檔號(hào)碼:201610888007
技術(shù)研發(fā)日:2016.10.11
技術(shù)公布日:2017.03.15