技術(shù)總結(jié)
本發(fā)明公開了一種基于郵件內(nèi)容的多層次郵件分類方法,針對樣本的不平衡性對郵件分類的效果有重大影響的問題,采用構(gòu)建三級分類器的方式:在第一級分類器的構(gòu)建上采用樸素貝葉斯算法、支持向量機和C4.5算法組合投票的方式,在第二級分類器的構(gòu)建上采用隨機森林算法,在第三級分類器的構(gòu)建上采用liblinear算法。本發(fā)明在分類器的設(shè)計上,采用了多級分類的方式,增加了算法的層次性,通過層層過濾,在保證召回率的情況下,逐步提高了分類器的準(zhǔn)確率,使得正負(fù)樣本的平衡性不斷增加,從而在最后一級上實現(xiàn)郵件數(shù)據(jù)的基本平衡,使得最終的分類效果受樣本不平衡性的影響較小,在郵件分類中取得了較好的效果。
技術(shù)研發(fā)人員:盛泳潘;張艷;趙鵬;謝盈;王璐
受保護(hù)的技術(shù)使用者:電子科技大學(xué)
文檔號碼:201610793018
技術(shù)研發(fā)日:2016.08.31
技術(shù)公布日:2017.02.22