亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于郵件內(nèi)容的多層次郵件分類方法與流程

文檔序號(hào):12278389閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,包括以下步驟:

S1、對(duì)原始郵件數(shù)據(jù)集進(jìn)行預(yù)處理,生成新的郵件數(shù)據(jù)集Email-Matrix-SVD;

S2、采用樸素貝葉斯算法、支持向量機(jī)和C4.5算法組合投票,構(gòu)建第一級(jí)分類器,對(duì)郵件數(shù)據(jù)集Email-Matrix-SVD進(jìn)行第一級(jí)過(guò)濾,得到重要、不重要以及不確定三個(gè)標(biāo)簽的郵件數(shù)據(jù)集;

S3、采用隨機(jī)森林算法構(gòu)建第二級(jí)分類器,對(duì)第一級(jí)過(guò)濾后不確定標(biāo)簽的郵件數(shù)據(jù)集進(jìn)行第二級(jí)過(guò)濾,得到重要、不重要以及不確定三個(gè)標(biāo)簽的郵件數(shù)據(jù)集;

S4、采用liblinear算法構(gòu)建第三級(jí)分類器,對(duì)第二級(jí)過(guò)濾后不確定標(biāo)簽的郵件數(shù)據(jù)集進(jìn)行第三級(jí)過(guò)濾,得到重要、不重要兩個(gè)標(biāo)簽的郵件數(shù)據(jù)集。

2.根據(jù)權(quán)利要求1所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S1具體包括以下分步驟:

S11、郵件解析:通過(guò)分析郵件格式,對(duì)原始郵件數(shù)據(jù)集中的郵件內(nèi)容、主題、發(fā)件人地址、發(fā)件時(shí)間、收件人地址以及附件信息進(jìn)行提取,存儲(chǔ)提取結(jié)果,生成郵件數(shù)據(jù)集EmailDatas;

S12、生成郵件空間向量模型:對(duì)郵件數(shù)據(jù)集EmailDatas中郵件的內(nèi)容和主題進(jìn)行分詞,并進(jìn)行詞根提取、詞性標(biāo)注和停用詞過(guò)濾,然后通過(guò)位置和詞性tf-idf計(jì)算單詞權(quán)重,之后通過(guò)卡方檢驗(yàn)對(duì)單詞進(jìn)行初步篩選,生成郵件空間向量模型Email-Matrix;

S13、郵件去重:通過(guò)相似度計(jì)算對(duì)郵件空間向量模型Email-Matrix中的郵件進(jìn)行去重處理;

S14、數(shù)據(jù)采樣:采用過(guò)采樣和欠采樣結(jié)合的方法對(duì)郵件空間向量模型Email-Matrix進(jìn)行采樣,降低郵件空間向量模型Email-Matrix的不平衡程度;

S15、數(shù)據(jù)降維:采用改進(jìn)后的SVD降維算法對(duì)郵件空間向量模型Email-Matrix進(jìn)行降維處理,生成郵件數(shù)據(jù)集Email-Matrix-SVD。

3.根據(jù)權(quán)利要求2所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S15具體包括以下分步驟:

S151、對(duì)郵件空間向量模型Email-Matrix的列向量進(jìn)行特征空間聚類;

S152、根據(jù)步驟S151的聚類結(jié)果,把郵件數(shù)據(jù)在特征維度上分割成m個(gè)郵件數(shù)據(jù)集Email-Matrixi,i=1,2,…,m;

S153、對(duì)m個(gè)郵件數(shù)據(jù)集Email-Matrixi調(diào)用原始SVD算法進(jìn)行數(shù)據(jù)降維,得到m個(gè)新的郵件數(shù)據(jù)集Email-Matrix-SVDi,i=1,2,…,m;

S154、將m個(gè)新的郵件數(shù)據(jù)集Email-Matrix-SVDi合并成一個(gè)新的郵件數(shù)據(jù)集Email-Matrix-SVD-tmp,再進(jìn)行一次SVD降維得到郵件數(shù)據(jù)集Email-Matrix-SVD。

4.根據(jù)權(quán)利要求1所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S2具體為:

從郵件數(shù)據(jù)集Email-Matrix-SVD中抽取ClassNum_first個(gè)數(shù)據(jù)集作為訓(xùn)練集,令M=ClassNum_first/3,對(duì)M個(gè)訓(xùn)練集進(jìn)行樸素貝葉斯算法訓(xùn)練,M個(gè)訓(xùn)練集進(jìn)行支持向量機(jī)算法訓(xùn)練,另外M個(gè)訓(xùn)練集進(jìn)行C4.5算法訓(xùn)練,之后通過(guò)三種算法的投票結(jié)果得到重要、不重要以及不確定三個(gè)標(biāo)簽的郵件數(shù)據(jù)集。

5.根據(jù)權(quán)利要求4所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述樸素貝葉斯算法的具體步驟如下:

A1、根據(jù)公式(1)計(jì)算訓(xùn)練集中重要郵件的先驗(yàn)概率P(im):

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>i</mi> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> <mo>+</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式中im_NUM表示訓(xùn)練集中重要郵件的數(shù)量,unim_NUM表示訓(xùn)練集中不重要郵件的數(shù)量,k為特征維度,wij為郵件空間向量模型Email-Matrix的權(quán)值;

A2、根據(jù)公式(2)計(jì)算訓(xùn)練集中不重要郵件的先驗(yàn)概率P(unim):

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> <mo>+</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> <mo>+</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

A3、根據(jù)公式(3)(4)分別計(jì)算重要郵件的條件概率P(tj|im)和不重要郵件的條件概率P(tj|unim):

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>i</mi> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>k</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> <mo>+</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <msub> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> <mo>+</mo> <mi>u</mi> <mi>n</mi> <mi>i</mi> <mi>m</mi> <mo>_</mo> <mi>N</mi> <mi>U</mi> <mi>M</mi> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>k</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

A4、保存步驟A1-A3計(jì)算得到的各個(gè)概率,生成樸素貝葉斯分類模型;

A5、計(jì)算得到郵件樣本屬于重要郵件的概率和郵件樣本屬于不重要郵件的概率的比值φ;

A6、設(shè)定兩個(gè)閾值nbc_im和nbc_unim,對(duì)郵件樣本的最終標(biāo)簽進(jìn)行判定:

若φ≥nbc_im,則郵件樣本判定為重要郵件;

若φ≤nbc_unim,則郵件樣本判定為不重要郵件;

若nbc_unim<φ<nbc_im,則郵件樣本判定為不確定郵件。

6.根據(jù)權(quán)利要求4所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述支持向量機(jī)算法的具體步驟如下:

B1、分別設(shè)置支持向量機(jī)的核函數(shù)、懲罰系數(shù)以及類別權(quán)重;

B2、生成分類超平面函數(shù);

B3、計(jì)算支持向量機(jī)的判別函數(shù):

y=wx+b (5)

式中w為分類超平面向量,b為常數(shù);

B4、設(shè)定兩個(gè)閾值svm_im和svm_unim,對(duì)郵件樣本的最終標(biāo)簽進(jìn)行判定:

若y≥svm_im,則郵件樣本判定為重要郵件;

若y≤svm_unim,則郵件樣本判定為不重要郵件;

若svm_unim<y<svm_im,則郵件樣本判定為不確定郵件。

7.根據(jù)權(quán)利要求4所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述C4.5算法的具體步驟如下:

C1、對(duì)特征值進(jìn)行離散化;

C2、特征選擇,選取信息增益比最大的特征;

C3、決策樹(shù)生長(zhǎng),利用信息增益比最大的特征對(duì)訓(xùn)練集樣本進(jìn)行分支;

C4、判斷生成的新葉子節(jié)點(diǎn)是否符合停止條件,若是則進(jìn)入步驟C5,否則返回步驟C2;

C5、判斷是否所有的葉子節(jié)點(diǎn)都符合停止條件,若是則進(jìn)入步驟C6,否則返回步驟C2;

C6、完成決策樹(shù)訓(xùn)練,將每一個(gè)葉子節(jié)點(diǎn)的郵件樣本判定為該葉子節(jié)點(diǎn)對(duì)應(yīng)的郵件類別,即重要郵件、不重要郵件或不確定郵件;

C7、對(duì)決策樹(shù)模型進(jìn)行剪枝;

C8、計(jì)算每個(gè)葉子節(jié)點(diǎn)的純度purity:

<mrow> <mi>p</mi> <mi>u</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <mfrac> <msub> <mi>N</mi> <mi>c</mi> </msub> <mi>N</mi> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

式中N表示該葉子節(jié)點(diǎn)的總郵件數(shù),Nc表示與該葉子節(jié)點(diǎn)類別相同的郵件數(shù);

C9、設(shè)置置信度dtc_value,若purity>dtc_value,則該葉子節(jié)點(diǎn)對(duì)應(yīng)的郵件類別是可信的,否則該葉子節(jié)點(diǎn)對(duì)應(yīng)的郵件類別是待定的,將其劃分為不確定郵件。

8.根據(jù)權(quán)利要求1所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S3具體包括以下分步驟:

S31、對(duì)第一級(jí)過(guò)濾后不確定標(biāo)簽的郵件數(shù)據(jù)集進(jìn)行隨機(jī)森林抽樣,生成訓(xùn)練集RFDatas;

S32、對(duì)訓(xùn)練集RFDatas的屬性進(jìn)行隨機(jī)抽取;

S33、根據(jù)信息增益率選取特征;

S34、決策樹(shù)生長(zhǎng),對(duì)訓(xùn)練集RFDatas中的郵件樣本進(jìn)行分支;

S35、判斷新節(jié)點(diǎn)的郵件樣本是否純凈,若是則進(jìn)入步驟S36,否則返回步驟S33;

S36、判斷是否所有郵件樣本都正確分類,若是則進(jìn)入步驟S38,否則進(jìn)入步驟S37;

S37、判斷決策樹(shù)的屬性是否用完,若是則進(jìn)入步驟S38,否則返回步驟S33;

S38、將所有決策樹(shù)的輸出結(jié)果進(jìn)行投票,根據(jù)投票結(jié)果對(duì)郵件樣本的最終標(biāo)簽進(jìn)行判定:

則郵件樣本判定為重要郵件;

則郵件樣本判定為不重要郵件;

則郵件樣本判定為不確定郵件;式中y為決策樹(shù)輸出結(jié)果,RF_NUM為隨機(jī)森林中決策樹(shù)的數(shù)量,imp_Value_Second與unimp_Value_Second為設(shè)定的閾值。

9.根據(jù)權(quán)利要求8所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S31具體包括以下分步驟:

S311、設(shè)隨機(jī)森林的決策樹(shù)數(shù)量為RF_NUM,每一棵決策樹(shù)的郵件數(shù)量為RF_Email_Num,在抽樣中重要郵件所占的數(shù)量為RF_imEmail_Num;

S312、根據(jù)第一級(jí)過(guò)濾后的郵件數(shù)據(jù)集的標(biāo)簽,生成兩個(gè)新的郵件數(shù)據(jù)集IMEmails_Second和UNIMEmails_Second,分別表示所有的重要郵件和不重要郵件;

S313、對(duì)于重要郵件數(shù)據(jù)集進(jìn)行有放回的RF_imEmail_Num次抽樣,獲取RF_imEmail_Num個(gè)重要郵件樣本;

S314、在第一級(jí)過(guò)濾后的所有郵件數(shù)據(jù)集中有放回地隨機(jī)抽取RF_Email_Num-RF_imEmail_Num個(gè)郵件樣本,與步驟S313中抽取的重要郵件樣本結(jié)合,生成訓(xùn)練集RFDatas。

10.根據(jù)權(quán)利要求1所述的基于郵件內(nèi)容的多層次郵件分類方法,其特征在于,所述步驟S4具體包括以下分步驟:

S41、設(shè)定liblinear算法的參數(shù)、懲罰系數(shù)和權(quán)重;

S42、通過(guò)轉(zhuǎn)化對(duì)對(duì)偶問(wèn)題進(jìn)行求解;

S43、生成liblinear分類平面,對(duì)第二級(jí)過(guò)濾后不確定標(biāo)簽的郵件數(shù)據(jù)集進(jìn)行分類,得到重要、不重要兩個(gè)標(biāo)簽的郵件數(shù)據(jù)集。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1