亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)和方法

文檔序號(hào):6441178閱讀:141來(lái)源:國(guó)知局
專利名稱:一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及反垃圾郵件技術(shù)領(lǐng)域,尤其涉及到在分類器模型構(gòu)建過(guò)程中從未標(biāo)注樣本集智能挑選樣本加入訓(xùn)練,并進(jìn)行垃圾郵件過(guò)濾的系統(tǒng)和方法。
背景技術(shù)
垃圾郵件過(guò)濾是基于文本內(nèi)容的分類和過(guò)濾問(wèn)題,從本質(zhì)上講可歸結(jié)為訓(xùn)練和分類兩個(gè)過(guò)程,即:過(guò)程一:對(duì)大量已標(biāo)注(已知類別標(biāo)注)的樣本進(jìn)行分詞、特征選擇、學(xué)習(xí)、構(gòu)建分類器的訓(xùn)練過(guò)程;過(guò)程二:利用分類器預(yù)測(cè)未知樣本類別的分類過(guò)程。所以,樣本質(zhì)量至關(guān)重要,直接影響分類精度。傳統(tǒng)的被動(dòng)學(xué)習(xí)模式面臨著的樣本選擇問(wèn)題,例如,未標(biāo)注樣本人工標(biāo)注復(fù)雜、不能對(duì)給定樣本有選擇的學(xué)習(xí)等。

發(fā)明內(nèi)容
鑒于以上,本發(fā)明提出一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)和方法。本發(fā)明提出的一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,包括:對(duì)已標(biāo)注類別的樣本集和未標(biāo)注類別的樣本集進(jìn)行初始化;用已標(biāo)注樣本集中的樣本作為訓(xùn)練集訓(xùn)練出初始分類模型;對(duì)于未標(biāo)注樣本集中的每個(gè)未標(biāo)注樣本,用分類模型計(jì)算樣本的不確定度,所述不確定度是樣本屬于類別的不確定程度;從未標(biāo)注類別的樣本中選取不確定度較大的P個(gè)樣本,將未標(biāo)注的P個(gè)樣本進(jìn)行類別標(biāo)注;將標(biāo)注后的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,在最終的訓(xùn)練集上構(gòu)建新的分類模型,所述分類模型用于過(guò)濾郵件,確定郵件是垃圾郵件還是合法郵件。本發(fā)明提出的一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),包括:樣本主動(dòng)選擇模塊,利用分類模型計(jì)算樣本的不確定度,所述不確定度是樣本屬于類別的不確定程度,從未標(biāo)注類別的樣本中選取不確定度較大的P個(gè)樣本作為訓(xùn)練集,輸出到樣本類別管理模塊;樣本類別管理模塊,對(duì)樣本主動(dòng)選擇模塊提交的P個(gè)樣本進(jìn)行類別標(biāo)注;訓(xùn)練集管理模塊,對(duì)訓(xùn)練集的樣本及其類別進(jìn)行保存,將標(biāo)注類別的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,所述訓(xùn)練集只包含有類別標(biāo)注的樣本;訓(xùn)練模塊,在最終的訓(xùn)練集上構(gòu)建新的分類模型,所述分類模型用于過(guò)濾郵件,確定郵件是垃圾郵件還是合法郵件。本發(fā)明提出了 一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)和方法。將主動(dòng)學(xué)習(xí)引入到垃圾郵件過(guò)濾的樣本選擇中,并智能選取對(duì)分類模型性能提升幫助較大的樣本加入訓(xùn)練,從而避免學(xué)習(xí)那些對(duì)分類幫助不大的樣本,提高分類模型精度。


此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1是示出本發(fā)明智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)結(jié)構(gòu)示意圖。圖2是示出本發(fā)明智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法流程圖。
具體實(shí)施例方式郵件過(guò)濾系統(tǒng)中,過(guò)濾器(即分類模型)的準(zhǔn)確率越高,郵件分類準(zhǔn)確度越高。過(guò)濾器是通過(guò)對(duì)給定已知類別的樣本集進(jìn)行學(xué)習(xí)、訓(xùn)練構(gòu)造而來(lái)的,所以樣本的質(zhì)量至關(guān)重要,直接影響郵件過(guò)濾器的精度(郵件過(guò)濾的準(zhǔn)確率)。本發(fā)明的樣本選擇方法,能夠提高郵件過(guò)濾的準(zhǔn)確率,即提高分類器的精度。在垃圾郵件過(guò)濾系統(tǒng)中,本發(fā)明提供了一種智能選擇未標(biāo)注樣本加入分類模型訓(xùn)練的方法和系統(tǒng)。本發(fā)明所涉及的垃圾郵件過(guò)濾系統(tǒng),在傳統(tǒng)的郵件預(yù)處理、分詞、特征選擇、訓(xùn)練模塊、過(guò)濾模塊的基礎(chǔ)上加入了訓(xùn)練集管理模塊、樣本主動(dòng)選擇模塊、樣本類別管理模塊以及反饋模塊,對(duì)于給定的訓(xùn)練集樣本,傳統(tǒng)郵件過(guò)濾器訓(xùn)練時(shí)全盤(pán)接受學(xué)習(xí),而本發(fā)明提出的樣本選擇算法(Uncertainty),挑選高訓(xùn)練效用樣本,丟棄降低訓(xùn)練器性能的噪聲、冗余樣本,從而提高過(guò)濾器精度,即過(guò)濾的準(zhǔn)確率,改善傳統(tǒng)郵件過(guò)濾系統(tǒng)在線學(xué)習(xí)時(shí)容易受噪聲、冗余樣本干擾、人工分類復(fù)雜等問(wèn)題。在樣本主動(dòng)選擇模塊,本發(fā)明提出了一種通過(guò)計(jì)算樣本Uncertainty值選擇樣本的方法。該方法能夠智能的選取uncertainty值大的樣本進(jìn)行學(xué)習(xí)和訓(xùn)練,從而避免標(biāo)注和學(xué)習(xí)那些對(duì)分類器性能提升幫助不大的樣本(如噪聲、冗余樣本),提高訓(xùn)練效率和分類模型精度;并且Uncertainty是一種主動(dòng)學(xué)習(xí)方法,相比被動(dòng)學(xué)習(xí),能學(xué)習(xí)未標(biāo)注樣本,緩解樣本獲取瓶頸問(wèn)題,減小人工標(biāo)注的復(fù)雜度。智能選擇樣本的步驟可以簡(jiǎn)單描述為:1)用當(dāng)前分類模型計(jì)算未標(biāo)注樣本的UC值;2)根據(jù)UC挑選樣本并更新訓(xùn)練集和分類模型;3)輸出最終分類模型。下面將詳細(xì)描述本發(fā)明涉及的智能選擇樣本加入分類模型訓(xùn)練的垃圾郵件過(guò)濾方法和系統(tǒng)。圖1是示出智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)結(jié)構(gòu)示意圖。樣本主動(dòng)選擇模塊(ActiveSelect) 101:通過(guò)最大不確定度算法利用初始分類模型計(jì)算樣本Xi的uncertainty值UC (Xi),選取不確定度較大的P個(gè)樣本,輸出到樣本類別管理模塊102。對(duì)于未選取的樣本進(jìn)行丟棄。樣本主動(dòng)選擇模塊101利用訓(xùn)練模塊105輸出的分類模型,對(duì)于一個(gè)訓(xùn)練周期而言,初始分類模型是固定的。在一個(gè)訓(xùn)練周期結(jié)束后,訓(xùn)練模塊105形成新的分類模型,作為下一個(gè)訓(xùn)練周期的初始分類模型。樣本類別管理模塊(LableMan) 102:對(duì)樣本主動(dòng)選擇模塊101提交的樣本進(jìn)行類別標(biāo)注,可以通過(guò)機(jī)器或者人工進(jìn)行類別標(biāo)注。訓(xùn)練集管理模塊(TrainSetM) 103:對(duì)訓(xùn)練集的樣本及其類別進(jìn)行保存,將樣本類別管理模塊102標(biāo)注后的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,該訓(xùn)練集只包含有類別標(biāo)注的樣本。郵件預(yù)處理模塊、分詞模塊、特征選擇特征表示模塊104:根據(jù)訓(xùn)練集管理模塊103輸出的訓(xùn)練集進(jìn)行郵件預(yù)處理、分詞、特征選擇,根據(jù)測(cè)試集、待過(guò)濾郵件模塊107輸入的測(cè)試集或待過(guò)濾郵件進(jìn)行郵件預(yù)處理、分詞、特征選擇。本發(fā)明對(duì)選好樣本后的郵件預(yù)處理、分詞以及特征選擇操作與現(xiàn)有技術(shù)相同。訓(xùn)練模塊(Train) 105:可選樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、支撐向量機(jī)以及決策樹(shù)等分類器訓(xùn)練方法,根據(jù)訓(xùn)練集,對(duì)郵件預(yù)處理模塊、分詞模塊、特征選擇特征表示模塊104的輸出訓(xùn)練出分類模型。即訓(xùn)練模塊105用已標(biāo)注樣本集中的z個(gè)樣本作為訓(xùn)練集訓(xùn)練出初始分類模型。反饋模塊(FeedBack)IOe:根據(jù)分類結(jié)果調(diào)整參數(shù),輸出到樣本主動(dòng)選擇模塊101。反饋模塊針對(duì)在一段時(shí)間的過(guò)濾過(guò)程中錯(cuò)分的樣本,在下次訓(xùn)練過(guò)濾器時(shí),將分類錯(cuò)誤的樣本重新加入訓(xùn)練集進(jìn)行學(xué)習(xí),反饋模塊僅是二次訓(xùn)練時(shí)起作用。其中,反饋頻率與訓(xùn)練頻率可能不一致,例如,訓(xùn)練經(jīng)過(guò)三個(gè)周期之后,將這三個(gè)周期得到的分類錯(cuò)誤樣本重新加入訓(xùn)練集。此外,重新加入訓(xùn)練集的樣本所占權(quán)重較大。測(cè)試集、待過(guò)濾郵件模塊107:將測(cè)試集以及待過(guò)濾郵件經(jīng)過(guò)郵件預(yù)處理模塊、分詞模塊、特征選擇特征表示模塊104,輸出到過(guò)濾模塊108。過(guò)濾模塊IOS(Filter):對(duì)郵件預(yù)處理模塊、分詞模塊、特征選擇特征表示模塊104輸出的測(cè)試集進(jìn)行測(cè)試以及對(duì)郵件進(jìn)行過(guò)濾。其中,已知測(cè)試集的類別,對(duì)測(cè)試集過(guò)濾后得到新類別,比對(duì)已知類別與新類別是否一致,計(jì)算分類器性能指標(biāo),如精確度、召回率等,輸出分類結(jié)果109。對(duì)于郵件,根據(jù)訓(xùn)練模塊105生成的分類模型對(duì)其進(jìn)行過(guò)濾,判斷是垃圾郵件還是合法郵件,以進(jìn)行郵件分類。過(guò)濾模塊108輸出的分類結(jié)果109可反饋到反饋模塊106。圖2是示出本發(fā)明智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法流程圖。在步驟201:初始化。已標(biāo)注類別的樣本集L (Xi, Yi),初始有z個(gè)樣本。未標(biāo)注類別的樣本集UL(Xi),初始有n個(gè)樣本。大樣本統(tǒng)計(jì)學(xué)中,目前能獲取的樣本如郵件,從互聯(lián)網(wǎng)上大批量獲取的時(shí)候,有些類別已知,有些類別未知,還有一些分界模糊,這正是目前樣本獲取的瓶頸。因?yàn)橛忻鞔_類別標(biāo)注的樣本才能夠拿來(lái)學(xué)習(xí)和訓(xùn)練,而人工標(biāo)注是一件費(fèi)時(shí)費(fèi)力的事情。本發(fā)明將有未標(biāo)注和已標(biāo)注樣本的初始集合變成一個(gè)可供訓(xùn)練的、訓(xùn)練效用高的已標(biāo)注樣本集合。在步驟202:用已標(biāo)注樣本集L中的z個(gè)樣本作為訓(xùn)練集訓(xùn)練出初始分類模型CO。是現(xiàn)有技術(shù)。在步驟203:對(duì)于未標(biāo)注樣本集UL中的每個(gè)未標(biāo)注樣本Xi,用在步驟202計(jì)算的分類模型CO計(jì)算樣本Xi的不確定度UC (Xi)。計(jì)算方法將在下面進(jìn)行說(shuō)明。在步驟204:從未標(biāo)注類別的樣本中選取不確定度UC(Xi)較大的P個(gè)樣本,繼續(xù)執(zhí)行步驟206,P是一個(gè)給定值,不做調(diào)整。對(duì)于沒(méi)有選中的樣本,則轉(zhuǎn)到步驟205:丟棄該樣本。
在步驟206:將未標(biāo)注的P個(gè)樣本Xi進(jìn)行機(jī)器標(biāo)注或人工標(biāo)注。人工標(biāo)注就是指通過(guò)人工查看樣本,給出該樣本的類別值。在步驟207:獲得標(biāo)注類別(Xi, Yi)。例如郵件類別有垃圾郵件類(spam)、合法郵件類(ham)。在步驟208:將標(biāo)注后的樣本(Xi, Yi)作為已標(biāo)注樣本加入到最終的訓(xùn)練集。在最后得到的訓(xùn)練集上構(gòu)建新的分類模型,評(píng)價(jià)其性能參數(shù),該分類模型用于郵件過(guò)濾系統(tǒng)過(guò)濾的流程如下:待過(guò)濾郵件經(jīng)過(guò)郵件預(yù)處理,分詞、特征表示之后,利用過(guò)濾器分類模型構(gòu)建的分類規(guī)則進(jìn)行智能分類,即確定郵件為spam類還是ham類。這是現(xiàn)有技術(shù)。分類模型的性能評(píng)價(jià)參數(shù)是:評(píng)價(jià)垃圾郵件過(guò)濾器的效果通常借用文本分類和信息檢索領(lǐng)域的相關(guān)指標(biāo)。具體的,假設(shè)待測(cè)試郵件集合中共有N封郵件,一個(gè)垃圾郵件過(guò)濾系統(tǒng)的判定結(jié)果如下表1-1所示:表1-1垃圾郵件過(guò)濾系統(tǒng)臨接表
權(quán)利要求
1.一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,包括: 對(duì)已標(biāo)注類別的樣本集和未標(biāo)注類別的樣本集進(jìn)行初始化; 用已標(biāo)注樣本集中的樣本作為訓(xùn)練集訓(xùn)練出初始分類模型; 對(duì)于未標(biāo)注樣本集中的每個(gè)未標(biāo)注樣本,用分類模型計(jì)算樣本的不確定度,所述不確定度是樣本屬于類別的不確定程度; 從未標(biāo)注類別的樣本中選取不確定度較大的P個(gè)樣本,將未標(biāo)注的P個(gè)樣本進(jìn)行類別標(biāo)注; 將標(biāo)注后的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,在最終的訓(xùn)練集上構(gòu)建新的分類模型,所述分類模型用于過(guò)濾郵件,確定郵件是垃圾郵件還是合法郵件。
2.根據(jù)權(quán)利要求1所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,其中,用分類模型計(jì)算樣本的不確定度,包括:
3.根據(jù)權(quán)利要求1或2所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,其中,對(duì)于一個(gè)訓(xùn)練周期而言,初始分類模型是固定的,在一個(gè)訓(xùn)練周期結(jié)束后,形成新的分類模型,作為下一個(gè)訓(xùn)練周期的初始分類模型。
4.根據(jù)權(quán)利要求1或2或3所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,還包括: 對(duì)于一段時(shí)間內(nèi)過(guò)濾過(guò)程中錯(cuò)分的樣本,在下次訓(xùn)練時(shí),將分類錯(cuò)誤的樣本重新加入訓(xùn)練集進(jìn)行學(xué)習(xí)。
5.根據(jù)權(quán)利要求4所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾方法,其中,重新加入訓(xùn)練集的樣本所占權(quán)重較大。
6.一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),包括: 樣本主動(dòng)選擇模塊,利用分類模型計(jì)算樣本的不確定度,所述不確定度是樣本屬于類別的不確定程度,從未標(biāo)注類別的樣本中選取不確定度較大的P個(gè)樣本作為訓(xùn)練集,輸出到樣本類別管理模塊; 樣本類別管理模塊,對(duì)樣本主動(dòng)選擇模塊提交的P個(gè)樣本進(jìn)行類別標(biāo)注; 訓(xùn)練集管理模塊,對(duì)訓(xùn)練集的樣本及其類別進(jìn)行保存,將標(biāo)注類別的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,所述訓(xùn)練集只包含有類別標(biāo)注的樣本; 訓(xùn)練模塊,在最終的訓(xùn)練集上構(gòu)建新的分類模型,所述分類模型用于過(guò)濾郵件,確定郵件是垃圾郵件還是合法郵件。
7.根據(jù)權(quán)利要求6所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),其中,所述不確定度計(jì)算模塊計(jì)算不確定度的公式為:
8.根據(jù)權(quán)利要求6或7所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),其中,對(duì)于一個(gè)訓(xùn)練周期而言,初始分類模型是固定的,在一個(gè)訓(xùn)練周期結(jié)束后,訓(xùn)練模塊形成新的分類模型,作為下一個(gè)訓(xùn)練周期的初始分類模型。
9.根據(jù)權(quán)利要求6或7或8所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),還包括: 反饋模塊,對(duì)在一段時(shí)間的過(guò)濾過(guò)程中錯(cuò)分的樣本,在下次訓(xùn)練時(shí),將分類錯(cuò)誤的樣本返回給樣本主動(dòng)選擇模塊,重新加入訓(xùn)練集進(jìn)行學(xué)習(xí)。
10.根據(jù)權(quán)利要求9所述智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng),其中,重新加入訓(xùn)練集的樣本所占權(quán)重較大。
全文摘要
本發(fā)明提供了一種智能選擇訓(xùn)練樣本的垃圾郵件過(guò)濾系統(tǒng)和方法。對(duì)已標(biāo)注類別的樣本集和未標(biāo)注類別的樣本集進(jìn)行初始化;用已標(biāo)注樣本集中的樣本作為訓(xùn)練集訓(xùn)練出初始分類模型;對(duì)于未標(biāo)注樣本集中的每個(gè)未標(biāo)注樣本,用分類模型計(jì)算樣本的不確定度,所述不確定度是樣本屬于類別的不確定程度;從未標(biāo)注類別的樣本中選取不確定度較大的P個(gè)樣本,將未標(biāo)注的P個(gè)樣本進(jìn)行類別標(biāo)注;將標(biāo)注后的樣本作為已標(biāo)注樣本加入到最終的訓(xùn)練集,在最終的訓(xùn)練集上構(gòu)建新的分類模型,所述分類模型用于過(guò)濾郵件,確定郵件是垃圾郵件還是合法郵件。本發(fā)明避免學(xué)習(xí)那些對(duì)分類幫助不大的樣本,提高分類模型精度。
文檔編號(hào)G06F17/30GK103166830SQ201110416429
公開(kāi)日2013年6月19日 申請(qǐng)日期2011年12月14日 優(yōu)先權(quán)日2011年12月14日
發(fā)明者呂娣 申請(qǐng)人:中國(guó)電信股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1