專利名稱:一種優(yōu)化lam%的信息分類閾值的設(shè)定方法及使用該方法的信息過(guò)濾系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到一種信息過(guò)濾方法及該方法中的閾值設(shè)定方法,具體涉及到垃圾郵 件、短信過(guò)濾等信息過(guò)濾方法,即該方法中的分類閾值設(shè)定方法。
背景技術(shù):
隨著信息技術(shù)的迅猛發(fā)展,電子郵件、手機(jī)短信已經(jīng)成為人們?nèi)粘9ぷ骱蜕钪?進(jìn)行通訊和交流的主要手段,有效地促進(jìn)了人類社會(huì)的生產(chǎn)和進(jìn)步。但是,伴隨而來(lái)的大 量垃圾郵件和垃圾短信嚴(yán)重影響了它們的的正常使用。2008年三季度中國(guó)網(wǎng)民平均每周 收到垃圾郵件的數(shù)量為17. 86封,與去年同期相比增加1. 17封,增幅為7. 0% ;收到垃圾郵 件所占的比例為57. 89%,與去年同比上升了 2. 04個(gè)百分點(diǎn),全球的平均水平更是高于上 述數(shù)據(jù)(“2008年第三季度中國(guó)反垃圾郵件調(diào)查報(bào)告”http://WWW. 12321. cn/viewnews. php id=10752)。而垃圾短信的數(shù)量更是驚人,央視2008年“315晚會(huì)”曝光垃圾短信制造 內(nèi)幕,垃圾短信每天發(fā)送數(shù)億條。這些垃圾信息危害社會(huì),浪費(fèi)了用戶的時(shí)間、精力和金錢, 損害了用戶的利益。少數(shù)別有用心者利用垃圾郵件、垃圾短信散播各種虛假信息或有害信 息,嚴(yán)重危害了社會(huì)的穩(wěn)定。如何有效地進(jìn)行這些垃圾信息進(jìn)行有效過(guò)濾是當(dāng)前迫切需要 解決的問(wèn)題。垃圾郵件過(guò)濾和垃圾短信過(guò)濾都是典型的信息過(guò)濾系統(tǒng),基于內(nèi)容的過(guò)濾系統(tǒng)采 用了相同或相似的技術(shù)手段。為了解決信息過(guò)濾問(wèn)題,人們提出了許多解決方案,其中過(guò)濾技術(shù)具有自動(dòng)化程 度高、準(zhǔn)確度高、易被使用者接受的優(yōu)點(diǎn),具備研究?jī)r(jià)值和發(fā)展空間,逐漸成為研究的熱點(diǎn)。 為了檢驗(yàn)各種過(guò)濾技術(shù)在實(shí)際垃圾郵件過(guò)濾中的有效性,國(guó)內(nèi)外舉辦了高水平的會(huì)議和 評(píng)測(cè)。著名的國(guó)際文本信息檢索評(píng)測(cè)TREC (Text Retrieval Conference)會(huì)議于2005 年開始舉辦垃圾郵件過(guò)濾評(píng)測(cè)子任務(wù),并在2006年進(jìn)行了中文垃圾郵件過(guò)濾評(píng)測(cè)。CEAS (Conference on Email and Anti-Spam)于2007年開始進(jìn)行專門針對(duì)垃圾郵件過(guò)濾問(wèn)題 的評(píng)測(cè)。國(guó)內(nèi)的全國(guó)搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì)(SEWM,Search Engine and Web Mining)于2007年首次增加了垃圾郵件過(guò)濾評(píng)測(cè)項(xiàng)目。這些會(huì)議和評(píng)測(cè)極大地推動(dòng)了過(guò)濾 技術(shù)的發(fā)展,完善了過(guò)濾技術(shù)的評(píng)價(jià)體系,積累了豐富的實(shí)驗(yàn)數(shù)據(jù)。當(dāng)前,典型的垃圾郵件過(guò)濾技術(shù)包括黑白名單技術(shù)、基于規(guī)則和模式匹配的過(guò) 濾技術(shù)和基于機(jī)器學(xué)習(xí)方法的過(guò)濾技術(shù)。黑白名單技術(shù)是一種簡(jiǎn)單、有效、最為常用的過(guò) 濾方法,其通過(guò)IP地址進(jìn)行過(guò)濾,還可以通過(guò)收件人的地址列表進(jìn)行過(guò)濾。其優(yōu)點(diǎn)是處理 速度快,可以在網(wǎng)關(guān)上進(jìn)行配置,能夠節(jié)省大量的網(wǎng)絡(luò)帶寬、存儲(chǔ)容量和處理時(shí)間;缺點(diǎn)是 約束過(guò)強(qiáng)、不夠靈活,對(duì)垃圾郵件的判別準(zhǔn)確度不高?;谝?guī)則和模式匹配的過(guò)濾技術(shù)也是 一種常用的過(guò)濾方法,其設(shè)置一系列的過(guò)濾規(guī)則,并通過(guò)查找已有的垃圾郵件的匹配模式 進(jìn)行過(guò)濾。規(guī)則可以通過(guò)人的經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)相結(jié)合的方式獲得,其優(yōu)點(diǎn)是規(guī)則處理的目 的性很強(qiáng),規(guī)則本身比較容易理解和修改,并具備一定的模糊匹配的性能;缺點(diǎn)是規(guī)則數(shù)量
4,規(guī)則之間存在沖突帶來(lái)了規(guī)則沖突解決和規(guī)則維護(hù)的問(wèn) 題?;跈C(jī)器學(xué)習(xí)方法的過(guò)濾技術(shù)對(duì)電子郵件的內(nèi)容(如標(biāo)題、發(fā)件人、發(fā)送時(shí)間、正文文本 等)進(jìn)行分析,在機(jī)器學(xué)習(xí)的模型建模和參數(shù)優(yōu)化理論的基礎(chǔ)上,通過(guò)對(duì)樣本的學(xué)習(xí)來(lái)訓(xùn)練 過(guò)濾器,并利用經(jīng)過(guò)訓(xùn)練的過(guò)濾器識(shí)別出垃圾郵件。由于其正確率高、成本低,機(jī)器學(xué)習(xí)技 術(shù)逐漸成為解決垃圾郵件過(guò)濾問(wèn)題的主流方法。垃圾郵件過(guò)濾的目的是將郵件區(qū)分為兩種形式垃圾郵件(Spam)或正常郵件 (Ham),所以將其轉(zhuǎn)化成二值分類問(wèn)題是一種很自然的基于觀察的問(wèn)題分析和建模方法。在 此基礎(chǔ)上,研究采用的分類算法從模型原理上可以分為兩種以樸素貝葉斯模型為代表的 生成模型,以支持向量機(jī)模型(Support Vector Machine, SVM)和最大熵模型(Maximum Entropy, ME)為代表的判別學(xué)習(xí)模型?;谏赡P偷倪^(guò)濾系統(tǒng)中,著名Bogo系統(tǒng)依據(jù) 樸素貝葉斯模型構(gòu)建,其在TREC評(píng)測(cè)中作為基準(zhǔn)(Baseline)系統(tǒng)。近年來(lái),CTW (Context tree weight)和PPM (Prediction by Partial Match)等數(shù)據(jù)壓縮算法也被用來(lái)解決垃圾 郵件過(guò)濾問(wèn)題。CTW和PPM是數(shù)據(jù)壓縮中使用的動(dòng)態(tài)壓縮算法,其原理是根據(jù)已經(jīng)出現(xiàn)的 數(shù)據(jù)流預(yù)測(cè)后面要出現(xiàn)的數(shù)據(jù)流,預(yù)測(cè)的越準(zhǔn),所需的編碼也就越少,并據(jù)此進(jìn)行分類。早 在1999年,Provost就在研究中表明,貝葉斯模型性能優(yōu)于基于規(guī)則的方法?;谂袆e學(xué) 習(xí)模型的過(guò)濾系統(tǒng)中,Drucker和Vapnik在1999年利用線性支持向量機(jī)模型,選用了詞特 征、二值特征、TF-IDF等多種特征進(jìn)行垃圾郵件過(guò)濾,取得了很好的實(shí)驗(yàn)結(jié)果。Goodman和 Yin提出使用在線邏輯回歸模型,避免了 SVM、最大熵模型的大量計(jì)算,并取得了與上一年 度(2005年)TREC評(píng)測(cè)最好結(jié)果可比的結(jié)果。Sculley和Wachman采用不嚴(yán)格的在線支持 向量機(jī)模型(Relaxed Online SVM)解決垃圾郵件過(guò)濾問(wèn)題,從而克服了支持向量機(jī)計(jì)算量 大的問(wèn)題,并在TREC 2007評(píng)測(cè)中取得了很好效果。傳統(tǒng)生成模型認(rèn)為數(shù)據(jù)都是基于某種 分布生成的,并據(jù)此建模。采用最大似然估計(jì)(Maximum Likelihood Estimation, MLE)來(lái) 求解模型參數(shù),并用平滑算法來(lái)解決數(shù)據(jù)稀疏問(wèn)題。這種方法僅當(dāng)以下兩個(gè)條件都滿足時(shí) 才是最優(yōu)的第一,數(shù)據(jù)的概率分布形式是已知的;第二,存在足夠大的訓(xùn)練數(shù)據(jù)時(shí)才能采 用最大似然估計(jì)來(lái)求解模型參數(shù)。但在實(shí)際應(yīng)用中,這兩個(gè)條件很多時(shí)候無(wú)法滿足。判別 學(xué)習(xí)模型與生成模型有本質(zhì)差異,其假設(shè)條件比MLE弱得多,只要求訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù) 來(lái)自同一個(gè)分布即可。而且,判別學(xué)習(xí)算法的目標(biāo)往往與實(shí)際應(yīng)用的評(píng)價(jià)標(biāo)準(zhǔn)密切相關(guān)(如 使模型在訓(xùn)練數(shù)據(jù)上的錯(cuò)誤率最小化)。在垃圾郵件過(guò)濾問(wèn)題的相近領(lǐng)域文本分類中,判別 學(xué)習(xí)模型的分類效果要好于生成模型,尤其在小樣本集的訓(xùn)練數(shù)據(jù)下,這種現(xiàn)象更為明顯。 在2004年,Hulten和Goodman在PU-I垃圾郵件集上,基于不同類的過(guò)濾模型進(jìn)行實(shí)驗(yàn),也 取得了同樣的實(shí)驗(yàn)結(jié)果即在郵件過(guò)濾模型中,判別學(xué)習(xí)模型的分類效果要好于生成模型。 在近年的國(guó)際TREC和CEAS的評(píng)測(cè),以及國(guó)內(nèi)的SEWM評(píng)測(cè)中,判別學(xué)習(xí)模型都獲得了成功。此外,過(guò)濾器(分類器)根據(jù)學(xué)習(xí)方式的不同可以分為在線學(xué)習(xí)和離線學(xué)習(xí)(批量 學(xué)習(xí))兩種。離線學(xué)習(xí)方式下,通過(guò)訓(xùn)練樣本調(diào)整分類器的參數(shù),實(shí)際應(yīng)用時(shí)不再調(diào)整分類 器的參數(shù);在線學(xué)習(xí)方式下,分類器根據(jù)用戶的反饋不斷調(diào)整系統(tǒng)參數(shù),使系統(tǒng)能夠適應(yīng)不 斷變化的應(yīng)用環(huán)境。在線學(xué)習(xí)適用于需要快速更新的環(huán)境,受制于在線更新學(xué)習(xí)器,參數(shù)更 新算法的復(fù)雜度要低,以適應(yīng)實(shí)際應(yīng)用的需求。由于垃圾郵件的發(fā)送者針對(duì)過(guò)濾系統(tǒng)不斷 地更新內(nèi)容欺騙和內(nèi)容隱藏的方式,這就要求垃圾郵件過(guò)濾器具有良好的適應(yīng)能力。此前 的研究已經(jīng)表明,在垃圾郵件過(guò)濾領(lǐng)域,在線過(guò)濾方式性能優(yōu)于離線批處理方式。這是由于
5在線垃圾郵件過(guò)濾系統(tǒng)能夠根據(jù)用戶的反饋在線調(diào)整系統(tǒng)參數(shù),使系統(tǒng)能夠適應(yīng)不斷變化 的應(yīng)用環(huán)境;在線垃圾郵件過(guò)濾器具有良好的適應(yīng)能力,能夠滿足過(guò)濾不斷變化的垃圾郵 件的要求。國(guó)內(nèi)外評(píng)測(cè)實(shí)驗(yàn)的結(jié)果表明在線學(xué)習(xí)方式能夠滿足過(guò)濾不斷變化的垃圾郵件 的要求,這也是TREC、CEAS和SEWM評(píng)測(cè)采用在線學(xué)習(xí)方式的原因。雖然利用二值分類器的判別學(xué)習(xí)方法解決垃圾郵件過(guò)濾問(wèn)題在國(guó)內(nèi)外的評(píng)測(cè)中 取得不錯(cuò)的成績(jī),但是從問(wèn)題分析和建模的角度,用分類模型解決垃圾郵件過(guò)濾存在問(wèn) 題。在分類模型的訓(xùn)練過(guò)程中,分類器的優(yōu)化目標(biāo)是尋求一組帶權(quán)重的參數(shù),或者一個(gè)最 優(yōu)分類面,并在此基礎(chǔ)上進(jìn)行一定程度上的泛化,以求最小化郵件分類錯(cuò)誤的個(gè)數(shù),也就 是說(shuō),它們的優(yōu)化目標(biāo)是降低垃圾郵件被錯(cuò)誤劃分為正常郵件和正常郵件被錯(cuò)誤劃分垃 圾郵件的錯(cuò)誤數(shù)總和。然而,1-R0CA 禾Π lam% (logistic average misclassification percentage,邏輯平均誤判率)是以垃圾郵件過(guò)濾為代表的信息過(guò)濾系統(tǒng)性能的評(píng)價(jià)指標(biāo), 被TREC,CEAS, SEWM中一致使用。郵件分類錯(cuò)誤的個(gè)數(shù)與1-R0CA和lam%并不直接相關(guān),導(dǎo) 致現(xiàn)有分類模型的優(yōu)化目標(biāo)和過(guò)濾評(píng)價(jià)指標(biāo)的不一致。換言之,將分類錯(cuò)誤數(shù)總和降至最 低并不能保證過(guò)濾器的性能也達(dá)到最優(yōu)。由此可見,垃圾郵件過(guò)濾的性能尚有提升的空間 和更好的解決方法。在機(jī)器學(xué)習(xí)領(lǐng)域,近年ROC (Receiver Operating Characteristic,受試者工作 特征)的相關(guān)研究受到學(xué)術(shù)界的關(guān)注,如國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML)分別在04、05和06年 進(jìn)行了 3個(gè)Workshop,討論ROC相關(guān)問(wèn)題。但到目前為止,尚未見以1-R0CA為優(yōu)化目標(biāo)的 垃圾郵件過(guò)濾器及信息過(guò)濾系統(tǒng)。在整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域,以1-R0CA為優(yōu)化目標(biāo)的研究也較 少,在二值分類及信息過(guò)濾系統(tǒng)的相關(guān)研究中,據(jù)我們所知,只有下面三篇文獻(xiàn)進(jìn)行了一定 程度的研究
一、LPark and J. Moon. A Learning Method of Directly Optimizing Classifier Performance at Local Operating Range (一種在局部操作區(qū)間直接優(yōu)化過(guò)濾器性能的 學(xué)習(xí)方法).Proceedings of International Conference on Intelligent Computing (ICIC-05), 2005,
二、Τ. Joachims. A Support Vector Method for Multivariate Performance Measures.(一種用于多變量性能度量的支持向量機(jī)方法).Proceedings of the 22nd International Conference on Machine Learning(ICML-05), 2005,
三、LYanj R. Dodierj Μ. C. Mozer and R. Wolniewicz. Optimizing Classifier Performance Via an Approximation to the Wi1coxon-Mann-Whitney Statistic.(通 過(guò)對(duì)Wilcoxon-Mann-Whitney統(tǒng)計(jì)量的近似優(yōu)化過(guò)濾器性能)Proceedings of the 20th Annual International Conference on Machine Learning(ICML-03), 2003。其中第一篇文獻(xiàn)直接根據(jù)1-R0CA的定義對(duì)該指標(biāo)進(jìn)行優(yōu)化。第二、三篇文獻(xiàn)指出 Wilcoxon' s Rank Sum Statistic與1-R0CA相關(guān)。由于直接計(jì)算1-R0CA計(jì)算量大,因此 第三篇文獻(xiàn)采用近似算法進(jìn)行計(jì)算,但模型優(yōu)化存在偏差。第二篇文獻(xiàn)改進(jìn)SVM模型使其 適合于排序方法,并直接通過(guò)降低錯(cuò)誤的樣本序?qū)?Swapped pairs)來(lái)達(dá)到優(yōu)化1-R0CA的 目的,但由于SVM模型的復(fù)雜度較高,計(jì)算量偏大。因此,這些相關(guān)的研究和方法都不能直 接應(yīng)用到垃圾郵件過(guò)濾的解決中。國(guó)內(nèi)的學(xué)者們也在基于機(jī)器學(xué)習(xí)的過(guò)濾方法研究中取得了很多成果,尤其是在中文垃圾郵件過(guò)濾方面做出了很大貢獻(xiàn)。清華大學(xué)為TREC評(píng)測(cè)提供了垃圾郵件過(guò)濾的中文 數(shù)據(jù)。華南理工大學(xué)的董守斌教授為國(guó)內(nèi)的SEWM評(píng)測(cè)提供了評(píng)測(cè)數(shù)據(jù)、方法和流程;大連 理工大學(xué)分別研究了基于SVM模型、樸素貝葉斯模型和語(yǔ)言模型的過(guò)濾系統(tǒng),山東大學(xué)采 用了基于規(guī)則技術(shù)與分類器融合的過(guò)濾系統(tǒng),這些學(xué)校積極參與了這些評(píng)測(cè),并取得了很 好的成績(jī)。中科院計(jì)算技術(shù)研究所王斌等對(duì)垃圾郵件過(guò)濾問(wèn)題進(jìn)行了深入的研究和綜述國(guó) 內(nèi)外的研究方法與成果;北京郵電大學(xué)的方濱興院士等將垃圾郵件過(guò)濾系統(tǒng)實(shí)用化,鐘義 信教授的研究團(tuán)隊(duì)也在短信過(guò)濾研究中取得了成果;中國(guó)科技大學(xué)的王煦法教授提出了基 于人工免疫的多層垃圾郵件過(guò)濾算法、北京大學(xué)陳鐘教授研究了基于后綴數(shù)組聚類的中文 垃圾郵件過(guò)濾方法、浙江大學(xué)徐從富教授深入地研究了垃圾郵件過(guò)濾的相關(guān)算法,并申請(qǐng) 了基于邏輯回歸的中文垃圾郵件過(guò)濾方法的專利、復(fù)旦大學(xué)牛軍鈺教授提出了基于時(shí)間流 特性的垃圾郵件過(guò)濾方法、上海交通大學(xué)李建華教授申請(qǐng)了智能化電子郵件內(nèi)容過(guò)濾方法 的專利。黑龍江工程學(xué)院的齊浩亮等參加了 SEWM08中文垃圾郵件過(guò)濾評(píng)測(cè),采用在線判別 學(xué)習(xí)模型,取得了在線學(xué)習(xí)任務(wù)的全部第一。采用在線學(xué)習(xí)模型的垃圾郵件過(guò)濾系統(tǒng)中,訓(xùn)練模型根據(jù)用戶的反饋信息(正常 郵件和垃圾郵件)訓(xùn)練郵件過(guò)濾模型的特征權(quán)重,并對(duì)特征權(quán)重庫(kù)進(jìn)行更新;郵件過(guò)濾器基 于特征權(quán)重庫(kù)中的特征及其權(quán)重對(duì)于接受到的新郵件進(jìn)行判別。用戶在處理郵件的過(guò)程中,不定時(shí)不定量地給予訓(xùn)練模型新的反饋信息來(lái)支持特 征權(quán)重的動(dòng)態(tài)調(diào)整和更新,這使得過(guò)濾器能夠及時(shí)處理不斷變化的垃圾郵件。垃圾郵件過(guò)濾研究的傳統(tǒng)方法都是將其視為二值分類問(wèn)題,并在此基礎(chǔ)上建立以 最小化分類錯(cuò)誤的個(gè)數(shù)為優(yōu)化目標(biāo)的分類模型。在理想情況下,分類模型能夠給出在測(cè)試集上的正確預(yù)測(cè)。然而,真實(shí)環(huán)境下 無(wú)法完全保證模型的預(yù)測(cè)完全正確,需要借助合適的評(píng)價(jià)指標(biāo)對(duì)于不同模型的性能給 予評(píng)價(jià)。模型性能評(píng)價(jià)指標(biāo)主要有準(zhǔn)確率(Accuracy)、錯(cuò)誤率(Error rate)、查準(zhǔn)率 (Precision)、查全率(Recall)、F1值等。但是這些評(píng)價(jià)指標(biāo)不適合用來(lái)評(píng)價(jià)垃圾郵件過(guò)濾 問(wèn)題,其缺陷在于上述指標(biāo)都只在一個(gè)操作點(diǎn)有效,而無(wú)法體現(xiàn)過(guò)濾模型在不同參數(shù)閾值 下的整體性能;當(dāng)測(cè)試集中正例和反例的比例改變或比例差異很大,類別分布的改變,或者 正例或反例錯(cuò)分的損失不同時(shí),上述指標(biāo)不能體現(xiàn)模型的性能。垃圾郵件過(guò)濾研究的核心評(píng)價(jià)標(biāo)準(zhǔn)是接收者操作曲線ROC (Receiver Operating Characteristic, R0C),也叫做查全率-錯(cuò)檢率曲線。其具有如下兩個(gè)優(yōu)點(diǎn),能夠克服上述 評(píng)價(jià)指標(biāo)的缺陷一是其不受類的分布影響,對(duì)類別分布的改變不敏感(即對(duì)垃圾郵件和 正常郵件的所占比例的變化不敏感),適合評(píng)估垃圾郵件和正常郵件分布不平衡的垃圾郵 件數(shù)據(jù)集;二是在垃圾郵件誤判率(sm%)和正常郵件誤判率(hm%)對(duì)垃圾郵件過(guò)濾性能(或 者說(shuō)是使用者評(píng)價(jià))損失不明的情況下,評(píng)價(jià)指標(biāo)包含所有可選閾值,不受所選決策閾值限 制。關(guān)于ROC曲線介紹的文獻(xiàn)可以參考G. Cormack, T. Lynam, TREC 2005 Spam Track Overview (TREC 2005 垃圾由P件過(guò)濾綜述)· The Fourteenth Text REtrieval Conference (TREC 2005) Proceedings。垃圾郵件過(guò)濾還使用lam%這個(gè)單一評(píng)價(jià)指標(biāo)作為參考。盡管hm%和sm%不能有 效地評(píng)價(jià)過(guò)濾器性能,與過(guò)濾器的二值分類相關(guān)的單值度量仍然是有意義的。這個(gè)度量可以使用邏輯平均誤判率(lam%)指標(biāo),代表正常和垃圾郵件誤判比率的幾何平均數(shù)。其沒(méi)有 區(qū)分垃圾郵件誤判和正常郵件誤判,同等對(duì)待二者的提高。提升模型性能的最直接有效方法就是優(yōu)化模型的評(píng)價(jià)指標(biāo)。傳統(tǒng)的分類方法以最 小化分類錯(cuò)誤個(gè)數(shù)為優(yōu)化目標(biāo),造成了過(guò)濾模型的優(yōu)化目標(biāo)與垃圾郵件過(guò)濾問(wèn)題本身的評(píng) 價(jià)指標(biāo)不一致,導(dǎo)致了模型優(yōu)化結(jié)果的偏差。
發(fā)明內(nèi)容
為了解決現(xiàn)有信息過(guò)濾模型中存在的優(yōu)化目標(biāo)和過(guò)濾問(wèn)題評(píng)價(jià)指標(biāo)不一致、模型 優(yōu)化結(jié)果產(chǎn)生偏差、性能受到制約的問(wèn)題,本發(fā)明提出一種優(yōu)化lam%的信息分類閾值的設(shè) 定方法及使用該方法的信息過(guò)濾系統(tǒng)。本發(fā)明的優(yōu)化lam%的信息分類閾值的設(shè)定方法為設(shè)定偏置的分類閾值,使 hm%或sm%趨近于0,進(jìn)而使得lam%的值趨近于0。采用上述信息分類閾值的設(shè)定方法的信息過(guò)濾系統(tǒng),它包括特征權(quán)重庫(kù)、訓(xùn) 練器、信息過(guò)濾器,
特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為 建立基于排序策略的信息過(guò)濾模型框架,
令Xi表示正例,Xj表示反例,表示一致的序?qū)?,其目?biāo)值為》=1 ; Μ=( Χ) 表示不一致的序?qū)?,其目?biāo)值為1,排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè)的h e H, 使其滿足最小化不一致序?qū)?,則有
公式二 Alw (X) = argΣ >V .ψ (w' ,
公式中,w表示特征權(quán)重向量,R, 將公式二進(jìn)行變換,將Α-。作為新的特征向量,得到公式三
公式三AwC^)=arSmffi(ΣΣ-^ ‘ψ'Cw‘χ _κ/)}, ‘ i i
根據(jù)公式三得到最優(yōu)的參數(shù)W后,獲得新信息X的預(yù)測(cè)分值為;獲得新信息的
預(yù)測(cè)分值,根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息。本發(fā)明還提供一種采用上述信息分類閾值的設(shè)定方法的信息過(guò)濾系統(tǒng),該系統(tǒng)包 括特征權(quán)重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其中
特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為建立基于排序策略的信息過(guò)濾模型框架,
令Xi表示正例,Xj表示反例,表示一致的序?qū)?,其目?biāo)值為&=1 ;
#=( Α)表示不一致的序?qū)?,其目?biāo)值為&=-1,排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè) WheH,使其滿足最小化不一致序?qū)Γ瑒t有
公式二· 4 (χ) = a^gm樞£ Σ y'i·.ψ Cw-\ ,
i J
公式中,W表示特征權(quán)重向量,W): w及’
將Ψ^,Α,χ^定義為- W1(W^j),即兩個(gè)類別信息的得分之差,令
W(WtXi3Hj) = sgn[¥'(Wj^)-T1(WjXy)],其中 為符號(hào)函數(shù),當(dāng) x>=0 時(shí),sgn^)=i ;否則, sgr<*) = -1 ,
則公式二可以改寫成
公式五.恙(x) = afgm腔(ΣΣ^η τΡ'^ ) —,
‘! i
基于公式五,結(jié)合邏輯回歸模型,定義取W)為:
八寸丄 Ψ( ) EXP(w* Xi) EX¥(w xf) Λ ζ/、 Χ>} ~ 1 +EXP(w * Jri) “ 1 + EXP(w · χ,
Λ ,, , EXP(w.;r) ,,,,. 令片4^=!^^^,則有
公式七蕓^iL取χ,HI-/( ).&-/(w而Hi-/(%)). ,
其中公式六為面向1-R0CA優(yōu)化的在線排序邏輯回歸學(xué)習(xí)算法, 根據(jù)公式七可以得到以梯度下降方法更新并獲得參數(shù)向量權(quán)重w;并據(jù)此對(duì)新信息的 進(jìn)行預(yù)測(cè),根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息。本發(fā)明所述的優(yōu)化lam%的信息分類閾值的設(shè)定方法,與現(xiàn)有垃圾信息的過(guò)濾模 型沒(méi)有關(guān)系,因此可以應(yīng)用于現(xiàn)有各種信息過(guò)濾系統(tǒng)中用于優(yōu)化信息過(guò)濾系統(tǒng)的lam%,提 高信息過(guò)濾系統(tǒng)的性能,優(yōu)化過(guò)濾系統(tǒng)的技術(shù)指標(biāo)。本發(fā)明所述的信息過(guò)濾系統(tǒng)與以往的信息過(guò)濾系統(tǒng)的過(guò)濾方法不同,本發(fā)明同 時(shí)針對(duì)核心評(píng)價(jià)指標(biāo)1_%和1-R0CA進(jìn)行優(yōu)化,引入排序模型解決信息過(guò)濾問(wèn)題,本發(fā)明解 決的關(guān)鍵問(wèn)題包括
(1)基于排序策略的信息過(guò)濾模型的構(gòu)建方法
基于對(duì)核心評(píng)價(jià)指標(biāo)1-R0CA進(jìn)行優(yōu)化、將信息過(guò)濾問(wèn)題轉(zhuǎn)化成排序問(wèn)題是本發(fā)明的 基本思想,研究新的過(guò)濾模型構(gòu)建方法、形式化定義和公式描述,從而建立基于排序策略的 信息過(guò)濾模型。(2)面向信息過(guò)濾的在線排序邏輯回歸學(xué)習(xí)算法
鑒于信息過(guò)濾要求排序算法具有高性能、快速、低存儲(chǔ)的特性,而現(xiàn)有的排序算法無(wú)法 滿足這些要求,本發(fā)明提出排序邏輯回歸學(xué)習(xí)算法解決該問(wèn)題,并進(jìn)一步提出面向1-R0CA
9優(yōu)化的在線排序邏輯回歸學(xué)習(xí)算法解決在線過(guò)濾時(shí)出現(xiàn)的信息得分波動(dòng)導(dǎo)致性能下降的 問(wèn)題。(3)模型參數(shù)優(yōu)化計(jì)算量過(guò)大的問(wèn)題
采用在線排序邏輯回歸學(xué)習(xí)算法后,計(jì)算量會(huì)顯著增大,如不解決該問(wèn)題將影響模型 的應(yīng)用。本發(fā)明采用僅對(duì)近期信息構(gòu)成的序?qū)M(jìn)行訓(xùn)練的方法并結(jié)合TONE (Train On or Near Error)算法,解決了計(jì)算量大的問(wèn)題。本發(fā)明的信息過(guò)濾系統(tǒng)的優(yōu)點(diǎn)有
(1)提出基于評(píng)價(jià)指標(biāo)優(yōu)化的信息過(guò)濾建模新方法,研究基于排序策略的信息 過(guò)濾基本框架,用分類模型代替?zhèn)鹘y(tǒng)分類模型,避免了模型優(yōu)化目標(biāo)與過(guò)濾問(wèn)題評(píng)價(jià)指標(biāo) 不一致的問(wèn)題,是信息過(guò)濾研究中新的思路和探索;
(2)在建立了過(guò)濾模型框架的基礎(chǔ)上,研究適應(yīng)于信息過(guò)濾的新排序算法,提出 排序邏輯回歸學(xué)習(xí)算法解決排序問(wèn)題,并進(jìn)一步針對(duì)在線過(guò)濾時(shí)出現(xiàn)的信息得分波動(dòng)導(dǎo)致 性能下降的問(wèn)題,提出面向1-R0CA優(yōu)化的在線排序邏輯回歸學(xué)習(xí)算法進(jìn)行解決;
(3)提出并綜合運(yùn)用基于TONE策略的參數(shù)權(quán)重更新算法和重采樣技術(shù),以解決 參數(shù)優(yōu)化計(jì)算量過(guò)大問(wèn)題,滿足過(guò)濾模型的在線、實(shí)時(shí)要求。(4) lam%和1-R0CA的同時(shí)優(yōu)化,TREC和STOM都以1-R0CA作為核心評(píng)價(jià)指 標(biāo),而lam%只是作為一個(gè)參考指標(biāo)。CEAS不區(qū)分兩者的重要性。從評(píng)價(jià)體系看,lam%也 是一個(gè)重要指標(biāo)。本發(fā)明從lam%的定義出發(fā),對(duì)其進(jìn)行了分析,得到了 lam%的優(yōu)化方法。 由于該優(yōu)化方法與具體的過(guò)濾模型無(wú)關(guān),因此可以應(yīng)用在本發(fā)明提出的模型中,同時(shí)優(yōu)化 1-R0CA 禾口 lam%。本發(fā)明的方法不但可以為信息過(guò)濾問(wèn)題提供解決策略和支撐技術(shù),還將為眾多的 以1-R0CA為優(yōu)化目標(biāo)的二值分類問(wèn)題提供新的解決思路,為網(wǎng)絡(luò)信息過(guò)濾問(wèn)題、手機(jī)垃圾 短信過(guò)濾問(wèn)題、以及醫(yī)療診斷等問(wèn)題的解決提供重要參考,同時(shí),還將促進(jìn)排序模型的發(fā)展。
具體實(shí)施例方式具體實(shí)施方式
一本實(shí)施方式所述的是一種優(yōu)化lam%的信息分類閾值的設(shè)定方 法,所述設(shè)定方法為設(shè)定偏置的分類閾值,使hm%或sm%趨近于0,進(jìn)而使得1_%的值趨
,kmYosmYo
近于0,即使得0g (l-km%)(l-sm%)的值趨近于零,達(dá)到最小化1_%的目的。
2例如,可以設(shè)置分類閾值為0. 999999。本實(shí)施方式中,不能將閾值設(shè)置過(guò)偏;否則,將出現(xiàn)計(jì)算Iog(O)的情況,即導(dǎo)致 lam%無(wú)法計(jì)算的情況出現(xiàn)。因此,本實(shí)施方式的信息分類閾值偏向hm%或sm%,但不使其為 O0上述獲得信息分類閾值的方法與所述過(guò)濾系統(tǒng)所使用的過(guò)濾模型無(wú)關(guān),因此該種 信息分類閾值的設(shè)定方法可以應(yīng)用于現(xiàn)有任何一種信息過(guò)濾系統(tǒng)中。在過(guò)濾系統(tǒng)中,將待判定信息的預(yù)測(cè)分值與本方法獲得的信息分類閾值進(jìn)行比 較,當(dāng)結(jié)果大于零時(shí),所述待判定信息被判定為垃圾信息,否則,所述待判定信息被判定為正常信息。由于所述信息分類閾值是根據(jù)最小化lam%的原則設(shè)定的,因此采用所述信息分 類閾值對(duì)信息進(jìn)行分類的過(guò)濾系統(tǒng)的評(píng)價(jià)指標(biāo)lam%趨近于0,即,使得所述過(guò)濾系統(tǒng)的性 能良好。由于是簡(jiǎn)單設(shè)置閾值來(lái)達(dá)到優(yōu)化lam%的目標(biāo),與具體的過(guò)濾模型無(wú)關(guān),因此上述 方法與現(xiàn)有任何一種過(guò)濾模型配合使用,都能達(dá)到提高過(guò)濾效率的目的。所述lam%的的定義如公式一所示
公式一
根據(jù)公式一,結(jié)合
的定義
設(shè)
即
則有
為單調(diào)函數(shù),當(dāng)
的值最小時(shí),
lam%的值也最小,因此當(dāng)hm%或sm%趨近于O時(shí)
的值最小。即當(dāng)信
息分類閾值偏向hm%或sm%中的任何一側(cè)時(shí),都能夠使得lam%的值趨近于零。但所述閾值 不能夠設(shè)置過(guò)偏,否則將出現(xiàn)計(jì)算log(O),導(dǎo)致lam%無(wú)法計(jì)算的情況出現(xiàn)。采用本方法確 定的閾值,能夠使hm%或sm%很小,趨近于0,lam%也趨近于0,即數(shù)值計(jì)算時(shí)候lam%為O。
具體實(shí)施方式
二本實(shí)施方式所述的是基于具體實(shí)施方式
一所述的信息分類閾值 的設(shè)定方法的信息過(guò)濾系統(tǒng),它包括特征權(quán)重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其中 特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為 建立基于排序策略的信息過(guò)濾模型框架,
令Xi表示正例,Xj表示反例,
表示一致的序?qū)?其目標(biāo)值為
表示不一致的序?qū)?,其目?biāo)值為
,排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè)的h e H ,使其滿足最小化不一致序?qū)//,則有公式二· ^W = arSmasCZΣ>V .ψ(冒‘巧,xJ'))(2)
~^ · i.
公式中,W表示特征權(quán)重向量,ψ0 ,其中R為Real的縮寫,表示實(shí)數(shù)。Mf 公式二進(jìn) 亍變換,仿照文獻(xiàn) T. Joachims, Optimizing Search Engines Using Clickthrough Data(使用點(diǎn)擊數(shù)據(jù)優(yōu)化搜索引擎),Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD),ACM, 2002 構(gòu)造排序支持向量機(jī)的方
式,將巧巧作為新的特征向量x,可以得到公式三
公式三= - .))(3)
i 3
根據(jù)公式三得到最優(yōu)的參數(shù)W后,獲得新信息X的預(yù)測(cè)分值為;獲得新信息的 預(yù)測(cè)分值,根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息; 所述設(shè)定的閾值采用具體實(shí)施方式
一所述的方法獲得。上述對(duì)新信息進(jìn)行識(shí)別的方法還可以按邏輯回歸模型進(jìn)一步具體化為
ΕΧΡι> .(χ,-χ,))
公式 D⑷= 1 + Εχρ“^_4(4)
其中,參數(shù)向量權(quán)重W的更新算法采用的是現(xiàn)有基于梯度下降的權(quán)重更新方法。本實(shí)施方式中的公式四采用借鑒已有的(Ranking SVM)定義排序算法的方法,將 兩個(gè)類別的特征之差作為新樣本的特征值。本實(shí)施方式使得傳統(tǒng)的邏輯回歸模型能夠解決排序問(wèn)題。本實(shí)施方式中的公式四沒(méi)有控制信息得分均衡的機(jī)制,這將導(dǎo)致信息的得分可 能會(huì)發(fā)生波動(dòng)。在信息過(guò)濾中,過(guò)濾器不能更改已經(jīng)做出的判斷,信息的得分波動(dòng)會(huì)提高 1-R0CA值,即影響過(guò)濾器的性能。本實(shí)施方式中的閾值是采用具體實(shí)施方式
一所述的方法獲得的,能夠達(dá)到優(yōu)化 lam%的目的,同時(shí)本實(shí)施方式的新信息進(jìn)行識(shí)別的方法采用了基于排序策略的方法,優(yōu)化 了 1-R0CA,所以本實(shí)施方式所述的信息過(guò)濾系統(tǒng)能夠達(dá)到同時(shí)優(yōu)化1-R0CA和lam%的目的, 進(jìn)一步提高了系統(tǒng)的過(guò)濾性能。
具體實(shí)施方式
三本實(shí)施方式提供另一種基于具體實(shí)施方式
一所述的垃圾信息分 類閾值的設(shè)定方法的信息過(guò)濾系統(tǒng),該系統(tǒng)包括特征權(quán)重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其中
特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為 建立基于排序策略的信息過(guò)濾模型框架,
令Xi表示正例,Xj表示反例, (/=(χ4>χρ表示一致的序?qū)?其目標(biāo)值為、=1 ; ^=(XjAi) 表示不一致的序?qū)?,其目?biāo)值為A=-I ,排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè)的h e H ,使其滿足最小化不一致序?qū)//,則有
12公式二 · ‘(*) = arS ma^iS Σ % ‘ψ Cw' xI' */))(2)
~^ ·i 3
公式中,W表示特征權(quán)重向量/i'C^Hj—R,
將ΨΟ X/)定義為Ψ>ιΧ )-Ψ>ιΧ/),即兩個(gè)類別信息的得分之差,令WCw.、、) =Sgn^(WsSCf)Sfi)],其中 sg<力為符號(hào)函數(shù),當(dāng) x>=o 時(shí),喊力=1 ;否則,sg</, = -l , 則公式二可以改寫成
公式五· <(x) = argm樞冒名)—ψ'(*·'χ/)]))(5)
‘i 3
基于公式五,結(jié)合邏輯回歸模型,定義ψι>,^~)為
八 n 如 χ EXP(h. Xi) EXP(H)* xf)
公式TK = i +ΕΧΡ(κ.. ;Γ 1 + ΕΧΡ(η·.Χ/)(6)
Λ .. , EXP(wi) ,,,,.
令則有
公式七I = ^^ — ^^ = /(WfXi) ■ (1 — f(w,xj) H Xf — /(WfXj) ■ (1 — /(W^j))-Xj (7)
其中公式六為面向1-R0CA優(yōu)化的在線排序邏輯回歸學(xué)習(xí)算法, 根據(jù)公式七可以得到以梯度下降方法更新并獲得參數(shù)向量權(quán)重w;并據(jù)此對(duì)新信息的 進(jìn)行預(yù)測(cè),根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息。從公式七可以獲知,以兩類目標(biāo)值均衡的方式進(jìn)行特征權(quán)重調(diào)整,有效地防止了 模型優(yōu)化結(jié)果的偏差,保證了兩個(gè)類目標(biāo)值的對(duì)稱性。根據(jù)公式七獲得最優(yōu)的參數(shù)W后,對(duì)于一個(gè)類別未知的信息X,Ψ'(ν /5.Χ)就是模 型對(duì)它預(yù)測(cè)的分值。在所述在線學(xué)習(xí)過(guò)程中,采用貪心算法,根據(jù)時(shí)間序列對(duì)過(guò)濾樣本進(jìn)行采樣,只在 最新的m封信息或最近的信息序?qū)χ羞x擇訓(xùn)練樣本。由于從過(guò)濾模型的排序框架本身來(lái)看,如果任意兩個(gè)訓(xùn)練樣本組成的序?qū)?shù)量龐 大,直接計(jì)算所有序?qū)?dǎo)致計(jì)算量過(guò)大,計(jì)算效率很低。為了解決這個(gè)問(wèn)題,本發(fā)明采用兩 種方法解決這個(gè)問(wèn)題。(1)現(xiàn)有TONE (Train On or Near Error)策略來(lái)降低模型訓(xùn)練的計(jì)算量。對(duì)于 正常信息和垃圾信息構(gòu)成的序?qū)?,在如下兩種情況下進(jìn)行訓(xùn)練a)序?qū)ε判蝈e(cuò)誤;b)序?qū)ε?序正確,但正常信息和垃圾信息的預(yù)測(cè)得分差值小于指定的閾值。(2)并通過(guò)采用貪心算法,利用時(shí)間序列對(duì)過(guò)濾樣本進(jìn)行采樣,只在最新的m封信 息或最近的信息序?qū)χ羞x擇訓(xùn)練樣本,以避免信息集合中所有信息參與計(jì)算,進(jìn)一步減小 了計(jì)算量,使模型的訓(xùn)練速度進(jìn)一步提高。本實(shí)施方式中的過(guò)濾方法是基于對(duì)核心評(píng)價(jià)指標(biāo)1-R0CA進(jìn)行優(yōu)化、將信息過(guò)濾 問(wèn)題轉(zhuǎn)化成排序問(wèn)題的基本思想,研究新的過(guò)濾模型構(gòu)建方法、形式化定義和公式描述,從 而建立基于排序策略的信息過(guò)濾模型。本實(shí)施方式所述的信息過(guò)濾系統(tǒng)在提升lam%指標(biāo)的同時(shí),以優(yōu)化1-R0CA為模型
13優(yōu)化目標(biāo),研究基于排序策略的信息過(guò)濾模型框架,探索過(guò)濾模型中的機(jī)器學(xué)習(xí)算法、參數(shù) 優(yōu)化機(jī)制和特征抽取方法。
具體實(shí)施方式
四本實(shí)施方式是對(duì)具體實(shí)施方式
三所述的信息過(guò)濾系統(tǒng)中的根據(jù) 公式七和梯度下降方法更新參數(shù)向量權(quán)重w,根據(jù)當(dāng)前信息Xi更新參數(shù)向量權(quán)重w可以采 用下述方法
初始化權(quán)重向量W為0 ;
一、預(yù)測(cè)當(dāng)前信息Xi的類別;
所述當(dāng)前信息Xi的類別的預(yù)測(cè)過(guò)程為首先根據(jù)過(guò)濾模型f (W,Xi)獲得P(SPamIxi), 當(dāng)所述P(spam|Xi)值大于0. 99999時(shí),判定為垃圾信息,否則,判定為正常信息;
二、根據(jù)最新接收到若干條信息獲得最新接收到的m個(gè)序?qū)airs(w);具體過(guò)程
為
對(duì)于當(dāng)前信息Xi,將最近判斷獲得的若干條具有不同標(biāo)記的信息組成“垃圾信息_正 常信息”對(duì)、或者“正常信息_垃圾信息”對(duì)pair (χ,,Xj),共獲得m對(duì);
三、逐一根據(jù)每一對(duì)pair(Xi , Xj)的信息更新權(quán)重向量w,最終獲得更新的權(quán)重向量
W ;
根據(jù)每一對(duì)pair (χ,,Xj.)的信息更新權(quán)重向量w的具體過(guò)程為 通過(guò) Ψ (w,Xi, Xj)計(jì)算獲得 pair (Xi,Xj)的差值 difference ; 如果該序?qū)?Xi,Xj)是錯(cuò)誤序?qū)?,或者所述差值difference的絕對(duì)值小于設(shè)定閾值 TONE,則更新權(quán)重向量w,否則,不更新權(quán)重向量w ; 所述更新權(quán)重向量w的過(guò)程為
Αψ
首先通過(guò)Aw = ( y¥ - difference) * TRAIN_RATE * ^獲得權(quán)重向量變化量Δw ;
然后由w +=八趴獲得更新后的權(quán)重向量W。下面給出了上述過(guò)程的分類及學(xué)習(xí)過(guò)程的偽碼。Initialize w = 0
Parameters TRAIN—RATE, TONE for pairs, Number of pairs to look back for each message Xi { //predict
calculate ρ (spam | Xi) = f (w,Xi)
if (p (spam I Xi) > 0.999999) predict spam; else
predict ham
//Get pairs Xj) according to number of pairs to look back for current message Xi
for x/ s m latest messages with different label form spam-ham/ham-spam pair (Xi,Xj) //updating weight vector for each pair (Xi,Xj){ calculate difference= Ψ (w,Xij Xj)
if (Xi , Xj) is swapped pair or abs (difference) < TONE for pairs
βψ
{ Aw =( -difference) * TRAIN—RATE * — w +=Aw;
}}}
上面程序代碼中的參數(shù)TRAIN_RATE表示學(xué)習(xí)速率;TONE for pairs表示序?qū)Φ拈撝担?Number_of_pairs_to_look_back表示用于訓(xùn)練的最近的信息序?qū)?shù)量。在具體實(shí)現(xiàn)上,可 ^kTONE for pairs = 1, TRAIN—RATE = 0. 01, number of pairs to look back = 100.
本實(shí)施方式中的信息過(guò)濾器對(duì)接收信息進(jìn)行特征提取的方法可以采用現(xiàn)有任何一種 特征提取方法獲得接收信息的特征信息。信息過(guò)濾模型的構(gòu)建是影響系統(tǒng)性能的核心因素,過(guò)濾模型是對(duì)于信息過(guò)濾問(wèn)題 的模擬、抽象和形式化描述。過(guò)濾模型的核心評(píng)價(jià)指標(biāo)為1-R0CA,而1-R0CA與不一致的序 對(duì)成正比,因此信息過(guò)濾問(wèn)題的本質(zhì)是排序問(wèn)題。在這個(gè)思想下,本發(fā)明將過(guò)濾問(wèn)題轉(zhuǎn)化成 排序問(wèn)題進(jìn)行研究,設(shè)計(jì)和實(shí)現(xiàn)基于排序策略的信息過(guò)濾模型。在建立了過(guò)濾模型框架的基礎(chǔ)上,需要采用適合的排序算法對(duì)模型參數(shù)進(jìn)行近似 與擬合。信息過(guò)濾對(duì)排序算法的要求是能夠快速處理大規(guī)模數(shù)據(jù),即算法的時(shí)間復(fù)雜度和 空間復(fù)雜度不能過(guò)高;同時(shí)對(duì)排序算法的性能要求很高?,F(xiàn)有的排序算法無(wú)法滿足這些要 求,需要提出新的解決方案。本發(fā)明在對(duì)多種排序算法應(yīng)用和掌握的基礎(chǔ)上,提出了相對(duì)快 速、有效,適合信息過(guò)濾問(wèn)題的在線排序邏輯回歸學(xué)習(xí)算法,并據(jù)此構(gòu)造了信息過(guò)濾系統(tǒng)。
具體實(shí)施方式
五本實(shí)施方式與具體實(shí)施方式
二至四任意一個(gè)實(shí)施方式所述的信息過(guò) 濾系統(tǒng)的區(qū)別在于,信息過(guò)濾器對(duì)接收信息進(jìn)行特征提取的方法采用基于字節(jié)級(jí)η元文法 的特征提取方法。本實(shí)施方式所述的基于字節(jié)級(jí)η元文法的特征提取方法為對(duì)提取對(duì)象信息進(jìn)行 大小為η個(gè)字節(jié)的滑動(dòng)窗口操作,獲得m個(gè)長(zhǎng)度為η的字節(jié)片斷序列作為特征信息,所述 m、η為大于0的整數(shù)。 本實(shí)施方式中的m個(gè)長(zhǎng)度為η的字節(jié)片斷序列的選取方法可以采用下述幾種方 法
a、提取對(duì)象信息中連續(xù)的m個(gè)長(zhǎng)度為η個(gè)字節(jié)的信息片斷作為特征信息,其中 第i+Ι個(gè)字節(jié)片斷是以第i個(gè)字節(jié)片斷中的第二個(gè)字節(jié)為首字節(jié);
b、提取對(duì)象信息中的前m個(gè)長(zhǎng)度為η的字節(jié)片斷序列作為特征信息,或者后m個(gè) 長(zhǎng)度為η的字節(jié)片斷序列作為特征信息,其中第i+Ι個(gè)字節(jié)片斷是以第i個(gè)字節(jié)片斷中的 第二個(gè)字節(jié)為首字節(jié);
C、 根據(jù)信息增益或者交叉熵統(tǒng)計(jì)方法提取對(duì)象信息中的m個(gè)長(zhǎng)度為η的字節(jié)片 斷序列作為特征信息。 本實(shí)施方式采用基于字節(jié)級(jí)η元文法的特征提取方法獲得特征信息,簡(jiǎn)化了特征提取,還使得過(guò)濾器能夠處理圖像、病毒信息的能力,為大幅提高信息過(guò)濾器的性能奠定了 ■石出。本實(shí)施方式提出字節(jié)級(jí)n-gram的特征提取方法,通過(guò)提取信息的二進(jìn)制片段序 列特征,使特征提取方法具有語(yǔ)言無(wú)關(guān)性,同時(shí)解決垃圾信息偽裝和隱藏的問(wèn)題。本實(shí)施方式所述的特征提取方法,能夠?qū)畔⒅械奈淖肿冃?、將文字轉(zhuǎn)成圖 片或PDF文件、各種格式的附件以及信息病毒進(jìn)行有效識(shí)別,并具有對(duì)于新形式垃圾信息 的自適應(yīng)能力,進(jìn)一步提高了信息過(guò)濾系統(tǒng)的性能。對(duì)本實(shí)施方式所述的信息過(guò)濾系統(tǒng),通過(guò)實(shí)驗(yàn)進(jìn)行了驗(yàn)證,實(shí)驗(yàn)中的信息采用郵 件信息作為處理對(duì)象,下面對(duì)驗(yàn)證過(guò)程及結(jié)果進(jìn)行說(shuō)明。實(shí)驗(yàn)環(huán)境設(shè)置
使用公共數(shù)據(jù)集TREC05/06/07,CEAS08和SEWM07/08來(lái)評(píng)估過(guò)濾器的性能,這些數(shù) 據(jù)集中包括四個(gè)英文數(shù)據(jù)集和三個(gè)中文數(shù)據(jù)集。這些數(shù)據(jù)集的基本信息如表1所示 表1
CorpusLanguageHamSpamTotalTREC05English393995279092189TREC06English129102491237822TREC07English252205019975419CEAS08English16798941285209274TREC06CChinese217664285464620SE 麗 07Chinese150004500060000SE 麗 08Chinese200005000070000
用邏輯回歸模型與一個(gè)在先前的評(píng)測(cè)中表現(xiàn)很好的經(jīng)典模型(Goodman and Yin, 2006; Cormack, 2007)進(jìn)行比較。尤其在與sewmOS數(shù)據(jù)集相關(guān)的所有過(guò)濾任務(wù)中,邏輯回 歸模型都取得了第一(參見 http://net. pku. edu. cn/^webg/cwt/)。不同過(guò)濾器所提取的特征各有不同,以前的評(píng)測(cè)結(jié)果表明簡(jiǎn)單的方法如n-grams 能夠取得很好的效果(Sculley,and ffachman, 2007)。例如用4-grams來(lái)分析“hell wol”得到的結(jié)果是“hell”,"ell ”,“11 w”,“1 wo"和 “ wol"(注意 n-grams 對(duì)空 格無(wú)差別對(duì)待,當(dāng)做字符處理)。在實(shí)踐中,只提取前3000個(gè)特征,因而較長(zhǎng)信息的作用被 消弱(Sculley and ffachman, 2007)。在這些實(shí)驗(yàn)中沒(méi)有采用附加的其它特征提取方法或 者專業(yè)知識(shí)。和公共評(píng)測(cè)的方法相似,在四個(gè)在線過(guò)濾任務(wù)中評(píng)測(cè)了過(guò)濾器立即回饋,延遲回 饋,部分回饋和動(dòng)態(tài)學(xué)習(xí)。立即回饋任務(wù)時(shí)過(guò)濾器使用黃金標(biāo)準(zhǔn)在過(guò)濾完一封郵件后立即 給出判斷,此郵件是否為垃圾郵件,這對(duì)于初學(xué)者是比較容易實(shí)現(xiàn)的。延遲回饋模仿現(xiàn)實(shí) 環(huán)境中人們并不是每封郵件都立即給出判斷的環(huán)境過(guò)濾器在回饋之前給出一些郵件的分 類。部分回饋使得過(guò)濾任務(wù)在另一方面顯得十分嚴(yán)格立即回饋可用,不過(guò)只是對(duì)部分測(cè)試 數(shù)據(jù),相當(dāng)一部分?jǐn)?shù)據(jù)并未給出回饋。不像上述的在線過(guò)濾任務(wù)的處理過(guò)程,動(dòng)態(tài)學(xué)習(xí)允許 過(guò)濾器首先檢查一遍數(shù)據(jù)集,根據(jù)它的需要查找確定數(shù)量的郵件并只對(duì)它們產(chǎn)生回饋,如 果配額用盡,將不會(huì)再產(chǎn)生回饋(Cormack,2007)。在每個(gè)數(shù)據(jù)集上的評(píng)測(cè)任務(wù)及結(jié)果參見表2所示 表2
16
然而,并不是所有數(shù)據(jù)集都提供四個(gè)過(guò)濾任務(wù)。表2描述了在TREC,CEAS和SEWM數(shù) 據(jù)集中所包含的任務(wù)。需要說(shuō)明的是在CEAS08數(shù)據(jù)集中包含延遲回饋和部分回饋在延 遲回饋中它只對(duì)某些郵件提供延遲回饋。這和現(xiàn)實(shí)中的過(guò)濾器工作環(huán)境比較相似。CEAS08 數(shù)據(jù)集使用前20000封郵件作為訓(xùn)練數(shù)據(jù),過(guò)濾器只記錄對(duì)余下的郵件的過(guò)濾性能的表 現(xiàn)。實(shí)驗(yàn)結(jié)果
表3給出了采用邏輯回歸模型(LR)的實(shí)驗(yàn)結(jié)果,數(shù)據(jù)名的后綴字母代表不同的過(guò)濾任 務(wù)?!癷”代表立即回饋,“d”代表延遲回饋,“ρ”代表部分回饋,“a”代表動(dòng)態(tài)學(xué)習(xí),“pre”代 表預(yù)訓(xùn)練(這個(gè)任務(wù)僅在CEAS08中出現(xiàn)),即前η封郵件只訓(xùn)練不作為評(píng)判的依據(jù)。這些實(shí) 驗(yàn)中使用了 TREC垃圾郵件過(guò)濾工具。過(guò)濾器的過(guò)濾性能通過(guò)1_R0CA%和LAM%來(lái)衡量(都 是結(jié)果越小越好)。實(shí)驗(yàn)中中文垃圾郵件過(guò)濾系統(tǒng)和英文垃圾郵件過(guò)濾系統(tǒng)采用了不同的 系統(tǒng)參數(shù)(包括學(xué)習(xí)速率和TONE閾值)。表3 實(shí)驗(yàn)結(jié)果
權(quán)利要求
一種郵件分類閾值的設(shè)定方法,其特征在于,所述設(shè)定方法為設(shè)定偏置的分類閾值,使hm%或sm%趨近于0,進(jìn)而使得lam%的值趨近于0。
2.基于權(quán)利要求1所述的信息分類閾值的設(shè)定方法的信息過(guò)濾系統(tǒng),它包括特征權(quán) 重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其特征在于特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為 建立基于排序策略的信息過(guò)濾模型框架,令Xi表示正例,χ」表示反例,&/= ,4表示一致的序?qū)?,其目?biāo)值為Jf=I ; Xw=(Kj^i)表示不一致的序?qū)?,其目?biāo)值為A=-I,排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè)的h e H ,使其滿足最小化不一致序?qū)?#,則有公式二 = argmaxiSE^ . ^ 4 ,2 J公式中,W表示特征權(quán)重向量,Ψ0 %X/ 4P-,將公式二進(jìn)行變換,將作為新的特征向量,得到公式三公式三=尋腿· ψ 'Cw1Xi - κ, ,根據(jù)公式三得到最優(yōu)的參數(shù)W后,獲得新信息X的預(yù)測(cè)分值為Vi 為;獲得新信息的預(yù) 測(cè)分值,根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息; 所述設(shè)定的閾值設(shè)定偏置,使hm%或sm%趨近于0,進(jìn)而使得lam%的值趨近于0。
3.根據(jù)權(quán)利要求2所述的信息過(guò)濾系統(tǒng),其特征在于,信息過(guò)濾器對(duì)接收信息進(jìn)行特 征提取的方法采用基于字節(jié)級(jí)η元文法的特征提取方法。
4.基于權(quán)利要求1所述的信息分類閾值的設(shè)定方法的信息過(guò)濾系統(tǒng),其特征在于,該 系統(tǒng)包括特征權(quán)重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其中特征權(quán)重庫(kù),用于存儲(chǔ)垃圾信息和正常信息的特征及其權(quán)重信息; 訓(xùn)練器,用于根據(jù)用戶的反饋信息,調(diào)整/更新特征權(quán)重庫(kù)中的特征及其權(quán)重; 信息過(guò)濾器,用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息;還用于基于特征權(quán)重庫(kù) 中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息; 所述信息過(guò)濾器中,對(duì)新信息進(jìn)行識(shí)別的方法為 建立基于排序策略的信息過(guò)濾模型框架,令Xi表示正例,Xj表示反例,i/=0^ 表示一致的序?qū)?,其目?biāo)值為Jjy=I ;表示不一致的序?qū)?,其目?biāo)值為排序模型目標(biāo)是在假設(shè)空間H中找到一個(gè)的h e H, 使其滿足最小化不一致序?qū)?/』,則有公式二 義(*) - arSmaxSlΣ>ν ψCw-*,χ/)),! J公式中,W表示特征權(quán)重向量, 0 知 _—R,將 定義為即兩個(gè)類別信息的得分之差,令%>,XpX/) 其中為符號(hào)函數(shù),當(dāng) χ>=0 時(shí),sgn(jr) =1 ;否則,Sgrt>·) = -1, 則公式二改寫成公式五 基于公式五,結(jié)合邏輯回歸模型,定義P為 令舅=卿―,則有.公式七 取識(shí)!-取功義-取 其中公式六為面向1-R0CA優(yōu)化的在線排序邏輯回歸學(xué)習(xí)算法, 根據(jù)公式七得到以梯度下降方法更新并獲得參數(shù)向量權(quán)重w;并據(jù)此對(duì)新信息的進(jìn)行 預(yù)測(cè),根據(jù)對(duì)比所述預(yù)測(cè)分值和設(shè)定的閾值,判定所述新信息是否是垃圾信息,所述設(shè)定的閾值設(shè)定偏置,使hm%或sm%趨近于0,進(jìn)而使得lam%的值趨近于0。全文摘要
一種優(yōu)化lam%的信息分類閾值的設(shè)定方法及使用該方法的信息過(guò)濾系統(tǒng),涉及到一種信息過(guò)濾方法及該方法中的閾值設(shè)定方法。它解決了現(xiàn)有信息過(guò)濾模型中存在的優(yōu)化目標(biāo)和過(guò)濾問(wèn)題評(píng)價(jià)指標(biāo)不一致、模型優(yōu)化結(jié)果產(chǎn)生偏差、性能受到制約的問(wèn)題。所述優(yōu)化lam%的信息分類閾值的設(shè)定方法是設(shè)定偏置的分類閾值,使hm%或sm%趨近于0,進(jìn)而使得lam%的值趨近于0。所述信息過(guò)濾系統(tǒng)包括特征權(quán)重庫(kù)、訓(xùn)練器、信息過(guò)濾器,其中,信息過(guò)濾器用于對(duì)接收信息進(jìn)行特征提取并獲得特征信息的信息、以及基于特征權(quán)重庫(kù)中的特征對(duì)于接收到信息進(jìn)行識(shí)別,將所述信息分為正常信息和垃圾信息。本發(fā)明可應(yīng)用于網(wǎng)絡(luò)信息過(guò)濾和手機(jī)垃圾短信過(guò)濾等電子信息的過(guò)濾。
文檔編號(hào)G06F17/30GK101908055SQ20101011865
公開日2010年12月8日 申請(qǐng)日期2010年3月5日 優(yōu)先權(quán)日2010年3月5日
發(fā)明者何曉寧, 孫育華, 李生, 楊沐昀, 王丁, 雷國(guó)華, 韓詠, 齊浩亮 申請(qǐng)人:黑龍江工程學(xué)院;哈爾濱工業(yè)大學(xué)