亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于微內(nèi)容相似度的反垃圾方法

文檔序號(hào):7662098閱讀:194來(lái)源:國(guó)知局
專利名稱:基于微內(nèi)容相似度的反垃圾方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)微內(nèi)容的反垃圾方法,特別涉及一種基于微內(nèi)容相似度 的反垃圾方法。
技術(shù)背景Blog是繼Email、 BBS、 ICQ之后出現(xiàn)的第四種網(wǎng)絡(luò)交流方式,是網(wǎng)絡(luò)時(shí)代 的個(gè)人"讀者文摘",是以超級(jí)鏈接為武器的網(wǎng)絡(luò)日記,是代表著新的生活方式和 新的工作方式,更代表著新的學(xué)習(xí)方式。但是,在反垃圾郵件的技術(shù)日漸成熟 的現(xiàn)在,將Blog評(píng)論作為散布廣告和宣傳的手段也越來(lái)越受到商家和普通網(wǎng)友 的歡迎。這導(dǎo)致Blog上的垃圾評(píng)論越來(lái)越多,極大地浪費(fèi)了網(wǎng)絡(luò)帶寬,Blog擁 有者和閱讀者的時(shí)間,以及系統(tǒng)資源,使使用者不厭其煩,已經(jīng)成為阻礙Blog 普及的一大難題。目前常用的反垃圾評(píng)論的技術(shù)和方法有1) 置詞組過濾,對(duì)一些敏感的詞語(yǔ)進(jìn)行過濾或屏蔽,但是這種過濾對(duì)于敏 感詞語(yǔ)的變種防范能力要差一些,如拆字等,并且隨著詞庫(kù)的不斷增大,維護(hù) 和運(yùn)行效率都受到影響。但這是一種最為快捷的方法,可以起到立竿見影的防范效果。2) 設(shè)置校驗(yàn)碼,通過對(duì)校驗(yàn)碼進(jìn)行合法性校驗(yàn)來(lái)防止機(jī)器人提交。不過目 前機(jī)器人還是可以通過OCR或者窮舉的方法進(jìn)行滲透,即使是特意修改的版本, 只要下功夫就可以找到方法破解。同時(shí)給正常用戶也帶來(lái)了一些障礙。3) 檢查Refer,通過HTTP協(xié)議中的Refer字段過濾掉那些未訪問頁(yè)面而直 接進(jìn)站評(píng)論的連接,這也是防盜鏈的方法之一,效率很高。但如果使用特殊修 改過的工具偽裝HTTP協(xié)議進(jìn)行提交,此方法將束手無(wú)策。4) 控制連續(xù)提交間隔,此舉防止惡意機(jī)器人對(duì)數(shù)據(jù)庫(kù)進(jìn)行飽和攻擊,減小 服務(wù)器負(fù)擔(dān),但不能治本,屬于被動(dòng)的消極防御。5) 基于內(nèi)容評(píng)分,實(shí)現(xiàn)閾值分割,智能判斷是否為垃圾評(píng)論。此方法最為 科學(xué)合理,但需要服務(wù)器做大量的處理,增加了服務(wù)器負(fù)擔(dān),若再連接到遠(yuǎn)程 服務(wù)器,服務(wù)質(zhì)量可能因網(wǎng)絡(luò)而無(wú)法保證。因此以上方法都不能完全滿足在線實(shí)時(shí)鑒別垃圾評(píng)論的需求。 發(fā)明內(nèi)容本發(fā)明目的在于提供一種基于微內(nèi)容相似度的反垃圾方法。
本發(fā)明解決其技術(shù)問題采用的技術(shù)方案是,該方法的步驟如下1) 通過將人為鑒別為垃圾的評(píng)論進(jìn)行聚類,產(chǎn)生聚類垃圾文件,包含多個(gè)垃 圾分類;2) 使用垃圾鑒別器根據(jù)聚類垃圾文件,對(duì)未知評(píng)論進(jìn)行鑒別。 所述的垃圾評(píng)論聚類過程為1) 聚類垃圾文件初始為空;2) 當(dāng)有新的人為鑒別為垃圾的垃圾評(píng)論時(shí),如下條件與步驟有選擇性的加入 到聚類垃圾文件中第一步從所有垃圾分類中任意選取一條垃圾評(píng)論作為該垃圾分類的典型 樣本;第二步新垃圾評(píng)論與所有垃圾分類的典型樣本進(jìn)行相似度評(píng)分;第三步對(duì)第二步中與未知垃圾擁有最高相似度評(píng)分的典型樣本所在垃圾分類,新垃圾評(píng)論評(píng)論再與該垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分,計(jì)算其最高相似度得分;第四歩若最高相似度得分小于某指定閾值,則將新垃圾評(píng)論作為一個(gè)新的 垃圾分類;否則若最高相似度得分小于另一指定閾值則將新垃圾評(píng)論評(píng)論加入 到已有分類中作為一個(gè)新垃圾評(píng)論樣本;否則忽略該新垃圾評(píng)論。所述的垃圾鑒別算法步驟如下1) 從所有垃圾分類中任意選取一條垃圾評(píng)論作為該垃圾分類的典型樣本;2) 未知評(píng)論與所有垃圾分類的典型樣本進(jìn)行相似度評(píng)分;3) 對(duì)上步驟2)中與未知垃圾擁有最高相似度評(píng)分的典型樣本所在垃圾分類, 未知評(píng)論再與該垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分;4) 若未知評(píng)論與上述垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分的最大值超過 指定閾值,則判定未知評(píng)論為垃圾評(píng)論。本發(fā)明具有的有益效果是避免了待處理垃圾評(píng)論與所有已聚類垃圾進(jìn)行相似度比較,有效地減少了 評(píng)論相似度的比較次數(shù),提高了垃圾鑒別和聚類垃圾文件維護(hù)的效率,能夠適 應(yīng)互聯(lián)網(wǎng)上海量垃圾鑒別的性能需求。


圖1是本發(fā)明的基于垃圾相似度的反垃圾方法流程圖。圖2是本發(fā)明的將垃圾評(píng)論插入聚類垃圾文件的算法流程圖。圖3是本發(fā)明的垃圾鑒別器對(duì)未知評(píng)論進(jìn)行鑒別的算法流程圖。
具體實(shí)施方式
本發(fā)明對(duì)于評(píng)論相似度的概念定義如下-詞不可分割的語(yǔ)義單元;高頻詞類似"的"、"啊"的無(wú)語(yǔ)義,需要被過濾掉的詞語(yǔ);評(píng)論詞的有限集合,將原始評(píng)論進(jìn)行分詞,過濾掉高頻詞后的結(jié)果;評(píng)論的詞個(gè)數(shù)該評(píng)論詞集合的勢(shì)——該集合所包含的元素個(gè)數(shù);評(píng)論的"交"詞集合的交運(yùn)算;評(píng)論的"并"詞集合的并運(yùn)算;定義評(píng)論a和評(píng)論b的相似度sim(a,b): a交b的詞個(gè)數(shù)/a并b的詞個(gè)數(shù),即a交b的詞個(gè)數(shù)/ (a的詞個(gè)數(shù)+ b的詞個(gè)數(shù)-a交b的詞個(gè)數(shù)) 結(jié)合上述評(píng)論相似度概念,以博客評(píng)論反垃圾系統(tǒng)為例,具體的實(shí)施步驟如下如圖1所示,通過對(duì)人為鑒別為垃圾的評(píng)論進(jìn)行聚類,產(chǎn)生聚類垃圾文件, 將其輸入到垃圾庫(kù)鑒別器用以鑒別未知評(píng)論;垃圾鑒別器通過計(jì)算未知評(píng)論與 聚類垃圾文件中典型樣本的相似度來(lái)判斷該未知評(píng)論是否為垃圾,并給出判斷 結(jié)果;通過計(jì)算新的垃圾評(píng)論與聚類垃圾文件中典型樣本的相似度進(jìn)行相似度 評(píng)分,將新的垃圾分類加入聚類垃圾文件,并更新已有的垃圾分類,丟棄無(wú)用 的垃圾評(píng)論。加入垃圾評(píng)論的過程如圖2所示,假設(shè)現(xiàn)在要插入一條垃圾評(píng)論x,聚類垃 圾文件中己存在s類垃圾,分別計(jì)為GhG2,G3…Gs,每一個(gè)類別垃圾中,取任 意一條垃圾評(píng)論作為該類垃圾的垃圾類特征,分別記為ghg2,g3…gs,分別計(jì)算 垃圾評(píng)論X與垃圾類特征gl,g2,g3...gs的評(píng)論相似度,假設(shè)gm和X取到其中的最 大值sim(gm,x) = max sim(gi,x)i=l s假設(shè)在聚類垃圾文件中, 一共有t條屬于第m類的垃圾評(píng)論,分別記為gml,gm2,g m3…g mt, 分別計(jì)算垃圾評(píng)論x與評(píng)論 gml,g m2,g m3…gmt 的評(píng)論相似度,假設(shè) gmn和X取到其中的最大值sim(g咖,x) = max sim(gmi,x)i=l~t 以下包括2種情況a) 如果sim(g^,x)小于特定閥值Tl ,則該垃圾評(píng)論將獨(dú)立成為新的一類垃 圾,插入數(shù)據(jù)庫(kù);b) 如果sim(g,x)大于等于Tl,則該垃圾評(píng)論隸屬于第m類已存在垃圾,包括2種情況bl)如果sim(gmn,x)小于特定閥值T2 (T2>sim(gmn,x)>Tl)該垃圾評(píng)論加 入聚類垃圾文件能顯著提高本系統(tǒng)鑒別垃圾的能力,將垃圾評(píng)論x作為第m類 垃圾插入聚類垃圾文件中;b2)如果sim(g飾x)大于等于T2 (sim(gmn,x)>T2>Tl),這表示已經(jīng)有與 垃圾評(píng)論x的相似度極高的垃圾評(píng)論存在,垃圾評(píng)論x加入聚類垃圾文件已經(jīng) 不能顯著提高本系統(tǒng)鑒別垃圾的能力,忽略該垃圾評(píng)論,不做任何處理。 垃圾評(píng)論被插入的聚類垃圾文件的過程,同時(shí)也是它們被聚類的過程。 隨著聚類垃圾文件中的垃圾評(píng)論數(shù)量不斷增加,達(dá)到一定規(guī)模后,便可以 將庫(kù)中的聚類垃圾導(dǎo)出生成聚類垃圾文件,垃圾鑒別器導(dǎo)入該聚類垃圾文件后, 就可以對(duì)未知評(píng)論進(jìn)行鑒別圖3給出了垃圾鑒別器對(duì)未知評(píng)論進(jìn)行鑒別的過程,設(shè)未知評(píng)論為x,假設(shè)聚類垃圾文件中已存在S類垃圾,分別計(jì)為GhG2,G3…Gs,每一個(gè)類別垃圾中, 取任意一條垃圾評(píng)論作為該類垃圾的垃圾類特征,分別記為gl,g2,g3...gs.分別 計(jì)算評(píng)論X與評(píng)論gl,g2,g3...gs的評(píng)論相似度,假設(shè)gm和X取到其中的最大值sim(gm,x) = max sim(gi,x)假設(shè)在聚類垃圾文件中, 一共有t條屬于第m類的垃圾評(píng)論,分別記為gml,gm2,g m3'g mt' 分別計(jì)算評(píng)論x與評(píng)論 g ml,g m2,g m3…g mt的i平論相《以度,4叚設(shè)gmn 和X取到其中的最大值sim(g勵(lì)x) = max sim(gmi,x)i=l t若sim(g,x)〉特定閥值T3,未知評(píng)論x被鑒別為垃圾評(píng)論; 若sim(g,x) <=特定閥值T3,未知評(píng)論x被鑒別為非垃圾評(píng)論; 如果未知評(píng)論是垃圾評(píng)論,則將該評(píng)論從評(píng)論數(shù)據(jù)庫(kù)中刪除;如果不是垃 圾評(píng)論,則忽略之。
權(quán)利要求
1、一種基于微內(nèi)容相似度的反垃圾方法,其特征在于該方法的步驟如下1)通過將人為鑒別為垃圾的評(píng)論進(jìn)行聚類,產(chǎn)生聚類垃圾文件,包含多個(gè)垃圾分類;2)使用垃圾鑒別器根據(jù)聚類垃圾文件,對(duì)未知評(píng)論進(jìn)行鑒別。
2、 根據(jù)權(quán)利要求1所述的一種基于微內(nèi)容相似度的反垃圾方法,其特征在 于所述的垃圾評(píng)論聚類過程為1) 聚類垃圾文件初始為空;2) 當(dāng)有新的人為鑒別為垃圾的垃圾評(píng)論時(shí),如下條件與步驟有選擇性的加入到聚類垃圾文件中第一步從所有垃圾分類中任意選取一條垃圾評(píng)論作為該垃圾分類的典型樣本;第二步新垃圾評(píng)論與所有垃圾分類的典型樣本進(jìn)行相似度評(píng)分;第三歩對(duì)第二步中與未知垃圾擁有最高相似度評(píng)分的典型樣本所在垃圾分類,新垃圾評(píng)論評(píng)論再與該垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分,計(jì)算其最高相似度得分;第四歩若最高相似度得分小于某指定閾值,則將新垃圾評(píng)論作為一個(gè)新的 垃圾分類;否則若最髙相似度得分小于另一指定閾值則將新垃圾評(píng)論評(píng)論加入 到已有分類中作為一個(gè)新垃圾評(píng)論樣本;否則忽略該新垃圾評(píng)論。
3、 根據(jù)權(quán)利要求l所述的一種基于微內(nèi)容相似度的反垃圾方法,其特征在 于所述的垃圾鑒別算法步驟如下1) 從所有垃圾分類中任意選取一條垃圾評(píng)論作為該垃圾分類的典型樣本;2) 未知評(píng)論與所有垃圾分類的典型樣本進(jìn)行相似度評(píng)分;3) 對(duì)上步驟2)中與未知垃圾擁有最高相似度評(píng)分的典型樣本所在垃圾分類, 未知評(píng)論再與該垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分;4) 若未知評(píng)論與上述垃圾分類所有垃圾進(jìn)行評(píng)論相似度評(píng)分的最大值超過 指定閾值,則判定未知評(píng)論為垃圾評(píng)論。
全文摘要
本發(fā)明公開了一種基于微內(nèi)容相似度的反垃圾方法。通過將人為鑒別為垃圾的評(píng)論進(jìn)行聚類,產(chǎn)生聚類垃圾文件;使用垃圾鑒別器根據(jù)聚類垃圾文件,對(duì)未知評(píng)論進(jìn)行鑒別。使用待處理評(píng)論先與所有垃圾評(píng)論分類中的隨機(jī)樣本進(jìn)行相似度評(píng)分,再與擁有最高相似度的隨機(jī)樣本所在分類進(jìn)行相似度評(píng)分的方法,避免了待處理垃圾評(píng)論與所有已聚類垃圾進(jìn)行相似度比較,有效地減少了評(píng)論相似度的比較次數(shù),提高了垃圾鑒別和聚類垃圾文件維護(hù)的效率,能夠適應(yīng)互聯(lián)網(wǎng)上海量垃圾鑒別的性能需求。
文檔編號(hào)H04L12/58GK101159704SQ20071015618
公開日2008年4月9日 申請(qǐng)日期2007年10月23日 優(yōu)先權(quán)日2007年10月23日
發(fā)明者壽黎但, 源 汪, 胡天磊, 剛 陳, 珂 陳 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1