一種識(shí)別垃圾文本的方法和裝置制造方法
【專利摘要】本申請公開了一種識(shí)別垃圾文本的方法和裝置。該方法包括:預(yù)先采用簽名算法計(jì)算垃圾文本的簽名,在樣本庫中存儲(chǔ)垃圾文本的簽名信息,采用所述簽名算法計(jì)算待處理文本的簽名,確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度;根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本;其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度信息。應(yīng)用本發(fā)明能夠提高垃圾文本的召回率。
【專利說明】一種識(shí)別垃圾文本的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種識(shí)別垃圾文本的方法和裝置。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)絡(luò)中常常充斥著各種垃圾文本,例如垃圾評(píng)論信息等,如何識(shí)別出這些垃圾文本是目前急需解決的一個(gè)技術(shù)問題。
[0003]目前,一般根據(jù)敏感詞庫來識(shí)別垃圾文本,具體地:
[0004]預(yù)先根據(jù)已經(jīng)確定的垃圾文本建立敏感詞庫,對于待處理文本,判斷該待處理文本中是否出現(xiàn)了敏感詞庫中的詞,如果是,則將該待處理文本識(shí)別為垃圾文本,否則,將該待處理文本識(shí)別為非垃圾文本。
[0005]可見,目前根據(jù)敏感詞庫來識(shí)別垃圾文本的方法存在以下的缺陷:
[0006]有些垃圾文本會(huì)通過不斷變換關(guān)鍵詞,來避免與敏感詞庫中的敏感詞相同,例如,當(dāng)某用戶發(fā)送了垃圾廣告評(píng)論“各種化妝品,盡在我的淘寶店”時(shí),敏感詞庫編輯人員將“淘寶店”加入到敏感詞庫中,然而,當(dāng)用戶將評(píng)論內(nèi)容改成“各種化妝品,盡在我的淘寶商店”,由于“淘寶商店”并不在敏感詞庫中,因此將導(dǎo)致敏感詞庫失效,即將本應(yīng)為垃圾文本的“各種化妝品,盡在我的淘寶商店”識(shí)別為了非垃圾文本。
[0007]因此,目前識(shí)別垃圾文本的方法的垃圾文本召回率較低。
【發(fā)明內(nèi)容】
[0008]本申請?zhí)峁┝艘环N識(shí)別垃圾文本的方法和裝置,能夠提高垃圾文本的召回率。
[0009]一種識(shí)別垃圾文本的方法,該方法包括:
[0010]預(yù)先采用簽名算法計(jì)算垃圾文本的簽名,在樣本庫中存儲(chǔ)垃圾文本的簽名信息,
[0011]采用所述簽名算法計(jì)算待處理文本的簽名,確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度;
[0012]根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本;
[0013]其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度息。
[0014]一種識(shí)別垃圾文本的裝置,該裝置包括樣本庫模塊、差異程度確定模塊和識(shí)別模塊;
[0015]所述樣本庫模塊,用于存儲(chǔ)預(yù)先采用簽名算法計(jì)算出的垃圾文本的簽名信息;
[0016]所述差異程度確定模塊,用于采用所述簽名算法計(jì)算待處理文本的簽名,確定待處理文本的簽名與樣本庫模塊中存儲(chǔ)的簽名信息之間的差異程度;
[0017]所述識(shí)別模塊,用于根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本;
[0018]其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度息。
[0019]由上述技術(shù)方案可見,本發(fā)明通過在樣本庫中存儲(chǔ)垃圾文本的簽名,計(jì)算待處理文本的簽名,而且計(jì)算垃圾文本的簽名和計(jì)算待處理文本的簽名所采用的簽名算法針對不同文本計(jì)算出的簽名能夠反映不同文本之間的差異程度信息,因此,通過確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度,根據(jù)所述差異程度能夠識(shí)別待處理文本是否為垃圾文本。
[0020]由于本發(fā)明根據(jù)待處理文本的簽名與垃圾文本的簽名之間的差異程度來識(shí)別待處理文本是否是垃圾文本,因此,即便待處理文本與垃圾文本不完全一致,只要兩者的差異程度滿足預(yù)定的條件,本發(fā)明也能夠?qū)⑺龃幚砦谋咀R(shí)別為垃圾文本,因此能夠大大提高垃圾文本的召回率。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明提供的識(shí)別垃圾文本的方法流程圖。
[0022]圖2是本發(fā)明提供的識(shí)別垃圾文本的裝置結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0023]圖1是本發(fā)明提供的識(shí)別垃圾文本的方法流程圖。
[0024]如圖1所示,該方法包括:
[0025]步驟101,預(yù)先采用簽名算法計(jì)算垃圾文本的簽名,在樣本庫中存儲(chǔ)垃圾文本的簽名信息。
[0026]步驟102,采用所述簽名算法計(jì)算待處理文本的簽名。
[0027]其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度息。
[0028]步驟103,確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度。
[0029]步驟104,根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本。
[0030]可見,由于圖1所示方法根據(jù)待處理文本的簽名與垃圾文本的簽名之間的差異程度來識(shí)別待處理文本是否是垃圾文本,因此,即便待處理文本與垃圾文本不完全一致,只要兩者的差異程度滿足預(yù)定的條件,圖1所示方法也能夠?qū)⑺龃幚砦谋咀R(shí)別為垃圾文本,因此能夠大大提高垃圾文本的召回率。
[0031 ] 其中,所采用的簽名算法可以是SMHASH簽名算法,也可以是MINHASH簽名算法。
[0032]其中,具體可以通過計(jì)算待處理文本的簽名與垃圾文本的簽名之間的漢明距離來確定待處理文本的簽名與垃圾文本的簽名之間的差異程度。
[0033]其中,所述漢明距離是兩個(gè)等長字符串對應(yīng)位置的字符不同的個(gè)數(shù)。比如,字符串A=”A1B2C3D4”與字符串B= “A2B1C3D4”的漢明距離為:2,所以漢明距離可以衡量字符串之間的相似度,即漢明距離越小,字符串相似度越高。
[0034]因此,確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度具體可以包括:
[0035]將待處理文本的簽名和樣本庫中存儲(chǔ)的簽名信息轉(zhuǎn)換為位數(shù)相同的二進(jìn)制數(shù),計(jì)算由待處理文本的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫中存儲(chǔ)的簽名信息轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離,將所述漢明距離作為待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度。[0036]具體地,可以在將垃圾文本的簽名信息存儲(chǔ)在樣本庫中時(shí),將垃圾文本的簽名轉(zhuǎn)換為目標(biāo)位數(shù)的二進(jìn)制數(shù),在樣本庫中直接存儲(chǔ)所述二進(jìn)制數(shù),在對待處理文本進(jìn)行處理時(shí),先采用計(jì)算垃圾文本簽名的簽名算法計(jì)算待處理文本的簽名,然后將待處理文本的簽名轉(zhuǎn)換為目標(biāo)位數(shù)的二進(jìn)制數(shù),由于樣本庫中存儲(chǔ)的簽名信息就是目標(biāo)位數(shù)的二進(jìn)制數(shù),因此,可以將由待處理文本的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與樣本庫中存儲(chǔ)的二進(jìn)制數(shù)直接進(jìn)行逐條比較(一個(gè)垃圾文本的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)為一條二進(jìn)制數(shù)),從而計(jì)算待處理文本的簽名與垃圾文本的簽名信息之間的漢明距離,將所述漢明距離作為待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度。
[0037]也可以將由簽名算法計(jì)算得到的垃圾文本簽名直接存儲(chǔ)在樣本庫中,在對待處理文本進(jìn)行處理時(shí),先采用計(jì)算垃圾文本簽名的簽名算法你計(jì)算待處理文本的簽名,然后將待處理文本的簽名轉(zhuǎn)換為目標(biāo)位數(shù)的二進(jìn)制數(shù),將樣本庫中的簽名也轉(zhuǎn)換為目標(biāo)位數(shù)的二進(jìn)制數(shù),然后計(jì)算由待處理文本的簽名轉(zhuǎn)換得到的目標(biāo)位數(shù)二進(jìn)制數(shù)與由垃圾文本的簽名轉(zhuǎn)換得到的目標(biāo)位數(shù)二進(jìn)制數(shù)的漢明距離,將所述漢明距離作為待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度。
[0038]其中,所述目標(biāo)位數(shù)可以是32位,也可以是64位。
[0039]在根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本時(shí),如果由待處理文本中字符串的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫中存儲(chǔ)的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離小于預(yù)定值,則可以將所述待處理文本識(shí)別為垃圾文本。
[0040]當(dāng)然,也可以在所述漢明距離的基礎(chǔ)上,進(jìn)一步結(jié)合其他條件判斷待處理文本是否為垃圾文本。 [0041]為了提高本發(fā)明提供的識(shí)別垃圾文本的方法適應(yīng)垃圾文本變化的能力,本發(fā)明還提出,在將待處理文本識(shí)別為垃圾文本之后,可以將識(shí)別為垃圾文本的待處理文本的簽名信息存儲(chǔ)在所述樣本庫中,從而實(shí)現(xiàn)樣本庫的自動(dòng)更新,進(jìn)而能夠隨著垃圾文本的變化而識(shí)別新的垃圾文本。
[0042]下面舉一個(gè)具體的例子,對本發(fā)明提供的識(shí)別垃圾文本的方法進(jìn)行示例性介紹。
[0043]在該例子中,預(yù)先對歷史垃圾評(píng)論進(jìn)行人工分揀,并計(jì)算分揀出的垃圾評(píng)論內(nèi)容的簽名,根據(jù)所述簽名形成一個(gè)垃圾評(píng)論的樣本庫,即在樣本庫中存儲(chǔ)SM(Al),SM(A2)…SIM (Ai) -SIM (An),其中,SM (Al)、SM (A2)...SM (An)為采用 32 位二進(jìn)制數(shù)存儲(chǔ)的垃圾評(píng)論內(nèi)容Al、A2...An的SMHASH值。
[0044]當(dāng)某用戶發(fā)送了一條評(píng)論B,首先計(jì)算出該評(píng)論的SMHASH值:SM(B),然后將SM(B)與垃圾評(píng)論的樣本庫中的SMHASH值逐條比較,從而計(jì)算出評(píng)論B與垃圾評(píng)論庫中各個(gè)評(píng)論SMHASH值的漢明距離。
[0045]例如:樣本庫中有三條垃圾樣本Al,A2和A3的簽名,且簽名值的十進(jìn)制數(shù)分別為407450932U350698740U2495694113,假設(shè)評(píng)論B的SIMHASH值的十進(jìn)制數(shù)為:SM(B) =2433245321,那么它與Al、A2、A3的漢明距離分別為下表所示:
[0046]
SIMHASH__I十進(jìn)制數(shù) I二進(jìn)制值I與SEM(B)漢明距離
【權(quán)利要求】
1.一種識(shí)別垃圾文本的方法,其特征在于,該方法包括: 預(yù)先采用簽名算法計(jì)算垃圾文本的簽名,在樣本庫中存儲(chǔ)垃圾文本的簽名信息, 采用所述簽名算法計(jì)算待處理文本的簽名,確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度; 根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本; 其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度包括: 將待處理文本的簽名和樣本庫中存儲(chǔ)的簽名信息轉(zhuǎn)換為位數(shù)相同的二進(jìn)制數(shù),計(jì)算由待處理文本的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫中存儲(chǔ)的簽名信息轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離,將所述漢明距離作為待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度; 其中,所述漢明距離是兩個(gè)等長字符串對應(yīng)位置的字符不同的個(gè)數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本包括: 在由待處理文本中字符串的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫中存儲(chǔ)的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離小于預(yù)定值時(shí),將所述待處理文本識(shí)別為垃圾文本。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述待處理文本識(shí)別為垃圾文本之后,該方法還包括: 將識(shí)別為垃圾文本的待處理文本的簽名信息存儲(chǔ)在所述樣本庫中。
5.根據(jù)權(quán)利要求2至4任一權(quán)利要求所述的方法,其特征在于,所述位數(shù)相同的二進(jìn)制數(shù)為32位二進(jìn)制數(shù)或64位二進(jìn)制數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述簽名算法包括SMHASH簽名算法、或者M(jìn)INHASH簽名算法。
7.一種識(shí)別垃圾文本的裝置,其特征在于,該裝置包括樣本庫模塊、差異程度確定模塊和識(shí)別模塊; 所述樣本庫模塊,用于存儲(chǔ)預(yù)先采用簽名算法計(jì)算出的垃圾文本的簽名信息; 所述差異程度確定模塊,用于采用所述簽名算法計(jì)算待處理文本的簽名,確定待處理文本的簽名與樣本庫模塊中存儲(chǔ)的簽名信息之間的差異程度; 所述識(shí)別模塊,用于根據(jù)所述差異程度識(shí)別待處理文本是否為垃圾文本; 其中,采用所述簽名算法針對不同文本計(jì)算出的簽名能夠反映所述不同文本之間的差異程度信息。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述差異程度確定模塊,用于將待處理文本的簽名和樣本庫模塊中存儲(chǔ)的簽名信息轉(zhuǎn)換為位數(shù)相同的二進(jìn)制數(shù),計(jì)算由待處理文本的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫中存儲(chǔ)的簽名信息轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離,將所述漢明距離作為待處理文本的簽名與樣本庫中存儲(chǔ)的簽名信息之間的差異程度; 其中,所述漢明距離是兩個(gè)等長字符串對應(yīng)位置的字符不同的個(gè)數(shù)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述識(shí)別模塊,用于在由待處理文本中字符串的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)與由樣本庫模塊中存儲(chǔ)的簽名轉(zhuǎn)換得到的二進(jìn)制數(shù)之間的漢明距離小于預(yù)定值時(shí),將所述待處理文本識(shí)別為垃圾文本。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,該裝置還包括樣本更新模塊; 所述樣本更新模塊,用于將識(shí)別為垃圾文本的待處理文本的簽名信息存儲(chǔ)在所述樣本庫模塊 中。
【文檔編號(hào)】G06F17/30GK104008105SQ201310058680
【公開日】2014年8月27日 申請日期:2013年2月25日 優(yōu)先權(quán)日:2013年2月25日
【發(fā)明者】張湘念 申請人:騰訊科技(北京)有限公司