一種文本分類方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種文本分類方法和裝置,該方法包括:將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換;統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度,計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例;利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例,計(jì)算所述待處理文本的作弊特征指標(biāo);將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。本發(fā)明可以有效彌補(bǔ)現(xiàn)有機(jī)器學(xué)習(xí)方法的不足,提高分類的準(zhǔn)確率。
【專利說明】一種文本分類方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息【技術(shù)領(lǐng)域】,特別涉及一種文本分類方法和裝置。
【【背景技術(shù)】】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,越來越多的用戶利用互聯(lián)網(wǎng)進(jìn)行信息交流和資源共享,網(wǎng)絡(luò)信息量也日益劇增。然而,互聯(lián)網(wǎng)的開放性也導(dǎo)致在網(wǎng)絡(luò)中存在很多不良信息,因此,對(duì)互聯(lián)網(wǎng)的信息進(jìn)行監(jiān)控、過濾和分類已經(jīng)成為普遍需求。
[0003]評(píng)論(或者稱為留言,回復(fù)等)是互聯(lián)網(wǎng)社區(qū)類產(chǎn)品的一項(xiàng)重要功能,是形成產(chǎn)品互動(dòng)氛圍的一個(gè)重要渠道。因其發(fā)布代價(jià)小,受眾廣,效果持久,從評(píng)論功能產(chǎn)生開始便受到垃圾信息的困擾,包括各種廣告鏈接,推廣信息,黃反信息等各類信息。代發(fā)廣告甚至成為一個(gè)產(chǎn)業(yè),其發(fā)帖方式也由手動(dòng)發(fā)帖變?yōu)闄C(jī)器自動(dòng)發(fā)帖,并且其技術(shù)越來越先進(jìn),不斷突破各種反作弊措施。
[0004]現(xiàn)有應(yīng)對(duì)這種垃圾信息的主要手段包括兩大類:一類是機(jī)制上的方法,包括人工審核,用戶等級(jí)或用戶群組制度,嚴(yán)格的用戶準(zhǔn)入制度等。另一類是技術(shù)上的方法,可分為兩種方式,一種是機(jī)械式的,包括驗(yàn)證碼、敏感詞過濾、頻率控制、黑名單、相似文本策略等;另一種是智能式的,主要包括各種機(jī)器學(xué)習(xí)的方法,例如樸素貝葉斯,費(fèi)舍爾,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等。
[0005]其中,機(jī)制上的方法主要是增加了發(fā)帖的代價(jià),但抑制了垃圾文本制造者(spammer)的同時(shí),也讓一般的用戶難以發(fā)帖,在開放程度高的社區(qū)中比較難以接受。機(jī)械式的方法是針對(duì)有固定特征的垃圾信息,一旦被spammer 了解,就很容易被繞過。智能式的方法具備一定的辨識(shí)能力,但因?qū)W`習(xí)機(jī)制、訓(xùn)練語料等的差異,實(shí)施起來有一定難度,其主要考慮的因素是其對(duì)垃圾信息和正常信息辨識(shí)的準(zhǔn)確率和召回率。
[0006]現(xiàn)有的這幾種方式對(duì)純文本的判斷較為有效,然而對(duì)于以下幾種文本進(jìn)行分類的效果都不理想。一、對(duì)于夾雜大量標(biāo)點(diǎn)符號(hào)及空白、制表符或換行符的文本,誤判率較高。一方面,由于在進(jìn)行分詞處理時(shí),標(biāo)點(diǎn)符號(hào)一般都會(huì)被過濾掉并不會(huì)作為分詞結(jié)果返回,導(dǎo)致無法判斷出這些大量夾雜標(biāo)點(diǎn)符號(hào)等的垃圾文本;另一方面,標(biāo)點(diǎn)符號(hào)及停用詞并不反映語義,在正常文本和垃圾文本中出現(xiàn)頻率相近,無法有效支撐后驗(yàn)概率,從而影響機(jī)器分類的準(zhǔn)確率。二、對(duì)于文本主要成分為網(wǎng)址鏈接,QQ號(hào),手機(jī)號(hào)等分類效果也不太好,因?yàn)榉衷~無法切出有效文本內(nèi)容,準(zhǔn)確率不高。三、對(duì)于無意義的回答判斷效果不好,例如當(dāng)用戶作弊方式為頭像廣告時(shí),會(huì)大量發(fā)“很好的經(jīng)驗(yàn)”,“效果不錯(cuò),非常贊”之類的評(píng)論。當(dāng)這樣的文本大量出現(xiàn)在垃圾文本的訓(xùn)練語料中時(shí),還會(huì)對(duì)正常評(píng)論的分類效果造成一定影響,導(dǎo)致準(zhǔn)確率降低。
【
【發(fā)明內(nèi)容】
】
[0007]有鑒于此,本發(fā)明提供了一種文本分類方法和裝置,能夠?qū)Ω黝愇谋具M(jìn)行有效準(zhǔn)確地辨識(shí),提高分類的準(zhǔn)確率。[0008]具體技術(shù)方案如下:
[0009]一種文本分類方法,該方法包括以下步驟:
[0010]S1、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換;
[0011]S2、統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度,計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例;
[0012]S3、利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例,計(jì)算所述待處理文本的作弊特征指標(biāo);
[0013]S4、將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟SI之前,還包括:
[0015]針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理,除去常見的標(biāo)點(diǎn)符號(hào);
[0016]所述步驟SI僅對(duì)剩余的字符采用預(yù)設(shè)的固定字符串進(jìn)行替換。
[0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S3之前,還包括:
[0018]找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù),得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重;
[0019]所述步驟S3利用得到的鏈接權(quán)重和號(hào)碼權(quán)重,與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán),得到所述待處理文本的作弊特征指標(biāo),所述鏈接權(quán)重和號(hào)碼權(quán)重越大,所述作弊特征指標(biāo)越大。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括:
[0021]確定提交所述待處理文本的用戶名和IP地址;
[0022]在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù),利用該用戶提交的正常文本和垃圾文本的數(shù)量計(jì)算得到作弊用戶指標(biāo);
[0023]所述步驟S4利用所述作弊用戶指標(biāo)與所述作弊特征指標(biāo)進(jìn)行加權(quán)或相乘,將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0024]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述用戶名詞典和IP詞典的建立方法,具體包括:
[0025]獲取包含正常文本和垃圾文本的樣本語料;
[0026]記錄提交所述樣本語料中各文本的用戶名和IP地址;
[0027]分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量,生成用戶名詞典和IP詞典。
[0028]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括:
[0029]對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的貝葉斯詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的貝葉斯指標(biāo);
[0030]所述步驟S4利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0031]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法還包括:
[0032]對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的費(fèi)舍爾詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的費(fèi)舍爾指標(biāo);[0033]所述步驟S4利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0034]一種文本分類裝置,該裝置包括:
[0035]字符替換模塊,用于將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換;
[0036]文字含量計(jì)算模塊,用于統(tǒng)計(jì)經(jīng)過所述字符替換模塊替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度,計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例;
[0037]作弊特征指標(biāo)計(jì)算模塊,用于利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例,計(jì)算所述待處理文本的作弊特征指標(biāo);
[0038]分類模塊,用于將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0039]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述字符替換模塊的配置包括:
[0040]用于針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理,除去常見的標(biāo)點(diǎn)符號(hào);
[0041]僅對(duì)所述預(yù)處理模塊處理后剩余的字符進(jìn)行替換。
[0042]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0043]數(shù)字符號(hào)統(tǒng)計(jì)模塊,用于找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù),得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重;
[0044]所述作弊特征指標(biāo)計(jì)算模塊利用得到的鏈接權(quán)重和號(hào)碼權(quán)重,與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán),得到所述待處理文本的作弊特征指標(biāo),所述鏈接權(quán)重和號(hào)碼權(quán)重越大,所述作弊特征指標(biāo)越大。
[0045]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0046]用戶信息提取模塊,用于確定提交所述待處理文本的用戶名和IP地址;
[0047]作弊用戶指標(biāo)計(jì)算模塊,用于在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù),利用所述待處理文本的用戶名或IP地址歷史提交的垃圾文本的比例計(jì)算得到作弊用戶指標(biāo);
[0048]所述分類模塊,還用于將所述作弊用戶指標(biāo)和作弊特征指標(biāo)進(jìn)行加權(quán)或相乘,將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0049]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述用戶名詞典和IP詞典的建立模塊,具體包括:
[0050]語料獲取單元,用于獲取包含正常文本和垃圾文本的樣本語料;
[0051]用戶信息記錄單元,用于記錄提交所述樣本語料中各文本的用戶名和IP地址;
[0052]統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量,生成用戶名詞典和IP詞典。
[0053]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0054]貝葉斯指標(biāo)計(jì)算模塊,用于對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的貝葉斯詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的貝葉斯指標(biāo),并將所述貝葉斯指標(biāo)提供給所述分類模塊;
[0055]所述分類模塊,還用于利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。[0056]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0057]費(fèi)舍爾指標(biāo)計(jì)算模塊,用于對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的費(fèi)舍爾詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的費(fèi)舍爾指標(biāo),并將所述費(fèi)舍爾指標(biāo)提供給所述分類模塊;
[0058]所述分類模塊,還用于利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0059]由以上技術(shù)方案可以看出,本發(fā)明提供的文本分類方法和裝置,利用字符替換的方式得到膨脹的作弊特征,對(duì)用戶的提交行為進(jìn)行輔助驗(yàn)證,可以有效地識(shí)別夾雜大量特殊符號(hào)、轉(zhuǎn)義字符和鏈接的文本,以及頭像廣告作弊用戶大量發(fā)布的無意義文本,尤其對(duì)于諸如社區(qū)或論壇的評(píng)論、回復(fù)、留言等的短文本,提高了辨識(shí)準(zhǔn)確度,并與機(jī)器學(xué)習(xí)的方法相結(jié)合,有效彌補(bǔ)現(xiàn)有機(jī)器學(xué)習(xí)方法的不足,提高分類的準(zhǔn)確率。
【【專利附圖】
【附圖說明】】
[0060]圖1為本發(fā)明實(shí)施例一提供的文本分類方法流程圖;
[0061]圖2為本發(fā)明實(shí)施例二提供的文本分類方法流程圖;
[0062]圖3a為某文本內(nèi)容及其用戶信息的示意圖;
[0063]圖3b為利用貝葉斯分類方法訓(xùn)練得到貝葉斯詞典示意圖;
[0064]圖3c為利用費(fèi)舍爾分類方法訓(xùn)練得到費(fèi)舍爾詞典示意圖;
[0065]圖3d為統(tǒng)計(jì)得到的用戶名詞典示意圖;
[0066]圖3e為統(tǒng)計(jì)得到的I P詞典示意圖;
[0067]圖4為本發(fā)明實(shí)施例三提供的文本分類方法流程圖;
[0068]圖5為本發(fā)明實(shí)施例三對(duì)圖3a的文本進(jìn)行處理結(jié)果示意圖;
[0069]圖6為本發(fā)明實(shí)施例四提供的文本分類裝置示意圖;
[0070]圖7為本發(fā)明實(shí)施例五提供的文本分類裝置示意圖;
[0071]圖8為本發(fā)明實(shí)施例六提供的文本分類裝置示意圖。
【【具體實(shí)施方式】】
[0072]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0073]實(shí)施例一、
[0074]圖1是本實(shí)施例提供的文本分類方法流程圖,如圖1所示,該方法包括:
[0075]S101、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換。
[0076]先將待處理文本中的特定符號(hào),如英文符號(hào)“<> ~_$% ()+ = |\”,中文符號(hào)“《》YO--? ”,轉(zhuǎn)義字符“\n\t\r\n”以及空格等用固定字符替換。
[0077]固定字符串可以但不限于采用相同的字符重復(fù)疊加成長(zhǎng)度多于I的字符串。例如,采用四個(gè)“$”字符疊加的固定字符串“$$$$”等等。對(duì)于待處理文本中除了文字和數(shù)字以外的每個(gè)字符都采用該固定字符串“$$$$”去替換。舉個(gè)例子,對(duì)于“〈一一賺錢方法——:””?》:>>>/”這一待處理文本,采用固定字符串“$$$$”去替換后,變?yōu)?br>
【權(quán)利要求】
1.一種文本分類方法,其特征在于,包括以下步驟: 51、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換; 52、統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度,計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例; 53、利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例,計(jì)算所述待處理文本的作弊特征指標(biāo); 54、將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟SI之前,還包括: 針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理,除去常見的標(biāo)點(diǎn)符號(hào); 所述步驟SI僅對(duì)剩余的字符采用預(yù)設(shè)的固定字符串進(jìn)行替換。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S3之前,還包括: 找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù),得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重; 所述步驟S3利用得到的鏈接權(quán)重和號(hào)碼權(quán)重,與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán),得到所述待處理文本的作弊特征指標(biāo),所述鏈接權(quán)重和號(hào)碼權(quán)重越大,所述作弊特征指標(biāo)越大。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 確定提交所述待處理文本的用戶`名和IP地址; 在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù),利用該用戶提交的正常文本和垃圾文本的數(shù)量計(jì)算得到作弊用戶指標(biāo); 所述步驟S4利用所述作弊用戶指標(biāo)與所述作弊特征指標(biāo)進(jìn)行加權(quán)或相乘,將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述用戶名詞典和IP詞典的建立方法,具體包括: 獲取包含正常文本和垃圾文本的樣本語料; 記錄提交所述樣本語料中各文本的用戶名和IP地址; 分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量,生成用戶名詞典和IP詞典。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的貝葉斯詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的貝葉斯指標(biāo); 所述步驟S4利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的費(fèi)舍爾詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的費(fèi)舍爾指標(biāo); 所述步驟S4利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
8.一種文本分類裝置,其特征在于,包括: 字符替換模塊,用于將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換; 文字含量計(jì)算模塊,用于統(tǒng)計(jì)經(jīng)過所述字符替換模塊替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度,計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例; 作弊特征指標(biāo)計(jì)算模塊,用于利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例,計(jì)算所述待處理文本的作弊特征指標(biāo); 分類模塊,用于將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述字符替換模塊的配置包括: 用于針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理,除去常見的標(biāo)點(diǎn)符號(hào); 僅對(duì)所述預(yù)處理模塊處理后剩余的字符進(jìn)行替換。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括: 數(shù)字符號(hào)統(tǒng)計(jì)模塊,用于找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù),得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重; 所述作弊特征指標(biāo)計(jì)算模塊利用得到的鏈接權(quán)重和號(hào)碼權(quán)重,與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán),得到所述待處理文本的作弊特征指標(biāo),所述鏈接權(quán)重和號(hào)碼權(quán)重越大,所述作弊特征指標(biāo)越大。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括: 用戶信息提取模塊,用于確定提交所述待處理文本的用戶名和IP地址; 作弊用戶指標(biāo)計(jì)算模塊,用于在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù),利用所述待處理文本的用戶名或IP地址歷史提交的垃圾文本的比例計(jì)算得到作弊用戶指標(biāo); 所述分類模塊,還用于將所述作弊用戶指標(biāo)和作弊特征指標(biāo)進(jìn)行加權(quán)或相乘,將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述用戶名詞典和IP詞典的建立模塊,具體包括: 語料獲取單元,用于獲取包含正常文本和垃圾文本的樣本語料; 用戶信息記錄單元,用于記錄提交所述樣本語料中各文本的用戶名和IP地址; 統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量,生成用戶名詞典和IP詞典。
13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括: 貝葉斯指標(biāo)計(jì)算模塊,用于對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的貝葉斯詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的貝葉斯指標(biāo),并將所述貝葉斯指標(biāo)提供給所述分類模塊; 所述分類模塊,還用于利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括: 費(fèi)舍爾指標(biāo)計(jì)算模塊,用于對(duì)所述待處理文本進(jìn)行分詞,利用預(yù)先構(gòu)建的費(fèi)舍爾詞典,查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率,并計(jì)算所述待處理文本為垃圾文本的概率,作為所述待處理文本的費(fèi)舍爾指標(biāo),并將所述費(fèi)舍爾指標(biāo)提供給所述分類模塊; 所述分類模塊,還用于利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán),將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
【文檔編號(hào)】G06F17/30GK103514174SQ201210206020
【公開日】2014年1月15日 申請(qǐng)日期:2012年6月18日 優(yōu)先權(quán)日:2012年6月18日
【發(fā)明者】程童 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司