一種文本分類方法和裝置制造方法

文檔序號(hào)：6486343閱讀：117來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種文本分類方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種文本分類方法和裝置，該方法包括：將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換；統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度，計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例；利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例，計(jì)算所述待處理文本的作弊特征指標(biāo)；將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。本發(fā)明可以有效彌補(bǔ)現(xiàn)有機(jī)器學(xué)習(xí)方法的不足，提高分類的準(zhǔn)確率。
【專利說明】一種文本分類方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息【技術(shù)領(lǐng)域】，特別涉及一種文本分類方法和裝置。
【【背景技術(shù)】】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展，越來越多的用戶利用互聯(lián)網(wǎng)進(jìn)行信息交流和資源共享，網(wǎng)絡(luò)信息量也日益劇增。然而，互聯(lián)網(wǎng)的開放性也導(dǎo)致在網(wǎng)絡(luò)中存在很多不良信息，因此，對(duì)互聯(lián)網(wǎng)的信息進(jìn)行監(jiān)控、過濾和分類已經(jīng)成為普遍需求。
[0003]評(píng)論(或者稱為留言，回復(fù)等)是互聯(lián)網(wǎng)社區(qū)類產(chǎn)品的一項(xiàng)重要功能，是形成產(chǎn)品互動(dòng)氛圍的一個(gè)重要渠道。因其發(fā)布代價(jià)小，受眾廣，效果持久，從評(píng)論功能產(chǎn)生開始便受到垃圾信息的困擾，包括各種廣告鏈接，推廣信息，黃反信息等各類信息。代發(fā)廣告甚至成為一個(gè)產(chǎn)業(yè)，其發(fā)帖方式也由手動(dòng)發(fā)帖變?yōu)闄C(jī)器自動(dòng)發(fā)帖，并且其技術(shù)越來越先進(jìn)，不斷突破各種反作弊措施。
[0004]現(xiàn)有應(yīng)對(duì)這種垃圾信息的主要手段包括兩大類:一類是機(jī)制上的方法，包括人工審核，用戶等級(jí)或用戶群組制度，嚴(yán)格的用戶準(zhǔn)入制度等。另一類是技術(shù)上的方法，可分為兩種方式，一種是機(jī)械式的，包括驗(yàn)證碼、敏感詞過濾、頻率控制、黑名單、相似文本策略等；另一種是智能式的，主要包括各種機(jī)器學(xué)習(xí)的方法，例如樸素貝葉斯，費(fèi)舍爾，支持向量機(jī)，神經(jīng)網(wǎng)絡(luò)等。
[0005]其中，機(jī)制上的方法主要是增加了發(fā)帖的代價(jià)，但抑制了垃圾文本制造者(spammer)的同時(shí)，也讓一般的用戶難以發(fā)帖，在開放程度高的社區(qū)中比較難以接受。機(jī)械式的方法是針對(duì)有固定特征的垃圾信息，一旦被spammer 了解，就很容易被繞過。智能式的方法具備一定的辨識(shí)能力，但因?qū)W`習(xí)機(jī)制、訓(xùn)練語料等的差異，實(shí)施起來有一定難度，其主要考慮的因素是其對(duì)垃圾信息和正常信息辨識(shí)的準(zhǔn)確率和召回率。
[0006]現(xiàn)有的這幾種方式對(duì)純文本的判斷較為有效，然而對(duì)于以下幾種文本進(jìn)行分類的效果都不理想。一、對(duì)于夾雜大量標(biāo)點(diǎn)符號(hào)及空白、制表符或換行符的文本，誤判率較高。一方面，由于在進(jìn)行分詞處理時(shí)，標(biāo)點(diǎn)符號(hào)一般都會(huì)被過濾掉并不會(huì)作為分詞結(jié)果返回，導(dǎo)致無法判斷出這些大量夾雜標(biāo)點(diǎn)符號(hào)等的垃圾文本；另一方面，標(biāo)點(diǎn)符號(hào)及停用詞并不反映語義，在正常文本和垃圾文本中出現(xiàn)頻率相近，無法有效支撐后驗(yàn)概率，從而影響機(jī)器分類的準(zhǔn)確率。二、對(duì)于文本主要成分為網(wǎng)址鏈接，QQ號(hào)，手機(jī)號(hào)等分類效果也不太好，因?yàn)榉衷~無法切出有效文本內(nèi)容，準(zhǔn)確率不高。三、對(duì)于無意義的回答判斷效果不好，例如當(dāng)用戶作弊方式為頭像廣告時(shí)，會(huì)大量發(fā)“很好的經(jīng)驗(yàn)”，“效果不錯(cuò)，非常贊”之類的評(píng)論。當(dāng)這樣的文本大量出現(xiàn)在垃圾文本的訓(xùn)練語料中時(shí)，還會(huì)對(duì)正常評(píng)論的分類效果造成一定影響，導(dǎo)致準(zhǔn)確率降低。
【
【發(fā)明內(nèi)容】
】
[0007]有鑒于此，本發(fā)明提供了一種文本分類方法和裝置，能夠?qū)Ω黝愇谋具M(jìn)行有效準(zhǔn)確地辨識(shí)，提高分類的準(zhǔn)確率。[0008]具體技術(shù)方案如下:
[0009]一種文本分類方法，該方法包括以下步驟:
[0010]S1、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換；
[0011]S2、統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度，計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例；
[0012]S3、利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例，計(jì)算所述待處理文本的作弊特征指標(biāo)；
[0013]S4、將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，在所述步驟SI之前，還包括:
[0015]針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理，除去常見的標(biāo)點(diǎn)符號(hào);
[0016]所述步驟SI僅對(duì)剩余的字符采用預(yù)設(shè)的固定字符串進(jìn)行替換。
[0017]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，在所述步驟S3之前，還包括:
[0018]找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù)，得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重；
[0019]所述步驟S3利用得到的鏈接權(quán)重和號(hào)碼權(quán)重，與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán)，得到所述待處理文本的作弊特征指標(biāo)，所述鏈接權(quán)重和號(hào)碼權(quán)重越大，所述作弊特征指標(biāo)越大。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該方法還包括:
[0021]確定提交所述待處理文本的用戶名和IP地址；
[0022]在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù)，利用該用戶提交的正常文本和垃圾文本的數(shù)量計(jì)算得到作弊用戶指標(biāo)；
[0023]所述步驟S4利用所述作弊用戶指標(biāo)與所述作弊特征指標(biāo)進(jìn)行加權(quán)或相乘，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0024]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述用戶名詞典和IP詞典的建立方法，具體包括:
[0025]獲取包含正常文本和垃圾文本的樣本語料；
[0026]記錄提交所述樣本語料中各文本的用戶名和IP地址；
[0027]分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量，生成用戶名詞典和IP詞典。
[0028]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該方法還包括:
[0029]對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的貝葉斯詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的貝葉斯指標(biāo)；
[0030]所述步驟S4利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0031]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該方法還包括:
[0032]對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的費(fèi)舍爾詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的費(fèi)舍爾指標(biāo)；[0033]所述步驟S4利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0034]一種文本分類裝置，該裝置包括:
[0035]字符替換模塊，用于將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換；
[0036]文字含量計(jì)算模塊，用于統(tǒng)計(jì)經(jīng)過所述字符替換模塊替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度，計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例；
[0037]作弊特征指標(biāo)計(jì)算模塊，用于利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例，計(jì)算所述待處理文本的作弊特征指標(biāo)；
[0038]分類模塊，用于將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0039]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述字符替換模塊的配置包括:
[0040]用于針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理，除去常見的標(biāo)點(diǎn)符號(hào)；
[0041]僅對(duì)所述預(yù)處理模塊處理后剩余的字符進(jìn)行替換。
[0042]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:
[0043]數(shù)字符號(hào)統(tǒng)計(jì)模塊，用于找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù)，得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重；
[0044]所述作弊特征指標(biāo)計(jì)算模塊利用得到的鏈接權(quán)重和號(hào)碼權(quán)重，與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán)，得到所述待處理文本的作弊特征指標(biāo)，所述鏈接權(quán)重和號(hào)碼權(quán)重越大，所述作弊特征指標(biāo)越大。
[0045]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:
[0046]用戶信息提取模塊，用于確定提交所述待處理文本的用戶名和IP地址；
[0047]作弊用戶指標(biāo)計(jì)算模塊，用于在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù)，利用所述待處理文本的用戶名或IP地址歷史提交的垃圾文本的比例計(jì)算得到作弊用戶指標(biāo)；
[0048]所述分類模塊，還用于將所述作弊用戶指標(biāo)和作弊特征指標(biāo)進(jìn)行加權(quán)或相乘，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0049]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述用戶名詞典和IP詞典的建立模塊，具體包括:
[0050]語料獲取單元，用于獲取包含正常文本和垃圾文本的樣本語料；
[0051]用戶信息記錄單元，用于記錄提交所述樣本語料中各文本的用戶名和IP地址；
[0052]統(tǒng)計(jì)單元，用于分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量，生成用戶名詞典和IP詞典。
[0053]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:
[0054]貝葉斯指標(biāo)計(jì)算模塊，用于對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的貝葉斯詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的貝葉斯指標(biāo)，并將所述貝葉斯指標(biāo)提供給所述分類模塊；
[0055]所述分類模塊，還用于利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。[0056]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，該裝置還包括:
[0057]費(fèi)舍爾指標(biāo)計(jì)算模塊，用于對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的費(fèi)舍爾詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的費(fèi)舍爾指標(biāo)，并將所述費(fèi)舍爾指標(biāo)提供給所述分類模塊；
[0058]所述分類模塊，還用于利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
[0059]由以上技術(shù)方案可以看出，本發(fā)明提供的文本分類方法和裝置，利用字符替換的方式得到膨脹的作弊特征，對(duì)用戶的提交行為進(jìn)行輔助驗(yàn)證，可以有效地識(shí)別夾雜大量特殊符號(hào)、轉(zhuǎn)義字符和鏈接的文本，以及頭像廣告作弊用戶大量發(fā)布的無意義文本，尤其對(duì)于諸如社區(qū)或論壇的評(píng)論、回復(fù)、留言等的短文本，提高了辨識(shí)準(zhǔn)確度，并與機(jī)器學(xué)習(xí)的方法相結(jié)合，有效彌補(bǔ)現(xiàn)有機(jī)器學(xué)習(xí)方法的不足，提高分類的準(zhǔn)確率。
【【專利附圖】

【附圖說明】】
[0060]圖1為本發(fā)明實(shí)施例一提供的文本分類方法流程圖；
[0061]圖2為本發(fā)明實(shí)施例二提供的文本分類方法流程圖；
[0062]圖3a為某文本內(nèi)容及其用戶信息的示意圖；
[0063]圖3b為利用貝葉斯分類方法訓(xùn)練得到貝葉斯詞典示意圖；
[0064]圖3c為利用費(fèi)舍爾分類方法訓(xùn)練得到費(fèi)舍爾詞典示意圖；
[0065]圖3d為統(tǒng)計(jì)得到的用戶名詞典示意圖；
[0066]圖3e為統(tǒng)計(jì)得到的I P詞典示意圖；
[0067]圖4為本發(fā)明實(shí)施例三提供的文本分類方法流程圖；
[0068]圖5為本發(fā)明實(shí)施例三對(duì)圖3a的文本進(jìn)行處理結(jié)果示意圖；
[0069]圖6為本發(fā)明實(shí)施例四提供的文本分類裝置示意圖；
[0070]圖7為本發(fā)明實(shí)施例五提供的文本分類裝置示意圖；
[0071]圖8為本發(fā)明實(shí)施例六提供的文本分類裝置示意圖。
【【具體實(shí)施方式】】
[0072]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0073]實(shí)施例一、
[0074]圖1是本實(shí)施例提供的文本分類方法流程圖，如圖1所示，該方法包括:
[0075]S101、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換。
[0076]先將待處理文本中的特定符號(hào)，如英文符號(hào)“<> ~_$% ()+ = |\”，中文符號(hào)“《》YO--? ”，轉(zhuǎn)義字符“\n\t\r\n”以及空格等用固定字符替換。
[0077]固定字符串可以但不限于采用相同的字符重復(fù)疊加成長(zhǎng)度多于I的字符串。例如，采用四個(gè)“$”字符疊加的固定字符串“$$$$”等等。對(duì)于待處理文本中除了文字和數(shù)字以外的每個(gè)字符都采用該固定字符串“$$$$”去替換。舉個(gè)例子，對(duì)于“〈一一賺錢方法——:””？》:>>>/”這一待處理文本，采用固定字符串“$$$$”去替換后，變?yōu)?br> 【權(quán)利要求】
1.一種文本分類方法，其特征在于，包括以下步驟: 51、將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換； 52、統(tǒng)計(jì)替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度，計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例； 53、利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例，計(jì)算所述待處理文本的作弊特征指標(biāo)； 54、將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述步驟SI之前，還包括: 針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理，除去常見的標(biāo)點(diǎn)符號(hào)；所述步驟SI僅對(duì)剩余的字符采用預(yù)設(shè)的固定字符串進(jìn)行替換。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述步驟S3之前，還包括: 找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù)，得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重；所述步驟S3利用得到的鏈接權(quán)重和號(hào)碼權(quán)重，與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán)，得到所述待處理文本的作弊特征指標(biāo)，所述鏈接權(quán)重和號(hào)碼權(quán)重越大，所述作弊特征指標(biāo)越大。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法還包括: 確定提交所述待處理文本的用戶`名和IP地址；在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù)，利用該用戶提交的正常文本和垃圾文本的數(shù)量計(jì)算得到作弊用戶指標(biāo)；所述步驟S4利用所述作弊用戶指標(biāo)與所述作弊特征指標(biāo)進(jìn)行加權(quán)或相乘，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述用戶名詞典和IP詞典的建立方法，具體包括: 獲取包含正常文本和垃圾文本的樣本語料；記錄提交所述樣本語料中各文本的用戶名和IP地址；分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量，生成用戶名詞典和IP詞典。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法還包括: 對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的貝葉斯詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的貝葉斯指標(biāo)；所述步驟S4利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，該方法還包括: 對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的費(fèi)舍爾詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的費(fèi)舍爾指標(biāo)；所述步驟S4利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
8.一種文本分類裝置，其特征在于，包括: 字符替換模塊，用于將待處理文本中除文字和數(shù)字以外的每個(gè)字符采用預(yù)設(shè)的固定字符串替換；文字含量計(jì)算模塊，用于統(tǒng)計(jì)經(jīng)過所述字符替換模塊替換后的文本總長(zhǎng)度和文本中包含的文字長(zhǎng)度，計(jì)算所述文字長(zhǎng)度與文本總長(zhǎng)度的比例；作弊特征指標(biāo)計(jì)算模塊，用于利用所述文字長(zhǎng)度與文本總長(zhǎng)度的比例，計(jì)算所述待處理文本的作弊特征指標(biāo)；分類模塊，用于將所述作弊特征指標(biāo)超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述字符替換模塊的配置包括: 用于針對(duì)所述待處理文本中除文字和數(shù)字以外的字符進(jìn)行預(yù)處理，除去常見的標(biāo)點(diǎn)符號(hào); 僅對(duì)所述預(yù)處理模塊處理后剩余的字符進(jìn)行替換。
10.根據(jù)權(quán)利要求8所述的裝置，其特征在于，該裝置還包括: 數(shù)字符號(hào)統(tǒng)計(jì)模塊，用于找出所述待處理文本中包含的鏈接、號(hào)碼及郵箱的個(gè)數(shù)，得到所述待處理文本的鏈接權(quán)重和號(hào)碼權(quán)重；所述作弊特征指標(biāo)計(jì)算模塊利用得到的鏈接權(quán)重和號(hào)碼權(quán)重，與所述文字長(zhǎng)度與文本總長(zhǎng)度的比例的減函數(shù)進(jìn)行加權(quán)，得到所述待處理文本的作弊特征指標(biāo)，所述鏈接權(quán)重和號(hào)碼權(quán)重越大，所述作弊特征指標(biāo)越大。
11.根據(jù)權(quán)利要求8所述的裝置，其特征在于，該裝置還包括: 用戶信息提取模塊，用于確定提交所述待處理文本的用戶名和IP地址；作弊用戶指標(biāo)計(jì)算模塊，用于在預(yù)先構(gòu)建的用戶名詞典或IP詞典中查找所述用戶名或IP地址對(duì)應(yīng)的提交狀況數(shù)據(jù)，利用所述待處理文本的用戶名或IP地址歷史提交的垃圾文本的比例計(jì)算得到作弊用戶指標(biāo)；所述分類模塊，還用于將所述作弊用戶指標(biāo)和作弊特征指標(biāo)進(jìn)行加權(quán)或相乘，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
12.根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述用戶名詞典和IP詞典的建立模塊，具體包括: 語料獲取單元，用于獲取包含正常文本和垃圾文本的樣本語料；用戶信息記錄單元，用于記錄提交所述樣本語料中各文本的用戶名和IP地址；統(tǒng)計(jì)單元，用于分別統(tǒng)計(jì)各用戶名和IP地址上傳的文本中對(duì)應(yīng)被標(biāo)記為正常文本和垃圾文本的數(shù)量，生成用戶名詞典和IP詞典。
13.根據(jù)權(quán)利要求8所述的裝置，其特征在于，該裝置還包括: 貝葉斯指標(biāo)計(jì)算模塊，用于對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的貝葉斯詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的貝葉斯指標(biāo)，并將所述貝葉斯指標(biāo)提供給所述分類模塊；所述分類模塊，還用于利用所述貝葉斯指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
14.根據(jù)權(quán)利要求8所述的裝置，其特征在于，該裝置還包括: 費(fèi)舍爾指標(biāo)計(jì)算模塊，用于對(duì)所述待處理文本進(jìn)行分詞，利用預(yù)先構(gòu)建的費(fèi)舍爾詞典，查找得到的各詞項(xiàng)對(duì)應(yīng)的正常概率和垃圾概率，并計(jì)算所述待處理文本為垃圾文本的概率，作為所述待處理文本的費(fèi)舍爾指標(biāo)，并將所述費(fèi)舍爾指標(biāo)提供給所述分類模塊；所述分類模塊，還用于利用所述費(fèi)舍爾指標(biāo)與所述作弊特征指標(biāo)進(jìn)行相乘或加權(quán)，將計(jì)算結(jié)果超過預(yù)設(shè)閾值的待處理文本確定為垃圾文本。
【文檔編號(hào)】G06F17/30GK103514174SQ201210206020
【公開日】2014年1月15日申請(qǐng)日期:2012年6月18日優(yōu)先權(quán)日:2012年6月18日
【發(fā)明者】程童申請(qǐng)人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程童
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

上一篇：一種三維驗(yàn)證碼的實(shí)現(xiàn)方法
上一篇：電子裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本分類方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

文本分類的方法相關(guān)技術(shù)

文本情感分類方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本分類方法和裝置制造方法