一種垃圾模板文章識別方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種垃圾模板文章識別方法和設(shè)備,屬于網(wǎng)絡(luò)通訊領(lǐng)域。該方法包括:對符合條件的微博文章提取特征,生成文章特征;其中,文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征;獲取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且垃圾模板特征的提取方式與微博文章特征的提取方式相同;當(dāng)文章特征與垃圾模板列表中的垃圾模板特征相同時,判定微博文章為垃圾模板文章。該設(shè)備包括:特征提取模塊、獲取模塊、識別模塊。本發(fā)明通過提取微博文章的多個特征來判斷微博文章是否為垃圾模板文章,解決了目前微博平臺中無法有效識別從而導(dǎo)致浪費搜索引擎資源的問題。
【專利說明】一種垃圾模板文章識別方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)通訊領(lǐng)域,特別涉及一種垃圾模板文章識別方法和設(shè)備。
【背景技術(shù)】
[0002]隨著微博的飛速發(fā)展,某些微博用戶為了達到廣告或活動宣傳的目的制作微博APP (application,應(yīng)用程序),發(fā)文吸引其他用戶點擊并自動發(fā)表轉(zhuǎn)播文章,在短時間內(nèi)制造大量的格式相似的模板文章,這就造成在微博平臺中,垃圾模板文章大量存在。這些垃圾模板文章一般都是重復(fù)的,或者根據(jù)轉(zhuǎn)發(fā)人的個人信息或某種規(guī)律隨機的修改某些文字,包含的信息量非常少,但是數(shù)據(jù)量卻很大,據(jù)統(tǒng)計垃圾模板文章約占全量博文的10%。如果不對這些垃圾模板文章進行識別以及過濾,會極大的浪費搜索引擎資源,大量的重復(fù)模板也會嚴(yán)重影響用戶體驗。
[0003]同一類的垃圾模板文章具有某些共性特征,目前,主要通過人工對文章所包含的語義進行分析,從而判斷某一篇微博文章是否為垃圾模板文章。
[0004]在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0005]人工識別的方式速度比較慢,效率較低,無法應(yīng)對微博平臺龐大的數(shù)據(jù)量,不可能對每篇微博文章都進行人工識別。
【發(fā)明內(nèi)容】
[0006]為了有效解決目前微博平臺中大量的垃圾模板文章無法有效識別從而導(dǎo)致浪費搜索引擎資源且嚴(yán)重影響用戶體驗的問題,本發(fā)明實施例提供了一種垃圾模板文章識別方法和設(shè)備。所述技術(shù)方案如下:
[0007]本發(fā)明實施例提供了一種垃圾模板文章識別方法,所述方法包括:
[0008]對符合條件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征;
[0009]獲取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且所述垃圾模板特征的提取方式與所述微博文章特征的提取方式相同;
[0010]當(dāng)所述文章特征與所述垃圾模板列表中的垃圾模板特征相同時,判定所述微博文章為垃圾模板文章。
[0011]具體地,所述符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章,所述對符合條件的微博文章提取特征之前,還包括:
[0012]將所述符合條件的微博文章中的數(shù)字以及字母去掉,并將所述微博文章中的各種括號中的內(nèi)容去掉保留所述括號。
[0013]具體地,所述對符合條件的微博文章提取特征,包括:
[0014]將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號;
[0015]在所述每個分段中,提取所述分段的標(biāo)點,并將提取的所述標(biāo)點組成字符串,生成所述標(biāo)點特征;
[0016]在所述每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的所述話題以及所述分段編號組成字符串,生成所述話題特征;
[0017]在所述每個分段中,提取有括號的分段對應(yīng)的分段編號和所述分段對應(yīng)的括號類型,將提取的所述分段編號以及所述括號類型組成字符串,生成所述括號特征;
[0018]在所述每個分段中,根據(jù)所述每個分段中是否有鏈接而生成序列,作為所述鏈接特征;
[0019]在所述每個分段中,根據(jù)所述每個分段中是否有賬戶名標(biāo)識而生成序列,作為所述賬戶名特征。
[0020]進一步地,所述文章特征還包括內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括:
[0021]在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
[0022]進一步地,所述文章特征還包括前段內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括:
[0023]在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
[0024]進一步地,所述文章特征還包括后段內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括:
[0025]在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
[0026]本發(fā)明實施例還提供了一種垃圾模板文章識別設(shè)備,所述設(shè)備包括:
[0027]特征提取模塊,用于對符合條件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征;
[0028]獲取模塊,用于獲取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且所述垃圾模板特征的提取方式與所述微博文章特征的提取方式相同;
[0029]識別模塊,用于當(dāng)所述文章特征與所述垃圾模板列表中的垃圾模板特征相同時,判定所述微博文章為垃圾模板文章。
[0030]具體地,所述設(shè)備還包括:
[0031]預(yù)處理模塊,用于對符合條件的微博文章提取特征之前,將所述微博文章中的數(shù)字以及字母去掉,并將所述微博文章中的各種括號中的內(nèi)容去掉保留所述括號;所述符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章。
[0032]具體地,所述特征提取模塊,包括:
[0033]分段單元,用于將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號;
[0034]標(biāo)點特征單元,用于在所述每個分段中,提取所述分段的標(biāo)點,并將提取的所述標(biāo)點組成字符串,生成所述標(biāo)點特征;
[0035]話題特征單元,用于在所述每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的所述話題以及所述分段編號組成字符串,生成所述話題特征;
[0036]括號特征單元,用于在所述每個分段中,提取有括號的分段對應(yīng)的分段編號和所述分段對應(yīng)的括號類型,將提取的所述分段編號以及所述括號類型組成字符串,生成所述括號特征;鏈接特征單元,用于在所述每個分段中,根據(jù)所述每個分段中是否有鏈接而生成序列,作為所述鏈接特征;
[0037]賬戶名特征單元,用于在所述每個分段中,根據(jù)所述每個分段中是否有賬戶名標(biāo)識而生成序列,作為所述賬戶名特征。
[0038]進一步地,所述特征提取模塊,還包括:
[0039]內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
[0040]進一步地,所述特征提取模塊,還包括:
[0041 ] 前段內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
[0042]進一步地,所述特征提取模塊,還包括:
[0043]后段內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
[0044]本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0045]本發(fā)明實施例提供的垃圾模板文章識別方法和設(shè)備,通過提取微博文章的多個特征來判斷微博文章是否為垃圾模板文章并對判定為垃圾模板的文章不予顯示,解決了目前微博平臺中大量的垃圾模板文章無法有效識別從而導(dǎo)致浪費搜索引擎資源的問題,提高了用戶使用體驗。
【專利附圖】
【附圖說明】
[0046]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0047]圖1是本發(fā)明實施例一提供的一種垃圾模板文章識別方法的流程圖;
[0048]圖2是本發(fā)明實施例二提供的一種垃圾模板文章識別方法的流程圖;
[0049]圖3是本發(fā)明實施例三提供的一種垃圾模板文章識別設(shè)備的結(jié)構(gòu)示意圖;
[0050]圖4是本發(fā)明實施例三提供的一種垃圾模板文章識別設(shè)備的另一結(jié)構(gòu)示意圖。
【具體實施方式】
[0051]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細(xì)描述。
[0052]實施例一
[0053]圖1是本發(fā)明實施例提供了一種垃圾模板文章識別方法的流程圖,參見圖1,該實施例包括:
[0054]101、對符合條件的微博文章提取特征,生成文章特征;其中,文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征;
[0055]102、獲取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且垃圾模板特征的提取方式與微博文章特征的提取方式相同;
[0056]103、當(dāng)文章特征與垃圾模板列表中的垃圾模板特征相同時,判定微博文章為垃圾模板文章。
[0057]具體地,本發(fā)明實施例中的符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章,對符合條件的微博文章提取特征之前,還包括:
[0058]將符合條件的微博文章中的數(shù)字以及字母去掉,并將微博文章中的各種括號中的內(nèi)容去掉保留括號。
[0059]具體地,對符合條件的微博文章提取特征,包括:
[0060]將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號;
[0061]在每個分段中,提取分段的標(biāo)點,并將提取的標(biāo)點組成字符串,生成標(biāo)點特征;
[0062]在每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的話題以及分段編號組成字符串,生成話題特征;
[0063]在每個分段中,提取有括號的分段對應(yīng)的分段編號和分段對應(yīng)的括號類型,將提取的分段編號以及括號類型組成字符串,生成括號特征;
[0064]在每個分段中,根據(jù)每個分段中是否有鏈接而生成序列,作為鏈接特征;
[0065]在每個分段中,根據(jù)每個分段中是否有賬戶名標(biāo)識而生成序列,作為賬戶名特征。
[0066]進一步地,文章特征還包括內(nèi)容特征,相應(yīng)地對符合條件的微博文章提取特征,還包括:
[0067]在每個分段中,將每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
[0068]進一步地,文章特征還包括前段內(nèi)容特征,相應(yīng)地對符合條件的微博文章提取特征,還包括:
[0069]在每個分段中,將每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
[0070]進一步地,文章特征還包括后段內(nèi)容特征,相應(yīng)地對符合條件的微博文章提取特征,還包括:
[0071]在每個分段中,將每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
[0072]本發(fā)明實施例提供的垃圾模板文章識別方法,通過對微博文章的多個特征來判斷文章是否為垃圾模板文章并對判為垃圾模板的文章不予顯示,解決了目前微博中大量的垃圾模板文章無法有效識別從而導(dǎo)致浪費搜索引擎資源的問題,提高了用戶使用體驗。
[0073]實施例二
[0074]圖2是本發(fā)明實施例提供了一種垃圾模板文章識別方法的流程圖。參見圖2,該實施例包括:[0075]201、獲取垃圾模板文章,并對垃圾模板文章分別進行預(yù)處理和特征提取,并生成垃圾模板特征存儲在垃圾模板列表中;
[0076]具體地,該步驟可以包括預(yù)處理和特征提取兩個步驟:
[0077]( I)獲取垃圾模板文章,并對垃圾模板文章分別進行預(yù)處理:
[0078]垃圾模板文章一般為原創(chuàng)形式且同時包含鏈接和圖片,將微博文章中的數(shù)字以及字母去掉,并將微博文章中的各種括號中的內(nèi)容去掉保留括號。
[0079]比如“QQ等級加速443天”和“QQ等級加速373天”,該類垃圾模板文章除了里面的數(shù)字不一樣,其他的都一樣,因此去掉字母數(shù)字更能提高模板的召回率;由于有些類模板僅改變括號里面的內(nèi)容,所以將文章中各種括號如0,[],〈>,(),【】,《》,“”等中的內(nèi)容去掉,括號本身要保留,供后續(xù)特征提取時使用,
[0080](2)對預(yù)處理后的垃圾模板文章提取特征,分別生成包含全部內(nèi)容特征的垃圾模板特征、包含前段內(nèi)容特征的垃圾模板特征和包含后段內(nèi)容特征的垃圾模板特征,包括:
[0081]將預(yù)處理后的垃圾模板文章以標(biāo)點比如逗號、句號、感嘆號、問號、分號進行分段,按順序依次生成分段編號;
[0082]a、在每個分段中,按順序在每個分段中提取分段的標(biāo)點,將提取的標(biāo)點組成字符串,生成標(biāo)點特征;
[0083]b、在每個分段中,判斷是否有話題,如果分段中有話題,則提取該分段對應(yīng)的話題和對應(yīng)的分段編號,并將提取的話題以及分段編號組成字符串,生成話題特征;比如第2分段有#話題1#和第4分段有#話題2#,則生成“話題I,2 ;話題2,4” ;
[0084]C、在每個分段中,提取有括號的分段對應(yīng)的分段編號和所述分段對應(yīng)的括號類型,將提取的所述分段編號以及所述括號類型組成字符串,生成所述括號特征;比如第I分段中有(),第3分段中{},則生成“I (),3{}”;
[0085]d、在每個分段中,根據(jù)每個分段中是否有鏈接而生成序列,作為鏈接特征;比如第
1、2分段中如果有鏈接則為1,第3、4分段中如果沒有鏈接則為0,生成“1100” ;
[0086]e、在每個分段中,根據(jù)每個分段中是否有賬戶名標(biāo)識而生成序列,作為賬戶名特征;比如第1、3分段中如果有賬戶名標(biāo)識則為1,第2、4分段中如果沒有賬戶名標(biāo)識則為0,生成 “1010” ;
[0087]f、在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征;
[0088]g、在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征;比如可以取內(nèi)容的前4個字節(jié),生成前段內(nèi)容特征;
[0089]h、在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征;比如可以取內(nèi)容的后4個字節(jié),生成后段內(nèi)容特征;
[0090]可以將上述標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及內(nèi)容特征,按順序組合生成包含內(nèi)容特征的垃圾模板特征;
[0091]也可以將標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及前段內(nèi)容特征,按順序組合生成包含前段內(nèi)容特征的垃圾模板特征;[0092]還可以將標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及后段內(nèi)容特征,按順序組合生成包含后段內(nèi)容特征的垃圾模板特征。
[0093]需要說明的是,上述標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及內(nèi)容特征、前段內(nèi)容特征、后段內(nèi)容特征的提取先后順序可以相互調(diào)換,對此本發(fā)明實施例不做限制,但是需要按照提取特征的先后順序生成相應(yīng)地包含全部內(nèi)容特征的垃圾模板特征、包含前段內(nèi)容特征的垃圾模板特征和包含后段內(nèi)容特征的垃圾模板特征,并且后續(xù)的對微博文章提取特征時的先后順序與垃圾模板特征提取時的先后順序要相同。
[0094](3)將生成的包含全部內(nèi)容特征的垃圾模板特征、包含前段內(nèi)容特征的垃圾模板特征和包含后段內(nèi)容特征的垃圾模板特征保存到垃圾模板列表中; [0095]需要特別說明的是,本發(fā)明實施例的垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且垃圾模板特征的提取方式與后續(xù)的微博文章特征的提取方式相同;比如按照每12小時定時對滿足條件的微博文章進行上述預(yù)處理和特征提取,分別生成包含內(nèi)容特征的文章特征、包含前段內(nèi)容特征的文章特征和包含后段內(nèi)容特征的文章特征,離線計算每個特征出現(xiàn)的頻率,當(dāng)頻率達到閾值時,認(rèn)定該文章為垃圾模板文章,并將提取到的3個包含內(nèi)容特征的文章特征、包含前段內(nèi)容特征的文章特征和包含后段內(nèi)容特征的文章特征判定為垃圾模板特征,保存到垃圾模板列表中,從而不斷更新垃圾模板列表中的垃圾模板特征。
[0096]202、獲取用戶發(fā)表的微博文章,并對微博文章進行預(yù)處理;
[0097](I)首先判定微博文章是否為原創(chuàng)形式以及是否包含鏈接和圖片;
[0098]其中,絕大多數(shù)垃圾模板文章都是以原創(chuàng)形式發(fā)表的,為了達到病毒式的宣傳效果模板一般都會包含鏈接,用戶點擊后自動發(fā)表,而且為了達到吸引眼球的目的,絕大多數(shù)垃圾模板文章都包含圖片。
[0099](2)當(dāng)微博文章為原創(chuàng)形式且同時包含鏈接和圖片時,將微博文章中的數(shù)字以及字母去掉,并將微博文章中的各種括號中的內(nèi)容去掉且保留括號。
[0100]首先,對滿足為原創(chuàng)形式且同時包含鏈接和圖片的微博文章,將其中的數(shù)字以及字母去掉,比如將“QQ等級加速443天”里面的數(shù)字443去掉;然后,由于有些類模板僅改變括號里面的內(nèi)容,所以將微博文章中各種括號如(),[],〈>,(),【】,《》,“”等中的內(nèi)容去掉,括號本身要保留,供后續(xù)特征提取時使用,
[0101]203、對上述預(yù)處理后的微博文章提取特征,生成文章特征;
[0102]具體地,該步驟提取特征的方式與上述步驟201相同,在此不再贅述。本步驟所提取的文章特征至少包括:標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征,其中還可以提取該微博文章的內(nèi)容特征、前段內(nèi)容特征、后段內(nèi)容特征。
[0103]其中,可以將上述提取的該微博文章的標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及內(nèi)容特征,按順序組合生成全部文章特征;
[0104]也可以將上述提取的該微博文章的標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及前段內(nèi)容特征,按順序組合生成前段文章特征;
[0105]還可以將上述提取的該微博文章的標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及后段內(nèi)容特征,按順序組合生成后段文章特征。
[0106]需要說明的是,上述標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征以及內(nèi)容特征、前段內(nèi)容特征、后段內(nèi)容特征的提取先后順序可以相互調(diào)換,對此本發(fā)明實施例不做限制,但是需要按照提取特征的先后順序生成相應(yīng)地文章特征、前段文章特征、后段文章特征,并且與步驟201生成的垃圾模板特征的先后順序相同。
[0107]204、獲取步驟201生成的垃圾模板列表中包含的垃圾模板特征;
[0108]具體地,獲取步驟201生成的包含全部內(nèi)容特征的垃圾模板特征、包含前段內(nèi)容特征的垃圾模板特征和包含后段內(nèi)容特征的垃圾模板特征。
[0109]205、當(dāng)文章特征與垃圾模板列表中的垃圾模板特征相同時,判定該微博文章為垃圾模板文章;
[0110]具體地,當(dāng)步驟203生成的全部文章特征、前段文章特征和后段文章特征中的任一特征與垃圾模板列表中的垃圾模板特征相同時,判定微博文章為垃圾模板文章;具體地,
[0111]當(dāng)全部文章特征與包含全部內(nèi)容特征的垃圾模板特征相同時,判定微博文章為垃圾模板文章;
[0112]或,
[0113]當(dāng)前段文章特征與包含前段內(nèi)容特征的垃圾模板特征相同時,判定微博文章為垃圾模板文章;
[0114]或,
[0115]當(dāng)后段文章特征與包含后段內(nèi)容特征的垃圾模板特征相同時,判定微博文章為垃圾模板文章。
[0116]當(dāng)滿足上述條件中的任一條件時,判定該微博文章為垃圾模板文章;如果僅用全部文章特征與包含全部內(nèi)容特征的垃圾模板特征匹配,那么可能由于某個名字的不同,就會導(dǎo)致本來是同一模板的微博文章識別不出來,因此增加包含前段內(nèi)容特征的垃圾模板特征和包含后段內(nèi)容特征的垃圾模板特征,就可以對此進行識別,這樣可以增加模板識別的召回率,當(dāng)然也有可能導(dǎo)致誤判,但由于還要同標(biāo)點特征、話題特征、括號特征、鏈接特征、賬戶名特征聯(lián)合判斷,誤判的概率還是比較低的。
[0117]206、當(dāng)判定該微博文章為垃圾模板文章時,在以后的微博文章檢索時,當(dāng)檢索到該微博文章時不予顯示。
[0118]其中,當(dāng)判定該微博文章為垃圾模板文章時,對于后續(xù)的微博文章檢索中,不管是什么形式的檢索,只要檢索到該微博文章,都不予顯示
[0119]本發(fā)明實施例提供的垃圾模板文章識別方法,通過提取微博文章的多個特征來判斷微博文章是否為垃圾模板文章并對判定為垃圾模板文章的微博文章不予顯示,解決了目前微博平臺中大量的垃圾模板文章無法有效識別從而導(dǎo)致浪費搜索引擎資源的問題,提高了用戶使用體驗。
[0120]實施例三
[0121]圖3是本發(fā)明實施例提供了一種垃圾模板文章識別設(shè)備,參見圖3,該設(shè)備包括:
[0122]特征提取模塊301,用于對符合條件的微博文章提取特征,生成文章特征;其中,文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征;
[0123]獲取模塊302,用于獲取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且垃圾模板特征的提取方式與微博文章特征的提取方式相同;
[0124]識別模塊303,用于當(dāng)文章特征與垃圾模板列表中的垃圾模板特征相同時,判定微博文章為垃圾模板文章。
[0125]具體地,設(shè)備還包括:
[0126]預(yù)處理模塊304,用于對符合條件的微博文章提取特征之前,將微博文章中的數(shù)字以及字母去掉,并將微博文章中的各種括號中的內(nèi)容去掉保留括號;符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章。
[0127]具體地,特征提取模塊301,包括:
[0128]分段單元,用于將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號;
[0129]標(biāo)點特征單元,用于在每個分段中,提取分段的標(biāo)點,并將提取的標(biāo)點組成字符串,生成標(biāo)點特征;
[0130]話題特征單元,用于在每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的話題以及分段編號組成字符串,生成話題特征;
[0131]括號特征單元,用于在每個分段中,提取有括號的分段對應(yīng)的分段編號和分段對應(yīng)的括號類型,將提取的分段編號以及括號類型組成字符串,生成括號特征;
[0132]鏈接特征單元,用于在每個分段中,根據(jù)每個分段中是否有鏈接而生成序列,作為鏈接特征;
[0133]賬戶名特征單元,用于在每個分段中,根據(jù)每個分段中是否有賬戶名標(biāo)識而生成序列,作為賬戶名特征。
[0134]進一步地,特征提取模塊301,還包括:
[0135]內(nèi)容特征單元,用于在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
[0136]進一步地,特征提取模塊301,還包括:
[0137]前段內(nèi)容特征單元,用于在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
[0138]進一步地,特征提取模塊301,還包括:
[0139]后段內(nèi)容特征單元,用于在每個分段中,將每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
[0140]本發(fā)明實施例提供的垃圾模板文章識別設(shè)備,通過提取微博文章的多個特征來判斷微博文章是否為垃圾模板文章并對判定為垃圾模板文章的微博文章不予顯示,解決了目前微博平臺中大量的垃圾模板文章無法有效識別從而導(dǎo)致浪費搜索引擎資源的問題,提高了用戶使用體驗。
[0141]需要說明的是:上述實施例提供的垃圾模板文章識別設(shè)備在識別垃圾模板文章時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將垃圾模板文章識別設(shè)備的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的垃圾模板文章識別設(shè)備與的垃圾模板文章識別方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
[0142]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0143]以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種垃圾模板文章識別方法,其特征在于,所述方法包括: 對符合條件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征; 獲取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且所述垃圾模板特征的提取方式與所述微博文章特征的提取方式相同; 當(dāng)所述文章特征與所述垃圾模板列表中的垃圾模板特征相同時,判定所述微博文章為垃圾模板文章。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章,所述對符合條件的微博文章提取特征之前,還包括: 將所述符合條件的微博文章中的 數(shù)字以及字母去掉,并將所述微博文章中的各種括號中的內(nèi)容去掉保留所述括號。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對符合條件的微博文章提取特征,包括: 將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號; 在所述每個分段中,提取所述分段的標(biāo)點,并將提取的所述標(biāo)點組成字符串,生成所述標(biāo)點特征; 在所述每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的所述話題以及所述分段編號組成字符串,生成所述話題特征; 在所述每個分段中,提取有括號的分段對應(yīng)的分段編號和所述分段對應(yīng)的括號類型,將提取的所述分段編號以及所述括號類型組成字符串,生成所述括號特征; 在所述每個分段中,根據(jù)所述每個分段中是否有鏈接而生成序列,作為所述鏈接特征; 在所述每個分段中,根據(jù)所述每個分段中是否有賬戶名標(biāo)識而生成序列,作為所述賬戶名特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述文章特征還包括內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括: 在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述文章特征還包括前段內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括: 在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述文章特征還包括后段內(nèi)容特征,相應(yīng)地所述對符合條件的微博文章提取特征,還包括: 在所述每個分段中,將所述每個分段去除所有的標(biāo)點、話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
7.一種垃圾模板文章識別設(shè)備,其特征在于,所述設(shè)備包括: 特征提取模塊,用于對符合條件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括標(biāo)點特征、話題特征、括號特征、鏈接特征以及賬戶名特征; 獲取模塊,用于獲取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征為出現(xiàn)頻率達到預(yù)設(shè)閾值的文章特征且所述垃圾模板特征的提取方式與所述微博文章特征的提取方式相同; 識別模塊,用于當(dāng)所述文章特征與所述垃圾模板列表中的垃圾模板特征相同時,判定所述微博文章為垃圾模板文章。
8.根據(jù)權(quán)利要求7所述的設(shè)備,其特征在于,所述設(shè)備還包括: 預(yù)處理模塊,用于對符合條件的微博文章提取特征之前,將所述微博文章中的數(shù)字以及字母去掉,并將所述微博文章中的各種括號中的內(nèi)容去掉保留所述括號;所述符合條件的微博文章為原創(chuàng)形式且包含鏈接和圖片的微博文章。
9.根據(jù)權(quán)利要求7所述的設(shè)備,其特征在于,所述特征提取模塊,包括: 分段單元,用于將符合條件的微博文章以標(biāo)點進行分段,并按順序依次生成分段編號; 標(biāo)點特征單元,用于在所述每個分段中,提取所述分段的標(biāo)點,并將提取的所述標(biāo)點組成字符串,生成所述標(biāo) 點特征; 話題特征單元,用于在所述每個分段中,提取有話題的分段的話題和對應(yīng)的分段編號,并將提取的所述話題以及所述分段編號組成字符串,生成所述話題特征; 括號特征單元,用于在在所述每個分段中,提取有括號的分段對應(yīng)的分段編號和所述分段對應(yīng)的括號類型,將提取的所述分段編號以及所述括號類型組成字符串,生成所述括號特征; 鏈接特征單元,用于在所述每個分段中,根據(jù)所述每個分段中是否有鏈接而生成序列,作為所述鏈接特征; 賬戶名特征單元,用于在所述每個分段中,根據(jù)所述每個分段中是否有賬戶名標(biāo)識而生成序列,作為所述賬戶名特征。
10.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述特征提取模塊,還包括: 內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容,按順序拼裝在一起,生成內(nèi)容特征。
11.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述特征提取模塊,還包括: 前段內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取前面的部分,生成前段內(nèi)容特征。
12.根據(jù)權(quán)利要求9所述的設(shè)備,其特征在于,所述特征提取模塊,還包括: 后段內(nèi)容特征單元,用于在所述每個分段中,將所述每個分段去除所有的話題、括號、鏈接以及賬戶名標(biāo)識后剩余的內(nèi)容按預(yù)定的字節(jié)數(shù)只取后面的部分,生成后段內(nèi)容特征。
【文檔編號】G06F17/30GK103678373SQ201210344209
【公開日】2014年3月26日 申請日期:2012年9月17日 優(yōu)先權(quán)日:2012年9月17日
【發(fā)明者】郝志新, 何建國, 張國強, 何小晨 申請人:騰訊科技(深圳)有限公司