報(bào)文過濾方法與裝置的制作方法

文檔序號(hào)：7871115閱讀：203來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：報(bào)文過濾方法與裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域，特別是涉及一種報(bào)文過濾方法與裝置。
背景技術(shù)：
垃圾報(bào)文過濾是互聯(lián)網(wǎng)技術(shù)中一項(xiàng)重要的工作，一般是通過某種規(guī)則或遵循某種統(tǒng)計(jì)規(guī)律，將明顯非正常用戶訪問報(bào)文的部分過濾掉，從而減少互聯(lián)網(wǎng)的傳輸壓力和存儲(chǔ)壓力，也減少了后期提取、識(shí)別用戶報(bào)文的系統(tǒng)壓力。通過垃圾報(bào)文過濾，可以有效提高分析用戶報(bào)文效率，尤其在計(jì)算能力成為一種資源的互聯(lián)網(wǎng)時(shí)代，對(duì)垃圾報(bào)文的過濾比率和質(zhì)量，影響著下游數(shù)據(jù)處理的效率和質(zhì)量。現(xiàn)有的垃圾報(bào)文過濾主要采用網(wǎng)頁自動(dòng)分類技術(shù)，網(wǎng)頁自動(dòng)分類技術(shù)提取網(wǎng)頁文本內(nèi)容和標(biāo)簽信息，并賦予不同的權(quán)重因子，其核心是利用自動(dòng)文本分類技術(shù)實(shí)現(xiàn)。實(shí)現(xiàn)自動(dòng)文本分類的關(guān)鍵階段可劃分為主要的三個(gè)部分:特征選取策略、分類算法和閾值策略，通過這樣的自動(dòng)文本分類過濾掉垃圾報(bào)文。但是，目前的自動(dòng)文本分類技術(shù)對(duì)文檔表示特征稀疏或模糊的文本分類，顯得力不從心。尤其是短文本，有效文本特征的提取較少，而且容易產(chǎn)生諸如廣告、推薦信息、版權(quán)聲明等和內(nèi)容無關(guān)的噪聲信息，更容易引起誤分類。此外，自動(dòng)文本分類對(duì)大文本的處理，特征項(xiàng)空間的文書過高，數(shù)量過大的特征項(xiàng)，會(huì)導(dǎo)致無法準(zhǔn)確提取代表文本的唯一主題有效特征信息，造成分類效果不佳，容易出現(xiàn)多峰分布等問題?？梢姡F(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高，無法有效過濾出垃圾報(bào)文。

發(fā)明內(nèi)容
本發(fā)明提供了一種報(bào)文過濾方法與裝置，以解決現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高，無法有效過濾出垃圾報(bào)文的問題。為了解決上述問題，本發(fā)明公開了一種報(bào)文過濾方法，包括:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文；判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；若不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地，所述判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配的步驟包括:判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值；對(duì)過濾后的所述報(bào)文中，PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。優(yōu)選地，所述獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼的步驟包括:獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL，對(duì)其進(jìn)行去除重復(fù)和打亂順序處理；對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取，獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼；若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析，獲取所述處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地，所述根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾的步驟包括:若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單；若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息，則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單。優(yōu)選地，所述報(bào)文過濾方法還包括:若判斷過濾后的所述報(bào)文與所述黑名單中的報(bào)文匹配，則過濾掉匹配的所述報(bào)文；若判斷過濾后的所述報(bào)文與所述白名單中的報(bào)文匹配，則對(duì)匹配的所述報(bào)文放行。優(yōu)選地，所述使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文的步驟包括:根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。為了解決上述問題，本發(fā)明公開了一種報(bào)文過濾裝置，包括:第一過濾模塊，用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文；判斷模塊，用于判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；獲取模塊，用于若所述判斷模塊的判斷結(jié)果為不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；第二過濾模塊，用于根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地，所述判斷模塊，用于判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值；對(duì)過濾后的所述報(bào)文中，PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。優(yōu)選地，所述獲取模塊，用于若所述判斷模塊的判斷結(jié)果為不匹配，則獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL，對(duì)其進(jìn)行去除重復(fù)和打亂順序處理；對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取，獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼；若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析，獲取所述處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地，所述第二過濾模塊，用于若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單；若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息，則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單。與現(xiàn)有技術(shù)相比，本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明首先使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾，過濾掉設(shè)定格式的報(bào)文；然后，再對(duì)進(jìn)行了初步過濾后的報(bào)文進(jìn)行黑白名單匹配；對(duì)于不匹配的報(bào)文獲取相應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼，進(jìn)而根據(jù)這些文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)報(bào)文進(jìn)行進(jìn)一步過濾。一方面，通過初步過濾和黑白名單匹配，大大減少了需要再次過濾的報(bào)文數(shù)量，以便于準(zhǔn)確提取報(bào)文的有效特征信息，提高報(bào)文過濾準(zhǔn)確率；另一方面，本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求設(shè)置第一過濾規(guī)則過濾掉的報(bào)文的報(bào)文格式，以有效減少報(bào)文過濾時(shí)的噪聲信息，進(jìn)而提高報(bào)文過濾準(zhǔn)確率?？梢?，通過本發(fā)明，解決了現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高，無法有效過濾出垃圾報(bào)文的問題，有效提高了報(bào)文過濾的準(zhǔn)確率。

圖1是根據(jù)本發(fā)明實(shí)施例一的一種報(bào)文過濾方法的步驟流程圖；圖2是根據(jù)本發(fā)明實(shí)施例二的一種報(bào)文過濾方法的步驟流程圖；圖3是根據(jù)本發(fā)明實(shí)施例三的一種報(bào)文過濾方法的步驟流程圖；圖4是根據(jù)本發(fā)明實(shí)施例四的一種報(bào)文過濾裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。實(shí)施例一參照?qǐng)D1，示出了根據(jù)本發(fā)明實(shí)施例一的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S102:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉報(bào)文中符合設(shè)定格式的報(bào)文。通過對(duì)垃圾報(bào)文進(jìn)行分析可知，很多垃圾報(bào)文可以通過一定的格式識(shí)別，如通過URL后綴識(shí)別等，本領(lǐng)域技術(shù)人員可以通過在第一過濾規(guī)則中設(shè)置待過濾的垃圾報(bào)文格式，將一部分垃圾報(bào)文過濾掉。如，將第一過濾規(guī)則設(shè)置為根據(jù)報(bào)文的URL (Uniform Resource Locator,統(tǒng)一資源定位符)后綴過濾非文本格式的URL的規(guī)則，則使用該規(guī)則對(duì)報(bào)文進(jìn)行過濾時(shí)，會(huì)將非文本格式URL的報(bào)文過濾掉。當(dāng)然，不限于此，本領(lǐng)域技術(shù)人員在實(shí)際應(yīng)用中可以根據(jù)實(shí)際需要進(jìn)行適當(dāng)設(shè)置，以將明顯的垃圾報(bào)文初步過濾掉，減少后續(xù)報(bào)文過濾量。步驟S104:判斷過濾后的報(bào)文是否與黑名單或白名單中的報(bào)文相匹配。其中，黑白名單分別為將網(wǎng)頁判定為正常報(bào)文和非正常報(bào)文的列表，黑名單為非正常報(bào)文，即非正常用戶訪問的垃圾報(bào)文，一般為用戶訪問正常報(bào)文產(chǎn)生的附加報(bào)文，或由系統(tǒng)，軟件客戶端自動(dòng)向服務(wù)器發(fā)送的報(bào)文；白名單為正常報(bào)文。步驟S106:若過濾后的報(bào)文與黑名單或白名單中的報(bào)文不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。步驟S108:根據(jù)不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。通過本實(shí)施例，首先使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾，過濾掉設(shè)定格式的報(bào)文；然后，再對(duì)進(jìn)行了初步過濾后的報(bào)文進(jìn)行黑白名單匹配；對(duì)于不匹配的報(bào)文獲取相應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼，進(jìn)而根據(jù)這些文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)報(bào)文進(jìn)行進(jìn)一步過濾。一方面，通過初步過濾和黑白名單匹配，大大減少了需要再次過濾的報(bào)文數(shù)量，以便于準(zhǔn)確提取報(bào)文的有效特征信息，提高報(bào)文過濾準(zhǔn)確率；另一方面，本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求設(shè)置第一過濾規(guī)則過濾掉的報(bào)文的報(bào)文格式，以有效減少報(bào)文過濾時(shí)的噪聲信息，進(jìn)而提高報(bào)文過濾準(zhǔn)確率?？梢?，通過本實(shí)施例，解決了現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高，無法有效過濾出垃圾報(bào)文的問題，有效提高了報(bào)文過濾的準(zhǔn)確率。
實(shí)施例二參照?qǐng)D2，示出了根據(jù)本發(fā)明實(shí)施例二的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S202:根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾，過濾掉報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。從運(yùn)營商接入的報(bào)文數(shù)據(jù)中包含大量的垃圾報(bào)文，如用戶訪問產(chǎn)生的附加報(bào)文、客戶端軟件產(chǎn)生的報(bào)文信息等，其中有些部分比如.jpg，.css格式的附加報(bào)文可以通過簡(jiǎn)單規(guī)則實(shí)現(xiàn)過濾，也即，首先通過第一過濾規(guī)則進(jìn)行初步過濾，對(duì)報(bào)文的初步過濾可以去除特定格式如.jpg，.css格式的黑名單URL，從而減少大量的報(bào)文數(shù)據(jù)。當(dāng)然，不限于此，第一過濾規(guī)則在實(shí)際應(yīng)用中可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況靈活設(shè)置，如設(shè)置host、ua、后綴、字符串模糊匹配、spec url等過濾方式，從而過濾掉非文本格式的報(bào)文URL和/或一部分文本格式的非正常URL。步驟S204:判斷進(jìn)行了初步過濾后的報(bào)文的PV量是否大于第一設(shè)定閾值，若是，則執(zhí)行步驟S206 ;若否，則直接過濾掉。其中，PV (Page View)量表示頁面瀏覽量，第一設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置，本發(fā)明對(duì)此不作限制。通過判斷PV量是否大于第一設(shè)定閾值，可以直接過濾掉PV量很小的報(bào)文，以進(jìn)一步提高報(bào)文過濾效率，并且，過濾掉的這部分PV量很小的報(bào)文對(duì)下游數(shù)據(jù)處理幾乎不會(huì)產(chǎn)生影響。步驟S206:判斷進(jìn)行了初步過濾后的報(bào)文中的PV量大于第一設(shè)定閾值的報(bào)文中是否與黑名單或白名單中的報(bào)文相匹配的報(bào)文，若匹配，則執(zhí)行步驟S208 ;若不匹配，則執(zhí)行步驟S210。對(duì)于初步濾后的報(bào)文的URL，選擇PV量大于某一閾值的訪問報(bào)文，用黑白名單判定報(bào)文的URL黑白名單分布，對(duì)于出現(xiàn)在黑名單中的URL直接過濾；對(duì)已經(jīng)在白名單部分的URL跳過后續(xù)爬蟲階段，直接放行，可以減少大量的重復(fù)計(jì)算，從而大規(guī)模提升系統(tǒng)的數(shù)據(jù)處理能力，在數(shù)以億計(jì)的運(yùn)營商報(bào)文的處理中，這種過濾可以明顯提升系統(tǒng)性能和分析能力。步驟S208:若過濾后的報(bào)文與黑名單中的報(bào)文匹配，則過濾掉匹配黑名單的報(bào)文，結(jié)束該報(bào)文的過濾流程；若過濾后的報(bào)文與白名單中的報(bào)文匹配，則對(duì)匹配白名單的報(bào)文放行，結(jié)束該報(bào)文的過濾流程。步驟S210:獲取不匹配的報(bào)文的URL，對(duì)這些URL進(jìn)行去除重復(fù)和打亂順序處理。通過對(duì)URL進(jìn)行去除重復(fù)和打亂順序處理，可以便于后續(xù)爬蟲有效地爬取網(wǎng)頁。步驟S212:對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取，獲得處理后的URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。例如，使用爬蟲對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取，獲得處理后的URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。其中，文本信息的獲得可以通過獲得處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，再對(duì)網(wǎng)頁源碼進(jìn)行語法分析后，獲取處理后的URL對(duì)應(yīng)的文本信息。步驟S214:根據(jù)文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。包括:若網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將該報(bào)文加入黑名單；若根據(jù)文本信息確定URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或網(wǎng)頁正文無標(biāo)題、和/或網(wǎng)頁正文無文檔屬性信息，則過濾掉文本信息對(duì)應(yīng)的報(bào)文，并將該報(bào)文加入黑名單。其中，第二設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置，本發(fā)明對(duì)此不作限制。例如，對(duì)于不匹配的報(bào)文的URL使用爬蟲技術(shù)爬取相應(yīng)頁面并提取網(wǎng)頁內(nèi)容，返回URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。其中，爬蟲提取頁面時(shí)向相應(yīng)的服務(wù)器發(fā)送請(qǐng)求，得到URL對(duì)應(yīng)的網(wǎng)頁源碼；根據(jù)網(wǎng)頁源碼，構(gòu)建樹形結(jié)構(gòu)，提取網(wǎng)頁中的文本信息，主要包括網(wǎng)頁的正文信息，實(shí)現(xiàn)網(wǎng)頁內(nèi)容提取。然后，通過對(duì)爬蟲返回的網(wǎng)頁狀態(tài)碼進(jìn)行判斷，將404、406等狀態(tài)碼對(duì)應(yīng)的報(bào)文列入黑名單，將這部分報(bào)文過濾掉；再者，針對(duì)爬取的文本信息進(jìn)行分析，根據(jù)事先用訓(xùn)練數(shù)據(jù)得到的分類矩陣對(duì)文本信息進(jìn)行分類，可以進(jìn)一步得至Ij一個(gè)URL的黑白名單列表，過濾掉黑名單列表中的URL對(duì)應(yīng)的報(bào)文，放行白名單列表中的URL對(duì)應(yīng)的報(bào)文。其中，根據(jù)文本信息中的正文提取的結(jié)果，程序會(huì)根據(jù)相應(yīng)特征建立一個(gè)數(shù)據(jù)向量，用分類矩陣乘以這個(gè)向量，大于某一閾值則認(rèn)為屬于白名單，否則認(rèn)為屬于黑名單。當(dāng)前運(yùn)營商接入的報(bào)文數(shù)量巨大，且非用戶主觀訪問報(bào)文通常是正常報(bào)文的幾十倍。爬取這些垃圾報(bào)文并提取網(wǎng)頁內(nèi)容影響系統(tǒng)性能和效率，且摻雜的垃圾報(bào)文也會(huì)影響依賴于網(wǎng)頁爬取內(nèi)容的網(wǎng)頁分類等功能的性質(zhì)。而通過研究發(fā)現(xiàn)，通常情況下正常用戶訪問URL在設(shè)定時(shí)間段如兩天的報(bào)文中有較大的重合比率，在爬取URL的網(wǎng)頁源碼htmlcode并從中提取URL正文時(shí)，增加對(duì)網(wǎng)頁黑白名單判斷的功能，從而在后續(xù)的報(bào)文中實(shí)現(xiàn)黑白名單的分類。通過本實(shí)施例，采用預(yù)測(cè)的方法，對(duì)第一過濾規(guī)則和黑白名單過濾后的報(bào)文進(jìn)行頁面爬取、正文分析，實(shí)現(xiàn)對(duì)垃圾報(bào)文和正常報(bào)文的識(shí)別，從而達(dá)到對(duì)底層數(shù)據(jù)清洗的目的。由于系統(tǒng)的封閉性，即一定時(shí)期內(nèi)(如一周)判定為黑名單或白名單的部分不會(huì)再判定，因此需提高保證識(shí)別準(zhǔn)確率。在本實(shí)施例的判定規(guī)則下，黑白名單的識(shí)別準(zhǔn)確率都能達(dá)到95%以上，因此可以有效保證識(shí)別效果。另外，在召回率方面，對(duì)于當(dāng)天數(shù)據(jù)的分析發(fā)現(xiàn)，約有10%的URL是無法判定黑白名單的，而黑白名單比率約為2:1，因此黑名單召回率在85%-100%，白名單召回率在67%-100%。統(tǒng)計(jì)發(fā)現(xiàn)，通過本實(shí)施例的過濾方案，可以減少大約30%的新增報(bào)文處理，其中濾掉的黑名單大約20%，白名單約40%，相當(dāng)于提升了系統(tǒng)約50%的處理能力。如果進(jìn)一步考慮通過自學(xué)習(xí)規(guī)則，建立黑名單的識(shí)別規(guī)則，則可以進(jìn)一步提高過濾效果。實(shí)施例三參照?qǐng)D3，示出了根據(jù)本發(fā)明實(shí)施例三的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S302:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾。本實(shí)施例中，根據(jù)URL后綴以及一些其他規(guī)則，過濾一定格式的URL，比如.jpg，.CSS等非文本格式的URL。步驟S304:使用黑白名單對(duì)初步過濾后的報(bào)文進(jìn)行進(jìn)一步過濾。包括:對(duì)經(jīng)過初步過濾的報(bào)文先進(jìn)行黑白名單判斷，如果命中黑名單則過濾，命中白名單則返回歷史白名單中的相應(yīng)數(shù)據(jù)，跳過后續(xù)網(wǎng)頁分析。這個(gè)過濾可以通過兩個(gè)bloomfilter (布隆過濾器)實(shí)現(xiàn)。步驟S306:對(duì)使用黑白名單過濾后的報(bào)文進(jìn)行網(wǎng)頁爬取。其中，系統(tǒng)將接入的運(yùn)營商數(shù)據(jù)按照一定格式存儲(chǔ)，根據(jù)對(duì)應(yīng)的格式從運(yùn)營商數(shù)據(jù)的報(bào)文格式中提取出URL，經(jīng)過預(yù)處理的去除重復(fù)，順序打亂后進(jìn)入使用爬蟲進(jìn)行爬取階段，向URL的服務(wù)器抓取數(shù)據(jù)，并返回URL對(duì)應(yīng)的網(wǎng)頁源碼htmlcode以及相應(yīng)的網(wǎng)頁狀態(tài)碼。步驟S308:對(duì)網(wǎng)頁爬取結(jié)果進(jìn)行正文提取，根據(jù)正文提取結(jié)果進(jìn)行報(bào)文過濾。包括:對(duì)多對(duì)爬蟲得到的網(wǎng)頁爬取結(jié)果進(jìn)行分析，可以先通過URL的返回碼即網(wǎng)頁狀態(tài)碼將404等情況列入黑名單；對(duì)未抓取成功的URL可以設(shè)置重復(fù)抓取的期限(如3天)，始終未成功的將被拋棄；將確定抓取成功的部分的htmlcode輸入正文解析的程序進(jìn)行語法分析。通過對(duì)htmlcode的語法分析，提取其各個(gè)節(jié)點(diǎn)的文本信息，從而得到其中正文顯示的內(nèi)容、以及標(biāo)題title、是否主頁、更新時(shí)間等信息。通過對(duì)這些信息的分析，按照一定規(guī)則將內(nèi)容過少如抽取到的網(wǎng)頁各個(gè)段內(nèi)容字符數(shù)均少于一定閾值，或抽取到的網(wǎng)頁正文段數(shù)總體字符少于一定閾值；和/或無標(biāo)題；和/或無meta (meta是網(wǎng)頁源碼中的一個(gè)字段，主要用來描述網(wǎng)頁文檔的屬性)信息的URL列入黑名單并過濾掉相對(duì)應(yīng)的報(bào)文。以對(duì)當(dāng)天報(bào)文進(jìn)行報(bào)文過濾為例，經(jīng)過上述步驟后，則可確定當(dāng)天報(bào)文中過濾掉的報(bào)文，進(jìn)而輸出當(dāng)天報(bào)文的黑白名單；該黑白名單輸出后可以與往期黑白名單合并，形成設(shè)定時(shí)間段如最近一周的黑白名單，將該設(shè)定時(shí)間段的黑白名單加入bloomfilter (布隆過濾器)，可以作為對(duì)后續(xù)的報(bào)文進(jìn)行過濾處理的規(guī)則或依據(jù)。例如，以北京東單的數(shù)據(jù)為例,接入的運(yùn)營商流量首先經(jīng)過PTlXPacket TransmitUnit)規(guī)則(相當(dāng)于第一過濾規(guī)則)過濾，過濾掉從URL維度可以判斷為黑名單的報(bào)文；再用歷史生成的黑白名單過濾當(dāng)天的報(bào)文，對(duì)于匹配黑名單的報(bào)文直接過濾；對(duì)于匹配白名單的報(bào)文，跳過爬取、抓正文流程；將剩下的報(bào)文按URL取PV>2的部分；將PV>2的URL進(jìn)行爬蟲，正文提取等處理流程；根據(jù)正文提取得到的html內(nèi)容樹形結(jié)構(gòu)，并用一個(gè)分類矩陣，得到每個(gè)URL對(duì)應(yīng)的黑白名單結(jié)果，并將該結(jié)果匯總到歷史黑白名單中。因?yàn)檫\(yùn)營商數(shù)據(jù)中的get報(bào)文大約是正常訪問報(bào)文的70-80倍，通過本實(shí)施例，過濾掉這些冗余信息大大減少了系統(tǒng)對(duì)硬盤，內(nèi)存等硬件資源的消耗；并且，每天的互聯(lián)網(wǎng)數(shù)據(jù)很大，進(jìn)行這些過濾可以大大減少系統(tǒng)對(duì)額外數(shù)據(jù)的處理工作，且保證了后續(xù)數(shù)據(jù)挖掘處理流程的有效性。實(shí)施例四參照?qǐng)D4，示出了根據(jù)本發(fā)明實(shí)施例四的一種報(bào)文過濾裝置的結(jié)構(gòu)框圖。本實(shí)施例的報(bào)文過濾裝置包括:第一過濾模塊402，用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉報(bào)文中符合設(shè)定格式的報(bào)文；判斷模塊404，用于判斷過濾后的報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；獲取模塊406，用于若判斷模塊404的判斷結(jié)果為不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；第二過濾模塊408，用于根據(jù)文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地，判斷模塊404，用于判斷過濾后的報(bào)文的PV量是否大于第一設(shè)定閾值；對(duì)過濾后的報(bào)文中，PV量大于第一設(shè)定閾值的報(bào)文進(jìn)行是否與黑名單或白名單中的報(bào)文相匹配的判斷。
優(yōu)選地，獲取模塊406，用于若判斷模塊404的判斷結(jié)果為不匹配，則獲取不匹配的報(bào)文的URL，對(duì)其進(jìn)行去除重復(fù)和打亂順序處理；對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取，獲得處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼；若獲得到處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，則對(duì)網(wǎng)頁源碼進(jìn)行語法分析，獲取處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地，第二過濾模塊408，用于若網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將報(bào)文加入黑名單；若根據(jù)文本信息確定URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或網(wǎng)頁正文無標(biāo)題、和/或網(wǎng)頁正文無文檔屬性信息，則過濾掉文本信息對(duì)應(yīng)的報(bào)文，并將報(bào)文加入黑名單。優(yōu)選地，本實(shí)施例的報(bào)文過濾裝置還包括:匹配模塊410，用于若判斷模塊404判斷過濾后的報(bào)文與黑名單中的報(bào)文匹配，則過濾掉匹配的報(bào)文；若判斷模塊404判斷過濾后的報(bào)文與白名單中的報(bào)文匹配，則對(duì)匹配的報(bào)文放行。優(yōu)選地，第一過濾模塊402，用于根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。本實(shí)施例的報(bào)文過濾裝置用于實(shí)現(xiàn)前述多個(gè)方法實(shí)施例中相應(yīng)的報(bào)文過濾方法，并具有相應(yīng)的報(bào)文過濾方法的有益效果，在此不再贅述。本發(fā)明提供了一種報(bào)文過濾方案，首先根據(jù)第一過濾規(guī)則、黑白名單規(guī)則對(duì)報(bào)文進(jìn)行過濾，對(duì)于過濾后獲取到的報(bào)文的URL，向URL的服務(wù)器發(fā)起爬蟲抓??；然后，對(duì)爬蟲結(jié)果進(jìn)行語法分析，進(jìn)而獲取到各個(gè)節(jié)點(diǎn)相應(yīng)的文本信息；并根據(jù)一定規(guī)則(內(nèi)容較少或者無標(biāo)題無meta)減少相應(yīng)的URL信息或?qū)⑵浼尤牒诿麊沃校瑥亩岣邎?bào)文過濾效率。通過本發(fā)明，采用預(yù)測(cè)的方法，通過對(duì)報(bào)文URL的頁面爬取，正文分析，實(shí)現(xiàn)對(duì)垃圾報(bào)文和正常報(bào)文的識(shí)別，從而達(dá)到對(duì)底層數(shù)據(jù)清洗的目的。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。以上對(duì)本發(fā)明進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種報(bào)文過濾方法,其特征在于,包括: 使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文；判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；若不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配的步驟包括: 判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值；對(duì)過濾后的所述報(bào)文中，PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼的步驟包括: 獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL，對(duì)其進(jìn)行去除重復(fù)和打亂順序處理；對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取，獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼；若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析，獲取所述處理后的URL對(duì)應(yīng)的文本信息。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾的步驟包括: 若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單；若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息，則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括: 若判斷過濾后的所述報(bào)文與所述黑名單中的報(bào)文匹配，則過濾掉匹配的所述報(bào)文；若判斷過濾后的所述報(bào)文與所述白名單中的報(bào)文匹配，則對(duì)匹配的所述報(bào)文放行。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文的步驟包括: 根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。
7.一種報(bào)文過濾裝置，其特征在于，包括: 第一過濾模塊，用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文；判斷模塊，用于判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；獲取模塊，用于若所述判斷模塊的判斷結(jié)果為不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；第二過濾模塊，用于根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述判斷模塊，用于判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值；對(duì)過濾后的所述報(bào)文中，PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。
9.根據(jù)權(quán)利要求7或8所述的裝置，其特征在于，所述獲取模塊，用于若所述判斷模塊的判斷結(jié)果為不匹配，則獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL，對(duì)其進(jìn)行去除重復(fù)和打亂順序處理；對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取，獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼；若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼，則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析，獲取所述處理后的URL對(duì)應(yīng)的文本信息。
10.根據(jù) 權(quán)利要求9所述的裝置，其特征在于，所述第二過濾模塊，用于若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼，則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單；若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息，則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文，并將所述報(bào)文加入所述黑名單。
全文摘要
本發(fā)明提供了一種報(bào)文過濾方法與裝置，其中，報(bào)文過濾方法包括使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾，過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文；判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配；若不匹配，則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼；根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。通過本發(fā)明，有效提高了報(bào)文過濾的準(zhǔn)確率。
文檔編號(hào)H04L29/06GK103078854SQ201210589720
公開日2013年5月1日申請(qǐng)日期2012年12月28日優(yōu)先權(quán)日2012年12月28日
發(fā)明者羅峰, 黃蘇支, 李娜申請(qǐng)人:北京億贊普網(wǎng)絡(luò)技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅峰;黃蘇支;李娜
技術(shù)所有人：北京億贊普網(wǎng)絡(luò)技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)絡(luò)報(bào)文分析裝置相關(guān)技術(shù)

網(wǎng)絡(luò)報(bào)文記錄分析裝置相關(guān)技術(shù)

報(bào)文過濾相關(guān)技術(shù)

解讀can報(bào)文方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

報(bào)文過濾方法與裝置的制作方法