專利名稱:報(bào)文過濾方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種報(bào)文過濾方法與裝置。
背景技術(shù):
垃圾報(bào)文過濾是互聯(lián)網(wǎng)技術(shù)中一項(xiàng)重要的工作,一般是通過某種規(guī)則或遵循某種統(tǒng)計(jì)規(guī)律,將明顯非正常用戶訪問報(bào)文的部分過濾掉,從而減少互聯(lián)網(wǎng)的傳輸壓力和存儲(chǔ)壓力,也減少了后期提取、識(shí)別用戶報(bào)文的系統(tǒng)壓力。通過垃圾報(bào)文過濾,可以有效提高分析用戶報(bào)文效率,尤其在計(jì)算能力成為一種資源的互聯(lián)網(wǎng)時(shí)代,對(duì)垃圾報(bào)文的過濾比率和質(zhì)量,影響著下游數(shù)據(jù)處理的效率和質(zhì)量。現(xiàn)有的垃圾報(bào)文過濾主要采用網(wǎng)頁自動(dòng)分類技術(shù),網(wǎng)頁自動(dòng)分類技術(shù)提取網(wǎng)頁文本內(nèi)容和標(biāo)簽信息,并賦予不同的權(quán)重因子,其核心是利用自動(dòng)文本分類技術(shù)實(shí)現(xiàn)。實(shí)現(xiàn)自動(dòng)文本分類的關(guān)鍵階段可劃分為主要的三個(gè)部分:特征選取策略、分類算法和閾值策略,通過這樣的自動(dòng)文本分類過濾掉垃圾報(bào)文。但是,目前的自動(dòng)文本分類技術(shù)對(duì)文檔表示特征稀疏或模糊的文本分類,顯得力不從心。尤其是短文本,有效文本特征的提取較少,而且容易產(chǎn)生諸如廣告、推薦信息、版權(quán)聲明等和內(nèi)容無關(guān)的噪聲信息,更容易引起誤分類。此外,自動(dòng)文本分類對(duì)大文本的處理,特征項(xiàng)空間的文書過高,數(shù)量過大的特征項(xiàng),會(huì)導(dǎo)致無法準(zhǔn)確提取代表文本的唯一主題有效特征信息,造成分類效果不佳,容易出現(xiàn)多峰分布等問題??梢姡F(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高,無法有效過濾出垃圾報(bào)文。
發(fā)明內(nèi)容
本發(fā)明提供了一種報(bào)文過濾方法與裝置,以解決現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高,無法有效過濾出垃圾報(bào)文的問題。為了解決上述問題,本發(fā)明公開了一種報(bào)文過濾方法,包括:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文;判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配;若不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼;根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地,所述判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配的步驟包括:判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值;對(duì)過濾后的所述報(bào)文中,PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。優(yōu)選地,所述獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼的步驟包括:獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL,對(duì)其進(jìn)行去除重復(fù)和打亂順序處理;對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取,獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼;若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析,獲取所述處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地,所述根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾的步驟包括:若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單;若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息,則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單。優(yōu)選地,所述報(bào)文過濾方法還包括:若判斷過濾后的所述報(bào)文與所述黑名單中的報(bào)文匹配,則過濾掉匹配的所述報(bào)文;若判斷過濾后的所述報(bào)文與所述白名單中的報(bào)文匹配,則對(duì)匹配的所述報(bào)文放行。優(yōu)選地,所述使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文的步驟包括:根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。為了解決上述問題,本發(fā)明公開了一種報(bào)文過濾裝置,包括:第一過濾模塊,用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文;判斷模塊,用于判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配;獲取模塊,用于若所述判斷模塊的判斷結(jié)果為不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼;第二過濾模塊,用于根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地,所述判斷模塊,用于判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值;對(duì)過濾后的所述報(bào)文中,PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。優(yōu)選地,所述獲取模塊,用于若所述判斷模塊的判斷結(jié)果為不匹配,則獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL,對(duì)其進(jìn)行去除重復(fù)和打亂順序處理;對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取,獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼;若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析,獲取所述處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地,所述第二過濾模塊,用于若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單;若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息,則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明首先使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾,過濾掉設(shè)定格式的報(bào)文;然后,再對(duì)進(jìn)行了初步過濾后的報(bào)文進(jìn)行黑白名單匹配;對(duì)于不匹配的報(bào)文獲取相應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼,進(jìn)而根據(jù)這些文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)報(bào)文進(jìn)行進(jìn)一步過濾。一方面,通過初步過濾和黑白名單匹配,大大減少了需要再次過濾的報(bào)文數(shù)量,以便于準(zhǔn)確提取報(bào)文的有效特征信息,提高報(bào)文過濾準(zhǔn)確率;另一方面,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求設(shè)置第一過濾規(guī)則過濾掉的報(bào)文的報(bào)文格式,以有效減少報(bào)文過濾時(shí)的噪聲信息,進(jìn)而提高報(bào)文過濾準(zhǔn)確率??梢?,通過本發(fā)明,解決了現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高,無法有效過濾出垃圾報(bào)文的問題,有效提高了報(bào)文過濾的準(zhǔn)確率。
圖1是根據(jù)本發(fā)明實(shí)施例一的一種報(bào)文過濾方法的步驟流程圖;圖2是根據(jù)本發(fā)明實(shí)施例二的一種報(bào)文過濾方法的步驟流程圖;圖3是根據(jù)本發(fā)明實(shí)施例三的一種報(bào)文過濾方法的步驟流程圖;圖4是根據(jù)本發(fā)明實(shí)施例四的一種報(bào)文過濾裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。實(shí)施例一參照?qǐng)D1,示出了根據(jù)本發(fā)明實(shí)施例一的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S102:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉報(bào)文中符合設(shè)定格式的報(bào)文。通過對(duì)垃圾報(bào)文進(jìn)行分析可知,很多垃圾報(bào)文可以通過一定的格式識(shí)別,如通過URL后綴識(shí)別等,本領(lǐng)域技術(shù)人員可以通過在第一過濾規(guī)則中設(shè)置待過濾的垃圾報(bào)文格式,將一部分垃圾報(bào)文過濾掉。如,將第一過濾規(guī)則設(shè)置為根據(jù)報(bào)文的URL (Uniform Resource Locator,統(tǒng)一資源定位符)后綴過濾非文本格式的URL的規(guī)則,則使用該規(guī)則對(duì)報(bào)文進(jìn)行過濾時(shí),會(huì)將非文本格式URL的報(bào)文過濾掉。當(dāng)然,不限于此,本領(lǐng)域技術(shù)人員在實(shí)際應(yīng)用中可以根據(jù)實(shí)際需要進(jìn)行適當(dāng)設(shè)置,以將明顯的垃圾報(bào)文初步過濾掉,減少后續(xù)報(bào)文過濾量。步驟S104:判斷過濾后的報(bào)文是否與黑名單或白名單中的報(bào)文相匹配。其中,黑白名單分別為將網(wǎng)頁判定為正常報(bào)文和非正常報(bào)文的列表,黑名單為非正常報(bào)文,即非正常用戶訪問的垃圾報(bào)文,一般為用戶訪問正常報(bào)文產(chǎn)生的附加報(bào)文,或由系統(tǒng),軟件客戶端自動(dòng)向服務(wù)器發(fā)送的報(bào)文;白名單為正常報(bào)文。步驟S106:若過濾后的報(bào)文與黑名單或白名單中的報(bào)文不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。步驟S108:根據(jù)不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。通過本實(shí)施例,首先使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾,過濾掉設(shè)定格式的報(bào)文;然后,再對(duì)進(jìn)行了初步過濾后的報(bào)文進(jìn)行黑白名單匹配;對(duì)于不匹配的報(bào)文獲取相應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼,進(jìn)而根據(jù)這些文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)報(bào)文進(jìn)行進(jìn)一步過濾。一方面,通過初步過濾和黑白名單匹配,大大減少了需要再次過濾的報(bào)文數(shù)量,以便于準(zhǔn)確提取報(bào)文的有效特征信息,提高報(bào)文過濾準(zhǔn)確率;另一方面,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需求設(shè)置第一過濾規(guī)則過濾掉的報(bào)文的報(bào)文格式,以有效減少報(bào)文過濾時(shí)的噪聲信息,進(jìn)而提高報(bào)文過濾準(zhǔn)確率??梢?,通過本實(shí)施例,解決了現(xiàn)有的自動(dòng)文本分類技術(shù)的報(bào)文過濾準(zhǔn)確性不高,無法有效過濾出垃圾報(bào)文的問題,有效提高了報(bào)文過濾的準(zhǔn)確率。
實(shí)施例二參照?qǐng)D2,示出了根據(jù)本發(fā)明實(shí)施例二的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S202:根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾,過濾掉報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。從運(yùn)營商接入的報(bào)文數(shù)據(jù)中包含大量的垃圾報(bào)文,如用戶訪問產(chǎn)生的附加報(bào)文、客戶端軟件產(chǎn)生的報(bào)文信息等,其中有些部分比如.jpg,.css格式的附加報(bào)文可以通過簡(jiǎn)單規(guī)則實(shí)現(xiàn)過濾,也即,首先通過第一過濾規(guī)則進(jìn)行初步過濾,對(duì)報(bào)文的初步過濾可以去除特定格式如.jpg,.css格式的黑名單URL,從而減少大量的報(bào)文數(shù)據(jù)。當(dāng)然,不限于此,第一過濾規(guī)則在實(shí)際應(yīng)用中可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況靈活設(shè)置,如設(shè)置host、ua、后綴、字符串模糊匹配、spec url等過濾方式,從而過濾掉非文本格式的報(bào)文URL和/或一部分文本格式的非正常URL。步驟S204:判斷進(jìn)行了初步過濾后的報(bào)文的PV量是否大于第一設(shè)定閾值,若是,則執(zhí)行步驟S206 ;若否,則直接過濾掉。其中,PV (Page View)量表示頁面瀏覽量,第一設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置,本發(fā)明對(duì)此不作限制。通過判斷PV量是否大于第一設(shè)定閾值,可以直接過濾掉PV量很小的報(bào)文,以進(jìn)一步提高報(bào)文過濾效率,并且,過濾掉的這部分PV量很小的報(bào)文對(duì)下游數(shù)據(jù)處理幾乎不會(huì)產(chǎn)生影響。步驟S206:判斷進(jìn)行了初步過濾后的報(bào)文中的PV量大于第一設(shè)定閾值的報(bào)文中是否與黑名單或白名單中的報(bào)文相匹配的報(bào)文,若匹配,則執(zhí)行步驟S208 ;若不匹配,則執(zhí)行步驟S210。對(duì)于初步濾后的報(bào)文的URL,選擇PV量大于某一閾值的訪問報(bào)文,用黑白名單判定報(bào)文的URL黑白名單分布,對(duì)于出現(xiàn)在黑名單中的URL直接過濾;對(duì)已經(jīng)在白名單部分的URL跳過后續(xù)爬蟲階段,直接放行,可以減少大量的重復(fù)計(jì)算,從而大規(guī)模提升系統(tǒng)的數(shù)據(jù)處理能力,在數(shù)以億計(jì)的運(yùn)營商報(bào)文的處理中,這種過濾可以明顯提升系統(tǒng)性能和分析能力。步驟S208:若過濾后的報(bào)文與黑名單中的報(bào)文匹配,則過濾掉匹配黑名單的報(bào)文,結(jié)束該報(bào)文的過濾流程;若過濾后的報(bào)文與白名單中的報(bào)文匹配,則對(duì)匹配白名單的報(bào)文放行,結(jié)束該報(bào)文的過濾流程。步驟S210:獲取不匹配的報(bào)文的URL,對(duì)這些URL進(jìn)行去除重復(fù)和打亂順序處理。通過對(duì)URL進(jìn)行去除重復(fù)和打亂順序處理,可以便于后續(xù)爬蟲有效地爬取網(wǎng)頁。步驟S212:對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取,獲得處理后的URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。例如,使用爬蟲對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取,獲得處理后的URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。其中,文本信息的獲得可以通過獲得處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,再對(duì)網(wǎng)頁源碼進(jìn)行語法分析后,獲取處理后的URL對(duì)應(yīng)的文本信息。步驟S214:根據(jù)文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。包括:若網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將該報(bào)文加入黑名單;若根據(jù)文本信息確定URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或網(wǎng)頁正文無標(biāo)題、和/或網(wǎng)頁正文無文檔屬性信息,則過濾掉文本信息對(duì)應(yīng)的報(bào)文,并將該報(bào)文加入黑名單。其中,第二設(shè)定閾值可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置,本發(fā)明對(duì)此不作限制。例如,對(duì)于不匹配的報(bào)文的URL使用爬蟲技術(shù)爬取相應(yīng)頁面并提取網(wǎng)頁內(nèi)容,返回URL對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼。其中,爬蟲提取頁面時(shí)向相應(yīng)的服務(wù)器發(fā)送請(qǐng)求,得到URL對(duì)應(yīng)的網(wǎng)頁源碼;根據(jù)網(wǎng)頁源碼,構(gòu)建樹形結(jié)構(gòu),提取網(wǎng)頁中的文本信息,主要包括網(wǎng)頁的正文信息,實(shí)現(xiàn)網(wǎng)頁內(nèi)容提取。然后,通過對(duì)爬蟲返回的網(wǎng)頁狀態(tài)碼進(jìn)行判斷,將404、406等狀態(tài)碼對(duì)應(yīng)的報(bào)文列入黑名單,將這部分報(bào)文過濾掉;再者,針對(duì)爬取的文本信息進(jìn)行分析,根據(jù)事先用訓(xùn)練數(shù)據(jù)得到的分類矩陣對(duì)文本信息進(jìn)行分類,可以進(jìn)一步得至Ij一個(gè)URL的黑白名單列表,過濾掉黑名單列表中的URL對(duì)應(yīng)的報(bào)文,放行白名單列表中的URL對(duì)應(yīng)的報(bào)文。其中,根據(jù)文本信息中的正文提取的結(jié)果,程序會(huì)根據(jù)相應(yīng)特征建立一個(gè)數(shù)據(jù)向量,用分類矩陣乘以這個(gè)向量,大于某一閾值則認(rèn)為屬于白名單,否則認(rèn)為屬于黑名單。當(dāng)前運(yùn)營商接入的報(bào)文數(shù)量巨大,且非用戶主觀訪問報(bào)文通常是正常報(bào)文的幾十倍。爬取這些垃圾報(bào)文并提取網(wǎng)頁內(nèi)容影響系統(tǒng)性能和效率,且摻雜的垃圾報(bào)文也會(huì)影響依賴于網(wǎng)頁爬取內(nèi)容的網(wǎng)頁分類等功能的性質(zhì)。而通過研究發(fā)現(xiàn),通常情況下正常用戶訪問URL在設(shè)定時(shí)間段如兩天的報(bào)文中有較大的重合比率,在爬取URL的網(wǎng)頁源碼htmlcode并從中提取URL正文時(shí),增加對(duì)網(wǎng)頁黑白名單判斷的功能,從而在后續(xù)的報(bào)文中實(shí)現(xiàn)黑白名單的分類。通過本實(shí)施例,采用預(yù)測(cè)的方法,對(duì)第一過濾規(guī)則和黑白名單過濾后的報(bào)文進(jìn)行頁面爬取、正文分析,實(shí)現(xiàn)對(duì)垃圾報(bào)文和正常報(bào)文的識(shí)別,從而達(dá)到對(duì)底層數(shù)據(jù)清洗的目的。由于系統(tǒng)的封閉性,即一定時(shí)期內(nèi)(如一周)判定為黑名單或白名單的部分不會(huì)再判定,因此需提高保證識(shí)別準(zhǔn)確率。在本實(shí)施例的判定規(guī)則下,黑白名單的識(shí)別準(zhǔn)確率都能達(dá)到95%以上,因此可以有效保證識(shí)別效果。另外,在召回率方面,對(duì)于當(dāng)天數(shù)據(jù)的分析發(fā)現(xiàn),約有10%的URL是無法判定黑白名單的,而黑白名單比率約為2:1,因此黑名單召回率在85%-100%,白名單召回率在67%-100%。統(tǒng)計(jì)發(fā)現(xiàn),通過本實(shí)施例的過濾方案,可以減少大約30%的新增報(bào)文處理,其中濾掉的黑名單大約20%,白名單約40%,相當(dāng)于提升了系統(tǒng)約50%的處理能力。如果進(jìn)一步考慮通過自學(xué)習(xí)規(guī)則,建立黑名單的識(shí)別規(guī)則,則可以進(jìn)一步提高過濾效果。實(shí)施例三參照?qǐng)D3,示出了根據(jù)本發(fā)明實(shí)施例三的一種報(bào)文過濾方法的步驟流程圖。本實(shí)施例的報(bào)文過濾方法包括以下步驟:步驟S302:使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行初步過濾。本實(shí)施例中,根據(jù)URL后綴以及一些其他規(guī)則,過濾一定格式的URL,比如.jpg,.CSS等非文本格式的URL。步驟S304:使用黑白名單對(duì)初步過濾后的報(bào)文進(jìn)行進(jìn)一步過濾。包括:對(duì)經(jīng)過初步過濾的報(bào)文先進(jìn)行黑白名單判斷,如果命中黑名單則過濾,命中白名單則返回歷史白名單中的相應(yīng)數(shù)據(jù),跳過后續(xù)網(wǎng)頁分析。這個(gè)過濾可以通過兩個(gè)bloomfilter (布隆過濾器)實(shí)現(xiàn)。步驟S306:對(duì)使用黑白名單過濾后的報(bào)文進(jìn)行網(wǎng)頁爬取。其中,系統(tǒng)將接入的運(yùn)營商數(shù)據(jù)按照一定格式存儲(chǔ),根據(jù)對(duì)應(yīng)的格式從運(yùn)營商數(shù)據(jù)的報(bào)文格式中提取出URL,經(jīng)過預(yù)處理的去除重復(fù),順序打亂后進(jìn)入使用爬蟲進(jìn)行爬取階段,向URL的服務(wù)器抓取數(shù)據(jù),并返回URL對(duì)應(yīng)的網(wǎng)頁源碼htmlcode以及相應(yīng)的網(wǎng)頁狀態(tài)碼。步驟S308:對(duì)網(wǎng)頁爬取結(jié)果進(jìn)行正文提取,根據(jù)正文提取結(jié)果進(jìn)行報(bào)文過濾。包括:對(duì)多對(duì)爬蟲得到的網(wǎng)頁爬取結(jié)果進(jìn)行分析,可以先通過URL的返回碼即網(wǎng)頁狀態(tài)碼將404等情況列入黑名單;對(duì)未抓取成功的URL可以設(shè)置重復(fù)抓取的期限(如3天),始終未成功的將被拋棄;將確定抓取成功的部分的htmlcode輸入正文解析的程序進(jìn)行語法分析。通過對(duì)htmlcode的語法分析,提取其各個(gè)節(jié)點(diǎn)的文本信息,從而得到其中正文顯示的內(nèi)容、以及標(biāo)題title、是否主頁、更新時(shí)間等信息。通過對(duì)這些信息的分析,按照一定規(guī)則將內(nèi)容過少如抽取到的網(wǎng)頁各個(gè)段內(nèi)容字符數(shù)均少于一定閾值,或抽取到的網(wǎng)頁正文段數(shù)總體字符少于一定閾值;和/或無標(biāo)題;和/或無meta (meta是網(wǎng)頁源碼中的一個(gè)字段,主要用來描述網(wǎng)頁文檔的屬性)信息的URL列入黑名單并過濾掉相對(duì)應(yīng)的報(bào)文。以對(duì)當(dāng)天報(bào)文進(jìn)行報(bào)文過濾為例,經(jīng)過上述步驟后,則可確定當(dāng)天報(bào)文中過濾掉的報(bào)文,進(jìn)而輸出當(dāng)天報(bào)文的黑白名單;該黑白名單輸出后可以與往期黑白名單合并,形成設(shè)定時(shí)間段如最近一周的黑白名單,將該設(shè)定時(shí)間段的黑白名單加入bloomfilter (布隆過濾器),可以作為對(duì)后續(xù)的報(bào)文進(jìn)行過濾處理的規(guī)則或依據(jù)。例如,以北京東單的數(shù)據(jù)為例,接入的運(yùn)營商流量首先經(jīng)過PTlXPacket TransmitUnit)規(guī)則(相當(dāng)于第一過濾規(guī)則)過濾,過濾掉從URL維度可以判斷為黑名單的報(bào)文;再用歷史生成的黑白名單過濾當(dāng)天的報(bào)文,對(duì)于匹配黑名單的報(bào)文直接過濾;對(duì)于匹配白名單的報(bào)文,跳過爬取、抓正文流程;將剩下的報(bào)文按URL取PV>2的部分;將PV>2的URL進(jìn)行爬蟲,正文提取等處理流程;根據(jù)正文提取得到的html內(nèi)容樹形結(jié)構(gòu),并用一個(gè)分類矩陣,得到每個(gè)URL對(duì)應(yīng)的黑白名單結(jié)果,并將該結(jié)果匯總到歷史黑白名單中。因?yàn)檫\(yùn)營商數(shù)據(jù)中的get報(bào)文大約是正常訪問報(bào)文的70-80倍,通過本實(shí)施例,過濾掉這些冗余信息大大減少了系統(tǒng)對(duì)硬盤,內(nèi)存等硬件資源的消耗;并且,每天的互聯(lián)網(wǎng)數(shù)據(jù)很大,進(jìn)行這些過濾可以大大減少系統(tǒng)對(duì)額外數(shù)據(jù)的處理工作,且保證了后續(xù)數(shù)據(jù)挖掘處理流程的有效性。實(shí)施例四參照?qǐng)D4,示出了根據(jù)本發(fā)明實(shí)施例四的一種報(bào)文過濾裝置的結(jié)構(gòu)框圖。本實(shí)施例的報(bào)文過濾裝置包括:第一過濾模塊402,用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉報(bào)文中符合設(shè)定格式的報(bào)文;判斷模塊404,用于判斷過濾后的報(bào)文是否與黑名單或白名單中的報(bào)文相匹配;獲取模塊406,用于若判斷模塊404的判斷結(jié)果為不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼;第二過濾模塊408,用于根據(jù)文本信息和/或網(wǎng)頁狀態(tài)碼對(duì)不匹配的報(bào)文進(jìn)行報(bào)文過濾。優(yōu)選地,判斷模塊404,用于判斷過濾后的報(bào)文的PV量是否大于第一設(shè)定閾值;對(duì)過濾后的報(bào)文中,PV量大于第一設(shè)定閾值的報(bào)文進(jìn)行是否與黑名單或白名單中的報(bào)文相匹配的判斷。
優(yōu)選地,獲取模塊406,用于若判斷模塊404的判斷結(jié)果為不匹配,則獲取不匹配的報(bào)文的URL,對(duì)其進(jìn)行去除重復(fù)和打亂順序處理;對(duì)處理后的URL進(jìn)行網(wǎng)頁爬取,獲得處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼;若獲得到處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,則對(duì)網(wǎng)頁源碼進(jìn)行語法分析,獲取處理后的URL對(duì)應(yīng)的文本信息。優(yōu)選地,第二過濾模塊408,用于若網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將報(bào)文加入黑名單;若根據(jù)文本信息確定URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或網(wǎng)頁正文無標(biāo)題、和/或網(wǎng)頁正文無文檔屬性信息,則過濾掉文本信息對(duì)應(yīng)的報(bào)文,并將報(bào)文加入黑名單。優(yōu)選地,本實(shí)施例的報(bào)文過濾裝置還包括:匹配模塊410,用于若判斷模塊404判斷過濾后的報(bào)文與黑名單中的報(bào)文匹配,則過濾掉匹配的報(bào)文;若判斷模塊404判斷過濾后的報(bào)文與白名單中的報(bào)文匹配,則對(duì)匹配的報(bào)文放行。優(yōu)選地,第一過濾模塊402,用于根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。本實(shí)施例的報(bào)文過濾裝置用于實(shí)現(xiàn)前述多個(gè)方法實(shí)施例中相應(yīng)的報(bào)文過濾方法,并具有相應(yīng)的報(bào)文過濾方法的有益效果,在此不再贅述。本發(fā)明提供了一種報(bào)文過濾方案,首先根據(jù)第一過濾規(guī)則、黑白名單規(guī)則對(duì)報(bào)文進(jìn)行過濾,對(duì)于過濾后獲取到的報(bào)文的URL,向URL的服務(wù)器發(fā)起爬蟲抓??;然后,對(duì)爬蟲結(jié)果進(jìn)行語法分析,進(jìn)而獲取到各個(gè)節(jié)點(diǎn)相應(yīng)的文本信息;并根據(jù)一定規(guī)則(內(nèi)容較少或者無標(biāo)題無meta)減少相應(yīng)的URL信息或?qū)⑵浼尤牒诿麊沃校瑥亩岣邎?bào)文過濾效率。通過本發(fā)明,采用預(yù)測(cè)的方法,通過對(duì)報(bào)文URL的頁面爬取,正文分析,實(shí)現(xiàn)對(duì)垃圾報(bào)文和正常報(bào)文的識(shí)別,從而達(dá)到對(duì)底層數(shù)據(jù)清洗的目的。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上對(duì)本發(fā)明進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種報(bào)文過濾方法,其特征在于,包括: 使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文; 判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配; 若不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼; 根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配的步驟包括: 判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值; 對(duì)過濾后的所述報(bào)文中,PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼的步驟包括: 獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL,對(duì)其進(jìn)行去除重復(fù)和打亂順序處理; 對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取,獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼; 若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析,獲取所述處理后的URL對(duì)應(yīng)的文本信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾的步驟包括: 若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單; 若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息,則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 若判斷過濾后的所述報(bào)文與所述黑名單中的報(bào)文匹配,則過濾掉匹配的所述報(bào)文; 若判斷過濾后的所述報(bào)文與所述白名單中的報(bào)文匹配,則對(duì)匹配的所述報(bào)文放行。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文的步驟包括: 根據(jù)報(bào)文的URL使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中URL與設(shè)定格式的URL相匹配的報(bào)文。
7.一種報(bào)文過濾裝置,其特征在于,包括: 第一過濾模塊,用于使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文; 判斷模塊,用于判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配; 獲取模塊,用于若所述判斷模塊的判斷結(jié)果為不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼; 第二過濾模塊,用于根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述判斷模塊,用于判斷過濾后的所述報(bào)文的頁面瀏覽PV量是否大于第一設(shè)定閾值;對(duì)過濾后的所述報(bào)文中,PV量大于所述第一設(shè)定閾值的報(bào)文進(jìn)行所述是否與黑名單或白名單中的報(bào)文相匹配的判斷。
9.根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述獲取模塊,用于若所述判斷模塊的判斷結(jié)果為不匹配,則獲取所述不匹配的報(bào)文的統(tǒng)一資源定位符URL,對(duì)其進(jìn)行去除重復(fù)和打亂順序處理;對(duì)所述處理后的URL進(jìn)行網(wǎng)頁爬取,獲得所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼和/或網(wǎng)頁狀態(tài)碼;若獲得到所述處理后的URL對(duì)應(yīng)的網(wǎng)頁源碼,則對(duì)所述網(wǎng)頁源碼進(jìn)行語法分析,獲取所述處理后的URL對(duì)應(yīng)的文本信息。
10.根據(jù) 權(quán)利要求9所述的裝置,其特征在于,所述第二過濾模塊,用于若所述網(wǎng)頁狀態(tài)碼為非正常頁面返回碼,則過濾掉所述網(wǎng)頁狀態(tài)碼對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單;若根據(jù)所述文本信息確定所述URL對(duì)應(yīng)的網(wǎng)頁正文的字符數(shù)少于第二設(shè)定閾值、和/或所述網(wǎng)頁正文無標(biāo)題、和/或所述網(wǎng)頁正文無文檔屬性信息,則過濾掉所述文本信息對(duì)應(yīng)的報(bào)文,并將所述報(bào)文加入所述黑名單。
全文摘要
本發(fā)明提供了一種報(bào)文過濾方法與裝置,其中,報(bào)文過濾方法包括使用第一過濾規(guī)則對(duì)報(bào)文進(jìn)行過濾,過濾掉所述報(bào)文中符合設(shè)定格式的報(bào)文;判斷過濾后的所述報(bào)文是否與黑名單或白名單中的報(bào)文相匹配;若不匹配,則獲取不匹配的報(bào)文對(duì)應(yīng)的文本信息和/或網(wǎng)頁狀態(tài)碼;根據(jù)所述文本信息和/或所述網(wǎng)頁狀態(tài)碼對(duì)所述不匹配的報(bào)文進(jìn)行報(bào)文過濾。通過本發(fā)明,有效提高了報(bào)文過濾的準(zhǔn)確率。
文檔編號(hào)H04L29/06GK103078854SQ201210589720
公開日2013年5月1日 申請(qǐng)日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者羅峰, 黃蘇支, 李娜 申請(qǐng)人:北京億贊普網(wǎng)絡(luò)技術(shù)有限公司