專利名稱:一種面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)中文本分類技術(shù),特別涉及一種面向互聯(lián)網(wǎng)中網(wǎng)頁(yè)的不良Web 內(nèi)容識(shí)別方法,應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域的特征抽取及分類技術(shù)完成最終的判別。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,不良網(wǎng)絡(luò)文化內(nèi)容充斥其中,色情網(wǎng)頁(yè)的大量出現(xiàn)更是嚴(yán)重影響青少年的健康成長(zhǎng)。自動(dòng)識(shí)別互聯(lián)網(wǎng)中充斥的各種色情網(wǎng)頁(yè)亟待解決。申請(qǐng)人經(jīng)過(guò)查新,檢索到三篇與本發(fā)明相關(guān)的屬于不良網(wǎng)絡(luò)內(nèi)容識(shí)別領(lǐng)域的專利文獻(xiàn),它們分別是 ①基于內(nèi)容的網(wǎng)絡(luò)色情圖像和不良圖像檢測(cè)系統(tǒng)(申請(qǐng)?zhí)?00510048577.0)。②一種基于 URL的不良網(wǎng)頁(yè)識(shí)別方法(申請(qǐng)?zhí)?009100239 . 1)。③一種基于多分類器融合的敏感網(wǎng)頁(yè)過(guò)濾方法及系統(tǒng)(申請(qǐng)?zhí)?00710065181. 6)。在上述專利①中,發(fā)明人提出的檢測(cè)系統(tǒng)含有圖標(biāo)檢測(cè)子系統(tǒng),篩選出多數(shù)為網(wǎng)站廣告之類的窄條形狀和尺寸太小的網(wǎng)絡(luò)圖像;文本檢測(cè)子系統(tǒng),判斷出文本圖像和可疑圖像;顏色檢測(cè)子系統(tǒng),分析圖像的顏色組成,通過(guò)顏色空間的實(shí)驗(yàn)比較建立膚色模型,通過(guò)檢測(cè)網(wǎng)絡(luò)圖像膚色暴露程度,分離出網(wǎng)頁(yè)正常圖像和可疑圖像;姿態(tài)檢測(cè)子系統(tǒng),建立色情標(biāo)準(zhǔn)圖像特征庫(kù),作為判決是否為色情圖像的匹配相似性的依據(jù),區(qū)分出網(wǎng)頁(yè)正常圖像和可疑圖像。在專利②中,發(fā)明人提出的方法是通過(guò)URL主域名部分的語(yǔ)義分析和整個(gè)URL的結(jié)構(gòu)分析來(lái)判別其是否為色情站點(diǎn)URL。判別時(shí),提取了 URL所包含的敏感串特征與結(jié)構(gòu)特征兩類特征作為判別的依據(jù),并采用將和SVM算法綜合起來(lái)的判別器最終綜合特征進(jìn)行二分類得到判別結(jié)果。該發(fā)明在不需要獲取網(wǎng)頁(yè)內(nèi)容的情況下就可以進(jìn)行不良網(wǎng)頁(yè)內(nèi)容判別,從而快速地識(shí)別不良網(wǎng)頁(yè)。在專利③中,處理對(duì)象是一幅網(wǎng)頁(yè),其處理結(jié)果是該網(wǎng)頁(yè)是否包含敏感內(nèi)容。系統(tǒng)基于多個(gè)分類器的協(xié)作,在給定網(wǎng)頁(yè)的統(tǒng)一資源定位器的條件下,獲取該網(wǎng)頁(yè)的源代碼,在預(yù)處理階段進(jìn)行文本和圖像的分流,獲取文本信息和有效圖像信息;利用決策樹(shù)算法將輸入網(wǎng)頁(yè)分為三種樣式;利用連續(xù)文本分類器、離散敏感文本分類器和圖像分類器對(duì)網(wǎng)頁(yè)進(jìn)行識(shí)別,根據(jù)各分類器識(shí)別的輸出結(jié)果進(jìn)行融合計(jì)算,給出判別因子,將最終結(jié)果返回給瀏
IrWSB 見(jiàn)益。根據(jù)上述查新,現(xiàn)有技術(shù)主要存在以下兩個(gè)方面的問(wèn)題1.現(xiàn)有專利多采用直接識(shí)別文件對(duì)象中的圖像信息的方式,通常色情頁(yè)面包含大量圖片信息,而現(xiàn)有圖片識(shí)別技術(shù)的精度和效率都離實(shí)際應(yīng)用有一定距離。2.現(xiàn)有專利中大量基于文本內(nèi)容的識(shí)別方法中,均沒(méi)有考慮區(qū)分真正色情內(nèi)容和疑似色情內(nèi)容,如性保健、性知識(shí)等文本中同樣會(huì)包含很多色情詞匯。在互聯(lián)網(wǎng)高速發(fā)展的今天,不良內(nèi)容網(wǎng)頁(yè)充斥其中并快速增長(zhǎng)。由于不良內(nèi)容網(wǎng)頁(yè)具有海量、動(dòng)態(tài)的特點(diǎn),人工檢查的方式效率低下,自動(dòng)、高效、準(zhǔn)確的不良網(wǎng)頁(yè)識(shí)別方法亟待提出。隨著基于統(tǒng)計(jì)的分類模型技術(shù)的成熟,如SVM、決策樹(shù)等模型的廣泛應(yīng)用,為不良網(wǎng)頁(yè)識(shí)別提供了技術(shù)基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明的目的是,一方面,利用頁(yè)面結(jié)構(gòu)信息構(gòu)建不良頁(yè)面識(shí)別器,利用機(jī)器學(xué)習(xí)的方法訓(xùn)練識(shí)別色情內(nèi)容的分類器,在不考慮圖片識(shí)別的前提下為針對(duì)該類頁(yè)面的準(zhǔn)確識(shí)別提供了新思路;另一方面,利用真正不良頁(yè)面和疑似不良頁(yè)面如性知識(shí)、性保健文本分別作為訓(xùn)練數(shù)據(jù)中的正例和負(fù)例,構(gòu)造分類器識(shí)別這兩類容易混淆的頁(yè)面。為達(dá)到以上目的,本發(fā)明是采取如下技術(shù)方案予以實(shí)現(xiàn)的一種面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于,包括下述步驟第一步,提取網(wǎng)頁(yè)視覺(jué)結(jié)構(gòu)、HTML標(biāo)簽、鏈接三類信息,分別從3類信息中提取12 維特征,利用決策樹(shù)構(gòu)建的二元分類模型識(shí)別當(dāng)前網(wǎng)頁(yè)的12維特征,如果判定是不良網(wǎng)頁(yè),則標(biāo)記該網(wǎng)頁(yè)為不良網(wǎng)頁(yè),否則執(zhí)行第二步;第二步,提取網(wǎng)頁(yè)文本內(nèi)容和特定HTML標(biāo)簽內(nèi)容,其中特定HTML標(biāo)簽包括title、 A標(biāo)簽;由人工設(shè)置初始種子色情詞匯19個(gè)并自動(dòng)迭代生成最終色情詞典,并通過(guò)學(xué)習(xí)到的規(guī)則判別正常頁(yè)面和疑似色情頁(yè)面;在此基礎(chǔ)上,基于文檔頻率和信息增益方法在整個(gè)文檔集上抽取特征詞,利用SVM模型從疑似色情網(wǎng)頁(yè)中識(shí)別色情網(wǎng)頁(yè);其中,第一步所述的基于頁(yè)面結(jié)構(gòu)分析的識(shí)別方法包括如下具體步驟Stepl 通過(guò)分析大量不良網(wǎng)站的頁(yè)面,將視覺(jué)特征、HTML標(biāo)簽特征、鏈接特征三類特征具體細(xì)化為12維特征向量定義為Fstruct,包括Fl,F(xiàn)2,F(xiàn)3,…,F(xiàn)12,其中每一維對(duì)應(yīng)一個(gè)特征值,這些特征值對(duì)應(yīng)如下視覺(jué)結(jié)構(gòu)A. Fl 背景顏色BGColor ;獲取方法背景顏色對(duì)應(yīng)標(biāo)簽屬性為“background”的屬性值;特征值類型枚舉型;B. F2 頁(yè)面主體是否由一張大圖片占據(jù)BigPicOccup ;獲取方法檢查img標(biāo)簽中圖像的寬度和高度屬性值;特征值類型布爾型;C. F3 圖片個(gè)數(shù)PicN ;獲取方法統(tǒng)計(jì)整個(gè)html中標(biāo)簽為IMG的個(gè)數(shù);特征值類
型數(shù)值型;D.F4 同級(jí)圖片連續(xù)出現(xiàn)數(shù)目最大值MaxOccurPic ;獲取方法統(tǒng)計(jì)html頁(yè)面中所有兄弟節(jié)點(diǎn)中連續(xù)IMG標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;E. F5 字體信息Rmthf0 ;獲取方法檢查font標(biāo)簽中face屬性值、size屬性值; 特征值類型枚舉型;鏈接結(jié)構(gòu)F. F6 出現(xiàn)超鏈接個(gè)數(shù)HypIinkN ;獲取方法計(jì)算整個(gè)html頁(yè)面中A標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;G.F7 所有超鏈接實(shí)際指向的不同URL數(shù)目tolOutN ;獲取方法遍歷整個(gè)html, 每次遍歷到A標(biāo)簽,判斷如果該A標(biāo)簽中的URL是否在Hash表中存儲(chǔ),如果未存儲(chǔ)則計(jì)數(shù)加1,并將該URL存儲(chǔ)在Hash表中,否則繼續(xù)遍歷,直到遍歷完整個(gè)html,最終的計(jì)數(shù)就是該特征值特征值類型數(shù)值型;H. F8 同級(jí)超鏈接連續(xù)出現(xiàn)數(shù)目最大值MaxHypl inkOccurN ;獲取方法經(jīng)過(guò)BeautifulSoup解析html后得到一張樹(shù)形結(jié)構(gòu),計(jì)算樹(shù)中每個(gè)級(jí)別的連續(xù)A標(biāo)簽個(gè)數(shù)的最大值;特征值類型數(shù)值型;標(biāo)簽結(jié)構(gòu)F9錨文本長(zhǎng)度Alen ;獲取方法計(jì)算標(biāo)簽A中NavigableMring的長(zhǎng)度, Navigabl必tring定義為起始<A>標(biāo)簽和結(jié)束</A>標(biāo)簽中間的字符;特征值類型數(shù)值型;FlO 標(biāo)簽A中title屬性長(zhǎng)度TitleLen ;獲取方法計(jì)算A標(biāo)簽中title屬性對(duì)應(yīng)的字符串的長(zhǎng)度;特征值類型數(shù)值型;Fll =Title 標(biāo)簽包含的 NavigableMring 長(zhǎng)度 TitleNavstrLen ;獲取方法計(jì)算 Title標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;F12 =Meta 標(biāo)簽包含的 NavigableMring 長(zhǎng)度 MetaNavstrLen ;獲取方法計(jì)算 Meta標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;Step2 借助于HTML解析工具計(jì)算每一維特征值,并為每個(gè)頁(yè)面生成對(duì)應(yīng)的特征向量,特征向量中每一維值對(duì)應(yīng)上述12維特征計(jì)算得到的特征值;St印3 利用決策樹(shù)J48方法訓(xùn)練得到判別模型,1)訓(xùn)練數(shù)據(jù)構(gòu)造如下從門戶網(wǎng)站如新浪、騰訊、天涯論壇搜集正常網(wǎng)頁(yè)作為正例,從色情網(wǎng)站搜集不良網(wǎng)頁(yè)作為負(fù)例,正負(fù)樣例比例為1 10 ;2)取所有12維屬性作為屬性集Fstruct,包括F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)12; 3)遍歷屬性集中所有屬性,分別計(jì)算每個(gè)屬性對(duì)應(yīng)的信息增益率,取具有最大信息增益率的屬性F為當(dāng)前根屬性,并從屬性集FStruct中刪除該屬性;4)重復(fù)步驟3)直到屬性集為空或者當(dāng)前根屬性不再劃分?jǐn)?shù)據(jù)集;St印4 對(duì)于輸入網(wǎng)頁(yè),采用乂印1、2中的方法計(jì)算該網(wǎng)頁(yè)中的特征向量,并作為輸入到乂印3中訓(xùn)練出的決策樹(shù)模型,最后判別輸出該網(wǎng)頁(yè)屬于正常網(wǎng)頁(yè)還是不良網(wǎng)頁(yè);第二步所述的基于文本的識(shí)別方法包括如下具體步驟Stepl 人工設(shè)定種子色情詞匯,根據(jù)文檔頻率DF、共現(xiàn)句子頻率Cc^enFreq、最短距離MinDist和詞性POS的指標(biāo)生成色情詞匯,并通過(guò)常領(lǐng)域文本集過(guò)濾,最終形成色情詞典 PornDic ;St印2 基于上一步生成的色情詞典PornDic,結(jié)合規(guī)則識(shí)別正常網(wǎng)頁(yè)NorPage和疑似色情網(wǎng)頁(yè)SuspI^age ;乂印3:以色情網(wǎng)頁(yè)和正常網(wǎng)頁(yè)1 1比例構(gòu)造訓(xùn)練數(shù)據(jù)集,抽取特征詞形成特征向量,最終通過(guò)SVM學(xué)習(xí)得到二元分類模型,識(shí)別疑似色情網(wǎng)頁(yè)是否是真正色情網(wǎng)頁(yè)。上述方案中,第二步所述的自動(dòng)迭代生成最終色情詞典的方法包括如下具體步驟將色情小說(shuō)、色情網(wǎng)頁(yè)中的文本內(nèi)容作為色情文本集PornCorpus,采用以下方案從色情文本集PornCorpus中抽取出色情詞典Stepl 人工設(shè)定種子色情詞匯19個(gè)詞,構(gòu)成初始色情詞典PornDic,對(duì) PornCorpus分詞和詞性標(biāo)注處理得到PornTokenCorpus ;St印2 將滿足如下條件的詞匯添加到PornDic中1)文檔頻率DF大于閾值0. 2 ;2)與S中詞匯共同出現(xiàn)的句子頻率CoSenFreq大于0. 3 ;3)與S中詞匯的最短距離MinDist小于2 ;
4)詞性POS屬于名詞、形容詞、或動(dòng)詞;St印3 重復(fù)乂印2過(guò)程直到每次迭代后PornDic大小增加量不超過(guò)詞匯總量的 10%,此步驟共生成N個(gè)色情詞匯;St印4 選擇人民日?qǐng)?bào)2008年的語(yǔ)料作為常用領(lǐng)域文本集,遍歷PornDic詞典中所有色情詞匯,為每一個(gè)詞匯計(jì)算在常用領(lǐng)域文本集中出現(xiàn)的詞匯頻率Vfreq和該詞匯的文檔頻率DF的乘積Vf ilterP,如果VfilterP超過(guò)0. 001 X 0. 05,從PornDic中刪除該詞匯, 其中,詞匯頻率的計(jì)算方法為Vfreq= |Vi|/|V|, |Vi為待計(jì)算詞匯在整個(gè)文本集中出現(xiàn)的次數(shù),|V|為文本集中所有詞匯的個(gè)數(shù),i取值從1到N ;最終得到色情詞典。第二步所述的通過(guò)學(xué)習(xí)到的規(guī)則判別正常頁(yè)面和疑似色情頁(yè)面的方法包括如下步驟設(shè)待判別網(wǎng)頁(yè)為Page,其中eroticwords_C(Page)指輸入文件I^age中出現(xiàn)的色情詞匯個(gè)數(shù),即屬于色情詞典S的詞的個(gè)數(shù),Ien(Page)指I^age中包含的詞匯總數(shù), eroticsents_C(Page)指I^age中出現(xiàn)的色情句子的個(gè)數(shù),色情句子指包含色情詞匯超過(guò)閾值 P 的句子,slen (Page)指 Page 包含的句子總數(shù),eroticwords_minDis (Page)指 Page 中相鄰色情詞的最短距離,eroticsents_minDis(Page)指I^age中相鄰色情句的最短距離定義的規(guī)則如下vi. if eroticwords_C(Page)/len(Page) < rl, Page ^ lE 胃 _ M ;else if eroticwords_C(Page)/len(Page) > r2, Page 是疑似色情網(wǎng)頁(yè);vii. Else if eroticsents_C(Page)/slen (Page) < el,Page^iEiINM ;else if eroticsents_C(Page)/slen(Page) > e2, Page 是疑似色情網(wǎng)頁(yè);viii. Else if eroticwords_minDis (Page) > Lffl, Page 是正常網(wǎng)頁(yè),elseif eroticwords_minDis (Page) < Lff2, Page ^li^feff NM ;ix. Else if eroticsents_minDis (Page) > LSI,Page 是正常網(wǎng)頁(yè);χ. Else I^age是疑似色情網(wǎng)頁(yè)以上不等式右邊的參數(shù)以及ρ值都需要通過(guò)從色情樣本和常領(lǐng)域樣本集學(xué)習(xí)得到,將這些數(shù)值分別設(shè)為rl = 0.01,r2 = 0. 1, ρ = 0. 1,el = 0. 05,e2 = 0. 15,Lffl = 20,LW2 = 10,LSI = 8。第二步中所述的基于文檔頻率和信息增益方法在整個(gè)文檔集上抽取特征詞,利用 SVM模型從疑似色情網(wǎng)頁(yè)中識(shí)別色情網(wǎng)頁(yè)包括如下步驟規(guī)則判別輸出疑似不良網(wǎng)頁(yè),在此基礎(chǔ)上,利用SVM分類算法對(duì)色情類和疑似色情類進(jìn)行二類分類,其中色情類即正例主要為從色情網(wǎng)站獲取的色情小說(shuō),疑似色情類即負(fù)例為性知識(shí)、性保健、生理衛(wèi)生三類,具體流程如下構(gòu)造訓(xùn)練數(shù)據(jù)按照1 1的文檔比例數(shù)構(gòu)造正例和負(fù)例,其中正例來(lái)自于色情網(wǎng)站獲取的色情小說(shuō)和色情網(wǎng)頁(yè)中的純文本;負(fù)例來(lái)自于門戶網(wǎng)站新浪、騰訊中分類為性知識(shí)、性保健和生理衛(wèi)生的網(wǎng)頁(yè);St印2 分類訓(xùn)練對(duì)所有訓(xùn)練數(shù)據(jù),提取網(wǎng)頁(yè)中正文、并對(duì)文本進(jìn)行分詞處理得到網(wǎng)頁(yè)中所有出現(xiàn)的詞,計(jì)算該網(wǎng)頁(yè)對(duì)應(yīng)的特征向量,最后學(xué)習(xí)一個(gè)基于SVM的分類模型 Classifier ;Step2. 1 預(yù)處理去掉訓(xùn)練數(shù)據(jù)中網(wǎng)頁(yè)的非文本信息,HTML標(biāo)簽信息,保留網(wǎng)頁(yè)正文;借助于分詞工具對(duì)文本進(jìn)行分詞處理;Step2. 2 特征提取和表示采用BOW即hg-of-words模型來(lái)表征一個(gè)文檔,基于文檔頻率DF、信息增益^fofein過(guò)濾方法在整個(gè)文檔集上進(jìn)行特征詞選擇,最終選擇的特征詞共沈30個(gè),每個(gè)特征詞的權(quán)值利用LTC權(quán)值計(jì)算方法得到,該方法分別對(duì)詞頻TF和文檔頻率DF值取對(duì)數(shù),進(jìn)行平滑處理,最后歸一化;Step2. 3 學(xué)習(xí)一個(gè)基于SVM的分類模型Classifier ;St印3 分類預(yù)測(cè)對(duì)于新需要判別的網(wǎng)頁(yè),通過(guò)乂印2提取網(wǎng)頁(yè)中正文、并對(duì)文本進(jìn)行分詞處理得到網(wǎng)頁(yè)中所有出現(xiàn)的詞,通過(guò)Mep3計(jì)算該網(wǎng)頁(yè)對(duì)應(yīng)的特征向量,利用 Step4中得到的Classifier判別該疑似色情網(wǎng)頁(yè)屬于正常網(wǎng)頁(yè)還是不良網(wǎng)頁(yè)。與現(xiàn)有技術(shù)相比,本發(fā)明針對(duì)互聯(lián)網(wǎng)中充斥的各種不良色情網(wǎng)頁(yè),綜合考慮網(wǎng)頁(yè)結(jié)構(gòu)信息、鏈接結(jié)構(gòu)信息、網(wǎng)頁(yè)內(nèi)容信息,具有高效、準(zhǔn)確的特點(diǎn)。其中基于網(wǎng)頁(yè)結(jié)構(gòu)的決策樹(shù)分類模型利用頁(yè)面結(jié)構(gòu)信息構(gòu)建不良頁(yè)面識(shí)別器,無(wú)需圖像識(shí)別即可高效識(shí)別不良網(wǎng)頁(yè),基于文本內(nèi)容的分類模型可以有效區(qū)分性知識(shí)等正常網(wǎng)頁(yè)和真正的色情網(wǎng)頁(yè)。
圖1為本發(fā)明的面向網(wǎng)頁(yè)的不良Wfeb內(nèi)容識(shí)別流程。圖2為圖1中的面向網(wǎng)頁(yè)結(jié)構(gòu)的不良網(wǎng)頁(yè)識(shí)別流程。圖3為圖1中面向網(wǎng)頁(yè)內(nèi)容的不良網(wǎng)頁(yè)識(shí)別流程。
具體實(shí)施例方式為了更清楚的理解本發(fā)明,以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。參照?qǐng)D1所示,在不良網(wǎng)頁(yè)判別過(guò)程中,首先通過(guò)HTML解析工具解析HTML文件, 生成HTML解析樹(shù);接下來(lái)進(jìn)入到網(wǎng)頁(yè)結(jié)構(gòu)分析和識(shí)別階段,根據(jù)定義的12維特征抽取和計(jì)算網(wǎng)頁(yè)對(duì)應(yīng)的特征向量,利用決策樹(shù)模型判別網(wǎng)頁(yè)是否是不良網(wǎng)頁(yè);如果網(wǎng)頁(yè)結(jié)構(gòu)分析過(guò)程并未識(shí)別出該網(wǎng)頁(yè)是不良網(wǎng)頁(yè),則進(jìn)入文本內(nèi)容識(shí)別階段人工構(gòu)造初始種子色情詞典并規(guī)則生成最終色情詞典,利用該色情詞典及定義的規(guī)則自動(dòng)過(guò)濾掉非色情網(wǎng)頁(yè),剩下的疑似色情網(wǎng)頁(yè)可能是真正的色情網(wǎng)頁(yè),也可能是性知識(shí),最后通過(guò)訓(xùn)練的一個(gè)SVM分類器區(qū)分真正的色情網(wǎng)頁(yè)和疑似色情網(wǎng)頁(yè)。 該方法包括圖2面向網(wǎng)頁(yè)結(jié)構(gòu)的不良網(wǎng)頁(yè)識(shí)別和圖3面向文本內(nèi)容的不良網(wǎng)頁(yè)識(shí)別兩個(gè)部分。面向網(wǎng)頁(yè)結(jié)構(gòu)的不良網(wǎng)頁(yè)識(shí)別見(jiàn)圖2。參照?qǐng)D2所示,首先使用網(wǎng)頁(yè)結(jié)構(gòu)信息對(duì)網(wǎng)頁(yè)進(jìn)行判別。結(jié)構(gòu)信息包括鏈接信息、視覺(jué)信息以及標(biāo)簽信息。在現(xiàn)有圖片識(shí)別技術(shù)精度和效率都不能達(dá)到很好效果,以及網(wǎng)頁(yè)本身文字并不充分的情況下,網(wǎng)頁(yè)結(jié)構(gòu)信息對(duì)幫助機(jī)器自動(dòng)識(shí)別不良網(wǎng)頁(yè)提供了很好的思路。面向網(wǎng)頁(yè)結(jié)構(gòu)的不良網(wǎng)頁(yè)識(shí)別主要包括以下步驟Stepl 輸入待識(shí)別網(wǎng)頁(yè)I^age ;Step2 抽取待識(shí)別網(wǎng)頁(yè)I^age的結(jié)構(gòu)信息如視覺(jué)結(jié)構(gòu)信息、標(biāo)簽結(jié)構(gòu)信息、鏈接結(jié)構(gòu)信息,正文文本信息。利用Html解析器如Python的BeautifuISoup模塊,解析Html 頁(yè)面中的視覺(jué)結(jié)構(gòu)信息、標(biāo)簽結(jié)構(gòu)信息、鏈接結(jié)構(gòu)信息和正文文本信息,并計(jì)算特征向量。
乂印2. 1特征向量定義為(F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)12),共12維,其中每一維對(duì)應(yīng)一個(gè)特征值,這些特征值對(duì)應(yīng)如下視覺(jué)結(jié)構(gòu)DFl 背景顏色BGColor ;獲取方法背景顏色對(duì)應(yīng)標(biāo)簽屬性為“background”的屬性值;特征值類型枚舉型;2)F2 頁(yè)面主體是否由一張大圖片占據(jù)BigPicOccup ;獲取方法檢查img標(biāo)簽中圖像的寬度和高度屬性值;特征值類型布爾型;3)F3 圖片個(gè)數(shù)PicN ;獲取方法統(tǒng)計(jì)整個(gè)html中標(biāo)簽為IMG的個(gè)數(shù);特征值類型數(shù)值型;4)F4 同級(jí)圖片連續(xù)出現(xiàn)數(shù)目最大值MaxOccurPic ;獲取方法統(tǒng)計(jì)html頁(yè)面中所有兄弟節(jié)點(diǎn)中連續(xù)IMG標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;5)F5 字體信息Rmthf0 ;獲取方法檢查font標(biāo)簽中face屬性值、size屬性值; 特征值類型枚舉型;鏈接結(jié)構(gòu)6)F6 出現(xiàn)超鏈接個(gè)數(shù)HypIinkN ;獲取方法計(jì)算整個(gè)html頁(yè)面中A標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;7)F7 所有超鏈接實(shí)際指向的不同URL數(shù)目tolOutN ;獲取方法遍歷整個(gè)html, 每次遍歷到A標(biāo)簽,判斷如果該A標(biāo)簽中的URL是否在Hash表中存儲(chǔ),如果未存儲(chǔ)則計(jì)數(shù)加1,并將該URL存儲(chǔ)在Hash表中,否則繼續(xù)遍歷,直到遍歷完整個(gè)html,最終的計(jì)數(shù)就是該特征值特征值類型數(shù)值型;8) F8 同級(jí)超鏈接連續(xù)出現(xiàn)數(shù)目最大值MaxHypl inkOccurN ;獲取方法經(jīng)過(guò) BeautifulSoup解析html后得到一張樹(shù)形結(jié)構(gòu),計(jì)算樹(shù)中每個(gè)級(jí)別的連續(xù)A標(biāo)簽個(gè)數(shù)的最大值;特征值類型數(shù)值型;標(biāo)簽結(jié)構(gòu)9) F9錨文本長(zhǎng)度Alen ;獲取方法計(jì)算標(biāo)簽A中NavigableMring的長(zhǎng)度, Navigabl必tring定義為起始<A>標(biāo)簽和結(jié)束</A>標(biāo)簽中間的字符;特征值類型數(shù)值型;10) FlO 標(biāo)簽A中title屬性長(zhǎng)度TitleLen ;獲取方法計(jì)算A標(biāo)簽中title屬性對(duì)應(yīng)的字符串的長(zhǎng)度;特征值類型數(shù)值型;11) Fll :Title 標(biāo)簽包含的 NavigableMring 長(zhǎng)度 TitleNavstrLen ;獲取方法計(jì)算Title標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;12)F12 :Meta 標(biāo)簽包含的 NavigableMring 長(zhǎng)度 MetaNavstrLen ;獲取方法計(jì)算 Meta標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;Mep2.2提取視覺(jué)結(jié)構(gòu)信息,并計(jì)算特征值1)背景顏色對(duì)應(yīng)標(biāo)簽屬性為 “background”的屬性值。該特征值為枚舉型;2)頁(yè)面主題是否由一張大圖片占據(jù)布爾型數(shù)值,檢查img標(biāo)簽中圖像的寬度和高度屬性值;3)圖片個(gè)數(shù)數(shù)值型數(shù)值,統(tǒng)計(jì)整個(gè)html 中標(biāo)簽為IMG的個(gè)數(shù);4)同級(jí)圖片連續(xù)出現(xiàn)數(shù)目最大值數(shù)值型數(shù)值,統(tǒng)計(jì)html頁(yè)面中所有兄弟節(jié)點(diǎn)中連續(xù)IMG標(biāo)簽個(gè)數(shù);5)字體信息枚舉型數(shù)值,檢查font標(biāo)簽中face屬性值; 6)字體大小信息枚舉型數(shù)值,檢查font標(biāo)簽中size屬性值;Step2. 3提取鏈接結(jié)構(gòu)信息,并計(jì)算特征值1)出現(xiàn)超鏈接個(gè)數(shù)數(shù)值型數(shù)值,計(jì)算整個(gè)html頁(yè)面中A標(biāo)簽個(gè)數(shù);幻所有超鏈接實(shí)際指向的不同URL數(shù)目數(shù)值型數(shù)值,遍歷整個(gè)html,每次遍歷到A標(biāo)簽,判斷如果該A標(biāo)簽中的URL是否在Hash表中存儲(chǔ),如果未存儲(chǔ)則計(jì)數(shù)加1,并將該URL存儲(chǔ)在Hash表中,否則繼續(xù)遍歷,直到遍歷完整個(gè)html,最終的計(jì)數(shù)就是該特征值;3)同級(jí)超鏈接連續(xù)出現(xiàn)數(shù)目最大值數(shù)值型數(shù)值,經(jīng)過(guò)BeautifulSoup 解析html后得到一張樹(shù)形結(jié)構(gòu),計(jì)算樹(shù)中每個(gè)級(jí)別的連續(xù)A標(biāo)簽個(gè)數(shù)的最大值;Mep2. 4提取標(biāo)簽結(jié)構(gòu)信息,并計(jì)算特征值1)錨文本長(zhǎng)度數(shù)值型數(shù)值,計(jì)算標(biāo)簽A中NavigableMring的長(zhǎng)度,NavigableMring定義為起始<A>標(biāo)簽和結(jié)束</A>標(biāo)簽中間的字符;2)標(biāo)簽A中title屬性長(zhǎng)度數(shù)值型數(shù)值,計(jì)算A標(biāo)簽中title屬性對(duì)應(yīng)的字符串的長(zhǎng)度;3)分別計(jì)算Title、Meta標(biāo)簽包含的NavigableMring長(zhǎng)度;St印3利用決策樹(shù)算法J48判別網(wǎng)頁(yè)I^age是否是不良網(wǎng)頁(yè)。利用決策樹(shù)J48方法訓(xùn)練得到判別模型,決策樹(shù)模型每次選擇能最優(yōu)劃分?jǐn)?shù)據(jù)集中正負(fù)樣例的屬性作為判別屬性,如果當(dāng)前屬性不能完全區(qū)分訓(xùn)練數(shù)據(jù)中的正負(fù)樣例,再選擇次優(yōu)的判別屬性,一直迭代到能夠完全區(qū)分正負(fù)樣例,其中最優(yōu)屬性選擇方法由信息增益計(jì)算;Step3. 1決策樹(shù)J48算法根據(jù)收集到的訓(xùn)練數(shù)據(jù)訓(xùn)練決策樹(shù)判別模型;Step3. 1. 1訓(xùn)練數(shù)據(jù)構(gòu)造如下從門戶網(wǎng)站如新浪、騰訊、天涯論壇搜集正常網(wǎng)頁(yè)作為正例,從色情網(wǎng)站搜集不良網(wǎng)頁(yè)作為負(fù)例,正負(fù)樣例比例為1 10;St印3. 1.2取所有12維屬性作為屬性集FStruct (F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)12);Step3. 1. 3遍歷屬性集中所有屬性,分別計(jì)算每個(gè)屬性對(duì)應(yīng)的信息增益率 hfofein,取具有最大信息增益率的屬性F為當(dāng)前根屬性,并從屬性集FStruct (Fl,F(xiàn)2, F3,…,F(xiàn)12)中刪除該屬性F。信息增益是很有效的特征選擇方法。特征T給系統(tǒng)帶來(lái)的信息增益就可以寫成系統(tǒng)原本的熵與固定特征T后的條件熵之差,即公式(1)所示
權(quán)利要求
1. 一種面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于,包括如下步驟 第一步,提取網(wǎng)頁(yè)視覺(jué)結(jié)構(gòu)、HTML標(biāo)簽、鏈接三類信息,分別從3類信息中提取12維特征,利用決策樹(shù)構(gòu)建的二元分類模型識(shí)別當(dāng)前網(wǎng)頁(yè)的12維特征,如果判定是不良網(wǎng)頁(yè),則標(biāo)記該網(wǎng)頁(yè)為不良網(wǎng)頁(yè),否則執(zhí)行第二步;第二步,提取網(wǎng)頁(yè)文本內(nèi)容和特定HTML標(biāo)簽內(nèi)容,其中特定HTML標(biāo)簽包括ti11 e、A標(biāo)簽;由人工設(shè)置初始種子色情詞匯并自動(dòng)迭代生成最終色情詞典,并通過(guò)學(xué)習(xí)到的規(guī)則判別正常頁(yè)面和疑似色情頁(yè)面;在此基礎(chǔ)上,基于文檔頻率和信息增益方法在整個(gè)文檔集上抽取特征詞,利用SVM模型從疑似色情網(wǎng)頁(yè)中識(shí)別色情網(wǎng)頁(yè);上述方案中,第一步所述的基于頁(yè)面結(jié)構(gòu)分析的識(shí)別方法包括如下具體步驟 Stepl 通過(guò)分析大量不良網(wǎng)站的頁(yè)面,將視覺(jué)特征、HTML標(biāo)簽特征、鏈接特征三類特征具體細(xì)化為12維特征向量定義為Fstruct,包括Fl,F(xiàn)2,F(xiàn)3,…,F(xiàn)12,其中每一維對(duì)應(yīng)一個(gè)特征值,這些特征值對(duì)應(yīng)如下 視覺(jué)結(jié)構(gòu)A.Fl 背景顏色BGColor ;獲取方法背景顏色對(duì)應(yīng)標(biāo)簽屬性為“background”的屬性值;特征值類型枚舉型;B.F2 頁(yè)面主體是否由一張大圖片占據(jù)BigPicOccup ;獲取方法檢查img標(biāo)簽中圖像的寬度和高度屬性值;特征值類型布爾型;C.F3 圖片個(gè)數(shù)PicN ;獲取方法統(tǒng)計(jì)整個(gè)html中標(biāo)簽為IMG的個(gè)數(shù);特征值類型數(shù)值型;D.F4 同級(jí)圖片連續(xù)出現(xiàn)數(shù)目最大值MaxOccurPic ;獲取方法統(tǒng)計(jì)html頁(yè)面中所有兄弟節(jié)點(diǎn)中連續(xù)IMG標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;E.F5 字體信息Rmthf0 ;獲取方法檢查font標(biāo)簽中face屬性值、size屬性值;特征值類型枚舉型;鏈接結(jié)構(gòu)F.F6 出現(xiàn)超鏈接個(gè)數(shù)HyplinkN ;獲取方法計(jì)算整個(gè)html頁(yè)面中A標(biāo)簽個(gè)數(shù);特征值類型數(shù)值型;G.F7 所有超鏈接實(shí)際指向的不同URL數(shù)目tolOutN;獲取方法遍歷整個(gè)html,每次遍歷到A標(biāo)簽,判斷如果該A標(biāo)簽中的URL是否在Hash表中存儲(chǔ),如果未存儲(chǔ)則計(jì)數(shù)加1, 并將該URL存儲(chǔ)在Hash表中,否則繼續(xù)遍歷,直到遍歷完整個(gè)html,最終的計(jì)數(shù)就是該特征值特征值類型數(shù)值型;H.F8 同級(jí)超鏈接連續(xù)出現(xiàn)數(shù)目最大值MaxHypl inkOccurN ;獲取方法經(jīng)過(guò) BeautifulSoup解析html后得到一張樹(shù)形結(jié)構(gòu),計(jì)算樹(shù)中每個(gè)級(jí)別的連續(xù)A標(biāo)簽個(gè)數(shù)的最大值;特征值類型數(shù)值型;標(biāo)簽結(jié)構(gòu)I.F9錨文本長(zhǎng)度Alen ;獲取方法計(jì)算標(biāo)簽A中NavigableMring的長(zhǎng)度, Navigabl必tring定義為起始<A>標(biāo)簽和結(jié)束</A>標(biāo)簽中間的字符;特征值類型數(shù)值型;J. FlO 標(biāo)簽A中title屬性長(zhǎng)度TitleLen ;獲取方法計(jì)算A標(biāo)簽中title屬性對(duì)應(yīng)的字符串的長(zhǎng)度;特征值類型數(shù)值型;K. Fll =Title 標(biāo)簽包含的 NavigableString 長(zhǎng)度 TitleNavstrLen ;獲取方法計(jì)算Title標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;L. F12 =Meta 標(biāo)簽包含的 NavigableMring 長(zhǎng)度 MetaNavstrLen ;獲取方法計(jì)算 Meta 標(biāo)簽包含的NavigableMring長(zhǎng)度;特征值類型數(shù)值型;Step2 借助于HTML解析工具計(jì)算每一維特征值,并為每個(gè)頁(yè)面生成對(duì)應(yīng)的特征向量, 特征向量中每一維值對(duì)應(yīng)上述12維特征計(jì)算得到的特征值;St印3 利用決策樹(shù)J48方法訓(xùn)練得到判別模型,1)訓(xùn)練數(shù)據(jù)構(gòu)造如下從門戶網(wǎng)站如新浪、騰訊、天涯論壇搜集正常網(wǎng)頁(yè)作為正例,從色情網(wǎng)站搜集不良網(wǎng)頁(yè)作為負(fù)例,正負(fù)樣例比例為1 10 ;2)取所有12維屬性作為屬性集Fstruct,包括Fl,F(xiàn)2,F(xiàn)3,…,F(xiàn)12 ;3)遍歷屬性集中所有屬性,分別計(jì)算每個(gè)屬性對(duì)應(yīng)的信息增益率,取具有最大信息增益率的屬性F為當(dāng)前根屬性,并從屬性集FStruct中刪除該屬性;4)重復(fù)步驟3)直到屬性集為空或者當(dāng)前根屬性不再劃分?jǐn)?shù)據(jù)集;St印4 對(duì)于輸入網(wǎng)頁(yè),采用乂印1、2中的方法計(jì)算該網(wǎng)頁(yè)中的特征向量,并作為輸入到Mep3中訓(xùn)練出的決策樹(shù)模型,最后判別輸出該網(wǎng)頁(yè)屬于正常網(wǎng)頁(yè)還是不良網(wǎng)頁(yè); 第二步所述的基于文本的識(shí)別方法包括如下具體步驟Stepl 人工設(shè)定種子色情詞匯,根據(jù)文檔頻率DF、共現(xiàn)句子頻率Cc^enFreq、最短距離 MinDist和詞性POS的指標(biāo)生成色情詞匯,并通過(guò)常領(lǐng)域文本集過(guò)濾,最終形成色情詞典 PornDic ;St印2 基于上一步生成的色情詞典PornDic,結(jié)合規(guī)則識(shí)別正常網(wǎng)頁(yè)NorPage和疑似色情網(wǎng)頁(yè)SuspPage ;乂印3:以真正色情網(wǎng)頁(yè)和疑似色情網(wǎng)頁(yè)如性知識(shí)網(wǎng)頁(yè)1 1比例構(gòu)造訓(xùn)練數(shù)據(jù)集,抽取特征詞形成特征向量,最終通過(guò)SVM學(xué)習(xí)得到二元分類模型,識(shí)別疑似色情網(wǎng)頁(yè)是否是真正色情網(wǎng)頁(yè)。
2.如權(quán)利要求1所述的面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于第二步中所述的自動(dòng)迭代生成最終色情詞典的方法包括如下具體步驟將色情小說(shuō)、色情網(wǎng)頁(yè)中的文本內(nèi)容作為色情文本集PornCorpus,采用以下方案從色情文本集PornCorpus中抽取出色情詞典Stepl 人工設(shè)定種子色情詞匯19個(gè)詞,構(gòu)成初始色情詞典PornDic,對(duì)PornCorpus分詞和詞性標(biāo)注處理得到Porn^TokenCorpus ;St印2 將滿足如下條件的詞匯添加到PornDic中1)文檔頻率DF大于閾值0.2;2)與S中詞匯共同出現(xiàn)的句子頻率CoknFreq大于0.3 ;3)與S中詞匯的最短距離MinDist小于2;4)詞性POS屬于名詞、形容詞、或動(dòng)詞;St印3 重復(fù)乂印2過(guò)程直到每次迭代后PornDic大小增加量不超過(guò)詞匯總量的10%, 此步驟共生成N個(gè)色情詞匯;St印4 選擇人民日?qǐng)?bào)2008年的語(yǔ)料作為常用領(lǐng)域文本集,遍歷PornDic詞典中所有色情詞匯,為每一個(gè)詞匯計(jì)算在常用領(lǐng)域文本集中出現(xiàn)的詞匯頻率Vfreq和該詞匯的文檔頻率DF的乘積VfilterP,如果VfilterP超過(guò)0. 001X0. 05,從PornDic中刪除該詞匯,其中,詞匯頻率的計(jì)算方法為Vfreq= |Vi|/|V|, |Vi為待計(jì)算詞匯在整個(gè)文本集中出現(xiàn)的次數(shù),|V|為文本集中所有詞匯的個(gè)數(shù),i取值從1到N ;最終得到色情詞典。
3.如權(quán)利要求1所述的面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于第二步所述的通過(guò)學(xué)習(xí)到的規(guī)則判別正常頁(yè)面和疑似色情頁(yè)面的方法包括如下步驟設(shè)待判別網(wǎng)頁(yè)為I^age,其中er0tiCW0rdS_C(Page)指輸入文件I^age中出現(xiàn)的色情詞匯個(gè)數(shù),即屬于色情詞典S的詞的個(gè)數(shù),Ien(Page)指I^age中包含的詞匯總數(shù),eroticsent、 C(Page)指I^age中出現(xiàn)的色情句子的個(gè)數(shù),色情句子指包含色情詞匯超過(guò)閾值ρ的句子, slen (Page)指Page包含的句子總數(shù),eroticwords_minDis (Page)指Page中相鄰色情詞的最短距離,eroticsents_minDis(Page)指I^age中相鄰色情句的最短距離定義的規(guī)則如下i.if eroticwords_C (Page) /1 en (Page) < rl,Page 是正常網(wǎng)頁(yè);else if eroticwords_C(Page)/len(Page) > r2, Page 是疑似色情網(wǎng)頁(yè);ii.Else if eroticsents_C (Page) /slen (Page) < el,Page 是正常網(wǎng)頁(yè);else if eroticsents_C(Page)/slen(Page) > e2, Page 是疑似色情網(wǎng)頁(yè);iii.Else if eroticwords_minDis (Page) > Lffl, Page 是正常網(wǎng)頁(yè),else if eroticwords_minDis (Page) < Lff2, Page ^li^feff NM ;iv.Else if eroticsents_minDis (Page) > LSI,Page 是IE常網(wǎng)頁(yè);v.Else Page是疑似色情網(wǎng)頁(yè)以上不等式右邊的參數(shù)以及P值都需要通過(guò)從色情樣本和常領(lǐng)域樣本集學(xué)習(xí)得到,將這些數(shù)值分別設(shè)為rl = 0. 01,r2 = 0. 1,ρ = 0. 1,el = 0. 05,e2 = 0. 15,Lffl = 20,LW2 =10,LSI = 8。
4.如權(quán)利要求1所述的面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于第二步中所述的基于文檔頻率和信息增益方法在整個(gè)文檔集上抽取特征詞,利用SVM模型從疑似色情網(wǎng)頁(yè)中識(shí)別色情網(wǎng)頁(yè)包括如下步驟規(guī)則判別輸出疑似不良網(wǎng)頁(yè),在此基礎(chǔ)上,利用SVM分類算法對(duì)色情類和疑似色情類進(jìn)行二類分類,其中色情類即正例主要為從色情網(wǎng)站獲取的色情小說(shuō),疑似色情類即負(fù)例為性知識(shí)、性保健、生理衛(wèi)生三類,具體流程如下構(gòu)造訓(xùn)練數(shù)據(jù)按照1 1的文檔比例數(shù)構(gòu)造正例和負(fù)例,其中正例來(lái)自于色情網(wǎng)站獲取的色情小說(shuō)和色情網(wǎng)頁(yè)中的純文本;負(fù)例來(lái)自于門戶網(wǎng)站新浪、騰訊中分類為性知識(shí)、性保健和生理衛(wèi)生的網(wǎng)頁(yè);St印2 分類訓(xùn)練對(duì)所有訓(xùn)練數(shù)據(jù),提取網(wǎng)頁(yè)中正文、并對(duì)文本進(jìn)行分詞處理得到網(wǎng)頁(yè)中所有出現(xiàn)的詞作為候選特征詞,基于文檔頻率和信息增益方法進(jìn)行特征選擇并得到特征詞,最后學(xué)習(xí)一個(gè)基于SVM的分類模型Classifier ;St印3 分類預(yù)測(cè)對(duì)于新需要判別的網(wǎng)頁(yè),提取網(wǎng)頁(yè)中正文、并對(duì)文本進(jìn)行分詞處理得到網(wǎng)頁(yè)中所有出現(xiàn)的詞,根據(jù)Step2得到的特征詞計(jì)算該網(wǎng)頁(yè)對(duì)應(yīng)的特征向量,利用 Classifier判別該疑似色情網(wǎng)頁(yè)屬于正常網(wǎng)頁(yè)還是不良網(wǎng)頁(yè)。
5.如權(quán)利要求4所述的面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,其特征在于所述^印2的分類訓(xùn)練包括如下具體步驟Step2. 1 預(yù)處理去掉訓(xùn)練數(shù)據(jù)中網(wǎng)頁(yè)的非文本信息,HTML標(biāo)簽信息,保留網(wǎng)頁(yè)正文; 借助于分詞工具對(duì)文本進(jìn)行分詞處理;Step2. 2 特征選擇和表示采用BOW即hg-of-words模型來(lái)表征一個(gè)文檔,基于文檔頻率DF、信息增益^fofein過(guò)濾方法在整個(gè)文檔集上進(jìn)行特征詞選擇,最終選擇的特征詞共沈30個(gè),每個(gè)特征詞的權(quán)值利用LTC權(quán)值計(jì)算方法得到,該方法分別對(duì)詞頻TF和文檔頻率DF值取對(duì)數(shù),進(jìn)行平滑處理,最后歸一化;Step2. 3 學(xué)習(xí)一個(gè)基于SVM的分類模型Classifier。
全文摘要
本發(fā)明公開(kāi)了一種面向網(wǎng)頁(yè)的不良Web內(nèi)容識(shí)別方法,按照如下步驟(1)以待識(shí)別的網(wǎng)頁(yè)P(yáng)age為輸入,提取網(wǎng)頁(yè)視覺(jué)結(jié)構(gòu)信息、HTML標(biāo)簽信息、鏈接信息以及正文信息;(2)采用2層識(shí)別模型識(shí)別該P(yáng)age是否是不良內(nèi)容網(wǎng)頁(yè)首先采用面向網(wǎng)頁(yè)結(jié)構(gòu)的不良內(nèi)容識(shí)別模型判別Page,如果Page判為不良則輸出;否則采用面向網(wǎng)頁(yè)文本內(nèi)容的識(shí)別模型判別Page并輸出結(jié)果;面向網(wǎng)頁(yè)結(jié)構(gòu)的不良內(nèi)容識(shí)別模型采用決策樹(shù)模型學(xué)習(xí)不良網(wǎng)頁(yè)在頁(yè)面結(jié)構(gòu)中的規(guī)律并完成分類。面向網(wǎng)頁(yè)文本內(nèi)容的識(shí)別模型基于色情詞典采用規(guī)則過(guò)濾明顯為正常的網(wǎng)頁(yè),對(duì)剩下的疑似色情網(wǎng)頁(yè)要區(qū)分的性知識(shí)類網(wǎng)頁(yè)和真正色情網(wǎng)頁(yè),構(gòu)建正負(fù)例比例1∶1的訓(xùn)練數(shù)據(jù),抽取特征詞采用SVM分類模型學(xué)習(xí)規(guī)律并完成最終識(shí)別。
文檔編號(hào)G06F17/30GK102332028SQ20111031269
公開(kāi)日2012年1月25日 申請(qǐng)日期2011年10月15日 優(yōu)先權(quán)日2011年10月15日
發(fā)明者劉均, 劉子奇, 田振華, 程曉程, 鄭慶華 申請(qǐng)人:西安交通大學(xué)