一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
【專利摘要】本發(fā)明公開了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計(jì)和改進(jìn)的 DBSCAN 聚類算法,對文檔特征進(jìn)行2 次選擇,提高了各特征之間的相對獨(dú)立性,提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有效提高特征獨(dú)立性的同時(shí),減低了特征維數(shù),為下一步分類器計(jì)算提供了方便。對于最終各特征簇的權(quán)值計(jì)算,采TF?IDF算法,分 3 步走,把文檔表示成特征簇向量空間模型。
【專利說明】
一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于網(wǎng)頁方法領(lǐng)域,更具體地說,本發(fā)明涉及一種基于文本內(nèi)容的網(wǎng)頁信 息過濾方法。
【背景技術(shù)】
[0002] 網(wǎng)頁所攜帶的信息大致可分為圖像、聲音、文字,對于圖像和聲音的內(nèi)容,大多數(shù) 情況下會有文字進(jìn)行概括說明。對于一個網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁是否 為不良信息的載體,基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行提取,然 后表示成計(jì)算機(jī)能運(yùn)算處理的形式,通過分類算法對網(wǎng)頁進(jìn)行過濾分類。網(wǎng)頁文本分類是 的最小單元是詞,把那些能代表文章意圖的詞選定出來,經(jīng)過聚類把詞提升為概念。由于基 于詞的分類是運(yùn)用統(tǒng)計(jì)學(xué)的方法同時(shí)綜合機(jī)器學(xué)習(xí)的理論,把待分類文本表示成向量,然 后使用合適算法進(jìn)行運(yùn)算分類。這種方法簡單直接,對于大量網(wǎng)頁信息的過濾可操作性強(qiáng)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的問題是提供一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
[0004] 為了實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
[0005] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,包括如下步驟:
[0006] (1)文本預(yù)處理
[0007] 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處 理,生成帶有標(biāo)記的詞序流;
[0008] (2)特征選擇
[0009] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特 征,把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì),通過聚類生成簇;
[0010] ⑶特征加權(quán)
[0011]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值;
[0012] (4)分類器運(yùn)算
[0013]利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計(jì)算各向量的距離,找到分類 的映射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié) 果;
[0014] (5)自學(xué)習(xí)更新
[0015] 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸 出結(jié)果;
[0016] (6)性能評估
[0017] 對輸出結(jié)果計(jì)算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實(shí)驗(yàn)不同待 測樣本的過濾效果,找到相對合適的參數(shù)設(shè)定。
[0018] 優(yōu)選的,所述步驟(2)中特征選擇的方法為X2統(tǒng)計(jì)。
[0019] 優(yōu)選的,所述步驟(2)中構(gòu)建文本特征的步驟為:
[0020] 1 )X2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度;
[0021] 2)生成文本索引矩陣;
[0022] 3)特征詞共現(xiàn)矩陣;
[0023] 4)簡化的DBSCAN算法特征聚類選擇;
[0024] 5)文本特征表示。
〇
[0026]優(yōu)選的,所述簡化的DBSCAN算法的步驟為:
[0027]①讀入詞共現(xiàn)矩陣,求出所有點(diǎn)對之間的距離;
[0028] ②提取現(xiàn)有點(diǎn)的集合C1,計(jì)算每一個點(diǎn),在給定半徑的范圍內(nèi),含有點(diǎn)的數(shù)量,把 每個點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列,找出排序第一名的核心點(diǎn)群集合c2;
[0029] ③判斷排序第一名的點(diǎn),是否為核心點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集 合中所有點(diǎn)按序號加入簇,并從C1中刪除這些點(diǎn),如果是核心點(diǎn),計(jì)算每個核心點(diǎn)到其內(nèi)部 的點(diǎn)的距離之和s;
[0030] ④按照距離之和8對(:2集合中點(diǎn)降序排列,找到距離之和最小的核心點(diǎn)jw和其鄰 域內(nèi)的點(diǎn)集;
[0031] ⑤取點(diǎn)jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,以jw為簇心建立一個 簇,同時(shí)把這4個點(diǎn)從C1集合中刪除;
[0032]⑥重復(fù)步驟②到⑥直到C1沒有點(diǎn);
[0033]⑦輸出簇群。
[0034]優(yōu)選的,所述步驟(3)中TF-IDF算法的公式為
[0036] 有益效果:本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計(jì)和 改進(jìn)的DBSCAN聚類算法,對文檔特征進(jìn)行2次選擇,提高了各特征之間的相對獨(dú)立性,提出 采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有 效提高特征獨(dú)立性的同時(shí),減低了特征維數(shù),為下一步分類器計(jì)算提供了方便。對于最終各 特征簇的權(quán)值計(jì)算,采TF-IDF算法,分3步走,把文檔表示成特征簇向量空間模型。
【具體實(shí)施方式】
[0037] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,包括如下步驟:
[0038] (1)文本預(yù)處理
[0039] 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處 理,生成帶有標(biāo)記的詞序流;
[0040] (2)特征選擇
[0041] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特 征,把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì),通過聚類生成簇,所述特征選擇的方法為X2統(tǒng)計(jì),
[0042] 所述構(gòu)建文本特征的步驟為:
[0043] 1 )X2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度;
[0044] 2)生成文本索引矩陣;
[0045] 3)特征詞共現(xiàn)矩陣;
[0046] 4)簡化的DBSCAN算法特征聚類選擇;
[0047] 5)文本特征表示,
[0048]所述簡化的DBSCAN算法的步驟為:
[0049] ①讀入詞共現(xiàn)矩陣,求出所有點(diǎn)對之間的距離;
[0050] ②提取現(xiàn)有點(diǎn)的集合C1,計(jì)算每一個點(diǎn),在給定半徑的范圍內(nèi),含有點(diǎn)的數(shù)量,把 每個點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列,找出排序第一名的核心點(diǎn)群集合C2;
[0051 ]③判斷排序第一名的點(diǎn),是否為核心點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集 合中所有點(diǎn)按序號加入簇,并從C1中刪除這些點(diǎn),如果是核心點(diǎn),計(jì)算每個核心點(diǎn)到其內(nèi)部 的點(diǎn)的距離之和s;
[0052]④按照距離之和8對(:2集合中點(diǎn)降序排列,找到距離之和最小的核心點(diǎn)jw和其鄰 域內(nèi)的點(diǎn)集;
[0053]⑤取點(diǎn)jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,以jw為簇心建立一個 簇,同時(shí)把這4個點(diǎn)從C1集合中刪除;
[0054]⑥重復(fù)步驟②到⑥直到C1沒有點(diǎn);
[0055]⑦輸出簇群;
[0056] (3)特征加權(quán)
[0057]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值,所述TF-IDF算法的公式為
[0058] (4)分類器運(yùn)算
[0059]利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計(jì)算各向量的距離,找到分類 的映射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié) 果;
[0060] (5)自學(xué)習(xí)更新
[0061] 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸 出結(jié)果;
[0062] (6)性能評估
[0063] 對輸出結(jié)果計(jì)算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實(shí)驗(yàn)不同待 測樣本的過濾效果,找到相對合適的參數(shù)設(shè)定。
[0064] 本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,采用X2統(tǒng)計(jì)和改進(jìn)的 DBSCAN聚類算法,對文檔特征進(jìn)行2次選擇,提高了各特征之間的相對獨(dú)立性,提出采用構(gòu) 建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型,在有效提高 特征獨(dú)立性的同時(shí),減低了特征維數(shù),為下一步分類器計(jì)算提供了方便。對于最終各特征簇 的權(quán)值計(jì)算,采TF-IDF算法,分3步走,把文檔表示成特征簇向量空間模型。
[0065]以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā) 明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng) 域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于,包括如下步驟: (1) 文本預(yù)處理 首先把網(wǎng)頁中的文字信息提取出來,接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理,生 成帶有標(biāo)記的詞序流; (2) 特征選擇 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取,接著構(gòu)建文本特征, 把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì),通過聚類生成簇; (3) 特征加權(quán) 采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值; (4) 分類器運(yùn)算 利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法,首先對分類器進(jìn)行訓(xùn)練,計(jì)算各向量的距離,找到分類的映 射法則,然后對待測文本進(jìn)行分類過濾,最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類,得到結(jié)果; (5) 自學(xué)習(xí)更新 引入自學(xué)習(xí)更新模塊,把詞庫中沒有的詞記錄下來,對結(jié)果進(jìn)行更新檢查,得到輸出結(jié) 果; (6) 性能評估 對輸出結(jié)果計(jì)算其各性能指標(biāo),通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào),反復(fù)實(shí)驗(yàn)不同待測樣 本的過濾效果,找到相對合適的參數(shù)設(shè)定。2. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(2)中特征選擇的方法為X2統(tǒng)計(jì)。3. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(2)中構(gòu)建文本特征的步驟為: 1巧2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度; 2) 生成文本索引矩陣; 3) 特征詞共現(xiàn)矩陣; 4) 簡化的DBSCAN算法特征聚類選擇; 5) 文本特征表示。4. 按照權(quán)利要求3所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識別方法,其特征在于:所述X2公式天5. 按照權(quán)利要求3所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述簡 化的DBSCAN算法的步驟為: ① 讀入詞共現(xiàn)矩陣,求出所有點(diǎn)對之間的距離; ② 提取現(xiàn)有點(diǎn)的集合C1,計(jì)算每一個點(diǎn),在給定半徑的范圍內(nèi),含有點(diǎn)的數(shù)量,把每個 點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列,找出排序第一名的核屯、點(diǎn)群集合c2; ③ 判斷排序第一名的點(diǎn),是否為核屯、點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集合中 所有點(diǎn)按序號加入簇,并從C1中刪除運(yùn)些點(diǎn),如果是核屯、點(diǎn),計(jì)算每個核屯、點(diǎn)到其內(nèi)部的點(diǎn) 的距離之和S; ④ 按照距離之和S對c2集合中點(diǎn)降序排列,找到距離之和最小的核屯、點(diǎn)jw和其鄰域內(nèi) 的點(diǎn)集; ⑤ 取點(diǎn)jw和在其鄰域內(nèi),在索引矩陣中詞頻最高的前3名,Wjw為簇屯、建立一個簇,同 時(shí)把運(yùn)4個點(diǎn)從C1集合中刪除; ⑥ 重復(fù)步驟②到⑥直到C1沒有點(diǎn); ⑦ 輸出簇群。6.按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法,其特征在于:所述步 驟(3)中TF-IDF算法的公式3
【文檔編號】G06F17/30GK106096054SQ201610499546
【公開日】2016年11月9日
【申請日】2016年6月28日
【發(fā)明人】董雄飛
【申請人】合肥酷睿網(wǎng)絡(luò)科技有限公司