一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法

文檔序號：10725173閱讀：261來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
【專利摘要】本發(fā)明公開了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計(jì)和改進(jìn)的 DBSCAN 聚類算法，對文檔特征進(jìn)行2 次選擇，提高了各特征之間的相對獨(dú)立性，提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨(dú)立性的同時(shí)，減低了特征維數(shù)，為下一步分類器計(jì)算提供了方便。對于最終各特征簇的權(quán)值計(jì)算，采TF?IDF算法，分 3 步走，把文檔表示成特征簇向量空間模型。
【專利說明】
一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于網(wǎng)頁方法領(lǐng)域，更具體地說，本發(fā)明涉及一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
【背景技術(shù)】
[0002] 網(wǎng)頁所攜帶的信息大致可分為圖像、聲音、文字，對于圖像和聲音的內(nèi)容，大多數(shù) 情況下會有文字進(jìn)行概括說明。對于一個網(wǎng)頁文字信息的提取和解讀可以判定該網(wǎng)頁是否為不良信息的載體，基于文本內(nèi)容的網(wǎng)頁過濾就是首先把網(wǎng)頁中的文字信息進(jìn)行提取，然后表示成計(jì)算機(jī)能運(yùn)算處理的形式，通過分類算法對網(wǎng)頁進(jìn)行過濾分類。網(wǎng)頁文本分類是的最小單元是詞，把那些能代表文章意圖的詞選定出來，經(jīng)過聚類把詞提升為概念。由于基于詞的分類是運(yùn)用統(tǒng)計(jì)學(xué)的方法同時(shí)綜合機(jī)器學(xué)習(xí)的理論，把待分類文本表示成向量，然后使用合適算法進(jìn)行運(yùn)算分類。這種方法簡單直接，對于大量網(wǎng)頁信息的過濾可操作性強(qiáng)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明所要解決的問題是提供一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法。
[0004] 為了實(shí)現(xiàn)上述目的，本發(fā)明采取的技術(shù)方案為：
[0005] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，包括如下步驟：
[0006] (1)文本預(yù)處理
[0007] 首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流；
[0008] (2)特征選擇
[0009] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì)，通過聚類生成簇；
[0010] ⑶特征加權(quán)
[0011]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值；
[0012] (4)分類器運(yùn)算
[0013]利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計(jì)算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié) 果；
[0014] (5)自學(xué)習(xí)更新
[0015] 引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié)果；
[0016] (6)性能評估
[0017] 對輸出結(jié)果計(jì)算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實(shí)驗(yàn)不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。
[0018] 優(yōu)選的，所述步驟(2)中特征選擇的方法為X2統(tǒng)計(jì)。
[0019] 優(yōu)選的，所述步驟(2)中構(gòu)建文本特征的步驟為：
[0020] 1 )X2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度；
[0021] 2)生成文本索引矩陣；
[0022] 3)特征詞共現(xiàn)矩陣；
[0023] 4)簡化的DBSCAN算法特征聚類選擇；
[0024] 5)文本特征表示。
〇
[0026]優(yōu)選的，所述簡化的DBSCAN算法的步驟為：
[0027]①讀入詞共現(xiàn)矩陣，求出所有點(diǎn)對之間的距離；
[0028] ②提取現(xiàn)有點(diǎn)的集合C1，計(jì)算每一個點(diǎn)，在給定半徑的范圍內(nèi)，含有點(diǎn)的數(shù)量，把每個點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列，找出排序第一名的核心點(diǎn)群集合c2;
[0029] ③判斷排序第一名的點(diǎn)，是否為核心點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集合中所有點(diǎn)按序號加入簇，并從C1中刪除這些點(diǎn)，如果是核心點(diǎn)，計(jì)算每個核心點(diǎn)到其內(nèi)部的點(diǎn)的距離之和s;
[0030] ④按照距離之和8對(：2集合中點(diǎn)降序排列，找到距離之和最小的核心點(diǎn)jw和其鄰域內(nèi)的點(diǎn)集；
[0031] ⑤取點(diǎn)jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，以jw為簇心建立一個簇，同時(shí)把這4個點(diǎn)從C1集合中刪除；
[0032]⑥重復(fù)步驟②到⑥直到C1沒有點(diǎn)；
[0033]⑦輸出簇群。
[0034]優(yōu)選的，所述步驟(3)中TF-IDF算法的公式為
[0036] 有益效果:本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計(jì)和改進(jìn)的DBSCAN聚類算法，對文檔特征進(jìn)行2次選擇，提高了各特征之間的相對獨(dú)立性，提出采用構(gòu)建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨(dú)立性的同時(shí)，減低了特征維數(shù)，為下一步分類器計(jì)算提供了方便。對于最終各特征簇的權(quán)值計(jì)算，采TF-IDF算法，分3步走，把文檔表示成特征簇向量空間模型。
【具體實(shí)施方式】
[0037] -種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，包括如下步驟：
[0038] (1)文本預(yù)處理
[0039] 首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流；
[0040] (2)特征選擇
[0041] 采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì)，通過聚類生成簇，所述特征選擇的方法為X2統(tǒng)計(jì)，
[0042] 所述構(gòu)建文本特征的步驟為：
[0043] 1 )X2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度；
[0044] 2)生成文本索引矩陣；
[0045] 3)特征詞共現(xiàn)矩陣；
[0046] 4)簡化的DBSCAN算法特征聚類選擇；
[0047] 5)文本特征表示，
[0048]所述簡化的DBSCAN算法的步驟為：
[0049] ①讀入詞共現(xiàn)矩陣，求出所有點(diǎn)對之間的距離；
[0050] ②提取現(xiàn)有點(diǎn)的集合C1，計(jì)算每一個點(diǎn)，在給定半徑的范圍內(nèi)，含有點(diǎn)的數(shù)量，把每個點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列，找出排序第一名的核心點(diǎn)群集合C2;
[0051 ]③判斷排序第一名的點(diǎn)，是否為核心點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集合中所有點(diǎn)按序號加入簇，并從C1中刪除這些點(diǎn)，如果是核心點(diǎn)，計(jì)算每個核心點(diǎn)到其內(nèi)部的點(diǎn)的距離之和s;
[0052]④按照距離之和8對(：2集合中點(diǎn)降序排列，找到距離之和最小的核心點(diǎn)jw和其鄰域內(nèi)的點(diǎn)集；
[0053]⑤取點(diǎn)jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，以jw為簇心建立一個簇，同時(shí)把這4個點(diǎn)從C1集合中刪除；
[0054]⑥重復(fù)步驟②到⑥直到C1沒有點(diǎn)；
[0055]⑦輸出簇群；
[0056] (3)特征加權(quán)
[0057]采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值，所述TF-IDF算法的公式為
[0058] (4)分類器運(yùn)算
[0059]利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計(jì)算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié) 果；
[0060] (5)自學(xué)習(xí)更新
[0061] 引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié)果；
[0062] (6)性能評估
[0063] 對輸出結(jié)果計(jì)算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實(shí)驗(yàn)不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。
[0064] 本發(fā)明提供了一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，采用X2統(tǒng)計(jì)和改進(jìn)的 DBSCAN聚類算法，對文檔特征進(jìn)行2次選擇，提高了各特征之間的相對獨(dú)立性，提出采用構(gòu) 建詞索引矩陣和詞共現(xiàn)矩陣的方法。最后提出了基于特征簇的向量空間模型，在有效提高特征獨(dú)立性的同時(shí)，減低了特征維數(shù)，為下一步分類器計(jì)算提供了方便。對于最終各特征簇的權(quán)值計(jì)算，采TF-IDF算法，分3步走，把文檔表示成特征簇向量空間模型。
[0065]以上所述僅為本發(fā)明的實(shí)施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā) 明說明書內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng) 域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于，包括如下步驟： (1) 文本預(yù)處理首先把網(wǎng)頁中的文字信息提取出來，接著進(jìn)行去除噪音、詞干還原和標(biāo)簽加權(quán)處理，生成帶有標(biāo)記的詞序流； (2) 特征選擇采用基于密度聚類算(DBSCAN)法對預(yù)處理文本的特征進(jìn)行選取，接著構(gòu)建文本特征，把一些經(jīng)常同時(shí)出現(xiàn)的詞進(jìn)行統(tǒng)計(jì)，通過聚類生成簇； (3) 特征加權(quán) 采用基于特征簇的TF-IDF算法求聚類生成簇的權(quán)值； (4) 分類器運(yùn)算利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)的方法，首先對分類器進(jìn)行訓(xùn)練，計(jì)算各向量的距離，找到分類的映射法則，然后對待測文本進(jìn)行分類過濾，最終把網(wǎng)頁信息區(qū)分為規(guī)定的兩類，得到結(jié)果； (5) 自學(xué)習(xí)更新引入自學(xué)習(xí)更新模塊，把詞庫中沒有的詞記錄下來，對結(jié)果進(jìn)行更新檢查，得到輸出結(jié) 果； (6) 性能評估對輸出結(jié)果計(jì)算其各性能指標(biāo)，通過結(jié)果對設(shè)定參數(shù)進(jìn)行微調(diào)，反復(fù)實(shí)驗(yàn)不同待測樣本的過濾效果，找到相對合適的參數(shù)設(shè)定。2. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(2)中特征選擇的方法為X2統(tǒng)計(jì)。3. 按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(2)中構(gòu)建文本特征的步驟為： 1巧2統(tǒng)計(jì)特征選擇:采用X2公式特征詞和類別之間的相關(guān)程度； 2) 生成文本索引矩陣； 3) 特征詞共現(xiàn)矩陣； 4) 簡化的DBSCAN算法特征聚類選擇； 5) 文本特征表示。4. 按照權(quán)利要求3所述的一種基于復(fù)雜網(wǎng)絡(luò)的灰度圖像識別方法，其特征在于:所述X2公式天5. 按照權(quán)利要求3所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述簡化的DBSCAN算法的步驟為： ① 讀入詞共現(xiàn)矩陣，求出所有點(diǎn)對之間的距離； ② 提取現(xiàn)有點(diǎn)的集合C1，計(jì)算每一個點(diǎn)，在給定半徑的范圍內(nèi)，含有點(diǎn)的數(shù)量，把每個點(diǎn)含有點(diǎn)的數(shù)量進(jìn)行降序排列，找出排序第一名的核屯、點(diǎn)群集合c2; ③ 判斷排序第一名的點(diǎn)，是否為核屯、點(diǎn)(含有點(diǎn)數(shù)超過Minpts)如果不是將剩余集合中所有點(diǎn)按序號加入簇，并從C1中刪除運(yùn)些點(diǎn)，如果是核屯、點(diǎn)，計(jì)算每個核屯、點(diǎn)到其內(nèi)部的點(diǎn) 的距離之和S; ④ 按照距離之和S對c2集合中點(diǎn)降序排列，找到距離之和最小的核屯、點(diǎn)jw和其鄰域內(nèi) 的點(diǎn)集； ⑤ 取點(diǎn)jw和在其鄰域內(nèi)，在索引矩陣中詞頻最高的前3名，Wjw為簇屯、建立一個簇，同時(shí)把運(yùn)4個點(diǎn)從C1集合中刪除； ⑥ 重復(fù)步驟②到⑥直到C1沒有點(diǎn)； ⑦ 輸出簇群。6.按照權(quán)利要求1所述的一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法，其特征在于:所述步驟(3)中TF-IDF算法的公式3
【文檔編號】G06F17/30GK106096054SQ201610499546
【公開日】2016年11月9日
【申請日】2016年6月28日
【發(fā)明人】董雄飛
【申請人】合肥酷睿網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董雄飛;
技術(shù)所有人：合肥酷睿網(wǎng)絡(luò)科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文本內(nèi)容的網(wǎng)頁信息過濾方法