亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法

文檔序號:7644473閱讀:526來源:國知局

專利名稱::基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法
技術(shù)領(lǐng)域
:本發(fā)明屬于網(wǎng)絡(luò)信息安全領(lǐng)域,涉及中文網(wǎng)頁不良文本信息的識別和過濾。
背景技術(shù)
:在現(xiàn)有的幾種網(wǎng)頁內(nèi)容安全產(chǎn)品中,如“網(wǎng)絡(luò)保姆”和“網(wǎng)絡(luò)爸爸”等,它們大多采用基于URL地址和關(guān)鍵字的方法來禁止對非法網(wǎng)頁和網(wǎng)站的訪問,相對于網(wǎng)上非法內(nèi)容的多樣性和動態(tài)性而言,這種采用靜態(tài)的地址庫或手動更新網(wǎng)址和關(guān)鍵字的方法遠不能滿足人們的過濾要求,家長們期待有更加有效而全面的信息過濾產(chǎn)品的出現(xiàn)?,F(xiàn)有的對于網(wǎng)頁文本內(nèi)容的過濾方法主要圍繞著向量空間模型進行的。劉培德等利用向量空間模型、TC3分類算法、Rocchio反饋模型等構(gòu)造了一個具有反饋機制的網(wǎng)絡(luò)信息過濾系統(tǒng)(NIFS),該系統(tǒng)可以實現(xiàn)基于用戶興趣文件的文本過濾。曹毅、賀衛(wèi)紅建立的基于向量空間模型的信息安全過濾系統(tǒng)則將過濾分為模版訓(xùn)練和自適應(yīng)過濾兩個階段進行。在訓(xùn)練階段,通過主題處理和特征抽取建立初始的過濾模版,設(shè)置初始閾值;在過濾階段,則根據(jù)用戶的反饋信息自適應(yīng)地調(diào)整模版和閾值,該方法的特點主要體現(xiàn)在過濾模版訓(xùn)練算法的設(shè)計上。Shian-HuaLin和Jan-MingHo于2002年提出了一個去除網(wǎng)頁中噪音內(nèi)容的方法,該方法依據(jù)網(wǎng)頁中<table>標(biāo)簽構(gòu)造網(wǎng)頁的標(biāo)簽樹,將一張網(wǎng)頁規(guī)整為相互嵌套的內(nèi)容塊;然后,對于使用同一個模版生成的網(wǎng)頁集,找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容塊,作為噪音內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)較少的內(nèi)容塊就是有效信息塊。復(fù)旦大學(xué)提出了一種基于內(nèi)容過濾代理(CFA)的互聯(lián)網(wǎng)過濾系統(tǒng)及過濾方法,系統(tǒng)框架包括內(nèi)容過濾代理(CFA)、查詢服務(wù)器(QS)、內(nèi)容分析與管理服務(wù)器(CAMS)三部分。網(wǎng)絡(luò)內(nèi)容過濾系統(tǒng)的過濾流程為當(dāng)用戶發(fā)出對某個URL進行訪問的請求時,CFA根據(jù)用戶設(shè)置的黑白名單,允許或禁止該訪問請求。倘若該URL不在CFA的黑白名單中,CFA則向查詢服務(wù)器QS發(fā)出查詢請求。QS將會在自己的URL庫中查詢該URL的分級信息并將結(jié)果返回給CFA。CFA據(jù)此做出反應(yīng)。同時QS會定期從CAMS中下載更新的URL分級信息。而微軟公司的“用于網(wǎng)絡(luò)瀏覽的內(nèi)容過濾技術(shù)”提供了一種控制用戶在使用計算機時可否訪問某些互聯(lián)網(wǎng)網(wǎng)站的系統(tǒng)和方法。當(dāng)計算機用戶試圖訪問一個由指定統(tǒng)一資源定位器(URL)指向的互聯(lián)網(wǎng)網(wǎng)站時,過濾器通過允許-阻止列表給URL提供參考,并通過參考——交叉引用年齡組查看年齡組允許觀看的分類內(nèi)容映射表,來相應(yīng)地決定對URL指向的網(wǎng)站的訪問??偨Y(jié)前人的研究成果,可以看到目前互聯(lián)網(wǎng)信息過濾方法尚存在以下不足1.采用URL和關(guān)鍵字的過濾方法,過濾準(zhǔn)確率和濾全率較低,過濾器很容易被繞過;2.單獨采用基于文本向量空間的內(nèi)容過濾方法過濾速度慢,無法滿足寬帶網(wǎng)絡(luò)數(shù)據(jù)傳輸實時過濾的要求;3.對于網(wǎng)頁的預(yù)處理過程研究較少,尤其關(guān)于通用網(wǎng)頁正文內(nèi)容提取方法的研究尚未見文獻報道,而這方面問題的研究可以有效地提高網(wǎng)頁數(shù)據(jù)處理的速度;4.針對中文網(wǎng)頁特點的內(nèi)容識別和過濾方法還沒有見到報道。
發(fā)明內(nèi)容為了克服已有網(wǎng)頁信息過濾方法濾準(zhǔn)率、濾全率和過濾速度無法滿足網(wǎng)絡(luò)流量的局限性,本發(fā)明提供了一種將已有的基于URL、基于關(guān)鍵字以及基于向量空間的文本過濾方法有機地融合在一起的三重過濾方法;在URL過濾上,設(shè)置了合法URL和非法URL表,即黑白名單,提高過濾的速度;采用Winsock2SPI直接在應(yīng)用層截獲HTTP數(shù)據(jù)包,省去了在底層截獲數(shù)據(jù)包時要進行重組和協(xié)議解析的麻煩;提出了基于中文標(biāo)點符號統(tǒng)計值的中文網(wǎng)頁文本正文識別及去噪聲方法。為達到上述目標(biāo),本發(fā)明采用如下技術(shù)方案系統(tǒng)采用三級過濾模式,分別是URL過濾、關(guān)鍵字過濾、文本內(nèi)容過濾。系統(tǒng)結(jié)構(gòu)如附圖1所示,其中URL過濾模塊通過預(yù)先設(shè)置的非法URL列表(黑名單)和合法URL列表(白名單),來判斷用戶的請求是否合法。內(nèi)容截獲和提取模塊先截獲從服務(wù)器端返回的可疑請求的響應(yīng)(HTTP數(shù)據(jù)包),然后提取出HTML文檔,最后分析HTML文檔提取鏈接信息和正文內(nèi)容。關(guān)鍵字過濾模塊針對鏈接信息,用關(guān)鍵字來判斷網(wǎng)頁中是否含有非法的鏈接,只要含有非法的鏈接,該網(wǎng)頁也會得到屏蔽。內(nèi)容過濾模塊對含有合法鏈接的可疑網(wǎng)頁正文進行分詞、去除停用詞、計算權(quán)重和特征提取,之后表示成向量空間模型,并與訓(xùn)練好的特征向量相匹配,判斷其內(nèi)容是否合法。本發(fā)明系統(tǒng)的操作步驟概括如下1.當(dāng)用戶發(fā)出鏈接請求時,將請求URL地址與黑白名單中的地址列表相比較,并進行相應(yīng)的處理。對于既不屬于黑名單也不屬于白名單的請求地址,標(biāo)記為可疑請求。2.截獲可疑請求的響應(yīng),即服務(wù)器端返回的HTTP數(shù)據(jù)包。由于Winsock2SPI在應(yīng)用層進行截獲,所以省去了在底層截獲數(shù)據(jù)包時要進行數(shù)據(jù)包重組和協(xié)議解析的麻煩,效率高,CPU占用率低。3.從截獲的HTTP數(shù)據(jù)包中提取HTML文件,從中提取鏈接信息,并采用基于中文標(biāo)點符號統(tǒng)計值的網(wǎng)頁正文內(nèi)容識別方法獲取網(wǎng)頁正文文本內(nèi)容。4.采用基于關(guān)鍵字的過濾方法,檢查鏈接信息,如果為非合法鏈接,返回警告信息,否則轉(zhuǎn)內(nèi)容過濾模塊。5.建立中文網(wǎng)頁不良信息文本分類語料庫,作為網(wǎng)頁文本內(nèi)容的樣本訓(xùn)練模版。對網(wǎng)頁正文實施內(nèi)容過濾,檢查其合法性,對于合法的文本內(nèi)容返回給用戶,非法的文本內(nèi)容直接屏蔽,并更新URL列表。本發(fā)明的效果和益處是采用Winsock2SPI函數(shù)直接在應(yīng)用層截獲HTTP數(shù)據(jù)包,省去了在底層截獲數(shù)據(jù)包時要進行重組和協(xié)議解析的麻煩。采用基于中文標(biāo)點符號統(tǒng)計值的網(wǎng)頁文本內(nèi)容識別和獲取方法,可以有效去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等噪音信息。本發(fā)明能夠有效地提高網(wǎng)頁信息過濾的速度、準(zhǔn)確率和過濾精度。可以用于中文網(wǎng)頁不良信息的過濾,并可廣泛應(yīng)用于用戶個性化文本分類信息服務(wù)領(lǐng)域。圖1是基于中文標(biāo)點符號的網(wǎng)頁文本內(nèi)容過濾系統(tǒng)總體結(jié)構(gòu)圖。圖2是URL過濾流程圖。圖3是網(wǎng)頁信息HTML嵌套結(jié)構(gòu)及HTML樹知識表示。圖4是內(nèi)容過濾處理流程圖。具體實施例方式以下結(jié)合技術(shù)方案和附圖,詳細敘述本發(fā)明的具體實施方式。步驟1當(dāng)用戶在瀏覽器的地址欄中輸入某一網(wǎng)址,或點擊網(wǎng)頁中某一鏈接信息時,過濾器將該請求的URL地址與黑白名單中的地址列表相比較(如附圖2所示),對于屬于白名單中的URL請求,系統(tǒng)放行;對于屬于黑名單中的URL請求,系統(tǒng)屏蔽并返回警告信息;對于既不屬于黑名單也不屬于白名單的URL,標(biāo)記為可疑請求,執(zhí)行步驟2。步驟2采用Winsock2SPI技術(shù)截獲可疑請求的服務(wù)器端返回的HTTP數(shù)據(jù)包。步驟3從第2步驟截獲的HTTP數(shù)據(jù)包中提取HTML文件,分析HTML文件提取鏈接信息;并分析HTML樹(如附圖3所示),采用基于中文標(biāo)點符號的網(wǎng)頁正文提取方法,有效地去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等噪聲信息,獲取網(wǎng)頁正文文本內(nèi)容。步驟4對于步驟3提取出的超鏈接信息,用模式匹配的方法查看鏈接中是否含有非法的關(guān)鍵字,如果有,則該鏈接被定義為非法鏈接,系統(tǒng)屏蔽該鏈接并返回警告信息,否則執(zhí)行步驟5,進行內(nèi)容過濾,判斷網(wǎng)頁內(nèi)容的合法性。內(nèi)容過濾是本系統(tǒng)的核心,其基本過濾流程如圖4所示,過濾步驟如下步驟5對于由步驟3和步驟4提取出的可疑的網(wǎng)頁正文內(nèi)容,采用基于詞典和正向最大匹配算法進行分詞處理。步驟6根據(jù)停用詞表去除分詞結(jié)果中的停用詞,即去除一些無意義的詞,削除這些詞對判斷結(jié)果的影響。步驟7應(yīng)用詞頻統(tǒng)計的方法,進行特征詞提取,即提取更能表現(xiàn)文檔特征的詞,以提高程序效率、運行速度和分類精度。步驟8采用TF-IDF公式計算特征詞權(quán)重。步驟9生成該文本的特征向量,計算該向量與特征向量庫中樣本向量間夾角余弦,得到相似度值。步驟10將該相似度值與設(shè)置好的閾值進行比較,本發(fā)明設(shè)置閾值為0.6-08,確定網(wǎng)頁內(nèi)容性質(zhì)。當(dāng)相似度值高于規(guī)定的閾值,則該網(wǎng)頁被定義為非法,系統(tǒng)拒絕訪問;如相似度低于規(guī)定的閾值,則該文本被定義為合法,系統(tǒng)接受訪問。步驟11更新合法URL和非法URL列表,即將確定為非法文本的URL地址添加到黑名單中,合法文本的URL地址添加到白名單中,以避免對同一網(wǎng)頁內(nèi)容重復(fù)進行內(nèi)容過濾,提高過濾效率。上述內(nèi)容過濾方法的執(zhí)行需要特征向量庫中的樣本向量模版,而樣本向量模版是通過非法語料庫中文本訓(xùn)練獲得的,訓(xùn)練過程如附圖4所示,步驟如下1)建立網(wǎng)絡(luò)不良信息語料庫。2)對于非法語料庫中的文本樣本,采用基于詞典和正向最大匹配的方法對訓(xùn)練文檔進行中文分詞處理。3)根據(jù)停用詞表去除分詞結(jié)果中的停用詞,得到高維詞集。4)對上述高維詞集用詞頻統(tǒng)計的方法進行特征提取。5)采用TF-IDF公式計算特征詞的權(quán)重。6)生成文檔的向量空間模型,存入特征向量庫,生成樣本向量模版。權(quán)利要求1.一種基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法,提供了一種基于URL地址、關(guān)鍵字和內(nèi)容相結(jié)合的三重網(wǎng)頁信息過濾系統(tǒng)體系結(jié)構(gòu),其特征在于,采用Winsock2SPI函數(shù)直接在應(yīng)用層截獲HTTP數(shù)據(jù)包;采用基于中文標(biāo)點符號統(tǒng)計值的通用中文網(wǎng)頁噪聲去除及正文獲取方法;建立中文網(wǎng)頁不良信息文本分類語料庫,作為網(wǎng)頁文本內(nèi)容的樣本訓(xùn)練模版。全文摘要一種基于中文標(biāo)點符號的三重網(wǎng)頁文本內(nèi)容識別及過濾方法。該方法針對現(xiàn)有的基于URL、基于關(guān)鍵字的網(wǎng)頁信息過濾方法中存在的濾準(zhǔn)率和濾全率低的問題,提出了一種復(fù)合型的基于URL、基于關(guān)鍵字、以及基于文本向量空間知識表示方法的網(wǎng)頁文本內(nèi)容過濾方法。采用基于黑白名單的URL地址過濾方法;采用中文標(biāo)點符號的統(tǒng)計特征來有效地去除導(dǎo)航信息、相關(guān)鏈接信息、廣告鏈接信息、版權(quán)信息等網(wǎng)頁內(nèi)容噪聲信息,提取文本內(nèi)容;采用向量空間模型進行文本知識表示,通過計算文本向量與不良信息模版中特征向量間的夾角余弦,與設(shè)定的閾值相比較,確定文本所屬類別。該發(fā)明可廣泛地應(yīng)用于網(wǎng)絡(luò)不良信息的過濾及網(wǎng)頁個性化信息服務(wù)領(lǐng)域。文檔編號H04L12/24GK101035128SQ20071001105公開日2007年9月12日申請日期2007年4月18日優(yōu)先權(quán)日2007年4月18日發(fā)明者宋明秋,吳新濤申請人:大連理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1