專利名稱:一種基于權(quán)重關(guān)鍵字的Web過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種基于權(quán)重關(guān)鍵字的Web過濾方法。
背景技術(shù):
互聯(lián)網(wǎng)的開放性及網(wǎng)上信息優(yōu)劣參差不齊,使得網(wǎng)上各種不良信息也隨之泛濫,特別是反動、色情、暴力等有害信息極大地危害著社會的穩(wěn)定和青少年的身心健康。目前,在企業(yè)中面臨著可信員工通過互聯(lián)網(wǎng)無意或有意地收發(fā)不適當(dāng)內(nèi)容的風(fēng)險(xiǎn)。由于病毒及不良Web內(nèi)容摧毀企業(yè)計(jì)算機(jī)所造成的威脅有越來越嚴(yán)重的趨勢,企業(yè)對于功能更強(qiáng)大的Web內(nèi)容過濾工具的需求越來越迫切。
傳統(tǒng)的Web過濾產(chǎn)品采用旁路監(jiān)聽的方式,即通過Hub共享或交換機(jī)端口映射的方式來獲得網(wǎng)絡(luò)信息。對于此類產(chǎn)品,從技術(shù)上講它是無法做到對Web訪問的內(nèi)容進(jìn)行過濾的,它只是對Web訪問的網(wǎng)址進(jìn)行過濾,其原因是因?yàn)檫@些產(chǎn)品是在終端用戶發(fā)出Web訪問請求后,獲得訪問的網(wǎng)址,檢索網(wǎng)址數(shù)據(jù)庫,如果是不允許的網(wǎng)址,就采用黑客軟件的手法,給終端用戶的機(jī)器發(fā)送偽裝的Web回應(yīng)數(shù)據(jù),從而達(dá)到攔截的效果。但現(xiàn)有技術(shù)存在的問題是這種方法對網(wǎng)頁內(nèi)容的過濾缺乏準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明的目的是要提供一種基于權(quán)重關(guān)鍵字的Web過濾方法,以克服現(xiàn)有技術(shù)存在的無法準(zhǔn)確地進(jìn)行網(wǎng)頁內(nèi)容過濾的問題。
本發(fā)明的解決方案是一種基于權(quán)重關(guān)鍵字的Web過濾方法,其特殊之處在于,在網(wǎng)絡(luò)的網(wǎng)關(guān)或防火墻出口處部署Web過濾軟件,并建立帶有權(quán)重的關(guān)鍵字庫,Web過濾軟件采用串行的方式對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行偵聽,對數(shù)據(jù)包的內(nèi)容進(jìn)行滑動窗口關(guān)鍵字比對,根據(jù)過濾到的每個(gè)頁面的關(guān)鍵字及其權(quán)重的值,計(jì)算出其分?jǐn)?shù)值,與預(yù)設(shè)的攔截閾值相比較,以確定是否阻斷該網(wǎng)頁。
本發(fā)明通過以下幾個(gè)具體步驟來實(shí)現(xiàn)步驟一建立過濾關(guān)鍵字庫,并設(shè)置每個(gè)關(guān)鍵字的權(quán)重值,同時(shí)預(yù)設(shè)攔截閾值,權(quán)重的設(shè)置遵循如下原則是壞的關(guān)鍵字是正權(quán)重,好的關(guān)鍵字是負(fù)權(quán)重,分?jǐn)?shù)的范圍在-100到100;步驟二在網(wǎng)關(guān)或者防火墻出口上監(jiān)聽目的端口為80或者8080端口的數(shù)據(jù)包,并對數(shù)據(jù)包做緩沖;步驟三將數(shù)據(jù)包中的內(nèi)容與關(guān)鍵字庫中的關(guān)鍵字比對,并根據(jù)關(guān)鍵字權(quán)重值計(jì)算出分值,計(jì)算方法即是將過濾到的關(guān)鍵字的權(quán)重值相加;步驟四將分值與預(yù)設(shè)的閾值相比較,如果大于閾值則阻斷并報(bào)警,如果小于閾值放行。
上述步驟一中壞的關(guān)鍵字可以是色情、暴力、賭博、黑客、邪教、毒品、恐怖詞匯等。
上述步驟一中好的關(guān)鍵字可以是教育、旅游等詞匯。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)是1、本方法算法簡便給不同程度的不健康關(guān)鍵字和有益詞匯打分,簡便易行;2、判斷準(zhǔn)確,減少了上網(wǎng)過濾的誤判率單純的關(guān)鍵字過濾會過濾掉很多有益的網(wǎng)站,而權(quán)重關(guān)鍵字就能夠較好地解決這個(gè)問題。它通過給不同程度的不健康關(guān)鍵字和有益詞匯的打分,能夠很好地區(qū)分不健康網(wǎng)頁和有益的網(wǎng)頁,減少了上網(wǎng)過濾的誤判率。
附圖為本發(fā)明基于權(quán)重關(guān)鍵字的Web過濾方法流程圖。
具體實(shí)施例方式
下面將通過在防火墻設(shè)備中實(shí)施本發(fā)明進(jìn)行詳細(xì)描述。實(shí)施時(shí),需要在防火墻設(shè)備中設(shè)置基于權(quán)重關(guān)鍵字的Web過濾模塊,該模塊完成基于權(quán)重關(guān)鍵字的Web過濾功能。
本發(fā)明的步驟是(一)在系統(tǒng)中建立過濾關(guān)鍵字庫,并設(shè)置每個(gè)關(guān)鍵字的權(quán)重值,同時(shí)預(yù)設(shè)攔截閾值。權(quán)重關(guān)鍵字只起到攔截網(wǎng)頁的作用;預(yù)定義了暴力、色情、賭博、黑客、邪教、毒品、恐怖以及有益詞匯等多個(gè)類別的權(quán)重關(guān)鍵字。每個(gè)類別里包含相關(guān)類別里的中英文詞匯,并根據(jù)其影響程度預(yù)設(shè)了權(quán)重分值。
(二)防火墻在內(nèi)存中緩存目的端口為80或者8080端口的數(shù)據(jù)包;(三)將數(shù)據(jù)包中的內(nèi)容與關(guān)鍵字庫中的關(guān)鍵字比對,并根據(jù)關(guān)鍵字權(quán)重值計(jì)算出分值,計(jì)算方法即是將過濾到的關(guān)鍵字的權(quán)重值相加;(四)將分值與預(yù)設(shè)的閾值相比較,如果大于閾值則阻斷并報(bào)警,如果小于閾值放行。例如,關(guān)鍵字“性愛”權(quán)重分?jǐn)?shù)為40,“強(qiáng)奸”權(quán)重分?jǐn)?shù)為60,“社會新聞”為-30,攔截閾值為90分。那么如果一個(gè)網(wǎng)頁里同時(shí)出現(xiàn)“性愛”和“強(qiáng)奸”兩個(gè)詞的話,這個(gè)網(wǎng)頁就會被攔截,因?yàn)閮蓚€(gè)詞的分?jǐn)?shù)相加(為100)超過了90分的閾值。但如果一個(gè)網(wǎng)頁同時(shí)出現(xiàn)“性愛”,“強(qiáng)奸”和“社會新聞”這三個(gè)詞,那么這個(gè)網(wǎng)頁就不會被攔截。
最后所應(yīng)說明的是以上實(shí)施方式僅用以說明而非限制本發(fā)明的技術(shù)方案,盡管參照上述實(shí)施方式對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對本發(fā)明進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍的任何修改與局部替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍內(nèi)。
權(quán)利要求
1.一種基于權(quán)重關(guān)鍵字的Web過濾方法,其特征在于在網(wǎng)絡(luò)的網(wǎng)關(guān)或防火墻出口處部署Web過濾軟件,并建立帶有權(quán)重的關(guān)鍵字庫,Web過濾軟件采用串行的方式對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行偵聽,對數(shù)據(jù)包的內(nèi)容進(jìn)行滑動窗口關(guān)鍵字比對,根據(jù)過濾到的每個(gè)頁面的關(guān)鍵字及其權(quán)重的值,計(jì)算出其分?jǐn)?shù)值,與預(yù)設(shè)的攔截閾值相比較,以確定是否阻斷該網(wǎng)頁。
2.如權(quán)利要求1所述的一種基于權(quán)重關(guān)鍵字的Web過濾方法,其特征在于包括以下幾個(gè)步驟,步驟一建立過濾關(guān)鍵字庫,并設(shè)置每個(gè)關(guān)鍵字的權(quán)重值,同時(shí)預(yù)設(shè)攔截閾值,權(quán)重的設(shè)置遵循如下原則是壞的關(guān)鍵字是正權(quán)重,好的關(guān)鍵字是負(fù)權(quán)重,分?jǐn)?shù)的范圍在-100到100;步驟二在網(wǎng)關(guān)或者防火墻出口上監(jiān)聽目的端口為80或者8080端口的數(shù)據(jù)包,并對數(shù)據(jù)包做緩沖;步驟三將數(shù)據(jù)包中的內(nèi)容與關(guān)鍵字庫中的關(guān)鍵字比對,并根據(jù)關(guān)鍵字權(quán)重值計(jì)算出分值,計(jì)算方法即是將過濾到的關(guān)鍵字的權(quán)重值相加;步驟四將分值與預(yù)設(shè)的閾值相比較,如果大于閾值則阻斷并報(bào)警,如果小于閾值放行。
3.如權(quán)利要求2所述的一種基于權(quán)重關(guān)鍵字的Web過濾方法,其特征在于所述步驟一中壞的關(guān)鍵字可以是色情、暴力、賭博、黑客、邪教、毒品、恐怖詞匯。
全文摘要
本發(fā)明的目的是要提供一種基于權(quán)重關(guān)鍵字的Web過濾方法,以克服現(xiàn)有技術(shù)存在的無法準(zhǔn)確地進(jìn)行網(wǎng)頁內(nèi)容過濾的問題。本發(fā)明的解決方案是一種基于權(quán)重關(guān)鍵字的Web過濾方法,其特殊之處在于,在網(wǎng)絡(luò)的網(wǎng)關(guān)或防火墻出口處部署Web過濾軟件,并建立帶有權(quán)重的關(guān)鍵字庫,Web過濾軟件采用串行的方式對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行偵聽,對數(shù)據(jù)包的內(nèi)容進(jìn)行滑動窗口關(guān)鍵字比對,根據(jù)過濾到的每個(gè)頁面的關(guān)鍵字及其權(quán)重的值,計(jì)算出其分?jǐn)?shù)值,與預(yù)設(shè)的攔截閾值相比較,以確定是否阻斷該網(wǎng)頁。
文檔編號G06F17/30GK1794719SQ200510022788
公開日2006年6月28日 申請日期2005年12月31日 優(yōu)先權(quán)日2005年12月31日
發(fā)明者樊長安, 李金庫, 趙明彰, 向冬, 張永斌, 廖明濤, 劉志強(qiáng), 吳華強(qiáng) 申請人:西安交大捷普網(wǎng)絡(luò)科技有限公司