本發(fā)明涉及網(wǎng)頁審計技術(shù)領(lǐng)域,更具體地說,涉及一種網(wǎng)頁關(guān)鍵字審計的方法及裝置。
背景技術(shù):
現(xiàn)有的網(wǎng)頁瀏覽審計方案是報文經(jīng)過網(wǎng)絡(luò)設(shè)備的應(yīng)用識別引擎進(jìn)行深度檢測,識別出網(wǎng)頁瀏覽協(xié)議后進(jìn)入網(wǎng)頁瀏覽審計框架,通過分析報文提取出所訪問網(wǎng)頁的HOST(主機(jī))及URL,并分析網(wǎng)頁的URL過濾掉圖片、動畫、flash、腳本等信息,并使用gzip解壓縮算法或修改用戶訪問網(wǎng)頁所請求的報文頭獲取網(wǎng)頁標(biāo)題。將獲取的HOST和URL組織成一個完整的網(wǎng)址發(fā)送到設(shè)備上已便管理員查看。在獲取標(biāo)題時使用了兩種方法,gzip解壓縮方法就是對每個會話上用戶訪問的網(wǎng)頁內(nèi)容進(jìn)行g(shù)zip解壓縮,在解壓完后的內(nèi)容中查找網(wǎng)頁標(biāo)題;修改用戶訪問網(wǎng)頁請求報文頭意思就是當(dāng)用戶訪問網(wǎng)頁時網(wǎng)頁瀏覽審計框架獲取用戶訪問網(wǎng)頁的請求頭,通過修改請求頭中的參數(shù),讓服務(wù)器采用明文方式傳輸網(wǎng)頁內(nèi)容這樣設(shè)備就可以獲取到網(wǎng)頁標(biāo)題。
但是,在網(wǎng)頁的關(guān)鍵字審計中,尤其是在不同編碼格式的網(wǎng)頁中,存在的同一關(guān)鍵字的不同編碼格式,會導(dǎo)致關(guān)鍵字的識別精準(zhǔn)度很低。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)中網(wǎng)頁關(guān)鍵字識別精度低的缺陷,提供一種網(wǎng)頁關(guān)鍵字審計的方法及裝置。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
構(gòu)造一種網(wǎng)頁關(guān)鍵字審計的方法,包括:
將預(yù)設(shè)的關(guān)鍵字轉(zhuǎn)換成多種編碼格式;
將所述多種編碼格式組成關(guān)鍵字策略并生成多模自動機(jī);
使用所述多模自動機(jī)對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字審計匹配;
將所述關(guān)鍵字審計匹配的審計結(jié)果轉(zhuǎn)換成NCR編碼并顯示,從而將多種編碼格式的內(nèi)容顯示于同一界面。
在本發(fā)明所述的方法中,所述多種編碼格式包括:GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258。
在本發(fā)明所述的方法中,所述將所述多種編碼格式組成關(guān)鍵字策略并生成多模自動機(jī)的步驟包括:
將所述多種編碼格式組成關(guān)鍵字策略;
依據(jù)所述關(guān)鍵字策略生成多模自動機(jī)。
在本發(fā)明所述的方法中,所述使用所述多模自動機(jī)對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字審計匹配的步驟包括:
依據(jù)預(yù)設(shè)的關(guān)鍵字從網(wǎng)頁的第一個字符開始匹配;
依據(jù)所述關(guān)鍵字將所匹配的網(wǎng)頁內(nèi)容生成一條關(guān)鍵字策略并對其進(jìn)行審計。
在本發(fā)明所述的方法中,所述將所述關(guān)鍵字審計匹配的審計結(jié)果轉(zhuǎn)換成NCR編碼并顯示包括:
將所述關(guān)鍵字審計匹配的審計結(jié)果存儲于存儲器中;
將所述審計結(jié)果轉(zhuǎn)換成NCR編碼;
獲取所述NCR編碼并將其顯示于同一界面。
另一方面,提供一種網(wǎng)頁關(guān)鍵字審計的裝置,包括:
編碼格式轉(zhuǎn)換單元,用于將預(yù)設(shè)的關(guān)鍵字轉(zhuǎn)換成多種編碼格式;
多模自動機(jī)生成單元,用于將所述多種編碼格式組成關(guān)鍵字策略并生成多模自動機(jī);
審計匹配單元,用于使用所述多模自動機(jī)對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字審計匹配;
轉(zhuǎn)換顯示單元,用于將所述關(guān)鍵字審計匹配的審計結(jié)果轉(zhuǎn)換成NCR編碼并顯示。
在本發(fā)明所述的裝置中,所述多種編碼格式包括:GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258。
在本發(fā)明所述的裝置中,所述多模自動機(jī)生成單元包括:
關(guān)鍵字組成模塊,用于將所述多種編碼格式組成關(guān)鍵字策略;
生成模塊,依據(jù)所述關(guān)鍵字策略生成多模自動機(jī)。
在本發(fā)明所述的裝置中,所述審計匹配單元包括:
匹配模塊,用于依據(jù)預(yù)設(shè)的關(guān)鍵字從網(wǎng)頁的第一個字符開始匹配;
審計模塊,用于依據(jù)所述關(guān)鍵字將所匹配的網(wǎng)頁內(nèi)容生成一條關(guān)鍵字策略并對其進(jìn)行審計。
在本發(fā)明所述的裝置中,所述轉(zhuǎn)換顯示單元包括:
存儲模塊,用于將所述關(guān)鍵字審計匹配的審計結(jié)果存儲于存儲器中;
轉(zhuǎn)換模塊,用于將所述審計結(jié)果轉(zhuǎn)換成NCR編碼;
顯示模塊,用于獲取所述NCR編碼并將其顯示于同一界面。
上述公開的一種網(wǎng)頁關(guān)鍵字審計的方法及裝置具有以下有益效果:通過多編碼對網(wǎng)頁的審計匹配,使網(wǎng)頁關(guān)鍵字識別精度高,識別速度快。
附圖說明
圖1為本發(fā)明提供的一種網(wǎng)頁關(guān)鍵字審計的方法流程圖;
圖2為本發(fā)明提供的多模自動機(jī)的原理示意圖;
圖3為本發(fā)明提供的一種網(wǎng)頁關(guān)鍵字審計的裝置框圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種網(wǎng)頁關(guān)鍵字審計的方法及裝置,其目的在于,使用多種編碼對網(wǎng)頁進(jìn)行匹配審計,從而最大限度的提高審計的精確性。
參見圖1,圖1為本發(fā)明提供的一種網(wǎng)頁關(guān)鍵字審計的方法流程圖,該網(wǎng)頁關(guān)鍵字審計的方法包括:
S1、將預(yù)設(shè)的關(guān)鍵字轉(zhuǎn)換成多種編碼格式;例如,在審計系統(tǒng)中,下發(fā)個關(guān)鍵字“新聞”。所述多種編碼格式包括:GB2312(GB2312編碼適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換)、GB18030(該編碼格式適用于漢字處理、漢字通信等系統(tǒng)之間的信息交換)、UTF-8(8-bit Unicode Transformation Format)、GBK(Chinese Internal Code Specification)、unicode-16(統(tǒng)一碼)、BIG5(大五碼)、BIG5HKSCS(大五碼)、EUC(Extended Unix Code)、Shift-JIS(一個日本電腦系統(tǒng)常用的編碼表)、NCR(數(shù)字字符引用)、Windows-1256(Windows編碼格式)、ISO-8859-6(ISO編碼格式)、CP874(泰文編碼格式)、EUC-KP(Extended Unix Code)、CP1258(外文編碼格式)等等。例如,將關(guān)鍵字“新聞”轉(zhuǎn)換成GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258等的編碼格式,然后組成一條含有多種編碼關(guān)鍵字的策略。
S2、將所述多種編碼格式組成關(guān)鍵字策略并生成多模自動機(jī);將所有的策略關(guān)鍵字生成一個多模自動機(jī)。匹配的內(nèi)容生成一條一條的策略,快速高效的完成審計。該步驟S2包括以下子步驟:
S21、將所述多種編碼格式組成關(guān)鍵字策略;
S22、依據(jù)所述關(guān)鍵字策略生成多模自動機(jī)。
S3、使用所述多模自動機(jī)對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字審計匹配;數(shù)據(jù)包進(jìn)入多模自動機(jī)后,從網(wǎng)頁的第一個字符開始匹配,直到自動機(jī)完成匹配工作。該步驟S3包括以下子步驟:
S31、依據(jù)預(yù)設(shè)的關(guān)鍵字從網(wǎng)頁的第一個字符開始匹配;參見圖2,圖2為本發(fā)明提供的多模自動機(jī)的原理示意圖。圖中,關(guān)鍵字1為abcd,關(guān)鍵字2為bfi,關(guān)鍵字3為d。網(wǎng)頁初始位置為O,關(guān)鍵字4為a,關(guān)鍵字5為ab,關(guān)鍵字6為abc,關(guān)鍵字1為abcd,故通過關(guān)鍵字4,5,6即可匹配至關(guān)鍵字1;同理,關(guān)鍵字7為b,關(guān)鍵字8為bf,關(guān)鍵字2為bfi;關(guān)鍵字3為d。
S32、依據(jù)所述關(guān)鍵字將所匹配的網(wǎng)頁內(nèi)容生成一條關(guān)鍵字策略并對其進(jìn)行審計。例如,獲取一整個網(wǎng)頁所有的內(nèi)容,匹配完該整個網(wǎng)頁的所有內(nèi)容,通過如圖2所示的多模自動機(jī)對其進(jìn)行審計。
S4、將所述關(guān)鍵字審計匹配的審計結(jié)果轉(zhuǎn)換成NCR編碼并顯示,從而將多種編碼格式的內(nèi)容顯示于同一界面。審計結(jié)果轉(zhuǎn)換為NCR編碼保存在存儲器中,審計系統(tǒng)獲取這種編碼格式的數(shù)據(jù)顯示,達(dá)到多種編碼格式內(nèi)容正確顯示于一個界面。該步驟S4包括以下子步驟:
S41、將所述關(guān)鍵字審計匹配的審計結(jié)果存儲于存儲器中;
S42、將所述審計結(jié)果轉(zhuǎn)換成NCR編碼;
S43、獲取所述NCR編碼并將其顯示于同一界面。即將多種編碼格式的內(nèi)容顯示于一個界面中。
由于網(wǎng)頁存在不同的內(nèi)容編碼格式,為了最大限度的提高審計的精確性,關(guān)鍵字多語言匹配的方法在內(nèi)容審計關(guān)鍵字設(shè)置時,分別將內(nèi)容關(guān)鍵字轉(zhuǎn)換為GB2312、GB18030、UTF-8、BIG5、NCR的數(shù)據(jù)格式同時進(jìn)行審計匹配,高速精準(zhǔn)的匹配關(guān)鍵字。在混合多種編碼格式的網(wǎng)頁中,為避免原始網(wǎng)頁中內(nèi)容編碼與審計系統(tǒng)中界面編碼沖突,所有審計結(jié)果轉(zhuǎn)換為NCR編碼顯示。
參見圖3,圖3為本發(fā)明提供的一種網(wǎng)頁關(guān)鍵字審計的裝置100框圖,該裝置100包括:
編碼格式轉(zhuǎn)換單元1,用于將預(yù)設(shè)的關(guān)鍵字轉(zhuǎn)換成多種編碼格式;
多模自動機(jī)生成單元2,用于將所述多種編碼格式組成關(guān)鍵字策略并生成多模自動機(jī);
審計匹配單元3,用于使用所述多模自動機(jī)對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字審計匹配;
轉(zhuǎn)換顯示單元4,用于將所述關(guān)鍵字審計匹配的審計結(jié)果轉(zhuǎn)換成NCR編碼并顯示。
優(yōu)選的,所述多種編碼格式包括:GB2312、GB18030、UTF-8、GBK、unicode-16、BIG5、BIG5HKSCS、EUC、Shift-JIS、NCR、Windows-1256、ISO-8859-6、CP874、EUC-KP、CP1258。
優(yōu)選的,所述多模自動機(jī)生成單元2包括:
關(guān)鍵字組成模塊,用于將所述多種編碼格式組成關(guān)鍵字策略;
生成模塊,依據(jù)所述關(guān)鍵字策略生成多模自動機(jī)。
優(yōu)選的,所述審計匹配單元3包括:
匹配模塊,用于依據(jù)預(yù)設(shè)的關(guān)鍵字從網(wǎng)頁的第一個字符開始匹配;
審計模塊,用于依據(jù)所述關(guān)鍵字將所匹配的網(wǎng)頁內(nèi)容生成一條關(guān)鍵字策略并對其進(jìn)行審計。
優(yōu)選的,所述轉(zhuǎn)換顯示單元4包括:
存儲模塊,用于將所述關(guān)鍵字審計匹配的審計結(jié)果存儲于存儲器中;
轉(zhuǎn)換模塊,用于將所述審計結(jié)果轉(zhuǎn)換成NCR編碼;
顯示模塊,用于獲取所述NCR編碼并將其顯示于同一界面。
上面結(jié)合附圖對本發(fā)明的實施例進(jìn)行了描述,但是本發(fā)明并不局限于上述的具體實施方式,上述的具體實施方式僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨和權(quán)利要求所保護(hù)的范圍情況下,還可做出很多形式,這些均屬于本發(fā)明的保護(hù)之內(nèi)。