亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于處理網(wǎng)頁數(shù)據(jù)的方法和裝置的制作方法

文檔序號:6578547閱讀:205來源:國知局
專利名稱:用于處理網(wǎng)頁數(shù)據(jù)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于處理網(wǎng)頁數(shù)據(jù)的方法和裝置。
背景技術(shù)
現(xiàn)在,人們在上網(wǎng)時經(jīng)常使用諸如google、yahoo和百度等這樣的搜索引擎來從 海量的網(wǎng)上信息中檢索感興趣的信息。搜索引擎通常包括有網(wǎng)站爬蟲(website crawler)、搜索數(shù)據(jù)庫和檢索工具,其 中,網(wǎng)站爬蟲用于周期地從各個網(wǎng)站中獲取各個網(wǎng)站的網(wǎng)頁數(shù)據(jù),搜索數(shù)據(jù)庫用于存儲網(wǎng) 站爬蟲所獲取的各個網(wǎng)站的網(wǎng)頁數(shù)據(jù),以及,檢索工具用于根據(jù)人們的請求從搜索數(shù)據(jù)庫 中檢索出包含人們感興趣的信息的網(wǎng)頁數(shù)據(jù)。利用搜索引擎,當(dāng)人們想在網(wǎng)上檢索感興趣 的信息時,人們可以向搜索引擎的檢索工具輸入與該感興趣的信息相關(guān)的關(guān)鍵字,然后搜 索引擎的檢索工具從搜索引擎的搜索數(shù)據(jù)庫中檢索出包含有與該輸入的關(guān)鍵字相關(guān)的信 息的網(wǎng)頁數(shù)據(jù)并呈現(xiàn)給人們。由于搜索引擎的搜索數(shù)據(jù)庫所存儲的網(wǎng)頁數(shù)據(jù)來自各個網(wǎng)站,而且這些網(wǎng)頁數(shù)據(jù) 的其中一些可能會包含有透露網(wǎng)站信息(例如,網(wǎng)站使用的操作系統(tǒng)類型和版本,網(wǎng)站使 用的數(shù)據(jù)庫類型和版本,網(wǎng)站運行的應(yīng)用程序的信息等)的字符,所以,黑客可以利用搜索 引擎檢索出包含有透露網(wǎng)站信息的字符的網(wǎng)頁數(shù)據(jù)并通過分析檢索的網(wǎng)頁數(shù)據(jù)所包含的 這些透露網(wǎng)站信息的字符來查找到具有安全缺陷或隱患的網(wǎng)站,從而利用這些網(wǎng)站的安全 缺陷或隱患來對這些網(wǎng)站實施未授權(quán)操作,例如從網(wǎng)站中盜取用戶信息,向網(wǎng)站安裝惡意 代碼等。這就是近年出現(xiàn)的一種利用搜索引擎對網(wǎng)站實施未授權(quán)操作的黑客技術(shù),這種黑 客技術(shù)也被稱為谷歌黑客技術(shù)(google hacking) 0例如,在2004年,黑客利用論壇應(yīng)用程 序phpBB存在的安全缺陷,開發(fā)了一種蠕蟲Santy來惡意攻擊運行有論壇應(yīng)用程序phpBB 的網(wǎng)站,導(dǎo)致大約15000個網(wǎng)站感染了蠕蟲Santy。首先,蠕蟲Santy通過谷歌搜索引擎 (google)檢索出包含有字符“phpBB”的網(wǎng)頁數(shù)據(jù)并根據(jù)所檢索的網(wǎng)頁數(shù)據(jù)查找到運行有 論壇應(yīng)用程序PhpBB的網(wǎng)站的網(wǎng)絡(luò)地址,然后,蠕蟲Santy根據(jù)所查找到的網(wǎng)絡(luò)地址侵入這 些網(wǎng)站并利用這些網(wǎng)站所運行的論壇應(yīng)用程序PhpBB的安全缺陷把自己安裝到這些網(wǎng)站 中。又例如,在2008年,發(fā)生了 SQL注入式(SQL injection)攻擊并導(dǎo)致大約14000個網(wǎng) 站感染了病毒。首先,SQL注入式攻擊通過谷歌搜索引擎檢索出包含字符“ASP”和“id =” 的網(wǎng)頁數(shù)據(jù),基于所檢索的網(wǎng)頁數(shù)據(jù)確定出運行ASP腳本并在其統(tǒng)一資源定位符(URL)中 具有“id =”的網(wǎng)站,然后SQL注入式攻擊從這些確定的網(wǎng)站中找出具有SQL注入式攻擊弱 點的網(wǎng)站,最后SQL注入式攻擊向這些具有SQL注入式攻擊弱點的網(wǎng)站注入惡意代碼,該惡 意代碼將會試圖向訪問網(wǎng)站的用戶計算機安裝名為“Trojan”的病毒。為了阻止黑客利用谷歌黑客技術(shù)來對網(wǎng)站實施未授權(quán)操作,人們提出了各種的解 決方法?!N方法是在網(wǎng)站的根目錄下創(chuàng)建一個用于指定網(wǎng)頁爬蟲應(yīng)該遵守的規(guī)則的文件robots, txt,網(wǎng)站管理員可以利用robots, txt來指定那些不允許網(wǎng)頁爬蟲獲取的包含 有網(wǎng)站信息的網(wǎng)頁數(shù)據(jù)文件和/或包含這樣的文件的文件目錄。然而,robots, txt僅支持 阻止對整個文件或文件目錄進行提取,即如果robots, txt指定了一個網(wǎng)頁數(shù)據(jù)文件或包 含網(wǎng)頁數(shù)據(jù)文件的文件目錄不允許網(wǎng)頁爬蟲提取,則該指定的網(wǎng)頁數(shù)據(jù)文件或包含網(wǎng)頁數(shù) 據(jù)文件的該指定的文件目錄所包含的所有網(wǎng)頁數(shù)據(jù)文件不會被網(wǎng)頁爬蟲提取。在這種情況 下,如果robots, txt指定了網(wǎng)站的首頁的網(wǎng)頁數(shù)據(jù)文件不允許網(wǎng)頁爬蟲提取走,則人們就 不可能通過搜索引擎查找到網(wǎng)站的首頁,這是網(wǎng)站管理員所不能接受的。另一種方法是人們試圖使用廣泛部署以用來減少對網(wǎng)站的攻擊的網(wǎng)頁應(yīng)用防火 墻(WAF =Web Application Firewall)。然而,網(wǎng)頁應(yīng)用防火墻僅用于過濾訪問者發(fā)送給網(wǎng) 站的請求以檢查該請求中是否包含有惡意攻擊代碼,所以現(xiàn)有的網(wǎng)頁應(yīng)用防火墻不能防止 黑客利用谷歌黑客技術(shù)對網(wǎng)站實施未授權(quán)操作。還有一些方法是通過修改網(wǎng)站源代碼來防止黑客利用谷歌黑客技術(shù)來對網(wǎng)站實 施未授權(quán)操作。然而,這樣的方法并不適合所有的情形,例如,如果運行在網(wǎng)站上的應(yīng)用程 序沒有源代碼,則沒有辦法采用這種通過修改源代碼的方式來防止黑客利用谷歌黑客技術(shù) 來對網(wǎng)站實施未授權(quán)操作。

發(fā)明內(nèi)容
考慮到現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供一種用于處理網(wǎng)頁數(shù)據(jù)的方法和裝置, 其屏蔽從網(wǎng)站發(fā)送給搜索引擎的網(wǎng)頁數(shù)據(jù)中所包含的可能會透露網(wǎng)站信息的字符,從而能 夠防止黑客利用谷歌黑客技術(shù)來對網(wǎng)站實施未授權(quán)操作。按照本發(fā)明的一種用于處理網(wǎng)頁數(shù)據(jù)的方法,包括檢查網(wǎng)站欲發(fā)送給搜索引擎 的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有特定字符;以及,當(dāng)檢查結(jié)果為肯定時,屏蔽所述 網(wǎng)頁數(shù)據(jù)包含的所述特定字符。按照本發(fā)明的一種用于處理網(wǎng)頁數(shù)據(jù)的裝置,包括檢查模塊,用于檢查網(wǎng)站欲發(fā) 送給搜索引擎的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有特定字符;以及,屏蔽模塊,用于當(dāng) 檢查結(jié)果為肯定時,屏蔽所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。按照本發(fā)明的一種網(wǎng)頁應(yīng)用防火墻,包括攔截模塊,用于攔截網(wǎng)站欲發(fā)送給搜索 引擎的響應(yīng)消息;檢查模塊,用于檢查所述攔截的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有 特定字符;屏蔽模塊,用于當(dāng)檢查結(jié)果為肯定時,屏蔽所述攔截的響應(yīng)消息所包括的所述網(wǎng) 頁數(shù)據(jù)包含的所述特定字符;以及,發(fā)送模塊,用于向所述搜索引擎發(fā)送所述攔截的已屏蔽 所述特定字符的響應(yīng)消息。


本發(fā)明的其它特定、特征和優(yōu)點通過以下結(jié)合附圖的詳細(xì)描述將變得更加顯而易 見,其中圖1示出了按照本發(fā)明一個實施例的實施情景示意圖;圖2是示出按照本發(fā)明一個實施例的HTTP請求消息的示例示意圖;圖3A和3B是示出按照本發(fā)明一個實施例的由網(wǎng)頁應(yīng)用防火墻執(zhí)行的用于處理網(wǎng) 頁數(shù)據(jù)的方法的流程5
圖4A示出了按照本發(fā)明一個實施例的具有網(wǎng)頁數(shù)據(jù)的加擾后的相對地址和加擾 標(biāo)識符的HTTP請求消息的示意圖;圖4B示出了按照本發(fā)明一個實施例的具有網(wǎng)頁數(shù)據(jù)的沒有被加擾的相對地址的 HTTP請求消息的示意圖;圖5A示出了按照本發(fā)明一個實施例的網(wǎng)頁數(shù)據(jù)所包含的具有沒有被加擾的相對 地址的統(tǒng)一資源定位符的示意圖;以及圖5B示出了按照本發(fā)明一個實施例的網(wǎng)頁數(shù)據(jù)所包含的具有加擾后的相對地址 和加擾標(biāo)識符的統(tǒng)一資源定位符的示意圖。
具體實施例方式下面,將結(jié)合附圖詳細(xì)描述本發(fā)明的各個實施例。圖1示出了按照本發(fā)明一個實施例的實施情景示意圖。圖1所示的實施情景包括 有網(wǎng)站10、用戶20、搜索引擎30和網(wǎng)頁應(yīng)用防火墻(WAF)40。其中,網(wǎng)站10包括有網(wǎng)站服務(wù)器12,其存儲網(wǎng)站10的各個網(wǎng)頁數(shù)據(jù)。用戶20可以是除了搜索引擎30之外的人和/或程序。用戶20可以訪問網(wǎng)站10 以請求網(wǎng)站10的網(wǎng)頁數(shù)據(jù),或者通過搜索引擎30檢索包含感興趣的信息的網(wǎng)頁數(shù)據(jù)。當(dāng) 用戶20訪問網(wǎng)站10時,用戶20首先作為發(fā)起方與網(wǎng)站10的網(wǎng)站服務(wù)器12建立通信連 接,然后,用戶20經(jīng)由該建立的通信連接向網(wǎng)站服務(wù)器12發(fā)送HTTP請求消息以請求網(wǎng)站 10的網(wǎng)頁數(shù)據(jù),以及網(wǎng)站服務(wù)器12響應(yīng)該HTTP請求消息經(jīng)由該建立的通信連接向用戶20 返回包含所請求的網(wǎng)頁數(shù)據(jù)的HTTP響應(yīng)消息。其中,該建立的通信連接包括有作為發(fā)起方 的用戶20的和作為目的方的網(wǎng)站服務(wù)器12的地址和端口號。搜索引擎30包括網(wǎng)站爬蟲、搜索數(shù)據(jù)庫和搜索工具(未示出)。搜索引擎30的 網(wǎng)站爬蟲周期地訪問網(wǎng)站10以請求網(wǎng)站10的網(wǎng)頁數(shù)據(jù),并把所請求的網(wǎng)頁數(shù)據(jù)存儲在搜 索引擎30的搜索數(shù)據(jù)庫中。當(dāng)搜索引擎30的網(wǎng)站爬蟲訪問網(wǎng)站10時,搜索引擎30的網(wǎng) 站爬蟲首先作為發(fā)起方與網(wǎng)站10的網(wǎng)站服務(wù)器12建立通信連接,然后,搜索引擎30的網(wǎng) 站爬蟲經(jīng)由該建立的通信連接向網(wǎng)站服務(wù)器12發(fā)送HTTP請求消息以請求網(wǎng)站10的網(wǎng)頁 數(shù)據(jù),以及網(wǎng)站服務(wù)器12響應(yīng)該HTTP請求消息經(jīng)由該建立的通信連接向搜索引擎30的網(wǎng) 站爬蟲返回包含所請求的網(wǎng)頁數(shù)據(jù)的HTTP響應(yīng)消息,其中,該建立的通信連接包括作為發(fā) 起方的搜索引擎30的網(wǎng)站爬蟲和作為目的方的網(wǎng)站服務(wù)器12的地址和端口號。通常,搜 索引擎30的網(wǎng)站爬蟲首先向網(wǎng)站10的網(wǎng)站服務(wù)器12發(fā)送用于請求網(wǎng)站10的主頁的網(wǎng)頁 數(shù)據(jù)的HTTP請求消息,然后,在從網(wǎng)站服務(wù)器12收到網(wǎng)站10的主頁的網(wǎng)頁數(shù)據(jù)后,搜索引 擎30的網(wǎng)站爬蟲根據(jù)網(wǎng)站10的主頁的網(wǎng)頁數(shù)據(jù)中所包括的指向網(wǎng)站10的其它網(wǎng)頁數(shù)據(jù) 的統(tǒng)一資源定位符(URL),繼續(xù)向網(wǎng)站服務(wù)器12發(fā)送HTTP請求消息以請求網(wǎng)站10的其它 網(wǎng)頁數(shù)據(jù)。通過這種方式,搜索引擎30可以獲取網(wǎng)站10中可得到的各個網(wǎng)頁數(shù)據(jù)。網(wǎng)頁應(yīng)用防火墻(WAF)40用于監(jiān)控在用戶20和/或搜索引擎30與網(wǎng)站10的網(wǎng) 站服務(wù)器12之間的通信連接,以及攔截經(jīng)由該通信連接用戶20和/或搜索引擎30發(fā)送給 網(wǎng)站10的用于請求網(wǎng)站10的網(wǎng)頁數(shù)據(jù)的HTTP請求消息和網(wǎng)站10響應(yīng)于用戶20和搜索 引擎30的HTTP請求而發(fā)送給用戶20和/或搜索引擎30的包含有網(wǎng)頁數(shù)據(jù)的HTTP響應(yīng) 消息。
6
網(wǎng)頁應(yīng)用防火墻40預(yù)先存儲有可能會透露網(wǎng)站信息的特定字符。當(dāng)網(wǎng)頁應(yīng)用防 火墻40攔截到網(wǎng)站10發(fā)送的HTTP響應(yīng)消息是發(fā)送給搜索引擎30時,網(wǎng)頁應(yīng)用防火墻40 檢查該發(fā)送給搜索引擎30的HTTP響應(yīng)消息所包含的網(wǎng)頁數(shù)據(jù)中是否包含有這些可能會透 露網(wǎng)站信息的特定字符,并當(dāng)檢查結(jié)果為肯定時,使用其它字符來屏蔽該發(fā)送給搜索引擎 30的HTTP響應(yīng)消息所包含的網(wǎng)頁數(shù)據(jù)包含的這些可能會透露網(wǎng)站信息的特定字符,從而 達到防止黑客利用谷歌黑客技術(shù)來對網(wǎng)站實施未授權(quán)操作的目的。圖2是示出按照本發(fā)明一個實施例的HTTP請求消息的示例示意圖。如圖2所示, HTTP請求消息包含有表示網(wǎng)頁數(shù)據(jù)請求者標(biāo)識的域“User-Agent”和表示所請求的網(wǎng)頁數(shù) 據(jù)的基地址的域“Host”。在圖2所示的HTTP請求消息的例子中,網(wǎng)頁數(shù)據(jù)請求者標(biāo)識是 "googlebot/1.0",即谷歌搜索引擎的網(wǎng)站爬蟲的標(biāo)識,以及,所請求的網(wǎng)頁數(shù)據(jù)的基地址 為“www. example, com”。除此之外,HTTP請求消息還包含有所請求的網(wǎng)頁數(shù)據(jù)的相對地址, 在這個例子中,所請求的網(wǎng)頁數(shù)據(jù)的相對地址為“/example, htm”。所請求的網(wǎng)頁數(shù)據(jù)的基 地址和相對地址構(gòu)成所請求的網(wǎng)頁數(shù)據(jù)的統(tǒng)一資源定位符。由上述可以看出,HTTP請求消 息包含有網(wǎng)頁數(shù)據(jù)請求者標(biāo)識,因此,基于HTTP請求消息可以確定請求網(wǎng)頁數(shù)據(jù)的請求者 是搜索引擎還是搜索引擎之外的其它用戶。圖3A和3B是示出按照本發(fā)明一個實施例的由網(wǎng)頁應(yīng)用防火墻執(zhí)行的用于處理網(wǎng) 頁數(shù)據(jù)的方法的流程圖。如圖3所示,當(dāng)網(wǎng)頁應(yīng)用防火墻40攔截到用戶20和/或搜索引擎30欲發(fā)送給網(wǎng) 站10的網(wǎng)站服務(wù)器12的用于請求網(wǎng)頁數(shù)據(jù)的HTTP請求消息H時,網(wǎng)頁應(yīng)用防火墻40根 據(jù)該攔截的HTTP請求消息H中所包含的網(wǎng)頁數(shù)據(jù)請求者標(biāo)識,檢查是否是搜索引擎30向 網(wǎng)站10請求網(wǎng)頁數(shù)據(jù)(步驟S310)。當(dāng)步驟S310的檢查結(jié)果為否定時,流程進行到步驟S350。當(dāng)步驟S310的檢查結(jié)果為肯定時,網(wǎng)頁應(yīng)用防火墻40獲取該攔截的HTTP請求消 息H所經(jīng)由的通信連接的發(fā)起方的地址和端口號(步驟S320)。網(wǎng)頁應(yīng)用防火墻40存儲該獲取的地址和端口號作為搜索引擎30的標(biāo)識(步驟 S340)。網(wǎng)頁應(yīng)用防火墻40檢查該攔截的HTTP請求消息H所包含的網(wǎng)頁數(shù)據(jù)的相對地址 中是否包含有表示該攔截的HTTP請求消息H所包含的網(wǎng)頁數(shù)據(jù)的相對地址已經(jīng)被加擾處 理的加擾標(biāo)識符(步驟S350)。圖4A示出了按照本發(fā)明一個實施例的具有網(wǎng)頁數(shù)據(jù)的加 擾后的相對地址和加擾標(biāo)識符的HTTP請求消息的示意圖,其中,“ % 4C% 32% 56% 34% 59% 57% 31% 77% 62% 47% 55% 75% 61% 48% 52% 74 ? ”是網(wǎng)頁數(shù)據(jù)的加擾后的相 對地址,“flag = 1”是加擾標(biāo)識符。當(dāng)步驟S350的檢查結(jié)果為否定時,流程進行到步驟S380。當(dāng)步驟S350的檢查結(jié)果為肯定時,網(wǎng)頁應(yīng)用防火墻40使用預(yù)先指定的解擾方法 對該攔截的HTTP請求消息H所包含的網(wǎng)頁數(shù)據(jù)的相對地址進行解擾處理,得到解擾后的相 對地址(步驟S360)。在本實施例中,該解擾方法可以是依次采用BASE64和URLENC0DE算 法進行解擾處理。網(wǎng)頁應(yīng)用防火墻40使用該解擾后的相對地址替換該攔截的HTTP請求消息H所包 含的網(wǎng)頁數(shù)據(jù)的相對地址(步驟S370)。圖4B示出了按照本發(fā)明一個實施例的具有網(wǎng)頁數(shù)據(jù)的沒有被加擾的相對地址的HTTP請求消息的示意圖,其中,“example, htm”是網(wǎng)頁數(shù)據(jù) 的沒有被加擾的相對地址。網(wǎng)頁應(yīng)用防火墻40把該攔截的HTTP請求消息H發(fā)送給網(wǎng)站10的網(wǎng)站服務(wù)器 12(步驟 S380)。當(dāng)網(wǎng)頁應(yīng)用防火墻40攔截到網(wǎng)站10的網(wǎng)站服務(wù)器12欲發(fā)送給用戶20或搜索引 擎30的HTTP響應(yīng)消息T時,網(wǎng)頁應(yīng)用防火墻40獲取該攔截的HTTP響應(yīng)消息T所經(jīng)由的 通信連接的發(fā)起方的地址和端口號(步驟S390)。網(wǎng)頁應(yīng)用防火墻40判斷該獲取的地址和端口號是否與之前存儲的作為搜索引擎 30的標(biāo)識的地址和端口號是否相同(步驟S410)。當(dāng)步驟S410的判斷結(jié)果為否定時,表明該攔截的HTTP響應(yīng)消息T不是發(fā)送給搜 索引擎30的,流程進行到步驟S470。當(dāng)步驟S410的判斷結(jié)果為肯定時,表明該攔截的HTTP響應(yīng)消息T是發(fā)送給搜索 引擎30的,網(wǎng)頁應(yīng)用防火墻40檢查該攔截的HTTP響應(yīng)消息T所包含的網(wǎng)頁數(shù)據(jù)中是否包 含有預(yù)先存儲的可能會透露網(wǎng)站信息的特定字符(步驟S420)。當(dāng)步驟S420的檢查結(jié)果為否定時,流程進行到步驟S470。當(dāng)步驟S420的檢查結(jié)果為肯定時,網(wǎng)頁應(yīng)用防火墻40進一步檢查該特定字符是 否被包含在該攔截的HTTP響應(yīng)消息T所包含的網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中(步 驟 S430)。當(dāng)步驟S430的進一步檢查結(jié)果為否定時,表明該特定字符沒有被包含在該攔截 的HTTP響應(yīng)消息T所包含的網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中,從而網(wǎng)頁應(yīng)用防火墻40 使用空格符來替換該攔截的HTTP響應(yīng)消息T所包含的網(wǎng)頁數(shù)據(jù)所包含的該特定字符(步 驟S440),以屏蔽該網(wǎng)頁數(shù)據(jù)所包含的該特定字符,然后流程進行到步驟S470。當(dāng)步驟S430的進一步檢查結(jié)果為肯定時,表明該特定字符被包含在該攔截的 HTTP響應(yīng)消息T所包含的網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中,網(wǎng)頁應(yīng)用防火墻40使用 與步驟S360所提到的解擾方法相對應(yīng)的加擾方法,來對該攔截的HTTP響應(yīng)消息T所包含 的網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中的相對地址進行加擾處理,得到加擾后的相對地址 (步驟S450)。在本實施例中,該加擾方法可以是依次采用BASE64和URLENC0DE算法進行 加擾處理。圖5A示出了按照本發(fā)明一個實施例的網(wǎng)頁數(shù)據(jù)所包含的具有沒有被加擾的相 對地址的統(tǒng)一資源定位符的示意圖,其中,“example, htm”是沒有被加擾的相對地址。網(wǎng)頁應(yīng)用防火墻40使用該加擾后的相對地址替換該攔截的HTTP響應(yīng)消息T所包 含的網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中的相對地址以屏蔽該網(wǎng)頁數(shù)據(jù)所包含的該特定 字符,并在該統(tǒng)一資源定位符中增加用于表示該統(tǒng)一資源定位符的相對地址已被加擾的加 擾標(biāo)識符(步驟S460)。圖5B示出了按照本發(fā)明一個實施例的網(wǎng)頁數(shù)據(jù)所包含的具有加 擾后的相對地址和加擾標(biāo)識符的統(tǒng)一資源定位符的示意圖,其中,“ % 4C% 32% 56% 34% 59% 57% 31% 77% 62% 47% 55% 75% 61% 48% 52% 74 ? ”是加擾后的相對地址,“flag =1”是加擾標(biāo)識符。網(wǎng)頁應(yīng)用防火墻40把該攔截的HTTP響應(yīng)消息T發(fā)送給相應(yīng)的接收者(步驟 S470)。其它變型
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然在上面實施例中,HTTP響應(yīng)消息所包含的網(wǎng)頁數(shù) 據(jù)所包含的統(tǒng)一資源定位符中所包含的可能會透露網(wǎng)站信息的特定字符也被屏蔽了,然 而,本發(fā)明并不局限于此。在本發(fā)明的其它實施例中,也可以只屏蔽HTTP響應(yīng)消息所包含 的網(wǎng)頁數(shù)據(jù)在不是統(tǒng)一資源定位符的那些部分中所包含的該特定字符。采用這種方式,已 經(jīng)能大大減少黑客利用谷歌黑客技術(shù)對網(wǎng)站實施未授權(quán)操作的可能性。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然在上面實施例中,解擾方法和加擾方法是采用 BASE64和URLENC0DE算法,然而,本發(fā)明并不局限于此。在本發(fā)明的其它實施例中,解擾方 法和加擾方法可以采用其它可用的各種算法。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然在上面實施例中,當(dāng)所攔截的HTTP響應(yīng)消息所 包含的網(wǎng)頁數(shù)據(jù)包含有可能會透露網(wǎng)站信息的特定字符但該特定字符沒有被包括在該網(wǎng) 頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中時,使用空格符來替換該網(wǎng)頁數(shù)據(jù)中所包含的該特定字 符,然而,本發(fā)明并不局限于此。在本發(fā)明的其它實施例中,也可以使用除空格之外的其它 字符來替換該網(wǎng)頁數(shù)據(jù)中所包含的該特定字符,例如,該其它字符可以是符號?、!、#等。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然上面實施例是在HTTP協(xié)議上實現(xiàn)的,并且用戶20 和搜索引擎30向網(wǎng)站10發(fā)送的用于請求網(wǎng)頁數(shù)據(jù)的請求消息是遵循HTTP協(xié)議的HTTP 請求消息,以及網(wǎng)站10向用戶20和搜索引擎30返回的包含網(wǎng)頁數(shù)據(jù)的響應(yīng)消息是遵循 HTTP協(xié)議的HTTP響應(yīng)消息,然而,本發(fā)明并不局限于此。本發(fā)明的其它實施例也可以在除 了 HTTP協(xié)議之外的其它協(xié)議上實現(xiàn)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,雖然在上面實施例中,本發(fā)明的用于處理網(wǎng)頁數(shù)據(jù)的 方法是在網(wǎng)頁應(yīng)用防火墻40中實施的,然而,本發(fā)明并不局限于此。在本發(fā)明的其它實施 例中,用于處理網(wǎng)頁數(shù)據(jù)的方法也可以在搜索引擎30或網(wǎng)站服務(wù)器12中實施。其中,在網(wǎng) 站服務(wù)器12中實施的用于處理網(wǎng)頁數(shù)據(jù)的方法與上面實施例所描述的在網(wǎng)頁應(yīng)用防火墻 40中實施的方法相同。在搜索引擎30中實施的用于處理網(wǎng)頁數(shù)據(jù)的方法不同于上面實施 例所描述的在網(wǎng)頁應(yīng)用防火墻40中實施的方法在于,搜索引擎30不需要用于判斷其所收 到的響應(yīng)消息是否是網(wǎng)站10發(fā)送給搜索引擎30的步驟,因為搜索引擎30收到的響應(yīng)消息 肯定是網(wǎng)站10發(fā)送搜索引擎30。上面各個實施例所公開的方法的各個步驟,可以采用軟件、硬件或者軟硬件相結(jié) 合的方式來實現(xiàn)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的各個實施例可以在沒有偏離發(fā)明實質(zhì)的情況 下做出各種變型和改變,這些變型和改變都在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護 范圍由所附的權(quán)利要求書來定義。
權(quán)利要求
一種用于處理網(wǎng)頁數(shù)據(jù)的方法,包括檢查網(wǎng)站欲發(fā)送給搜索引擎的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有特定字符;以及當(dāng)檢查結(jié)果為肯定時,屏蔽所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。
2.如權(quán)利要求1所述的方法,其中,所述屏蔽步驟進一步包括當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符沒有被包含在所述網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一 資源定位符中時,使用與所述特定字符不同的其它字符,來替換所述網(wǎng)頁數(shù)據(jù)包含的所述 特定字符。
3.如權(quán)利要求1所述的方法,其中,所述屏蔽步驟進一步包括當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符被包含在所述網(wǎng)頁數(shù)據(jù)包括的統(tǒng)一資源定 位符中時,使用通過對所述統(tǒng)一資源定位符中的相對地址進行加擾處理后得到的加擾后的 相對地址,來替換所述統(tǒng)一資源定位符中的相對地址。
4.如權(quán)利要求3所述的方法,其中,還包括步驟當(dāng)接收到欲發(fā)送給所述網(wǎng)站的用于請求網(wǎng)頁數(shù)據(jù)的請求消息,并且所述請求消息所 包括的網(wǎng)頁數(shù)據(jù)的相對地址是所述加擾后的相對地址時,使用對所述加擾后的相對地址進 行解擾處理后得到的解擾后的相對地址,來替換所述請求消息所包括的網(wǎng)頁數(shù)據(jù)的相對地址。
5.如權(quán)利要求1所述的方法,其中,還包括步驟確定所述響應(yīng)消息是否是由所述網(wǎng)站發(fā)送給所述搜索引擎的;以及 當(dāng)確定結(jié)果為肯定時,檢查所述網(wǎng)頁數(shù)據(jù)是否包含有所述特定字符。
6.如權(quán)利要求5所述的方法,其中,所述確定步驟進一步包括檢測所述響應(yīng)消息所經(jīng)由的通信連接的發(fā)起方的地址和端口號是否與之前所述搜索 引擎要發(fā)送給所述網(wǎng)站的請求消息所經(jīng)由的通信連接的發(fā)起方的地址和端口號相同;以及 當(dāng)檢測結(jié)果為肯定時,判定所述響應(yīng)消息是由所述網(wǎng)站發(fā)送給所述搜索引擎的。
7.如權(quán)利要求1所述的方法,其中,所述特定字符包括可能透露所述網(wǎng)站的信息的字符。
8.如權(quán)利要求2所述的方法,其中,所述其它字符包括空格符。
9.一種用于處理網(wǎng)頁數(shù)據(jù)的裝置,包括檢查模塊,用于檢查網(wǎng)站欲發(fā)送給搜索引擎的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有 特定字符;以及屏蔽模塊,用于當(dāng)檢查結(jié)果為肯定時,屏蔽所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。
10.如權(quán)利要求9所述的裝置,其中,所述屏蔽模塊進一步用于當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符沒有被包含在所 述網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中時,使用與所述特定字符不同的其它字符,來替換 所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。
11.如權(quán)利要求9所述的裝置,其中,所述屏蔽模塊進一步用于當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符被包含在所述網(wǎng) 頁數(shù)據(jù)包括的統(tǒng)一資源定位符中時,使用通過對所述統(tǒng)一資源定位符中的相對地址進行加 擾處理后得到的加擾后的相對地址,來替換所述統(tǒng)一資源定位符中的相對地址。
12.如權(quán)利要求11所述的裝置,其中,還包括替換模塊,用于當(dāng)接收到欲發(fā)送給所述網(wǎng)站的用于請求網(wǎng)頁數(shù)據(jù)的請求消息,并且所 述請求消息所包括的網(wǎng)頁數(shù)據(jù)的相對地址是所述加擾后的相對地址時,使用對所述加擾后 的相對地址進行解擾處理后得到的解擾后的相對地址,來替換所述請求消息所包括的網(wǎng)頁 數(shù)據(jù)的相對地址。
13.如權(quán)利要求9所述的裝置,其中,還包括確定模塊,用于確定所述響應(yīng)消息是否是 由所述網(wǎng)站發(fā)送給所述搜索引擎的,其中,所述檢查模塊進一步用于當(dāng)確定結(jié)果為肯定時,檢查所述網(wǎng)頁數(shù)據(jù)是否包含有 所述特定字符。
14.如權(quán)利要求13所述的裝置,其中,所述確定模塊進一步包括檢測模塊,用于檢測所述響應(yīng)消息所經(jīng)由的通信連接的發(fā)起方的地址和端口號是否與 之前所述搜索引擎要發(fā)送給所述網(wǎng)站的請求消息所經(jīng)由的通信連接的發(fā)起方的地址和端 口號相同;以及判定模塊,用于當(dāng)檢測結(jié)果為肯定時,判定所述響應(yīng)消息是由所述網(wǎng)站發(fā)送給所述搜 索引擎的。
15.一種網(wǎng)頁應(yīng)用防火墻,包括攔截模塊,用于攔截網(wǎng)站欲發(fā)送給搜索引擎的響應(yīng)消息;檢查模塊,用于檢查所述攔截的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有特定字符;屏蔽模塊,用于當(dāng)檢查結(jié)果為肯定時,屏蔽所述攔截的響應(yīng)消息所包括的所述網(wǎng)頁數(shù) 據(jù)包含的所述特定字符;以及發(fā)送模塊,用于向所述搜索引擎發(fā)送所述攔截的已屏蔽所述特定字符的響應(yīng)消息。
16.如權(quán)利要求15所述的網(wǎng)頁應(yīng)用防火墻,其中,所述屏蔽模塊進一步用于當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符沒有被包含在所 述網(wǎng)頁數(shù)據(jù)所包含的統(tǒng)一資源定位符中時,使用與所述特定字符不同的其它字符,來替換 所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。
17.如權(quán)利要求15所述的網(wǎng)頁應(yīng)用防火墻,其中,所述屏蔽模塊進一步用于當(dāng)所述檢查結(jié)果為肯定,并且所述特定字符被包含在所述網(wǎng) 頁數(shù)據(jù)包括的統(tǒng)一資源定位符中時,使用通過對所述統(tǒng)一資源定位符中的相對地址進行加 擾處理后得到的加擾后的相對地址,來替換所述統(tǒng)一資源定位符中的相對地址。
18.一種機器可讀介質(zhì),其上存儲有指令集合,當(dāng)所述指令集合被執(zhí)行時,使得機器執(zhí) 行權(quán)利要求1至8中任意一個權(quán)利要求所述的步驟。
全文摘要
本發(fā)明涉及一種用于處理網(wǎng)頁數(shù)據(jù)的方法和裝置,其中,該方法包括步驟檢查網(wǎng)站欲發(fā)送給搜索引擎的響應(yīng)消息所包括的網(wǎng)頁數(shù)據(jù)是否包含有特定字符;以及,當(dāng)檢查結(jié)果為肯定時,屏蔽所述網(wǎng)頁數(shù)據(jù)包含的所述特定字符。利用該方法和裝置,能夠防止黑客利用谷歌黑客技術(shù)來對網(wǎng)站實施未授權(quán)操作。
文檔編號G06F17/30GK101901232SQ20091014382
公開日2010年12月1日 申請日期2009年5月31日 優(yōu)先權(quán)日2009年5月31日
發(fā)明者汪濤 申請人:西門子(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1