專利名稱:一種用戶Web訪問行為控制方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及一種用戶Web訪問行為控制方法及裝置。
背景技術(shù):
互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)蓬勃發(fā)展的今天,各類安全問題層出不窮,這使得不少安全類產(chǎn)品也應(yīng)運(yùn)而生,其中典型的包括防火墻(Firewall)、入侵檢測/防御系統(tǒng)(IDS/IPS),還有代理類的虛擬專用網(wǎng)(VPN)等等。這些設(shè)備大多是基于固定的網(wǎng)絡(luò)協(xié)議進(jìn)行處理的,由于網(wǎng)絡(luò)自身的開發(fā)性和日益豐富的應(yīng)用發(fā)展,以及用戶行為本身的不確定性,使得傳統(tǒng)的基于傳輸協(xié)議的安全技術(shù)和方案已無法達(dá)到理想的管理效果。從硬件到軟件,從設(shè)備到人員管理,網(wǎng)絡(luò)安全技術(shù)和方案涉及很廣。這里,我們將重點(diǎn)集中在應(yīng)用層信息安全方面。隨著Web2. 0時代的到來,網(wǎng)絡(luò)應(yīng)用變得更加豐富,這使得人們上網(wǎng)的行為方式也發(fā)生了巨大變化從早期只能進(jìn)行簡單的網(wǎng)頁瀏覽的行為,發(fā)展成了涵蓋搜索、郵件收發(fā)、發(fā)帖(類似的還有博客、評論、回復(fù)等)、聊天、文件上傳/下載等更為復(fù)雜的行為類型。這些Web應(yīng)用,都是在應(yīng)用層協(xié)議上進(jìn)行描述的,因此原先那些安全類設(shè)備無法覆蓋到這些行為。同時,考慮到應(yīng)用的多祥性和排它性,用戶行為的描述方式也是基于一定的語法特征的,具體的描述方式由服務(wù)提供者定義。針對用戶上網(wǎng)行為管理問題,網(wǎng)絡(luò)管理者提出了如下需求1、對用戶上網(wǎng)行為 的精確識別(如登錄、退出、發(fā)帖、發(fā)郵件、下載文件等);2、對用戶上網(wǎng)信息進(jìn)行全面的精細(xì)化審計(如賬號、標(biāo)題、正文、附件名等);3、能夠?qū)ι暇W(wǎng)信息進(jìn)行策略控制和記錄;(如對敏感言論的封堵控制);4、能對行為發(fā)起者進(jìn)行及時定位和跟蹤,了解并預(yù)測其可能的行為。現(xiàn)有的實(shí)現(xiàn)方案通常比較簡單,它們往往只通過Web行為中的URL進(jìn)行分類查詢和關(guān)鍵字提取,從而做出基本的行為判定和執(zhí)行動作。顯然,僅僅就URL進(jìn)行初步過濾無法滿足用戶的所有需求,具體表現(xiàn)如下1、功能分類過于簡單,如只有網(wǎng)頁類、捜索類、郵件類等,且使得擴(kuò)展不便,需要較多的二次開發(fā)工作量;2、功能精細(xì)化處理能力不足,如誤識別、提取條件少、策略簡單等;3、功能間串行處理,性能較低,從而導(dǎo)致當(dāng)多種功能并行處理時性能不佳;4、應(yīng)對協(xié)議中的編碼支持不好,如不同字符集下匹配失敗、顯示亂碼等,從而導(dǎo)致無法進(jìn)行精確的識別匹配,或因?qū)崟r解碼操作導(dǎo)致性能不佳;5、更新機(jī)制簡單滯后,有效性低,從而在面對高速發(fā)展的互聯(lián)網(wǎng)應(yīng)用時沒有ー個快速有效的更新機(jī)制;總的來說,現(xiàn)有的針對網(wǎng)絡(luò)安全的解決方案在實(shí)現(xiàn)上比較簡單低效,且不具備理想的功能擴(kuò)展性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠克服至少上述缺陷之一的用戶Web訪問行為控制方法及裝置。在本發(fā)明的第一方面,提供了一種用戶Web訪問行為控制方法,包括根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL ;根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)ー個或多個特征;根據(jù)所述特征調(diào)取與所述特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從所述Web數(shù)據(jù)中解析出來的;在所述HTTP實(shí)體中捜索所述特征中的關(guān)鍵字;在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容;將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;以及執(zhí)行匹配成功的策略條件所對應(yīng)的策略。在本發(fā)明的第二方面,提供了一種用戶Web訪問行為控制裝置,包括URL識別模塊,用于根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL ;特征查找模塊,用于根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)ー個或多個特征;HTTP實(shí)體調(diào)取模塊,用于根據(jù)所述特征調(diào)取與所述特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從所述Web數(shù)據(jù)中解析出來的;關(guān)鍵字搜索模塊,用于在所述HTTP實(shí)體中捜索所述特征中的關(guān)鍵字;內(nèi)容提取模塊,用于在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容;策略條件匹配模塊,用于將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;以及策略執(zhí)行模塊,用于執(zhí)行匹配成功的策略條件所對應(yīng)的策略。在本發(fā)明的第三方面,提供了一種網(wǎng)關(guān),包括URL識別模塊,用于根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL;特征查找模塊,用于根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)ー個或多個特征;HTTP實(shí)體調(diào)取模塊,用于根據(jù)所述特征調(diào)取與所述特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從所述Web數(shù)據(jù)中解析出 來的;關(guān)鍵字搜索模塊,用于在所述HTTP實(shí)體中捜索所述特征中的關(guān)鍵字;內(nèi)容提取模塊,用于在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容;策略條件匹配模塊,用于將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;以及策略執(zhí)行模塊,用于執(zhí)行匹配成功的策略條件所對應(yīng)的策略。本發(fā)明通過URL定位,并且在發(fā)現(xiàn)其中帶有“非”條件的特征時用旁路Bypass機(jī)制跳過非對應(yīng)功能的流量處理,并且對策略條件進(jìn)行了預(yù)編碼,從而針對用戶的上網(wǎng)行為進(jìn)行識別、提取和策略匹配,最終通過執(zhí)行相應(yīng)的策略動作達(dá)到了有效的行為管理。
圖1是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制的系統(tǒng)示意圖;圖2是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制方法的流程圖;圖3是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制的全程關(guān)聯(lián)的示意圖;以及圖4是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制裝置示意圖。
具體實(shí)施方式
下面通過附圖和實(shí)施例,對本發(fā)明的技術(shù)方案做進(jìn)ー步的詳細(xì)描述。為了解決以上問題,本發(fā)明提供了ー套快速、完整的Web特征框架,實(shí)現(xiàn)了對用戶需求的完美覆蓋,其具有下列特征框架中預(yù)設(shè)了ー些基本的功能類型和條件,并因其靈活性,可方便有效地進(jìn)行新功能擴(kuò)展;可對Web功能進(jìn)行精確識別和信息的準(zhǔn)確提取,并能完成策略模塊的快速匹配;同時,支持跨會話(Session)的行為關(guān)聯(lián),從而可以提供全面的行為統(tǒng)計信息;通過URL預(yù)識別可以唯一地確定大部分功能類型,從而避免各功能并行處理中的重復(fù)操作,有效提升處理性能;通過對策略條件的編碼預(yù)處理,以及前面提及的準(zhǔn)確提取,無須實(shí)時解碼即可完成策略條件的匹配過程;通過人工手動識別和智能云端統(tǒng)計反饋兩種方案,從不同角度完善特征更新機(jī)制。圖1是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制的系統(tǒng)示意圖。圖2是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制的方法流程圖。下面,結(jié)合圖1和圖2對用戶Web訪問行為控制的過程進(jìn)行一個詳細(xì)的描述。在步驟201,根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL。在此,URL預(yù)識別是利用URL的全局唯一性來確定相應(yīng)的功能類型,從而避免了多功能重復(fù)操作的問題。特征庫中的URL特征收錄了大量國內(nèi)主流網(wǎng)頁,從而保證了審計準(zhǔn)確性。另外,URL特征還支持網(wǎng)頁黑白名單的控制需求,可在第一時間快速反應(yīng)。在步驟202,根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)ー個或多個特征。例如,可以用HTTP實(shí)體(HTTP Entity)為基礎(chǔ)來進(jìn)行處理,特征庫中的每個URL對應(yīng)的一個或多個特征可以是HTTP實(shí)體的方式,其中,每個HTTP實(shí)體可以包含一個自定義處理函數(shù),以及ー組特征,用于在Web數(shù)據(jù)中搜索該組特征。所述ー組特征的形式可以分為兩種正則表達(dá)式(regex)、普通關(guān)鍵字(keyword),普通關(guān)鍵字對應(yīng)的是多模捜索的方式。自定義處理函數(shù)主要針對缺省處理函數(shù)無法滿足需求或者用戶需要定制功能的情況,以便于擴(kuò)展。應(yīng)當(dāng)指出,HTTP實(shí)體(HTTP Entity)可以分為實(shí)體頭域(Entity Header)和實(shí)體主體(Entity Body),其中,實(shí)體頭域例如包括Cookie、Host等,實(shí)體主體是HTTP請求或響應(yīng)的主體部分,例如包括Request Body、Response Body等。此外,每個特征還可以包含三個屬性行為、條件、自定義(缺省為空)。行為屬性用于表示特征命中后對該流量的行為判定,其用于對之前的URL識別進(jìn)行補(bǔ)充,URL預(yù)識別可以確定功能方向,而行為數(shù)據(jù)可用于對功能類型進(jìn)行細(xì)分,例如將HTTP POST功能細(xì)分為發(fā)帖、評論、回復(fù)等;條件屬性用于表示特征命中后對功能條件的標(biāo)識;自定義屬性可根據(jù)用戶需求定制傳遞額外的信息,它相應(yīng)地需要結(jié)合上面提到的自定義處理函數(shù)一起使用。ー個典型例子是,如果需要在現(xiàn)有的HTTP POST功能中增加網(wǎng)頁投票行為的審計,那么只需將該網(wǎng)頁的URL添加到特征庫,將其功能設(shè)定為“投票”,然后填寫對應(yīng)的投票特征,在其條件屬性中將其定義為“投票選項(xiàng)”即可(還可多選),這樣無需麻煩的二次開發(fā)。特征庫的維護(hù)可以有兩種途徑,包括自定義特征,即將用戶描述的Web行為進(jìn)行定制處理,將定制的特征加入特征庫;云端特征統(tǒng)計,根據(jù)大量反饋信息進(jìn)行特征統(tǒng)計篩選后定期下發(fā),更新特征庫。需要指出,該特征庫在實(shí)現(xiàn)上可以采用XML格式進(jìn)行保存,可以更好地保證其擴(kuò)展性。具體地說,特征庫的維護(hù)可以分為用戶本地的單功能特征更新和云端統(tǒng)計服務(wù)。
一方面,當(dāng)用戶發(fā)現(xiàn)當(dāng)前特征庫無法識別某功能時,或希望修改某功能時,可通過定制方案進(jìn)行更新。即用戶輸入功能名稱、功能條件,然后執(zhí)行一次相應(yīng)的上網(wǎng)行為即可。而在我們的設(shè)備中,會將捕獲到的用戶流量與用戶輸入的功能條件進(jìn)行匹配,當(dāng)命中吋,進(jìn)行相應(yīng)特征提取,最后將相關(guān)特征整理成XML格式合并到系統(tǒng)庫中,這樣便完成了一次更新合并。另ー方面,各設(shè)備可將實(shí)際用戶使用到的特征字段(非用戶信息)定期上傳到云端服務(wù)器,服務(wù)器通過統(tǒng)計概率進(jìn)行特征庫更新,并可定期下發(fā)到各設(shè)備??紤]到概率統(tǒng)計本身的不完整性,這里還需配備適當(dāng)?shù)娜肆ν度耄孕拚@種不足,即當(dāng)發(fā)現(xiàn)有特征沖突吋,通過定制特征方法完成更新。在步驟203,根據(jù)所述特征從所述Web數(shù)據(jù)中調(diào)取與所述特征對應(yīng)的HTTP實(shí)體。例如,如果識別得到的URL對應(yīng)HTTP實(shí)體中的Host,則可以通過統(tǒng)一回調(diào)接ロ從Web數(shù)據(jù)的HTTP實(shí)體中將Host調(diào)取出來。換言之,在特征庫中,特定的URL可以對應(yīng)HTTP實(shí)體中的ー個或多個,當(dāng)Web數(shù)據(jù)對應(yīng)的URL找到之后,根據(jù)其對應(yīng)的特征,將Web數(shù)據(jù)中的ー個或多個HTTP實(shí)體提取出來,以便后續(xù)處理。在步驟204,在所述HTTP實(shí)體中搜索所述特征中的關(guān)鍵字。所述關(guān)鍵字搜索可以采用多模搜索的方式,即包含一組關(guān)鍵字,比如是content/title/…;關(guān)鍵字搜索也可以用正則表達(dá)式的方式,將ー組關(guān)鍵字包含在正則表達(dá)式中。在步驟205,在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容。
在步驟206,將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配。策略條件可以是用戶預(yù)先設(shè)置的針對各功能的條件和動作描述,可以支持用戶(Who)、時間(When)、功能條件(DoWhat)等三個維度的配置,從而全面確保上網(wǎng)行為的精確控制。由于各應(yīng)用的提供者不同,因此其用戶上網(wǎng)信息的傳輸形式往往不太一祥,這主要包括ー些封裝類的格式編碼,如URL編碼、QP編碼、BASE64編碼等。同時,對于中文字符,還可能采用不同的字符集,如UTF8、GB18030、BIG5等。因此,如果不對這些情況加以識別和處理,那么將無法獲取有效的信息。傳統(tǒng)的方案是在運(yùn)行中做實(shí)時譯碼,但這樣耗時過高,性能不佳。為了改善這種現(xiàn)狀,我們采用了“空間換時間”的預(yù)處理,把策略中的關(guān)鍵字條件,按不同的字符集(Character Set),包括UTF8、GB18030、BIG5等、格式編碼(包括URL編碼、QP編碼等)進(jìn)行了擴(kuò)展追加,使得其在運(yùn)行中處理時,無須對上網(wǎng)信息做實(shí)時譯碼,而直接進(jìn)行策略的關(guān)鍵字匹配,從而減少了時間開銷。在步驟207,執(zhí)行匹配成功的策略條件所對應(yīng)的策略。例如,所執(zhí)行的策略行為可以包括記錄和控制(封堵、放行)兩類。應(yīng)當(dāng)指出,在前面提到的特征的行為屬性里,還可設(shè)置“非”條件。一般的功能識另IJ,往往是查看流量中有沒有該功能的關(guān)鍵字。這種方法雖然可以保證功能的有效識別,但對于不是該功能的流量則會浪費(fèi)過多的時間。我們的特征框架支持“非”的關(guān)鍵字屬性,當(dāng)發(fā)現(xiàn)該特征時,流量會被丟棄,從而及時停止后續(xù)無意義的處理流程。例如,對于Host字段帶有“ mail ”特征的情況,那它一定不會是個發(fā)帖行為(通常是郵件行為),這樣我們可以HTTP請求頭(Request Header)直接跳過該流量,而無需一直處理到整個會話(Session)結(jié)束,從而達(dá)到有效節(jié)省時間的目的。簡言之,在步驟205中,當(dāng)捜索命中之后,可以先查看該特征的行為屬性是否帶有預(yù)定標(biāo)志,該標(biāo)志是ー個“非”條件。如果發(fā)現(xiàn)行為屬性帶有預(yù)定的“非”條件標(biāo)志,則直接丟棄該Web數(shù)據(jù),不再進(jìn)行后續(xù)處理。圖3是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制的全程關(guān)聯(lián)的示意圖。對于網(wǎng)絡(luò)管理員來說,常常希望知道用戶上網(wǎng)行為的上下文環(huán)境,或者期待了解其一段時間內(nèi)的行為統(tǒng)計,這樣便于做ー些統(tǒng)籌規(guī)劃。傳統(tǒng)的方案往往是用IP地址進(jìn)行定位和關(guān)聯(lián),但這種方式過于籠統(tǒng)一方面,IP地址可能動態(tài)變化;另ー方面,即使IP地址固定,相同IP地址下也可以登錄不同的賬號,或者相同賬號也可以在不同IP地址下登錄。因此,IP地址無法唯一地確定ー個應(yīng)用賬號。根據(jù)本發(fā)明實(shí)施例,提供了一種可對某個用戶的上網(wǎng)行為進(jìn)行全程關(guān)聯(lián)的方案,即通過用戶自登錄以來由服務(wù)器返回的會話ID (Session ID)來完成全程關(guān)聯(lián)。由于用戶上網(wǎng)所產(chǎn)生的流量可能在不同的會話(Session),甚至不同的TCP連接里,因此需要從應(yīng)用流量中提取ー個合適的關(guān)聯(lián)信息。這里,我們選擇了ー個基于會話(Session)的會話ID (Session ID)的概念。它是用戶從登陸到退出過程中,由服務(wù)器提供的一個臨時不變的ID號,用于基本的認(rèn)證識別和消息映射。因此,可以利用這個ID號對該用戶進(jìn)行定位,具體如下所述。首先,通過用戶登錄流量的特征識別與提取,獲得相應(yīng)的會話ID (SessionID)號,并將其與用戶賬號進(jìn)行關(guān)聯(lián)。在該用戶后續(xù)的諸如郵件、網(wǎng)頁、文件等其他功能操作中,利用該ID可以進(jìn)行有效關(guān)聯(lián)和信息補(bǔ)充。ー個典型的例子是,發(fā)送ー個帶附件的郵件,由于大多數(shù)公共郵箱服務(wù)都會將附件和正文部分分開發(fā)送,因此簡單的基于單會話(Session)的功能處理無法完全獲取這 些相關(guān)信息。而通過會話ID (Session ID)關(guān)聯(lián)之后,這些信息可以相互補(bǔ)充,最終以完整的形式展現(xiàn)給用戶。圖4是根據(jù)本發(fā)明實(shí)施例的用戶Web訪問行為控制裝置示意圖。URL識別模塊根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL。在此,URL預(yù)識別是利用URL的全局唯一性來確定相應(yīng)的功能類型,從而避免了多功能重復(fù)操作的問題。特征庫中的URL特征收錄了大量國內(nèi)主流網(wǎng)頁,從而保證了審計準(zhǔn)確性。另外,URL特征還支持網(wǎng)頁黑白名單的控制需求,可在第一時間快速反應(yīng)。特征查找模塊根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)ー個或多個特征。例如,可以用HTTP實(shí)體為基礎(chǔ)來進(jìn)行處理,特征庫中的每個URL對應(yīng)的一個或多個特征可以是HTTP實(shí)體的方式,其中,每個HTTP實(shí)體可以包含一個自定義處理函數(shù),以及ー組特征,用于在Web數(shù)據(jù)中搜索該組特征。所述ー組特征的形式可以分為兩種正則表達(dá)式(regex)、普通關(guān)鍵字(keyword)。自定義處理函數(shù)主要針對缺省處理函數(shù)無法滿足需求或者用戶需要定制功能的情況,以便于擴(kuò)展。此外,每個特征還可以包含三個屬性行為、條件、自定義(缺省為空)。行為屬性用于表示特征命中后對該流量的行為判定,其要用于對之前的URL識別進(jìn)行補(bǔ)充,并且用于細(xì)分的功能類型,例如將HTTP POST功能細(xì)分為發(fā)帖、評論、回復(fù)等;條件屬性用于表示特征命中后對功能條件的標(biāo)識;自定義屬性可根據(jù)用戶需求定制傳遞額外的信息,它相應(yīng)地需要結(jié)合上面提到的自定義處理函數(shù)一起使用。
ー個典型例子是,如果需要在現(xiàn)有HTTP POST功能中增加網(wǎng)頁投票行為的審計,那么只需將該網(wǎng)頁的URL添加到特征庫,將其功能設(shè)定為“投票”,然后填寫對應(yīng)的投票特征,在其條件屬性中將其定義為“投票選項(xiàng)”即可(還可多選),這樣無需麻煩的二次開發(fā)。特征庫的維護(hù)可以有兩種途徑,包括自定義特征,即將用戶描述的Web行為進(jìn)行定制處理,將定制的特征加入特征庫;云端特征統(tǒng)計,根據(jù)大量反饋信息進(jìn)行特征統(tǒng)計篩選后定期下發(fā),更新特征庫。需要指出,該特征庫在實(shí)現(xiàn)上可以采用了 XML格式進(jìn)行保存,可以更好地保證其擴(kuò)展性。具體地說,特征庫的維護(hù)可以分為用戶本地的單功能特征更新和云端統(tǒng)計服務(wù)。一方面,當(dāng)用戶發(fā)現(xiàn)當(dāng)前特征庫無法識別某功能時,或希望修改某功能時,可通過定制方案進(jìn)行更新。即用戶輸入功能名稱、功能條件,然后執(zhí)行一次相應(yīng)的上網(wǎng)行為即可。而在我們的設(shè)備中,會將捕獲到的用戶流量與用戶輸入的功能條件進(jìn)行匹配,當(dāng)命中吋,進(jìn)行相應(yīng)特征提取,最后將相關(guān)特征整理成XML格式合并到系統(tǒng)庫中,這樣便完成了一次更新合并。另ー方面,各設(shè)備可將實(shí)際用戶使用到的特征字段(非用戶信息)定期上傳到云端服務(wù)器,服務(wù)器通過統(tǒng)計概率進(jìn)行特征庫更新,并可定期下發(fā)到各設(shè)備??紤]到概率統(tǒng)計本身的不完整性,這里還需配備適當(dāng)?shù)娜肆ν度?,以修正這種不足,即當(dāng)發(fā)現(xiàn)有特征沖突吋,通過定制特征方法完成更新。HTTP實(shí)體調(diào)取模塊根據(jù)所述特征從所述Web數(shù)據(jù)中調(diào)取與所述特征對應(yīng)的HTTP實(shí)體。例如,如果識別得到的URL對應(yīng)了 HTTP實(shí)體中的Host,則可以通過統(tǒng)一回調(diào)接ロ從Web數(shù)據(jù)的HTTP實(shí)體中將Host調(diào)取出來。換言之,在特征庫中,特定的URL可以對應(yīng)HTTP實(shí)體中的ー個或多個,當(dāng)Web數(shù)據(jù)對應(yīng)的URL找到之后,根據(jù)其對應(yīng)的特征,將Web數(shù)據(jù)中的ー個或多個HTTP實(shí)體提取出來,以便后續(xù)處理。關(guān)鍵字捜索模塊在所述HTTP實(shí)體中捜索所述特征中的關(guān)鍵字。所述關(guān)鍵字可以是ー組關(guān)鍵字,比如是content/title/…,也可以用正則表達(dá)式的方式,將ー組關(guān)鍵字包含在正則表達(dá)式中。在所述搜索命中之后,內(nèi)容提取模塊根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容。策略條件匹配模塊將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配。策略條件可以是用戶預(yù)先設(shè)置的針對各功能的條件和動作描述,可以支持用戶(Who )、時間(When )、功能條件(Do What)等三個維度的配置,從而全面確保上網(wǎng)行為的精確控制。由于各應(yīng)用的提供者不同,因此其用戶上網(wǎng)信息的傳輸形式往往不太一祥,這主要包括ー些封裝類的格式編碼,如URL編碼、QP編碼、BASE64編碼等。同時,對于中文字符,還可能采用不同的字符集,如UTF8、GB18030、BIG5等。因此,如果不對這些情況加以識別和處理,那么將無法獲取有效的信息。傳統(tǒng)的方案是在運(yùn)行中做實(shí)時譯碼,但這樣耗時過高,性能不佳。為了改善這種現(xiàn)狀,我 們采用了“空間換時間”的預(yù)處理,把策略中的關(guān)鍵字條件,按不同的字符集(Character Set),包括UTF8、GB18030、BIG5等、格式編碼(包括URL編碼、QP編碼等)進(jìn)行了擴(kuò)展追加,使得其在運(yùn)行中處理時,無須對上網(wǎng)信息做實(shí)時譯碼,而直接進(jìn)行策略的關(guān)鍵字匹配,從而減少了時間開銷。
策略執(zhí)行模塊執(zhí)行匹配成功的策略條件所對應(yīng)的策略。例如,所執(zhí)行的策略行為可以包括記錄和控制(封堵、放行)兩類。應(yīng)當(dāng)指出,在前面提到的特征的行為屬性里,還可設(shè)置“非”條件。一般的功能識另IJ,往往是查看流量中有沒有該功能的關(guān)鍵字。這種方法雖然可以保證功能的有效識別,但對于不是該功能的流量則會浪費(fèi)過多的時間。我們的特征框架支持“非”的關(guān)鍵字屬性,當(dāng)發(fā)現(xiàn)該特征時,流量會被丟棄,從而及時停止后續(xù)無意義的處理流程。例如,對于Host字段帶有“ mail ”特征的情況,那它一定不會是個發(fā)帖行為(通常是郵件行為),這樣我們可以HTTP請求頭(Request Header)直接跳過該流量,而無需一直處理到整個會話(Session)結(jié)束,從而達(dá)到有效節(jié)省時間的目的。簡言之,當(dāng)關(guān)鍵字搜索模塊的搜索命中之后,可以先查看該特征的行為屬性是否帶有預(yù)定標(biāo)志,該標(biāo)志是ー個“非”條件。如果發(fā)現(xiàn)行為屬性帶有預(yù)定的“非”條件標(biāo)志,則直接丟棄該Web數(shù)據(jù),不再進(jìn)行后續(xù)處理。專業(yè)人員應(yīng)該還可以進(jìn)ー步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的単元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程·ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。以上所述的具體實(shí)施方式
,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)ー步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式
而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種用戶Web訪問行為控制方法,包括 根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL ; 根據(jù)所述統(tǒng)一資源定位符URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)一個或多個特征; 根據(jù)所述特征調(diào)取與所述特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從所述Web數(shù)據(jù)中解析出來的; 在所述HTTP實(shí)體中搜索所述特征中的關(guān)鍵字; 在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容; 將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;以及 執(zhí)行匹配成功的策略條件所對應(yīng)的策略。
2.根據(jù)權(quán)利要求1所述的方法,還包括 所述關(guān)鍵字的搜索是通過正則表達(dá)式和/或多模搜索來進(jìn)行的。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述特征還包括行為屬性,所述方法還包括 在所述搜索命中后并且在提取內(nèi)容之前,先查看所述特征的行為屬性是否帶有預(yù)定標(biāo)志,如果帶有預(yù)定標(biāo)志,則直接將所述Web數(shù)據(jù)丟棄,不進(jìn)行后續(xù)處理。
4.根據(jù)權(quán)利要求1所述的方法,還包括 根據(jù)所述Web數(shù)據(jù)獲取相應(yīng)的會話ID ; 將所述會話ID與用戶的登錄賬戶進(jìn)行關(guān)聯(lián); 利用所述關(guān)聯(lián)獲取用戶在所述登錄賬戶下的各種上網(wǎng)行為的信息。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述策略條件用多個字符集和格式編碼進(jìn)行了預(yù)先編碼。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述字符集包括UTF8、GB18030、BIG5中的一個或多個,所述格式編碼包括URL編碼或QP編碼。
7.根據(jù)權(quán)利要求1所述的方法,所述特征庫中的特征是XML格式。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述HTTP實(shí)體包括實(shí)體頭域和實(shí)體主體。
9.一種用戶Web訪問行為控制裝置,包括 統(tǒng)一資源定位符URL識別模塊,用于根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL ;特征查找模塊,用于根據(jù)所述URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,所述特征庫包含多個URL,每個URL對應(yīng)一個或多個特征; HTTP實(shí)體調(diào)取模塊,用于根據(jù)所述特征調(diào)取與所述特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從所述Web數(shù)據(jù)中解析出來的; 關(guān)鍵字搜索模塊,用于在所述HTTP實(shí)體中搜索所述特征中的關(guān)鍵字; 內(nèi)容提取模塊,用于在所述搜索命中之后,根據(jù)所述特征的條件屬性在所述HTTP實(shí)體中提取與所述關(guān)鍵字對應(yīng)的內(nèi)容; 策略條件匹配模塊,用于將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;以及 策略執(zhí)行模塊,用于執(zhí)行匹配成功的策略條件所對應(yīng)的策略。
10.一種網(wǎng)關(guān),包括如權(quán)利要求9所述的一種用戶Web訪問行為控制裝置。
全文摘要
本發(fā)明涉及一種用戶Web訪問行為控制方法及裝置,該方法包括根據(jù)用戶的Web數(shù)據(jù)識別出其對應(yīng)的URL;根據(jù)URL在預(yù)先建立的特征庫中找到對應(yīng)的特征,特征庫包含多個URL,每個URL對應(yīng)一個或多個特征;根據(jù)特征調(diào)取與特征對應(yīng)的HTTP實(shí)體,所述HTTP實(shí)體是預(yù)先按照HTTP協(xié)議特征從Web數(shù)據(jù)中解析出來的;在HTTP實(shí)體中搜索特征中的關(guān)鍵字;在搜索命中后根據(jù)特征的條件屬性在HTTP實(shí)體中提取與關(guān)鍵字對應(yīng)的內(nèi)容;將提取出的內(nèi)容與預(yù)定的策略條件進(jìn)行匹配;執(zhí)行匹配成功的策略條件所對應(yīng)的策略。本發(fā)明通過URL定位,用Bypass機(jī)制跳過非對應(yīng)功能的流量處理,并且對策略條件進(jìn)行了預(yù)編碼,從而針對用戶的上網(wǎng)行為進(jìn)行識別、提取和策略匹配,最終通過執(zhí)行相應(yīng)的策略動作達(dá)到了有效的行為管理。
文檔編號H04L29/06GK103036910SQ20131000258
公開日2013年4月10日 申請日期2013年1月5日 優(yōu)先權(quán)日2013年1月5日
發(fā)明者周陽, 劉巖, 曹政, 張瑞娟, 范立磊 申請人:北京網(wǎng)康科技有限公司