專利名稱:一種識別統(tǒng)一資源定位符主鏈接的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息管理領(lǐng)域中的信息解析及分析技術(shù),尤其涉及一種識別統(tǒng)一資源定位符(URL, Uniform Resource Locator)主鏈接的方法及裝置。
背景技術(shù):
當(dāng)用戶使用客戶端訪問網(wǎng)址時(shí),客戶端通過對該網(wǎng)址進(jìn)行解析得到多個URL鏈接,再向服務(wù)器發(fā)出多條獲取URL鏈接·的超文本傳送協(xié)議(HTTP, Hypertext TransportProtocol)請求即URL請求;該客戶端根據(jù)服務(wù)器返回的內(nèi)容進(jìn)行渲染并顯示。上述過程中,用戶使用客戶端訪問每一個網(wǎng)址,會發(fā)出很多條獲取URL鏈接的HTTP請求,而對用戶的上網(wǎng)行為進(jìn)行分析時(shí),僅關(guān)心URL主鏈接即用戶所要訪問的主頁對應(yīng)的URL鏈接,其余的HTTP請求所請求的URL鏈接作為附屬鏈接或作為垃圾信息過濾。因此,需要對URL主鏈接進(jìn)行識別,才能準(zhǔn)確的分析用戶的上網(wǎng)行為。目前,識別URL主鏈接的方法為當(dāng)客戶端在線時(shí),對客戶端發(fā)出的HTTP請求的頭信息中的指定域進(jìn)行過濾,或使用啟發(fā)式算法對指定域(例如=URL后綴、內(nèi)容類型、時(shí)間序列或內(nèi)容大小等)進(jìn)行過濾,得到URL主鏈接。但是,上述對HTTP請求的頭信息中的指定域進(jìn)行過濾的方法,不是針對頁面內(nèi)容進(jìn)行的過濾,且HTTP請求的頭信息無法提供足夠的信息量進(jìn)行頁面分類,所以該方法的準(zhǔn)確性較低,比如使用內(nèi)容類型為“text/html”作為指定域時(shí),結(jié)果可能會是多個URL鏈接。另外,由于啟發(fā)式算法為使用最優(yōu)算法求得最優(yōu)解,且啟發(fā)式算法為對單一對象進(jìn)行計(jì)算的方法,所以會出現(xiàn)在特定條件下算法失效的問題,比如,當(dāng)啟發(fā)式算法中設(shè)定的識別準(zhǔn)則是內(nèi)容類型為“text/html”時(shí),若用戶點(diǎn)擊圖片,則該算法會失效,進(jìn)而無法保證識別URL主鏈接的準(zhǔn)確性??梢?,現(xiàn)有的識別URL主鏈接的方法,識別URL主鏈接的準(zhǔn)確性較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種識別URL主鏈接的方法及裝置,提高識別URL主鏈接的準(zhǔn)確性。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的本發(fā)明提供了一種識別URL主鏈接的方法,該方法包括利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得同主鏈突發(fā)分組;分別對同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中;根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則進(jìn)行合并,得到新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。
上述方案中,所述根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),包括按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接。上述方案中,所述根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接,包括建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā);若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。上述方案中,所述對突發(fā)進(jìn)行分組獲得同主鏈突發(fā)分組,包括建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的參考主鏈接相同的所有突發(fā),加入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。上述方案中,所述合并準(zhǔn)則,包括從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立一條新的關(guān)聯(lián)規(guī)則,新的關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度;·
其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同;所述支持度為所有選出的關(guān)聯(lián)規(guī)則支持度之和;所述置信度為將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除所有選出的關(guān)聯(lián)規(guī)則的支持度之和。上述方案中,所述根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對,包括選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。本發(fā)明還提供了一種識別URL主鏈接的裝置,該裝置包括鏈接分組模塊和關(guān)聯(lián)規(guī)則分析模塊;其中,鏈接分組模塊,用于利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得主鏈突發(fā)分組,將全部所述同主鏈突發(fā)分組發(fā)給關(guān)聯(lián)規(guī)則分析模塊;關(guān)聯(lián)規(guī)則分析模塊,用于分別對鏈接分組模塊發(fā)來的同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中,根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則進(jìn)行合并,得到新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。上述方案中,所述鏈接分組模塊,具體用于按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接。上述方案中,所述鏈接分組模塊,具體用于建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā);若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。上述方案中,所述鏈接分組模塊,具體用于建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的參考主鏈接相同的所有突發(fā),加入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。上述方案中,所述關(guān)聯(lián)規(guī)則分析模塊,具體用于根據(jù)合并準(zhǔn)則從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立一條新的關(guān)聯(lián)規(guī)則,新的關(guān) 聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度;其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同;所述支持度為所有選出的關(guān)聯(lián)規(guī)則支持度之和;所述置信度為將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除所有選出的關(guān)聯(lián)規(guī)則的支持度之和。上述方案中,所述關(guān)聯(lián)規(guī)則分析模塊,具體用于選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。本發(fā)明所提供的識別URL主鏈接的方法及裝置,能使用關(guān)聯(lián)規(guī)則的分析算法,分別對根據(jù)HTTP請求得到的同主鏈突發(fā)分組的所有URL鏈接進(jìn)行分析,得到關(guān)聯(lián)規(guī)則后,根據(jù)合并準(zhǔn)則得到新的關(guān)聯(lián)規(guī)則,再根據(jù)置信度門限及支持度門限對新的關(guān)聯(lián)規(guī)則進(jìn)行篩選,最終得到URL主鏈接及其附屬鏈接對;由于關(guān)聯(lián)規(guī)則的分析算法利用多項(xiàng)內(nèi)容之間的關(guān)系作為分析算法的基礎(chǔ),因此比現(xiàn)有技術(shù)中對單一對象進(jìn)行計(jì)算的方法更為準(zhǔn)確,因此本發(fā)明具有更為準(zhǔn)確的識別結(jié)果。另外,本發(fā)明還能通過選取指定時(shí)間段內(nèi)加入的關(guān)聯(lián)規(guī)則、以及控制支持度門限和置信度門限,提高最終得到URL主鏈接及其附屬鏈接對的準(zhǔn)確性。
圖I為本發(fā)明的識別URL主鏈接的方法流程示意圖;圖2為本發(fā)明的識別URL主鏈接的裝置組成結(jié)構(gòu)示意圖。
具體實(shí)施例方式本發(fā)明的基本思想是利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),并確定各個突發(fā)的參考主鏈接;根據(jù)參考主鏈接對突發(fā)進(jìn)行分組,獲得一個或多個同主鏈突發(fā)分組;分別對同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到一條或多條關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中;從知識庫的選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則,根據(jù)合并準(zhǔn)則,對選出的所有關(guān)聯(lián)規(guī)則中具有相同備選主鏈接和不定鏈接的關(guān)聯(lián)規(guī)則合并得到多條新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。下面結(jié)合附圖及具體實(shí)施例對本發(fā)明再作進(jìn)一步詳細(xì)的說明。本發(fā)明提供的一種識別URL主鏈接的方法,如圖I所示,包括以下步驟
步驟101 :利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),并確定各個突發(fā)的參考主鏈接。這里,所述突發(fā)由從發(fā)出HTTP請求到完成訪問之間的所有URL鏈接組成;所述HTTP請求,其編寫格式及內(nèi)容均為現(xiàn)有技術(shù),這里不做贅述;所述采集為獲取一個或多個客戶端發(fā)出的全部HTTP請求;所述指定時(shí)長為根據(jù)實(shí)際情況指定,比如可以指定為一小時(shí)。所述根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā)為按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接;其中,所述根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接為建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā);若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。所述間隔門限為根據(jù)實(shí)際情況預(yù)先設(shè)置的時(shí)間門限值,比如,可以設(shè)置為200ms ;所述突發(fā)可以將建立順序作為突發(fā)的編號。步驟102 :根據(jù)參考主鏈接對突發(fā)進(jìn)行分組,獲得一個或多個同主鏈突發(fā)組。這里,所述根據(jù)參考主鏈接為各個突發(fā)進(jìn)行分組為建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的參考主鏈接相同的所有突發(fā),加入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。其中,所述選取一個突發(fā)可以為任意選取,也可以為按照各個突發(fā)的建立順序現(xiàn)有,選擇最先建立的突發(fā)。步驟103 :分別對同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到一條或多條關(guān)聯(lián)規(guī)貝U,將所有關(guān)聯(lián)規(guī)則保存在知識庫中。這里,所述關(guān)聯(lián)規(guī)則的分析算法為現(xiàn)有技術(shù),比如,可以選用Apriori算法,這里不做贅述;所述關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度、置信度和時(shí)間;其中,前項(xiàng)作備選主鏈接;后項(xiàng)為不定鏈接;支持度為該批數(shù)據(jù)中前項(xiàng)出現(xiàn)的次數(shù);置信度為百分比;支持度乘以置信度表示當(dāng)前項(xiàng)出現(xiàn)的情況下,后項(xiàng)出現(xiàn)的次數(shù);時(shí)間記錄該條關(guān)聯(lián)規(guī)則建立的具體時(shí)間;所述知識庫為專用于保存關(guān)聯(lián)規(guī)則的存儲空間。步驟104 :根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則進(jìn)行合并,得到多條新的關(guān)聯(lián)規(guī)則。這里,所述指定時(shí)間段內(nèi)為根據(jù)實(shí)際情況選定的時(shí)間段,比如,可以指定時(shí)間段過去半年內(nèi);所述選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則為選出建立時(shí)間處于指定時(shí)間段內(nèi)的所有關(guān)聯(lián)規(guī)則;所述合并準(zhǔn)則為從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,將選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立合并為一條新的關(guān)聯(lián)規(guī)則,新的關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度;其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同,所述支持度為各個所有選出的關(guān)聯(lián)規(guī)則支持度之和,所述置信度為各個將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除各個所有選出的 關(guān)聯(lián)規(guī)則的支持度之和;比如,假設(shè)兩條可合并為一條的關(guān)聯(lián)規(guī)則分別為Rule A和Rule B,其中Rule A表示為〈前項(xiàng)A、后項(xiàng)A、支持度A、置信度A、時(shí)間A>,RuleB表示為〈前項(xiàng)B、后項(xiàng)B、支持度B、置信度B、時(shí)間B〉,新的關(guān)聯(lián)規(guī)則為Rule C表示為〈前項(xiàng)C、后項(xiàng)C、支持度C、置信度C〉;
則Rule C中的前項(xiàng)C與前項(xiàng)A或前項(xiàng)B相同,后項(xiàng)C與后項(xiàng)A或后項(xiàng)B相同,支持度C=支持度A+支持度B,置信度C=(支持度AX置信度A+支持度BX置信度B)/(支持度A+支持度B)。執(zhí)行步驟104之前,還可以包括由用戶選擇是否開始對知識庫的關(guān)聯(lián)規(guī)則進(jìn)行分析,若開始,則執(zhí)行步驟104。步驟105 :根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。這里,所述支持度門限為根據(jù)實(shí)際需求,由管理人員設(shè)置的門限值;所述置信度門限為根據(jù)實(shí)際情況,由管理人員設(shè)置的門限值;本步驟具體為選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。另外,上述步驟105完成后,可以根據(jù)預(yù)置的周期,周期性的返回執(zhí)行101,比如,可以將周期設(shè)置為一天,則步驟105完成后,一天之后,再次執(zhí)行步驟101 ;也可以為根據(jù)實(shí)際情況,由管理人員控制再次執(zhí)行步驟101。進(jìn)一步的,步驟105完成后,管理人員可以利用得到的URL主鏈接,使用現(xiàn)有技術(shù)對用戶上網(wǎng)行為進(jìn)行審計(jì)和分析,這里不做贅述。本發(fā)明提出一種識別URL主鏈接的裝置,如圖2所示,包括鏈接分組模塊21和關(guān)聯(lián)規(guī)則分析模塊22;其中,鏈接分組模塊21,用于利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得主鏈突發(fā)分組,將全部所述同主鏈突發(fā)分組發(fā)送給關(guān)聯(lián)規(guī)則分析模塊22 ;關(guān)聯(lián)規(guī)則分析模塊22,用于分別對鏈接分組模塊21發(fā)來的同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到一條或多條關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中,從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則,根據(jù)合并準(zhǔn)則,對選出的所有關(guān)聯(lián)規(guī)則中具有相同備選主鏈接和不定鏈接的關(guān)聯(lián)規(guī)則合并得到多條新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。所述鏈接分組模塊21,還用于通過所在網(wǎng)絡(luò)設(shè)備獲取一個或多個客戶端發(fā)出的全部HTTP請求。所述鏈接分組模塊21,具體用于按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接。所述鏈接分組模塊21,具體用于建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā);若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。所述鏈接分組模塊21,具體用于建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的 參考主鏈接相同的所有突發(fā),加入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。所述關(guān)聯(lián)規(guī)則分析模塊22,具體用于從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,將選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立合并為一條新的關(guān)聯(lián)規(guī)則,新的關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度;其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同,所述支持度為各個所有選出的關(guān)聯(lián)規(guī)則支持度之和,所述置信度為各個將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除各個所有選出的關(guān)聯(lián)規(guī)則的支持度之和。所述關(guān)聯(lián)規(guī)則分析模塊22,具體用于選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。所述關(guān)聯(lián)規(guī)則分析模塊22,具體用于當(dāng)用戶選擇開始對知識庫的關(guān)聯(lián)規(guī)則進(jìn)行分析時(shí),從知識庫的選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則,根據(jù)合并準(zhǔn)則,對選出的所有關(guān)聯(lián)規(guī)則中具有相同備選主鏈接和不定鏈接的關(guān)聯(lián)規(guī)則合并得到多條新的關(guān)聯(lián)規(guī)則。本發(fā)明提供的識別URL主鏈接的裝置可以作為邏輯單元,靈活選擇安裝于客戶端或局域網(wǎng)中處于出口位置的網(wǎng)絡(luò)設(shè)備中。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種識別統(tǒng)一資源定位符URL主鏈接的方法,其特征在于,該方法包括 利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部超文本傳送協(xié)議HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得同主鏈突發(fā)分組; 分別對同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中; 根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則進(jìn)行合并,得到新的關(guān)聯(lián)規(guī)則; 根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),包括按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接,包括 建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā); 若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述對突發(fā)進(jìn)行分組獲得同主鏈突發(fā)分組,包括建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的參考主鏈接相同的所有突發(fā),力口入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述合并準(zhǔn)則,包括從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立一條新的關(guān)聯(lián)規(guī)則,新的關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度; 其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同;所述支持度為所有選出的關(guān)聯(lián)規(guī)則支持度之和;所述置信度為將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除所有選出的關(guān)聯(lián)規(guī)則的支持度之和。
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對,包括選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。
7.一種識別URL主鏈接的裝置,其特征在于,該裝置包括鏈接分組模塊和關(guān)聯(lián)規(guī)則分析模塊;其中, 鏈接分組模塊,用于利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部HTTP請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得主鏈突發(fā)分組,將全部所述同主鏈突發(fā)分組發(fā)給關(guān)聯(lián)規(guī)則分析模塊; 關(guān)聯(lián)規(guī)則分析模塊,用于分別對鏈接分組模塊發(fā)來的同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中,根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則進(jìn)行合并,得到新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述鏈接分組模塊,具體用于按照不同的客戶端將HTTP請求分組,對各組HTTP請求、根據(jù)間隔門限建立由URL鏈接組成的一個或多個突發(fā),并確定各個突發(fā)的參考主鏈接。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述鏈接分組模塊,具體用于建立一個突發(fā)作為當(dāng)前突發(fā),以HTTP請求的發(fā)出時(shí)間為順序,將第一個HTTP請求中的URL鏈接作為當(dāng)前突發(fā)的參考主鏈接,再逐個檢測是否存在連續(xù)兩個HTTP請求之間的間隔時(shí)間高于間隔門限,若沒有,則將所述連續(xù)兩個HTTP請求中的URL鏈接均加入當(dāng)前突發(fā);若有,則將所述連續(xù)兩個HTTP請求中的前一個加入當(dāng)前突發(fā)后,新建立一個突發(fā)作為當(dāng)前突發(fā),將所述連續(xù)兩個HTTP請求中的后一個作為當(dāng)前突發(fā)的參考主鏈接加入所述當(dāng)前突發(fā);依次類推,直至本組內(nèi)所有HTTP請求均完成檢測。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述鏈接分組模塊,具體用于建立一個當(dāng)前同主鏈突發(fā)組,選取一個突發(fā)加入當(dāng)前同主鏈突發(fā)組,從剩余的所有突發(fā)中,選取與所述加入當(dāng)前同主鏈突發(fā)組中的突發(fā)的參考主鏈接相同的所有突發(fā),加入當(dāng)前同主鏈突發(fā)組;依次類推,直至沒有剩余突發(fā)為止。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述關(guān)聯(lián)規(guī)則分析模塊,具體用于根據(jù)合并準(zhǔn)則從指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則中,選出具有相同的前項(xiàng)及后項(xiàng)的關(guān)聯(lián)規(guī)則,建立一條新的關(guān)聯(lián)規(guī)則,新的關(guān)聯(lián)規(guī)則包括前項(xiàng)、后項(xiàng)、支持度和置信度; 其中,所述前項(xiàng)及后項(xiàng)與選出的關(guān)聯(lián)規(guī)則相同;所述支持度為所有選出的關(guān)聯(lián)規(guī)則支持度之和;所述置信度為將每個選出的關(guān)聯(lián)規(guī)則的支持度乘以置信度后相加之和、除所有選出的關(guān)聯(lián)規(guī)則的支持度之和。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述關(guān)聯(lián)規(guī)則分析模塊,具體用于選取支持度高于支持度門限、且置信度高于置信度門限的所有新的關(guān)聯(lián)規(guī)則,分別將選取出的各個新的關(guān)聯(lián)規(guī)則中的前項(xiàng)作為URL主鏈接、后項(xiàng)作為該URL主鏈接的附屬連接。
全文摘要
本發(fā)明公開了一種識別統(tǒng)一資源定位符(URL)主鏈接的方法,包括利用采集到的指定時(shí)長內(nèi)所有客戶端發(fā)出的全部超文本傳送協(xié)議(HTTP)請求,根據(jù)間隔門限獲取各個客戶端對應(yīng)的突發(fā),對突發(fā)進(jìn)行分組獲得同主鏈突發(fā)分組;分別對同主鏈突發(fā)組運(yùn)行關(guān)聯(lián)規(guī)則的分析算法得到關(guān)聯(lián)規(guī)則,將所有關(guān)聯(lián)規(guī)則保存在知識庫中;根據(jù)合并準(zhǔn)則,對從知識庫選出指定時(shí)間段內(nèi)所有的關(guān)聯(lián)規(guī)則合并,得到新的關(guān)聯(lián)規(guī)則;根據(jù)支持度門限、置信度門限及新的關(guān)聯(lián)規(guī)則,得到多個URL主鏈接及其附屬鏈接對。本發(fā)明還同時(shí)公開了一種識別URL主鏈接的裝置,采用本發(fā)明能提高識別URL主鏈接的準(zhǔn)確性。
文檔編號H04L29/06GK102932400SQ20121025395
公開日2013年2月13日 申請日期2012年7月20日 優(yōu)先權(quán)日2012年7月20日
發(fā)明者賈晉康, 齊燕博, 張永臣 申請人:北京網(wǎng)康科技有限公司