一種信息處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及網(wǎng)絡(luò)的管理和安全技術(shù)領(lǐng)域,尤其設(shè)及一種信息處理方法及裝置。
【背景技術(shù)】
[0002] 目前,上網(wǎng)行為管理設(shè)備能夠通過(guò)對(duì)用戶(hù)上網(wǎng)流量的審計(jì)得到用戶(hù)的網(wǎng)頁(yè)訪(fǎng)問(wèn)日 志,其獲取網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的原理通常是對(duì)用戶(hù)的網(wǎng)絡(luò)協(xié)議(InternetProtocol,I巧報(bào)文進(jìn) 行解析和重組,得到用戶(hù)超文本傳輸協(xié)議(HTTP,HyperText化ansferProtocol)請(qǐng)求和 應(yīng)答中的各種信息。每一條網(wǎng)頁(yè)訪(fǎng)問(wèn)日志記錄有一個(gè)特定用戶(hù)對(duì)一個(gè)特定統(tǒng)一資源定位符 (UniformResourceLocator,URL)的訪(fǎng)問(wèn)信息。
[0003] 但是,當(dāng)使用網(wǎng)頁(yè)訪(fǎng)問(wèn)日志對(duì)用戶(hù)行為進(jìn)行分析時(shí),會(huì)面臨噪聲問(wèn)題;而去除噪 聲,識(shí)別用戶(hù)實(shí)際網(wǎng)頁(yè)訪(fǎng)問(wèn)行為,是進(jìn)行后續(xù)用戶(hù)行為分析的基礎(chǔ)。噪聲來(lái)自幾個(gè)方面:
[0004] 1.用戶(hù)訪(fǎng)問(wèn)某個(gè)頁(yè)面時(shí),其點(diǎn)擊動(dòng)作是針對(duì)運(yùn)個(gè)頁(yè)面的主U化,會(huì)觸發(fā)對(duì)主U化的 請(qǐng)求。但進(jìn)一步的,瀏覽器在收到主U化的應(yīng)答后會(huì)發(fā)起對(duì)主頁(yè)面所引用的各種內(nèi)部資源 (如圖標(biāo)和圖片)和外部資源(如廣告)的請(qǐng)求。運(yùn)些針對(duì)資源U化的請(qǐng)求也會(huì)被上網(wǎng)行 為管理設(shè)備審計(jì)下來(lái),作為網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的一部分。通常大型網(wǎng)站的每次訪(fǎng)問(wèn)都會(huì)產(chǎn)生數(shù) 十甚至上百條網(wǎng)頁(yè)訪(fǎng)問(wèn)日志,但其中只有一條代表了用戶(hù)的真實(shí)行為。 陽(yáng)〇化]2.當(dāng)用戶(hù)訪(fǎng)問(wèn)某個(gè)頁(yè)面后未關(guān)閉瀏覽器時(shí),頁(yè)面中的腳本會(huì)自動(dòng)產(chǎn)生屯、跳、狀態(tài) 更新等請(qǐng)求,運(yùn)些請(qǐng)求同樣會(huì)產(chǎn)生網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[0006] 3.某些軟件,例如殺毒軟件和終端管理軟件,使用HTTP協(xié)議與應(yīng)用服務(wù)器進(jìn)行通 訊,W支持升級(jí)等業(yè)務(wù);類(lèi)似運(yùn)種軟件的自動(dòng)行為也會(huì)產(chǎn)生網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[0007] 現(xiàn)有技術(shù)中,通常利用HTTP請(qǐng)求(request)及其響應(yīng)(response)中的字段內(nèi)容 進(jìn)行噪聲判斷。例如,利用瀏覽器填寫(xiě)acceptO字段的規(guī)律、請(qǐng)求和應(yīng)答中的內(nèi)容類(lèi)型 (^contenttype)等進(jìn)行噪聲判斷。但是,根據(jù)RFC(RequestForComments, -系列W編號(hào) 排定的文件)等標(biāo)準(zhǔn),上述字段的取值并無(wú)強(qiáng)制約束,完全由軟件的實(shí)現(xiàn)者進(jìn)行定義,因此 無(wú)法從根本上體現(xiàn)發(fā)起方是用戶(hù)還是軟件。即使由于瀏覽器的實(shí)現(xiàn)、請(qǐng)求和應(yīng)答的內(nèi)容存 在一定的規(guī)律,但隨著版本不斷更新,運(yùn)種規(guī)律也很可能不再有效。另外,能夠發(fā)起HTTP請(qǐng) 求的并非只有瀏覽器,使用上述方法也難W對(duì)各種各樣的軟件進(jìn)行有效覆蓋。
【發(fā)明內(nèi)容】
[0008] 有鑒于此,本發(fā)明的主要目的在于提供一種信息處理方法及裝置,能準(zhǔn)確識(shí)別用 戶(hù)的實(shí)際訪(fǎng)問(wèn)行為。
[0009] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案是運(yùn)樣實(shí)現(xiàn)的:
[0010] 本發(fā)明提供了一種信息處理方法,所述方法包括:
[0011] 從N個(gè)采樣點(diǎn)的上網(wǎng)行為審計(jì)設(shè)備收集網(wǎng)頁(yè)訪(fǎng)問(wèn)日志;其中,N為正整數(shù);
[0012] 按照第一預(yù)定周期對(duì)所述網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的域名進(jìn)行歸類(lèi)和分析,生成域名分類(lèi)信 息;
[0013] 獲取來(lái)自第一用戶(hù)的上網(wǎng)行為審計(jì)設(shè)備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志;
[0014] 按照第二預(yù)定周期,并基于域名分類(lèi)信息對(duì)所述來(lái)自第一用戶(hù)的上網(wǎng)行為審計(jì)設(shè) 備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志進(jìn)行分析,W識(shí)別用于表征第一用戶(hù)的真實(shí)訪(fǎng)問(wèn)行為的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[0015] 上述方案中,優(yōu)選地,所述按照第一預(yù)定周期對(duì)所述網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的域名進(jìn)行歸 類(lèi)和分析,生成域名分類(lèi)信息,包括:
[0016] 對(duì)訪(fǎng)問(wèn)同一域名的所有日志,
[0017] 檢查日志的數(shù)量是否超過(guò)第一口限,若沒(méi)有超過(guò)第一 口限,則退出分析;
[0018] 若超過(guò)第一口限,則檢查所述所有日志中發(fā)起訪(fǎng)問(wèn)的用戶(hù)數(shù)是否超過(guò)第二口限, 若沒(méi)有超過(guò)第二口限,則退出分析;
[0019] 若超過(guò)第二口限,則檢查各日志的主題字段中是否包含異常字段,并將主題字段 中包含有異常字段的日志排除;
[0020] 計(jì)算包含有效主題的日志的比例,若包含有效主題的日志的比例超過(guò)第S口限, 計(jì)算所有包含有效主題的日志中主題長(zhǎng)度權(quán)重的分布,若主題長(zhǎng)度權(quán)重的加權(quán)平均數(shù)超過(guò) 第四口限,計(jì)算所述所有包含有效主題的日志中主題的信息量,若信息量超過(guò)第五口限,貝U 判定域名為內(nèi)容類(lèi)域名;
[0021] 否則,若包含有效主題的日志的比例未超過(guò)第=口限,或若主題長(zhǎng)度權(quán)重的加權(quán) 平均數(shù)未超過(guò)第四口限,或若信息量未超過(guò)第五口限,則判定域名為資源類(lèi)域名。
[0022] 上述方案中,優(yōu)選地,所述按照第二預(yù)定周期,并基于域名分類(lèi)信息對(duì)所述來(lái)自第 一用戶(hù)的上網(wǎng)行為審計(jì)設(shè)備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志進(jìn)行分析,包括:
[0023] 基于域名分類(lèi)信息對(duì)來(lái)自第一用戶(hù)的上網(wǎng)行為審計(jì)設(shè)備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的域名 進(jìn)行分析,將網(wǎng)頁(yè)訪(fǎng)問(wèn)日志劃分為對(duì)內(nèi)容類(lèi)域名的訪(fǎng)問(wèn)和對(duì)資源類(lèi)域名的訪(fǎng)問(wèn);
[0024] 對(duì)訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志進(jìn)行主題信息分析,查找出屬于第一用戶(hù)的訪(fǎng)問(wèn)行為的 日志;
[0025] 對(duì)訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志進(jìn)行時(shí)序分析,查找出屬于第一用戶(hù)的訪(fǎng)問(wèn)行為的日 志;
[0026] 對(duì)于屬于第一用戶(hù)的訪(fǎng)問(wèn)行為的日志,基于U化進(jìn)行周期性分析,判斷是否具有 周期性特征,如果具有,則作為噪聲清洗;
[0027] 對(duì)于經(jīng)過(guò)周期性分析后仍被判定為第一用戶(hù)的訪(fǎng)問(wèn)行為的日志,基于域名進(jìn)行訪(fǎng) 問(wèn)頻率分析,判斷訪(fǎng)問(wèn)頻率是否超過(guò)第六口限,如果超過(guò),則作為噪聲清洗;
[0028] 將經(jīng)過(guò)頻率分析后仍被判定為第一用戶(hù)的訪(fǎng)問(wèn)行為的日志,確定為第一用戶(hù)的真 實(shí)訪(fǎng)問(wèn)行為。
[0029] 上述方案中,優(yōu)選地,所述對(duì)訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志進(jìn)行時(shí)序分析,查找出屬于第 一用戶(hù)的訪(fǎng)問(wèn)行為的日志,包括:
[0030] 對(duì)訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志,
[0031] 計(jì)算主題的加權(quán)長(zhǎng)度;
[0032] 計(jì)算主題的信息量;
[0033] 將加權(quán)長(zhǎng)度和信息量均大于相應(yīng)的口限值的日志判定為屬于第一用戶(hù)的訪(fǎng)問(wèn)行 為的日志。
[0034] 上述方案中,優(yōu)選地,所述對(duì)訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志進(jìn)行時(shí)序分析,包括:
[0035] 按照網(wǎng)站名稱(chēng)對(duì)所述訪(fǎng)問(wèn)內(nèi)容類(lèi)域名的日志進(jìn)行分類(lèi);
[0036] 對(duì)每一類(lèi)中的所有日志,按照時(shí)間進(jìn)行排序,并對(duì)排序后的日志按照預(yù)設(shè)規(guī)則劃 分集合;
[0037] 根據(jù)集合中的域名類(lèi)型、U化信息、主題信息、化及日志數(shù)量,在符合時(shí)序模型的集 合中選定日志,作為第一用戶(hù)的真實(shí)訪(fǎng)問(wèn)行為的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[003引上述方案中,優(yōu)選地,所述根據(jù)集合中的域名類(lèi)型、U化信息、主題信息、W及日志 數(shù)量,在符合時(shí)序模型的集合中選定日志,作為第一用戶(hù)的真實(shí)訪(fǎng)問(wèn)行為的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志, 包括:
[0039] 對(duì)于集合內(nèi)的日志,根據(jù)U化進(jìn)行去重處理; W40] 判斷是否存在已被判定為第一用戶(hù)的訪(fǎng)問(wèn)行為的日志;
[0041]如果存在,將集合中其他日志作為噪音清洗;
[0042] 如果不存在,獲取集合中日志的數(shù)量;如果日志的數(shù)量未超出第一闊值,將集合中 日志作為噪音清洗;如果超出第一闊值,將集合中起始的日志判定為表征第一用戶(hù)的真實(shí) 訪(fǎng)問(wèn)行為的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[0043] 本發(fā)明還提供了一種信息處理裝置,所述裝置包括收集模塊、域名分類(lèi)模塊、獲取 模塊和日志分析模塊;其中,
[0044] 所述收集模塊,用于從N個(gè)采樣點(diǎn)的上網(wǎng)行為審計(jì)設(shè)備收集網(wǎng)頁(yè)訪(fǎng)問(wèn)日志;其中, N為正整數(shù);
[0045] 所述域名分類(lèi)模塊,用于按照第一預(yù)定周期對(duì)所述網(wǎng)頁(yè)訪(fǎng)問(wèn)日志的域名進(jìn)行歸類(lèi) 和分析,生成域名分類(lèi)信息;
[0046] 所述獲取模塊,用于獲取來(lái)自第一用戶(hù)的上網(wǎng)行為審計(jì)設(shè)備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志;
[0047] 所述日志分析模塊,用于按照第二預(yù)定周期,并基于域名分類(lèi)信息對(duì)所述來(lái)自第 一用戶(hù)的上網(wǎng)行為審計(jì)設(shè)備的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志進(jìn)行分析,W識(shí)別用于表征第一用戶(hù)的真實(shí)訪(fǎng) 問(wèn)行為的網(wǎng)頁(yè)訪(fǎng)問(wèn)日志。
[0048] 上述方案中,優(yōu)選地,所述域名分類(lèi)模塊,還用于:
[0049] 對(duì)訪(fǎng)問(wèn)同一域名的所有日志,
[0050] 檢查日志的數(shù)量是否超過(guò)第一口限,若沒(méi)有超過(guò)第一 口限,則退出分析;
[0051] 若超過(guò)第一口限,則檢查所述所有日志中發(fā)起訪(fǎng)問(wèn)的用戶(hù)數(shù)是否超過(guò)第二口限, 若沒(méi)有超過(guò)第二口限,則退出分析;
[0052] 若超過(guò)第二口限,則檢查各日志的主題字段中是否包含異常字段,并將主題字段 中包含有異常字段的日志排除;
[0053] 計(jì)算包含有效主題的日志的比例,若包含有效主題的日志的比例超過(guò)第S口限, 計(jì)算所有包含有效主題的日志中主題長(zhǎng)度權(quán)重的分布,若主題長(zhǎng)度權(quán)重的加權(quán)平均數(shù)超過(guò) 第四口限,計(jì)算所述所有包含有效主題的日志中主題的信息量,若信息量超過(guò)第五口限,貝U 判定域名為內(nèi)容類(lèi)域名;
[0054] 否則,若包含有效主題的日志的比例未超過(guò)第=口限,或若主題長(zhǎng)度權(quán)重的加權(quán) 平均數(shù)未超過(guò)第四