本發(fā)明實(shí)施例涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種信息處理方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,運(yùn)營(yíng)商所擁有的網(wǎng)關(guān)數(shù)據(jù)越來(lái)越多,從網(wǎng)關(guān)數(shù)據(jù)中挖掘出有價(jià)值的信息已經(jīng)成為當(dāng)下的一個(gè)研究熱點(diǎn)。其中,網(wǎng)關(guān)數(shù)據(jù)為客戶(hù)端與服務(wù)器通信過(guò)程中網(wǎng)關(guān)產(chǎn)生的日志記錄,網(wǎng)關(guān)數(shù)據(jù)中會(huì)記錄源互聯(lián)網(wǎng)協(xié)議(internetprotocol,ip)地址、統(tǒng)一資源定位符(uniformresourcelocator,url)、目標(biāo)互聯(lián)網(wǎng)協(xié)議(internetprotocol,ip)地址、操作系統(tǒng)、操作系統(tǒng)版本、設(shè)備信息、用戶(hù)代理(useragent,ua)和請(qǐng)求時(shí)間等信息。
目前網(wǎng)關(guān)數(shù)據(jù)挖掘中數(shù)據(jù)清洗的方法,主要是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取所有網(wǎng)站的網(wǎng)頁(yè),建立一個(gè)有效url庫(kù),并將網(wǎng)關(guān)數(shù)據(jù)中的url與建立的有效url庫(kù)進(jìn)行匹配,若匹配成功,則網(wǎng)關(guān)數(shù)據(jù)中的url為有效url,若未匹配成功,則網(wǎng)關(guān)數(shù)據(jù)中的url為無(wú)效url。
然而,由于網(wǎng)頁(yè)的url不是固定不變的,有的網(wǎng)頁(yè)對(duì)應(yīng)的url經(jīng)常更新,經(jīng)過(guò)一段時(shí)間后,根據(jù)建立的有效url庫(kù),無(wú)法滿(mǎn)足對(duì)網(wǎng)關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗需求。若通過(guò)在有效url庫(kù)中不斷增加更新的url,實(shí)現(xiàn)通過(guò)不斷更新有效url庫(kù)來(lái)解決上述問(wèn)題,則隨著有效url庫(kù)中有效url的數(shù)量的增加,匹配效率會(huì)大幅下降,由此,無(wú)法根據(jù)有效url庫(kù)高效地確定網(wǎng)關(guān)數(shù)據(jù)中的有效url。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種信息處理方法及裝置,以實(shí)現(xiàn)快速高效地對(duì)網(wǎng)關(guān)數(shù)據(jù)進(jìn)行清洗。
第一方面,本發(fā)明實(shí)施例提供了一種信息處理方法,該方法包括:
根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù);
按照分隔符分割目標(biāo)url獲得所述目標(biāo)url的特征字符串;
將所述目標(biāo)url的特征字符串與所述特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url。
第二方面,本發(fā)明實(shí)施例還提供了一種信息處理裝置,該裝置包括:
特征庫(kù)建立模塊,用于根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù);
字符串獲取模塊,用于按照分隔符分割目標(biāo)url獲得所述目標(biāo)url的特征字符串;
url標(biāo)記模塊,用于將所述目標(biāo)url的特征字符串與所述特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url。
本發(fā)明通過(guò)根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù);按照分隔符分割目標(biāo)url獲得目標(biāo)url的特征字符串;將目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url,可快速高效地識(shí)別并濾除網(wǎng)關(guān)數(shù)據(jù)所記錄的與多媒體資源相關(guān)的url,進(jìn)而實(shí)現(xiàn)快速高效地對(duì)網(wǎng)關(guān)數(shù)據(jù)中url進(jìn)行清洗。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例一中的一種信息處理方法的流程圖;
圖2是本發(fā)明實(shí)施例二中的一種信息處理方法的流程圖;
圖3是本發(fā)明實(shí)施例二中的網(wǎng)站拓?fù)溥B接結(jié)構(gòu)的示意圖;
圖4是本發(fā)明實(shí)施例三中的一種信息處理裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種信息處理方法的流程圖,本實(shí)施例可適用于需對(duì)網(wǎng)關(guān)數(shù)據(jù)進(jìn)行清洗情況,該方法可以由信息處理裝置來(lái)執(zhí)行。參見(jiàn)圖1,本實(shí)施例提供的方法具體包括如下步驟:
步驟110、根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù)。
其中,樣本url為統(tǒng)計(jì)用戶(hù)某一特定上網(wǎng)行為所確定的一個(gè)或多個(gè)網(wǎng)站的url,如若需統(tǒng)計(jì)具有購(gòu)車(chē)意愿的用戶(hù),則可將汽車(chē)之家、易車(chē)網(wǎng)和\或太平洋汽車(chē)網(wǎng)等網(wǎng)站的url作為樣本url。
對(duì)于樣本url的獲取方式本發(fā)明不做限定,如可通過(guò)抓包軟件抓取網(wǎng)站的url作為樣本url,或通過(guò)客戶(hù)端訪問(wèn)網(wǎng)站,查看源代碼獲取網(wǎng)站的url作為樣本url等。
在用戶(hù)通過(guò)終端上安裝的客戶(hù)端進(jìn)行網(wǎng)站的頁(yè)面的訪問(wèn)時(shí),如瀏覽器客戶(hù)端或新聞客戶(hù)端等,需要先向服務(wù)器發(fā)送超文本標(biāo)記語(yǔ)言(hypertextmark-uplanguage,html)請(qǐng)求,從服務(wù)器下載html文檔,并從該html文檔中解析出多媒體資源請(qǐng)求,再依據(jù)多媒體資源請(qǐng)求,從服務(wù)器下載所需要的多媒體資源,最后利用html文檔和該多媒體資源進(jìn)行頁(yè)面展現(xiàn),從而實(shí)現(xiàn)頁(yè)面的完全加載。然而,多媒體資源為訪問(wèn)頁(yè)面過(guò)程中頁(yè)面自動(dòng)加載的資源,為網(wǎng)關(guān)數(shù)據(jù)中與統(tǒng)計(jì)用戶(hù)行為無(wú)關(guān)的信息,因此,需將網(wǎng)關(guān)數(shù)據(jù)中與多媒體資源相關(guān)的url濾除。
其中,多媒體資源包括頁(yè)面所展現(xiàn)的圖片信息、視頻信息和音頻信息等,還可包括腳本語(yǔ)言,如javascript(js)和hypertextpreprocessor(php)等。
基于網(wǎng)站中多媒體資源存放的路徑比較固定,因此在獲取樣本url后,可對(duì)獲取的樣本url進(jìn)行分析,根據(jù)獲取的樣本url分析網(wǎng)站的多媒體資源存放路徑,從而根據(jù)多媒體資源存放路徑確定特征庫(kù)。
示例性的,以樣本url來(lái)源于汽車(chē)之家網(wǎng)站為例,利用抓包軟件抓取汽車(chē)之家網(wǎng)站的url作為樣本url,通過(guò)對(duì)樣本url分析,可確定在訪問(wèn)汽車(chē)之家網(wǎng)站的頁(yè)面時(shí),頁(yè)面自動(dòng)加載的圖片信息全部存放在automing路徑下,如http://x.autoimg.cn/news/index/img/20110803/lazyload140.png,又如http://car1.m.autoimg.cn/logo/fct/100/129302271108651250.jpg,因此,可將automing字符串作為特征放入特征庫(kù),還可根據(jù)其他多媒體資源,如腳本語(yǔ)言,確定javascript(js)和hypertextpreprocessor(php)腳本語(yǔ)言存放的路徑中均包括字符串js或php,因此,將js和php字符串作為特征放入特征庫(kù)中,另外根據(jù)對(duì)樣本url的分析,確定存放路徑中包括ajax、ahsx、admaster和deliver字符串的url均為與統(tǒng)計(jì)用戶(hù)行為無(wú)關(guān)的url,因此,還可將ajax、ahsx、admaster和deliver字符串作為特征放入特征庫(kù)中,由此,建立基于多媒體資源存放路徑的特征庫(kù)。
步驟120、按照分隔符分割目標(biāo)url獲得目標(biāo)url的特征字符串。
示例性的,可按照分割符“://”、“.”和“/”分割目標(biāo)url,從而獲得目標(biāo)url的多個(gè)特征字符串。
如目標(biāo)url為http://x.autoimg.cn/news/js/jserror.js?t=20151124,則按照分割符“://”、“.”和“/”分割,可獲得http、x、autoimg、cn、news、js、jserror、和js?t=20151124多個(gè)特征字符串。
步驟130、將目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url。
將分割后得到的目標(biāo)url的特征字符串與特征庫(kù)中的字符串進(jìn)行匹配,若特征庫(kù)中存在與目標(biāo)url的特征字符串相同的字符串,則匹配成功,標(biāo)記或刪除匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url,以濾除訪問(wèn)網(wǎng)站頁(yè)面時(shí),與頁(yè)面自動(dòng)加載的多媒體資源相關(guān)的url。
示例性的,按照分割順序,依次將分割后得到的目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,如依次將http、x、autoimg、cn、news、js、jserror、和js?t=20151124和特征庫(kù)中的automing、js、php、ajax、ahsx、admaster和deliver字符串進(jìn)行匹配,若某一特征字符串與特征庫(kù)中的字符串匹配成功,則停止后面特征字符串與特征庫(kù)的匹配,并標(biāo)記或刪除該目標(biāo)url。
優(yōu)選的,特征庫(kù)為哈希表,通過(guò)建立哈希表,在哈希表中查詢(xún)目標(biāo)url的特征字符串,可大大降低匹配的查詢(xún)復(fù)雜度。
本發(fā)明實(shí)施例通過(guò)根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù);按照分隔符分割目標(biāo)url獲得目標(biāo)url的特征字符串;將目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url,可快速高效地識(shí)別網(wǎng)關(guān)數(shù)據(jù)所記錄的與多媒體資源相關(guān)的url,進(jìn)而實(shí)現(xiàn)快速高效地對(duì)網(wǎng)關(guān)數(shù)據(jù)中url進(jìn)行清洗。
實(shí)施例二
圖2為本發(fā)明實(shí)施例二提供的一種信息處理方法的流程圖,本實(shí)施例為在實(shí)施例一的基礎(chǔ)上進(jìn)行進(jìn)一步優(yōu)化。參見(jiàn)圖2,本實(shí)施例提供的方法包括:
步驟210、根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù)。
步驟220、若網(wǎng)關(guān)數(shù)據(jù)中url缺失,則根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)填充url。
在通過(guò)客戶(hù)端訪問(wèn)網(wǎng)站的頁(yè)面時(shí),有可能由于解析失敗或其他原因,導(dǎo)致網(wǎng)關(guān)數(shù)據(jù)中出現(xiàn)url缺失的情況,可根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)填充缺失的url。
網(wǎng)站的各頁(yè)面會(huì)存在超連接,將不同的頁(yè)面聯(lián)系起來(lái)。圖3為某一網(wǎng)站的拓?fù)溥B接結(jié)構(gòu)的示意圖。如圖3所示,用有向圖表示網(wǎng)站拓?fù)溥B接結(jié)構(gòu),結(jié)點(diǎn)表示網(wǎng)站中的頁(yè)面,有向邊表示頁(yè)面超鏈接。如圖3所示,頁(yè)面a與頁(yè)面b存在超鏈接,則可從頁(yè)面a中直接訪問(wèn)頁(yè)面b,頁(yè)面c與頁(yè)面b不存在超鏈接,若從頁(yè)面c訪問(wèn)頁(yè)面b,需從頁(yè)面c返回頁(yè)面a再進(jìn)入頁(yè)面b。則若根據(jù)網(wǎng)關(guān)數(shù)據(jù)中,缺失url的前后超鏈接頁(yè)面的url所對(duì)應(yīng)的頁(yè)面在網(wǎng)站拓?fù)溥B接結(jié)構(gòu)中的位置,確定缺失url在網(wǎng)站拓?fù)溥B接結(jié)構(gòu)中的位置,則可將該位置所對(duì)應(yīng)的url確定為缺失的url,實(shí)現(xiàn)缺失url的填充。從而,通過(guò)填充缺失的url,使得網(wǎng)關(guān)數(shù)據(jù)中的信息更加完整,在網(wǎng)關(guān)數(shù)據(jù)挖掘過(guò)程中的用戶(hù)行為分析或用戶(hù)會(huì)話識(shí)別等方面可進(jìn)行更加準(zhǔn)確地分析和識(shí)別。
示例性的,若在網(wǎng)關(guān)數(shù)據(jù)中,缺失url的下一超鏈接頁(yè)面的url對(duì)應(yīng)頁(yè)面e,則根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)確定缺失url為頁(yè)面b對(duì)應(yīng)的url。若網(wǎng)關(guān)數(shù)據(jù)中缺失url的下一超鏈接頁(yè)面的url對(duì)應(yīng)頁(yè)面h,則根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)可確定缺失url可能為頁(yè)面f或頁(yè)面g對(duì)應(yīng)的url,則可在缺失url之前的預(yù)設(shè)個(gè)數(shù)的超鏈接頁(yè)面url中確定與頁(yè)面f和頁(yè)面g具有超鏈接關(guān)系的url,若有多個(gè)與頁(yè)面f和頁(yè)面g具有超鏈接關(guān)系的url,如在預(yù)設(shè)個(gè)數(shù)的超鏈接頁(yè)面url中包括頁(yè)面b、頁(yè)面c和頁(yè)面d對(duì)應(yīng)的url,則將頁(yè)面b、頁(yè)面c和頁(yè)面d對(duì)應(yīng)的url所對(duì)應(yīng)的請(qǐng)求時(shí)間與缺失url對(duì)應(yīng)的請(qǐng)求時(shí)間最接近的作為缺失url的來(lái)源,如若頁(yè)面c的請(qǐng)求時(shí)間與缺失url對(duì)應(yīng)的請(qǐng)求時(shí)間最接近,則根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)可確定缺失url為頁(yè)面f對(duì)應(yīng)的url。
其中,超鏈接頁(yè)面為網(wǎng)站拓?fù)溥B接結(jié)構(gòu)中所對(duì)應(yīng)的頁(yè)面,即網(wǎng)站頁(yè)面的源代碼中a標(biāo)簽內(nèi)的url對(duì)應(yīng)的頁(yè)面。
步驟230、按照分隔符分割目標(biāo)url獲得目標(biāo)url的特征字符串。
步驟240、將目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url。
步驟250、若目標(biāo)url的請(qǐng)求時(shí)間與前一url的請(qǐng)求時(shí)間的時(shí)間間隔小于第三時(shí)間閾值且目標(biāo)url不是超鏈接頁(yè)面,則標(biāo)記目標(biāo)url。
優(yōu)選的,為了保證將與自動(dòng)加載的多媒體資源相關(guān)的url盡可能濾除,在通過(guò)特征庫(kù)匹配進(jìn)行濾除后,可通過(guò)若目標(biāo)url的請(qǐng)求時(shí)間與前一url的請(qǐng)求時(shí)間的時(shí)間間隔小于第三時(shí)間閾值且目標(biāo)url不是超鏈接頁(yè)面,則標(biāo)記目標(biāo)url,進(jìn)行進(jìn)一步優(yōu)化,對(duì)與自動(dòng)加載的多媒體資源相關(guān)的url進(jìn)行進(jìn)一步濾除。
若目標(biāo)url的請(qǐng)求時(shí)間與其前一url的請(qǐng)求時(shí)間的時(shí)間間隔小于第三時(shí)間閾值,則可認(rèn)為目標(biāo)url為頁(yè)面加載過(guò)程中與自動(dòng)加載的多媒體資源相關(guān)的url,然而若在上一頁(yè)面加載過(guò)程中,用戶(hù)通過(guò)加載的頁(yè)面點(diǎn)擊了下一個(gè)頁(yè)面,則下一頁(yè)面的url的請(qǐng)求時(shí)間與其前一url的請(qǐng)求時(shí)間可能小于第三時(shí)間閾值,但下一頁(yè)面的url為用戶(hù)點(diǎn)擊的頁(yè)面,不是自動(dòng)加載的頁(yè)面,不應(yīng)進(jìn)行濾除,因此可根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu),確定目標(biāo)url是否為網(wǎng)站拓?fù)溥B接結(jié)構(gòu)中對(duì)應(yīng)的頁(yè)面,即是否為超鏈接頁(yè)面,若目標(biāo)url不是超鏈接頁(yè)面,則認(rèn)為該目標(biāo)url為與自動(dòng)加載的多媒體資源相關(guān)的url,標(biāo)記該目標(biāo)url。由此,在與特征庫(kù)進(jìn)行匹配之后,可進(jìn)一步濾除部分與多媒體資源相關(guān)的url。
示例性的,第三時(shí)間閾值可為0.5秒、1秒或2秒。
步驟260、獲取目標(biāo)url的頁(yè)面停留時(shí)間。
根據(jù)網(wǎng)關(guān)數(shù)據(jù)中記錄的目標(biāo)url對(duì)應(yīng)的請(qǐng)求時(shí)間以及該目標(biāo)url的下一目標(biāo)url對(duì)應(yīng)的請(qǐng)求時(shí)間的差,可獲取目標(biāo)url的頁(yè)面停留時(shí)間。
步驟270、若頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,則標(biāo)記目標(biāo)url。
若目標(biāo)url的頁(yè)面停留時(shí)間小于第一時(shí)間閾值,則確定該目標(biāo)url對(duì)應(yīng)的頁(yè)面不是用戶(hù)的目的頁(yè)面,若檢測(cè)到的url的頁(yè)面停留時(shí)間大于第二時(shí)間閾值,則認(rèn)為用戶(hù)已經(jīng)終止對(duì)該頁(yè)面的訪問(wèn),如用戶(hù)已離開(kāi)設(shè)備,也可認(rèn)為該頁(yè)面不是用戶(hù)的目的頁(yè)面,則若頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,對(duì)該目標(biāo)url標(biāo)記或刪除,濾除不是用戶(hù)目的頁(yè)面的目標(biāo)url。
其中,目的頁(yè)面指根據(jù)用戶(hù)需求用戶(hù)所訪問(wèn)的頁(yè)面。頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,認(rèn)為該頁(yè)面不符合用戶(hù)需求,不是用戶(hù)的目的頁(yè)面。
示例性的,第一時(shí)間閾值可為5秒、10秒或15秒,第二時(shí)間閾值可為60分鐘、1小時(shí)或2小時(shí)。
由此,在通過(guò)將目標(biāo)url的特征字符串與特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url,實(shí)現(xiàn)濾除網(wǎng)關(guān)數(shù)據(jù)中記錄的訪問(wèn)頁(yè)面過(guò)程中自動(dòng)加載的多媒體資源相關(guān)的url后,再次通過(guò)確定頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,進(jìn)一步濾除非用戶(hù)目的頁(yè)面。
步驟280、根據(jù)網(wǎng)關(guān)數(shù)據(jù)中的日志信息確定同一ip地址下是否存在超過(guò)預(yù)設(shè)個(gè)數(shù)的設(shè)備。
步驟290、若是,則對(duì)ip地址進(jìn)行標(biāo)記。
由于同一路由設(shè)備下的不同設(shè)備,網(wǎng)關(guān)數(shù)據(jù)中所記錄的源ip地址為同一ip地址,則在公共ip地址下可能存在較多用戶(hù),在統(tǒng)計(jì)用戶(hù)行為過(guò)程中,會(huì)將同一公共ip地址均視為同一用戶(hù),則可根據(jù)網(wǎng)關(guān)數(shù)據(jù)中的日志信息確定同一ip地址下是否存在超過(guò)預(yù)設(shè)個(gè)數(shù)設(shè)備,進(jìn)而確定該ip地址是否為公共ip地址。
示例性的,若在源ip地址相同的網(wǎng)關(guān)數(shù)據(jù)中,具有超過(guò)預(yù)設(shè)個(gè)數(shù)的不同的用戶(hù)代理,則確定該源ip地址下存在超過(guò)預(yù)設(shè)個(gè)數(shù)的設(shè)備,將該源ip地址進(jìn)行標(biāo)記,確定其為公共ip地址。
其中,用戶(hù)代理是一個(gè)特殊字符串頭,使得服務(wù)器能夠識(shí)別客戶(hù)端使用的操作系統(tǒng)及版本、cpu類(lèi)型和瀏覽器及版本等。
示例性的,若在源ip地址相同的網(wǎng)關(guān)數(shù)據(jù)中,具有超過(guò)預(yù)設(shè)個(gè)數(shù)的不同的設(shè)備信息,則確定該源ip地址下存在超過(guò)預(yù)設(shè)個(gè)數(shù)的設(shè)備,則將該源ip地址進(jìn)行標(biāo)記,將其確定為公共ip地址。
示例性的,預(yù)設(shè)個(gè)數(shù)可為20、50或100。
本發(fā)明實(shí)施例通過(guò)根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)填充網(wǎng)關(guān)數(shù)據(jù)中缺失的url,使得網(wǎng)關(guān)數(shù)據(jù)中的url更加完善;通過(guò)若目標(biāo)url的請(qǐng)求時(shí)間與前一url的請(qǐng)求時(shí)間的時(shí)間間隔小于第三時(shí)間閾值且目標(biāo)url不是超鏈接頁(yè)面,則標(biāo)記目標(biāo)url,實(shí)現(xiàn)對(duì)與自動(dòng)加載的多媒體資源相關(guān)的url進(jìn)行進(jìn)一步地濾除;通過(guò)若頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,則標(biāo)記目標(biāo)url,實(shí)現(xiàn)在濾除與自動(dòng)加載的多媒體資源相關(guān)的url后,進(jìn)一步濾除不是用戶(hù)的目的頁(yè)面;通過(guò)根據(jù)網(wǎng)關(guān)數(shù)據(jù)中的日志信息確定同一ip地址下是否存在超過(guò)預(yù)設(shè)個(gè)數(shù)的設(shè)備,若是,則對(duì)ip地址進(jìn)行標(biāo)記,實(shí)現(xiàn)在濾除與自動(dòng)加載的多媒體資源相關(guān)的url后,進(jìn)一步對(duì)公共ip地址進(jìn)行識(shí)別。
實(shí)施例三
圖4為本發(fā)明實(shí)施例三提供的一種信息處理裝置的結(jié)構(gòu)框圖。該裝置可由軟件和/或硬件實(shí)現(xiàn)。如圖4所示,該裝置包括:特征庫(kù)建立模塊310、字符串獲取模塊320和url標(biāo)記模塊330。
特征庫(kù)建立模塊310,用于根據(jù)樣本url確定基于多媒體資源存放路徑的特征庫(kù);
字符串獲取模塊320,用于按照分隔符分割目標(biāo)url獲得所述目標(biāo)url的特征字符串;
url標(biāo)記模塊330,用于將所述目標(biāo)url的特征字符串與所述特征庫(kù)進(jìn)行匹配,標(biāo)記匹配成功的特征字符串對(duì)應(yīng)的目標(biāo)url。
上述方案中,可選的是,還包括:
時(shí)間獲取模塊,用于獲取目標(biāo)url的頁(yè)面停留時(shí)間;
目標(biāo)標(biāo)記模塊,用于若所述頁(yè)面停留時(shí)間小于第一時(shí)間閾值或大于第二時(shí)間閾值,則標(biāo)記所述目標(biāo)url。
上述方案中,可選的是,還包括:請(qǐng)求時(shí)間標(biāo)記模塊:
若目標(biāo)url的請(qǐng)求時(shí)間與前一url的請(qǐng)求時(shí)間的時(shí)間間隔小于第三時(shí)間閾值且檢測(cè)到的所述目標(biāo)url不是超鏈接頁(yè)面,則標(biāo)記所述目標(biāo)url。
上述方案中,可選的是,還包括:ip地址標(biāo)記模塊,具體用于:
根據(jù)網(wǎng)關(guān)數(shù)據(jù)中的日志信息確定同一ip地址下是否存在超過(guò)預(yù)設(shè)個(gè)數(shù)的設(shè)備;
若是,則對(duì)所述ip地址進(jìn)行標(biāo)記。
上述方案中,可選的是,還包括:url填充模塊,具體用于:
若網(wǎng)關(guān)數(shù)據(jù)中url缺失,則根據(jù)網(wǎng)站拓?fù)溥B接結(jié)構(gòu)填充所述url。
上述裝置可執(zhí)行本發(fā)明實(shí)施例一和實(shí)施例二所提供的方法,具備執(zhí)行上述方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見(jiàn)本發(fā)明實(shí)施例一和實(shí)施例二所提供的方法。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過(guò)以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說(shuō)明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。