專利名稱:一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)分析領(lǐng)域,特別是涉及一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為
的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的越來越廣泛,互聯(lián)網(wǎng)的普及率也越來越高,人們很多的日 常工作、學(xué)習(xí)和娛樂都在網(wǎng)絡(luò)上進(jìn)行,因此,人們越來越關(guān)心用戶的網(wǎng)上行為,這些信息對 國家相關(guān)部門來講,可以掌握互聯(lián)網(wǎng)絡(luò)發(fā)展動態(tài),作為制定相關(guān)法律、法規(guī)或規(guī)范的重要依 據(jù);對企業(yè)來講,可以了解用戶的真正需求,充分利用網(wǎng)絡(luò)資源,開發(fā)有吸引力的增值業(yè)務(wù), 進(jìn)而構(gòu)建更好的盈利模式。
目前對互聯(lián)網(wǎng)用戶訪問行為方面的統(tǒng)計分析主要有二種方式 —是人工抽樣調(diào)查的統(tǒng)計的方法。此類統(tǒng)計內(nèi)容主要包括對各類網(wǎng)絡(luò)應(yīng)用(例如 搜索引擎、電子郵件、即時通信、網(wǎng)絡(luò)媒體、數(shù)字娛樂、電子商務(wù)、網(wǎng)絡(luò)社區(qū)等等)的使用情 況的簡單統(tǒng)計,包括其用戶規(guī)模,使用率,群體特征等等。這些特征所需要的數(shù)據(jù)學(xué)歷、時 間、地點、地域等全部來自調(diào)查問巻(參考CNNIC發(fā)布的《2008年7月中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)?況統(tǒng)計報告》的第一章第二節(jié)"調(diào)查方法")。其中,人工抽樣方法依據(jù)隨機(jī)原理抽取一部分 個體作為樣本(Sample),作為研究母群體(Population)之依據(jù)。這種方法的優(yōu)點是利用 抽樣技術(shù)及機(jī)率理論,可獲得既定精確估計值,以代表母群體特征;但缺點是需要大量的人 力、物力、財力的支持,需要多家機(jī)構(gòu)共同參與合作,每次統(tǒng)計耗時都非常長,對發(fā)展特別迅 速的互聯(lián)網(wǎng)行業(yè)來講,時效性相對較差。 二是針對特定網(wǎng)絡(luò)應(yīng)用的日志分析方法。這種方法是針對特定的網(wǎng)絡(luò)應(yīng)用,如網(wǎng) 頁瀏覽、搜索引擎、網(wǎng)絡(luò)社區(qū)等,從該網(wǎng)絡(luò)應(yīng)用服務(wù)器的系統(tǒng)日志中提取相關(guān)的數(shù)據(jù),對用 戶上網(wǎng)的時間、上網(wǎng)的次數(shù)、用戶訪問網(wǎng)站頻道的情況等進(jìn)行統(tǒng)計分析。這種方法的優(yōu)點 是時效性強(qiáng),能客觀反映特定網(wǎng)絡(luò)應(yīng)用的用戶訪問行為;但因該方法的分析對象為特定網(wǎng) 絡(luò)應(yīng)用服務(wù)器的系統(tǒng)日志,所以分析結(jié)果只能反映網(wǎng)絡(luò)用戶對特定網(wǎng)絡(luò)應(yīng)用服務(wù)的訪問行 為,不能把握整個互聯(lián)網(wǎng)的熱點變化和網(wǎng)絡(luò)訪問行為的全局特征。 總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何實時獲取互聯(lián)網(wǎng) 用戶的全局網(wǎng)絡(luò)訪問行為。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法,能 夠?qū)崟r獲取用戶的全局網(wǎng)絡(luò)訪問行為。 本發(fā)明還提供了一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的裝置,以保證上述方法在實 際中的應(yīng)用。 為了解決上述問題,本發(fā)明實施例公開了 一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方 法,包括
獲取根域名服務(wù)器的第一域名訪問信息;
獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪問信息; 基于域名建立所述第一域名訪問信息與第二域名訪問信息之間的映射關(guān)系;
將所述第一域名訪問信息,所述第一域名訪問信息與第二域名訪問信息的映射關(guān) 系保存到信息庫; 依據(jù)所述映射關(guān)系,從所述信息庫獲得網(wǎng)絡(luò)用戶針對相應(yīng)域名的訪問行為。
優(yōu)選的,所述方法還包括 從所述根域名服務(wù)器日志中提取相關(guān)數(shù)據(jù),對所述信息庫的相應(yīng)數(shù)據(jù)記錄進(jìn)行更 新。
優(yōu)選的,所述獲取根域名服務(wù)器的第一域名訪問信息的步驟包括 從所述根域名服務(wù)器的日志中,計算用戶對域名訪問的冪律分布參數(shù); 根據(jù)所述冪律分布參數(shù)獲取用于統(tǒng)計分析的域名、統(tǒng)計針對這些域名對所述根域
名服務(wù)器的查詢次數(shù),形成第一域名訪問信息。 優(yōu)選的,所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為遞歸服務(wù)器和/或網(wǎng)絡(luò)應(yīng)用服務(wù)器。 優(yōu)選的,當(dāng)所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為遞歸服務(wù)器時,所述獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器第二
域名訪問信息的步驟包括 從遞歸服務(wù)器的日志中,抽取所述第一域名訪問信息中確定的用于統(tǒng)計的域名;
統(tǒng)計針對所述域名在所述遞歸服務(wù)器上的查詢次數(shù),形成第二域名訪問信息。
優(yōu)選的,當(dāng)所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為網(wǎng)絡(luò)應(yīng)用服務(wù)器時,所述獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器 的第二域名訪問信息的步驟包括 從網(wǎng)絡(luò)應(yīng)用服務(wù)器的日志中,抽取所述第一域名訪問信息中確定的用于統(tǒng)計的域 名; 統(tǒng)計針對相應(yīng)域名在所述網(wǎng)絡(luò)應(yīng)用服務(wù)器上的查詢次數(shù),形成第二域名訪問信 息。 優(yōu)選的,所述遞歸服務(wù)器為運(yùn)營商的遞歸服務(wù)器,或為城域接入服務(wù)商的遞歸服 務(wù)器,或為發(fā)出所述根域名查詢請求的國外遞歸服務(wù)器。 優(yōu)選的,所述網(wǎng)絡(luò)應(yīng)用服務(wù)器為網(wǎng)絡(luò)音樂服務(wù)器、網(wǎng)絡(luò)新聞服務(wù)器、即時通信服務(wù) 器、網(wǎng)絡(luò)視頻服務(wù)器、搜索引擎服務(wù)器、電子郵件服務(wù)器、網(wǎng)絡(luò)游戲服務(wù)器、博客服務(wù)器、論 壇服務(wù)器或電子商務(wù)服務(wù)器。 優(yōu)選的,對所述信息庫進(jìn)行的數(shù)據(jù)更新采用定期更新方式,或?qū)崟r更新方式。
本發(fā)明實施例還公開了一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的裝置,包括
第一域名訪問信息獲取單元,用于獲取根域名服務(wù)器的第一域名訪問信息;
第二域名訪問信息獲取單元,用于獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪問信息;
映射關(guān)系獲取單元,用于基于域名建立所述第一域名訪問信息與第二域名訪問信 息之間的映射關(guān)系; 信息庫單元,用于保存所述第一域名訪問信息、所述第一域名訪問信息與第二域 名訪問信息的映射關(guān)系; 數(shù)據(jù)挖掘與展現(xiàn)單元,用于依據(jù)所述映射關(guān)系,從所述信息庫中獲得網(wǎng)絡(luò)用戶的 針對相應(yīng)域名的訪問行為。
優(yōu)選的,所述裝置還包括 信息庫數(shù)據(jù)更新單元,用于從所述根域名服務(wù)器日志中提取、加工數(shù)據(jù),然后對所 述信息庫數(shù)據(jù)記錄進(jìn)行更新。 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點 首先,本發(fā)明方案中,用于統(tǒng)計分析的域名,占據(jù)了全局用戶網(wǎng)絡(luò)訪問的絕大多 數(shù),另外,建立了針對所述域名對根域名服務(wù)器查詢次數(shù)和對所述目標(biāo)網(wǎng)絡(luò)服務(wù)器查詢次 數(shù)的映射關(guān)系,因此,利用該映射關(guān)系從根域名服務(wù)器日志中推導(dǎo)出的數(shù)據(jù),反映了互聯(lián)網(wǎng) 用戶的全局網(wǎng)絡(luò)訪問行為。 其次,所述映射關(guān)系在一定時間內(nèi)是相對固定的,所述信息庫中用戶網(wǎng)絡(luò)訪問行 為數(shù)據(jù)可以實時從根域名服務(wù)器日志中獲取,并進(jìn)行更新,因此,本發(fā)明可以實時分析用戶 的網(wǎng)絡(luò)訪問行為。 另外,建立所述映射關(guān)系所需要的目標(biāo)網(wǎng)絡(luò)服務(wù)器日志,只需要有限的網(wǎng)絡(luò)接入 服務(wù)商、網(wǎng)絡(luò)運(yùn)營商、網(wǎng)絡(luò)應(yīng)用服務(wù)商等機(jī)構(gòu)支持、配合即可獲得,無需最終用戶的直接參 與,因此本發(fā)明方案非常易于實施。
圖1是本發(fā)明統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法實施例流程圖;
圖2是本發(fā)明統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的裝置實施例框圖。
具體實施例方式
在結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明之前,首先介紹一下與 互聯(lián)網(wǎng)用戶的網(wǎng)絡(luò)訪問有關(guān)的幾個概念。 域名系統(tǒng)(Domain Name System, DNS)是互聯(lián)網(wǎng)基礎(chǔ)設(shè)施提供的一項核心服務(wù),系 統(tǒng)包括有可以將域名和IP地址相互映射的一個分布式數(shù)據(jù)庫,以及實現(xiàn)域名和網(wǎng)絡(luò)可以 識別的IP地址轉(zhuǎn)換功能的軟件系統(tǒng)。 中國在國際互聯(lián)網(wǎng)絡(luò)信息中心(InterNIC-Internet Information Center)正式 注冊并運(yùn)行的頂級域名是CN,這是中國的一級域名。在頂級域名之下,二級域名又分為類別 域名和行政區(qū)域名兩類。 頂級域名CN域名頂級節(jié)點包括運(yùn)行CN域名解析等相關(guān)服務(wù)所需的服務(wù)器群及相 關(guān)的網(wǎng)絡(luò)設(shè)備和安全設(shè)備,這里的服務(wù)器群、域名軟件以及全部CN域名和IP地址相互映射 的數(shù)據(jù)庫就是CN根域名服務(wù)器系統(tǒng),簡稱CN根域名服務(wù)器。 遞歸服務(wù)器是為網(wǎng)絡(luò)用戶提供因特網(wǎng)接入服務(wù)的服務(wù)器系統(tǒng),因其自身沒有域 名-IP地址映射的數(shù)據(jù)庫,所以當(dāng)網(wǎng)絡(luò)用戶發(fā)出域名訪問請求后,遞歸服務(wù)器首先檢查本 地緩存是否有該域名的解析結(jié)果,如果有,則直接把解析結(jié)果返回到網(wǎng)絡(luò)用戶的終端上;如 果沒有,則向根域名服務(wù)器發(fā)出查詢請求,因此,根域名服務(wù)器日志中保存的只是部分網(wǎng)絡(luò) 用戶(通常為遞歸服務(wù)器)的部分網(wǎng)絡(luò)訪問行為,要全面分析用戶的網(wǎng)絡(luò)訪問情況,需要從 遞歸服務(wù)器上獲得。 網(wǎng)絡(luò)應(yīng)用服務(wù)器是為網(wǎng)絡(luò)用戶提供搜索引擎、電子郵件、論壇、即時聊天、博客等 具體應(yīng)用服務(wù)的服務(wù)器系統(tǒng),網(wǎng)絡(luò)應(yīng)用服務(wù)器保存有全部網(wǎng)絡(luò)用戶對特定網(wǎng)絡(luò)資源的使用情況,因此,要全面了解網(wǎng)絡(luò)用戶對特定網(wǎng)絡(luò)資源的使用情況,需要從特定的網(wǎng)絡(luò)應(yīng)用服務(wù) 器上獲得。 本發(fā)明的核心構(gòu)思之一在于,根據(jù)網(wǎng)絡(luò)用戶對域名的請求次數(shù)符合冪律分布規(guī)律 的特征,找出一小部分域名作為統(tǒng)計對象,分析用戶訪問這些域名時,對根域名服務(wù)器的查 詢次數(shù)與對遞歸服務(wù)器和各主要應(yīng)用服務(wù)器的訪問次數(shù)之間的映射關(guān)系,這樣,從根域名 服務(wù)器的查詢?nèi)罩局?,即可實時推導(dǎo)出用戶的全局網(wǎng)絡(luò)訪問行為。滿足對用戶網(wǎng)絡(luò)訪問行 為分析的全局性和實時性需求。 參照圖l,示出了本發(fā)明統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法實施例流程圖,具體 包括以下步驟 步驟101,從根域名服務(wù)器獲取第一域名訪問信息; 所述第一域名訪問信息包括用于統(tǒng)計的域名,及其在根域名服務(wù)器的查詢次數(shù)。
步驟102,從目標(biāo)網(wǎng)絡(luò)服務(wù)器獲取第二域名訪問信息; 目標(biāo)網(wǎng)絡(luò)服務(wù)器有二大類,一類是為網(wǎng)絡(luò)用戶提供接入服務(wù)的遞歸服務(wù)器,另一 類是為網(wǎng)絡(luò)用戶提供搜索引擎、電子郵件、論壇、即時聊天、博客等特定應(yīng)用服務(wù)的網(wǎng)絡(luò)應(yīng) 用服務(wù)器。 所述第二域名訪問信息包括第一域名訪問信息中確定的用于統(tǒng)計的域名,以及針 對這些域名在所述目標(biāo)網(wǎng)絡(luò)服務(wù)器上的訪問信息。所述第二域名訪問信息從目標(biāo)網(wǎng)絡(luò)服務(wù) 器的日志中統(tǒng)計獲得。 步驟103,基于域名建立所述第一域名訪問信息與第二域名訪問信息之間的映射 關(guān)系; 步驟104,將所述第一域名訪問信息,所述第一域名訪問信息與第二域名訪問信息 的映射關(guān)系保存到信息庫; 步驟105,依據(jù)所述映射關(guān)系,從所述信息庫獲得網(wǎng)絡(luò)用戶的針對相應(yīng)域名的訪問 行為。 為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,以下通過舉例對本發(fā)明的優(yōu)選實施例進(jìn) 行說明。 優(yōu)選的,所述第一域名訪問信息的獲取步驟為 S1 ,從所述根域名服務(wù)器的日志中,計算用戶對域名訪問的冪律分布參數(shù); S2,根據(jù)所述冪律分布參數(shù)和在所述根域名服務(wù)器中登記的域名總數(shù),確定用于
統(tǒng)計的域名數(shù)量,然后根據(jù)查詢次數(shù)按從大到小的順序選取所述數(shù)量的域名; S3,匯總統(tǒng)計針對相應(yīng)域名對所述根域名服務(wù)器的查詢次數(shù)。 優(yōu)選的,從根域名服務(wù)器日志中選取相應(yīng)域名的方法,具體描述如下 經(jīng)統(tǒng)計發(fā)現(xiàn),域名被請求的次數(shù)與域名數(shù)之間有冪律分布特征,且冪律常數(shù)是相
對固定的,大約為2. 124 ;如,目前注冊的CN域名網(wǎng)站大約100萬,當(dāng)99. 5%以上的域名被
請求的次數(shù)均低于100次時,卻有萬分之四的域名被請求的次數(shù)大于1000次,十萬分之三
的域名被請求的次數(shù)大于10萬次。因此,只要統(tǒng)計分析總數(shù)的千分之五(約5000個)的
域名的訪問情況,即可覆蓋99%以上用戶網(wǎng)絡(luò)訪問行為。本方案實施例選取的5000個域名
作為分析用戶網(wǎng)絡(luò)訪問行為的統(tǒng)計樣本。 優(yōu)選的,用于統(tǒng)計所述第二域名訪問信息的遞歸服務(wù)器選取原則為
選擇用戶量大,有代表性的遞歸服務(wù)器,如有大量用戶的中國電信、中國移動、中 國聯(lián)通等網(wǎng)絡(luò)運(yùn)營商的遞歸服務(wù)器,各地城域接入服務(wù)商的遞歸服務(wù)器,及其部分對CN域 名有查詢請求的國外遞歸服務(wù)器的日志作為統(tǒng)計樣本。
優(yōu)選的,用于統(tǒng)計所述第二域名訪問信息的網(wǎng)絡(luò)應(yīng)用服務(wù)器的選取原則為
選擇用戶數(shù)量大,最具代表性的應(yīng)用服務(wù)系統(tǒng),如網(wǎng)絡(luò)音樂服務(wù)器、網(wǎng)絡(luò)新聞服 務(wù)器、即時通信服務(wù)器、網(wǎng)絡(luò)視頻服務(wù)器、搜索引擎服務(wù)器、電子郵件服務(wù)器、網(wǎng)絡(luò)游戲服務(wù) 器、博客服務(wù)器、論壇服務(wù)器或電子商務(wù)服務(wù)器。 本發(fā)明提供了另一實施例,所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為遞歸服務(wù)器時,統(tǒng)計互聯(lián)網(wǎng)用 戶網(wǎng)絡(luò)查詢行為的步驟如下 從根域名服務(wù)器獲取第一域名訪問信息; 以第一域名訪問信息的相應(yīng)域名為基準(zhǔn),從遞歸服務(wù)器的日志中抽取相應(yīng)信息, 匯總統(tǒng)計,形成第二域名訪問信息; 下面結(jié)合DNS服務(wù)器查詢?nèi)罩镜慕Y(jié)構(gòu)進(jìn)行詳細(xì)說明 DNS查詢?nèi)罩緸槲谋疚募?,每一行代表一條解析記錄,每行記錄的格式示例如下
12_Mar_2008 00:00:46.611 queries :info :client 198. 70. 193. 45#1418 : query :beijing2008. cn IN A_ 其中,"12-Mar-2008 00:00:46. 611"為日志解析時間;"198. 70. 193. 45"為用戶 的IP地址;"beijing2008. cn"為用戶所查詢的域名;"IN"是Resource Class中最常見的 一種,表示因特網(wǎng),另有少量CS、CH、HS等資源類型;"A"為Resource Record Type中最常 見的一種,表示該域名服務(wù)器地址的類型為IPv4類型,另有"AAAA"表示IPv6地址,"MX"表 示郵件交換地址。 從上述日志的記錄行中,抽取出符合條件的記錄,然后根據(jù)相應(yīng)域名,進(jìn)行分組統(tǒng) 計,即可得到針對相應(yīng)域名在遞歸服務(wù)器上的查詢情況。 基于相應(yīng)域名,對第一域名訪問信息與第二域名訪問信息進(jìn)行分析比較,建立第 一域名訪問信息與第二域名訪問信息之間的映射關(guān)系; 將所述第一域名訪問信息,所述第一域名訪問信息與第二域名訪問信息的映射關(guān) 系保存到信息庫; 依據(jù)所述映射關(guān)系,從所述信息庫獲得網(wǎng)絡(luò)用戶的針對相應(yīng)域名的訪問行為。
通過該實施例,可以基于根域名服務(wù)器日志,實時獲得網(wǎng)絡(luò)用戶針對相應(yīng)域名的 全部查詢行為,也即可以獲得用戶在互聯(lián)網(wǎng)上的網(wǎng)絡(luò)查詢情況。 需要說明的是,根域名服務(wù)器的日志與遞歸服務(wù)器的日志格式相同,所以針對相 應(yīng)域名對根域名服務(wù)器的查詢情況的統(tǒng)計方法是相同的。 本發(fā)明提供了另一實施例,所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為網(wǎng)絡(luò)應(yīng)用服務(wù)器時,統(tǒng)計互聯(lián) 網(wǎng)用戶對特定網(wǎng)絡(luò)應(yīng)用的訪問行為的步驟如下
從根域名服務(wù)器獲取第一域名訪問信息; 以第一域名訪問信息的相應(yīng)域名為基準(zhǔn),從網(wǎng)絡(luò)應(yīng)用服務(wù)器的日志中抽取相應(yīng)信
息,匯總統(tǒng)計,形成第二域名訪問信息; 下面,以搜索引擎服務(wù)器為例進(jìn)行說明。 針對每一條網(wǎng)絡(luò)用戶的查詢,搜索引擎服務(wù)器記錄如下信息
用戶提交的查詢 用戶點擊的結(jié)果地址 用戶點擊發(fā)生時的日期、時間 該URL在返回結(jié)果中的排名 用戶點擊的順序號 由系統(tǒng)自動分配的用戶標(biāo)識號 瀏覽器信息 計算機(jī)信息 利用查詢詞和用戶點擊頁面的信息,可以獲取用戶提交的查詢一般有什么特點, 如查詢詞的長短、頻度,查詢的類別等;而由用戶點擊結(jié)果頁面的信息可以獲取用戶的點擊 習(xí)慣等。 結(jié)合網(wǎng)絡(luò)用戶的域名請求行為,可以推斷出用戶的網(wǎng)絡(luò)應(yīng)用訪問行為。從而推導(dǎo) 出根域名服務(wù)器查詢與網(wǎng)絡(luò)應(yīng)用服務(wù)器訪問行為的映射關(guān)系,即第一域名訪問信息與第二 域名訪問信息之間的映射關(guān)系; 將所述第一域名訪問信息,所述第一域名訪問信息與第二域名訪問信息的映射關(guān) 系保存到信息庫; 依據(jù)所述映射關(guān)系,從所述信息庫獲得網(wǎng)絡(luò)用戶的針對相應(yīng)域名的訪問行為。
通過該實施例,可以基于根域名服務(wù)器日志,實時獲得網(wǎng)絡(luò)用戶針對特定網(wǎng)絡(luò)應(yīng) 用的訪問行為。 參照圖2,示出了本發(fā)明統(tǒng)計用戶網(wǎng)絡(luò)訪問行為的裝置實施例的框圖,具體包括以 下單元 單元201 :第一域名訪問信息獲取單元,用于獲取根域名服務(wù)器的第一域名訪問信息。
首先,第一域名訪問信息獲取單元201從所述根域名服務(wù)器日志中統(tǒng)計查詢域名
的冪律分布參數(shù),結(jié)合在根域名服務(wù)器上登記的域名總數(shù),確定用于統(tǒng)計的域名的數(shù)量,然
后根據(jù)查詢次數(shù)按從大到小的順序選取所述數(shù)量的域名。
其次,匯總相應(yīng)域名在所述根域名服務(wù)器上的查詢信息; 最后,把選定的相應(yīng)域名以及基于這些域名對根域名服務(wù)器的查詢信息,形成第 一域名訪問信息,傳遞給信息庫單元205、第二域名訪問信息獲取單元202和映射關(guān)系獲取 單元203。 單元202 :第二域名訪問信息獲取單元,用于獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪 問信息。 根據(jù)第一域名訪問信息獲取單元201選取的相應(yīng)域名,從所述目標(biāo)網(wǎng)絡(luò)服務(wù)器日 志中抽取針對這些域名在所述目標(biāo)網(wǎng)絡(luò)服務(wù)器上的訪問信息,形成第二域名訪問信息,傳 遞給映射關(guān)系獲取單元203。 單元203 :映射關(guān)系獲取單元,用于建立所述第一域名訪問信息與第二域名訪問 信息之間的映射關(guān)系。 將第一域名訪問信息獲取單元201和第二域名訪問信息獲取單元202產(chǎn)生的結(jié)果 進(jìn)行比較分析,以相應(yīng)域名為基準(zhǔn),建立第一域名訪問信息與第二域名訪問信息之間的映射關(guān)系,傳遞給信息庫單元203。 單元204 :信息庫單元,用于保存所述第一域名訪問信息、所述第一域名訪問信息 與第二域名訪問信息的映射關(guān)系。 將第一域名訪問信息獲取單元201產(chǎn)生的結(jié)果,即第一域名訪問信息保存到信息 庫; 將映射關(guān)系獲取單元203的產(chǎn)生的結(jié)果,即第一域名訪問信息和第二域名訪問信
息之間的映射關(guān)系保存到信息庫。 單元205 :數(shù)據(jù)挖掘與展現(xiàn)單元。 從信息庫單元204中,依據(jù)所述映射關(guān)系,從所述信息庫中獲得網(wǎng)絡(luò)用戶的針對
相應(yīng)域名的訪問行為,并按預(yù)定的格式展現(xiàn)出來。 優(yōu)選的,統(tǒng)計用戶網(wǎng)絡(luò)訪問行為的裝置還包括 信息庫數(shù)據(jù)更新單元206,用于從所述根域名服務(wù)器日志中提取數(shù)據(jù),然后對所述 信息庫數(shù)據(jù)記錄進(jìn)行更新。 本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與 其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置實施例 而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部 分說明即可。 以上對本發(fā)明所提供的一種獲取互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法和裝置進(jìn)行了
詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的
說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依
據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容
不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
一種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法,其特征在于,包括獲取根域名服務(wù)器的第一域名訪問信息;獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪問信息;基于域名建立所述第一域名訪問信息與第二域名訪問信息之間的映射關(guān)系;將所述第一域名訪問信息,所述第一域名訪問信息與第二域名訪問信息的映射關(guān)系保存到信息庫;依據(jù)所述映射關(guān)系,從所述信息庫獲得網(wǎng)絡(luò)用戶針對相應(yīng)域名的訪問行為。
2. 如權(quán)利要求l所述的方法,其特征在于,還包括從所述根域名服務(wù)器日志中提取相關(guān)數(shù)據(jù),對所述信息庫的相應(yīng)數(shù)據(jù)記錄進(jìn)行更新。
3. 如權(quán)利要求1所述的方法,其特征在于,所述獲取根域名服務(wù)器的第一域名訪問信 息的步驟包括從所述根域名服務(wù)器的日志中,計算用戶對域名訪問的冪律分布參數(shù); 根據(jù)所述冪律分布參數(shù)獲取用于統(tǒng)計分析的域名、統(tǒng)計針對這些域名對所述根域名服 務(wù)器的查詢次數(shù),形成第一域名訪問信息。
4. 如權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為遞歸服務(wù)器和/或網(wǎng) 絡(luò)應(yīng)用服務(wù)器。
5. 如權(quán)利要求1、3或4所述的方法,其特征在于,當(dāng)所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為遞歸服務(wù)器 時,所述獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器第二域名訪問信息的步驟包括從遞歸服務(wù)器的日志中,抽取所述第一域名訪問信息中確定的用于統(tǒng)計的域名; 統(tǒng)計針對所述域名在所述遞歸服務(wù)器上的查詢次數(shù),形成第二域名訪問信息。
6. 如權(quán)利要求1、3或4所述的方法,其特征在于,當(dāng)所述目標(biāo)網(wǎng)絡(luò)服務(wù)器為網(wǎng)絡(luò)應(yīng)用服 務(wù)器時,所述獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪問信息的步驟包括從網(wǎng)絡(luò)應(yīng)用服務(wù)器的日志中,抽取所述第一域名訪問信息中確定的用于統(tǒng)計的域名; 統(tǒng)計針對相應(yīng)域名在所述網(wǎng)絡(luò)應(yīng)用服務(wù)器上的查詢次數(shù),形成第二域名訪問信息。
7. 如權(quán)利要求5所述的方法,其特征在于,所述遞歸服務(wù)器為運(yùn)營商的遞歸服務(wù)器,或 為城域接入服務(wù)商的遞歸服務(wù)器,或為發(fā)出所述根域名查詢請求的國外遞歸服務(wù)器。
8. 如權(quán)利要求6所述的方法,其特征在于,所述網(wǎng)絡(luò)應(yīng)用服務(wù)器為網(wǎng)絡(luò)音樂服務(wù)器、網(wǎng)絡(luò)新聞服務(wù)器、即時通信服務(wù)器、網(wǎng)絡(luò)視頻服務(wù)器、搜索引擎服務(wù)器、電子郵件服務(wù)器、網(wǎng)絡(luò) 游戲服務(wù)器、博客服務(wù)器、論壇服務(wù)器或電子商務(wù)服務(wù)器。
9. 如權(quán)利要求2所述的方法,其特征在于對所述信息庫進(jìn)行的數(shù)據(jù)更新采用定期更新方式,或?qū)崟r更新方式。
10. —種統(tǒng)計互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的裝置,其特征在于,包括 第一域名訪問信息獲取單元,用于獲取根域名服務(wù)器的第一域名訪問信息; 第二域名訪問信息獲取單元,用于獲取目標(biāo)網(wǎng)絡(luò)服務(wù)器的第二域名訪問信息; 映射關(guān)系獲取單元,用于基于域名建立所述第一域名訪問信息與第二域名訪問信息之間的映射關(guān)系;信息庫單元,用于保存所述第一域名訪問信息、所述第一域名訪問信息與第二域名訪 問信息的映射關(guān)系;數(shù)據(jù)挖掘與展現(xiàn)單元,用于依據(jù)所述映射關(guān)系,從所述信息庫中獲得網(wǎng)絡(luò)用戶的針對相應(yīng)域名的訪問行為。
11.如權(quán)利要求10所述的裝置,其特征在于,還包括信息庫數(shù)據(jù)更新單元,用于從所述根域名服務(wù)器日志中提取、加工數(shù)據(jù),然后對所述信 息庫數(shù)據(jù)記錄進(jìn)行更新。
全文摘要
本發(fā)明提供了一種統(tǒng)計分析互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)訪問行為的方法,依據(jù)根域名服務(wù)器日志,獲取用于統(tǒng)計分析的域名,分析用戶訪問這些域名對應(yīng)的網(wǎng)絡(luò)資源時,對域名服務(wù)系統(tǒng)的查詢信息與對目標(biāo)網(wǎng)絡(luò)服務(wù)器訪問信息之間的映射關(guān)系;這樣,依據(jù)根域名服務(wù)器的查詢?nèi)罩?,即可實時推導(dǎo)出用戶的全局網(wǎng)絡(luò)訪問行為。滿足對用戶網(wǎng)絡(luò)訪問行為分析的全局性和實時性需求。
文檔編號H04L12/24GK101729288SQ20081022546
公開日2010年6月9日 申請日期2008年10月31日 優(yōu)先權(quán)日2008年10月31日
發(fā)明者尉遲學(xué)彪, 李曉東, 毛偉, 王偉, 王欣 申請人:中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心