專利名稱:一種網(wǎng)頁(yè)預(yù)取方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)頁(yè)預(yù)取技術(shù),尤其涉及一種基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取方法及系統(tǒng)。
背景技術(shù):
隨著^ternet的迅速發(fā)展和廣泛普及,信息快速增長(zhǎng)與人們注意力有限性的矛盾在不斷增加,網(wǎng)絡(luò)用戶日益關(guān)注如何能夠在最短的時(shí)間內(nèi)找到最適合自己的信息。各網(wǎng)站的運(yùn)營(yíng)商也越來越希望了解訪問者在網(wǎng)站的活動(dòng)情況,從龐大的用戶群的數(shù)據(jù)海洋中挖掘客戶活動(dòng)信息,讓用戶可以得到個(gè)性化的服務(wù)。要提高網(wǎng)站的影響力,為用戶提供更好的服務(wù),就應(yīng)該根據(jù)用戶的瀏覽模式來改進(jìn)網(wǎng)站結(jié)構(gòu)以提高Web服務(wù)質(zhì)量,并最終實(shí)現(xiàn)網(wǎng)站的個(gè)性化推薦。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是在于需要提供一種網(wǎng)頁(yè)預(yù)取技術(shù),達(dá)到提高網(wǎng)站服務(wù)質(zhì)量的目的。為了解決上述技術(shù)問題,本發(fā)明首先提供了一種網(wǎng)頁(yè)預(yù)取方法,包括如下步驟對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,獲得可信網(wǎng)絡(luò)日志;根據(jù)用戶的訪問興趣以及該可信網(wǎng)絡(luò)日志,建立表達(dá)用戶是否訪問了特征網(wǎng)頁(yè)的用戶訪問模式矩陣;使用基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,并根據(jù)預(yù)設(shè)的類別標(biāo)簽標(biāo)記用戶所屬的類別,建立用戶公共檔案;根據(jù)該用戶公共檔案,將預(yù)取概率超過預(yù)設(shè)的預(yù)取概率閾值的頁(yè)面提取并保存到緩存中。其中,對(duì)該網(wǎng)絡(luò)日志進(jìn)行預(yù)處理的步驟,包括對(duì)該網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別以及會(huì)話識(shí)別。其中,對(duì)該網(wǎng)絡(luò)日志進(jìn)行該數(shù)據(jù)清洗的步驟,包括過濾網(wǎng)頁(yè)中的圖片,過濾動(dòng)態(tài)網(wǎng)頁(yè)以及點(diǎn)擊率低于預(yù)設(shè)點(diǎn)擊閾值的網(wǎng)頁(yè)。其中,使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行該優(yōu)化聚類,根據(jù)該類別標(biāo)簽標(biāo)記用戶所屬的類別,建立該用戶公共檔案的步驟,包括使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,得到聚類中心的位置;根據(jù)用戶與各聚類中心的距離,采用該類別標(biāo)簽標(biāo)記用戶所屬的類別,根據(jù)用戶所屬的類別建立該用戶公共檔案。本發(fā)明還提供了一種基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取系統(tǒng),包括預(yù)處理模塊,用于對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,獲得可信網(wǎng)絡(luò)日志;第一建立模塊,用于根據(jù)用戶的訪問興趣以及該可信網(wǎng)絡(luò)日志,建立表達(dá)用戶是否訪問了特征網(wǎng)頁(yè)的用戶訪問模式矩陣;第二建立模塊,用于使用基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,并根據(jù)預(yù)設(shè)的類別標(biāo)簽標(biāo)記用戶所屬的類別,建立用戶公共檔案;預(yù)提取模塊,用于根據(jù)該用戶公共檔案,將預(yù)取概率超過預(yù)設(shè)的預(yù)取概率閾值的頁(yè)面提取并保存到緩存中。其中,該預(yù)處理模塊用于對(duì)該網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別以及會(huì)話識(shí)別,獲得該可信網(wǎng)絡(luò)日志。其中,該預(yù)處理模塊用于過濾網(wǎng)頁(yè)中的圖片,過濾動(dòng)態(tài)網(wǎng)頁(yè)以及點(diǎn)擊率低于預(yù)設(shè)點(diǎn)擊閾值的網(wǎng)頁(yè)。其中,該第二建立模塊包括聚類單元,用于使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,得到聚類中心的位置;建立單元,用于根據(jù)用戶與各聚類中心的距離,采用該類別標(biāo)簽標(biāo)記用戶所屬的類別,根據(jù)用戶所屬的類別建立該用戶公共檔案。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)針對(duì)網(wǎng)絡(luò)日志海量、高維、數(shù)據(jù)規(guī)模多樣的特點(diǎn),本發(fā)明提出的基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取技術(shù),具有收斂效果好、適用于包含的類具有多個(gè)大小和密度的數(shù)據(jù)集、適用于高維數(shù)據(jù)的優(yōu)點(diǎn)。本發(fā)明提出的群組網(wǎng)頁(yè)預(yù)取方案,與現(xiàn)有預(yù)取技術(shù)相比,準(zhǔn)確率有了大幅度的提高。本發(fā)明的技術(shù)方案可以用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、多處理器系統(tǒng)、網(wǎng)絡(luò)PC、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
圖1是本發(fā)明實(shí)施例基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取方法的流程示意圖;圖2是本發(fā)明實(shí)施例基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取系統(tǒng)的組成示意圖。
具體實(shí)施例方式以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式。本發(fā)明設(shè)計(jì)了一種基于混沌蟻群優(yōu)化的網(wǎng)頁(yè)預(yù)取方法和系統(tǒng),以達(dá)到降低響應(yīng)時(shí)間,提高網(wǎng)站服務(wù)質(zhì)量的目的。Web日志數(shù)據(jù)有其自身的特點(diǎn),如數(shù)量大、更新速度快、結(jié)構(gòu)復(fù)雜等。應(yīng)用傳統(tǒng)的聚類方法對(duì)Web用戶進(jìn)行聚類的研究很多,但是沒有特別高效的方法,所得的結(jié)果也難以作為用戶個(gè)性化推薦的基礎(chǔ)?;煦缦伻?CAQ優(yōu)化算法是一種基于群體的優(yōu)化技術(shù),具有算法簡(jiǎn)單、收斂速度快,所需先驗(yàn)知識(shí)少的特點(diǎn),在優(yōu)化過程中,無需對(duì)象的梯度信息,具有較強(qiáng)的通用性?;诨煦缦伻簝?yōu)化的聚類算法(CAS-C)在大規(guī)模高維數(shù)據(jù)上具有良好的實(shí)驗(yàn)效果,其聚類結(jié)果穩(wěn)定,對(duì)中心初值不敏感,使用于類別大小不同的數(shù)據(jù)集,并能夠找到全局最優(yōu)解的特點(diǎn)符合Web用戶聚類的特定需求。CAS-C算法模型的迭代方程可以描述如下
權(quán)利要求
1.一種基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取方法,其特征在于,包括如下步驟 對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,獲得可信網(wǎng)絡(luò)日志;根據(jù)用戶的訪問興趣以及該可信網(wǎng)絡(luò)日志,建立表達(dá)用戶是否訪問了特征網(wǎng)頁(yè)的用戶訪問模式矩陣;使用基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,并根據(jù)預(yù)設(shè)的類別數(shù)目標(biāo)簽,標(biāo)記用戶所屬的類別,建立用戶公共檔案;根據(jù)該用戶公共檔案,將預(yù)取概率超過預(yù)設(shè)的預(yù)取概率閾值的頁(yè)面提取并保存到緩存中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)該網(wǎng)絡(luò)日志進(jìn)行該預(yù)處理的步驟,包括對(duì)該網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別以及會(huì)話識(shí)別。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,對(duì)該網(wǎng)絡(luò)日志進(jìn)行該數(shù)據(jù)清洗的步驟,包括過濾網(wǎng)頁(yè)中的圖片,過濾動(dòng)態(tài)網(wǎng)頁(yè)以及點(diǎn)擊率低于預(yù)設(shè)點(diǎn)擊閾值的網(wǎng)頁(yè)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行該優(yōu)化聚類,根據(jù)該類別標(biāo)簽標(biāo)記用戶所屬的類別,建立該用戶公共檔案的步驟,包括使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,得到聚類中心的位置;根據(jù)用戶與各聚類中心的距離,采用該類別標(biāo)簽標(biāo)記用戶所屬的類別,根據(jù)用戶所屬的類別建立該用戶公共檔案。
5.一種基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取系統(tǒng),其特征在于,包括 預(yù)處理模塊,用于對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,獲得可信網(wǎng)絡(luò)日志;第一建立模塊,用于根據(jù)用戶的訪問興趣以及該可信網(wǎng)絡(luò)日志,建立表達(dá)用戶是否訪問了特征網(wǎng)頁(yè)的用戶訪問模式矩陣;第二建立模塊,用于使用基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,并根據(jù)預(yù)設(shè)的類別數(shù)目標(biāo)記用戶所屬的類別,建立用戶公共檔案;預(yù)提取模塊,用于根據(jù)該用戶公共檔案,將預(yù)取概率超過預(yù)設(shè)的預(yù)取概率閾值的頁(yè)面提取并保存到緩存中。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于該預(yù)處理模塊用于對(duì)該網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)清洗、用戶識(shí)別以及會(huì)話識(shí)別,獲得該可信網(wǎng)絡(luò)日志。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于該預(yù)處理模塊用于過濾網(wǎng)頁(yè)中的圖片,過濾動(dòng)態(tài)網(wǎng)頁(yè)以及點(diǎn)擊率低于預(yù)設(shè)點(diǎn)擊閾值的網(wǎng)頁(yè)。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,該第二建立模塊包括聚類單元,用于使用該基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,得到聚類中心的位置;建立單元,用于根據(jù)用戶與各聚類中心的距離,采用該類別標(biāo)簽標(biāo)記用戶所屬的類別,根據(jù)用戶所屬的類別建立該用戶公共檔案。
全文摘要
本發(fā)明公開了一種基于混沌蟻群優(yōu)化聚類的網(wǎng)頁(yè)預(yù)取方法和系統(tǒng),達(dá)到提高網(wǎng)站服務(wù)質(zhì)量的目的。該方法包括對(duì)網(wǎng)絡(luò)日志進(jìn)行預(yù)處理,獲得可信網(wǎng)絡(luò)日志;根據(jù)用戶的訪問興趣以及該可信網(wǎng)絡(luò)日志,建立表達(dá)用戶是否訪問了特征網(wǎng)頁(yè)的用戶訪問模式矩陣;使用基于混沌蟻群優(yōu)化的聚類算法對(duì)該用戶訪問模式矩陣進(jìn)行優(yōu)化聚類,并根據(jù)預(yù)設(shè)的類別數(shù)目標(biāo)簽標(biāo)記用戶所屬的類別,建立用戶公共檔案;根據(jù)該用戶公共檔案,將預(yù)取概率超過預(yù)設(shè)的預(yù)取概率閾值的頁(yè)面提取并保存到緩存中。本發(fā)明與現(xiàn)有預(yù)取技術(shù)相比,準(zhǔn)確率有了大幅度的提高。
文檔編號(hào)G06F17/30GK102222098SQ201110165459
公開日2011年10月19日 申請(qǐng)日期2011年6月20日 優(yōu)先權(quán)日2011年6月20日
發(fā)明者萬(wàn)淼, 彭海朋, 李麗香, 楊義先, 沈紅斌, 王樅 申請(qǐng)人:北京郵電大學(xué)