一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法
【專利摘要】一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法,屬電子信息【技術(shù)領(lǐng)域】。用于“服務(wù)器+寬帶網(wǎng)絡(luò)+多媒體瘦客戶端”的信息化模式。用戶通過(guò)多媒體瘦客戶端訪問(wèn)網(wǎng)上資源,服務(wù)器將用戶此次行為記錄在服務(wù)器日志文件中;通過(guò)對(duì)服務(wù)器中Web日志文件的數(shù)據(jù)進(jìn)行分析和預(yù)處理,提取出干凈、規(guī)則、準(zhǔn)確的數(shù)據(jù)源;使用協(xié)同過(guò)濾技術(shù)建立用戶興趣矩陣,計(jì)算各用戶間的相似度,選較大相似度的用戶作為相似用戶;對(duì)相似用戶的興趣愛(ài)好建立推薦資源池;服務(wù)器選推薦資源池中推薦值大于閾值的頁(yè)面推薦給用戶。本發(fā)明的優(yōu)點(diǎn)是通過(guò)對(duì)Web日志文件中的數(shù)據(jù)進(jìn)行預(yù)處理,得到更加干凈規(guī)則的數(shù)據(jù)源,并結(jié)合相似用戶的興趣愛(ài)好,為用戶提供更精準(zhǔn)、個(gè)性化的信息推薦。
【專利說(shuō)明】—種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法,屬于電子信息【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅猛發(fā)展,每天有海量的網(wǎng)頁(yè)在國(guó)際互聯(lián)網(wǎng)上更新或者發(fā)布。對(duì)于廣大用戶來(lái)說(shuō)在大量的信息中想找到自己滿意的信息已經(jīng)是越來(lái)越困難,從而導(dǎo)致了 “信息過(guò)量”與“信息饑餓”的矛盾現(xiàn)象。為解決這一問(wèn)題,提出了個(gè)性化信息服務(wù),這是一種智能信息服務(wù)方式??梢愿鶕?jù)用戶的信息需求和個(gè)性化模式,主動(dòng)搜尋相關(guān)信息,并且利用在線智能推薦服務(wù)或者推送技術(shù),準(zhǔn)確的將用戶所需的信息傳送到相應(yīng)的用戶。在個(gè)性化服務(wù)技術(shù)中,應(yīng)用較成功的是協(xié)同過(guò)濾方法。該方法是指用戶根據(jù)自身的需求,通過(guò)和其他用戶進(jìn)行合作,形成一定的協(xié)作規(guī)則,或利用多個(gè)信息使用者的傾向性來(lái)預(yù)測(cè)單個(gè)用戶的興趣,然后根據(jù)具有相同興趣愛(ài)好的用戶對(duì)信息進(jìn)行評(píng)價(jià),從而得到推薦結(jié)果。由于Web日志中記錄了大量的用戶行為信息,利用Web日志可以為個(gè)性化服務(wù)提供重要的數(shù)據(jù)支持。但原始日志記錄是雜亂、不完整且非結(jié)構(gòu)化的,所以需要對(duì)其進(jìn)行高效的預(yù)處理。另外,在用戶興趣度量方面,目前存在的從訪問(wèn)日志文件中提取用戶的訪問(wèn)模式進(jìn)行推薦的方法,沒(méi)有考慮到用戶訪問(wèn)頁(yè)面的時(shí)間特性,而用戶對(duì)某頁(yè)面的感興趣程度,可以根據(jù)用戶在該頁(yè)面停留的時(shí)間長(zhǎng)短來(lái)衡量。如清華大學(xué)申請(qǐng)的專利號(hào)為103338223A,發(fā)明名稱為《一種移動(dòng)應(yīng)用的推薦方法、客戶端及服務(wù)器》即屬于此列。在此問(wèn)題的基礎(chǔ)上,提出一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法。首先對(duì)日志文件中的數(shù)據(jù)進(jìn)行分析和預(yù)處理,保證提取出干凈、規(guī)則、準(zhǔn)確的數(shù)據(jù)源,其次,將用戶訪問(wèn)頁(yè)面的時(shí)間特性加入考慮范圍,結(jié)合相似用戶的興趣愛(ài)好,達(dá)到為用戶提供更加精準(zhǔn)、個(gè)性化的信息推薦的目的。
【發(fā)明內(nèi)容】
[0003]針對(duì)已有【背景技術(shù)】存在的缺陷和不足,本發(fā)明提出了一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法,旨在解決傳統(tǒng)的基于Web日志數(shù)據(jù)的信息推薦方法中提取的數(shù)據(jù)源不夠干凈、規(guī)則,以及在用戶興趣度量方面存在的問(wèn)題。通過(guò)本方法可以為用戶提供更加精準(zhǔn)、個(gè)性化的信息推薦。
[0004]本發(fā)明的技術(shù)方案如下:
[0005]一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法,步驟如下:
[0006]A、用戶通過(guò)多媒體瘦客戶端訪問(wèn)網(wǎng)絡(luò)上的資源,服務(wù)器將用戶此次的行為記錄在服務(wù)器日志文件中;
[0007]B、對(duì)服務(wù)器中Web日志文件的數(shù)據(jù)進(jìn)行分析和預(yù)處理,排除掉訪問(wèn)量極少、不具代表性用戶的訪問(wèn)記錄及中轉(zhuǎn)頁(yè)即稱之為垃圾數(shù)據(jù)一些數(shù)據(jù),將原始半結(jié)構(gòu)化不容易被人讀懂的Web日志數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),例如只包含用戶IP、訪問(wèn)時(shí)間、訪問(wèn)頁(yè)面的url、訪問(wèn)字節(jié)數(shù)字段的數(shù)據(jù)表提取出來(lái)作為符合規(guī)則、準(zhǔn)確的數(shù)據(jù)源;[0008]根據(jù)Web日志文件的內(nèi)容信息,在數(shù)據(jù)表中構(gòu)建相應(yīng)的字段,再將文本數(shù)據(jù)導(dǎo)入到數(shù)據(jù)表中;
[0009]對(duì)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行清理,將用戶訪問(wèn)信息中沒(méi)有意義的數(shù)據(jù),如后綴名為bmp、jpg、jpeg、php、jsp的這些訪問(wèn)記錄以及狀態(tài)碼不為200即表示不成功的訪問(wèn)的日志記錄刪除,只保留后綴名為HTML、HTM及XML的日志記錄;其中bmp表示位圖,jpg和jpeg表示略失真壓縮的圖形文件格式,Php是超級(jí)文本預(yù)處理語(yǔ)言,在服務(wù)器端執(zhí)行的嵌入式HTML文檔的腳本語(yǔ)言,jsp表示嵌入式網(wǎng)頁(yè)腳本,HTML、HTM和XML都是網(wǎng)頁(yè)文件;
[0010]Web日志文件默認(rèn)的狀態(tài)碼以2開(kāi)頭表示請(qǐng)求成功,以3開(kāi)頭表示用戶請(qǐng)求被重定向到其他位置,以4開(kāi)頭表示客戶端存在錯(cuò)誤,以5開(kāi)頭表示服務(wù)器端存在錯(cuò)誤;
[0011]根據(jù)用戶的IP識(shí)別出不同的用戶,選擇訪問(wèn)量達(dá)到一定值的用戶來(lái)進(jìn)行行為分析;
[0012]根據(jù)用戶在整個(gè)站點(diǎn)的停留時(shí)間進(jìn)行會(huì)話識(shí)別,設(shè)定一個(gè)時(shí)間閾值,如果超過(guò)這個(gè)時(shí)間閾值則認(rèn)為新的會(huì)話開(kāi)始;
[0013]從用戶會(huì)話中找出有意義的訪問(wèn)頁(yè)面和訪問(wèn)路徑,將用戶在訪問(wèn)過(guò)程中為達(dá)到目的頁(yè)而不得不訪問(wèn)的鏈接頁(yè)面即中轉(zhuǎn)頁(yè)從會(huì)話中刪除;
[0014]C、使用協(xié)同過(guò)濾技術(shù)建立用戶興趣矩陣,計(jì)算各個(gè)用戶之間的相似度,選擇一些具有較大相似度的用戶作為相似用戶;
[0015]用戶-頁(yè)面矩陣表示為R(MXN),其中矩陣值Rm,n表示用戶M瀏覽頁(yè)面N的時(shí)間,將用戶-頁(yè)面矩陣R(MXN)轉(zhuǎn)化為用戶-資源類別矩陣C(MXX),其中矩陣值Cm,X表示用戶M瀏覽某一資源類別X的時(shí)間,對(duì)矩陣C(MXX)進(jìn)行加權(quán)過(guò)濾數(shù)據(jù)預(yù)處理,得到標(biāo)準(zhǔn)化的資源,從而形成用戶興趣矩陣;
[0016]采用K -平均聚類算法對(duì)用戶進(jìn)行聚類,用戶的相似度選取余弦相似度來(lái)評(píng)價(jià);
[0017]D、針對(duì)相似用戶的興趣愛(ài)好建立推薦資源池;
[0018]用戶i對(duì)頁(yè)面j的興趣度Uu可以表示為在頁(yè)面j總的停留時(shí)間與用戶i對(duì)所有頁(yè)面瀏覽時(shí)間總和的比值與頁(yè)面j的字節(jié)數(shù)與所有訪問(wèn)頁(yè)面字節(jié)數(shù)之和比值的乘積,即:
【權(quán)利要求】
1.一種基于Web日志數(shù)據(jù)的信息個(gè)性化推薦方法,步驟如下: A、用戶通過(guò)多媒體瘦客戶端訪問(wèn)網(wǎng)絡(luò)上的資源,服務(wù)器將用戶此次的行為記錄在服務(wù)器日志文件中; B、對(duì)服務(wù)器中Web日志文件的數(shù)據(jù)進(jìn)行分析和預(yù)處理,排除掉訪問(wèn)量極少、不具代表性用戶的訪問(wèn)記錄及中轉(zhuǎn)頁(yè)即稱之為垃圾數(shù)據(jù)一些數(shù)據(jù),將原始半結(jié)構(gòu)化不容易被人讀懂的Web日志數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),例如只包含用戶IP、訪問(wèn)時(shí)間、訪問(wèn)頁(yè)面的url、訪問(wèn)字節(jié)數(shù)字段的數(shù)據(jù)表提取出來(lái)作為符合規(guī)則、準(zhǔn)確的數(shù)據(jù)源; 根據(jù)Web日志文件的內(nèi)容信息,在數(shù)據(jù)表中構(gòu)建相應(yīng)的字段,再將文本數(shù)據(jù)導(dǎo)入到數(shù)據(jù)表中; 對(duì)數(shù)據(jù)表中的數(shù)據(jù)進(jìn)行清理,將用戶訪問(wèn)信息中沒(méi)有意義的數(shù)據(jù),如后綴名為bmp、jpg、jpeg、php、jsp的這些訪問(wèn)記錄以及狀態(tài)碼不為200即表示不成功的訪問(wèn)的日志記錄刪除,只保留后綴名為HTML、HTM及XML的日志記錄;其中bmp表示位圖,jpg和jpeg表示略失真壓縮的圖形文件格式,php是超級(jí)文本預(yù)處理語(yǔ)言,在服務(wù)器端執(zhí)行的嵌入式HTML文檔的腳本語(yǔ)言,jsp表示嵌入式網(wǎng)頁(yè)腳本,HTML、HTM和XML都是網(wǎng)頁(yè)文件; Web日志文件默認(rèn)的狀態(tài)碼以2開(kāi)頭表示請(qǐng)求成功,以3開(kāi)頭表示用戶請(qǐng)求被重定向到其他位置,以4開(kāi)頭表示客戶端存在錯(cuò)誤,以5開(kāi)頭表示服務(wù)器端存在錯(cuò)誤; 根據(jù)用戶的IP識(shí)別出不同的用戶,選擇訪問(wèn)量達(dá)到一定值的用戶來(lái)進(jìn)行行為分析;根據(jù)用戶在整個(gè)站點(diǎn)的停留時(shí)間進(jìn)行會(huì)話識(shí)別,設(shè)定一個(gè)時(shí)間閾值,如果超過(guò)這個(gè)時(shí)間閾值則認(rèn)為新的會(huì)話開(kāi)始; 從用戶會(huì)話中找出有意義的訪問(wèn)頁(yè)面和訪問(wèn)路徑,將用戶在訪問(wèn)過(guò)程中為達(dá)到目的頁(yè)而不得不訪問(wèn)的鏈接頁(yè)面即中轉(zhuǎn)頁(yè)從會(huì)話中刪除; C、使用協(xié)同過(guò)濾技術(shù)建立用戶興趣矩陣,計(jì)算各個(gè)用戶之間的相似度,選擇一些具有較大相似度的用戶作為相似用戶; 用戶-頁(yè)面矩陣表示為R(MXN),其中矩陣值Rm,n表示用戶M瀏覽頁(yè)面N的時(shí)間,將用戶-頁(yè)面矩陣R(MXN)轉(zhuǎn)化為用戶-資源類別矩陣C (MXX),其中矩陣值Cm,X表示用戶M瀏覽某一資源類別X的時(shí)間,對(duì)矩陣C(MXX)進(jìn)行加權(quán)過(guò)濾數(shù)據(jù)預(yù)處理,得到標(biāo)準(zhǔn)化的資源,從而形成用戶興趣矩陣; 采用K -平均聚類算法對(duì)用戶進(jìn)行聚類,用戶的相似度選取余弦相似度來(lái)評(píng)價(jià); D、針對(duì)相似用戶的興趣愛(ài)好建立推薦資源池; 用戶i對(duì)頁(yè)面j的興趣度Uu可以表示為在頁(yè)面j總的停留時(shí)間與用戶i對(duì)所有頁(yè)面瀏覽時(shí)間總和的比值與頁(yè)面j的字節(jié)數(shù)與所有訪問(wèn)頁(yè)面字節(jié)數(shù)之和比值的乘積,即:
【文檔編號(hào)】G06F11/34GK103678652SQ201310717507
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年12月23日 優(yōu)先權(quán)日:2013年12月23日
【發(fā)明者】袁東風(fēng), 馬翠云 申請(qǐng)人:山東大學(xué)