亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)與方法與流程

文檔序號:11063493閱讀:799來源:國知局
基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)與方法與制造工藝

本發(fā)明涉及推薦算法及其系統(tǒng),更具體地說,涉及一種基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)與方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的流行,人們的生活越來越離不開網(wǎng)絡(luò),越來越多的人選擇在網(wǎng)絡(luò)上進(jìn)行娛樂或購物。面對日益擴大的用戶需求,以及越來越豐富的資源,如何能夠充分理解用戶的需求,快捷地為用戶找到自己需要的資源,成為吸引用戶的一個有力手段?;诖诵枨螅瑐€性化推薦技術(shù)漸漸受到重視,如今已經(jīng)進(jìn)入一個成熟發(fā)展的階段。

個性化推薦技術(shù),是用戶行為分析技術(shù)的一個重要方面,簡單的說,它就是一個為用戶找到他可能感興趣的資源的過程。為了實現(xiàn)個性化的資源推薦,必須“懂”用戶、“懂”資源。通過對用戶資料及大量歷史行為的分析,從中得出用戶的興趣知識,然后以一種合理的方式來表示用戶興趣。同時對資源進(jìn)行組織,選取合理表達(dá)方式來表達(dá)資源特征。然后采用恰當(dāng)?shù)耐扑]算法,匹配用戶興趣與資源特征,完成推薦。

基于內(nèi)容的信息推薦方法的理論依據(jù)主要來自于信息檢索和信息過濾,所謂的基于內(nèi)容的推薦方法就是根據(jù)用戶過去的瀏覽記錄來向用戶推薦用戶沒有接觸過的推薦項。主要是從兩個方法來描述基于內(nèi)容的推薦方法:啟發(fā)式的方法和基于模型的方法。啟發(fā)式的方法就是用戶憑借經(jīng)驗來定義相關(guān)的計算公式,然后再根據(jù)公式的計算結(jié)果和實際的結(jié)果進(jìn)行驗證,然后再不斷修改公式以達(dá)到最終目的。而對于模型的方法就是根據(jù)以往的數(shù)據(jù)作為數(shù)據(jù)集,然后根據(jù)這個數(shù)據(jù)集來學(xué)習(xí)出一個模型。

一般的推薦系統(tǒng)中運用到的啟發(fā)式的方法就是使用tf-idf的方法來計 算,跟還有tf-idf的方法計算出這個文檔中出現(xiàn)權(quán)重比較高的關(guān)鍵字作為描述用戶特征,并使用這些關(guān)鍵字作為描述用戶特征的向量;然后再根據(jù)被推薦項中的權(quán)重高的關(guān)鍵字來作為推薦項的屬性特征,然后再將這個兩個向量最相近的(與用戶特征的向量計算得分最高)的項推薦給用戶。在計算用戶特征向量和被推薦項的特征向量的相似性時,一般使用的是cosine方法,計算兩個向量之間夾角的cosine值。

然而,推薦系統(tǒng)在發(fā)展和應(yīng)用的過程中,受到了各種問題不同程度的影響,特別是稀疏性問題和概念漂移問題已成為影響推薦質(zhì)量的最主要問題。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中存在的稀疏性問題和概念漂移問題,本發(fā)明的目的是提供一種基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)與方法。

為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于協(xié)同過濾的內(nèi)容推薦系統(tǒng),包括依次連接的數(shù)據(jù)預(yù)處理模塊、算法混合模塊、結(jié)果生成模塊。其中,算法混合模塊進(jìn)一步包括算法選擇單元、基于加權(quán)相似度的協(xié)作推薦算法單元、基于平衡評分預(yù)測機制的協(xié)作推薦算法單元、基于評分填充的混合推薦算法單元、利用評分時間特性的協(xié)作推薦算法單元。算法混合模塊將預(yù)處理的數(shù)據(jù)分別輸入基于加權(quán)相似度的協(xié)作推薦算法單元、基于平衡評分預(yù)測機制的協(xié)作推薦算法單元、基于評分填充的混合推薦算法單元、利用評分時間特性的協(xié)作推薦算法單元,算法選擇單元選擇最匹配的算法結(jié)果,并將算法結(jié)果輸出至結(jié)果生成模塊。

根據(jù)本發(fā)明的一實施例,基于加權(quán)相似度的協(xié)作推薦算法單元執(zhí)行以下操作:計算項目評分重合因子和基于項目的加權(quán)相似度;選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,基于平衡評分預(yù)測機制的協(xié)作推薦算法單元 執(zhí)行以下操作:計算基于項目的相似度;統(tǒng)計項目評分的中位數(shù)和權(quán)重平衡參數(shù);選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,基于評分填充的混合推薦算法單元執(zhí)行以下操作:表示推薦項目內(nèi)容;基于內(nèi)容用戶模型進(jìn)行學(xué)習(xí);計算基于內(nèi)容的相似度;基于CBF的評分預(yù)測與填充;計算基于評分的相似度;選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,利用評分時間特性的協(xié)作推薦算法單元執(zhí)行以下操作:計算項目評分排序和時間權(quán)重;計算項目間基于時間的加權(quán)相似度;選擇鄰居項目;基于項目的加權(quán)評分進(jìn)行推薦預(yù)測。

為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于協(xié)同過濾的內(nèi)容推薦方法,包括以下步驟:數(shù)據(jù)預(yù)處理;將預(yù)處理的數(shù)據(jù)分別進(jìn)行基于加權(quán)相似度的協(xié)作推薦算法、基于平衡評分預(yù)測機制的協(xié)作推薦算法、基于評分填充的混合推薦算法、利用評分時間特性的協(xié)作推薦算法;選擇最匹配的算法結(jié)果,并將算法結(jié)果作為推薦內(nèi)容。

根據(jù)本發(fā)明的一實施例,基于加權(quán)相似度的協(xié)作推薦算法包括以下步驟:計算項目評分重合因子和基于項目的加權(quán)相似度;選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,基于平衡評分預(yù)測機制的協(xié)作推薦算法包括以下步驟:計算基于項目的相似度;統(tǒng)計項目評分的中位數(shù)和權(quán)重平衡參數(shù);選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,基于評分填充的混合推薦算法包括以下步驟:表示推薦項目內(nèi)容;基于內(nèi)容用戶模型進(jìn)行學(xué)習(xí);計算基于內(nèi)容的相似度;基于CBF的評分預(yù)測與填充;計算基于評分的相似度;選擇鄰居項目;基于項目評分進(jìn)行推薦預(yù)測。

根據(jù)本發(fā)明的一實施例,利用評分時間特性的協(xié)作推薦算法包括以下步驟:計算項目評分排序和時間權(quán)重;計算項目間基于時間的加權(quán)相似度;選擇鄰居項目;基于項目的加權(quán)評分進(jìn)行推薦預(yù)測。

在上述技術(shù)方案中,本發(fā)明的基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)與方法較好地解決了推薦系統(tǒng)中的稀疏性問題和概念漂移問題,使得結(jié)果與實際情況的匹配度更高。

附圖說明

圖1是本發(fā)明基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)的結(jié)構(gòu)示意圖;

圖2是評分時間權(quán)重衰減曲線示意圖。

具體實施方式

下面結(jié)合附圖和實施例進(jìn)一步說明本發(fā)明的技術(shù)方案。

參照圖1,本發(fā)明公開一種基于協(xié)同過濾的內(nèi)容推薦系統(tǒng)及其對應(yīng)的方法。如圖1所示,本發(fā)明的系統(tǒng)包括依次連接的數(shù)據(jù)預(yù)處理模塊1、算法混合模塊2、結(jié)果生成模塊3,并且算法混合模塊2進(jìn)一步包括算法選擇單元21、基于加權(quán)相似度的協(xié)作推薦算法單元22、基于平衡評分預(yù)測機制的協(xié)作推薦算法單元23、基于評分填充的混合推薦算法單元24、利用評分時間特性的協(xié)作推薦算法單元25。

根據(jù)圖1所示的結(jié)構(gòu),算法混合模塊2將預(yù)處理的數(shù)據(jù)分別輸入基于加權(quán)相似度的協(xié)作推薦算法單元22、基于平衡評分預(yù)測機制的協(xié)作推薦算法單元23、基于評分填充的混合推薦算法單元24、利用評分時間特性的協(xié)作推薦算法單元25,而算法選擇單元21選擇最匹配的算法結(jié)果,并將算法結(jié)果輸出至結(jié)果生成模塊3。

下面來進(jìn)一步詳細(xì)說明上述各個單元所執(zhí)行的算法。

1.基于加權(quán)相似度的協(xié)作推薦算法單元22:

本發(fā)明針對稀疏性問題,通過對推薦的各執(zhí)行過程的相似性計算進(jìn)行必要修正克服和緩解稀疏性問題的影響,提出了基于加權(quán)相似度的協(xié)作推薦算法,引用了適應(yīng)不同項目評分?jǐn)?shù)量分布的重合因子(Overlap Factor),并通過重合因子實現(xiàn)對傳統(tǒng)相似度計算的修正和改進(jìn)。

重合因子從數(shù)量上度量了項目間公共評分在項目全局評分中所占比重,刻劃了項目間公共評分的重合程度,強調(diào)了公共評分重合度在相似性度量中的重要性,通過將其作用于基于項目的相似度,可以從評分重合的角度區(qū)分相似度計算結(jié)果的可信度,即評分重合程度越高,則計算得到的相似度就越能反映項目間的真實相關(guān)性,反之,相似度計算的可信度則越低。對于參加項目間相似度計算的任意兩項目ti和tj,已分別對兩項目進(jìn)行過評分的用戶集合為Ui={uc|uc∈U∧rci≠0}和Uj={u|uc∈U∧rcj≠0},則評分重合因子可形式化為

式2-1

不同于顯著性權(quán)重只與公共評分的絕對數(shù)量相關(guān),通過公式2-1計算獲得的重合因子不僅正比于兩項目的公共評分?jǐn)?shù)量,還反比于兩項目各自的用戶評分?jǐn)?shù)量,保證評分重合因子可以適應(yīng)不同項目的評分?jǐn)?shù)量分布。通過使用重合因子可對傳統(tǒng)相似度進(jìn)行修正,形成對應(yīng)的加權(quán)夾角余弦相似度(Weighted COsine SIMilarity,WCOSIM)和加權(quán)皮爾遜相關(guān)系數(shù)(Weighted Pearson Correlation Coefficient,WPCC),二者形式上可表示為傳統(tǒng)相似度與重合因子的乘積,如公式所示。

式2-2

式2-3

需要注意,本發(fā)明提出的重合因子都是全局相似度修正方案,是對CF 中的所有項目間相似度進(jìn)行的整體調(diào)整,而非局部獨立相似度的修正,這種全局修正相似度只在整體使用時有意義。在此基礎(chǔ)之上,通過將上述加權(quán)相似度集成到傳統(tǒng)IBCF推薦過程中,本發(fā)明提出了基于加權(quán)相似度的協(xié)作推薦算法WSBCF(Weighted Similarity-Boosted Collaborative Filtering),WSBCF算法的執(zhí)行過程可分為以下3步:

(1)項目評分重合因子和基于項目的加權(quán)相似度計算

根據(jù)評分矩陣按照公式2-1計算任意項目ti和tj之間的重合因子,并通過公式計算任意項目間的加權(quán)相似度。

(2)鄰居項目選擇

針對目標(biāo)用戶uc的任意未訪問項目根據(jù)步驟(1)獲得的項目間加權(quán)相似度,對用戶uc的已訪問項目進(jìn)行降序排序,并根據(jù)相對鄰居選擇閾值參數(shù)θ,選擇top-θ部分項目作為項目ti的鄰居集合Tci。

(3)基于項目的評分預(yù)測

針對目標(biāo)用戶uc的任意未訪問項目根據(jù)目標(biāo)用戶uc的已有評分、項目ti的鄰居項目集合Tci及相似度sim,采用如下公式對項目ti進(jìn)行評分預(yù)測

式2-4

WSBCF算法在評分預(yù)測過程中,采用了傳統(tǒng)加權(quán)評分聚合方法,根據(jù)目標(biāo)用戶的已有評分和目標(biāo)項目的鄰居,以鄰居與目標(biāo)項目的相似度為權(quán)重,通過加權(quán)求和實現(xiàn)對目標(biāo)項目的評分預(yù)測。WSBCF的總時間復(fù)雜度為O(mn)+O(mn2)+O(n),這對傳統(tǒng)IBCF的時間復(fù)雜度O(mn2)的影響有限。

2.基于平衡評分預(yù)測機制的協(xié)作推薦算法單元23:

為了從評分預(yù)測角度減少稀疏性問題對IBCF推薦算法的影響,可在個性化評分與全局評分之間建立一種動態(tài)平衡。本發(fā)明建立了一種結(jié)合個 性化評分與全局評分的動態(tài)平衡評分預(yù)測機制,并提出了一種基于平衡評分預(yù)測機制的協(xié)作推薦算法。

為使兩類評分在基于項目的評分預(yù)測中都能發(fā)揮各自的作用,本發(fā)明提出的動態(tài)平衡評分預(yù)測機制是一種關(guān)于兩類評分的線性組合。同時,為了保持兩類評分的動態(tài)平衡,可通過權(quán)重的變化來動態(tài)調(diào)整二者所發(fā)揮的作用,而將全局評分?jǐn)?shù)據(jù)的分布特性作為權(quán)重動態(tài)調(diào)整的主要依據(jù)。針對推薦系統(tǒng)的任意用戶uc及其未訪問項目ti,集成兩類評分的動態(tài)平衡評分預(yù)測可形式化為

式2-5

其中,表示針對目標(biāo)項目ti基于項目的個性化評分,該個性化評分采用了公式2-12所描述的IBCF評分預(yù)測方法,gi為目標(biāo)項目的全局評分,而αi為個性化評分與全局評分之間的權(quán)重平衡參數(shù)。

針對稀疏性問題對評分預(yù)測過程的影響,結(jié)合上述動態(tài)平衡評分預(yù)測機制,通過對傳統(tǒng)IBCF評分預(yù)測過程進(jìn)行必要的修正,形成一種基于平衡評分預(yù)測機制的協(xié)作推薦算法IBCFBP(Item-Based Collaborative Filtering integrating Balanced Prediction),該算法的執(zhí)行過程主要包括以下4步:

(1)基于項目的相似度計算

基于已有評分?jǐn)?shù)據(jù),通過基于項目的相似度計算方法度量項目之間的相似度,對于任意項目ti和tj,基于項目的COSIM相似度可表示為

式2-6

或者采用基于項目的PCC相似度,可表示為

式2-7

(2)統(tǒng)計項目評分中位數(shù)和權(quán)重平衡參數(shù)

根據(jù)任意項目ti已獲得的評分?jǐn)?shù)據(jù),統(tǒng)計該項目的全局評分中位數(shù)gi,并采用公式2-5、2-6或者2-7之一統(tǒng)計該項目全局評分?jǐn)?shù)據(jù)的分散性,以表示平衡評分預(yù)測機制的權(quán)重平衡參數(shù)αi。

(3)鄰居項目選擇

針對目標(biāo)用戶uc的任意未訪問項目ti,根據(jù)該用戶對已訪問項目的評分,結(jié)合步驟(1)計算獲得的項目間相似度,對用戶uc的已訪問項目進(jìn)行降序排序,并選擇top-θ部分項目作為項目ti的鄰居項目集合Tci

(4)基于項目的評分預(yù)測

針對用戶uc的任意未訪問項目ti,根據(jù)該用戶的已有評分、項目ti的鄰居項目集合Tci以及相關(guān)相似度,采用公式對項目ti進(jìn)行平衡評分預(yù)測。

IBCFBP的總時間復(fù)雜度為O(n)+O(mn2)+O(n),與傳統(tǒng)協(xié)作推薦算法的時間復(fù)雜度O(mn2)相當(dāng),而且項目中位數(shù)和權(quán)重平衡參數(shù)的計算均可離線完成,所以二者對推薦的計算效率影響基本可以忽略。

3.基于評分填充的混合推薦算法單元24:

本發(fā)明提出了一種基于評分填充的混合推薦算法HRRF(Hybrid Recommendation based on Rating Filling),該算法可根據(jù)用戶已訪問項目的信息內(nèi)容實現(xiàn)自動化用戶建模,并將基于內(nèi)容的用戶模型用于實現(xiàn)對用戶未訪問項目的個性化評分填充,提高了評分矩陣的整體密度,進(jìn)而基于經(jīng)填充處理的評分矩陣,采用IBCF推薦框架實現(xiàn)評分的預(yù)測,HRRF從評分填充的角度,減少了稀疏性問題通過評分矩陣對CF相似度計算和評分預(yù)測過程的影響。

基于內(nèi)容的用戶模型是HRRF實現(xiàn)評分填充的依據(jù),HRRF基于內(nèi)容 的用戶模型在本質(zhì)上起到了Filterbot的作用,但不同于Filterbot人工構(gòu)造的方式,HRRF的用戶模型是通過機器學(xué)習(xí)自動構(gòu)造的。將用戶模型的構(gòu)造理解為一種基于機器學(xué)習(xí)的文本分類任務(wù),根據(jù)已訪問項目的內(nèi)容信息,通過一定的機器學(xué)習(xí)算法可以自動訓(xùn)練針對不同用戶的分類模型,并將該模型作為相應(yīng)的用戶描述,HRRF采用了Rocchio學(xué)習(xí)算法來實現(xiàn)基于內(nèi)容的用戶建模,也可以根據(jù)實際推薦環(huán)境選擇其他機器學(xué)習(xí)算法來訓(xùn)練用戶模型。

HRRF混合推薦算法的整體執(zhí)行過程可以描述為以下7個步驟:

(1)推薦項目內(nèi)容表示

因為HRRF的用戶模型是建立在推薦對象的內(nèi)容基礎(chǔ)上的,所以首先需要對信息對象的內(nèi)容進(jìn)行表示,HRRF采用了傳統(tǒng)的VSM模型表示推薦對象的內(nèi)容,設(shè)推薦系統(tǒng)包含由n個推薦項目構(gòu)成的項目集合T={ts|1≤s≤n},用于描述項目內(nèi)容的特征空間為X={x1,x2,...,xd},推薦對象ti的特征向量為其中特征分量表示特征xj對于項目ti的權(quán)重。設(shè)表示特征xj在項目ti內(nèi)容中出現(xiàn)的詞頻,而dfj表示包含特征xj的項目個數(shù),則特征權(quán)重可表示為

式2-8

(2)基于內(nèi)容用戶模型的學(xué)習(xí)

HRRF的用戶模型使用了與推薦項目相同的特征空間X={x1,x2,...,xd},設(shè)推薦系統(tǒng)的用戶集合U={uc|1≤c≤m},用戶ui基于內(nèi)容的用戶模型表示為根據(jù)用戶已有正例評分項目集合T+和負(fù)例評分項目集合T-,評分分類的閾值選擇該目標(biāo)用戶的評分均值,根據(jù)Rocchio學(xué)習(xí)算法訓(xùn)練用戶模型的特征權(quán)重可表示為

式2-9

由于Rocchio學(xué)習(xí)算法是一種批學(xué)習(xí)算法(Batch Learning),所以用戶模型必須進(jìn)行周期性更新,但模型的更新可以離線完成,不會對推薦系統(tǒng)的在線計算性能造太大影響。

(3)基于內(nèi)容的相似度計算

根據(jù)步驟(2)所獲得的基于內(nèi)容的用戶模型,針對推薦系統(tǒng)中的任意用戶ui,通過傳統(tǒng)基于內(nèi)容的相似度計算方法度量該用戶與其任意未評分項目tj在內(nèi)容上的相似度,例如,可以采用公式2-10的COSIM相似度計算形式。

式2-10

(4)基于CBF的評分預(yù)測與填充

為了提高評分矩陣的整體密度,根據(jù)步驟(3)獲得的用戶模型與未評分項目間的相似度,采用傳統(tǒng)CBF對用戶的未訪問項目進(jìn)行評分預(yù)測,并使用預(yù)測評分填充相應(yīng)的評分矩陣位置,形成用戶-項目評分全矩陣。在評分值域范圍為[min,max]的推薦系統(tǒng)中,對于用戶ui以及其任意未訪問項目tj,則預(yù)測評分值為

r′ij=min+s(i,j)|max-min| 式2-11

(5)基于評分的相似度計算

通過步驟(1)-(4)的處理,原始稀疏用戶評分矩陣已得到了填充處理, 后續(xù)步驟將采用IBCF算法實現(xiàn)推薦,對于任意項目ti和tj,二者間基于項目的COSIM相似度為

式2-12

注意,需要根據(jù)用戶是否已訪問過項目ti,決定選擇基于內(nèi)容的填充評分值r′ci或原始評分值rci來表示公式2-12中的評分r″ci,即

式2-13

(6)鄰居項目選擇

針對目標(biāo)項目ti,根據(jù)步驟(5)獲得的項目間相似度,對所有其他項目進(jìn)行降序排序,并選擇最相似的k個項目構(gòu)成項目ti的鄰居集合Ti

(7)基于項目的評分預(yù)測

針對目標(biāo)用戶ui的任意未訪問項目tj,通過IBCF方法進(jìn)行該項目的評分預(yù)測。鑒于通過CBF生成的填充評分在可信度上要低于真實評分,在評分預(yù)測過程中,通過適當(dāng)縮小相似度來降低評分填充值在評分預(yù)測中的作用,評分預(yù)測的計算可表示為

式2-14

TIBCF算法只在相似度計算和評分預(yù)測過程中引入了時間權(quán)重,從計算量上來看,時間權(quán)重的加入對推薦的整體計算復(fù)雜度影響有限。

4.利用評分時間特性的協(xié)作推薦算法單元25:

目前的推薦算法沒有建立感知用戶興趣變化的動態(tài)機制,所形成的用戶興趣模型是一種靜態(tài)模型,隨著概念漂移的發(fā)生,推薦系統(tǒng)的推薦質(zhì)量將表現(xiàn)的不穩(wěn)定,特別是用戶興趣發(fā)生突變時,推薦的準(zhǔn)確性將急劇惡化。因此,發(fā)明針對時漂移問題,發(fā)明提出了一種利用評分時間特性的協(xié)作推薦算法TIBCF(Temporal Item-Based Collaborative Filtering,TIBCF)。

本發(fā)明提出的TIBCF算法在克服概念漂移的過程中,需要根據(jù)評分的生成時間對評分的重要性進(jìn)行區(qū)分。因此,TIBCF算法對傳統(tǒng)評分矩陣進(jìn)行了必要的完善,除記錄評分?jǐn)?shù)值外,還記錄了評分的產(chǎn)生時間信息,TIBCF算法中的用戶-項目評分矩陣可表示為:

R(m×n)={<rij,dij>|(ui∈U)∧(tj∈T)∧(0≤rij≤q)∧(dij=NULL∨dij∈DateTime)}

用戶ui針對項目tj的評分信息在評分矩陣R(m×n)表示為二元組<rij,dij>,rij和dij分別對應(yīng)評分值和評分時間。為了在相似度計算和評分預(yù)測中從時間角度區(qū)分評分的重要性,TIBCF算法引入了時間權(quán)重的概念,為不同時間產(chǎn)生的評分賦予相應(yīng)的時間權(quán)重。針對用戶ui在時間dij對項目tj所產(chǎn)生的評分rij,TIBCF根據(jù)公式的指數(shù)衰減函數(shù)形式計算該評分的時間權(quán)重w(i,j)。

式2-15

其中,Ri為用戶ui的歷史評分有序集合,RK函數(shù)表示評分rij在Ri中的位置編號。結(jié)合文獻(xiàn)中AWS的方法,TIBCF設(shè)置評分權(quán)重的半衰期(Half-Life Span)為λ/log(|Ri|),其既與用戶的評分?jǐn)?shù)量相關(guān),又與衰減參數(shù)λ相關(guān)。通過衰減參數(shù)λ可以調(diào)整半衰期的長度,λ的選擇與具體應(yīng)用的評分分布有關(guān),可以通過實驗獲得,也可依據(jù)推薦系統(tǒng)準(zhǔn)確性的變化而動態(tài)調(diào)整。對于具有500個評分的用戶,圖2展示了λ=300和λ=500時評分權(quán)重衰減曲線的示例。

在根據(jù)公式計算獲得用不同評分的時間權(quán)重后,TIBCF在傳統(tǒng)IBCF算法的相似度計算和評分預(yù)測中都集成了該權(quán)重,從而分別實現(xiàn)相應(yīng)基于時間的加權(quán)相似度計算和加權(quán)評分預(yù)測,通過對IBCF兩個關(guān)鍵過程進(jìn)行基于時間的修正,可以最大限度地減少概念漂移問題對推薦的影響。TIBCF推薦算法的執(zhí)行過程可以分為以下4個步驟:

(1)項目評分排序和時間權(quán)重計算

針對任意用戶按照該用戶已有評分的產(chǎn)生時間由近至遠(yuǎn),對其所有歷史評分進(jìn)行按時間的排序生成歷史評分有序集合Ri,計算用戶ui的任意歷史評分rij的時間權(quán)重w(i,j)。

(2)項目間基于時間的加權(quán)相似度計算

通過步驟(1)獲得所有評分的時間權(quán)重后,對系統(tǒng)中的任意兩項目ti和tj,按照公式2-15或2-16計算二者間基于時間的加權(quán)皮爾遜相關(guān)系數(shù)(Temporal Pearson Correlation Coefficient,TPCC)或基于時間的加權(quán)夾角余弦相似度(Temporal COsine SIMilarity,TCOSIM)。

式2-16

式2-17

(3)鄰居項目選擇

針對目標(biāo)用戶uc的任意未訪問項目ti,根據(jù)步驟(2)獲得的項目間相似度,對用戶uc的所有已訪問項目進(jìn)行降序排序,并選擇top-θ部分項目作為項目ti的鄰居項目集合Tci。

(4)基于項目的加權(quán)評分預(yù)測

針對目標(biāo)用戶uc的任意未訪問項目ti,根據(jù)用戶uc的已有評分、ti的鄰居項目集合Tci、評分時間權(quán)重w及相應(yīng)加權(quán)相似度sim,通過如下公式對項目ti進(jìn)行評分預(yù)測

式2-18

TIBCF算法只在相似度計算和評分預(yù)測過程中引入了時間權(quán)重,從計算量上來看,時間權(quán)重的加入對推薦的整體計算復(fù)雜度影響有限,仍可以保持與傳統(tǒng)IBCF算法O(mn2)相當(dāng)?shù)挠嬎銜r間復(fù)雜度水平。

本技術(shù)領(lǐng)域中的普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,以上的實施例僅是用來說明本發(fā)明,而并非用作為對本發(fā)明的限定,只要在本發(fā)明的實質(zhì)精神范圍內(nèi),對以上所述實施例的變化、變型都將落在本發(fā)明的權(quán)利要求書范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1