一種協(xié)同過濾推薦算法中改進的相似性度量方法
【專利摘要】一種協(xié)同過濾推薦算法中改進的相似性度量方法,包括以下步驟。S1、創(chuàng)建用戶集合U={U1,U2,…,Un}中n個用戶對項目集合I={I1,I2,…,Im}中m個項目的評分矩陣R(n×m),以Ra,i表示用戶Ua對項目Ii的評分,其中Ua∈U,Ii∈I。S2、分別計算用戶Ua和Ub之間的相似度sim(Ua,Ub),項目Ii和Ij之間的相似度sim(Ii,Ij),定義相似度影響因子ε,使sim'(Ua,Ub)=ε×sim(Ua,Ub),sim'(Ii,Ij)=ε×sim(Ii,Ij)。S3、在[0,1]區(qū)間取參數(shù)λ,根據(jù)所述λ、ε、用戶對項目的評分均值、用戶之間的相似度及項目之間的相似度,預(yù)測用戶對項目的評分。
【專利說明】一種協(xié)同過濾推薦算法中改進的相似性度量方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及推薦系統(tǒng)研究中協(xié)同過濾(Collaborative filtering)推薦技術(shù),尤其涉及一種協(xié)同過濾推薦算法中改進的相似性度量方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的迅速普及和電子商務(wù)的快速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)據(jù)急劇增長,如何使用戶快速高效地從浩瀚的數(shù)據(jù)海洋中獲取所需信息變得越來越緊迫。因此為用戶提供主動推薦服務(wù)也越來越多地被應(yīng)用到各種門戶網(wǎng)站和電子商務(wù)系統(tǒng)中。這些系統(tǒng)通過收集用戶的歷史信息,學(xué)習用戶的興趣和行為模式,并分析用戶的行為特征,從而為其提供推薦服務(wù)。
[0003]協(xié)同過濾推薦技術(shù)在推薦系統(tǒng)領(lǐng)域應(yīng)用非常廣泛,主要分為兩類:基于用戶的協(xié)同過濾(User-based Collaborative Filtering)和基于項目的協(xié)同過濾(Item-basedCollaborative Filtering),基本思想是基于最近鄰向目標用戶產(chǎn)生推薦,最終推薦形式有評分預(yù)測及Top-N推薦。Tapestry是最早被提出來的協(xié)同過濾推薦系統(tǒng),記錄了每個用戶閱讀文章的觀點,目標用戶需要明確地指出與自己行為類似的其他用戶。GroupLens、Ringo以及Video Recommender也是較早期的協(xié)同過濾推薦系統(tǒng),通過其他用戶的意見來給用戶分別提供電影、新聞和音樂等推薦服務(wù)。
[0004]隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴大,用戶數(shù)目和項目數(shù)據(jù)的急劇增加,導(dǎo)致用戶項目的評分數(shù)據(jù)極端稀疏。在用戶評分數(shù)據(jù)極端稀疏的情況下,傳統(tǒng)的相似性度量方法依賴于共同評分的項目個數(shù),使得傳統(tǒng)的相似性度量存在著一定的偶然性,計算得到的目標用戶及項目的最近鄰不準確,從而導(dǎo)致推薦系統(tǒng)的推薦質(zhì)量下降。
[0005]協(xié)同過濾推薦算法中主要通過相似性來預(yù)測用戶對項目的評分,相似性可分別依據(jù)用戶或項目之間關(guān)系進行度量,且相似性度量的精確性直接關(guān)系到整個推薦系統(tǒng)的推薦質(zhì)量。
[0006]相似性計算可以是基于用戶之間的相似性計算,也可以是基于項目之間的相似性計算。以sim(Ua,Ub)表示用戶Ua和用戶Ub之間的相似性,則首先獲取用戶Ua和用戶Ub已評分的所有項目,然后通過不同的相似性度量方法計算用戶Ua和用戶Ub之間的相似性Sim(UalUb)0同理,將項目Ii和項目Ij之間的相似性記為Simdi, I」),則獲取項目Ii和項目Ij已有的所有用戶評分,并根據(jù)已有評分值獲取項目Ii和項目Ij之間的相似性Simdi, Ij)。
[0007]常見的相似性度量標準包括:余弦相似性、相關(guān)相似性以及修正的余弦相似性。在余弦相似性度量方法中,構(gòu)建用戶項目評分矩陣R(nXm)。如果用戶對項目沒有評分,則假設(shè)該用戶對項目的評分為O。通過將用戶對項目的未知評分設(shè)為0,可以有效地提高相似性計算的性能,但是當用戶及項目數(shù)量非常巨大、用戶對項目的評分數(shù)據(jù)極端稀疏的情況下,將未知評分設(shè)置為O的可信度并不高。
[0008]實際上,用戶對未評分項目的喜好程度不可能完全相同或完全不同。當用戶比和用戶Ub對項目均未有評分時,將用戶對項目的評分都設(shè)為0,無疑在計算用戶Ua和用戶Ub之間的相似度時提高了其相似度值,因為他們對項目的評分并不一定會完全相同為O。因此,當用戶評分數(shù)據(jù)極端稀疏時,將未知評分設(shè)為O對計算相似度值影響性較高。當用戶Ua和用戶Ub中有一個用戶對項目給出評分,而另一個用戶未給出評分時,未知的評分被設(shè)為O將會使相似度的計算值小于其實際值,但當用戶評分數(shù)據(jù)極端稀疏時,該影響將會較小。
[0009]由此可見,在用戶評分數(shù)據(jù)極端稀疏的情況下,余弦相似性并不能有效地度量用戶之間的相似性,余弦相似度的計算值實際上提高了用戶間的相似度,而修正的余弦相似性度量方法也存在同樣的問題。
[0010]在相關(guān)相似性度量方法中,設(shè)&表示用戶Ua評分的項目集合,在計算用戶比和
用戶Ub之間的相似性時,首先需要計算經(jīng)用戶Ua和用戶Ub共同評分的項目交集;
1VaUb Α?,然后在項目集合上通過相關(guān)相似性的度量方法計算用戶Ua和用戶Ub
之間的相似性。但是,通過相關(guān)相似性度量相似性的可信度依賴于評分項目交集4?的大小,共同評分的項目數(shù)越多,其度量的相似性的可信度才越高。在用戶評分數(shù)據(jù)極端稀疏的情況下,經(jīng)兩個用戶共同評分的項目集合更小,即使在這樣小的項目集合上評分非常
相似,也不能確定用戶之間的相似性比較高。當用戶的已有評分項目相同時,即貝IJ
通過它們的交集來度量用戶間相似性,其相似性度量結(jié)果的可信度較高。當1<Iua
時,通過用戶評分項目的交集部分度量用戶間的相似性無疑將會提高用戶間的相似性,因為在用戶評分項目的非交集部分倆用戶的評分偏差并不一定完全相同,而僅通過其交集部分計算用戶的相似性,其方法類似于將非交集部分的用戶評分偏差設(shè)為相同均為0,該方法將會使計算所得的相似度高于實際值。因此,在用戶評分數(shù)據(jù)極端稀疏的情況下,相關(guān)相似性的度量方法也存在著一定的弊端。
[0011]綜上所述,為使相似度值盡可能少地受稀疏度影響,本發(fā)明提出采用相似度影響因子改進相似性度量標準的方法。
【發(fā)明內(nèi)容】
[0012]本發(fā)明提供一種協(xié)同過濾推薦算法中改進的相似性度量方法,包括以下步驟:
[0013]S1、創(chuàng)建用戶集合U= IU1, U2,…,UJ中η個用戶對項目集合I=U1, I2,…,IJ中m個項目的評分矩陣R(nXm),以Ra,i表示用戶Ua對項目Ii的評分,其中Ua e U,Ii e I ;
[0014]S2、分別計算用戶Ua和Ub之間的相似度sim(Ua,Ub),項目Ii和Ij之間的相似度Simdi, Ij),定義相似度影響因子ε,使sim’ (Ua, Ub)= ε Xsim(Ua, Ub),sim,(Ii, Ij)= ε Xsimdi, Ij);
[0015]S3、在[0,I]區(qū)間取參數(shù)λ,根據(jù)所述λ、ε、用戶對項目的評分均值、用戶之間的相似度及項目之間的相似度,預(yù)測用戶對項目的評分。
[0016]優(yōu)選的,在步驟S2中,所述
【權(quán)利要求】
1.一種協(xié)同過濾推薦算法中改進的相似性度量方法,其特征在于,包括以下步驟: 51、創(chuàng)建用戶集合U=(U11U2,-,UJ中η個用戶對項目集合I = U1, I2,…,IJ中m個項目的評分矩陣R(nXm),以Ra,i表示用戶Ua對項目Ii的評分,其中Ua e U,Ii e I ; 52、分別計算用戶Ua和Ub之間的相似度sim(Ua, Ub),項目Ii和L之間的相似度Simdi, Ij),定義相似度影響因子 ε,使 sim,(Ua, Ub) = ε X sim (Ua, Ub), sim,(Ii, Ij)=ε Xsimdi, Ij); 53、在[O,I]區(qū)間取參數(shù)λ,根據(jù)所述λ、ε、用戶對項目的評分均值、用戶之間的相似度及項目之間的相似度,預(yù)測用戶對項目的評分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,所述
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,當sim’(Ua, Ub)=ε Xsim(Ua, Ub)時,所述
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S2中,OSε ^ 10
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S3中,預(yù)測用戶比對未瀏覽過的項目L評分為
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,λ=0時,所述Ry是基于項目相似度預(yù)測評分,λ=1時,所述Ra,i是基于用戶相似度預(yù)測評分。
【文檔編號】G06F17/30GK103500228SQ201310505323
【公開日】2014年1月8日 申請日期:2013年10月23日 優(yōu)先權(quán)日:2013年10月23日
【發(fā)明者】趙朋朋, 吳健, 冒九妹, 鮮學(xué)豐, 崔志明 申請人:蘇州大學(xué)