專利名稱:一種基于情景信息的個(gè)性化資源信息的推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息過濾和數(shù)據(jù)挖掘技術(shù)領(lǐng)域,是一種新型的基于情景信息的個(gè)性化
資源信息的推薦方法。
背景技術(shù):
隨著Web 2.0的發(fā)展,互聯(lián)網(wǎng)上的信息量成指數(shù)級(jí)增長。海量的信息使用戶快速 便捷的發(fā)現(xiàn)和獲取自己所需的信息變得困難。推薦系統(tǒng)作為信息過濾的重要手段,能自動(dòng) 的發(fā)現(xiàn)用戶感興趣的信息,有效的為用戶提供個(gè)性化服務(wù)。目前,推薦系統(tǒng)已融入各大電子 商務(wù)系統(tǒng),如Amazon, eBay, Youtube等,并仍以迅猛的勢(shì)頭發(fā)展。DVD在線租賃商N(yùn)etf lix 于2006年10月2日發(fā)起一項(xiàng)競(jìng)賽Netflix Prize,任何組織或個(gè)人只要能夠提交比它現(xiàn) 有電影推薦系統(tǒng)Cinematch效果好10X的新方法,就可以獲得一百萬美元的獎(jiǎng)金。
推薦算法在20世紀(jì)90年代被作為一個(gè)獨(dú)立的概念提出來。1997年Resnick和 Varian對(duì)推薦系統(tǒng)給出了非形式化的定義"推薦是利用電子商務(wù)網(wǎng)站向用戶提供商品信 息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買的過程"。
推薦系統(tǒng)根據(jù)推薦的方法可以分為基于內(nèi)容的推薦、協(xié)同過濾、混合推薦三種方 法?;趦?nèi)容的推薦是指根據(jù)用戶歷史的喜好信息,推薦具有類似屬性的資源。該方法的 不足在于推薦資源的單一性,以及對(duì)多媒體資源的內(nèi)容特征提取方面的問題,因此該方法 多用于網(wǎng)頁資源的推薦。協(xié)同過濾的方法通過尋找與用戶具有相同興趣愛好的用戶組,向 用戶推薦用戶組內(nèi)其他用戶喜好的資源。由于該方法的實(shí)時(shí)性和有效性,在實(shí)時(shí)推薦系統(tǒng) 中具有廣泛的應(yīng)用,但是也面臨了許多問題,如對(duì)新用戶或新資源推薦時(shí)的冷啟動(dòng)問題,評(píng) 分?jǐn)?shù)據(jù)的稀疏性問題,以及算法的可擴(kuò)展性問題等?;旌贤扑]方法是將以上幾種方法組合 使用的方法,目的在于彌補(bǔ)各種推薦方法的不足。 協(xié)同過濾推薦技術(shù)是推薦系統(tǒng)中最為成功的技術(shù)之一,它被廣泛的應(yīng)用 于電子商務(wù)類網(wǎng)站,該技術(shù)也成為學(xué)術(shù)界研究的熱點(diǎn)。Palmisano, Tuzhilin和 Gorgoglione[Palmisano, C. , Tuzhilin, A. , Gorgoglione, M. :Using Context to Improve Predictive Modeling of Customers inPersonalization Applications. IEEE Tra固ctiohs on Knowledge andData Engineering 20 (2008) 1535-1549]通過考察情景信 息(context)對(duì)推薦結(jié)果的影響,指出將情景信息加入?yún)f(xié)同過濾系統(tǒng)中以提高推薦的準(zhǔn)確 率,將是協(xié)同過濾未來發(fā)展的方向。這里,情景信息定義為電子商務(wù)應(yīng)用中用戶購買或?yàn)g覽 資源的目的。伴隨著Web 2. 0, delicious、Flickr、CiteULike等協(xié)作式標(biāo)注系統(tǒng)迅速發(fā)展 壯大,協(xié)作式標(biāo)注系統(tǒng)允許用戶根據(jù)自己的背景知識(shí)給資源標(biāo)注任意的標(biāo)簽,以達(dá)到共享、 發(fā)現(xiàn)和檢索資源的目的。這些協(xié)作式標(biāo)注系統(tǒng)提供了大量有價(jià)值的信息,如標(biāo)簽,它體現(xiàn)了 用戶喜好資源的原因;時(shí)間,它體現(xiàn)了用戶興趣的漂移。標(biāo)簽和時(shí)間作為協(xié)作式標(biāo)注系統(tǒng)里 的情景信息,可以為協(xié)同過濾推薦提供服務(wù)。 利用協(xié)作式標(biāo)注系統(tǒng)里的標(biāo)簽信息進(jìn)行推薦是近年推薦系統(tǒng)發(fā)展的新方向。 Nakamoto[Reyn Nakamoto, S.N. , Jun Miyazaki, ShunsukeUemura :Tag—based contextual
4collaborative filtering. IAENGInternational Journal of Computer Science 34(2) (2007)214-219]針對(duì)用戶標(biāo)簽的重疊性,提出了兩種tag-based contextual CF模型第 一個(gè)模型在計(jì)算用戶相似度的過程中使用標(biāo)簽信息,該模型過分依賴于通用的標(biāo)簽,當(dāng)標(biāo) 簽數(shù)量較少或者彼此疏遠(yuǎn)時(shí)該方法不適用。由于標(biāo)簽存在冗余性和模糊性等問題,如同義 詞、多義詞,該模型沒有考慮標(biāo)簽的自然語言理解方面的問題。第二個(gè)模型是在計(jì)算資源推 薦的過程中使用標(biāo)簽信息,該方法的不足在于當(dāng)用戶對(duì)標(biāo)簽的重疊使用率很低的時(shí)候,系 統(tǒng)很難做出推薦。A. -T. Ji等在[A. -T. Ji,C. Y. , H. _N. Kim, and G. _S. Jo. -Collaborative tagging in recommender systems. In Advances in Artificial Intelligence(AI2007), 377-386]中使用了三個(gè)矩陣user-item, user-tag, tag-item將加入標(biāo)簽的協(xié)同過濾推 薦分為兩個(gè)階段(i) Candidate tag set (CTS) generation :使用cos度量對(duì)user-tag矩 陣計(jì)算用戶相似度,找出用戶的k個(gè)近鄰KNN(u),通過近鄰計(jì)算得到w個(gè)CTS(u) ; (ii) Probabilistic recommendation :使用Na'ive Bayes概率模型針對(duì)該用戶喜好的CTS(u) 里的標(biāo)簽進(jìn)行資源的推薦。Tso-Sutter等在[Tso-Sutter, K. H. L. , Marinho, L. B., Schmidt—Thieme, L. :Tag—aware recommender systems by fusion ofcollaborative filtering algorithms. Proc. of the 2008ACMsymposium on Applied computing. ACM New York, NY, USA(2008) 1995-1999]中應(yīng)用簡(jiǎn)單的標(biāo)簽擴(kuò)展機(jī)制把標(biāo)簽加入到協(xié)同過 濾算法中通過將用戶、資源、標(biāo)簽之間的三維關(guān)系轉(zhuǎn)化為三個(gè)二維關(guān)系(user-item、 user-tag、 tag-item)應(yīng)用于合并的協(xié)同過濾方法(fusionmethod)向用戶推薦資源。結(jié) 果表明,標(biāo)簽應(yīng)用于合并方法可以有效的反映出用戶、資源、標(biāo)簽三者之間的關(guān)系,從而提 高推薦的效果。Zhao[Zhao, S. , Du, N. , Nauerz, A. , Zhang, X. , Yuan, Q. , Fu, R. -Improved recommendation based on collaborative tagging behaviors. Proc. of the 2008 ACM conference on Recommender systems (RecSys' 08). ACM New York, NY, USA, Lausa皿e, Switzerland (2008) 413-416]使用WordNet計(jì)算標(biāo)簽之間的語義相似度,基于標(biāo)簽語義相 似度尋找用戶近鄰,從而將標(biāo)簽融入了協(xié)同過濾的推薦系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,由于提高了近 鄰尋找的準(zhǔn)確率,這種tag-based協(xié)同過濾比傳統(tǒng)的cosine-based協(xié)同過濾提高了推薦的 準(zhǔn)確率。 協(xié)同過濾方法是基于評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶近鄰以及推薦資源。在具有顯示用戶評(píng)分 的系統(tǒng)中,對(duì)于用戶已評(píng)分的資源,評(píng)分?jǐn)?shù)據(jù)為用戶對(duì)資源的真實(shí)打分;而對(duì)于沒有顯示用 戶評(píng)分機(jī)制的在線系統(tǒng),此時(shí)通常使用二值數(shù)據(jù)描述用戶的評(píng)分如果用戶購買過或?yàn)g覽 過資源,則對(duì)該資源的評(píng)分為l,否則為O。該方法默認(rèn)了用戶對(duì)其所有購買過或?yàn)g覽過的 資源具有相同的喜好程度,且隨著時(shí)間的推移,用戶的喜好保持靜態(tài)不變,因而不能準(zhǔn)確的 描述用戶的喜好。
發(fā)明內(nèi)容
本發(fā)明的目的是一方面,在協(xié)作式標(biāo)注系統(tǒng)里為用戶提供個(gè)性化資源推薦服務(wù);
另一方面,有效的利用協(xié)作式標(biāo)注系統(tǒng)提供的信息作為推薦的情景信息,從而提高協(xié)同過 濾推薦系統(tǒng)的準(zhǔn)確率,為此,本發(fā)明提供一種新型的基于情景信息的個(gè)性化資源信息的推 薦的方法。 為了實(shí)現(xiàn)所述的目的,本發(fā)明一種基于情景信息的個(gè)性化資源信息的推薦方法的技術(shù)方案如下所述 步驟SI :對(duì)協(xié)作式標(biāo)注系統(tǒng)網(wǎng)頁進(jìn)行預(yù)處理,根據(jù)特定用戶抽取其所有的標(biāo)注行 為的信息,包括標(biāo)注的資源信息、標(biāo)注資源的標(biāo)簽信息,以及標(biāo)注資源的時(shí)間信息,將用戶 所有的標(biāo)注行為的信息存儲(chǔ)于數(shù)據(jù)庫; 步驟S2 :根據(jù)數(shù)據(jù)庫中用戶標(biāo)注資源的標(biāo)簽信息以及標(biāo)注資源的時(shí)間信息,生成 表達(dá)用戶喜好的評(píng)分?jǐn)?shù)據(jù); 步驟S3 :基于生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶之間的相似度,以確定具有相 似興趣的用戶近鄰; 步驟S4 :根據(jù)用戶近鄰的喜好信息對(duì)該用戶進(jìn)行資源推薦,完成協(xié)同過濾個(gè)性化 資源的推薦。 根據(jù)實(shí)施例,所述用戶喜好的評(píng)分?jǐn)?shù)據(jù)的生成包括標(biāo)簽權(quán)重和時(shí)間權(quán)重兩個(gè)因 素,綜合用戶標(biāo)注資源的標(biāo)簽信息和標(biāo)注資源的時(shí)間信息這兩種情景信息生成最終的用戶 喜好的評(píng)分?jǐn)?shù)據(jù)。 根據(jù)實(shí)施例,所述標(biāo)簽權(quán)重是針對(duì)單個(gè)用戶,利用其所有標(biāo)簽的使用頻率和其用 于表達(dá)特定資源的標(biāo)簽共同決定,以表達(dá)用戶對(duì)特定資源的喜好情況。 根據(jù)實(shí)施例,所述時(shí)間權(quán)重是針對(duì)單個(gè)用戶,使用遺忘函數(shù)模擬其所有標(biāo)注行為, 以體現(xiàn)用戶興趣的漂移。 根據(jù)實(shí)施例,所述用戶喜好的評(píng)分?jǐn)?shù)據(jù)是通過線性加權(quán)的過程權(quán)衡標(biāo)簽權(quán)重和時(shí) 間權(quán)重對(duì)最終用戶喜好的評(píng)分?jǐn)?shù)據(jù)的影響,以適應(yīng)不同數(shù)據(jù)集的要求。
根據(jù)實(shí)施例,所述用戶喜好的評(píng)分?jǐn)?shù)據(jù),其計(jì)算步驟包括
步驟S21 :提取數(shù)據(jù)庫中用戶標(biāo)注行為的信息; 步驟S22 :針對(duì)數(shù)據(jù)庫中每個(gè)用戶的所有標(biāo)簽信息,根據(jù)標(biāo)簽的使用頻率為每個(gè) 用戶的每個(gè)標(biāo)簽計(jì)算標(biāo)簽的得分; 步驟S23 :接收步驟S22計(jì)算得到的標(biāo)簽的得分,根據(jù)用戶對(duì)其標(biāo)注資源所使用的 實(shí)際標(biāo)簽,計(jì)算標(biāo)簽權(quán)重; 步驟S24 :根據(jù)用戶標(biāo)注資源的時(shí)間信息計(jì)算時(shí)間權(quán)重; 步驟S25 :根據(jù)標(biāo)簽權(quán)重和時(shí)間權(quán)重,通過線性加權(quán)生成最終表達(dá)用戶喜好的評(píng) 分?jǐn)?shù)據(jù),其計(jì)算如下所示 Ru,i= Awtag(u, i) + (l-A)wtime(U, i), 其中wtag(u, i)表示用戶u對(duì)每個(gè)標(biāo)注過的資源i的標(biāo)簽權(quán)重,用tag(u, i)表示 用戶u標(biāo)注資源i所使用的所有標(biāo)簽集合;參數(shù)A取0到1之間的小數(shù),用于調(diào)整標(biāo)簽權(quán) 重和時(shí)間權(quán)重之間的重要程度,根據(jù)不同的數(shù)據(jù)集,選取適當(dāng)?shù)模瑆^(u,i)表示用戶u對(duì)資 源i的時(shí)間權(quán)重入。
根據(jù)實(shí)施例,所述標(biāo)簽的得分的計(jì)算W u ,"表示如下
一 /reg(M,Q
'"',,、其中,u是用戶、、是標(biāo)簽、k表示用戶u所有使用過的標(biāo)簽的總 數(shù)、freq(u,"為標(biāo)簽的使用頻率。
根據(jù)實(shí)施例,所述標(biāo)簽權(quán)重Wtag(U, i)的計(jì)算表示如下
=E氣,",其中,tag(u,"表示用戶u標(biāo)注資源i所使用的所有標(biāo)簽 集合,W n為標(biāo)簽的得分。 根據(jù)實(shí)施例,所述用戶之間的相似度計(jì)算,是基于用戶喜好的評(píng)分?jǐn)?shù)據(jù)進(jìn)行計(jì)算, 從而將興趣相近的用戶歸為近鄰。 根據(jù)實(shí)施例,所述用戶之間的相似度計(jì)算步驟如下
步驟S31 :提取用戶喜好的評(píng)分?jǐn)?shù)據(jù)的結(jié)果; 步驟S32 :對(duì)新生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)建立用戶與資源模型;
步驟S33 :選擇相似度度量函數(shù);
步驟S34 :計(jì)算用戶之間的相似度; 步驟S35 :根據(jù)計(jì)算出的用戶之間的相似度得到與目標(biāo)用戶相似度最大的k個(gè)近 鄰。 根據(jù)實(shí)施例,所述資源推薦,是基于用戶喜好的評(píng)分?jǐn)?shù)據(jù)和相似度最大的k個(gè)近 鄰的結(jié)果進(jìn)行推薦,綜合考慮用戶的興趣和用戶興趣的漂移以向用戶推薦其可能感興趣的 資源。 本發(fā)明的有益效果本發(fā)明提供了一種有效的信息融合機(jī)制,將協(xié)作式標(biāo)注系統(tǒng) 中的標(biāo)簽信息和時(shí)間信息集成到協(xié)同過濾資源推薦過程。本發(fā)明的用戶評(píng)分?jǐn)?shù)據(jù)的生成方 法利用了協(xié)作式標(biāo)注系統(tǒng)中的用戶標(biāo)注的標(biāo)簽信息和用戶標(biāo)注的時(shí)間信息,通過標(biāo)簽信息 發(fā)現(xiàn)用戶的興趣,通過時(shí)間信息描述用戶興趣的漂移。本發(fā)明的用戶評(píng)分?jǐn)?shù)據(jù)的生成方法, 有效的利用標(biāo)簽和時(shí)間情景信息生成用戶評(píng)分?jǐn)?shù)據(jù),從一定程度上解決了傳統(tǒng)二值評(píng)分?jǐn)?shù) 據(jù)的不準(zhǔn)確性問題。同時(shí),由于標(biāo)簽信息利用的是用戶個(gè)人標(biāo)簽空間中的標(biāo)簽,所以有效的 避免了標(biāo)簽的冗余性和模糊性等問題。用戶相似度計(jì)算以及資源的推薦過程是基于生成的 評(píng)分?jǐn)?shù)據(jù)得到的,因而能夠更有效的尋找用戶近鄰和實(shí)現(xiàn)資源的推薦,提高個(gè)性化資源推 薦的準(zhǔn)確率。
圖1是本發(fā)明一種新型的基于情景信息的個(gè)性化資源信息的推薦方法總體模塊 框圖; 圖2是預(yù)處理步驟數(shù)據(jù)流圖; 圖3是本發(fā)明評(píng)分?jǐn)?shù)據(jù)生成步驟數(shù)據(jù)流圖; 圖4是本發(fā)明基于新生成評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶相似度步驟數(shù)據(jù)流圖。
具體實(shí)施例方式
下面將結(jié)合附圖對(duì)本發(fā)明加以詳細(xì)說明,應(yīng)指出的是,所描述的實(shí)施例僅旨在便 于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。 為了實(shí)現(xiàn)本發(fā)明的方法,實(shí)施例考慮到算法涉及的用戶數(shù)量和資源數(shù)量,如果在 單機(jī)實(shí)現(xiàn),最好保證處理器主頻不小于2GHz,內(nèi)存不小于1G,可采用任何常用編程語言編
本發(fā)明提出的一種新型的基于情景信息的個(gè)性化資源信息的推薦方法,總體流程 如圖l所示,具體各步驟數(shù)據(jù)流由圖2、3、4給出。步驟S1預(yù)處理部分為整個(gè)協(xié)同過濾工作 準(zhǔn)備數(shù)據(jù);步驟S2是評(píng)分?jǐn)?shù)據(jù)生成過程,即基于協(xié)作式標(biāo)注系統(tǒng)的標(biāo)簽信息和時(shí)間信息生 成評(píng)分?jǐn)?shù)據(jù)的過程;步驟S3使用生成的評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶之間的相似度;步驟S4為資源 推薦的步驟,是基于評(píng)分?jǐn)?shù)據(jù)和用戶之間的相似度為用戶推薦資源。
接下來詳細(xì)敘述各主要步驟。
1、預(yù)處理(步驟S1) 圖1左側(cè)部分給出了典型協(xié)作式標(biāo)注系統(tǒng)中的主要元素,包括用戶、標(biāo)簽和資源。 用戶可以使用一個(gè)標(biāo)簽來描述一個(gè)資源,也可以使用多個(gè)標(biāo)簽描述一個(gè)資源。 一條標(biāo)注行 為是一個(gè)三元組,包含用戶、用戶標(biāo)注的資源,以及用戶標(biāo)注該資源使用的所有標(biāo)簽。其 中,資源在不同的協(xié)作式標(biāo)注系統(tǒng)中代表不同的含義,在Del. icio.us中資源表示網(wǎng)頁、在 CiteULike中資源代表學(xué)術(shù)論文、在Flickr中資源指的是圖片,而在YouTube中資源代表視 頻。 預(yù)處理是整個(gè)系統(tǒng)的第一步,其作為準(zhǔn)備階段,完成的工作如圖2所示,包括網(wǎng)頁 爬取(步驟Sll)、信息抽取(步驟S13)和步驟S14數(shù)據(jù)庫的形成。網(wǎng)頁爬取(步驟Sll) 主要是根據(jù)種子URL爬取網(wǎng)頁內(nèi)容并存儲(chǔ)于本地(步驟S12),根據(jù)爬取得到的網(wǎng)頁中包 含的鏈接信息,逐級(jí)爬取網(wǎng)頁源代碼并進(jìn)行存儲(chǔ)(步驟S12),網(wǎng)頁爬取過程參照[《Java 網(wǎng)絡(luò)編程》,Elliotte Rusty Harold著,朱濤江林劍譯,中國電力出版社,第十五章URL Co皿ection]。信息抽取(步驟S13),參照[馮偉華,苗長芬基于Web的網(wǎng)頁信息抽取方 法的研究.洛陽工業(yè)高等專科學(xué)校學(xué)報(bào)15 (2005) 30-3l],根據(jù)網(wǎng)頁html模板格式和通過定 義正則表達(dá)式抽取網(wǎng)頁中有用的信息。本發(fā)明中信息抽取部分所抽取的信息包含用戶所有 的歷史標(biāo)注行為,因此需要根據(jù)用戶的鏈接逐級(jí)爬取和抽取其所有標(biāo)注的信息,抽取的內(nèi) 容包含用戶名、標(biāo)注的資源、使用的標(biāo)簽信息、標(biāo)注的時(shí)間信息這幾部分。將抽取的結(jié)果進(jìn) 行結(jié)構(gòu)化整理形成數(shù)據(jù)庫(步驟S14),數(shù)據(jù)存儲(chǔ)格式為{用戶名,資源名,標(biāo)簽集合,標(biāo)注時(shí) 間}。目前,網(wǎng)頁爬取和信息抽取已經(jīng)有成熟的方法,不屬于本發(fā)明強(qiáng)調(diào)的內(nèi)容。本發(fā)明重 點(diǎn)放在研究用戶評(píng)分?jǐn)?shù)據(jù)的生成策略。
2、用戶喜好的評(píng)分?jǐn)?shù)據(jù)的生成(步驟S2) 步驟2是利用標(biāo)注資源的標(biāo)簽信息和標(biāo)注資源的時(shí)間信息生成用戶喜好的評(píng)分 數(shù)據(jù),目的是通過標(biāo)簽信息發(fā)現(xiàn)用戶的興趣,通過時(shí)間信息發(fā)現(xiàn)用戶興趣的漂移,這一部分 處理的數(shù)據(jù)來自步驟S1得到的數(shù)據(jù)庫。生成用戶喜好的評(píng)分?jǐn)?shù)據(jù)的過程由兩部分組成基 于標(biāo)簽信息生成資源的標(biāo)簽權(quán)重和基于時(shí)間信息生成資源的時(shí)間權(quán)重。
如圖3中示出的步驟S21、步驟S22、步驟S23組成了標(biāo)簽權(quán)重(如圖1)的生成 過程。用戶標(biāo)注資源的標(biāo)簽信息能夠反映出用戶的興趣,[Go 1 der, S. A. , Huberman, B. A.: Usage patterns of collaborativetagging systems. Journal of Information Science 32(2006) 198-208]中作者通過大量實(shí)驗(yàn)發(fā)現(xiàn),用戶通常使用相同的標(biāo)簽描述同一個(gè)主題的 資源。針對(duì)一個(gè)用戶,標(biāo)簽的使用頻率越高表明用戶對(duì)該主題越感興趣,這也是許多協(xié)作式 標(biāo)注系統(tǒng)使用標(biāo)簽云(tag cloud)視圖,通過改變標(biāo)簽字體大小和顏色直觀反映用戶標(biāo)簽 使用頻率的原因。 步驟S22針對(duì)步驟S21數(shù)據(jù)庫中每個(gè)用戶的所有標(biāo)簽信息,根據(jù)標(biāo)簽的使用頻率為每個(gè)用戶的每個(gè)標(biāo)簽計(jì)算該標(biāo)簽的得分表示為W ,其中u代表用戶,、代表該用
戶曾經(jīng)使用過的某個(gè)標(biāo)簽。為了便于描述,用freq(u,tj表示用戶u對(duì)標(biāo)簽ta的使用頻率, k表示用戶u所有使用過的標(biāo)簽的總數(shù),步驟S22標(biāo)簽得分的計(jì)算公式如公式(1)所示
(1) 則針對(duì)一個(gè)用戶,其所有標(biāo)簽的得分滿足等式Ej^氣,~ 二 1 。 步驟S23接收步驟S22計(jì)算得到的標(biāo)簽得分,根據(jù)用戶對(duì)其標(biāo)注資源實(shí)際所使用 的標(biāo)簽,計(jì)算用戶對(duì)每個(gè)標(biāo)注過的資源的標(biāo)簽權(quán)重。用w^(u,i)表示用戶u對(duì)每個(gè)標(biāo)注過 的資源i的標(biāo)簽權(quán)重,用tag (u, i)表示用戶u標(biāo)注資源i所使用的所有標(biāo)簽集合,步驟S23 標(biāo)簽權(quán)重的計(jì)算公式如公式(2)所示叫叫",0=E W (2)
力"G《ag(u") 根據(jù)標(biāo)簽得分W m人的定義,標(biāo)簽權(quán)重w^(u,i)取值范圍為(O,l],標(biāo)簽權(quán)重越
高表明用戶對(duì)該資源越感興趣。另外,為了避免標(biāo)簽自然語言理解方面的問題,如標(biāo)簽的冗
余性、模糊性問題等,該方法采用在單個(gè)用戶的標(biāo)簽空間內(nèi)計(jì)算標(biāo)簽權(quán)重。 圖3中步驟S24是時(shí)間權(quán)重的生成過程,即根據(jù)用戶標(biāo)注資源的時(shí)間信息計(jì)算用
戶對(duì)該資源的時(shí)間權(quán)重。該過程基于的假設(shè)是用戶當(dāng)前的興趣對(duì)其未來的興趣更有影響。
該過程的目的是由于用戶的興趣會(huì)隨時(shí)間漂移,通過時(shí)間權(quán)重的計(jì)算可以得到更準(zhǔn)確的用
戶喜好信息。為了更好的理解用戶的興趣漂移,考慮一個(gè)協(xié)作式標(biāo)注系統(tǒng)中的實(shí)際例子一
個(gè)用戶使用大量的標(biāo)簽"育嬰"來描述她所標(biāo)注的資源,說明她對(duì)育嬰非常關(guān)注,而隨著時(shí)
間的推移,用戶對(duì)標(biāo)簽"教育"的使用頻率逐漸升高,對(duì)標(biāo)簽"育嬰"的使用頻率逐漸下降,
表明了該用戶的興趣從"育嬰"逐漸轉(zhuǎn)變到了"教育",這可能是隨著用戶孩子的成長,用戶
的關(guān)注的主題也跟隨著發(fā)生漂移。因而,用戶標(biāo)注資源的時(shí)間信息,可以反映出這種興趣漂移。 處理興趣漂移的方法有多種,如時(shí)間窗方法、指數(shù)時(shí)間遺忘函數(shù)、對(duì)數(shù)時(shí)間遺忘函 數(shù)、倒數(shù)遺忘函數(shù)等等,這些方法都可以應(yīng)用于時(shí)間權(quán)重的生成過程。但是,由于時(shí)間窗方 法通常需要拋棄部分歷史數(shù)據(jù)以選擇最具有影響力的數(shù)據(jù),而協(xié)同過濾推薦系統(tǒng)中希望用 戶的歷史信息盡量完備,為了保證數(shù)據(jù)的完整性,我們?cè)趯?shí)驗(yàn)中使用指數(shù)時(shí)間遺忘函數(shù),不 拋棄任何歷史數(shù)據(jù),公式參照[Cheng, Y. , Qiu, G. , Bu, J. , Liu, K. , Han, Y. , Wang, C. &Chen, C. (2008)Model bloggers' interests basedon forgetting mechanism. In :Proc. of the 17th Intl. Conferenceon World Wide Web(WWW 2008),pp.1129—1130,Beijing,China.], 具體計(jì)算過程如下所示
In 2xh肌e(M," , . \
,匿(",O二e (3) 其中wtime(u, i)表示用戶u對(duì)資源i的時(shí)間權(quán)重,time(u, i)是一個(gè)非負(fù)整數(shù), 對(duì)于用戶u最后一天的標(biāo)準(zhǔn)行為time(u, i)取值為O,對(duì)于用戶u倒數(shù)第二天的標(biāo)準(zhǔn)行為
9time(u, i)取值為l,以此類推。hlu表示用戶u的半衰期,即用戶標(biāo)注資源的數(shù)量為其所 有標(biāo)注資源數(shù)量的一半所處的時(shí)間。因此,針對(duì)每一個(gè)用戶,如果用戶具有長時(shí)間的標(biāo)注行 為,即他的半衰期越大,他的興趣衰減的越慢;反之,如果用戶整個(gè)標(biāo)注行為經(jīng)歷的時(shí)間越 短,他的半衰期越小,興趣衰減的越快。當(dāng)time(u,i)恰好等于用戶的半衰期時(shí),Wtime(U,i) =0.5。時(shí)間權(quán)重的取值范圍是(O,l],針對(duì)同一個(gè)用戶,時(shí)間權(quán)重越大表明用戶標(biāo)注資源 的時(shí)間越接近現(xiàn)在,反之,時(shí)間權(quán)重越小表明用戶標(biāo)注資源的時(shí)間越久遠(yuǎn)。
最后,圖3中步驟S25根據(jù)步驟S23計(jì)算得到的標(biāo)簽權(quán)重和步驟S24計(jì)算得到的時(shí) 間權(quán)重通過線性加權(quán)將二者融合生成最終的標(biāo)簽時(shí)間權(quán)重,該過程的計(jì)算公式如下所示
Ru,i = Awtag(u, i) + (l-A)wtime(u, i) (4) 其中Wtag(u, i)表示用戶u對(duì)每個(gè)標(biāo)注過的資源i的標(biāo)簽權(quán)重,用tag(u, i)表示
用戶u標(biāo)注資源i所使用的所有標(biāo)簽集合;參數(shù)A取0到1之間的小數(shù),用于調(diào)整標(biāo)簽權(quán)
重和時(shí)間權(quán)重之間的重要程度。根據(jù)不同的數(shù)據(jù)集,選取適當(dāng)?shù)腁。當(dāng)A 二O時(shí),Ru,i表
示只使用時(shí)間權(quán)重計(jì)算用戶喜好的評(píng)分?jǐn)?shù)據(jù),忽略標(biāo)簽權(quán)重;而當(dāng)A 二l時(shí),Ru,i表示只使
用標(biāo)簽權(quán)重計(jì)算用戶喜好的評(píng)分?jǐn)?shù)據(jù),忽略時(shí)間權(quán)重。當(dāng)A G (O,l)時(shí),Ru,i表示綜合考
慮標(biāo)簽權(quán)重和時(shí)間權(quán)重生成的最終用戶喜好的評(píng)分?jǐn)?shù)據(jù)。與傳統(tǒng)的二值評(píng)分?jǐn)?shù)據(jù)不同,本
發(fā)明中的用戶喜好的評(píng)分?jǐn)?shù)據(jù)生成方法考慮了情景信息,一方面根據(jù)標(biāo)簽信息,有效的描
述用戶的興趣,另一方面考慮了標(biāo)注的時(shí)間信息,有效的描述了用戶興趣的漂移,因此能夠
更準(zhǔn)確的描述用戶的喜好信息。 3、用戶之間的相似度計(jì)算(步驟S3) 圖4中步驟S31、步驟S32、步驟S33、步驟S34、步驟S35組成了用戶之間的相似度 計(jì)算的過程。其中,步驟S31即通過步驟S2生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)的結(jié)果。通過對(duì)新 生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)建立用戶與資源模型(步驟S32),選擇適當(dāng)?shù)南嗨贫榷攘亢瘮?shù) (步驟S33),計(jì)算用戶之間的相似度(步驟S34),根據(jù)計(jì)算出的用戶之間的相似度得到與目 標(biāo)用戶相似度最大的k個(gè)近鄰(步驟S35)。 為了便于用戶之間的相似度計(jì)算步驟的實(shí)施,根據(jù)步驟S31用戶喜好的評(píng)分?jǐn)?shù)據(jù) 結(jié)果,將用戶喜好的評(píng)分?jǐn)?shù)據(jù)描述為用戶-資源評(píng)分矩陣的形式,每一行表示一個(gè)用戶對(duì) 所有資源的標(biāo)注行為,每一列代表某一資源被所有用戶標(biāo)注的情況。如果資源i被用戶u 標(biāo)注了,則該行列交叉的元素評(píng)分值為Ru,i,否則為O。從而通過新生成的用戶喜好的評(píng)分 數(shù)據(jù)(步驟S31)建立起用戶_資源模型(步驟S32)。 目前,存在很多度量方法計(jì)算用戶之間相似度(步驟S33),如Pearson相關(guān)系 數(shù)、Spearman相關(guān)系數(shù)、cosine相似度量以及Jaccard相似度量等等,這些度量方法均可 應(yīng)用于這里度量用戶之間的相似度。我們?cè)趯?shí)驗(yàn)中選取cosine相似度度量準(zhǔn)則計(jì)算用戶 之間的相似度,公式參照[Adomavicius, G. , Tuzhilin, A. :Toward the Next Generation ofRecommender Systems :A Survey of the State—of—the—Art andPossible Extensions. IEEE TRANSACTIONS ON KNOWLEDGE AND DATAENGINEERING (2005) 734-749],具體計(jì)算過程
如下所示
10<formula>formula see original document page 11</formula>
其中u,v為兩個(gè)用戶,X(u,v)為用戶u和v共同標(biāo)注過的資源的集合。用戶相似 度度量的方法不屬于本發(fā)明強(qiáng)調(diào)的內(nèi)容。 步驟S34是通過步驟S33選取的相似度度量函數(shù),計(jì)算用戶-資源模型(步驟S32) 中每個(gè)用戶與其他用戶之間相似度,即計(jì)算用戶_資源評(píng)分矩陣中的一個(gè)行向量與其他行 向量之間的距離。該距離即表示該用戶與其他用戶之間的相似度。 針對(duì)一個(gè)目標(biāo)用戶,將其與其他所有用戶之間的相似度按照降序排列,取排序最 高的前k個(gè)用戶,得到與該目標(biāo)用戶相似度最大的k個(gè)近鄰(步驟S35)。 [OO72] 4、資源推薦(步驟S4) 針對(duì)步驟S3給出的用戶近鄰,結(jié)合步驟S2計(jì)算出的用戶喜好的評(píng)分?jǐn)?shù)據(jù),為目標(biāo) 用戶推薦相應(yīng)的資源。這一步驟可以使用常用的資源推薦計(jì)算方法,參考[Adomavicius, G. , Tuzhilin, A. :Toward the nextgeneration of recommender systems :A survey of thestate_of_the_art and possible extensions. IEEE transactions onknowledge and data engineering 17 (2005) 734-749],公式(6)給出了一種常見的資源推薦的計(jì)算方式:<formula>formula see original document page 11</formula> 其中,Neighbor (u)表示用戶u的近鄰,sim(u, v)描述了用戶u和用戶v之間的 相似度(由步驟S34計(jì)算得到),score (u, i)表示用戶u對(duì)未標(biāo)注過的資源i可能的評(píng)分 情況。系統(tǒng)根據(jù)該評(píng)分分值,給用戶推薦評(píng)分較高的前N個(gè)資源作為最終推薦的結(jié)果。資 源推薦的方法不屬于本發(fā)明強(qiáng)調(diào)的內(nèi)容。 本發(fā)明提出的一種新型的基于情景信息的個(gè)性化資源信息的推薦方法,具體實(shí)現(xiàn) 如下所示 -------------------------- 輸入M:數(shù)據(jù)庫(數(shù)據(jù)庫具體包含的內(nèi)容用戶、用戶標(biāo)注的資源、用戶使用的標(biāo)
簽,以及標(biāo)注資源的時(shí)間信息) n :用戶數(shù) k :用戶近鄰個(gè)數(shù) N:推薦資源的個(gè)數(shù) 輸出推薦資源的結(jié)果 -------------
1. u = 1
2. while u < = n do
3. for用戶u所有標(biāo)注過的資源i
4. 根據(jù)公式(2)計(jì)算w^(u,i)
5. 根據(jù)公式(3)計(jì)算w^(u, i)
6. 根據(jù)公式(4)生成用戶喜好的評(píng)分?jǐn)?shù)據(jù)Ru,
7. i = i+1 8. end for 9. end while 10. for u = 1 to n do 11. for v = 1 to n do 12.根據(jù)公式(5)計(jì)算用戶相似度sim(u, v)
13. end for 14.取sim(u, v)最大的前k個(gè)v作為用戶u的近鄰 15. for i G I-仏 16.根據(jù)公式(6)計(jì)算score (u, i) 17. end for 18.取score (u, i)最大的前N個(gè)資源推薦給用戶u 19. end for -------------------------- 該算法中,l一9是用戶喜好的評(píng)分?jǐn)?shù)據(jù)的生成過程,11-14為用戶之間的相似度 計(jì)算過程,15-18為資源推薦過程。采用本發(fā)明可以通過情景信息較準(zhǔn)確的表達(dá)用戶的喜 好,有效的提高推薦的準(zhǔn)確率,為協(xié)作式標(biāo)注系統(tǒng)中的用戶提供更好的個(gè)性化資源推薦服 務(wù)。 以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種基于情景信息的個(gè)性化資源信息的推薦方法,步驟如下步驟S1對(duì)協(xié)作式標(biāo)注系統(tǒng)網(wǎng)頁進(jìn)行預(yù)處理,根據(jù)特定用戶抽取其所有的標(biāo)注行為的信息,包括標(biāo)注的資源信息、標(biāo)注資源的標(biāo)簽信息,以及標(biāo)注資源的時(shí)間信息,將用戶所有的標(biāo)注行為的信息存儲(chǔ)于數(shù)據(jù)庫;步驟S2根據(jù)數(shù)據(jù)庫中用戶標(biāo)注資源的標(biāo)簽信息以及標(biāo)注資源的時(shí)間信息,生成表達(dá)用戶喜好的評(píng)分?jǐn)?shù)據(jù);步驟S3基于生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶之間的相似度,以確定具有相似興趣的用戶近鄰;步驟S4根據(jù)用戶近鄰的喜好信息對(duì)該用戶進(jìn)行資源推薦,完成協(xié)同過濾個(gè)性化資源的推薦。
2. 如權(quán)利要求1所述個(gè)性化資源信息的推薦方法,其特征在于,所述用戶喜好的評(píng)分 數(shù)據(jù)的生成包括標(biāo)簽權(quán)重和時(shí)間權(quán)重兩個(gè)因素,綜合用戶標(biāo)注資源的標(biāo)簽信息和標(biāo)注資 源的時(shí)間信息這兩種情景信息生成最終的用戶喜好的評(píng)分?jǐn)?shù)據(jù)。
3. 如權(quán)利要求2所述個(gè)性化資源信息的推薦方法,其特征在于,所述標(biāo)簽權(quán)重是針對(duì) 單個(gè)用戶,利用其所有標(biāo)簽的使用頻率和其用于表達(dá)特定資源的標(biāo)簽共同決定,以表達(dá)用 戶對(duì)特定資源的喜好情況。
4. 如權(quán)利要求2所述個(gè)性化資源信息的推薦方法,其特征在于,所述時(shí)間權(quán)重是針對(duì) 單個(gè)用戶,使用遺忘函數(shù)模擬其所有標(biāo)注行為,以體現(xiàn)用戶興趣的漂移。
5. 如權(quán)利要求2所述個(gè)性化資源信息的推薦方法,其特征在于,所述用戶喜好的評(píng)分 數(shù)據(jù)是通過線性加權(quán)的過程權(quán)衡標(biāo)簽權(quán)重和時(shí)間權(quán)重對(duì)最終用戶喜好的評(píng)分?jǐn)?shù)據(jù)的影響, 以適應(yīng)不同數(shù)據(jù)集的要求。
6. 如權(quán)利要求2所述個(gè)性化資源信息的推薦方法,其特征在于,所述用戶喜好的評(píng)分?jǐn)?shù)據(jù),其計(jì)算步驟包括步驟S21 :提取數(shù)據(jù)庫中用戶標(biāo)注行為的信息;步驟S22 :針對(duì)數(shù)據(jù)庫中每個(gè)用戶的所有標(biāo)簽信息,根據(jù)標(biāo)簽的使用頻率為每個(gè)用戶 的每個(gè)標(biāo)簽計(jì)算標(biāo)簽的得分;步驟S23 :接收步驟S22計(jì)算得到的標(biāo)簽的得分,根據(jù)用戶對(duì)其標(biāo)注資源所使用的實(shí)際 標(biāo)簽,計(jì)算標(biāo)簽權(quán)重;步驟S24 :根據(jù)用戶標(biāo)注資源的時(shí)間信息計(jì)算時(shí)間權(quán)重;步驟S25 :根據(jù)標(biāo)簽權(quán)重和時(shí)間權(quán)重,通過線性加權(quán)生成最終表達(dá)用戶喜好的評(píng)分?jǐn)?shù) 據(jù),其計(jì)算如下所示<formula>formula see original document page 2</formula>(u, i),其中wtag(u,i)表示用戶u對(duì)每個(gè)標(biāo)注過的資源i的標(biāo)簽權(quán)重,用tag(u,i)表示用戶 u標(biāo)注資源i所使用的所有標(biāo)簽集合;參數(shù)A取0到1之間的小數(shù),用于調(diào)整標(biāo)簽權(quán)重和 時(shí)間權(quán)重之間的重要程度,根據(jù)不同的數(shù)據(jù)集,選取適當(dāng)?shù)腁 , WtiM(u, i)表示用戶u對(duì)資 源i的時(shí)間權(quán)重。
7. 如權(quán)利要求6所述個(gè)性化資源信息的推薦方法,其特征在于,所述標(biāo)簽的得分的計(jì)算 表示如下MA ,,、'其中,U是用戶、、是標(biāo)簽、k表示用戶U所w "人 Z=l有使用過的標(biāo)簽的總數(shù)、freq(u, ta)為標(biāo)簽的使用頻率。
8. 如權(quán)利要求6所述個(gè)性化資源信息的推薦方法,其特征在于,所述標(biāo)簽權(quán)重w^(u,i)的計(jì)算表示如下,—^ W,Z ) = 5^ ,人,其中,tag (u, i)表示用戶u標(biāo)注資源i所使用的所有標(biāo)簽集合,w u,i為標(biāo)簽的得分。
9. 如權(quán)利要求1所述個(gè)性化資源信息的推薦方法,其特征在于,所述用戶之間的相似 度計(jì)算,是基于用戶喜好的評(píng)分?jǐn)?shù)據(jù)進(jìn)行計(jì)算,從而將興趣相近的用戶歸為近鄰。
10. 如權(quán)利要求9所述個(gè)性化資源信息的推薦方法,其特征在于,所述用戶之間的相似度計(jì)算步驟如下步驟S31 :提取用戶喜好的評(píng)分?jǐn)?shù)據(jù)的結(jié)果;步驟S32 :對(duì)新生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)建立用戶與資源模型; 步驟S33 :選擇相似度度量函數(shù); 步驟S34 :計(jì)算用戶之間的相似度;步驟S35 :根據(jù)計(jì)算出的用戶之間的相似度得到與目標(biāo)用戶相似度最大的k個(gè)近鄰。
11. 如權(quán)利要求1所述個(gè)性化資源信息的推薦方法,其特征在于,所述資源推薦,是基 于用戶喜好的評(píng)分?jǐn)?shù)據(jù)和相似度最大的k個(gè)近鄰的結(jié)果進(jìn)行推薦,綜合考慮用戶的興趣和 用戶興趣的漂移以向用戶推薦其可能感興趣的資源。
全文摘要
本發(fā)明公開一種基于情景信息的個(gè)性化資源信息的推薦方法,該方法對(duì)協(xié)作式標(biāo)注系統(tǒng)網(wǎng)頁進(jìn)行預(yù)處理,根據(jù)特定用戶抽取其所有的標(biāo)注行為的信息,包括標(biāo)注的資源信息、使用的標(biāo)簽信息,以及標(biāo)注的時(shí)間信息,將用戶所有的標(biāo)注行為的信息存儲(chǔ)于數(shù)據(jù)庫;根據(jù)數(shù)據(jù)庫中用戶對(duì)資源使用的標(biāo)簽信息以及標(biāo)注資源的時(shí)間信息,生成表達(dá)用戶喜好的評(píng)分?jǐn)?shù)據(jù);基于生成的用戶喜好的評(píng)分?jǐn)?shù)據(jù)計(jì)算用戶之間的相似度,以確定具有相似興趣的用戶近鄰;根據(jù)用戶近鄰的喜好信息向該用戶推薦其未標(biāo)注過的資源,完成協(xié)同過濾個(gè)性化資源的推薦。實(shí)驗(yàn)表明通過集成情景信息可以為用戶提供更好的個(gè)性化推薦服務(wù)。
文檔編號(hào)H04L29/06GK101751448SQ20091008958
公開日2010年6月23日 申請(qǐng)日期2009年7月22日 優(yōu)先權(quán)日2009年7月22日
發(fā)明者戴汝為, 李秋丹, 鄭楠 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所