亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種個(gè)性化消息推薦方法與流程

文檔序號:11919060閱讀:254來源:國知局
一種個(gè)性化消息推薦方法與流程

本發(fā)明屬于互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種個(gè)性化消息推薦方法。



背景技術(shù):

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)思想已經(jīng)遍及生活的各個(gè)方面。世界之大,每天都發(fā)生著各種各樣的事情,隨之而帶來的龐大信息量超出的想象。面對信息過載的現(xiàn)狀,如何能夠使用戶通過某種高效快速的方法閱讀到自己需要的消息是非常重要的。個(gè)性化消息推薦服務(wù)是對用戶平時(shí)瀏覽消息的興趣喜好變化和操作行為進(jìn)行分析和預(yù)測,最終向用戶推薦對其有用的消息資訊,從而使用戶不需要做大量無用功。個(gè)性化消息推薦技術(shù)是個(gè)性化推薦領(lǐng)域的延伸應(yīng)用之一,針對消息的個(gè)性化服務(wù)推薦系統(tǒng)應(yīng)該注意以下幾點(diǎn):(1)因?yàn)橄r(shí)效性特別強(qiáng),隨時(shí)都在發(fā)生,生命周期比較短,所以在進(jìn)行個(gè)性化消息推薦時(shí),應(yīng)當(dāng)注重推薦當(dāng)前消息給用戶,而不是過時(shí)的消息;(2)由于用戶的瀏覽興趣并不是永久的,是跟隨社會(huì)流行和熱點(diǎn)話題變化而變化,所以在進(jìn)行消息推薦時(shí)需要考慮到用戶的興趣偏好變化;(3)在進(jìn)行個(gè)性化新聞推薦時(shí)需要注意用戶的具體情況(時(shí)間、地點(diǎn)等),此外還需注意不同消息之間是否存在一定的關(guān)系等等。消息推薦算法是消息推薦系統(tǒng)最重要的部分,基本上決定了消息推薦系統(tǒng)的準(zhǔn)確性、性能的優(yōu)劣以及能否持續(xù)運(yùn)行等等。消息推薦算法的探索一直是整個(gè)消息推薦中最為重要和繁榮的一個(gè)部分。推薦系統(tǒng)學(xué)術(shù)界一直致力于這方面的研究并總結(jié)了大量的本發(fā)明和文章。目前,主流的推薦方法可以分為:基于內(nèi)容的推薦算法、基于用戶的協(xié)同過濾的推薦算法,基于知識模型的推薦算法以及混合推薦算法?;趦?nèi)容的推薦算法是協(xié)同過濾的延續(xù)和發(fā)展,其通過對用戶歷史行為進(jìn)行挖掘與分析獲得用戶的興趣,并向用戶推薦在內(nèi)容上與其興趣比較匹配的消息;算法的核心在于對推薦對象內(nèi)容特征的挖掘,以及用戶基于內(nèi)容的興趣模型的建立。隨著人工智能等技術(shù)的發(fā)展完善,當(dāng)今的基于內(nèi)容的推薦系統(tǒng)可以分別對用戶和消息建立配置文件,通過分析已經(jīng)購買或?yàn)g覽過的消息內(nèi)容,建立或更新用戶的配置文件。系統(tǒng)可以比較用戶與消息配置文件之間的相似度,并直接向用戶推薦與其配置文件最相似的消息?;趦?nèi)容的推薦算法的根本在于內(nèi)容的獲取和定量分析,又因?yàn)樵谖谋拘畔@取與過濾方面的研究較為成熟,因此,現(xiàn)有很多基于內(nèi)容的推薦系統(tǒng)都是通過分析消息的文本信息進(jìn)行推薦。傳統(tǒng)的TF-IDF公式:其中,wik表示文檔i中第k維向量值,tfij表示文檔i中第k個(gè)特征項(xiàng)的TF值,max{tfik}表示文檔i中所有特征項(xiàng)中TF的最大值,N表示文本集的文檔數(shù),nk表示文本集中出現(xiàn)該特征項(xiàng)的文本數(shù)。雖然基于內(nèi)容的推薦能夠準(zhǔn)確地捕捉用戶的興趣,進(jìn)而能夠?yàn)橛脩敉扑]新出現(xiàn)的消息和非熱門的消息,但是基于內(nèi)容的推薦方法有以下不足:(1)多媒體數(shù)據(jù)提取內(nèi)容特征在技術(shù)上還不完善,描述文本消息通常不夠充分,很難體現(xiàn)內(nèi)容上的完整性;(2)無法挖掘用戶對推薦內(nèi)容的真實(shí)態(tài)度;(3)基于內(nèi)容推薦的實(shí)質(zhì),其僅僅能夠?yàn)橛脩敉扑]內(nèi)容相似的消息?;趨f(xié)同過濾的算法是推薦系統(tǒng)中最基本的算法,在業(yè)界得到了廣泛應(yīng)用?;趨f(xié)同過濾的算法分為兩大類,一類是基于用戶的協(xié)同過濾算法,另一類是基于物品的協(xié)同過濾算法。本發(fā)明采用基于用戶的協(xié)同過濾算法,基于用戶的協(xié)同過濾算法的思想就是在對目標(biāo)用戶進(jìn)行推薦時(shí),首先找到與用戶興趣相似的其他用戶,然后把那些用戶喜歡的且目標(biāo)用戶沒有使用過的物品推薦給目標(biāo)用戶?;谟脩舻膮f(xié)同過濾能夠根據(jù)用戶的歷史行為隱式地獲得用戶的興趣,同時(shí)也能通過發(fā)現(xiàn)相似用戶的方式發(fā)現(xiàn)用戶歷史行為外的信息,進(jìn)而找到用戶的潛在興趣。不同于基于內(nèi)容的推薦方法,基于用戶的協(xié)同過濾方法能夠推薦難以進(jìn)行內(nèi)容分析的,非結(jié)構(gòu)化的信息,如視頻、音頻及圖片等。但是,基于用戶的協(xié)同過濾算法仍然面臨著以下挑戰(zhàn);(1)冷啟動(dòng)問題,新的消息的點(diǎn)擊率較少,無法獲得推薦;(2)協(xié)同過濾算法隨著用戶量的增加,需要維護(hù)一個(gè)較大的用戶相似矩陣,所以在性能上無法得到保障?;谥R的推薦在一定程度能夠被看種一種推理技術(shù)。該技術(shù)的最顯著特征是其并非從用戶偏好的角度出發(fā),而是針對特定領(lǐng)域建立規(guī)則,通過基于規(guī)則和實(shí)例的推理,實(shí)現(xiàn)對用戶的推薦。該方法建立方法知識庫,描述一個(gè)對象如何滿足某一特定用戶,知識庫使用本體語言以實(shí)現(xiàn)機(jī)器可讀,參考和推理都基于知識庫進(jìn)行。這種基于知識的推薦方法在某些特定領(lǐng)域取得了較好的效果,但其缺點(diǎn)也非常明顯,即知識的獲取和本體庫的建立,而針對特定領(lǐng)域的推薦這一特點(diǎn),既是其優(yōu)勢,也成為了該方法最主要的限制,該方法能夠?qū)δ硞€(gè)領(lǐng)域內(nèi)的信息進(jìn)行深度挖掘并實(shí)現(xiàn)準(zhǔn)確率和覆蓋率都很高的推薦,但是其可擴(kuò)展性和可移植性較差,需要耗費(fèi)大量的開發(fā)成本,不適應(yīng)開發(fā)性的平臺應(yīng)用。

綜上所述,現(xiàn)有的消息推薦方法存在描述文本消息通常不夠充分,很難體現(xiàn)內(nèi)容上的完整性;無法挖掘用戶對推薦內(nèi)容的真實(shí)態(tài)度;僅僅能夠?yàn)橛脩敉扑]內(nèi)容相似的消息;新的消息的點(diǎn)擊率較少,無法獲得推薦。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種個(gè)性化消息推薦方法,旨在解決現(xiàn)有的消息推薦方法存在描述文本消息通常不夠充分,很難體現(xiàn)內(nèi)容上的完整性;無法挖掘用戶對推薦內(nèi)容的真實(shí)態(tài)度;僅僅能夠?yàn)橛脩敉扑]內(nèi)容相似的消息;新的消息的點(diǎn)擊率較少,無法獲得推薦的問題。

本發(fā)明是這樣實(shí)現(xiàn)的,一種個(gè)性化消息推薦方法——組合推薦(CR)算法,所述個(gè)性化消息的推薦方法根據(jù)消息的發(fā)布時(shí)間,決定該消息由哪一類算法產(chǎn)生推薦。當(dāng)瀏覽時(shí)間與當(dāng)前時(shí)間的間隔不大于某個(gè)值(其值由實(shí)驗(yàn)確定)時(shí),采用基于內(nèi)容推薦和基于用戶的協(xié)同過濾推薦的混合推薦算法:(1)對歷史數(shù)據(jù)按照用戶瀏覽日期進(jìn)行降序排序處理;(2)通過中文分詞方法以及加入時(shí)間因子,生成用戶特征配置文件和在添加截取因子的基礎(chǔ)上生成用戶當(dāng)前興趣配置文件;(3)通過生成目標(biāo)用戶當(dāng)前興趣配置文件的新聞與生成其他用戶的用戶特征配置文件的文件進(jìn)行相似度計(jì)算(相似度包括內(nèi)容相似度和行為相似度),獲得目標(biāo)用戶的相似用戶集,然后生成目標(biāo)用戶的潛在配置文件;(4)混合用戶的當(dāng)前興趣配置文件和用戶的潛在配置文件生成用戶混合配置文件。否則,直接采用基于用戶的協(xié)同過濾推薦算法:在產(chǎn)生目標(biāo)用戶潛在配置文件的相似用戶集中,若某個(gè)消息被里面的某個(gè)用戶數(shù)超過某個(gè)閾值(這個(gè)由系統(tǒng)確定)且該消息沒有被目標(biāo)用戶瀏覽,則該消息被推薦給目標(biāo)用戶。

進(jìn)一步,所述個(gè)性化消息推薦方法包括以下步驟:

現(xiàn)存用戶配置文件,在進(jìn)行消息推薦時(shí)需要考慮到用戶的興趣偏好變化,采用截取因子、時(shí)間因子以及對用戶的歷史數(shù)據(jù)進(jìn)行處理;

利用同時(shí)考慮行為相似和內(nèi)容相似的基于用戶的協(xié)同過濾方法來尋找目標(biāo)用戶的相似用戶和潛在興趣;

用戶混合配置文件UBF能夠在獲得目標(biāo)用戶的用戶當(dāng)前興趣配置文件UCF和潛在用戶配置文件UMF后,通過對UCF,UMF上的每個(gè)主要特征詞加權(quán)得到;

推薦結(jié)果的生成,在推薦列表中,消息由兩部分組成:l1,l2;l1部分有混合配置文件生成;即通過添加時(shí)間因子ε1來限定消息是否采用混合推薦方法—看消息的發(fā)布時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔是否小于ε1,若滿足則該文件采用混合推薦方法,否則將不采用。

進(jìn)一步,所述現(xiàn)存用戶配置文件具體包括:

(1)向量空間模型,給定消息集F=(f1,f2,…fi,…,fn)和主要特征詞序列K=(k1,k2,…ki,…,kl),fi能夠被表示為向量空間模型(VSM)fi=(wi1,wi2,…,wil),其中wij表示特征詞kj在新聞fi中的權(quán)重;wij=0表示kj不在fi中出現(xiàn);利用TF-IDF方法來對文本信息進(jìn)行處理。計(jì)算wij的公式如下:

wij=tf(i,j)×log[1+n/n(j)]/maxOther(i,j);

其中n(j)表示出現(xiàn)kj的新聞的數(shù)量,tf(i,j)是出現(xiàn)在fi中的kj的數(shù)目,maxOther(i,j)是出現(xiàn)在fi的其他特征詞的最大數(shù)目;新聞集F表示成一個(gè)權(quán)重矩陣。

(2)用戶現(xiàn)存配置文件,時(shí)間因子以及用戶當(dāng)前興趣配置文件,在處理文本信息時(shí)對各個(gè)用戶瀏覽的消息的瀏覽時(shí)間進(jìn)行升序排序,然后生成現(xiàn)存用戶配置文件UCF;文件選取最后瀏覽的s個(gè)消息用于生成用戶u的當(dāng)前興趣配置文件UCFus;用戶u按瀏覽時(shí)間降序排列的消息集表示為:所以最新瀏覽的s個(gè)消息集合為Fus={fu1,fu2,…,fus},ti是用戶u閱讀消息fui的時(shí)間;時(shí)間因子能夠被定義為:

α是時(shí)間衰減參數(shù),通過實(shí)驗(yàn)確定;Fu,Fus是F的子集;Fu,Fus表示為一個(gè)權(quán)重矩陣,獲得用戶u的現(xiàn)存配置文件UCF和當(dāng)前興趣配置文件UCFus的過程。

進(jìn)一步,所述利用同時(shí)考慮行為相似和內(nèi)容相似的基于用戶的協(xié)同過濾方法來尋找目標(biāo)用戶的相似用戶和潛在興趣包括:

(1)混合相似性的計(jì)算,給定新聞集Fus和Fv,用戶u的當(dāng)前興趣文件用戶v的當(dāng)前配置文件UCFv=(wcv1,wcv2,...,wcvl);則用戶u與用戶v的行為相似和內(nèi)容相似的計(jì)算下:

simCon(u,v)=(CUFus·CUFv)/(CUFus×CUFv);

混合相似計(jì)算公式如下:

sim(u,v)=β×simAct(u,v)+(1-β)×simCon(u,v)。

(2)潛在用戶配置文件和相似用戶文件的生成,選擇相似性最大的u個(gè)用戶構(gòu)造相似用戶文件,通過加權(quán)計(jì)算獲得目標(biāo)用戶u的潛在用戶配置文件UMF;給定相似用戶集Uu={v1,v2,…,vh},用戶vi的UCFvi=(wcvi1,wcvi2,…,wcvil),用戶u和用戶vi的相似性為sim(u,vi),利用下式計(jì)算在MUFu中的kj的權(quán)重:

進(jìn)一步,目標(biāo)用戶u的當(dāng)前興趣配置文件UCFus,潛在興趣配置文件UMFu=(wmu1,wmu2,...,wmul),混合配置文件UBFu=(wbu1,wbu2,...,wbul),利用下式計(jì)算wbuj

wbuj=γwcuj+(1-γ)wmuj

進(jìn)一步,所述推薦結(jié)果的生成具體包括:

目標(biāo)用戶u的混合配置文件BUFu=(wbu1,wbu2,...,wbul),新聞d0=(wd1,wd2,...,wdl),新聞d0的發(fā)布時(shí)間為t0,當(dāng)前時(shí)間tcur,閾值ε12,首先檢查:

tcur-t0≤ε1;

若不等式成立,則檢查:

d0·BUFu≥ε2;

若成立,則將新聞d0放入l1中;

l2部分直接由基于內(nèi)容相似和行為相似的協(xié)同過濾算法生成包括:

用戶u的相似用戶集Uu={v1,v2,…,vh},用戶u和用戶vi的相似性為sim(u,vi),對于消息d0,設(shè)其在用戶u的相似用戶集上的權(quán)重為則消息d0的相對于用戶u的權(quán)重為:

選出相對于用戶u的權(quán)重較大的消息放入l2部分。

本發(fā)明的另一目的在于提供一種應(yīng)用所述個(gè)性化消息推薦方法的個(gè)性化服務(wù)推薦系統(tǒng)。

本發(fā)明提供的個(gè)性化消息推薦方法,基于內(nèi)容的推薦能夠準(zhǔn)確地挖掘和描述消息和用戶的特征,對于消息這種特殊的推薦對象,基于內(nèi)容的推薦能夠獲得更高的準(zhǔn)確性;消息具有時(shí)效性和熱門性,基于內(nèi)容的推薦沒有新消息的冷啟動(dòng)問題,同時(shí)不會(huì)受消息熱門程度的影響,而是直接對新聞內(nèi)容進(jìn)行挖掘;由于用戶的興趣隨著時(shí)間的變化快速變化,結(jié)合基于用戶的協(xié)同過濾的推薦結(jié)果,能夠獲得更全面的新聞推薦結(jié)果。本發(fā)明針對組合推薦算法設(shè)計(jì)了實(shí)驗(yàn)并分析了實(shí)驗(yàn)結(jié)果,使用F值、召回率(recall)和準(zhǔn)確率(precision)和多樣性Diversity指標(biāo)衡量推薦算法性能。由此實(shí)驗(yàn)可知,組合推薦算法(CR)的F值、召回率和準(zhǔn)確率高于其它算法,說明在相同的推薦列表長度下,組合推薦算法(CR)的推薦效果更好。在多樣性方面雖然沒有不是最優(yōu),但是比混合推薦算法(HR)、基于內(nèi)容的推薦算法(CB)。實(shí)驗(yàn)結(jié)果符合算法設(shè)計(jì)初衷,驗(yàn)證了組合推薦算法與同類算法相比具有一定的優(yōu)越性。

附圖說明

圖1是本發(fā)明實(shí)施例提供的個(gè)性化消息推薦方法流程圖。

圖2是本發(fā)明實(shí)施例提供的F值比較示意圖。

圖3是本發(fā)明實(shí)施例提供的回召率比較示意圖。

圖4是本發(fā)明實(shí)施例提供的精確度比較示意圖。

圖5是本發(fā)明實(shí)施例提供的多樣性比較示意圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

下面結(jié)合附圖對本發(fā)明的應(yīng)用原理作詳細(xì)的描述。

如圖1所示,本發(fā)明實(shí)施例提供的個(gè)性化消息推薦方法包括以下步驟:

S101:根據(jù)消息的發(fā)布時(shí)間,決定該消息由哪類算法產(chǎn)生推薦;

S102:當(dāng)瀏覽時(shí)間與當(dāng)前時(shí)間的間隔不大于某個(gè)值時(shí),采用基于內(nèi)容推薦和基于用戶的協(xié)同過濾推薦的混合推薦算法;否則,直接采用基于用戶的協(xié)同過濾算法。

下面結(jié)合具體實(shí)施例對本發(fā)明的應(yīng)用原理作進(jìn)一步的描述。

1個(gè)性化推薦方法

1.1問題定義

定義1主要特征詞:設(shè)消息集F=(f1,f2,…,fn),把表示消息內(nèi)容的詞稱為主要特征詞,把有序序列K=(k1,k2,…ki,…,kl)稱為主要特征詞序列,其中k1,k2,…,kl表示主要特征詞,l表示主要特征詞的數(shù)目。

定義2用戶現(xiàn)存配置文件:對于任何用戶,把其閱讀過的消息生成的文件稱為用戶現(xiàn)存配置文件,并將用戶現(xiàn)存配置文件表示成向量形式UCF=(wc1,…,wci,…,wcl),其中wci表示在用戶現(xiàn)存配置文件中主要特征詞ki的權(quán)重。

定義3用戶當(dāng)前興趣配置文件:對于用戶u,把其最新閱讀過的s個(gè)消息生成的文件稱為用戶u的當(dāng)前興趣配置文件,并將用戶u的當(dāng)前興趣配置文件表示為其中表示在用戶u的當(dāng)前興趣文件中主要特征詞ki的權(quán)重。

定義4用戶潛在配置文件:對于任何用戶,利用協(xié)同過濾的方法預(yù)測主要特征詞的權(quán)重。然后獲得用戶潛在配置文件,其能夠被表示為向量形式UMF=(wm1,…,wmi,…,wml),其中wmi表示在用戶潛在配置文件中主要特征詞ki的權(quán)重。

定義5用戶融合配置文件:對于任何用戶,融合上述的用戶當(dāng)前興趣配置文件和用戶潛在配置文件,獲得一個(gè)新的文件,稱其為用戶融合配置文件,其能夠被表示成向量形式UBF=(wb1,wb2,…,wbi,…,wbl),其中wbi表示在用戶融合配置文件中主要特征詞ki的權(quán)重。

1.2現(xiàn)存用戶配置文件

由于消息時(shí)效性特別強(qiáng)且消息用戶的瀏覽興趣并不是永久的,而是跟隨社會(huì)流行和熱點(diǎn)話題變化而變化,所以在進(jìn)行消息推薦時(shí)需要考慮到用戶的興趣偏好變化。為此,本發(fā)明引進(jìn)截取因子、時(shí)間因子以及對用戶的歷史數(shù)據(jù)進(jìn)行處理。

1.2.1向量空間模型

給定消息集F=(f1,f2,…fi,…,fn)和主要特征詞序列K=(k1,k2,…ki,…,kl),fi能夠被表示為向量空間模型(VSM)fi=(wi1,wi2,…,wil),其中wij表示特征詞kj在新聞fi中的權(quán)重。wij=0表示kj不在fi中出現(xiàn)。利用TF-IDF方法來對文本信息進(jìn)行處理。計(jì)算wij的公式如下:

wij=tf(i,j)×log[1+n/n(j)]/maxOther(i,j) (1)

其中n(j)表示出現(xiàn)kj的新聞的數(shù)量,tf(i,j)是出現(xiàn)在fi中的kj的數(shù)目,maxOther(i,j)是出現(xiàn)在fi的其他特征詞的最大數(shù)目。可以看出,新聞集F可以表示成一個(gè)權(quán)重矩陣。

1.2.2用戶現(xiàn)存配置文件,時(shí)間因子以及用戶當(dāng)前興趣配置文件

鑒于用戶的興趣會(huì)隨著時(shí)間的變化而快速變化,而且用戶的瀏覽興趣往往和剛剛瀏覽過的前幾條信息有很大的關(guān)聯(lián)。所以本發(fā)明在處理文本信息時(shí)首先對各個(gè)用戶瀏覽的消息的瀏覽時(shí)間進(jìn)行升序排序,然后生成現(xiàn)存用戶配置文件UCF。文件選取最后瀏覽的s個(gè)消息用于生成用戶u的當(dāng)前興趣配置文件UCFus。

設(shè)用戶u按瀏覽時(shí)間降序排列的消息集表示為:所以最新瀏覽的s個(gè)消息集合為Fus={fu1,fu2,…,fus},ti是用戶u閱讀消息fui的時(shí)間。時(shí)間因子能夠被定義為:

α是時(shí)間衰減參數(shù),通過實(shí)驗(yàn)確定。Fu,Fus是F的子集。所以Fu,Fus也可以表示為一個(gè)權(quán)重矩陣。獲得用戶u的現(xiàn)存配置文件UCF和當(dāng)前興趣配置文件UCFus的過程如算法1

表1:算法1

1.3潛在配置文件

消息用戶的瀏覽興趣并不是永久的,是跟隨社會(huì)流行和熱點(diǎn)話題變化而變化。所以推薦消息的列表不應(yīng)該僅僅包括用戶現(xiàn)存興趣,也應(yīng)該包括用戶的潛在興趣??紤]到消息的特殊性,所以本發(fā)明利用同時(shí)考慮行為相似和內(nèi)容相似的基于用戶的協(xié)同過濾方法來尋找目標(biāo)用戶的相似用戶和潛在興趣。

1.3.1混合相似性的計(jì)算

由于消息的特殊性,基于消息的協(xié)同過濾應(yīng)考慮:行為相似simAct(u,v)和內(nèi)容相似simCon(u,v)的計(jì)算。

給定新聞集Fus和Fv,用戶u的當(dāng)前興趣文件用戶v的當(dāng)前配置文件UCFv=(wcv1,wcv2,...,wcvl)。則用戶u與用戶v的行為相似和內(nèi)容相似的計(jì)算下:

simCon(u,v)=(CUFus·CUFv)/(|CUFus|×|CUFv|) (4)

根據(jù)公式(3)和(4),提供的混合相似計(jì)算公式如下:

sim(u,v)=β×simAct(u,v)+(1-β)×simCon(u,v) (5)

其中系數(shù)β∈[0,1],通過實(shí)驗(yàn)來決定。獲得u和v的相似性的過程如算法2。

表2:算法2

1.3.2潛在用戶配置文件和相似用戶文件的生成

目標(biāo)用戶u和其他用戶的相似性通過算法2計(jì)算。選擇相似性最大的u個(gè)用戶構(gòu)造相似用戶文件。然后通過加權(quán)計(jì)算獲得目標(biāo)用戶u的潛在用戶配置文件UMF。

給定相似用戶集Uu={v1,v2,…,vh},用戶vi的UCFvi=(wcvi1,wcvi2,...,wcvil),用戶u和用戶vi的相似性為sim(u,vi)。利用公式(6)計(jì)算在MUFu中的kj的權(quán)重。

獲得潛在用戶配置文件的過程如算法3。

表3:算法3

1.4用戶混合配置文件的生成

用戶混合配置文件UBF能夠在獲得目標(biāo)用戶的用戶當(dāng)前興趣配置文件UCF和潛在用戶配置文件UMF后,通過對UCF,UMF上的每個(gè)主要特征詞加權(quán)得到。設(shè)目標(biāo)用戶u的當(dāng)前興趣配置文件UCFus,潛在興趣配置文件UMFu=(wmu1,wmu2,...,wmul),混合配置文件UBFu=(wbu1,wbu2,...,wbul)。利用公式(7)計(jì)算wbuj。

wbuj=γwcuj+(1-γ)wmuj (7)

其中γ∈[0,1],其值通過實(shí)驗(yàn)確定。獲得用戶u的混合用戶配置文件UBFus過程如算法4。

表4:算法4

1.5推薦結(jié)果的生成

由于消息的更新速度快和用戶興趣更新等問題,在推薦列表中,消息由兩部分組成:l1,l2。

l1部分有混合配置文件生成。即通過添加時(shí)間因子ε1來限定消息是否采用混合推薦方法—看消息的發(fā)布時(shí)間與當(dāng)前時(shí)間的時(shí)間間隔是否小于ε1,若滿足則該文件采用混合推薦方法,否則將不采用。詳細(xì)過程如下:

設(shè)目標(biāo)用戶u的混合配置文件BUFu=(wbu1,wbu2,…,wbul),新聞d0=(wd1,wd2,...,wdl),新聞d0的發(fā)布時(shí)間為t0,當(dāng)前時(shí)間tcur,閾值ε12。首先檢查:

tcur-t0≤ε1 (8)

若不等式(8)成立,則檢查:

d0·BUFu≥ε2 (9)

若(9)成立,則將新聞d0放入l1中。

l2部分直接由基于內(nèi)容相似和行為相似的協(xié)同過濾算法生成。詳細(xì)過程如下:

設(shè)用戶u的相似用戶集Uu={v1,v2,…,vh},用戶u和用戶vi的相似性為sim(u,vi)。對于消息d0,設(shè)其在用戶u的相似用戶集上的權(quán)重為則消息d0的相對于用戶u的權(quán)重為:

選出相對于用戶u的權(quán)重較大的消息放入l2部分。

下面結(jié)合實(shí)驗(yàn)對本發(fā)明的應(yīng)用效果作詳細(xì)的描述。

1實(shí)驗(yàn)和分析

實(shí)驗(yàn)數(shù)據(jù)來源于DastCastle,它是財(cái)新網(wǎng)站2014年3月份的10000個(gè)用戶的所有瀏覽記錄。每個(gè)瀏覽記錄包含:用戶編號、新聞編號、瀏覽時(shí)間、新聞標(biāo)題、新聞詳細(xì)內(nèi)容、新聞發(fā)表時(shí)間。從數(shù)據(jù)集中選取閱讀超過25條的新聞?dòng)脩糇鳛橛?xùn)練集。令包含在網(wǎng)站給定的測試集中的訓(xùn)練集用戶作為測試集,其中測試集中的用戶只有一個(gè)測試記錄。本發(fā)明采用F值,準(zhǔn)確率(precision),召回率(recall)和多樣性Diversity作為評價(jià)指標(biāo)。

F值的定義如下:

其中準(zhǔn)確率(precision)和召回率(recall)的定義如下:

其中U為數(shù)據(jù)集中用戶的集合,hit(ui)表示推薦給用戶ui的新聞中,確實(shí)在測試集中被該用戶瀏覽的個(gè)數(shù)。由于每個(gè)用戶在測試集中僅有一條測試記錄,所以hit(ui)的取值只能為1或0。L(ui)表示用戶ui的新聞推薦列表的長度:

其中,hit(ui)的定義同上,T(ui)為測試集中用戶ui真正瀏覽的新聞的數(shù)目,所以T(ui)=1。在進(jìn)行實(shí)驗(yàn)時(shí),對于消息f0={w01,w02,…,w0i,…,w0l},若ki在f0中出現(xiàn)的頻率排在前10,則設(shè)w0i=1,否則設(shè)為w0i=0。設(shè)s=5,α=10-6,γ=0.5,ε1=3600,ε2=0.5。

首先驗(yàn)證β的取值,由于測試集中每個(gè)用戶只有一個(gè)測試記錄,所以用F值不能獲得好的效果。因此,在實(shí)驗(yàn)仿真中,本發(fā)明采用回召率(recall)。表5是推薦列表長度為20時(shí),recall與β的關(guān)系。

表5:recall與β的關(guān)系

通過實(shí)驗(yàn)數(shù)據(jù)顯示,當(dāng)β=0.9時(shí),recall最好。

接著驗(yàn)證F值,準(zhǔn)確率(precision),召回率(recall)。

在圖2中,隨著推薦列表長度的增加,上述六種方法除CB(基于內(nèi)容的推薦算法)外,F(xiàn)值都逐漸減少。在相同的推薦列表長度的情況下。CB(組合推薦)的F值最大,除個(gè)別點(diǎn)外,IBBCF(改進(jìn)的基于行為相似的協(xié)同過濾)、ICBCF(改進(jìn)的基于內(nèi)容相似的協(xié)同過濾)、HF(混合推薦)、BBCF(基于行為相似的協(xié)同過濾)、CBCF(基于內(nèi)容相似的協(xié)同過濾)依次減少。CB的F值最小。圖3為回召率(recall)指標(biāo)隨推薦列表長度變化的情況。隨著推薦列表長度的增加,六種方法的recall值都逐漸增加。在相同的推薦列表長度的情況下,除個(gè)別點(diǎn)外有:CR≥IBBCF≥ICBCF≥HR≥BBCF≥CBCF≥CB。圖4為準(zhǔn)確率(precision)指標(biāo)推薦列表長度變化的情況。隨著推薦列表長度的增加,六種方法值都逐漸減少。在相同的推薦列表長度的情況下,除個(gè)別點(diǎn)外:CR≥IBBCF≥ICBCF≥HR≥BBCF≥CBCF≥CB。

多樣性Diversity描述了推薦列表中物品兩兩之間的差異性。所以多樣性和相似性是對應(yīng)的。假設(shè)sim(i,j)∈[0,1]定義了消息i和j之間的相似度,那么用戶u的推薦列表R(u)的多樣性定義式(14):

而推薦系統(tǒng)的整體多樣性可以定義為所有用戶推薦列表多樣性的平均值:

圖5是上述六種方法在不同推薦長度下多樣性。從圖中可以看出,CB算法是通過對用戶先前消息的內(nèi)容進(jìn)行分析,然后推薦與其內(nèi)容相似的消息,所以在推薦列表中的消息內(nèi)容相似性特別高,進(jìn)而多樣性很差。IBBCF,ICBCF,BBCF,CBCF是目標(biāo)用戶通過找到與其行為相似或者內(nèi)容相似的用戶集,給目標(biāo)用戶推薦用戶集中瀏覽最多的消息,所以多樣性比CB好。CR是混合推薦和直接基于用戶的協(xié)同過濾算法的組合,所以多樣性比CB好,比IBBCF,ICBCF,BBCF,CBCF差。HR推薦的消息是與用戶的興趣模型相似度較高的消息,所以多樣性與CB相似。

此外,本發(fā)明在進(jìn)行推薦時(shí),由于對消息的分類推薦,所以推薦所用的時(shí)間遠(yuǎn)遠(yuǎn)小于基于內(nèi)容的算法和用戶的協(xié)同過濾混合推薦算法。

本發(fā)明針對組合推薦算法設(shè)計(jì)了實(shí)驗(yàn)并分析了實(shí)驗(yàn)結(jié)果,使用F值、召回率(recall)和準(zhǔn)確率(precision)和多樣性Diversity指標(biāo)衡量推薦算法性能。由此實(shí)驗(yàn)可知,組合推薦算法(CR)的F值、召回率和準(zhǔn)確率高于其它算法,說明在相同的推薦列表長度下,組合推薦算法(CR)的推薦效果更好。在多樣性方面雖然沒有不是最優(yōu),但是比混合推薦算法(HR)、基于內(nèi)容的推薦算法(CB)。實(shí)驗(yàn)結(jié)果符合算法設(shè)計(jì)初衷,驗(yàn)證了組合推薦算法與同類算法相比具有一定的優(yōu)越性。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1