亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于標(biāo)準(zhǔn)標(biāo)簽和項(xiàng)目評(píng)分的推薦方法

文檔序號(hào):6501155閱讀:231來(lái)源:國(guó)知局
一種基于標(biāo)準(zhǔn)標(biāo)簽和項(xiàng)目評(píng)分的推薦方法
【專利摘要】基于標(biāo)準(zhǔn)標(biāo)簽和項(xiàng)目評(píng)分的推薦方法具有如下特征:本發(fā)明將標(biāo)簽標(biāo)準(zhǔn)化,即將用戶的自定義標(biāo)簽映射到語(yǔ)義較明確的標(biāo)準(zhǔn)標(biāo)簽上,再利用標(biāo)準(zhǔn)標(biāo)簽建立用戶興趣模型,然后根據(jù)用戶的興趣模型計(jì)算用戶之間的相似度,建立近鄰用戶群,再基于目標(biāo)用戶及其近鄰用戶的項(xiàng)目評(píng)分和改進(jìn)的Slope?one算法預(yù)測(cè)用戶對(duì)未評(píng)項(xiàng)目的評(píng)分,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦,可顯著提高Web2.0互聯(lián)網(wǎng)上廣泛使用的可進(jìn)行自由定義的標(biāo)簽的可用性,利用基于標(biāo)準(zhǔn)標(biāo)簽的用戶興趣模型計(jì)算用戶之間的相似度,并為目標(biāo)用戶建立相似用戶群,能夠縮小目標(biāo)用戶的相關(guān)項(xiàng)目評(píng)分搜索范圍,減少算法的計(jì)算量,改進(jìn)了Slope?one算法的項(xiàng)目評(píng)分預(yù)測(cè),提高了興趣愛(ài)好相近的用戶對(duì)預(yù)測(cè)評(píng)分的貢獻(xiàn),從而提高互聯(lián)網(wǎng)個(gè)性化推薦質(zhì)量。
【專利說(shuō)明】一種基于標(biāo)準(zhǔn)標(biāo)簽和項(xiàng)目評(píng)分的推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種標(biāo)簽標(biāo)準(zhǔn)化和自動(dòng)快速地向社交網(wǎng)絡(luò)用戶進(jìn)行個(gè)性化推薦的解決方案。主要用于解決如何有效利用用戶自定義標(biāo)簽和用戶對(duì)一些項(xiàng)目的評(píng)分進(jìn)行個(gè)性化推薦的問(wèn)題,屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)時(shí)代的來(lái)臨,互聯(lián)網(wǎng)的規(guī)模不斷擴(kuò)大,復(fù)雜多樣的信息充斥著網(wǎng)絡(luò),同時(shí)也帶來(lái)了信息“超負(fù)載(information overload)”的問(wèn)題。用戶無(wú)法在過(guò)量的信息中迅速獲取對(duì)自己有用的資源,降低了信息的利用率,許多有用的信息不能被及時(shí)發(fā)現(xiàn)甚至不能被發(fā)現(xiàn),造成了“資源浪費(fèi)”。個(gè)性化推薦系統(tǒng)(personalized recommender system)的出現(xiàn)很好地解決了這個(gè)問(wèn)題。個(gè)性化推薦研究利用用戶預(yù)先提供的數(shù)據(jù)或是利用數(shù)據(jù)挖掘等技術(shù)從用戶的歷史記錄中收集用戶的偏好,幫助用戶獲取感興趣的信息,結(jié)合推薦算法,為用戶推薦其可能感興趣的資源。本發(fā)明中,每項(xiàng)資源也稱為項(xiàng)目。如果推薦系統(tǒng)能夠?yàn)橛脩籼峁└哔|(zhì)量的推薦服務(wù),將會(huì)在提高用戶忠誠(chéng)度和防止用戶流失方面發(fā)揮很大的作用。
[0003]用戶興趣模型和個(gè)性化推薦算法是個(gè)性化推薦技術(shù)中的兩個(gè)重要核心,用戶興趣模型的質(zhì)量關(guān)系著用戶的興趣愛(ài)好能否被正確的表示,而高效的推薦方法則是推薦質(zhì)量的良好保證。用戶興趣模型是一種形式化的,可計(jì)算的數(shù)據(jù)結(jié)構(gòu),模型的興趣特征是影響用戶興趣模型質(zhì)量的主要因素。近年來(lái),Web2.0環(huán)境下信息組織方式之一標(biāo)簽逐漸進(jìn)入研究者們的視野,標(biāo)簽因?yàn)槠渥杂啥x、無(wú)約束、可共享等特點(diǎn)被認(rèn)為是一種包含了用戶興趣的“關(guān)鍵詞”,并逐漸應(yīng)用在個(gè)性化推薦領(lǐng)域。事實(shí)上,只要用戶創(chuàng)建的標(biāo)簽?zāi)軌虮蛔约豪斫猓瑯?biāo)簽自身真正的含義與用戶的意圖是否相符無(wú)關(guān)緊要,因此標(biāo)簽存在較嚴(yán)重的語(yǔ)義問(wèn)題,這種語(yǔ)義問(wèn)題也直接導(dǎo)致了用戶興趣模型準(zhǔn)確率的降低;個(gè)性化推薦算法根據(jù)用戶的興趣愛(ài)好為其做出合適的推薦,直接關(guān)系個(gè)性化推薦系統(tǒng)的質(zhì)量和性能。Slope one算法具有較好的推薦質(zhì)量和推薦速度,常被用來(lái)做實(shí)時(shí)推薦,但是同時(shí)也存在著以下問(wèn)題影響著算法的運(yùn)算效率和精度:
[0004]( I)相關(guān)的項(xiàng)目評(píng)分?jǐn)?shù)量可能很大。項(xiàng)目的評(píng)分預(yù)測(cè)是全局的,用戶對(duì)某未評(píng)項(xiàng)目j的評(píng)分是根據(jù)其他用戶對(duì)相關(guān)項(xiàng)目與項(xiàng)目j的平均評(píng)分差值以及該用戶已有項(xiàng)目評(píng)分來(lái)預(yù)測(cè)的。隨著相關(guān)的項(xiàng)目評(píng)分?jǐn)?shù)據(jù)的增多,計(jì)算項(xiàng)目j與其他項(xiàng)目評(píng)分差將是一個(gè)非常大的開(kāi)銷,不僅會(huì)對(duì)推薦的精度造成影響,對(duì)算法的運(yùn)算速度也會(huì)產(chǎn)生一定的影響。
[0005](2)用戶針對(duì)性不強(qiáng)。用戶u對(duì)項(xiàng)目j的預(yù)測(cè)評(píng)分是涉及到所有對(duì)項(xiàng)目j評(píng)價(jià)過(guò)的用戶,這種計(jì)算方式過(guò)濾掉了一些不相關(guān)的用戶,但是由于面向的是全局用戶,一些滿足項(xiàng)目評(píng)分要求但是興趣完全相反的用戶也會(huì)被計(jì)算在內(nèi),從而會(huì)導(dǎo)致預(yù)測(cè)結(jié)果的偏差。例如預(yù)測(cè)UserC對(duì)項(xiàng)目i的評(píng)分,設(shè)UserA與UserC的興趣愛(ài)好相同,對(duì)項(xiàng)目的評(píng)分習(xí)慣也類似,UserB與UserA、UserC的興趣完全不同,對(duì)項(xiàng)目的喜愛(ài)程度也完全不同,那么可能出現(xiàn)根據(jù)UserA對(duì)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)得到UserC對(duì)項(xiàng)目i的評(píng)分為5,而根據(jù)UserA和UserB對(duì)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)得到UserC對(duì)項(xiàng)目i評(píng)分為2,顯然后一個(gè)預(yù)測(cè)結(jié)果不合情理。[0006]綜上可見(jiàn),標(biāo)簽不能準(zhǔn)確表達(dá)用戶的興趣愛(ài)好;傳統(tǒng)的Slope one算法雖然避免計(jì)算用戶相似度,減少了計(jì)算時(shí)間,卻避免不了極大的計(jì)算量和物理空間消耗;傳統(tǒng)的Slope one的預(yù)測(cè)精度也有一定的提高空間。

【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的:提供一種先將自定義標(biāo)簽映射為標(biāo)準(zhǔn)標(biāo)簽,再基于標(biāo)準(zhǔn)標(biāo)簽建立用戶興趣模型,再基于興趣模型計(jì)算用戶相似度獲悉近鄰用戶群,進(jìn)而基于相關(guān)用戶評(píng)分信息以及用戶相似度對(duì)目標(biāo)用戶進(jìn)行項(xiàng)目推薦的互聯(lián)網(wǎng)智能推薦方法,以及實(shí)現(xiàn)流程,用于解決當(dāng)前標(biāo)簽存在的語(yǔ)義模糊、難以利用的問(wèn)題,以及當(dāng)前簡(jiǎn)單利用標(biāo)簽的個(gè)性化推薦方法準(zhǔn)確度不高、計(jì)算量大、空間消耗過(guò)大等問(wèn)題。本發(fā)明可顯著提高Web2.0互聯(lián)網(wǎng)上廣泛使用的可進(jìn)行自由定義的標(biāo)簽的可用性,并提高互聯(lián)網(wǎng)個(gè)性化推薦(即區(qū)分用戶進(jìn)行項(xiàng)目推薦)的推薦質(zhì)量。
[0008]本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:本發(fā)明將標(biāo)簽標(biāo)準(zhǔn)化,即將用戶的自定義標(biāo)簽映射到語(yǔ)義較明確的標(biāo)準(zhǔn)標(biāo)簽上,再利用標(biāo)準(zhǔn)標(biāo)簽建立用戶興趣模型,然后根據(jù)用戶的興趣模型計(jì)算用戶之間的相似度,建立近鄰用戶群,再基于已有的項(xiàng)目評(píng)分?jǐn)?shù)據(jù)和改進(jìn)的Slope one算法預(yù)測(cè)用戶對(duì)未評(píng)項(xiàng)目的評(píng)分,進(jìn)而實(shí)現(xiàn)個(gè)性化推薦,其目標(biāo)是解決標(biāo)簽的語(yǔ)義模糊問(wèn)題,降低用戶興趣模型的維度,在不增加時(shí)間消耗的情況下,提高推薦算法的準(zhǔn)確度,減少推薦算法的計(jì)算量及物理空間消耗。
[0009]社交網(wǎng)絡(luò)中標(biāo)簽是用戶在無(wú)規(guī)律約束的條件下自主創(chuàng)造的,用戶可以使用若干標(biāo)簽來(lái)標(biāo)注若干項(xiàng)目,同一項(xiàng)目可以被多個(gè)標(biāo)簽標(biāo)注。雖然計(jì)算機(jī)不能夠像人腦一樣直接理解或糾正標(biāo)簽的語(yǔ)義,但是通過(guò)標(biāo)簽與項(xiàng)目之間的關(guān)系,可以從標(biāo)注的項(xiàng)目中反映出標(biāo)簽的含義。本發(fā)明中使用如下概念和計(jì)算公式:
[0010](I)標(biāo)準(zhǔn)標(biāo)簽(Standard Tag):語(yǔ)義公認(rèn)明確的標(biāo)簽,且各標(biāo)簽之間的相關(guān)度很小。初始標(biāo)準(zhǔn)標(biāo)簽集合由人為制定的標(biāo)準(zhǔn)標(biāo)簽組成,并存入標(biāo)準(zhǔn)標(biāo)簽庫(kù)。以后根據(jù)用戶自定義標(biāo)簽標(biāo)注的信息按照一定的規(guī)則適當(dāng)擴(kuò)充標(biāo)準(zhǔn)標(biāo)簽庫(kù)。
[0011](2)標(biāo)簽標(biāo)準(zhǔn)化:將用戶的自定義標(biāo)簽映射到標(biāo)準(zhǔn)標(biāo)簽上的過(guò)程。無(wú)法映射的用戶自定義標(biāo)簽可暫時(shí)作為標(biāo)準(zhǔn)標(biāo)簽,但不并入標(biāo)準(zhǔn)標(biāo)簽庫(kù)。
[0012](3)屬性共現(xiàn)率:在若干屬性中出現(xiàn)同一個(gè)詞的概率,也簡(jiǎn)稱為共現(xiàn)率。例如,屬性值”ab”在下列屬性序列”ab I Cd”、”a I ab | S”、,,xcd | ab”、” iuy | ab | dfw”(各個(gè)屬性值之間用” I”分隔)中的共獻(xiàn)率為I。
[0013](4)標(biāo)簽\和\的互信息I(ti;tp以及熵Hai)定義為:
[0014]
【權(quán)利要求】
1.一種標(biāo)簽標(biāo)準(zhǔn)化,其特征主要在于自定義標(biāo)簽的標(biāo)準(zhǔn)化步驟, 步驟I)根據(jù)個(gè)性化推薦應(yīng)用環(huán)境,選擇網(wǎng)站提供的熱門標(biāo)簽作為標(biāo)準(zhǔn)標(biāo)簽,或根據(jù)應(yīng)用領(lǐng)域人工定義標(biāo)準(zhǔn)標(biāo)簽,建立標(biāo)準(zhǔn)標(biāo)簽庫(kù); 步驟2)對(duì)每個(gè)用戶自定義標(biāo)簽做如下操作, 步驟21)將其與標(biāo)準(zhǔn)標(biāo)簽做簡(jiǎn)單的字符串匹配,若匹配成功則直接將其映射到標(biāo)準(zhǔn)標(biāo)簽上,否則轉(zhuǎn)步驟22); 步驟22)若該用戶自定義標(biāo)簽標(biāo)注的所有項(xiàng)目中含有共現(xiàn)率為I的屬性值,則將所有這樣的屬性值作為標(biāo)準(zhǔn)標(biāo)簽,并將該用戶自定義標(biāo)簽映射到這些標(biāo)準(zhǔn)標(biāo)簽上,并將它們并入標(biāo)準(zhǔn)標(biāo)簽庫(kù);若不存在這樣的屬性,則轉(zhuǎn)步驟3); 步驟3)使用基于互信息的標(biāo)簽聚類方法,將步驟I)和步驟2)標(biāo)準(zhǔn)化失敗的所有用戶的自定義標(biāo)簽映射到標(biāo)準(zhǔn)標(biāo)簽庫(kù)中的標(biāo)簽上;設(shè)此時(shí)自定義標(biāo)簽集合為TP,含m個(gè)標(biāo)簽;標(biāo)準(zhǔn)標(biāo)簽庫(kù)中的標(biāo)簽組成集合Ts,含η個(gè)標(biāo)簽;將Ts中的標(biāo)簽作為聚類中心;相關(guān)閥值為δ,當(dāng)標(biāo)簽間的相關(guān)度小于δ時(shí),認(rèn)為標(biāo)簽之間不相關(guān);分為以下幾步: 步驟31)按照式(3)計(jì)算集合Tp和Ts中所有標(biāo)簽之間的相關(guān)度;式(3)為
2.一種基于標(biāo)準(zhǔn)標(biāo)簽和項(xiàng)目評(píng)分的推薦方法,方法包括權(quán)利要求1所述的自定義標(biāo)簽的標(biāo)準(zhǔn)化,基于標(biāo)準(zhǔn)標(biāo)簽建立用戶興趣模型,計(jì)算用戶相似度,以及基于相似用戶的相關(guān)評(píng)分和用戶相似度預(yù)測(cè)用戶對(duì)項(xiàng)目的評(píng)分,其特征在于方法所包含的步驟: 步驟I)利用權(quán)利要求1的標(biāo)準(zhǔn)標(biāo)簽生成用戶的興趣模型,使用基于向量空間模型的表示法建立用戶的興趣模型;記當(dāng)前標(biāo)準(zhǔn)標(biāo)簽集合為TS,TS=U1, t2,...,tj,η= I TS I,用戶興趣模型為:Kt1, WU1)),(t2, w(t2)),...,(tn, W (tn))},其中ti(l≤i≤n)表示用戶的興趣項(xiàng)(也即標(biāo)準(zhǔn)標(biāo)簽),w(ti)表示用戶對(duì)興趣項(xiàng)\的權(quán)重;用戶Ui的興趣模型中的任一興趣項(xiàng)權(quán)重采用TF-1DF方法按式(5 )計(jì)算,公式(5 )為w
【文檔編號(hào)】G06F17/30GK103678431SQ201310101242
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年3月26日 優(yōu)先權(quán)日:2013年3月26日
【發(fā)明者】成衛(wèi)青, 楊晶, 洪龍, 楊庚, 黃衛(wèi)東, 吳旭東, 唐旋 申請(qǐng)人:南京郵電大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1