亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法

文檔序號(hào):6351743閱讀:733來源:國知局
專利名稱:一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法
技術(shù)領(lǐng)域
本發(fā)明屬于WEB應(yīng)用技術(shù)領(lǐng)域,涉及遷移學(xué)習(xí)及網(wǎng)絡(luò)標(biāo)簽技術(shù),為一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,互聯(lián)網(wǎng)的信息快速膨脹,個(gè)性化推薦技術(shù)越來越重要。個(gè)性化推薦技術(shù)能夠幫助用戶在海量信息中快速找到自己需要的信息。個(gè)性化推薦技術(shù)根據(jù)對用戶特征以及用戶歷史行為的分析發(fā)現(xiàn)客戶的真正興趣,對每個(gè)特定用戶都進(jìn)行專門的推薦,使得推薦的產(chǎn)品或服務(wù)最大程度上符合客戶的需要。遷移學(xué)習(xí),它的目標(biāo)是將從一個(gè)環(huán)境中學(xué)到的知識(shí)用來幫助新環(huán)境中的學(xué)習(xí)任務(wù)。我們看到web應(yīng)用領(lǐng)域的發(fā)展非常快速。大量新的領(lǐng)域不斷涌現(xiàn),而傳統(tǒng)的個(gè)性化推薦技術(shù)在實(shí)際應(yīng)用中需要對每個(gè)領(lǐng)域都標(biāo)定大量的訓(xùn)練數(shù)據(jù),但是在現(xiàn)實(shí)中,很多新出現(xiàn)的領(lǐng)域中的大量訓(xùn)練數(shù)據(jù)非常難得到,但是如果我們有了大量的,但是處于不同分布下的訓(xùn)練數(shù)據(jù),我們期望能夠合理的利用這些數(shù)據(jù)來進(jìn)行個(gè)性化推薦,遷移學(xué)習(xí)研究的主要問題就是如何合理的利用這些數(shù)據(jù)。標(biāo)簽,在人類認(rèn)識(shí)世界的過程中,為了記憶和查找的便利,常常要對所認(rèn)識(shí)的對象進(jìn)行標(biāo)簽。近年來,隨著一種以用戶為中心的網(wǎng)絡(luò)概念的發(fā)展,網(wǎng)絡(luò)用戶在不斷創(chuàng)造信息的同時(shí),也需要按照自己的需求,以不同的方式有效地組織各類信息,于是,不受傳統(tǒng)信息組織規(guī)范約束,完全出于個(gè)人喜好的標(biāo)簽方式,逐漸成為人們推崇的數(shù)字信息組織的主要方法。在傳統(tǒng)的結(jié)合評分?jǐn)?shù)據(jù)和標(biāo)簽數(shù)據(jù)的個(gè)性化推薦方法中,根據(jù)用戶對產(chǎn)品的評分?jǐn)?shù)據(jù)和產(chǎn)品被標(biāo)記的標(biāo)簽數(shù)據(jù)計(jì)算生成用戶對標(biāo)簽的評分?jǐn)?shù)據(jù),然后采用基于用戶的協(xié)同過濾思想來根據(jù)用戶對標(biāo)簽的評分?jǐn)?shù)據(jù)計(jì)算用戶間的相似度。在計(jì)算用戶對標(biāo)簽的評分?jǐn)?shù)據(jù)時(shí),為了解決數(shù)據(jù)稀疏問題,有人提出了先計(jì)算標(biāo)簽的共同發(fā)生概率分布,然后再計(jì)算用戶對標(biāo)簽的評分,計(jì)算標(biāo)簽z的共同發(fā)生概率分布計(jì)算的公式如等式(I)所示Pz (t) =Eme jq (t I m) Q (m I z) (I)
標(biāo)簽〖被用于產(chǎn)品m的次數(shù) ^所有標(biāo)簽被用于產(chǎn)品W的次數(shù)的和
標(biāo)簽z被用于產(chǎn)品m的次數(shù)(3)
' Z) _標(biāo)簽z被用于所有產(chǎn)品的次數(shù)的和但是如果是一個(gè)新出現(xiàn)的領(lǐng)域,標(biāo)簽數(shù)據(jù)比較稀疏,在計(jì)算q(t|m)和Q(m|z)時(shí), 分子會(huì)出現(xiàn)很多零值,那么標(biāo)簽z的共現(xiàn)概率分布按照(I)中的公式計(jì)算就可能不精確,從而導(dǎo)致用戶之間的相似度計(jì)算不準(zhǔn)確,最終導(dǎo)致個(gè)性化推薦的結(jié)果不準(zhǔn)確。結(jié)合用戶的評分?jǐn)?shù)據(jù)和標(biāo)簽數(shù)據(jù)進(jìn)行推薦的個(gè)性化推薦方法要求有比較豐富的標(biāo)簽數(shù)據(jù),而實(shí)際上,對一個(gè)新的領(lǐng)域進(jìn)行標(biāo)簽是一個(gè)很耗費(fèi)人力和物力的活動(dòng)。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是現(xiàn)有的結(jié)合用戶的評分?jǐn)?shù)據(jù)和標(biāo)簽數(shù)據(jù)進(jìn)行協(xié)同過濾推薦的個(gè)性化推薦方法在標(biāo)簽數(shù)據(jù)稀少的情況下,計(jì)算得到的用戶相似度可能不精確,從而影響推薦的效果。本發(fā)明的技術(shù)方案為一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,從標(biāo)簽數(shù)據(jù)豐富的源數(shù)據(jù)集學(xué)習(xí)知識(shí)遷移到標(biāo)簽數(shù)據(jù)不足的目標(biāo)數(shù)據(jù)集,用于標(biāo)簽數(shù)據(jù)不足的網(wǎng)站對用戶進(jìn)行個(gè)性化推薦,遷移的知識(shí)是標(biāo)簽之間的關(guān)系,具體表現(xiàn)形式是標(biāo)簽聚類后形成的主題 topic,包括以下步驟I)分別在源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集預(yù)先對標(biāo)簽數(shù)據(jù)進(jìn)行清洗,對源數(shù)據(jù)集的標(biāo)簽進(jìn)行聚類,得到標(biāo)簽的topic集合;2)遷移標(biāo)簽的topic集合到目標(biāo)數(shù)據(jù)集遷移標(biāo)簽的topic集合的目標(biāo)是將目標(biāo)數(shù)據(jù)集上的每一個(gè)標(biāo)簽都放到一個(gè)與該標(biāo)簽距離最小的topic中,如果從源數(shù)據(jù)集上遷移過來的所有topic與該標(biāo)簽的距離都比較遠(yuǎn),則該標(biāo)簽將形成一個(gè)新的topic,具體步驟如下遍歷目標(biāo)數(shù)據(jù)集上的所有標(biāo)簽,對每一個(gè)標(biāo)簽2. I)如果該標(biāo)簽也存在于源數(shù)據(jù)集上,則它本來就存在于遷移過來的某一個(gè) topic 中;2. 2)如果該標(biāo)簽在源數(shù)據(jù)集上不存在,則在目標(biāo)數(shù)據(jù)集上計(jì)算它和每一個(gè)topic 的距離,并設(shè)定劃分閾值A(chǔ) :如果最近的距離不大于劃分閾值,把這個(gè)標(biāo)簽放在距離最近的topic中;B :如果最近的距離大于劃分閾值,把這個(gè)標(biāo)簽作為一個(gè)新的topic ;3)在目標(biāo)數(shù)據(jù)集上進(jìn)行推薦,根據(jù)步驟2)中得到的topic集合,同時(shí)結(jié)合用戶評分?jǐn)?shù)據(jù),計(jì)算得到用戶對標(biāo)簽topic的評分,根據(jù)用戶對標(biāo)簽topic的評分采用基于用戶的協(xié)同過濾技術(shù)完成推薦。步驟I)具體為I. I)分別在源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集預(yù)先對標(biāo)簽數(shù)據(jù)進(jìn)行清洗,包括篩選和去除兩種方法一、選擇被兩個(gè)以上用戶使用過,并被用于5個(gè)以上產(chǎn)品的標(biāo)簽;二、設(shè)定刪除關(guān)鍵詞,去除含有所設(shè)定關(guān)鍵詞的標(biāo)簽;I. 2)對源數(shù)據(jù)集中的標(biāo)簽通過層次聚類,得到標(biāo)簽的topic集合,計(jì)算標(biāo)簽的共現(xiàn)概率分布,再用延森-香農(nóng)分歧JSD來計(jì)算標(biāo)簽之間的距離,根據(jù)JSD距離,對源數(shù)據(jù)集上面的標(biāo)簽進(jìn)行聚類。步驟I. 2)具體為I. 2. I)對源數(shù)據(jù)集中的標(biāo)簽的共現(xiàn)概率分布進(jìn)行計(jì)算,得到標(biāo)簽的相關(guān)度矩陣,
標(biāo)簽 z 的共現(xiàn)概率分布為(PzU1),pz (t2), pz (t3),....., Pz (ti),.......Pz(tn)),其中,n 表
示數(shù)據(jù)集中標(biāo)簽的總數(shù),ti表示數(shù)據(jù)集中的第i個(gè)標(biāo)簽,pz (t^表示標(biāo)簽z和標(biāo)簽&的共現(xiàn)概率;標(biāo)簽z和數(shù)據(jù)集中任意一個(gè)標(biāo)簽t的共現(xiàn)概率的計(jì)算公式如式(I):
權(quán)利要求
1.一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,其特征是從標(biāo)簽數(shù)據(jù)豐富的源數(shù)據(jù)集學(xué)習(xí)知識(shí)遷移到標(biāo)簽數(shù)據(jù)不足的目標(biāo)數(shù)據(jù)集,用于標(biāo)簽數(shù)據(jù)不足的網(wǎng)站對用戶進(jìn)行個(gè)性化推薦, 遷移的知識(shí)是標(biāo)簽之間的關(guān)系,具體表現(xiàn)形式是標(biāo)簽聚類后形成的主題topic,包括以下步驟1)分別在源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集預(yù)先對標(biāo)簽數(shù)據(jù)進(jìn)行清洗,對源數(shù)據(jù)集的標(biāo)簽進(jìn)行聚類,得到標(biāo)簽的topic集合;2)遷移標(biāo)簽的topic集合到目標(biāo)數(shù)據(jù)集遷移標(biāo)簽的topic集合的目標(biāo)是將目標(biāo)數(shù)據(jù)集上的每一個(gè)標(biāo)簽都放到一個(gè)與該標(biāo)簽距離最小的topic中,如果從源數(shù)據(jù)集上遷移過來的所有topic與該標(biāo)簽的距離都比較遠(yuǎn),則該標(biāo)簽將形成一個(gè)新的topic,具體步驟如下遍歷目標(biāo)數(shù)據(jù)集上的所有標(biāo)簽,對每一個(gè)標(biāo)簽2.I)如果該標(biāo)簽也存在于源數(shù)據(jù)集上,則它本來就存在于遷移過來的某一個(gè)topic中;2.2)如果該標(biāo)簽在源數(shù)據(jù)集上不存在,則在目標(biāo)數(shù)據(jù)集上計(jì)算它和每一個(gè)topic的距離,并設(shè)定劃分閾值A(chǔ) :如果最近的距離不大于劃分閾值,把這個(gè)標(biāo)簽放在距離最近的topic中;B :如果最近的距離大于劃分閾值,把這個(gè)標(biāo)簽作為一個(gè)新的topic ;3)在目標(biāo)數(shù)據(jù)集上進(jìn)行推薦,根據(jù)步驟2)中得到的topic集合,同時(shí)結(jié)合用戶評分?jǐn)?shù)據(jù),計(jì)算得到用戶對標(biāo)簽topic的評分,根據(jù)用戶對標(biāo)簽topic的評分采用基于用戶的協(xié)同過濾技術(shù)完成推薦。
2.根據(jù)權(quán)利要求I所述的一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,其特征是步驟I)具體為I. D分別在源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集預(yù)先對標(biāo)簽數(shù)據(jù)進(jìn)行清洗,包括篩選和去除兩種方法一、選擇被兩個(gè)以上用戶使用過,并被用于5個(gè)以上產(chǎn)品的標(biāo)簽;二、設(shè)定刪除關(guān)鍵詞, 去除含有所設(shè)定關(guān)鍵詞的標(biāo)簽;I. 2)對源數(shù)據(jù)集中的標(biāo)簽通過層次聚類,得到標(biāo)簽的topic集合,計(jì)算標(biāo)簽的共現(xiàn)概率分布,再用延森-香農(nóng)分歧JSD來計(jì)算標(biāo)簽之間的距離,根據(jù)JSD距離,對源數(shù)據(jù)集上面的標(biāo)簽進(jìn)行聚類。
3.根據(jù)權(quán)利要求2所述的一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,其特征是步驟I.2)具體為、1.2.I)對源數(shù)據(jù)集中的標(biāo)簽的共現(xiàn)概率分布進(jìn)行計(jì)算,得到標(biāo)簽的相關(guān)度矩陣,標(biāo)簽Z 的共現(xiàn)概率分布為(PzU1), Pz (t2), Pz (t3),.....,Pz (ti),.......Pz(tn)),其中,η 表示數(shù)據(jù)集中標(biāo)簽的總數(shù),ti表示數(shù)據(jù)集中的第i個(gè)標(biāo)簽,pzUi)表示標(biāo)簽z和標(biāo)簽&的共現(xiàn)概率;標(biāo)簽z和數(shù)據(jù)集中任意一個(gè)標(biāo)簽t的共現(xiàn)概率的計(jì)算公式如式(I)
4.根據(jù)權(quán)利要求I所述的一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,其特征是步驟3)包括以下具體步驟、3.I)在目標(biāo)數(shù)據(jù)集上計(jì)算每個(gè)用戶對每一個(gè)topic的評分,每個(gè)產(chǎn)品item對應(yīng)有標(biāo)簽,根據(jù)用戶對item的評分和item與topic之間的關(guān)系來計(jì)算用戶對topic的評分 用戶u對一個(gè)topic的評分的計(jì)算如式(6)
全文摘要
一種基于標(biāo)簽遷移學(xué)習(xí)的推薦方法,利用遷移技術(shù)解決標(biāo)簽數(shù)據(jù)稀疏的問題,遷移的知識(shí)是標(biāo)簽之間的關(guān)系,利用已有標(biāo)簽信息密集的數(shù)據(jù)集,聚類得到標(biāo)簽的topic,通過遷移學(xué)習(xí)的方式將標(biāo)簽的topic遷移到其他相關(guān)的但是標(biāo)簽信息相對稀疏的數(shù)據(jù)集上,然后根據(jù)遷移來的標(biāo)簽topic結(jié)合評分?jǐn)?shù)據(jù)計(jì)算得到用戶的相似度,最后利用協(xié)同過濾技術(shù)完成推薦。本發(fā)明提供的方法通過引入另外一個(gè)相似的但數(shù)據(jù)密集的領(lǐng)域的標(biāo)簽信息,來計(jì)算新領(lǐng)域的標(biāo)簽topic,從而提高計(jì)算用戶相似性的準(zhǔn)確性,進(jìn)而達(dá)到更好的推薦效果。
文檔編號(hào)G06F17/30GK102591915SQ20111041966
公開日2012年7月18日 申請日期2011年12月15日 優(yōu)先權(quán)日2011年12月15日
發(fā)明者劉嘉, 王維清, 祁奇, 趙志宏, 陳振宇 申請人:南京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1