專利名稱:一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及個(gè)性化推薦領(lǐng)域,尤其涉及一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法。
背景技術(shù):
隨著網(wǎng)絡(luò)和多媒體技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的圖像數(shù)量呈爆炸性增長(zhǎng)。據(jù)統(tǒng)計(jì), 2008年,Google已索引Web網(wǎng)頁(yè)規(guī)模達(dá)到1萬(wàn)億,其中圖像數(shù)據(jù)超過(guò)幾十億張。海量信息 的同時(shí)呈現(xiàn),一方面使用戶很難從中發(fā)現(xiàn)自己感興趣的部分,另一方面也使得大量少有人 問(wèn)津的信息成為網(wǎng)絡(luò)中的“暗信息”,無(wú)法被一般用戶獲取。個(gè)性化推薦系統(tǒng)通過(guò)建立用戶 與信息產(chǎn)品之間的二元關(guān)系,利用已有的選擇過(guò)程或相似性關(guān)系挖掘用戶潛在感興趣的對(duì) 象,進(jìn)而進(jìn)行推薦,其本質(zhì)就是信息過(guò)濾。個(gè)性化推薦系統(tǒng)不僅在社會(huì)經(jīng)濟(jì)中具有重要的應(yīng) 用價(jià)值,而且也是一個(gè)非常值得研究的科學(xué)問(wèn)題。事實(shí)上,它是目前解決信息過(guò)載問(wèn)題最有 效的工具之一。協(xié)同過(guò)濾推薦(collaborative filtering recommendation)技術(shù)是推薦系統(tǒng)中 最為成功的技術(shù)之一,已被廣泛的應(yīng)用于電影推薦(Netflix)、圖書(shū)推薦(Amazon)等領(lǐng)域。 與傳統(tǒng)的基于內(nèi)容過(guò)濾直接分析內(nèi)容進(jìn)行推薦不同,協(xié)同過(guò)濾分析用戶興趣,在用戶群中 找到與指定用戶的相似(興趣)用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該 指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。然而,雖然有著廣泛的研究與應(yīng)用,協(xié)同過(guò)濾技術(shù)仍然 難以克服數(shù)據(jù)稀疏性問(wèn)題,即在現(xiàn)有推薦系統(tǒng)中,用戶往往只評(píng)價(jià)過(guò)極小一部分物品,這樣 使得基于用戶的評(píng)價(jià)所得到的用戶間的相似性可能不準(zhǔn)確。稀疏性的問(wèn)題具體表現(xiàn)在如下 兩個(gè)方面1)冷起動(dòng)問(wèn)題(cold start),即當(dāng)新的用戶或新的物品加入到推薦系統(tǒng)時(shí),由于 缺少評(píng)價(jià)信息,不能為其找到相似的用戶或相似的物品,從而無(wú)法進(jìn)行推薦。2)相似傳遞性問(wèn)題(Neighbor transitivity),即用戶A與B有相似偏好,用戶B 和C也有相似偏好,那么A與C也可能有相似偏好,即使A與C沒(méi)有評(píng)價(jià)過(guò)相同的物品。因 此傳統(tǒng)的協(xié)同過(guò)濾推薦算法無(wú)法挖掘出潛在的相似用戶或相似物品。為了解決以上缺點(diǎn),我們提出1)使用社會(huì)化標(biāo)簽提供的語(yǔ)義信息來(lái)挖掘物品的 相似性,從而緩解因缺少用戶評(píng)分信息而無(wú)法精確計(jì)算物品相似度的瓶頸;2)使用基于圖 模型的隨機(jī)游走(Random walk)算法來(lái)解決相似傳遞性問(wèn)題。更進(jìn)一步,由于社會(huì)化標(biāo)簽由用戶產(chǎn)生,這些標(biāo)簽總數(shù)量很大,而其中難免出現(xiàn)錯(cuò) 誤與噪音,同時(shí),每個(gè)用戶習(xí)慣用很少的一部分標(biāo)簽來(lái)標(biāo)注物品,使得物品的語(yǔ)義不能被標(biāo) 簽充分的表達(dá)。為了解決這個(gè)問(wèn)題,我們提出一種基于lasso logistic regression的模 型通過(guò)關(guān)聯(lián)語(yǔ)義相似的標(biāo)簽,使得物品的語(yǔ)義可被更加全面和準(zhǔn)確的表達(dá)。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有推薦技術(shù)的不足,提供一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法。
基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法包括如下步驟1)首先使用三部圖對(duì)用戶、物品、社會(huì)化標(biāo)簽這三種不同結(jié)點(diǎn)進(jìn)行建模,并應(yīng)用隨 機(jī)游走算法為每個(gè)用戶個(gè)性化推薦top-N個(gè)物品;2)使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,即對(duì)每個(gè)物 品,增加與其語(yǔ)義相關(guān)的標(biāo)簽,并且除去那些有噪音的標(biāo)簽,以解決社會(huì)化標(biāo)簽中存在的噪 音和稀疏性問(wèn)題,即物品通常只有很少一部分標(biāo)簽標(biāo)注;3)調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重。所述的通過(guò)三部圖對(duì)用戶、物品以及標(biāo)簽建模并應(yīng)用隨機(jī)游走算法為每個(gè)用戶推 薦物品的步驟為1)使用三部圖建模,則該三部圖可表示為G= {U,I,T,E},其中U、I、T分別表示 用戶、物品、標(biāo)簽,E表示它們之間的關(guān)系,則該三部圖可以如下鄰接矩陣表示為 其中UI表示User對(duì)Item的評(píng)分矩陣,UI^.即為用戶Ui對(duì)物品i,.的評(píng)分;IT為
物品與標(biāo)簽矩陣,IT^表示物品i,.被標(biāo)簽、標(biāo)注的次數(shù);2)在該三部圖上使用隨機(jī)游走算法進(jìn)行推薦。隨機(jī)游走算法中的轉(zhuǎn)移矩陣定義如下 隨機(jī)游走算法初始化時(shí),每個(gè)結(jié)點(diǎn)給予初始值R(0)。隨后依據(jù)轉(zhuǎn)移矩陣,迭代“走” 向其它結(jié)點(diǎn),直至收斂,同時(shí),為了體現(xiàn)個(gè)性化原則,在迭代過(guò)程中,隨機(jī)游走算法以概率a 走向那些反應(yīng)用戶偏好的結(jié)點(diǎn),隨機(jī)游走算法形式化定義如下 其中R(t)即為隨機(jī)算法對(duì)各節(jié)點(diǎn)的推薦值,p表示用戶偏好結(jié)點(diǎn),在三部圖中,包 括用戶結(jié)點(diǎn),物品結(jié)點(diǎn),及標(biāo)簽結(jié)點(diǎn),其定義如下p = [puser pitem ptag]T其中,puser為用戶自身,piteffl是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),ptag是用戶使用過(guò) 的標(biāo)簽結(jié)點(diǎn)。在實(shí)際計(jì)算中,上述方程可推薦出如下形式 R(t + \)user = (1 - a)PxR{t)item + apuser
其中R(t+1)■,R(t+l)tag,R(t+l)item分別表示對(duì)用戶,標(biāo)簽以及物品的推薦值,對(duì)
”em排序,選出其中值最大的前N個(gè)物品推薦給用戶。所述的通lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,從而解決 標(biāo)簽稀疏性與噪音問(wèn)題的步驟為1)對(duì)于每一個(gè)標(biāo)簽b,標(biāo)注訓(xùn)練樣本,即對(duì)每個(gè)物品a,如果它被該標(biāo)簽標(biāo)注過(guò),則 其為正樣例,即yab = 1,否則成為負(fù)樣例,yab = -1 ;
2)在整個(gè)樣本空間中訓(xùn)練求解如下最大似然函數(shù),得到回歸系數(shù)各
回歸系數(shù)3 bl即為標(biāo)簽1與標(biāo)簽b的語(yǔ)義上的相關(guān)度,3 bl > 0表示正相關(guān),3 bl < 0表示負(fù)相關(guān),而0 bl = o則表示不相關(guān);3)對(duì)于物品a,如果被標(biāo)簽b標(biāo)注過(guò),則與標(biāo)簽b最相關(guān)的K個(gè)標(biāo)簽用來(lái)描述物品 的語(yǔ)義,從而擴(kuò)展物品的標(biāo)簽,而與標(biāo)簽b最不相關(guān)的K個(gè)標(biāo)簽用來(lái)除去描述物品標(biāo)簽中的噪音。所述的調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重步驟為在隨機(jī)游走算法中,對(duì)用戶評(píng)分項(xiàng) 和社會(huì)化標(biāo)簽項(xiàng)增加不同的權(quán)重,分別為S和2-6,則該隨機(jī)游走算法如下 其中R(t+1廣,R(t+l)tag,R(t+l)item分別表示對(duì)用戶,標(biāo)簽以及物品的推薦值, Puser為用戶自身,Pita"是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),Ptag是用戶使用過(guò)的標(biāo)簽結(jié)點(diǎn)。本發(fā)明所提出的基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法有機(jī)結(jié)合社會(huì)化標(biāo)簽對(duì)于物品 描述的語(yǔ)義信息,并使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,解決 社會(huì)化標(biāo)簽的稀疏性與噪音問(wèn)題,從而大幅提升個(gè)性化推薦系統(tǒng)的精確度和性能。
圖1是本發(fā)明與基線協(xié)同過(guò)濾算法在“精確度”上的曲線圖;圖2是本發(fā)明與基線協(xié)同過(guò)濾算法在“召回率”上的曲線圖;圖3是本發(fā)明與基線協(xié)同過(guò)濾算法在Macro D0A上的柱狀圖。
具體實(shí)施例方式基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法包括如下步驟1)首先使用三部圖對(duì)用戶、物品、社會(huì)化標(biāo)簽這三種不同結(jié)點(diǎn)進(jìn)行建模,并應(yīng)用隨 機(jī)游走算法為每個(gè)用戶個(gè)性化推薦top-N個(gè)物品;2)使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,即對(duì)每個(gè)物品,增加與其語(yǔ)義相關(guān)的標(biāo)簽,并且除去那些有噪音的標(biāo)簽,以解決社會(huì)化標(biāo)簽中存在的噪 音和稀疏性問(wèn)題,即物品通常只有很少一部分標(biāo)簽標(biāo)注;3)調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重。所述的通過(guò)三部圖對(duì)用戶、物品以及標(biāo)簽建模并應(yīng)用隨機(jī)游走算法為每個(gè)用戶推 薦物品的步驟為1)使用三部圖建模,則該三部圖可表示為G= {U,I,T,E},其中U、I、T分別表示 用戶、物品、標(biāo)簽,E表示它們之間的關(guān)系,則該三部圖可以如下鄰接矩陣表示為 其中UI表示User對(duì)Item的評(píng)分矩陣,UI 即為用戶Ui對(duì)物品i,.的評(píng)分;IT為
物品與標(biāo)簽矩陣,IT^表示物品被標(biāo)簽、標(biāo)注的次數(shù);2)在該三部圖上使用隨機(jī)游走算法進(jìn)行推薦。隨機(jī)游走算法中的轉(zhuǎn)移矩陣定義如下 隨機(jī)游走算法初始化時(shí),每個(gè)結(jié)點(diǎn)給予初始值R(0)。隨后依據(jù)轉(zhuǎn)移矩陣,迭代“走” 向其它結(jié)點(diǎn),直至收斂,同時(shí),為了體現(xiàn)個(gè)性化原則,在迭代過(guò)程中,隨機(jī)游走算法以概率a 走向那些反應(yīng)用戶偏好的結(jié)點(diǎn),隨機(jī)游走算法形式化定義如下
稱=A丨糾其中R(t)即為隨機(jī)算法對(duì)各節(jié)點(diǎn)的推薦值,p表示用戶偏好結(jié)點(diǎn),在三部圖中,包 括用戶結(jié)點(diǎn),物品結(jié)點(diǎn),及標(biāo)簽結(jié)點(diǎn),其定義如下 其中,puser為用戶自身,piteffl是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),ptag是用戶使用過(guò) 的標(biāo)簽結(jié)點(diǎn)。在實(shí)際計(jì)算中,上述方程可推薦出如下形式 R(t + \fser =(1-a)PxR{t)item + cc puser 其中R(t+1)USCT,R(t+l)tag,R(t+l)item分別表示對(duì)用戶,標(biāo)簽以及物品的推薦值,對(duì) R(t+l)item排序,選出其中值最大的前N個(gè)物品推薦給用戶。按照經(jīng)驗(yàn)法則,a取值0.15; 用戶平均需要迭代35次達(dá)到收斂狀態(tài)。所述的通lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,從而解決 標(biāo)簽稀疏性與噪音問(wèn)題的步驟為
1)對(duì)于每一個(gè)標(biāo)簽b,標(biāo)注訓(xùn)練樣本,即對(duì)每個(gè)物品a,如果它被該標(biāo)簽標(biāo)注過(guò),則 其為正樣例,即yab = 1,否則成為負(fù)樣例,yab = -1 ;2)在整個(gè)樣本空間中訓(xùn)練求解如下最大似然函數(shù),得到回歸系數(shù)各 其中最大似然函數(shù)
為 回歸系數(shù)3 bl即為標(biāo)簽1與標(biāo)簽b的語(yǔ)義上的相關(guān)度,3 bl > 0表示正相關(guān),3 M < 0表示負(fù)相關(guān),而0 bl = 0則表示不相關(guān);公式
推導(dǎo)過(guò)程如下將每個(gè)物品a表示成一個(gè)z維的向量(z為標(biāo)簽總數(shù)):
,其
中ITal是標(biāo)簽1被用戶用來(lái)標(biāo)注物品a的總次數(shù)。則物品a可被表示為 其中階,而
為回歸系數(shù)。我們關(guān)注如下概率模型 其中為截距。一種對(duì)的估計(jì)方法可轉(zhuǎn)化對(duì)如下最大似然問(wèn)題的求解 其中似然函數(shù)定義如下 在求解過(guò)程中,為了防止出現(xiàn)“過(guò)適應(yīng)”(over-fitting)問(wèn)題,我們引入lfnorm 的懲罰項(xiàng)(比如使?jié)M足Laplace先驗(yàn)分布)從而保證求解的稀疏表達(dá)特點(diǎn)。因此最大
似然問(wèn)題轉(zhuǎn)化為如下方程的求解 3)對(duì)于物品a,如果被標(biāo)簽b標(biāo)注過(guò),則與標(biāo)簽b最相關(guān)的K個(gè)標(biāo)簽用來(lái)描述物品 的語(yǔ)義,從而擴(kuò)展物品的標(biāo)簽,而與標(biāo)簽b最不相關(guān)的K個(gè)標(biāo)簽用來(lái)除去描述物品標(biāo)簽中的噪音。表格1給出了使用lasso logistic regression模型對(duì)標(biāo)簽進(jìn)行關(guān)聯(lián)的一個(gè)具體 例子給定標(biāo)簽war,通過(guò)該模型訓(xùn)練出最相關(guān)的標(biāo)簽,則被標(biāo)注為war的電影,也可能會(huì)被
8如下標(biāo)簽標(biāo)注,如Vietnam (越南戰(zhàn)爭(zhēng)),the Jacket (關(guān)于Gulfwar的電影),WW2 ( 二次世 界大戰(zhàn)),no happy end(可能用來(lái)描述戰(zhàn)爭(zhēng)的結(jié)局)等等。通過(guò)這種方法,可使物品在語(yǔ) 義上被更加充分的描述,從而可以更好的利用社會(huì)化標(biāo)簽。表格1使用lasso logistic regression模型訓(xùn)練出的與“war”最相關(guān)的標(biāo)簽 所述的調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重步驟為在隨機(jī)游走算法中,對(duì)用戶評(píng)分項(xiàng) 和社會(huì)化標(biāo)簽項(xiàng)增加不同的權(quán)重,分別為S和2-6,則該隨機(jī)游走算法如下 其中R(t+1廣,R(t+l)tag,R(t+l)item分別表示對(duì)用戶,標(biāo)簽以及物品的推薦值, Puser為用戶自身,Pita"是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),Ptag是用戶使用過(guò)的標(biāo)簽結(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),8 =0.4時(shí)推薦的效果最好。實(shí)施例實(shí)驗(yàn)的數(shù)據(jù)集取自 MovieLens(http://www. grouplens. org/node/73)中 10M 數(shù) 據(jù),我們從中選取出861個(gè)用戶,5003個(gè)物品以及6147個(gè)標(biāo)簽,以使得每個(gè)用戶至少能同時(shí) 評(píng)分與標(biāo)注3個(gè)不同的物品。對(duì)于這部分?jǐn)?shù)據(jù)集,我們將其按80 % 20 %的比例隨機(jī)劃分 5次,生成5組不同的訓(xùn)練集與測(cè)試集。最終實(shí)驗(yàn)結(jié)果為5組實(shí)驗(yàn)結(jié)果的平均值。為了說(shuō)明本發(fā)明所提出算法的有效性,我們還將使用三種傳統(tǒng)的協(xié)同過(guò)濾算法作 對(duì)比實(shí)驗(yàn),分別是基于用戶的協(xié)同過(guò)濾算法(U-CF),基于物品的協(xié)同過(guò)濾算法(I-CF)以 及在一種沒(méi)有使用社會(huì)標(biāo)簽的隨機(jī)游走算法(ItemRank)。我們對(duì)本發(fā)明所提出方法在每一 步驟上都進(jìn)行實(shí)驗(yàn),即1)TGRW實(shí)現(xiàn)步驟1,僅在三部圖上完成隨機(jī)游走算法;TGRW(L)實(shí)現(xiàn) 步驟1和步驟2,即使用lassologistic regression模型對(duì)物品進(jìn)行標(biāo)簽擴(kuò)展后的三部上 完成隨機(jī)游走算法。TGRW(LW)是本發(fā)明最終使用的方法,即在TGRW(L)的基礎(chǔ)上,對(duì)標(biāo)簽與 評(píng)分的權(quán)重進(jìn)行調(diào)整。我們分別采用信息檢索領(lǐng)域三種經(jīng)驗(yàn)評(píng)測(cè)方法精準(zhǔn)率,召回率,和MacroDOA.來(lái) 評(píng)測(cè)算法的性能。圖1是本發(fā)明所提出的方法與基線協(xié)同過(guò)濾算法在“精確度”上的曲線圖。圖2是本發(fā)明所提出的方法與基線協(xié)同過(guò)濾算法在“召回率”上的曲線圖。圖3是本發(fā)明所提出 的方法與基線協(xié)同過(guò)濾算法在Macro D0A上的柱狀圖。 實(shí)驗(yàn)結(jié)果顯示,1,TGRW算法相對(duì)于傳統(tǒng)協(xié)同過(guò)濾算法,有性能上的明顯提升,證明 社會(huì)化標(biāo)簽的引入,可以大幅提升推薦算法的效率。2,TGRW(L)相對(duì)于TGRW,性能有顯著的 提升,從而證明使用lasso logistic regression模型對(duì)物品擴(kuò)展標(biāo)簽,從而緩解社會(huì)化標(biāo) 簽的稀疏性問(wèn)題,使用社會(huì)化標(biāo)簽可更好的應(yīng)用于推薦過(guò)程當(dāng)中。3,調(diào)整標(biāo)簽與評(píng)分在推 薦過(guò)程中的權(quán)重,使得TGRW(LW)算法比TGRW(L)算法在精確率上(當(dāng)推薦N = 100時(shí))又 有3. 7%的提升。
權(quán)利要求
一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法,其特征在于包括如下步驟1)首先使用三部圖對(duì)用戶、物品、社會(huì)化標(biāo)簽這三種不同結(jié)點(diǎn)進(jìn)行建模,并應(yīng)用隨機(jī)游走算法為每個(gè)用戶個(gè)性化推薦top-N個(gè)物品;2)使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,即對(duì)每個(gè)物品,增加與其語(yǔ)義相關(guān)的標(biāo)簽,并且除去那些有噪音的標(biāo)簽,以解決社會(huì)化標(biāo)簽中存在的噪音和稀疏性問(wèn)題,即物品通常只被很少一部分標(biāo)簽標(biāo)注;3)調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重。
2.根據(jù)權(quán)利要求1所述的一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法,其特征在于,所述的 通過(guò)三部圖對(duì)用戶、物品以及標(biāo)簽建模并應(yīng)用隨機(jī)游走算法為每個(gè)用戶推薦物品的步驟 為1)使用三部圖建模,則該三部圖可表示為G={U,I,T,E},其中U、I、T分別表示用戶、 物品、標(biāo)簽,E表示它們之間的關(guān)系,則該三部圖可以如下鄰接矩陣表示為 ^其中UI表示User對(duì)Item的評(píng)分矩陣,UIij即為用戶Ui對(duì)物品i」的評(píng)分;IT為物品 與標(biāo)簽矩陣,ITjl表示物品h被標(biāo)簽、標(biāo)注的次數(shù);2)在該三部圖上使用隨機(jī)游走算法進(jìn)行推薦。隨機(jī)游走算法中的轉(zhuǎn)移矩陣定義如下 隨機(jī)游走算法初始化時(shí),每個(gè)結(jié)點(diǎn)給予初始值R(O)。隨后依據(jù)轉(zhuǎn)移矩陣,迭代“走”向 其它結(jié)點(diǎn),直至收斂,同時(shí),為了體現(xiàn)個(gè)性化原則,在迭代過(guò)程中,隨機(jī)游走算法以概率α 走向那些反應(yīng)用戶偏好的結(jié)點(diǎn),隨機(jī)游走算法形式化定義如下 其中R(t)即為隨機(jī)算法對(duì)各節(jié)點(diǎn)的推薦值,ρ表示用戶偏好結(jié)點(diǎn),在三部圖中,包括用 戶結(jié)點(diǎn),物品結(jié)點(diǎn),及標(biāo)簽結(jié)點(diǎn),其定義如下ρ = [Puser Pitem Ptag]τ其中,Pusct為用戶自身,P" 是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),Ptag是用戶使用過(guò)的標(biāo) 簽結(jié)點(diǎn)。在實(shí)際計(jì)算中,上述方程可推薦出如下形式 其中R(t+l)user,R(t+l)tag,R(t+l)item分別表示對(duì)用戶、標(biāo)簽以及物品的推薦值,對(duì) R(t+1) ”em排序,選出其中值最大的前N個(gè)物品推薦給用戶。
3.根據(jù)權(quán)利要求1所述的一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法,其特征在于,所述的 通lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,從而解決標(biāo)簽稀疏性與噪 音問(wèn)題的步驟為1)對(duì)于每一個(gè)標(biāo)簽b,標(biāo)注訓(xùn)練樣本,即對(duì)每個(gè)物品a,如果它被該標(biāo)簽標(biāo)注過(guò),則其為 正樣例,即yab = 1,否則成為負(fù)樣例,Yab = "I ;2)在整個(gè)樣本空間中訓(xùn)練求解如下最大似然函數(shù),得到回歸系數(shù)βb. 其中最大似然函數(shù)為 回歸系數(shù)β bl即為標(biāo)簽1與標(biāo)簽b的語(yǔ)義上的相關(guān)度,β bl > O表示正相關(guān),β bl < O 表示負(fù)相關(guān),而= O則表示不相關(guān);3)對(duì)于物品a,如果被標(biāo)簽b標(biāo)注過(guò),則與標(biāo)簽b最相關(guān)的K個(gè)標(biāo)簽用來(lái)描述物品的 語(yǔ)義,從而擴(kuò)展物品的標(biāo)簽,而與標(biāo)簽b最不相關(guān)的K個(gè)標(biāo)簽用來(lái)除去描述物品標(biāo)簽中的噪音。
4.根據(jù)權(quán)利要求1所述的一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法,其特征在于,所述的 調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重步驟為在隨機(jī)游走算法中,對(duì)用戶評(píng)分項(xiàng)和社會(huì)化標(biāo)簽項(xiàng) 增加不同的權(quán)重,分別為δ和2-δ,則該隨機(jī)游走算法如下 其中R(t+1)USCT,R(t+l)tag,R(t+l)item分別表示對(duì)用戶,標(biāo)簽以及物品的推薦值,pUSCT為 用戶自身,Pitem是那些被用戶評(píng)分過(guò)的物品結(jié)點(diǎn),Ptag是用戶使用過(guò)的標(biāo)簽結(jié)點(diǎn)。
全文摘要
本發(fā)明公開(kāi)了一種基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法。包括如下步驟1)首先使用三部圖對(duì)用戶,物品,社會(huì)化標(biāo)簽這三種不同結(jié)點(diǎn)進(jìn)行建模,并應(yīng)用隨機(jī)游走(random walk)算法為每個(gè)用戶個(gè)性化推薦top-N個(gè)物品;2)為了解決社會(huì)化標(biāo)簽稀疏性問(wèn)題(即物品往往只被很少一部分標(biāo)簽標(biāo)注)以及由用戶主觀性因素所帶來(lái)的噪音,本發(fā)明提出使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,即對(duì)每個(gè)物品,增加與其語(yǔ)義相關(guān)的標(biāo)簽,并且除去那些有噪音的標(biāo)簽;3)調(diào)節(jié)標(biāo)簽在推薦過(guò)程中的權(quán)重。本發(fā)明所提出的基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾方法有機(jī)結(jié)合社會(huì)化標(biāo)簽對(duì)于物品描述的語(yǔ)義信息,并使用lasso logistic regression模型去對(duì)物品進(jìn)行標(biāo)簽的擴(kuò)展,解決社會(huì)化標(biāo)簽的稀疏性與噪音問(wèn)題,從而大幅提升個(gè)性化推薦系統(tǒng)的精確度和性能。
文檔編號(hào)G06Q30/00GK101853470SQ201010185859
公開(kāi)日2010年10月6日 申請(qǐng)日期2010年5月28日 優(yōu)先權(quán)日2010年5月28日
發(fā)明者姚璐, 張寅 , 蔡瑞瑜, 邵健 申請(qǐng)人:浙江大學(xué)