一種基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及WEB應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽 推薦方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的深入發(fā)展,標(biāo)簽已經(jīng)成為互聯(lián)網(wǎng)上的一種標(biāo)準(zhǔn)信息組織方式,在 自由分類法中得到了廣泛的應(yīng)用,自由分類法是一種用戶對信息自由存取的方法,這種方 法使得用戶能夠用自己的語音以"標(biāo)簽"的形式對信息特征進(jìn)行標(biāo)注。利用標(biāo)簽對本文、圖 片、視頻以及音頻資源進(jìn)行信息的分類、組織和檢索,實現(xiàn)信息的搜索和共享,是互聯(lián)網(wǎng)信 息環(huán)境中一種獨具特色的信息組織工具。在過去的近幾年,用戶建立、分享元數(shù)據(jù)的標(biāo)簽系 統(tǒng)已經(jīng)在internet上得到了探索和應(yīng)用,例如Flickrtll,Del·icio.us21,Connoteat以及 LibraryThingt等網(wǎng)站都被認(rèn)為是Web2.0技術(shù)應(yīng)用的實例,因為它們利用網(wǎng)絡(luò)來收集和整 理信息,這類系統(tǒng)提供了 "團(tuán)體驅(qū)動"和"有機"的方法來對網(wǎng)絡(luò)信息資源分類,便于信息的 發(fā)現(xiàn)、瀏覽、以及復(fù)用。
[0003] 傳統(tǒng)分類系統(tǒng)中的分類詞匯往往缺乏流行性和相關(guān)性,詞匯相對過時,并且專業(yè) 人士很難通過傳統(tǒng)分類詞匯搜索獲得相關(guān)信息和預(yù)期結(jié)果,且傳統(tǒng)分類結(jié)構(gòu)中使用的元數(shù) 據(jù)成本相對高昂,因為元數(shù)據(jù)的定義和分類需要耗費專業(yè)人士大量的時間和精力,而在標(biāo) 簽系統(tǒng)中,系統(tǒng)將繁瑣的元數(shù)據(jù)定義任務(wù)交給用戶來完成,標(biāo)簽定義是用戶對資源的團(tuán)體 行為,因此標(biāo)簽系統(tǒng)較之傳統(tǒng)的固定層次結(jié)構(gòu)分類系統(tǒng)對用戶來說緊密性更強、適應(yīng)性更 好,更符合當(dāng)前流行趨勢。標(biāo)簽分類通過標(biāo)簽使得搜尋的重點得到更好的顯示和突出,與一 般的關(guān)鍵詞不同的是,用關(guān)鍵詞進(jìn)行搜索時,只能搜索到內(nèi)容里包含關(guān)鍵詞的文章,但tag 包含了文中沒有的關(guān)鍵詞,使用tag來搜索,可以搜索到包含關(guān)鍵詞以外詞匯的文章,擴大 了搜索的寬度和廣度。
[0004] 雖然標(biāo)簽在實現(xiàn)信息資源的檢索和網(wǎng)頁導(dǎo)航時體現(xiàn)出卓越的優(yōu)勢,但標(biāo)簽的使用 要求人們必須預(yù)先定義標(biāo)簽,然而手工標(biāo)簽的定義過程往往費時繁瑣,為了將人們從費時 繁瑣的標(biāo)簽定義工作中解放出來,使自由分類能得到更廣泛應(yīng)用,標(biāo)簽推薦服務(wù)的推出迫 在眉睫,該服務(wù)實現(xiàn)的是給用戶推薦一些潛在的可能為用戶所感興趣的標(biāo)簽,讓用戶從中 選擇,從而使標(biāo)簽定義更為方便快捷。
[0005] 標(biāo)簽推薦是一個伴隨著網(wǎng)絡(luò)技術(shù)推廣應(yīng)用而出現(xiàn)的新興領(lǐng)域,但從整體上看存在 以下問題:
[0006] 1.標(biāo)簽陳舊問題。所推薦的標(biāo)簽來源于固定的標(biāo)簽體系,隨著時間的推移,數(shù)據(jù)量 的不斷增大,必需增加一些原有標(biāo)簽體系中所缺乏的,而又適用于新資源的標(biāo)簽,但固定的 標(biāo)簽體系并不能隨著時間的推移而演進(jìn),勢必會造成推薦質(zhì)量的下降。
[0007] 2.冷啟動問題。用戶、標(biāo)簽、資源是標(biāo)簽推薦系統(tǒng)的三大要素,推薦時應(yīng)充分考慮 這三大要素在系統(tǒng)中的出現(xiàn)情況,但現(xiàn)有標(biāo)簽推薦系統(tǒng)大都只從現(xiàn)有的用戶模型和資源模 型來提取信息,卻忽略了系統(tǒng)在面對一個新用戶、新資源時應(yīng)該必須解決的數(shù)據(jù)挖掘問題。
[0008] 3.標(biāo)簽源的單一性。資源內(nèi)容、用戶歷史標(biāo)簽(也稱為用戶興趣標(biāo)簽)、資源歷史標(biāo) 簽是標(biāo)簽推薦的三種最主要的標(biāo)簽來源,而且每種標(biāo)簽源都有自身的優(yōu)缺點,現(xiàn)有的標(biāo)簽 推薦系統(tǒng)大都只專注于其中的某一種,沒有把多種標(biāo)簽源結(jié)合起來。
[0009] 因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0010] 鑒于現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供一種基于用戶質(zhì)量模型的協(xié)同過濾標(biāo) 簽推薦方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中基于協(xié)同過濾推薦算法以及現(xiàn)有的大多數(shù)標(biāo)簽推 薦算法都存在著標(biāo)簽空間陳舊、冷啟動以及標(biāo)簽源過于單一等問題。
[0011] 本發(fā)明的技術(shù)方案如下:
[0012] -種基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,方法包括:
[0013] A、檢測到用戶輸入信息,獲取標(biāo)簽分類信息數(shù)據(jù)庫中的訓(xùn)練集,提取訓(xùn)練集中所 有標(biāo)簽構(gòu)成現(xiàn)有系統(tǒng)的標(biāo)簽體系,并根據(jù)資源和用戶在現(xiàn)有系統(tǒng)中出現(xiàn)的情況對標(biāo)簽體系 進(jìn)tx完善;
[0014] B、將系統(tǒng)中用戶的信息映射到二維矩陣構(gòu)建用戶模型,并以用戶-標(biāo)簽二維矩陣 形式進(jìn)行存儲;
[0015] C、獲取當(dāng)前用戶的模型向量,計算當(dāng)前用戶與系統(tǒng)中鄰居用戶的相似度;
[0016] D、計算系統(tǒng)中鄰居用戶的模型質(zhì)量;
[0017] E、根據(jù)系統(tǒng)中鄰居用戶的模型質(zhì)量,根據(jù)改進(jìn)的協(xié)同過濾推薦算法產(chǎn)生最佳推 薦;
[0018] F、將最佳推薦結(jié)果通過WEB服務(wù)器返回至用戶界面。
[0019] 所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,所述步驟A具體包括:
[0020] A1、檢測到用戶輸入信息,獲取標(biāo)簽分類信息數(shù)據(jù)庫中的訓(xùn)練集,提取訓(xùn)練集中的 所有標(biāo)簽構(gòu)成現(xiàn)有系統(tǒng)S的標(biāo)簽體系C{tl,t2,. . .,tn};
[0021 ] A2、判斷資源Ri和用戶Ui在現(xiàn)有系統(tǒng)S中出現(xiàn)的情況;
[0022] A3、若UieSandRi鉉S或是ESandRi運S,若資源沒有在現(xiàn)有系統(tǒng)中出 現(xiàn)過,則提取資源心中的前X個權(quán)重最高的資源標(biāo)題關(guān)鍵字加入系統(tǒng)標(biāo)簽體系C中;
[0023] A4、若%gSandRiES,即資源在系統(tǒng)中出現(xiàn)過,用戶沒有出現(xiàn)過,則提取資 源Ri中的Y個使用頻率最高的標(biāo)簽和X個權(quán)重最高的資源標(biāo)題關(guān)鍵字加入系統(tǒng)標(biāo)簽體系C中;
[0024] andR^S,即用戶和資源都在系統(tǒng)中出現(xiàn)過,采用歷史標(biāo)簽信息。
[0025] 所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,所述步驟B具體包括:
[0026] B1、將系統(tǒng)中K個用戶的信息映射到二維矩陣構(gòu)建用戶模型,并映射結(jié)果以用戶_ 標(biāo)簽特征矩陣進(jìn)行存儲;
[0027]B2、矩陣中每一行向量. . . ;W(Ti);W(Tn))代表一個用戶的用戶 模型,其中Ti表示第i個與用戶Uk相關(guān)的資源,w(Ti)表示標(biāo)簽Ti在向量VUk中的權(quán)重,
[0028]
[0029] 其中tfdUk)表示標(biāo)簽被用戶Uk使用的次數(shù),N表示系統(tǒng)標(biāo)簽總數(shù),NTj表示至 少使用過一次!\標(biāo)簽的用戶數(shù)。
[0030] 所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,所述步驟C具體為:獲 取當(dāng)前用戶的模型向量,計算當(dāng)前用戶與系統(tǒng)中鄰居用戶的相似度sim(profu,profv)
[0031]
[0032]其中profu和profv分別為當(dāng)前用戶u和鄰居用戶v的用戶模型向量。
[0033]所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,所述步驟D具體包括: 計算系統(tǒng)中鄰居用戶的模型質(zhì)量Qu(v),
[0034]
[0035]
[0036] 丨lit k· I
[0037] 上述式子中,lu為用戶v的第i個標(biāo)簽L·為k1的用戶數(shù)規(guī)范化值,avgUsinUki iNu 為匕的用戶平均相似度,為匕的詞頻,《(1,1^)為1^的特異性值,鄰居用戶的模型質(zhì)量為 Νι 該鄰居用戶的平均標(biāo)簽質(zhì)量。
[0038] 所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦方法,其中,所述步驟E中的改進(jìn)的 協(xié)同過濾推薦算法中的最佳推薦結(jié)果記為T(u,r),計算公式為:
[0039]
[0040]
[0041] δ(ν,1,t): =lifδ(ν,1,t)EUXLXT,else0〇,
[0042] 上式中Nu為當(dāng)前用戶u的k個最相近的鄰居用戶,T(u,r)為算法的最佳推薦結(jié)果, sim(profu,profv)為當(dāng)前用戶u和鄰居用戶v之間的相似度,δ(ν,Γ,t)eUXRXT表示用戶v 對資源r存在標(biāo)簽定義關(guān)系。
[0043] 一種基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦系統(tǒng),其中,系統(tǒng)包括:
[0044]標(biāo)簽體系完善模塊,用于檢測到用戶輸入信息,獲取標(biāo)簽分類信息數(shù)據(jù)庫中的訓(xùn) 練集,提取訓(xùn)練集中所有標(biāo)簽構(gòu)成現(xiàn)有系統(tǒng)的標(biāo)簽體系,并根據(jù)資源和用戶在現(xiàn)有系統(tǒng)中 出現(xiàn)的情況對標(biāo)簽體系進(jìn)行完善;
[0045]用戶模型構(gòu)建模塊,用于將系統(tǒng)中用戶的信息映射到二維矩陣構(gòu)建用戶模型,并 以用戶-標(biāo)簽二維矩陣形式進(jìn)行存儲;
[0046]相似度計算模塊,用于獲取當(dāng)前用戶的模型向量,計算當(dāng)前用戶與系統(tǒng)中鄰居用 戶的相似度;
[0047]模型質(zhì)量計算模塊,用于計算系統(tǒng)中鄰居用戶的模型質(zhì)量;
[0048]最佳推薦生成模塊,用于根據(jù)系統(tǒng)中鄰居用戶的模型質(zhì)量,根據(jù)改進(jìn)的協(xié)同過濾 推薦算法生成最佳推薦;
[0049]結(jié)果反饋模塊,用于將最佳推薦結(jié)果通過WEB服務(wù)器返回至用戶界面。
[0050]所述的基于用戶質(zhì)量模型的協(xié)同過濾標(biāo)簽推薦系統(tǒng),其中,所述標(biāo)簽體系完善模 塊具體包括:
[0051]標(biāo)簽體系構(gòu)成單元,用于檢測到用戶輸入信息,獲取標(biāo)簽分類信息數(shù)據(jù)庫中的訓(xùn) 練集,提取訓(xùn)練集中的所有標(biāo)簽構(gòu)成現(xiàn)有系統(tǒng)S的標(biāo)簽體系C{tl,t2,. . .,tn};
[0052] 判斷單元,用于判斷資源Ri和用戶Ui在現(xiàn)有系統(tǒng)S中出現(xiàn)的情況;
[0053]第一處理單元,用于若UieSandRies或是UieSandRigS,若