基于主題模型的個性化服務(wù)推薦系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)應(yīng)用領(lǐng)域,具體的涉及一種基于主題模型的個性化服務(wù)推 薦系統(tǒng)和方法。
【背景技術(shù)】
[0002] 隨著信息技術(shù)特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,信息系統(tǒng)的規(guī)模越來越大,信息數(shù)量也越 來越多,獲取信息的工具和方式也越來越豐富,通過網(wǎng)絡(luò)為用戶提供越來越多信息和服務(wù) 的同時,信息系統(tǒng)的結(jié)構(gòu)和內(nèi)容也日益復(fù)雜。在海量信息中,很難準(zhǔn)確描述出需要的信息特 征,用戶常常會面對大量的信息而束手無策,迷失在大量的信息空間中;同時,各信息系統(tǒng) 提供的檢索方式,常常不能滿足用戶描述檢索條件的需求。因此,為用戶及時、準(zhǔn)確地提供 當(dāng)前所需要的信息內(nèi)容也變得更加困難。在此背景下,個性化推薦服務(wù)(PRS,Pers〇nalized RecommenderServices)技術(shù)應(yīng)運(yùn)而生,并迅速得到發(fā)展。應(yīng)用該技術(shù),能夠通過與用戶交 互過程中獲取的信息推測用戶的興趣偏好,并能根據(jù)用戶的興趣偏好推薦符合用戶興趣偏 好的息。
[0003] 現(xiàn)有的個性化推薦系統(tǒng)技術(shù)歸納起來主要分為兩類,即基于內(nèi)容過濾的推薦方 式、協(xié)同過濾推薦方式?;趦?nèi)容過濾的推薦是通過用戶個人背景資料信息和商品或服務(wù) 內(nèi)容的特性消息相匹配,通過分析商品內(nèi)容的結(jié)構(gòu)來推測用戶個性偏好,從而產(chǎn)生推薦結(jié) 果,但如何得到用戶的背景資料,分析出偏好是其難點(diǎn)。協(xié)同過濾推薦方式是研究最為深入 且應(yīng)用最為廣泛的方式,這種推薦方式是通過分析用戶或者項(xiàng)目之間興趣偏好的相似性來 提供推薦服務(wù)。本發(fā)明提供的系統(tǒng),作為上述兩種推薦方式的結(jié)合,能有效利用前述推薦方 式的優(yōu)點(diǎn),能盡量彌補(bǔ)前二者的缺點(diǎn)。
[0004] 現(xiàn)有已公開的技術(shù)中,華為技術(shù)有限公司提出的"推薦系統(tǒng)及方法"將基于用戶的 推薦和基于項(xiàng)目的推薦結(jié)合起來,得到基于用戶的項(xiàng)目候選集和基于項(xiàng)目的項(xiàng)目候選集, 然后提取其交集作為推薦候選集,并且通過基于項(xiàng)目和用戶的綜合評分預(yù)測,得到推薦項(xiàng) 目的評分預(yù)測。
[0005]中國科學(xué)技術(shù)大學(xué)提出的"基于屬性描述的個性化影片推薦系統(tǒng)及方法"和盛樂 信息技術(shù)(上海)有限公司提出的"個性化視頻推薦系統(tǒng)及方法",都是基于視頻的推薦,根 據(jù)視頻的屬性建立用戶興趣模型,通過該模型進(jìn)行推薦,以提高推薦的準(zhǔn)確度和適應(yīng)性。
[0006] 北京郵電大學(xué)提出的"面向領(lǐng)域的個性化智能推薦系統(tǒng)及實(shí)現(xiàn)方法"綜合使用了 協(xié)同過濾推理,領(lǐng)域相關(guān)上下文推理,本體推理三種推理方法,并通過推薦學(xué)習(xí)使其具有主 動學(xué)習(xí)能力,即具有智能推薦服務(wù)功能,能夠根據(jù)用戶對推薦服務(wù)的反映進(jìn)行自我調(diào)整,以 改善整體推薦服務(wù)質(zhì)量和提高用戶忠誠度。
[0007] 上述的技術(shù)中存在以下問題:第一、基于協(xié)同過濾的方法,都需要用戶評分表,存 在"冷啟動"的問題,即由于已知信息的不足導(dǎo)致推薦結(jié)果開始是不準(zhǔn)確的,隨著用戶評價(jià) 信息的增多,推薦結(jié)果才能逐步得到改善。此外還存在隨著系統(tǒng)規(guī)模的增大、出現(xiàn)數(shù)據(jù)稀疏 性缺陷,導(dǎo)致推薦服務(wù)質(zhì)量降低的問題。同時,如果從來沒有用戶對某一商品加以評價(jià),則 這個商品就不可能被推薦。第二、基于內(nèi)容過濾的方法,對推薦物的描述能力有限,往往需 要用戶提供用戶數(shù)據(jù)信息,而忽略了利用用戶的社交網(wǎng)絡(luò)工具作為挖掘用戶興趣的來源, 無法為客戶發(fā)現(xiàn)新的感興趣的資源。第三、對用戶興趣進(jìn)行挖掘時,傳統(tǒng)的向量空間模型或 語言模型只是單純地考慮文檔在詞空間上的相似度,從沒有從語義上進(jìn)行了興趣挖掘,更 準(zhǔn)確。第四、上述已公開的技術(shù)中進(jìn)行個性化的相關(guān)推薦時,往往重視相似度而忽略了內(nèi)容 的新穎度,提供用戶新的信息,而且很少考慮用戶交互反饋對推薦內(nèi)容準(zhǔn)確度的影響。
[0008] 本發(fā)明旨在設(shè)計(jì)一種基于主題模型的個性化服務(wù)推薦系統(tǒng)和方法,利用社交網(wǎng)絡(luò) 平臺獲取數(shù)據(jù),通過主題模型對用戶的興趣進(jìn)行挖掘和建模,從語義上對用戶興趣進(jìn)行挖 掘,解決了傳統(tǒng)基于向量空間模型的興趣模型維度高,數(shù)據(jù)稀疏等問題,同時考慮了用戶的 長期興趣和短期興趣,能更加真實(shí)的反應(yīng)用戶興趣,為用戶提供準(zhǔn)確的針對用戶興趣的服 務(wù)推薦。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提出了一種基于主題模型的個性化服務(wù)推薦系統(tǒng),包括:
[0010] 社交數(shù)據(jù)獲取模塊,用于獲取用戶的社交網(wǎng)絡(luò)數(shù)據(jù);
[0011] 主題模型構(gòu)建和分析模塊,用來構(gòu)建主題模型;
[0012] 用戶興趣建模模塊,用來對獲取的所述社交網(wǎng)絡(luò)數(shù)據(jù)使用構(gòu)建好的所述主體模型 進(jìn)行處理和分析,建立用戶興趣標(biāo)簽云圖;
[0013] 服務(wù)推薦模塊,用來對服務(wù)信息通過構(gòu)建好的所述主題模型進(jìn)行分析,建立服務(wù) 信息主題分布,并通過計(jì)算所述服務(wù)信息主題分布和所述用戶興趣標(biāo)簽云圖的相似度為用 戶提供不同方式的推薦服務(wù);
[0014] 用戶交互模塊,用來向用戶提供推薦服務(wù)結(jié)果展示并提供交互反饋;
[0015] 系統(tǒng)管理控制模塊,用來處理和控制系統(tǒng)各部位工作。
[0016] 本發(fā)明所述社交數(shù)據(jù)獲取模塊包括:
[0017] 用戶個人社交網(wǎng)絡(luò)信息子模塊,通過社交網(wǎng)絡(luò)獲取用戶個人數(shù)據(jù),包括性別、年 齡、興趣愛好、所在地、所發(fā)布信息、所轉(zhuǎn)發(fā)信息、關(guān)注好友列表;
[0018] 用戶好友社交網(wǎng)絡(luò)信息子模塊,過社交網(wǎng)絡(luò)獲取用戶好友的數(shù)據(jù),包括好友的性 另IJ、年齡、興趣愛好、所在地、所發(fā)布信息、所轉(zhuǎn)發(fā)信息、關(guān)注好友列表;
[0019] 本地最新網(wǎng)絡(luò)信息子模塊,獲取本地最新的社交網(wǎng)絡(luò)信息和新聞信息。
[0020] 本發(fā)明所述用戶興趣建模模塊包括:
[0021] 噪聲過濾子模塊,用于對所述社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行過濾,去除與用戶興趣不相關(guān)的 社交網(wǎng)絡(luò)數(shù)據(jù);
[0022] 用戶興趣構(gòu)建子模塊,用來對過濾后的所述社交網(wǎng)絡(luò)數(shù)據(jù)使用構(gòu)建好的所述主體 模型,得到用戶興趣主題概率分布;
[0023] 興趣標(biāo)簽云圖構(gòu)建子模塊,用來對所述用戶興趣主題概率分布表示,構(gòu)建出用戶 興趣標(biāo)簽z?圖。
[0024] 本發(fā)明所述服務(wù)推薦模塊包括:
[0025] 服務(wù)信息獲取子模塊,用于獲取商品信息或服務(wù)信息;
[0026] 服務(wù)信息構(gòu)建子模塊,用來對所述商品信息或服務(wù)信息使用建立好的所述主題模 型進(jìn)行分析,建立服務(wù)信息主題分布;
[0027] 推薦子模塊,用來計(jì)算所述服務(wù)信息主題分布和所述用戶興趣標(biāo)簽云圖的相似度 并為用戶提供不同方式的推薦服務(wù);
[0028] 興趣標(biāo)簽云圖更新子模塊,用來根據(jù)用戶反饋信息重新構(gòu)建用戶興趣云圖標(biāo)簽。
[0029] 本發(fā)明所述用戶興趣構(gòu)建子模塊包括建立用戶的長期興趣和短期興趣。
[0030] 本發(fā)明所述推薦子模塊進(jìn)一步包括基于內(nèi)容推薦模塊和協(xié)同過濾推薦模塊。
[0031] 本發(fā)明所述主題模型使用維基百科對所述社交網(wǎng)絡(luò)數(shù)據(jù)和所述服務(wù)信息進(jìn)行語 義擴(kuò)充,在維基百科數(shù)據(jù)上進(jìn)行主題分析。
[0032] 本發(fā)明還提供一種基于主題模型的個性化服務(wù)方法,包括如下步驟:
[0033] 獲取用戶社交網(wǎng)絡(luò)數(shù)據(jù),包括用戶個人社交網(wǎng)絡(luò)信息、用戶好友社交網(wǎng)絡(luò)信息和 本地最新網(wǎng)絡(luò)信息;
[0034] 構(gòu)建文檔到主題服從狄利克雷(Dirichlet)分布,主題到詞服從多項(xiàng)式分布的主 題模型;
[0035] 對獲取的所述社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行過濾,去除與用戶興趣不相關(guān)的社交網(wǎng)絡(luò)數(shù)據(jù), 對過濾后的所述社交網(wǎng)絡(luò)數(shù)據(jù)使用構(gòu)建好的所述主體模型,得到用戶興趣主題概率分布, 并構(gòu)建用戶興趣標(biāo)簽云圖;
當(dāng)前第1頁
1 
2 
3