本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種基于中粒度用戶分組的資源推薦方法及裝置。
背景技術(shù):
隨著信息技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,電子商務(wù)、在線教育學(xué)習(xí)、電子政務(wù)、及時(shí)通信、網(wǎng)絡(luò)新聞等等在線商務(wù)、學(xué)習(xí)、通信以及公共事務(wù)已經(jīng)成為了我們?nèi)粘I畹囊徊糠?。根?jù)《2016年第38次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)民有大約6億用戶使用網(wǎng)絡(luò)新聞以獲取信息,有大約4.5億用戶進(jìn)行網(wǎng)絡(luò)購物,在新型網(wǎng)絡(luò)服務(wù)中,中國(guó)網(wǎng)上外賣和在線教育的用戶規(guī)模已經(jīng)達(dá)到2億。根據(jù)WeAreSocial的最新報(bào)告,2016年,全球互聯(lián)網(wǎng)用戶數(shù)量相比去年增長(zhǎng)了10%,擁有達(dá)到超過34億的用戶規(guī)模。社交媒體使用同樣增長(zhǎng)了10%,而通過移動(dòng)設(shè)備訪問社交媒體的人數(shù)增長(zhǎng)了17%。巨大的用戶規(guī)模,伴隨而來的是如洪水般爆發(fā)的互聯(lián)網(wǎng)信息和資源,包括購物網(wǎng)站、在線社交網(wǎng)絡(luò)、視頻網(wǎng)站、網(wǎng)上新聞等等應(yīng)用,我們已經(jīng)進(jìn)入一個(gè)信息過載的時(shí)代。在這樣一個(gè)時(shí)代,用戶遇到了前所未有的挑戰(zhàn),即如何獲取適合自己的信息,爆炸式的資源和信息極大地降低了它們的利用率。從用戶的角度來看,信息過載問題使得他們無法有效地滿足自己的資源和信息需求;站在應(yīng)用提供商的角度,如何從海量信息中選取出最適合的一部分給用戶成為困擾他們的問題。
個(gè)性化推薦系統(tǒng)則是解決這一挑戰(zhàn)的重要利器。它通過挖掘分析用戶的屬性和興趣偏好信息,從而能高效地找到用戶感興趣的資源和信息,以實(shí)現(xiàn)個(gè)性化推薦。因此,個(gè)性化推薦系統(tǒng)受到研究者和企業(yè)的廣泛關(guān)注。推薦系統(tǒng)是解決新時(shí)代信息獲取和數(shù)據(jù)關(guān)聯(lián)問題的一個(gè)強(qiáng)有力的工具,它可以根據(jù)用戶的特征和需求,將用戶所感興趣的產(chǎn)品或信息主動(dòng)推送給用戶。相比搜索引擎被動(dòng)地搜索相關(guān)信息,推薦系統(tǒng)更加地主動(dòng)和智能,能夠針對(duì)用戶挖掘獲得與之相符的價(jià)值信息。近些年,推薦系統(tǒng)已經(jīng)成功運(yùn)用到了電影、音樂和商品等領(lǐng)域的推薦上,并取得了實(shí)際的收益。例如,運(yùn)用于電影推薦的NetFlix,運(yùn)用于音樂推薦的豆瓣,以及運(yùn)用于商品推薦的淘寶、京東和Amazon等。推薦系統(tǒng)所創(chuàng)造的價(jià)值吸引了越來越多的公司開發(fā)自己的推薦引擎,同時(shí)使得推薦系統(tǒng)成為了工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)。該項(xiàng)發(fā)明技術(shù)能夠使得用戶與海量數(shù)據(jù)信息進(jìn)行更加合適的關(guān)聯(lián)。從用戶的角度看,他們能夠更加省時(shí)省力地發(fā)現(xiàn)有價(jià)值的信息;從數(shù)據(jù)信息生產(chǎn)者角度看,他們能夠?qū)⒆约核a(chǎn)的數(shù)據(jù)信息準(zhǔn)確快速地送至消費(fèi)群體,從而使得用戶與生產(chǎn)者雙方共贏。
而在實(shí)際推薦系統(tǒng)運(yùn)行過程中,如何對(duì)用戶進(jìn)行分類一直是系統(tǒng)中的核心問題。如果粒度過細(xì)會(huì)使得算法復(fù)雜度過高,使分析變成不可能完成的任務(wù);同時(shí)如果粒度太大,對(duì)資源推薦的后續(xù)工作幫助太小,所以把握好用戶特征的顆粒度大小非常重要。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出一種基于中粒度用戶分組的資源推薦方法及裝置,提供一種采用了中粒度用戶分類技術(shù)的推薦方法,能夠提高向用戶推薦資源的準(zhǔn)確度和速度。
本發(fā)明提供的一種基于中粒度用戶分組的資源推薦方法,具體包括:
采集N個(gè)用戶的資源使用數(shù)據(jù);其中,所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)和離線使用數(shù)據(jù);N>1;
根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力;
根據(jù)每個(gè)所述影響力,將所述N個(gè)用戶中的K個(gè)用戶分別設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶,并將所述N個(gè)用戶中的其余N-K個(gè)用戶設(shè)置為待分組用戶;其中,0<K≤N;
根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度;
將每個(gè)所述待分組用戶分別分入與其之間的所述關(guān)注主題相似度最高的標(biāo)準(zhǔn)用戶所對(duì)應(yīng)的分組;
向每個(gè)所述分組中的每個(gè)用戶推薦其所在分組中的標(biāo)準(zhǔn)用戶的推薦資源。
進(jìn)一步地,每個(gè)所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)I1,I2,I3,…,In以及離線使用數(shù)據(jù)I';其中,I1,I2,I3,…,In為從n個(gè)在線網(wǎng)絡(luò)中采集獲得的使用數(shù)據(jù);
則所述根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力,具體包括:
將每個(gè)所述資源使用數(shù)據(jù)分別代入公式I=I1*w1+I2*w2+I3*w3+…+In*wn+I'*w',計(jì)算獲得相應(yīng)的所示影響力I;其中,w1,w2,w3,…,wn,w'為各使用數(shù)據(jù)的權(quán)重。
進(jìn)一步地,所述根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度,具體包括:
根據(jù)每個(gè)所述資源使用數(shù)據(jù),采用主題模型分析法計(jì)算獲得每個(gè)所述用戶的關(guān)注主題分布數(shù)據(jù);
分別將每個(gè)所述待分組用戶的所述關(guān)注主題分布數(shù)據(jù)與每個(gè)所述標(biāo)準(zhǔn)用戶的所述關(guān)注主題分布數(shù)據(jù)進(jìn)行比較,計(jì)算獲得相應(yīng)的所述關(guān)注主題相似度。
進(jìn)一步地,所述K個(gè)用戶為所述N個(gè)用戶中所述影響力排名前K的用戶。
進(jìn)一步地,所述資源使用數(shù)據(jù)中包括資源描述數(shù)據(jù)及用戶描述數(shù)據(jù);其中,所述用戶描述數(shù)據(jù)中包括對(duì)應(yīng)的用戶的關(guān)注主題數(shù)據(jù)。
相應(yīng)地,本發(fā)明還提供了一種基于中粒度用戶分組的資源推薦裝置,具體包括:
資源使用數(shù)據(jù)獲得模塊,用于采集N個(gè)用戶的資源使用數(shù)據(jù);其中,所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)和離線使用數(shù)據(jù);N>1;
用戶影響力獲得模塊,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力;
用戶身份設(shè)置模塊,用于根據(jù)每個(gè)所述影響力,將所述N個(gè)用戶中的K個(gè)用戶分別設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶,并將所述N個(gè)用戶中的其余N-K個(gè)用戶設(shè)置為待分組用戶;其中,0<K≤N;
關(guān)注主題相似度獲得模塊,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度;
用戶分組模塊,用于將每個(gè)所述待分組用戶分別分入與其之間的所述關(guān)注主題相似度最高的標(biāo)準(zhǔn)用戶所對(duì)應(yīng)的分組;以及,
資源推薦模塊,用于向每個(gè)所述分組中的每個(gè)用戶推薦其所在分組中的標(biāo)準(zhǔn)用戶的推薦資源。
進(jìn)一步地,每個(gè)所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)I1,I2,I3,…,In以及離線使用數(shù)據(jù)I';其中,I1,I2,I3,…,In為從n個(gè)在線網(wǎng)絡(luò)中采集獲得的使用數(shù)據(jù);
則所述用戶影響力獲得模塊,具體包括:
影響力計(jì)算獲得單元,用于將每個(gè)所述資源使用數(shù)據(jù)分別代入公式I=I1*w1+I2*w2+I3*w3+…+In*wn+I'*w',計(jì)算獲得相應(yīng)的所示影響力I;其中,w1,w2,w3,…,wn,w'為各使用數(shù)據(jù)的權(quán)重。
進(jìn)一步地,所述關(guān)注主題相似度獲得模塊,具體包括:
關(guān)注主題分布數(shù)據(jù)獲得單元,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),采用主題模型分析法計(jì)算獲得每個(gè)所述用戶的關(guān)注主題分布數(shù)據(jù);以及,
主題相似度計(jì)算獲得單元,用于分別將每個(gè)所述待分組用戶的所述關(guān)注主題分布數(shù)據(jù)與每個(gè)所述標(biāo)準(zhǔn)用戶的所述關(guān)注主題分布數(shù)據(jù)進(jìn)行比較,計(jì)算獲得相應(yīng)的所述關(guān)注主題相似度。
進(jìn)一步地,所述K個(gè)用戶為所述N個(gè)用戶中所述影響力排名前K的用戶。
進(jìn)一步地,所述資源使用數(shù)據(jù)中包括資源描述數(shù)據(jù)及用戶描述數(shù)據(jù);其中,所述用戶描述數(shù)據(jù)中包括對(duì)應(yīng)的用戶的關(guān)注主題數(shù)據(jù)。
實(shí)施本發(fā)明,具有如下有益效果:
本發(fā)明提供的基于中粒度用戶分組的資源推薦方法及裝置,通過從網(wǎng)絡(luò)中獲取用戶在線或/和離線的資源使用數(shù)據(jù),獲得用戶的影響力和用戶的關(guān)注主題,并根據(jù)用戶的影響力和用戶的關(guān)注主題對(duì)用戶進(jìn)行分組,從而可以獲得粒度適中的用戶分組,使得推薦過程的運(yùn)算數(shù)據(jù)量降低,但同時(shí)能夠保證推薦所依據(jù)的樣本數(shù)據(jù)量充足,為后續(xù)的推薦過程奠定基礎(chǔ),提高向用戶推薦資源的準(zhǔn)確度和速度。
附圖說明
圖1是本發(fā)明提供的基于中粒度用戶分組的資源推薦方法的一個(gè)優(yōu)選的實(shí)施例的流程示意圖;
圖2是本發(fā)明提供的基于中粒度用戶分組的資源推薦方法的一個(gè)優(yōu)選的實(shí)施例中的一種用戶描述數(shù)據(jù)的示意圖;
圖3是本發(fā)明提供的基于中粒度用戶分組的資源推薦方法的一個(gè)優(yōu)選的實(shí)施例中的一種資源描述數(shù)據(jù)的示意圖;
圖4是本發(fā)明提供的基于中粒度用戶分組的資源推薦裝置的一個(gè)優(yōu)選的實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明根據(jù)用戶的影響力以及用戶的關(guān)注主題對(duì)用戶進(jìn)行分類,獲得若干中粒度的用戶分組,并按照所獲得的用戶分組向相應(yīng)的用戶推薦資源,能夠提高向用戶推薦資源的準(zhǔn)確度和速度。
如圖1所示,為本發(fā)明提供的基于中粒度用戶分組的資源推薦方法的一個(gè)優(yōu)選的實(shí)施例的流程示意圖,包括步驟S11至S16,具體如下:
S11:采集N個(gè)用戶的資源使用數(shù)據(jù);其中,所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)和離線使用數(shù)據(jù);N>1;
S12:根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力;
S13:根據(jù)每個(gè)所述影響力,將所述N個(gè)用戶中的K個(gè)用戶分別設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶,并將所述N個(gè)用戶中的其余N-K個(gè)用戶設(shè)置為待分組用戶;其中,0<K≤N;
S14:根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度;
S15:將每個(gè)所述待分組用戶分別分入與其之間的所述關(guān)注主題相似度最高的標(biāo)準(zhǔn)用戶所對(duì)應(yīng)的分組;
S16:向每個(gè)所述分組中的每個(gè)用戶推薦其所在分組中的標(biāo)準(zhǔn)用戶的推薦資源。
需要說明的是,用戶在使用資源之后會(huì)產(chǎn)生相應(yīng)的資源使用數(shù)據(jù),該資源使用數(shù)據(jù)中包括用戶的關(guān)注主題數(shù)據(jù)等。系統(tǒng)采集N個(gè)用戶在使用了M個(gè)資源之后所產(chǎn)生的資源使用數(shù)據(jù),并根據(jù)該資源使用數(shù)據(jù)計(jì)算獲得該N個(gè)用戶中每個(gè)用戶的影響力。其中,M>0。隨后,系統(tǒng)根據(jù)每個(gè)用戶的影響力,在該N個(gè)用戶中選中K個(gè)用戶,并將該K個(gè)用戶分別設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶,其中,該K個(gè)標(biāo)準(zhǔn)用戶與該K個(gè)分組具有一一對(duì)應(yīng)關(guān)系。與此同時(shí),系統(tǒng)將該N個(gè)用戶中的剩余用戶設(shè)置為待分組用戶。在完成用戶身份的設(shè)置之后,系統(tǒng)將每個(gè)待分組用戶的關(guān)注主題數(shù)據(jù)與每個(gè)標(biāo)準(zhǔn)用戶的關(guān)注主題數(shù)據(jù)分別一一進(jìn)行比較,從而獲得每個(gè)待分組用戶與每個(gè)標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度。最后,比較每個(gè)待分組用戶所對(duì)應(yīng)的所有關(guān)注主題相似度,并將該帶分組用戶分入其中最高關(guān)注主題相似度所對(duì)應(yīng)的標(biāo)準(zhǔn)用戶所在的分組。例如,某一待分組用戶D與標(biāo)準(zhǔn)用戶A、B、C之間的關(guān)注主題相似度分別為10%、30%、90%,則將該待分組用戶D分入標(biāo)準(zhǔn)用戶C所在的分組。在完成用戶分組之后,即可向各個(gè)分組中的用戶推薦相應(yīng)的資源,一般地,向?qū)儆谕环纸M中的所有用戶推薦所在的分組中的標(biāo)準(zhǔn)用戶的喜歡的、常用的或者感興趣的資源。
可以理解的是,上述資源可以為教學(xué)資源、醫(yī)療方案、精品文本、優(yōu)秀視頻、熱門音頻等。
需要進(jìn)一步說明的是,上述資源使用數(shù)據(jù)中包括在線使用數(shù)據(jù)和離線使用數(shù)據(jù)。其中,在線數(shù)據(jù)包括了搜索引擎可得數(shù)據(jù)、在線社交網(wǎng)絡(luò)中的用戶產(chǎn)生數(shù)據(jù)(UGC)等互聯(lián)網(wǎng)中可以搜集到的數(shù)據(jù)。離線數(shù)據(jù)指的是用戶主動(dòng)貢獻(xiàn)出來的暗網(wǎng)(深網(wǎng),不可見網(wǎng),隱藏網(wǎng))數(shù)據(jù)、生活中相關(guān)統(tǒng)計(jì)數(shù)據(jù)等。其中,暗網(wǎng)數(shù)據(jù)指的是指那些存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫里、但不能通過超鏈接訪問而需要通過動(dòng)態(tài)網(wǎng)頁技術(shù)訪問的資源集合,不屬于那些可以被標(biāo)準(zhǔn)搜索引擎索引的表面網(wǎng)絡(luò)。
通過從網(wǎng)絡(luò)中獲取用戶在線或/和離線的資源使用數(shù)據(jù),獲得用戶的影響力和用戶的關(guān)注主題,并根據(jù)用戶的影響力和用戶的關(guān)注主題對(duì)用戶進(jìn)行分組,從而可以獲得粒度適中的用戶分組,使得推薦過程的運(yùn)算數(shù)據(jù)量降低,但同時(shí)能夠保證推薦所依據(jù)的樣本數(shù)據(jù)量充足,為后續(xù)的推薦過程奠定基礎(chǔ),因此能夠提高向用戶推薦資源的準(zhǔn)確度和速度。
在另一個(gè)優(yōu)選的實(shí)施例中,在上述優(yōu)選的實(shí)施例的基礎(chǔ)之上,每個(gè)所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)I1,I2,I3,…,In以及離線使用數(shù)據(jù)I';其中,I1,I2,I3,…,In為從n個(gè)在線網(wǎng)絡(luò)中采集獲得的使用數(shù)據(jù);
則所述根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力,具體包括:
將每個(gè)所述資源使用數(shù)據(jù)分別代入公式I=I1*w1+I2*w2+I3*w3+…+In*wn+I'*w',計(jì)算獲得相應(yīng)的所示影響力I;其中,w1,w2,w3,…,wn,w'為各使用數(shù)據(jù)的權(quán)重。
需要說明的是,系統(tǒng)是根據(jù)所采集的包括在線使用數(shù)據(jù)或/和離線使用數(shù)據(jù)的資源使用數(shù)據(jù)來計(jì)算獲得用戶的影響力的。其中,公式中的各使用數(shù)據(jù)的權(quán)重的值可以根據(jù)使用數(shù)據(jù)的來源網(wǎng)絡(luò)的重要性或具體的數(shù)據(jù)情況來決定。
通過結(jié)合在線及離線兩個(gè)維度的數(shù)據(jù)計(jì)算用戶的影響力,從而能夠大大提高數(shù)據(jù)的全面性、可靠性,進(jìn)一步提高向用戶推薦資源的準(zhǔn)確度。
在又一個(gè)優(yōu)選的實(shí)施例中,在上述優(yōu)選的實(shí)施例的基礎(chǔ)之上,所述根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度,具體包括:
根據(jù)每個(gè)所述資源使用數(shù)據(jù),采用主題模型分析法計(jì)算獲得每個(gè)所述用戶的關(guān)注主題分布數(shù)據(jù);
分別將每個(gè)所述待分組用戶的所述關(guān)注主題分布數(shù)據(jù)與每個(gè)所述標(biāo)準(zhǔn)用戶的所述關(guān)注主題分布數(shù)據(jù)進(jìn)行比較,計(jì)算獲得相應(yīng)的所述關(guān)注主題相似度。
需要說明的是,所采用的主題模型分析法可以為L(zhǎng)DA(Latent Dirichlet Allocation,文檔主題生成模型)方法。系統(tǒng)采用該主題模型分析法對(duì)用戶的資源使用數(shù)據(jù)進(jìn)行解析,從而計(jì)算獲得用戶的關(guān)注主題分布數(shù)據(jù)。其中,關(guān)注主題分布數(shù)據(jù)為用戶對(duì)各個(gè)主題的感興趣程度或者關(guān)注程度的分布數(shù)據(jù)。系統(tǒng)在獲得每個(gè)用戶的關(guān)注主題分布數(shù)據(jù)之后,根據(jù)所獲得的關(guān)注主題分布數(shù)據(jù)計(jì)算每個(gè)待分組用戶與每個(gè)標(biāo)準(zhǔn)用戶之間的關(guān)注主題的相似度,從而根據(jù)所獲得的關(guān)注主題相似度對(duì)各個(gè)用戶進(jìn)行分組。
更優(yōu)選地,所述K個(gè)用戶為所述N個(gè)用戶中所述影響力排名前K的用戶。
需要說明的是,系統(tǒng)在采集獲得各個(gè)用戶的資源使用數(shù)據(jù)之后,對(duì)該資源使用數(shù)據(jù)進(jìn)行分析,獲得各個(gè)用戶所貢獻(xiàn)的資源傳播情況(如,傳播范圍、深度、速度等),即計(jì)算獲得各個(gè)用戶的影響力。在計(jì)算獲得各個(gè)用戶的影響力之后,對(duì)每個(gè)用戶的影響力按照數(shù)值從高到低進(jìn)行排序,并將排名前K的影響力所對(duì)應(yīng)的用戶分別對(duì)應(yīng)設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶。
更優(yōu)選地,所述資源使用數(shù)據(jù)中包括資源描述數(shù)據(jù)及用戶描述數(shù)據(jù);其中,所述用戶描述數(shù)據(jù)中包括對(duì)應(yīng)的用戶的關(guān)注主題數(shù)據(jù)。
需要說明的是,資源使用數(shù)據(jù)中包括資源描述數(shù)據(jù)及用戶描述數(shù)據(jù)。其中,資源描述數(shù)據(jù)及用戶描述數(shù)據(jù)均隨著用戶的對(duì)資源的使用情況變化而不斷變化。
用戶描述數(shù)據(jù)包括用戶所貢獻(xiàn)的資源數(shù)據(jù)、對(duì)資源的歷史使用數(shù)據(jù)和歷史評(píng)價(jià)數(shù)據(jù)等。其中,歷史使用數(shù)據(jù)中記錄了用戶對(duì)資源的歷次使用情況(如,使用持續(xù)時(shí)間、跳轉(zhuǎn)率等);歷史評(píng)價(jià)數(shù)據(jù)中記錄了用戶在系統(tǒng)中的反饋信息(如,評(píng)分值、點(diǎn)擊量等)。如圖2所示,為一種用戶描述數(shù)據(jù)的示意圖。
資源描述數(shù)據(jù)包括資源的特征信息、資源來源信息、所屬主題信息、所適用用戶信息、用戶使用次數(shù)數(shù)據(jù)、歷史評(píng)價(jià)數(shù)據(jù)和可擴(kuò)展項(xiàng)數(shù)據(jù)等。其中,資源來源信息指的是系統(tǒng)中貢獻(xiàn)該資源的某注冊(cè)用戶的信息;所屬主題信息是用戶提供的關(guān)鍵詞或主題模型分析得出的關(guān)鍵詞信息;所適用用戶信息可以是用戶提供或者是綜合使用記錄后的總結(jié)得出的可以適用的用戶的信息;用戶使用次數(shù)數(shù)據(jù)主要是指用戶對(duì)資源的有效使用總次數(shù);歷史評(píng)價(jià)數(shù)據(jù)指的是資源被用戶評(píng)價(jià)的歷史記錄數(shù)據(jù);可擴(kuò)展項(xiàng)數(shù)據(jù)是根據(jù)系統(tǒng)和算法優(yōu)化的需要而預(yù)留的數(shù)據(jù)。如圖3所示,為一種資源描述數(shù)據(jù)的示意圖。
可以理解的是,在用戶首次進(jìn)入系統(tǒng)之后,系統(tǒng)為該用戶分配唯一的用戶標(biāo)識(shí),并建立相應(yīng)的用戶描述數(shù)據(jù)。系統(tǒng)為系統(tǒng)中的每個(gè)資源分配唯一的資源標(biāo)識(shí),并根據(jù)每個(gè)資源的特征,添加相應(yīng)的資源描述數(shù)據(jù)。
本發(fā)明實(shí)施例提供的基于中粒度用戶分組的資源推薦方法,通過從網(wǎng)絡(luò)中獲取用戶在線或/和離線的資源使用數(shù)據(jù),獲得用戶的影響力和用戶的關(guān)注主題,并根據(jù)用戶的影響力和用戶的關(guān)注主題對(duì)用戶進(jìn)行分組,從而可以獲得粒度適中的用戶分組,使得推薦過程的運(yùn)算數(shù)據(jù)量降低,但同時(shí)能夠保證推薦所依據(jù)的樣本數(shù)據(jù)量充足,為后續(xù)的推薦過程奠定基礎(chǔ),因此能夠提高向用戶推薦資源的準(zhǔn)確度和速度。另外,通過結(jié)合在線及離線兩個(gè)維度的數(shù)據(jù)計(jì)算用戶的影響力,從而能夠大大提高數(shù)據(jù)的全面性、可靠性,進(jìn)一步提高向用戶推薦資源的準(zhǔn)確度。
相應(yīng)地,基于中粒度用戶分組的資源推薦裝置,能夠?qū)崿F(xiàn)上述實(shí)施例中的基于中粒度用戶分組的資源推薦方法的所有流程。
如圖4所示,為本發(fā)明提供的基于中粒度用戶分組的資源推薦裝置的一個(gè)優(yōu)選的實(shí)施例的結(jié)構(gòu)示意圖,具體如下:
資源使用數(shù)據(jù)獲得模塊41,用于采集N個(gè)用戶的資源使用數(shù)據(jù);其中,所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)和離線使用數(shù)據(jù);N>1;
用戶影響力獲得模塊42,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述用戶的影響力;
用戶身份設(shè)置模塊43,用于根據(jù)每個(gè)所述影響力,將所述N個(gè)用戶中的K個(gè)用戶分別設(shè)置為K個(gè)分組的標(biāo)準(zhǔn)用戶,并將所述N個(gè)用戶中的其余N-K個(gè)用戶設(shè)置為待分組用戶;其中,0<K≤N;
關(guān)注主題相似度獲得模塊44,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),獲得每個(gè)所述待分組用戶與每個(gè)所述標(biāo)準(zhǔn)用戶之間的關(guān)注主題相似度;
用戶分組模塊45,用于將每個(gè)所述待分組用戶分別分入與其之間的所述關(guān)注主題相似度最高的標(biāo)準(zhǔn)用戶所對(duì)應(yīng)的分組;以及,
資源推薦模塊46,用于向每個(gè)所述分組中的每個(gè)用戶推薦其所在分組中的標(biāo)準(zhǔn)用戶的推薦資源。
在另一個(gè)優(yōu)選的實(shí)施例中,在上述優(yōu)選的實(shí)施例的基礎(chǔ)之上,每個(gè)所述資源使用數(shù)據(jù)包括在線使用數(shù)據(jù)I1,I2,I3,…,In以及離線使用數(shù)據(jù)I';其中,I1,I2,I3,…,In為從n個(gè)在線網(wǎng)絡(luò)中采集獲得的使用數(shù)據(jù);
則所述用戶影響力獲得模塊42,具體包括:
影響力計(jì)算獲得單元,用于將每個(gè)所述資源使用數(shù)據(jù)分別代入公式I=I1*w1+I2*w2+I3*w3+…+In*wn+I'*w',計(jì)算獲得相應(yīng)的所示影響力I;其中,w1,w2,w3,…,wn,w'為各使用數(shù)據(jù)的權(quán)重。
在又一個(gè)優(yōu)選的實(shí)施例中,在上述優(yōu)選的實(shí)施例的基礎(chǔ)之上,所述關(guān)注主題相似度獲得模塊44,具體包括:
關(guān)注主題分布數(shù)據(jù)獲得單元,用于根據(jù)每個(gè)所述資源使用數(shù)據(jù),采用主題模型分析法計(jì)算獲得每個(gè)所述用戶的關(guān)注主題分布數(shù)據(jù);以及,
主題相似度計(jì)算獲得單元,用于分別將每個(gè)所述待分組用戶的所述關(guān)注主題分布數(shù)據(jù)與每個(gè)所述標(biāo)準(zhǔn)用戶的所述關(guān)注主題分布數(shù)據(jù)進(jìn)行比較,計(jì)算獲得相應(yīng)的所述關(guān)注主題相似度。
更優(yōu)選地,所述K個(gè)用戶為所述N個(gè)用戶中所述影響力排名前K的用戶。
更優(yōu)選地,所述資源使用數(shù)據(jù)中包括資源描述數(shù)據(jù)及用戶描述數(shù)據(jù);其中,所述用戶描述數(shù)據(jù)中包括對(duì)應(yīng)的用戶的關(guān)注主題數(shù)據(jù)。
本發(fā)明實(shí)施例提供的基于中粒度用戶分組的資源推薦裝置,通過從網(wǎng)絡(luò)中獲取用戶在線或/和離線的資源使用數(shù)據(jù),獲得用戶的影響力和用戶的關(guān)注主題,并根據(jù)用戶的影響力和用戶的關(guān)注主題對(duì)用戶進(jìn)行分組,從而可以獲得粒度適中的用戶分組,使得推薦過程的運(yùn)算數(shù)據(jù)量降低,但同時(shí)能夠保證推薦所依據(jù)的樣本數(shù)據(jù)量充足,為后續(xù)的推薦過程奠定基礎(chǔ),因此能夠提高向用戶推薦資源的準(zhǔn)確度和速度。另外,通過結(jié)合在線及離線兩個(gè)維度的數(shù)據(jù)計(jì)算用戶的影響力,從而能夠大大提高數(shù)據(jù)的全面性、可靠性,進(jìn)一步提高向用戶推薦資源的準(zhǔn)確度。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也視為本發(fā)明的保護(hù)范圍。