亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置與流程

文檔序號(hào):11864825閱讀:512來源:國知局
基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置與流程

本發(fā)明涉及內(nèi)容推薦技術(shù)領(lǐng)域,尤其涉及一種基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息呈指數(shù)級(jí)數(shù)增長,隨之而產(chǎn)生的信息垃圾也越來越多,使得用戶很難準(zhǔn)確、快速地在海量的信息中搜索到符合自己要求的信息內(nèi)容。如何快速,準(zhǔn)確地獲取自己所需要的信息成為人們的迫切需求。推薦系統(tǒng)因其具備解決信息過載問題的能力,幫助用戶從大量的信息中定位到其所需要的信息而被廣泛研究和應(yīng)用。

目前推薦系統(tǒng)最常用的推薦技術(shù)有協(xié)同過濾推薦技術(shù)。該推薦技術(shù)是通過分析用戶的歷史行為,在用戶群中找到指定用戶的相似用戶,綜合這些相似用戶對(duì)某一內(nèi)容的喜好程度,形成對(duì)該指定用戶對(duì)此內(nèi)容的喜好程度預(yù)測(cè),進(jìn)而決定是否推薦給該指定用戶。但是,上述推薦技術(shù)的問題是,僅僅通過分析用戶的歷史行為,得到相似用戶,并根據(jù)相似用戶的喜好程度推測(cè)該指定用戶的喜好,會(huì)導(dǎo)致推薦的內(nèi)容不一定是用戶真正感興趣的,因此會(huì)使得推薦不夠準(zhǔn)確。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供一種基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置,以克服現(xiàn)有技術(shù)中推薦不夠準(zhǔn)確的問題。

第一方面,本發(fā)明提供一種基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法,包括:

獲取多個(gè)待推薦內(nèi)容的標(biāo)簽信息;

根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;

根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;所述多個(gè)用戶包括目標(biāo)用戶;

根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與所述目標(biāo)用戶相關(guān)的用戶;所述第一瀏覽記錄包括:所述用戶瀏覽過的內(nèi)容的集合,以及對(duì)所述集合中的內(nèi)容瀏覽的時(shí)間;

根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦。

第二方面,本發(fā)明提供一種基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦裝置,包括:

獲取模塊,用于獲取多個(gè)待推薦內(nèi)容的標(biāo)簽信息;

聚類模塊,用于根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;

興趣向量計(jì)算模塊,用于根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;所述多個(gè)用戶包括目標(biāo)用戶;

相似度計(jì)算模塊,用于根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與所述目標(biāo)用戶相關(guān)的用戶;所述第一瀏覽記錄包括:所述用戶瀏覽過的內(nèi)容的集合,以及對(duì)所述集合中的內(nèi)容瀏覽的時(shí)間;

推薦模塊,用于根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦。

本發(fā)明基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法及裝置,通過對(duì)獲取的多個(gè)待推薦內(nèi)容的標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;進(jìn)一步的,根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與所述目標(biāo)用戶相關(guān)的用戶;根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦,由于充分利用待推薦內(nèi)容的標(biāo)簽信息的可聚類性,且在計(jì)算相似度時(shí)引入更多上下文信息,使得推薦結(jié)果更精確。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法一實(shí)施例的流程示意圖;

圖2為本發(fā)明基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦裝置一實(shí)施例的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

圖1為本發(fā)明基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法一實(shí)施例的流程示意圖,如圖1所示,本實(shí)施例的方法包括:

步驟101、獲取多個(gè)待推薦內(nèi)容的標(biāo)簽信息;

本發(fā)明實(shí)施例的方法適用于各種網(wǎng)絡(luò)內(nèi)容推薦場(chǎng)景,比如:新聞推薦、在線小說推薦、微博推薦等。以下實(shí)施例中以新聞推薦為例進(jìn)行說明。

具體的,可以通過網(wǎng)絡(luò)爬蟲獲取多個(gè)待推薦內(nèi)容的標(biāo)簽信息。

例如,根據(jù)待推薦新聞獲取其相應(yīng)的標(biāo)簽信息。將新聞的統(tǒng)一資源定位符(Uniform Resource Locator,簡稱URL)作為參數(shù)發(fā)送超文本傳輸協(xié)議(HyperText Transfer Protocol,簡稱HTTP)請(qǐng)求到獲取標(biāo)簽信息的應(yīng)用程序編程接口(Application Programming Interface,簡稱API),爬取該新聞的多個(gè)標(biāo)簽信息。

例如,待推薦新聞?dòng)?條,其中一條的標(biāo)簽信息包括新華網(wǎng)、體育、羽毛球,一條的標(biāo)簽信息包括網(wǎng)易、娛樂、范冰冰,則可以得到多個(gè)待推薦新聞的多個(gè)標(biāo)簽信息。

步驟102、根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;

具體的,聚類之前先將步驟101中得到的多個(gè)標(biāo)簽信息去重。

根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,具體可以是由下往上的層次聚類:首先得到初始的標(biāo)簽簇,每個(gè)標(biāo)簽簇包括一個(gè)標(biāo)簽信息,然后根據(jù)標(biāo)簽簇之間的相似度,進(jìn)行合并,將相似度大于預(yù)設(shè)閾值的標(biāo)簽簇進(jìn)行合并,直至標(biāo)簽簇的個(gè)數(shù)為預(yù)設(shè)個(gè)數(shù)。

其中相似度的度量依據(jù)為:1)若兩個(gè)標(biāo)簽信息在同一則新聞中出現(xiàn),則相似度較高;2)若兩個(gè)標(biāo)簽信息在同一則新聞中出現(xiàn),距離越近的標(biāo)簽相似度越高。

該聚類算法的特點(diǎn)是既能根據(jù)最終的標(biāo)簽簇的個(gè)數(shù)進(jìn)行限制,還能根據(jù)相似度的預(yù)設(shè)閾值進(jìn)行限制,通過使用雙重限制讓用戶能較全面地控制聚類結(jié)果。

步驟103、根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;

本發(fā)明實(shí)施例中,需要對(duì)目標(biāo)用戶進(jìn)行內(nèi)容推薦,上述多個(gè)用戶包括該目標(biāo)用戶。

可選地,該步驟可以分為以下兩個(gè)步驟來實(shí)現(xiàn):

分別將每個(gè)所述待推薦內(nèi)容的各個(gè)所述標(biāo)簽信息映射到所述標(biāo)簽簇中,得到每個(gè)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量;

根據(jù)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量以及與各個(gè)所述用戶的第二瀏覽記錄對(duì)應(yīng)的權(quán)重,得到各個(gè)所述用戶的興趣向量;所述第二瀏覽記錄包括所述用戶對(duì)所述待推薦內(nèi)容的瀏覽時(shí)長。

具體的,首先,將每個(gè)待推薦內(nèi)容的各個(gè)標(biāo)簽信息映射到所述標(biāo)簽簇中,首先可以確定待推薦內(nèi)容的各個(gè)標(biāo)簽信息歸屬的標(biāo)簽簇,將歸屬于第n個(gè)標(biāo)簽簇的標(biāo)簽信息的個(gè)數(shù)作為待推薦內(nèi)容對(duì)應(yīng)的話題向量的第n個(gè)元素;其中,n的取值范圍為大于0,且n小于等于所述標(biāo)簽簇的個(gè)數(shù)。

例如,將該待推薦新聞的各個(gè)標(biāo)簽信息映射到聚類得到的標(biāo)簽簇中,得到一個(gè)向量,將其表示為該待推薦新聞的話題向量。比如聚類結(jié)果為K個(gè)標(biāo)簽簇,對(duì)標(biāo)簽簇依次編號(hào)為0~K-1,那么該待推薦新聞的話題向量的維度就為K,將新聞的各個(gè)標(biāo)簽信息映射到標(biāo)簽簇中,若有標(biāo)簽信息歸屬于編號(hào)為n的簇,那么該待推薦新聞的話題向量就在第n維的地方加一;話題向量的元素初始化為0。同理,每當(dāng)有標(biāo)簽信息映射到某個(gè)標(biāo)簽簇,那么新聞話題向量的對(duì)應(yīng)維度值就加一。如上所述,可求得各個(gè)待推薦新聞的話題向量。

然后,將各個(gè)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量的加權(quán)和作為所述用戶的興趣向量;其中,話題向量對(duì)應(yīng)的權(quán)重為根據(jù)用戶對(duì)所述待推薦內(nèi)容的第二瀏覽記錄以及所述待推薦內(nèi)容的熱門度確定的。

具體的,為了較精確的刻畫用戶興趣模型,本步驟中可以引入更多的上下文信息,比如用戶對(duì)內(nèi)容的瀏覽時(shí)長、內(nèi)容的熱門度等等。以下僅以新聞進(jìn)行舉例說明。

本發(fā)明實(shí)施例充分考慮了新聞熱門度對(duì)用戶興趣模型的影響,將新聞劃分為了熱門新聞、冷門新聞和普通新聞三種類型,根據(jù)用戶對(duì)三類新聞的不同操作設(shè)定不同的權(quán)重,能較精確地反映出用戶的興趣偏好。因此需要計(jì)算用戶對(duì)新聞的平均瀏覽時(shí)長,參考此值來設(shè)定瀏覽時(shí)長的閾值,用來評(píng)判用戶對(duì)新聞的喜好程度。并且對(duì)新聞進(jìn)行熱門度排序。

然后進(jìn)行用戶的興趣向量的計(jì)算。用戶的興趣向量為用戶瀏覽的待推薦新聞的話題向量乘上權(quán)重之和。

具體的,當(dāng)t≤T1,rank≤R1時(shí),權(quán)重為a1,t表示用戶對(duì)新聞的瀏覽時(shí)長,T1表示用戶對(duì)興趣低的新聞的瀏覽時(shí)長的第一閾值(即當(dāng)用戶對(duì)新聞的瀏覽時(shí)長小于該值時(shí)默認(rèn)為用戶對(duì)該新聞的興趣度較低);當(dāng)t≥T2,rank≥R2時(shí),權(quán)重為a3,T2表示用戶對(duì)興趣高的新聞的瀏覽時(shí)長的第二閾值(即當(dāng)用戶對(duì)新聞的瀏覽時(shí)長大于該值時(shí)默認(rèn)為用戶對(duì)該新聞的興趣度較高);當(dāng)t為其余情況時(shí),權(quán)重為a2;rank表示新聞按照熱門度排序的序號(hào)(即該值越低新聞的熱門度越高,該值越高新聞的熱門度越低);R1表示按照熱門度排序的熱門新聞的第一序號(hào)閾值,即小于該序號(hào)的新聞都認(rèn)為是熱門度高的新聞;R2表示按照熱門度排序的非熱門新聞的第二序號(hào)閾值,即大于該序號(hào)的新聞都認(rèn)為是熱門度低的新聞。

本發(fā)明實(shí)施例中假設(shè)無論用戶對(duì)新聞的興趣度高低,只要對(duì)新聞?dòng)胁僮骶褪潜硎居信d趣,因此權(quán)重a1、a2、a3假設(shè)為正數(shù)取1、2、3,當(dāng)用戶對(duì)新聞的瀏覽時(shí)長小于瀏覽時(shí)長的第一閾值并且該新聞熱門度較高,則權(quán)重為1;當(dāng)用戶對(duì)該新聞的瀏覽時(shí)長大于瀏覽時(shí)長的第二閾值并且該新聞熱門度較低,則權(quán)重為3;其余情況權(quán)重為2。

步驟104、根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與目標(biāo)用戶相關(guān)的用戶;所述第一瀏覽記錄包括:所述用戶瀏覽過的內(nèi)容的集合,以及對(duì)所述集合中的內(nèi)容瀏覽的時(shí)間;

具體的,基于各個(gè)所述用戶的興趣向量可以初步計(jì)算得到的一個(gè)用戶間的初始相似度,然后根據(jù)初始相似度以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度。

初始相似度可以是基于各個(gè)所述用戶的興趣向量的余弦相似度。

根據(jù)各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度即為采用傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法。

根據(jù)得到的多個(gè)用戶之間的相似度,確定出與目標(biāo)用戶相關(guān)的用戶,如與目標(biāo)用戶相似度最大的k個(gè)用戶。

步驟105、根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦。

具體的,根據(jù)上個(gè)步驟中得到目標(biāo)用戶與相關(guān)的用戶之間的相似度,以及相關(guān)的用戶的第一瀏覽記錄,得到該目標(biāo)用戶對(duì)應(yīng)的各個(gè)待推薦內(nèi)容的推薦度,例如可以將推薦度較大的幾個(gè)待推薦內(nèi)容推薦給目標(biāo)用戶。

本發(fā)明實(shí)施例在現(xiàn)有的推薦技術(shù)基礎(chǔ)上,充分利用待推薦內(nèi)容的標(biāo)簽信息的可聚類性,且在網(wǎng)絡(luò)內(nèi)容推薦場(chǎng)景特征中引入更多上下文信息,擴(kuò)充推薦背景信息,提供一種基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦方法,使得推薦結(jié)果更精確。標(biāo)簽信息能較好的反映待推薦內(nèi)容,并且其可聚類的特征能有效地將待推薦內(nèi)容進(jìn)行分類,將待推薦內(nèi)容自身信息考慮到推薦系統(tǒng)中有助于更擴(kuò)充推薦系統(tǒng)背景信息,同時(shí)引入更多的上下文信息能針對(duì)網(wǎng)絡(luò)內(nèi)容推薦場(chǎng)景進(jìn)行更加精準(zhǔn)的推薦。

本實(shí)施例提供的方法,通過對(duì)獲取的多個(gè)待推薦內(nèi)容的標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;進(jìn)一步的,根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與所述目標(biāo)用戶相關(guān)的用戶;根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦,由于充分利用待推薦內(nèi)容的標(biāo)簽信息的可聚類性,且在計(jì)算相似度時(shí)引入更多上下文信息,使得推薦結(jié)果更精確。

在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例中,步驟102具體可以通過如下方式實(shí)現(xiàn):

a、將所有的標(biāo)簽信息分別作為一個(gè)標(biāo)簽簇;

b、計(jì)算所述標(biāo)簽簇兩兩之間的相似度,確定相似度最大的兩個(gè)標(biāo)簽簇,若所述相似度大于預(yù)設(shè)閾值,則將所述兩個(gè)標(biāo)簽簇進(jìn)行合并;

c、判斷合并后的標(biāo)簽簇的個(gè)數(shù)是否等于預(yù)設(shè)個(gè)數(shù),若否,則重復(fù)所述b,直至標(biāo)簽簇的個(gè)數(shù)等于預(yù)設(shè)個(gè)數(shù)。

具體的,根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,具體可以是由下往上的層次聚類:首先得到初始的標(biāo)簽簇,每個(gè)標(biāo)簽簇包括一個(gè)標(biāo)簽信息,然后根據(jù)標(biāo)簽簇之間的相似度,進(jìn)行合并,將相似度大于預(yù)設(shè)閾值的標(biāo)簽簇進(jìn)行合并,直至標(biāo)簽簇的個(gè)數(shù)為預(yù)設(shè)個(gè)數(shù)。若步驟b中相似度若小于或等于預(yù)設(shè)閾值,則停止進(jìn)行聚類,不再執(zhí)行循環(huán)操作。

標(biāo)簽簇之間的相似度,可以根據(jù)兩個(gè)標(biāo)簽簇之間所有標(biāo)簽信息的平均相似度得到,比如標(biāo)簽簇A里面有新華網(wǎng)、體育;標(biāo)簽簇B里面有羽毛球、乒乓球,則標(biāo)簽簇A和標(biāo)簽簇B的相似度為{(新華網(wǎng)和羽毛球之間的相似度)+(新華網(wǎng)和乒乓球之間的相似度)+(體育和羽毛球之間的相似度)+(體育和乒乓球之間的相似度)}/4。

在上述實(shí)施例的基礎(chǔ)上,由于標(biāo)簽信息之間并不是彼此獨(dú)立的,因此可選地,步驟102之后,還可以進(jìn)行如下操作:

計(jì)算所述標(biāo)簽簇的中心和半徑,并根據(jù)所述標(biāo)簽簇的中心和半徑確定相交的標(biāo)簽簇;

將所述相交的標(biāo)簽簇中位于相交區(qū)域內(nèi)的標(biāo)簽信息,放入所述相交的標(biāo)簽簇中不包含所述標(biāo)簽信息的標(biāo)簽簇中。

具體的,本發(fā)明實(shí)施例中可以采用雙層聚類,在第一層聚類的基礎(chǔ)上進(jìn)行第二層聚類。求得第一層聚類的標(biāo)簽簇的半徑和中心。將相交部分的標(biāo)簽信息分別歸屬到相交的兩個(gè)標(biāo)簽簇里面。

計(jì)算標(biāo)簽簇的中心的方法:假設(shè)標(biāo)簽簇中有M個(gè)標(biāo)簽信息,則遍歷M個(gè)標(biāo)簽信息,依次將其作為中心,計(jì)算這個(gè)中心到其他所有標(biāo)簽信息的相似度并求和,找到相似度和值最大的中心,將此時(shí)的標(biāo)簽作為中心。

計(jì)算標(biāo)簽簇的半徑的方法:假設(shè)標(biāo)簽簇中有M個(gè)標(biāo)簽信息,且已經(jīng)得到該標(biāo)簽簇的中心,則遍歷中心之外的M-1個(gè)標(biāo)簽信息m,依次將其作為半徑參考點(diǎn),計(jì)算該標(biāo)簽信息m到中心的相似度的倒數(shù),假設(shè)其值為Sj,然后再遍歷其余的M-2個(gè)標(biāo)簽信息j,計(jì)算其到中心的相似度的倒數(shù),假設(shè)其值為Sm,找到M-2個(gè)|Sj-Sm|之和最小的情況,即此時(shí)各標(biāo)簽信息到中心的距離差異最小,則此時(shí)的Sj即為半徑。

在上述實(shí)施例的基礎(chǔ)上,步驟104具體可以通過如下的方式實(shí)現(xiàn):

根據(jù)如下公式(1)確定各個(gè)所述用戶之間的相似度;

<mrow> <mi>W</mi> <mi>u</mi> <mi>v</mi> <mo>=</mo> <mi>&beta;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mi>T</mi> <mi>u</mi> <mi>i</mi> <mo>-</mo> <mi>T</mi> <mi>v</mi> <mi>i</mi> <mo>|</mo> </mrow> </mfrac> </mrow> <msqrt> <mrow> <mo>|</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&cup;</mo> <mo>|</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </msqrt> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&beta;</mi> </mrow> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>cos</mi> <mrow> <mo>(</mo> <mrow> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,Wuv表示用戶u和用戶v的相似度,N(u)表示用戶u瀏覽過的內(nèi)容集合,N(v)表示用戶v瀏覽過的內(nèi)容集合,Tui表示用戶u瀏覽第i個(gè)內(nèi)容的時(shí)間點(diǎn),Tvi表示用戶v瀏覽第i個(gè)內(nèi)容的時(shí)間點(diǎn),|N(u)|和|N(v)|分別表示N(u)和N(v)包含的元素個(gè)數(shù);表示用戶u的興趣向量和用戶v的興趣向量的相似度;β為權(quán)重因子;α為預(yù)設(shè)的時(shí)間因子。

其中,|N(u)|∪|N(v)|表示N(u)和N(v)包含的元素個(gè)數(shù)之和;α代表時(shí)間因子,其值越大,則時(shí)間對(duì)相似度的影響越大,即兩用戶對(duì)同一新聞的瀏覽時(shí)間間隔對(duì)用戶相似度的影響越大。

具體的,由于余弦相似度相比其它相似度計(jì)算方法,其注重兩個(gè)向量在方向上的差異,這和本發(fā)明方法的兩個(gè)用戶在話題上的興趣度差異相吻合。并且余弦相似度的取值范圍在[-1,+1],這種歸一化的結(jié)果有利于提高推薦的精度、覆蓋率以及多樣性。

因此,本步驟中將在用戶興趣建模的基礎(chǔ)上進(jìn)行兩兩用戶的余弦相似度計(jì)算,得到用戶間的初始的相似度。使用計(jì)算公式如(3)所示,即余弦相似度的計(jì)算方法。

<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

然后根據(jù)上述公式(1)計(jì)算最終的用戶之間的相似度。

公式(1)中的前半部分為根據(jù)傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法的相似度計(jì)算過程。β為根據(jù)經(jīng)驗(yàn)值得到的權(quán)重因子。

在上述實(shí)施例的基礎(chǔ)上,步驟105具體可以通過如下的方式實(shí)現(xiàn):

根據(jù)如下公式(2)得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>W</mi> <mi>u</mi> <mi>v</mi> <mo>&CenterDot;</mo> <mi>R</mi> <mi>v</mi> <mi>i</mi> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>o</mi> <mo>-</mo> <mi>T</mi> <mi>v</mi> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,P(u,i)表示目標(biāo)用戶u對(duì)應(yīng)的第i個(gè)待推薦內(nèi)容的推薦度。S(u,k)表示和目標(biāo)用戶u相似度最大的k個(gè)用戶的集合,Wuv表示目標(biāo)用戶u和與目標(biāo)用戶相關(guān)的用戶v的相似度,Rvi表示用戶v對(duì)第i個(gè)待推薦內(nèi)容的興趣值,若用戶v瀏覽過第i個(gè)待推薦內(nèi)容,則Rvi為1;若用戶沒有瀏覽過第i個(gè)待推薦內(nèi)容,則Rvi為0;To表示當(dāng)前時(shí)間,Tvi表示用戶v對(duì)第i個(gè)待推薦內(nèi)容的瀏覽時(shí)間點(diǎn);α為預(yù)設(shè)的時(shí)間因子。

α的值會(huì)決定時(shí)間因素的影響權(quán)重。由用戶自定義。其值越大,則時(shí)間對(duì)推薦度的影響越大。

上述具體實(shí)施方式的實(shí)現(xiàn)原理和技術(shù)效果請(qǐng)參見圖1所示實(shí)施例,此處不再贅述。

圖2為本發(fā)明基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦裝置一實(shí)施例的結(jié)構(gòu)示意圖。如圖2所示,本實(shí)施例的基于標(biāo)簽的用戶協(xié)同過濾內(nèi)容推薦裝置,包括:

獲取模塊,用于獲取多個(gè)待推薦內(nèi)容的標(biāo)簽信息;

聚類模塊,用于根據(jù)所述標(biāo)簽信息之間的相似度,對(duì)所述標(biāo)簽信息進(jìn)行聚類,得到多個(gè)標(biāo)簽簇;

興趣向量計(jì)算模塊,用于根據(jù)所述標(biāo)簽信息、所述標(biāo)簽簇得到多個(gè)用戶的興趣向量;所述多個(gè)用戶包括目標(biāo)用戶;

相似度計(jì)算模塊,用于根據(jù)各個(gè)所述用戶的興趣向量,以及各個(gè)所述用戶的第一瀏覽記錄得到各個(gè)所述用戶之間的相似度,并根據(jù)各個(gè)所述用戶之間的相似度,確定與所述目標(biāo)用戶相關(guān)的用戶;所述第一瀏覽記錄包括:所述用戶瀏覽過的內(nèi)容的集合,以及對(duì)所述集合中的內(nèi)容瀏覽的時(shí)間;

推薦模塊,用于根據(jù)所述目標(biāo)用戶和與所述目標(biāo)用戶相關(guān)的用戶之間的相似度,以及與所述目標(biāo)用戶相關(guān)的用戶的第一瀏覽記錄,得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度,并根據(jù)所述推薦度對(duì)所述目標(biāo)用戶進(jìn)行內(nèi)容推薦。

可選地,作為一種可實(shí)施的方式,聚類模塊,具體用于執(zhí)行以下步驟:

a、將所有的標(biāo)簽信息分別作為一個(gè)標(biāo)簽簇;

b、計(jì)算所述標(biāo)簽簇兩兩之間的相似度,確定相似度最大的兩個(gè)標(biāo)簽簇,若所述相似度大于預(yù)設(shè)閾值,則將所述兩個(gè)標(biāo)簽簇進(jìn)行合并;

c、判斷合并后的標(biāo)簽簇的個(gè)數(shù)是否等于預(yù)設(shè)個(gè)數(shù),若否,則重復(fù)所述b,直至標(biāo)簽簇的個(gè)數(shù)等于預(yù)設(shè)個(gè)數(shù)。

可選地,作為一種可實(shí)施的方式,聚類模塊,還用于:

計(jì)算所述標(biāo)簽簇的中心和半徑,并根據(jù)所述標(biāo)簽簇的中心和半徑確定相交的標(biāo)簽簇;

將所述相交的標(biāo)簽簇中位于相交區(qū)域內(nèi)的標(biāo)簽信息,放入所述相交的標(biāo)簽簇中不包含所述標(biāo)簽信息的標(biāo)簽簇中。

可選地,作為一種可實(shí)施的方式,所述興趣向量計(jì)算模塊,包括:

話題向量計(jì)算單元,用于分別將每個(gè)所述待推薦內(nèi)容的各個(gè)所述標(biāo)簽信息映射到所述標(biāo)簽簇中,得到每個(gè)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量;

興趣向量計(jì)算單元,用于根據(jù)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量以及與各個(gè)所述用戶的第二瀏覽記錄對(duì)應(yīng)的權(quán)重,得到各個(gè)所述用戶的興趣向量;所述第二瀏覽記錄包括所述用戶對(duì)所述待推薦內(nèi)容的瀏覽時(shí)長。

可選地,作為一種可實(shí)施的方式,話題向量計(jì)算單元,具體用于:

確定所述待推薦內(nèi)容的各個(gè)所述標(biāo)簽信息歸屬的標(biāo)簽簇,將歸屬于第n個(gè)標(biāo)簽簇的標(biāo)簽信息的個(gè)數(shù)作為所述待推薦內(nèi)容對(duì)應(yīng)的話題向量的第n個(gè)元素;

其中,n的取值范圍為大于0,且n小于等于所述標(biāo)簽簇的個(gè)數(shù)。

可選地,作為一種可實(shí)施的方式,興趣向量計(jì)算單元,具體用于:

將各個(gè)所述待推薦內(nèi)容對(duì)應(yīng)的話題向量的加權(quán)和作為所述用戶的興趣向量;

其中,所述話題向量對(duì)應(yīng)的權(quán)重為根據(jù)所述用戶對(duì)所述待推薦內(nèi)容的第二瀏覽記錄以及所述待推薦內(nèi)容的熱門度確定的。

可選地,作為一種可實(shí)施的方式,相似度計(jì)算模塊,具體用于:

根據(jù)如下公式(1)確定各個(gè)所述用戶之間的相似度;

<mrow> <mi>W</mi> <mi>u</mi> <mi>v</mi> <mo>=</mo> <mi>&beta;</mi> <mo>&CenterDot;</mo> <mfrac> <mrow> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>&cap;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>&alpha;</mi> <mo>|</mo> <mi>T</mi> <mi>u</mi> <mi>i</mi> <mo>-</mo> <mi>T</mi> <mi>v</mi> <mi>i</mi> <mo>|</mo> </mrow> </mfrac> </mrow> <msqrt> <mrow> <mo>|</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>&cup;</mo> <mo>|</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>v</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </msqrt> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&beta;</mi> </mrow> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mi>cos</mi> <mrow> <mo>(</mo> <mrow> <mover> <mi>u</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mover> <mi>v</mi> <mo>&RightArrow;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,Wuv表示用戶u和用戶v的相似度,N(u)表示用戶u瀏覽過的內(nèi)容集合,N(v)表示用戶v瀏覽過的內(nèi)容集合,Tui表示用戶u瀏覽第i個(gè)內(nèi)容的時(shí)間點(diǎn),Tvi表示用戶v瀏覽第i個(gè)內(nèi)容的時(shí)間點(diǎn),|N(u)|和|N(v)|分別表示N(u)和N(v)包含的元素個(gè)數(shù);表示用戶u的興趣向量和用戶v的興趣向量的相似度;β為權(quán)重因子;α為預(yù)設(shè)的時(shí)間因子。

可選地,作為一種可實(shí)施的方式,推薦模塊,具體用于:

根據(jù)如下公式(2)得到所述目標(biāo)用戶對(duì)應(yīng)的各個(gè)所述待推薦內(nèi)容的推薦度

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>v</mi> <mo>&Element;</mo> <mi>S</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </munder> <mi>W</mi> <mi>u</mi> <mi>v</mi> <mo>&CenterDot;</mo> <mi>R</mi> <mi>v</mi> <mi>i</mi> <mo>&CenterDot;</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>o</mi> <mo>-</mo> <mi>T</mi> <mi>v</mi> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

其中,P(u,i)表示目標(biāo)用戶u對(duì)應(yīng)的第i個(gè)待推薦內(nèi)容的推薦度。S(u,k)表示和目標(biāo)用戶u相似度最大的k個(gè)用戶的集合,Wuv表示目標(biāo)用戶u和與目標(biāo)用戶相關(guān)的用戶v的相似度,Rvi表示用戶v對(duì)第i個(gè)待推薦內(nèi)容的興趣值,若用戶v瀏覽過第i個(gè)待推薦內(nèi)容,則Rvi為1;若用戶沒有瀏覽過第i個(gè)待推薦內(nèi)容,則Rvi為0;To表示當(dāng)前時(shí)間,Tvi表示用戶v對(duì)第i個(gè)待推薦內(nèi)容的瀏覽時(shí)間點(diǎn);α為預(yù)設(shè)的時(shí)間因子。

本實(shí)施例的裝置,可以用于執(zhí)行如圖1所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。

本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1