亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法

文檔序號(hào):10687114閱讀:163來(lái)源:國(guó)知局
一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法
【專利摘要】本發(fā)明提供一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法,該方法建立由用戶發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列表ConEntity(ui),建立用戶個(gè)人信息的實(shí)體列表InfEntity(ui),并根據(jù)得到的實(shí)體列表ConEntity(ui)和InfEntity(ui)對(duì)用戶的偏好的實(shí)體進(jìn)行排序得到偏好度排序的實(shí)體列表,通過(guò)用戶間實(shí)體列表的相似程度對(duì)社交網(wǎng)絡(luò)中的用戶進(jìn)行興趣相似的好友推薦。
【專利說(shuō)明】
一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,更具體地,涉及一種基于命名實(shí)體的社交網(wǎng) 站好友推薦方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著互聯(lián)網(wǎng)的快速發(fā)展,大規(guī)模的知識(shí)庫(kù)(如Wikipedia,DBpedia,百度百 科等)在互聯(lián)網(wǎng)中出現(xiàn)并得到快速發(fā)展。這些知識(shí)庫(kù)富含關(guān)于肢體的屬性和實(shí)體之間的語(yǔ) 義關(guān)系等,它們的出現(xiàn)使得用戶可以便利的獲取相關(guān)信息。因此,有關(guān)命名實(shí)體的技術(shù)也在 飛速發(fā)展并應(yīng)用于互聯(lián)網(wǎng)的各個(gè)領(lǐng)域。
[0003] 所謂命名實(shí)體,就是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識(shí)的實(shí)體。更廣 泛的實(shí)體還包括數(shù)字、日期、貨幣、地址等等。現(xiàn)有的技術(shù)主要涉及命名實(shí)體的識(shí)別,命名實(shí) 體的鏈接和消歧以及命名實(shí)體的關(guān)系挖掘領(lǐng)域,并且已經(jīng)較為成熟。命名實(shí)體的識(shí)別是指, 從給定的一句話或者一篇文章中,找到指代命名實(shí)體的詞語(yǔ),我們稱之為實(shí)體指稱項(xiàng),在 "喬丹是著名的籃球運(yùn)動(dòng)員"中,我們要識(shí)別出的實(shí)體指稱項(xiàng)是"喬丹"。命名實(shí)體的鏈接是 指我們要把識(shí)別出的指稱項(xiàng)與確定的某個(gè)知識(shí)庫(kù)中的實(shí)體(Wikipedia中表現(xiàn)為一個(gè)頁(yè)面) 鏈接起來(lái)達(dá)到消除歧義的目的。比如,"喬丹是著名的籃球運(yùn)動(dòng)員"和"喬丹是美國(guó)伯克利大 學(xué)的研究機(jī)器學(xué)習(xí)的教授"中兩個(gè)相同的指稱項(xiàng)"喬丹"指向的是完全不同的兩個(gè)實(shí)體。而 實(shí)體關(guān)系的挖掘主要是要找尋兩個(gè)實(shí)體之間的聯(lián)系,如上一個(gè)例子候中"喬丹"與"伯克利 大學(xué)"大學(xué)的關(guān)系是"A任教于B"。
[0004] 現(xiàn)有的社交網(wǎng)絡(luò)好友推薦方法主要有基于用戶關(guān)系和基于標(biāo)簽和內(nèi)容兩大類:基 于用戶關(guān)系的推薦主要有推薦用戶的共同好友,推薦好友的好友,推薦關(guān)注者的關(guān)注者等 等,以及基于興趣協(xié)同,即如果用戶A和用戶B粉絲人群相似,而待推薦用戶關(guān)注了用戶A,那 么將用戶B也推薦給該用戶;拓展開(kāi)來(lái),基于用戶關(guān)系圖可以找到用戶所處的社團(tuán)結(jié)構(gòu),將 同一個(gè)社團(tuán)內(nèi)的其他未關(guān)注成員推薦給該用戶?;跇?biāo)簽和內(nèi)容的方法主要是根據(jù)用戶的 地理位置信息,教育工作信息,或者是用戶自定義的個(gè)人標(biāo)簽,推薦相似的其他用戶。最基 礎(chǔ)的方法的推薦力度是相同的,并沒(méi)有按照成為好友的可能性大小的不同而有不同的推薦 力度。而其他傳統(tǒng)的方法要么沒(méi)有充分的利用用戶的發(fā)言信息和標(biāo)簽信息,要么將用戶的 好友局限在某個(gè)興趣圈或者好友圈內(nèi),不能充分發(fā)現(xiàn)用戶的潛在興趣目標(biāo)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法,實(shí)現(xiàn)向社交網(wǎng)絡(luò)中的用 戶推薦相似偏好的其他用戶。
[0006] 為了達(dá)到上述技術(shù)效果,本發(fā)明的技術(shù)方案如下:
[0007] -種基于命名實(shí)體的社交網(wǎng)站好友推薦方法,包括以下步驟:
[0008] S1:對(duì)候選用戶集U中的用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理并進(jìn)行命名實(shí) 體的識(shí)別和連接,得出由用戶Ui發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列 ^ConEntity(ui);
[0009] S2:對(duì)用戶m進(jìn)行個(gè)人信息提取并進(jìn)行命名實(shí)體的識(shí)別和連接,得出關(guān)于用戶m個(gè) 人信息的實(shí)體列表1nfEntity(m);
[0010] S3:根據(jù)得到的實(shí)體列表<3〇1^]11:;^(1^)和11^111:;^(1^)對(duì)用戶1^的偏好的實(shí)體 進(jìn)行排序,得到一個(gè)偏好度排序的實(shí)體列表UserEnt i ty (m);
[0011] 34:利用每個(gè)用戶的1]86成111:;^7(1^)進(jìn)行相似度對(duì)比,選取最高相似度的用戶進(jìn) 行相互推薦。
[0012] 優(yōu)選地,所述步驟SI中對(duì)用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理的方式包括分 詞、停用詞過(guò)濾。
[0013] 優(yōu)選地,所述步驟S2中的用戶個(gè)人信息包括地理位置信息、興趣愛(ài)好標(biāo)簽。
[0014] 進(jìn)一步地,所述步驟S3的具體過(guò)程如下:
[0015] 令K表示用戶對(duì)于實(shí)體e提及的重要程度:
[0016] K = countc〇nEntity(e)+l. 2countinfEntity(e)
[0017] 其中,c〇untc〇nEntity(e)表示實(shí)體e在集合ConEntity(U)中的出現(xiàn)次數(shù), count Inf Entity (e)表示實(shí)體e在集合ConEnt i ty (U)中的出現(xiàn)次數(shù);
[0018]用戶對(duì)實(shí)體的偏好值:
[0020]其中,Sim(Ui,e)表示用戶m和實(shí)體e的文本相似度,Entity(e)表示實(shí)體頁(yè)面提及 的除6之外的實(shí)體集合,£]11:;^(1^)=(:01^111:;^(1^)門11^111:;^(1^)表示用戶兩個(gè)相關(guān)實(shí)
體的集合,i n (e)表示指向?qū)嶓we的實(shí)體的個(gè)數(shù), 表示實(shí)體的流行度,a和0是 權(quán)重參數(shù)。
[0021]進(jìn)一步地,根據(jù)用戶對(duì)實(shí)體的偏好值得到用戶m偏好度排序的實(shí)體列表,選取其 中前N個(gè)實(shí)體形成實(shí)體列表UserEntity(m),不足N實(shí)體時(shí),空位出用null填充。
[0022] 進(jìn)一步地,步驟S4的具體過(guò)程如下:
[0023]計(jì)算兩個(gè)實(shí)體間的距離:
[0025]其中,Total是知識(shí)庫(kù)里所有實(shí)體的數(shù)量,g(e)是在知識(shí)庫(kù)中有鏈接指向?qū)嶓we的 實(shí)體的集合,對(duì)于用戶ui和用戶U2,有實(shí)體列表UserEntity (ui)和UserEntity (U2),ei G UserEntity(ui),ejGUserEntity(U2),i,j G [1,N],ei與用戶U2的列表相似度:
[0027]用戶m和用戶u2之間的相似度為:
[0029]與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:
[0030]本發(fā)明建立由用戶發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列表 (:〇1^111:;[丨7(1^),建立用戶個(gè)人信息的實(shí)體列表11^£111:;[丨7(111),并根據(jù)得到的實(shí)體列表 (:01^]11:;^7(1^)和11^£111:;^7(1^)對(duì)用戶的偏好的實(shí)體進(jìn)行排序得到偏好度排序的實(shí)體列 表,通過(guò)用戶間實(shí)體列表的相似程度對(duì)社交網(wǎng)絡(luò)中的用戶進(jìn)行興趣相似的好友推薦。
【附圖說(shuō)明】
[0031]圖1為本發(fā)明方法流程圖。
【具體實(shí)施方式】
[0032] 附圖僅用于示例性說(shuō)明,不能理解為對(duì)本專利的限制;
[0033] 為了更好說(shuō)明本實(shí)施例,附圖某些部件會(huì)有省略、放大或縮小,并不代表實(shí)際產(chǎn)品 的尺寸;
[0034] 對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),附圖中某些公知結(jié)構(gòu)及其說(shuō)明可能省略是可以理解 的。
[0035]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的說(shuō)明。
[0036] 實(shí)施例1
[0037] 如圖1所示,一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法,包括以下步驟:
[0038] S1:對(duì)候選用戶集U中的用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理并進(jìn)行命名實(shí) 體的識(shí)別和連接,得出由用戶m發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列 ^ConEntity(ui);
[0039] S2:對(duì)用戶m進(jìn)行個(gè)人信息提取并進(jìn)行命名實(shí)體的識(shí)別和連接,得出關(guān)于用戶m個(gè) 人信息的實(shí)體列表1nfEntity(m);
[0040] 33:根據(jù)得到的實(shí)體列表(:〇1^111:;^(1^)和11^111:;^(1^)對(duì)用戶1^的偏好的實(shí)體 進(jìn)行排序,得到一個(gè)偏好度排序的實(shí)體列表UserEnt i ty (m);
[OO41] 34:利用每個(gè)用戶的1]86成111:;^7(1^)進(jìn)行相似度對(duì)比,選取最高相似度的用戶進(jìn) 行相互推薦。
[0042]步驟SI中對(duì)用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理的方式包括分詞、停用詞過(guò) 濾。
[0043]步驟S2中的用戶個(gè)人信息包括地理位置信息、興趣愛(ài)好標(biāo)簽。
[0044] 步驟S3的具體過(guò)程如下:
[0045] 令K表示用戶對(duì)于實(shí)體e提及的重要程度:
[0046] K = countc〇nEntity(e)+l. 2countinfEntity(e)
[0047] 其中,countconEntity(e)表示實(shí)體e在集合ConEntity(U)中的出現(xiàn)次數(shù), count Inf Entity (e)表示實(shí)體e在集合ConEnt i ty (U)中的出現(xiàn)次數(shù);
[0048]用戶對(duì)實(shí)體的偏好值:
[0050]其中,Sim(Ui,e)表示用戶m和實(shí)體e的文本相似度,Entity(e)表示實(shí)體頁(yè)面提及 的除6之外的實(shí)體集合,£]11:;^(1^)=(:01^111:;^(1^)門11^111:;^(1^)表示用戶兩個(gè)相關(guān)實(shí) 體的集合,i n (e)表示指向?qū)嶓we的實(shí)體的個(gè)數(shù),
表示實(shí)體的流行度,a和0是 權(quán)重參數(shù),由訓(xùn)練集訓(xùn)練可以得到。
[0051]根據(jù)用戶對(duì)實(shí)體的偏好值得到用戶m偏好度排序的實(shí)體列表,選取其中前N個(gè)實(shí) 體形成實(shí)體列表UserEntity(m),不足N實(shí)體時(shí),空位出用null填充。本實(shí)施例歐中,N取30, 不足30實(shí)體時(shí),空位出用null填充。
[0052] 步驟S4的具體過(guò)程如下:
[0053]計(jì)算兩個(gè)實(shí)體間的距離:
[0055]其中,Total是知識(shí)庫(kù)里所有實(shí)體的數(shù)量,g(e)是在知識(shí)庫(kù)中有鏈接指向?qū)嶓we的 實(shí)體的集合,對(duì)于用戶ui和用戶U2,有實(shí)體列表UserEntity (ui)和UserEntity (U2),ei G UserEntity(ui),ejGUserEntity(U2),i,j G [1,N],ei與用戶U2的列表相似度:
[0057]用戶m和用戶u2之間的相似度為:
[0059] 取得最高相似度的用戶之間可以進(jìn)行相互推薦。比如對(duì)于用戶m,分別計(jì)算他與 其他候選用戶集合中的所有用戶的相似度,然后選取前n個(gè)用戶進(jìn)行好友推薦或者感興趣 的用戶關(guān)注推薦。
[0060] 本方法建立由用戶ui發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列 表(:〇1^]11:;^7(11;〇,建立用戶個(gè)人信息的實(shí)體列表11^£111:;^7(11;〇,并根據(jù)得到的實(shí)體列表 (:〇1^]11:;^7(11;〇和111作111:;^7(11;〇對(duì)用戶的偏好的實(shí)體進(jìn)行排序得到偏好度排序的實(shí)體列 表,通過(guò)用戶間實(shí)體列表的相似程度對(duì)社交網(wǎng)絡(luò)中的用戶進(jìn)行興趣相似的好友推薦。
[0061] 相同或相似的標(biāo)號(hào)對(duì)應(yīng)相同或相似的部件;
[0062] 附圖中描述位置關(guān)系的用于僅用于示例性說(shuō)明,不能理解為對(duì)本專利的限制;
[0063] 顯然,本發(fā)明的上述實(shí)施例僅僅是為清楚地說(shuō)明本發(fā)明所作的舉例,而并非是對(duì) 本發(fā)明的實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可 以做出其它不同形式的變化或變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有的實(shí)施方式予以窮舉。凡在本 發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求 的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,包括以下步驟: S1:對(duì)候選用戶集U中的用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理并進(jìn)行命名實(shí)體的識(shí) 別和連接,得出由用戶iu發(fā)言中的實(shí)體和其關(guān)注者發(fā)言中的實(shí)體組成的一個(gè)實(shí)體列表 ConEntity(ui); S2:對(duì)用戶m進(jìn)行個(gè)人信息提取并進(jìn)行命名實(shí)體的識(shí)別和連接,得出關(guān)于用戶m個(gè)人信 息的實(shí)體列表1nfEntity(m); 33:根據(jù)得到的實(shí)體列表(:〇1^111:;^7(1^)和11^£111:;^7(1^)對(duì)用戶1^的偏好的實(shí)體進(jìn)行 排序,得到一個(gè)偏好度排序的實(shí)體列表UserEnt i ty (m); S4:利用每個(gè)用戶的UserEntity(m)進(jìn)行相似度對(duì)比,選取最高相似度的用戶進(jìn)行相互 推薦。2. 根據(jù)權(quán)利要求1所述的基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,所述步 驟S1中對(duì)用戶m及其關(guān)注者的發(fā)言文本進(jìn)行預(yù)處理的方式包括分詞、停用詞過(guò)濾。3. 根據(jù)權(quán)利要求1所述的基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,所述步 驟S2中的用戶個(gè)人信息包括地理位置信息、興趣愛(ài)好標(biāo)簽。4. 根據(jù)權(quán)利要求1所述的基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,所述步 驟S3的具體過(guò)程如下: 令K表示用戶對(duì)于實(shí)體e提及的重要程度: K - COUIltConEntity ( 6 ) + 1.2 COUIlt Inf Entity ( G ) 其中,countconEntity (e)表示實(shí)體 e 在集合 ConEnt i ty (U)中的出現(xiàn)次數(shù),countinf Entity (e) 表示實(shí)體e在集合ConEntity (U)中的出現(xiàn)次數(shù); 用戶對(duì)實(shí)體的偏好值:其中,Sim(Ui,e)表示用戶Ui和實(shí)體e的文本相似度,Entity(e)表示實(shí)體頁(yè)面提及的除e 之外的實(shí)體集合,Entity (m)= ConEntity (m) fl Inf Entity (m)表示用戶兩個(gè)相關(guān)實(shí)體的集合,in (e)表示指向?qū)嶓we的實(shí)體的個(gè)數(shù), 表示實(shí)體的流行度,a和0是權(quán)重 參數(shù)。5. 根據(jù)權(quán)利要求4所述的基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,根據(jù)用 戶對(duì)實(shí)體的偏好值得到用戶m偏好度排序的實(shí)體列表,選取其中前N個(gè)實(shí)體形成實(shí)體列表 UserEntity(m),不足N實(shí)體時(shí),空位出用null填充。6. 根據(jù)權(quán)利要求5所述的基于命名實(shí)體的社交網(wǎng)站好友推薦方法,其特征在于,步驟S4 的具體過(guò)程如下: 計(jì)算兩個(gè)實(shí)體間的距離:其中,Total是知識(shí)庫(kù)里所有實(shí)體的數(shù)量,g( e)是在知識(shí)庫(kù)中有鏈接指向?qū)嶓we的實(shí)體 的集合,對(duì)于用戶ui和用戶U2,有實(shí)體列表UserEnt i ty (ui)和UserEnt i ty (U2),ei G UserEntity(ui),ejEUserEntity(U2),i,j E [1,N],ei與用戶U2的列表相似度:用戶U1和用戶U2之間的相似度為:
【文檔編號(hào)】G06K9/62GK106055616SQ201610357590
【公開(kāi)日】2016年10月26日
【申請(qǐng)日】2016年5月25日
【發(fā)明人】柏楊, 胡浩, 印鑒
【申請(qǐng)人】中山大學(xué), 廣州中大南沙科技創(chuàng)新產(chǎn)業(yè)園有限公司, 廣州智??v橫信息科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1