亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向特定主題的隱蔽社區(qū)核心交際圈檢測發(fā)現(xiàn)方法和系統(tǒng)與流程

文檔序號:11829991閱讀:366來源:國知局
面向特定主題的隱蔽社區(qū)核心交際圈檢測發(fā)現(xiàn)方法和系統(tǒng)與流程

本發(fā)明涉及社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)與跟蹤領(lǐng)域,是一個基于特定主題的隱蔽社區(qū)核心交際圈進(jìn)行快速發(fā)現(xiàn)的方法和系統(tǒng)。



背景技術(shù):

近年來,隨著社交網(wǎng)絡(luò)的大規(guī)模廣泛應(yīng)用,人們越來越多地將線下活動轉(zhuǎn)移到線上社交網(wǎng)絡(luò)中。社交網(wǎng)絡(luò)是由許多關(guān)系鏈接而構(gòu)成的實體網(wǎng)絡(luò),在人們的日常生活中發(fā)揮了重要的作用,用戶與網(wǎng)絡(luò)之間的交互加快了社會行為向網(wǎng)絡(luò)行為、現(xiàn)實社會關(guān)系向網(wǎng)絡(luò)社會關(guān)系以及社交信息向網(wǎng)絡(luò)信息的轉(zhuǎn)化。目前,一些微博網(wǎng)站(如Twitter,新浪微博、Facebook、人人網(wǎng)等)逐漸興起,一方面代表了社交網(wǎng)絡(luò)的特性,用戶可以關(guān)注一些用戶,隨時發(fā)表、轉(zhuǎn)發(fā)、評論消息等;另一方面表現(xiàn)了媒體特性,很多知名用戶第一時間發(fā)布相關(guān)新聞消息后,這些消息能夠被迅速的轉(zhuǎn)發(fā)與傳播,這種信息擴(kuò)散的迅速性、規(guī)模性、影響力是傳統(tǒng)媒體所無法比擬的。越來越多的社會民眾通過社交網(wǎng)絡(luò)來表達(dá)想法或者傳播觀點,社交網(wǎng)絡(luò)具有交流便捷和傳播迅速的特點,信息通過級聯(lián)的擴(kuò)散形成了大規(guī)模的影響力傳播。

在大規(guī)模社交網(wǎng)絡(luò)中,精準(zhǔn)定位追蹤特定主題下的關(guān)鍵用戶,追蹤發(fā)現(xiàn)特定主題下關(guān)鍵用戶所形成的隱性的社區(qū)(隱蔽社區(qū)),有效提取、界定這些隱蔽社區(qū)的規(guī)模、所屬用戶的關(guān)系網(wǎng)絡(luò)、社區(qū)演變趨勢,對深入研究網(wǎng)絡(luò)特定主題與網(wǎng)絡(luò)人際關(guān)系、網(wǎng)絡(luò)特定主題與現(xiàn)實人際關(guān)系、網(wǎng)上下人際關(guān)系它們之間的內(nèi)在影響及規(guī)律,具有重要的理論及現(xiàn)實意義。

人們在社交網(wǎng)絡(luò)中所形成的關(guān)系,有顯性和隱性之分,顯性關(guān)系是指網(wǎng)絡(luò)交互行為所形成的鏈接關(guān)系,隱性關(guān)系是指不具有顯性鏈接關(guān)系的人們之間討論相同或相似的特定話題,所自發(fā)形成的群落。這些圍繞特定話題所形成的關(guān)系,成為近年來社交網(wǎng)絡(luò)關(guān)系研究的熱點問題,尤其是隱性關(guān)系的研究,更是成為研究的重點。

基于顯性鏈接關(guān)系的研究,主要集中在網(wǎng)絡(luò)社區(qū)劃分、發(fā)現(xiàn)相關(guān)的算法等方面,早期的社區(qū)結(jié)構(gòu)劃分算法主要有圖分割法(Graph Partition)和層次聚類法(Hierarchical Clustering,基于社會學(xué))兩大類,其中圖分割法以Kernighan-Lin算法和基于圖的Laplace矩陣特征值的譜平分法(Spectral Bisection Method)為代表,層次聚類是采用基于各個節(jié)點之間連接的相似性或者連接強度,將社交網(wǎng)絡(luò)進(jìn)行劃分,形成若干個社團(tuán)。此外,根據(jù)向 網(wǎng)絡(luò)中添加邊或是從網(wǎng)絡(luò)中移除邊的思路,社區(qū)劃分的方法又可以分為分裂方法(divisive method)和凝聚方法(agglomerative method)兩大類別。在上述的各種網(wǎng)絡(luò)劃分中,無論是GN算法(分裂算法)、快速社團(tuán)劃分算法(NF算法)、CNM算法,還是Informap算法通過在節(jié)點和邊線之間的動態(tài)信息流圖,來描述整個全網(wǎng)的狀態(tài),都是在基于圖的拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上,通過度中心性、接近中心性、介數(shù)中心性、特征向量中心性等來計算節(jié)點用戶的重要程度,劃分用戶之間的鏈接關(guān)系。但拓?fù)滏溄咏Y(jié)構(gòu)劃分特定主題下的用戶,并不能有效的發(fā)現(xiàn)興趣相似的用戶群體及其所形成的隱性社區(qū)。

基于不同的研究角度,也有研究者從信息傳播模型出發(fā),在社交網(wǎng)絡(luò)中模擬信息傳播,根據(jù)傳播的范圍來采用蒙特卡洛模擬的方式進(jìn)行節(jié)點影響力的評估;基于信息擴(kuò)散的角度,以粉絲規(guī)模數(shù)、轉(zhuǎn)發(fā)規(guī)模數(shù)、提及規(guī)模數(shù)來評價單個用戶的影響力,Domingos等人提出社交網(wǎng)絡(luò)中個人的網(wǎng)絡(luò)影響力最大化,從該節(jié)點出發(fā)的信息能傳播到達(dá)的最大范圍。Weng等人基于PageRank的思想提出了TwitterRank算法,采用了綜合Twitter的Topic和發(fā)布頻率的方式改進(jìn)了概率轉(zhuǎn)移矩陣(也即是用戶在某Topic下發(fā)表的tweets越多,轉(zhuǎn)移概率就越大)。下面就本發(fā)明中關(guān)鍵詞語定義如下:

面向特定主題的隱蔽社區(qū):是指在社交網(wǎng)絡(luò)中,那些不具有顯性鏈接關(guān)系的用戶討論主題下系列話題,所自發(fā)形成的隱性群落,他們彼此之間沒有直接的鏈接關(guān)系或可能并不知道對方的存在。

關(guān)鍵核心用戶:是指在討論主題下系列話題,促使隱性社區(qū)自發(fā)形成的過程中,話題積極的發(fā)起者、推動者或組織者,便為此特定主題下隱蔽社區(qū)中的關(guān)鍵核心用戶。

主題:主題由一系列話題組成,一個主題可以包含一個或多個話題。話題由關(guān)鍵詞來進(jìn)行表示。

核心交際圈:是指由這些隱蔽社區(qū)中的關(guān)鍵核心用戶所構(gòu)成的虛擬鏈接關(guān)系網(wǎng)絡(luò),稱為特定主題下的隱蔽社區(qū)核心交際圈,即為整個隱蔽社區(qū)結(jié)構(gòu)構(gòu)成中的框架。

綜上所述,目前社交網(wǎng)絡(luò)的研究工作主要集中在三個方面:以顯性的鏈接關(guān)系(拓?fù)浣Y(jié)構(gòu)關(guān)系)為主的社區(qū)劃分研究;以用戶發(fā)布的消息及頻率、用戶具有的屬性(profile、粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)等)來分析用戶所影響的范圍;以用戶發(fā)布的消息內(nèi)容分析用戶討論的話題及其話題模型建模。上述研究雖然涉及了基于鏈接關(guān)系的社區(qū)發(fā)現(xiàn)、用戶影響力及范圍、話題模型建模等技術(shù),但關(guān)于隱蔽社區(qū)定義及發(fā)現(xiàn)、關(guān)鍵核心用戶定義及提取、隱蔽社區(qū)核心交際 圈發(fā)現(xiàn)及提取三個方面的技術(shù)綜合應(yīng)用,尤其是隱蔽社區(qū)核心交際圈發(fā)現(xiàn)及提取技術(shù),是目前的研究空白。

另外,目前對消息內(nèi)容相似的判定方法有基于串匹配技術(shù)的文本掃描策略(主要用于英文),盡管該方法處理速度快,但是其存在精度不高的缺點,并不適用于中文信息處理,對中文信息的處理采用統(tǒng)計和規(guī)則的方法,統(tǒng)計通常采用分詞或分詞后的詞頻、位置等信息統(tǒng)計,規(guī)則的采用語義、語法規(guī)則,無論采用哪一種方法,都是僅對文本內(nèi)容進(jìn)行處理,一般為長文本的處理,但對短消息尤其是推文內(nèi)容(通常不過140字),在進(jìn)行分詞、去除停用詞后,有意義的主題詞相對較少,比較稀疏,上述方法并不適合。



技術(shù)實現(xiàn)要素:

為了實現(xiàn)特定主題下的隱蔽社區(qū)發(fā)現(xiàn)和提取,本發(fā)明提出了一種面向特定主題的隱蔽社區(qū)核心交際圈檢測發(fā)現(xiàn)方法和系統(tǒng)。

本發(fā)明的系統(tǒng)包括:

關(guān)鍵核心用戶提取模塊,包括:

消息相似性分析模塊,用以對一特定主題消息內(nèi)容庫中的消息進(jìn)行相似性計算,并根據(jù)相似性對消息進(jìn)行分組,得到基于相似消息的消息組;

用戶聚合模塊,用以建立消息組中的消息與用戶的映射聚合;

核心用戶提取重構(gòu)模塊,用以根據(jù)用戶跨越消息組的個數(shù)對用戶進(jìn)行分組,然后對同時跨越同一消息組的用戶進(jìn)行合并,并根據(jù)消息組內(nèi)用戶合并的個數(shù)(活躍度)對用戶設(shè)定相應(yīng)的權(quán)值,然后再從合并后的用戶中以跨越一定消息組的個數(shù)為依據(jù),提取特定主題下的關(guān)鍵核心用戶;

關(guān)鍵核心用戶交際圈提取模塊,包括:用戶組關(guān)系模塊,用以提取關(guān)鍵核心用戶消息組用戶之間的虛擬關(guān)系;關(guān)鍵用戶關(guān)系模塊,用以提取關(guān)鍵核心用戶與關(guān)鍵核心用戶之間、關(guān)鍵核心用戶與消息組用戶之間的虛擬關(guān)系;

隱蔽社區(qū)發(fā)現(xiàn)模塊,包含用戶關(guān)系模塊,用以提取相似消息合并后的用戶及其關(guān)系;社區(qū)發(fā)現(xiàn)模塊,用以提取關(guān)鍵核心用戶消息組用戶所形成的隱蔽關(guān)系。

本發(fā)明的方法包括以下步驟:

1)建立特定主題消息內(nèi)容庫;針對特定的每一個主題設(shè)置一組關(guān)鍵詞列表,根據(jù)關(guān)鍵詞列表與原始的消息內(nèi)容進(jìn)行匹配,以建立特定主題消息內(nèi)容庫。

2)對特定主題內(nèi)容消息庫中的消息進(jìn)行相似性計算,并根據(jù)相似性對消息進(jìn)行分組;得 到基于相似消息的消息組;

3)建立消息組中的消息與用戶的映射;

4)根據(jù)用戶跨越消息組的個數(shù)對用戶進(jìn)行分組,然后對同時跨越同一消息組的用戶進(jìn)行合并,并對用戶設(shè)定相應(yīng)的權(quán)值,提取跨越一定個數(shù)消息組的用戶為特定主題下的關(guān)鍵核心用戶。

5)將以關(guān)鍵核心用戶為節(jié)點,提取兩兩互相鏈接的虛擬鏈接關(guān)系網(wǎng)為關(guān)鍵核心用戶的核心交際圈。

與傳統(tǒng)的拓?fù)浣M織結(jié)構(gòu)分析方法相比,由于通過按特定用戶的消息相似性判定分類、并進(jìn)行映射聚合,因而其對與主題相關(guān)的關(guān)鍵核心用戶能夠快速發(fā)現(xiàn)和提取。

附圖說明

圖1為本發(fā)明的系統(tǒng)部署圖

圖2為本發(fā)明的主體框架圖。

圖3為本發(fā)明的關(guān)鍵核心用戶交際圈和隱蔽社區(qū)發(fā)現(xiàn)處理流程圖。

圖4為本發(fā)明關(guān)鍵核心用戶提取的處理流程圖。

圖5為本發(fā)明實施例中某特定主題下隱蔽社區(qū)核心關(guān)鍵用戶與拓?fù)渖鐓^(qū)實驗結(jié)果的一映射圖。

圖6為本發(fā)明實施例中某特定主題下隱蔽社區(qū)核心關(guān)鍵用戶與拓?fù)渖鐓^(qū)實驗結(jié)果的另一映射圖

具體實施方式

為使本發(fā)明的上述特征和優(yōu)點能更明顯易懂,下文特舉實施例,并配合所附圖作詳細(xì)說明如下。

本系統(tǒng)的部署如圖1所示,首先對本發(fā)明的核心技術(shù)構(gòu)思進(jìn)行說明,如圖2所示,本發(fā)明的主體框架主要包含三個子框架模塊,社交網(wǎng)絡(luò)關(guān)鍵核心用戶發(fā)現(xiàn)及提取、特定主題下的隱蔽社區(qū)發(fā)現(xiàn)、特定主題下的隱蔽社區(qū)中關(guān)鍵人物核心交際圈發(fā)現(xiàn)。

本發(fā)明面向特定主題的關(guān)鍵核心用戶、隱蔽社區(qū)核心交際圈發(fā)現(xiàn)、隱蔽社區(qū)發(fā)現(xiàn)的處理流程,如圖3所示,包括以下步驟:

(一)建立特定主題消息內(nèi)容庫。首先在特定主題下建立一組關(guān)鍵詞列表,以關(guān)鍵詞列表為keywords,在原始消息庫中對消息內(nèi)容進(jìn)行匹配,提取與關(guān)鍵詞關(guān)聯(lián)的消息內(nèi)容、消息用 戶、消息發(fā)布時間、用戶的profile等屬性。

(二)將特定主題消息庫內(nèi)容進(jìn)行相似性計算,以消息的相似性進(jìn)行分組,得到基于相似消息的消息用戶組,并建立消息組用戶映射。即對分組的消息用戶,在同一組中進(jìn)行重復(fù)消息剔除、同組同一用戶合并,建立消息與用戶的多對一映射。

(三)將映射后的用戶組,以用戶跨越消息用戶組的個數(shù)(至少2個),對用戶組進(jìn)行分別合并。然后對同一消息組內(nèi)的重復(fù)用戶進(jìn)行合并,并對用戶設(shè)定相應(yīng)的權(quán)值,此時,對跨越一定個數(shù)消息組的用戶作為特定主題下的關(guān)鍵核心用戶。

(四)以關(guān)鍵核心用戶為節(jié)點,將關(guān)鍵核心用戶所在原有的相似消息用戶組進(jìn)行合并,淘汰掉關(guān)鍵核心用戶所在消息組之外的且消息組用戶低于2個的消息用戶,形成以關(guān)鍵核心用戶組為框架的,覆蓋所有關(guān)鍵核心用戶的特定主題的隱蔽社區(qū)。

(五)以關(guān)鍵核心用戶為節(jié)點,構(gòu)建關(guān)鍵核心用戶之間的虛擬關(guān)系網(wǎng)絡(luò)、關(guān)鍵核心用戶與其所在消息組用戶的虛擬關(guān)系網(wǎng)絡(luò),此時,以關(guān)鍵核心用戶為節(jié)點的兩兩互連的虛擬鏈接關(guān)系網(wǎng)便為關(guān)鍵核心用戶的核心交際圈。

(六)基于特定主題的關(guān)鍵核心用戶在隱蔽社區(qū)與拓?fù)渖鐓^(qū)的映射關(guān)系,提取關(guān)鍵核心用戶所在的拓?fù)潢P(guān)系所在社區(qū)結(jié)構(gòu)。

上述步驟(二)、(三)、(四)、(五)關(guān)鍵核心用戶和核心交際圈發(fā)現(xiàn)是本發(fā)明的核心。

關(guān)鍵用戶核心用戶提取過程主要從消息內(nèi)容的相似性進(jìn)行判定,基于相似消息組映射分類聚合用戶,并最終發(fā)現(xiàn)提取關(guān)鍵核心用戶。如圖4所示。

具體地,特定主題下的隱蔽社區(qū)中關(guān)鍵人物核心交際圈的提取步驟如下:

1)對社交網(wǎng)絡(luò)的所有的用戶消息相似性判斷、以消息的相似性進(jìn)行分組,得到基于相似消息的消息用戶組

2)對跨消息組用戶,基于跨消息組的個數(shù)進(jìn)行識別

3)對特定主題下的跨消息組用戶進(jìn)行識別

4)提取關(guān)鍵核心用戶,以關(guān)鍵核心用戶為節(jié)點,兩兩互連的虛擬鏈接關(guān)系為邊,構(gòu)建出關(guān)鍵核心用戶之間的虛擬鏈接關(guān)系

5)提取關(guān)鍵核心用戶的核心交際圈

特定主題下的隱蔽社區(qū)發(fā)現(xiàn)及提取的步驟如下:

1)以關(guān)鍵核心用戶為節(jié)點,提取與關(guān)鍵核心用戶所在消息組用戶及關(guān)系。

2)對同一用戶組中的重復(fù)用戶,基于消息的相似性進(jìn)行判定合并

3)對所有關(guān)鍵核心用戶所在的消息組用戶,進(jìn)行合并,形成特定主題下的隱蔽社區(qū)。

系統(tǒng)說明

面向特定主題的隱蔽社區(qū)系統(tǒng)由三個子框架模塊構(gòu)成,分為關(guān)鍵核心用戶提取模塊、關(guān)鍵核心用戶交際圈提取模塊、隱蔽社區(qū)發(fā)現(xiàn)模塊。

關(guān)鍵核心用戶提取模塊,包含消息相似性分析模塊、用戶聚合模塊、核心用戶提取重構(gòu)模塊等。其中,消息相似性分析模塊,用以對一特定主題消息內(nèi)容庫中的消息進(jìn)行相似性計算,并根據(jù)相似性對消息進(jìn)行分組,得到基于相似消息的消息組;用戶聚合模塊,用以建立消息組中的消息與用戶的映射;核心用戶提取重構(gòu)模塊,用以根據(jù)用戶跨越消息組的個數(shù)對用戶進(jìn)行分組,然后對同時跨越同一消息組的用戶進(jìn)行合并,并對用戶設(shè)定相應(yīng)的權(quán)值,以跨越一定個數(shù)消息組的用戶作為特定主題下的關(guān)鍵核心用。

關(guān)鍵核心交際圈提取模塊,包含用戶組關(guān)系模塊,用以提取關(guān)鍵核心用戶消息組用戶之間的虛擬關(guān)系;關(guān)鍵用戶關(guān)系模塊等,用以提取關(guān)鍵核心用戶與關(guān)鍵核心用戶之間、關(guān)鍵核心用戶與消息組用戶之間的虛擬關(guān)系。

隱蔽社區(qū)發(fā)現(xiàn)模塊,包含用戶關(guān)系模塊,用以提取相似消息合并后的用戶及其關(guān)系;社區(qū)發(fā)現(xiàn)模塊用以提取關(guān)鍵核心用戶消息組用戶所形成的隱蔽關(guān)系。

積極效果

理論分析

在社交網(wǎng)絡(luò)中,基于特定主題所形成的社交網(wǎng)絡(luò)社區(qū),通常以鏈接關(guān)系為基礎(chǔ),選取主題下討論相關(guān)話題的用戶,以他們的鏈接關(guān)系進(jìn)行拓展,以此提取發(fā)現(xiàn)社區(qū),在此過程中,哪些用戶是話題的組織者、參與者、推動者,僅靠鏈接關(guān)系無法進(jìn)行分析和界定,此外,通過鏈接關(guān)系拓展的用戶,也不一定是對討論話題感興趣的用戶,所提取的社區(qū),往往與主題事實社區(qū)具有較大的偏離,同時,以鏈接關(guān)系為基礎(chǔ),所劃分、提取社區(qū)中的用戶也不一定是話題相關(guān)的用戶,如何有效的發(fā)現(xiàn)話題相關(guān)的關(guān)鍵核心用戶、關(guān)鍵核心用戶的交際圈,以及以它們?yōu)楹诵牡碾[蔽社區(qū),具有非常重要的意義,下述實驗也全面的驗證了此分析中的理論判斷。

實驗效果

實施例:

數(shù)據(jù)集為采集系統(tǒng)采集的1G原始消息數(shù)據(jù),共2664802條網(wǎng)絡(luò)社交消息數(shù)據(jù),話題分為4個話題,每一個話題按與消息的相關(guān)度進(jìn)行初步篩選,分別用于話題的原始數(shù)據(jù)。每一個話題數(shù)據(jù)代表著一個話題集合。在此基礎(chǔ)上,按框架模型,進(jìn)行話題隱蔽社區(qū)關(guān)鍵核心用戶和核心交際圈的發(fā)現(xiàn)和提取,得到最終的實驗結(jié)果。

從圖5中可以看出,隱蔽社區(qū)用戶以話題為核,形成了特定主題下的多個社區(qū),社區(qū)以 關(guān)鍵核心用戶為核心,形成其組織結(jié)構(gòu),關(guān)鍵核心用戶在隱蔽社區(qū)中進(jìn)行話題的組織或發(fā)起,最少它也是話題的積極參與推動者,如*xin**、*cao**、L**等。另外也可以從映射的拓?fù)渖鐓^(qū)劃分來看,*cao**、L**也是大V用戶,屬于隱蔽社區(qū)與拓?fù)渖鐓^(qū)之間的重疊用戶,但從屬于隱蔽社區(qū)與拓?fù)渖鐓^(qū)它們之間的重疊用戶整體數(shù)量上來看,大部分關(guān)鍵核心用戶,在拓?fù)渖鐓^(qū)結(jié)構(gòu)中,其本身并不是大V用戶(粉絲多的用戶),大V用戶在話題中并不一定扮演關(guān)鍵組織或發(fā)起角色。

圖6中可以看出,隱蔽社區(qū)中的關(guān)鍵核心用戶如*BBC**、*RF**、de**等,在拓?fù)渖鐓^(qū)中并不是中心節(jié)點,也不是大V用戶,它們所構(gòu)成的隱蔽社區(qū),在拓?fù)渖鐓^(qū)劃分中,處于邊緣角色,也側(cè)面證明了隱蔽社區(qū)中關(guān)鍵用戶圈子,并不是大V用戶所構(gòu)成的拓?fù)淙ψ印?/p>

需說明的是,圖5和圖6中相關(guān)用戶名僅為示意,為避免侵犯用戶隱私,特做匿名處理,并不影響對技術(shù)方案的說明。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1