專利名稱:一種社交網(wǎng)絡重要目標及社區(qū)群體識別方法
技術領域:
本發(fā)明涉及社會計算技術領域,尤其是涉及一種社交網(wǎng)絡重要目標及社區(qū)群體識別方法。
背景技術:
隨著Web2. O的普及,社交網(wǎng)絡逐漸成為了人們工作生活中必不可少的部分。中國的互聯(lián)網(wǎng)普及率逐漸攀升至36. 2%。社交網(wǎng)絡中的Facebook在2011年底,用戶數(shù)量超過9億,這個數(shù)字比全球大多數(shù)國家的人口總數(shù)都要高。越來越多的人在社交網(wǎng)絡上通過不同的方式展現(xiàn)自己的工作、學習、生活。同時,伴隨著云平臺等相關技術的發(fā)展,人們可以在任意時間、任意地點、使用任意終端訪問到其使用的社交網(wǎng)絡平臺,在某種程度上獲得無差別的用戶體驗。然而,與世界其他地區(qū)的社交網(wǎng)絡平臺發(fā)展相比,中國地區(qū)的相關增長尤為顯著。Twitter從上線到達到2億用戶花費了 5年時間,而新浪微博僅僅通過兩年時間就達到 了同樣的規(guī)模。根據(jù)《2011年中國互聯(lián)網(wǎng)輿情分析報告》的有關數(shù)據(jù)顯示,截至2011年6月,中國網(wǎng)民規(guī)模已達4. 85億,中國互聯(lián)網(wǎng)普及率攀升至36. 2%,平均每人每天花費在網(wǎng)絡上的時間為2. 7小時,并且基于互聯(lián)網(wǎng)的社交網(wǎng)絡傳媒已經(jīng)成為覆蓋率僅次于傳統(tǒng)電視的大眾傳媒方式。目前社交網(wǎng)絡有多種劃分方式1)從好友的關系上劃分,可以分為無向好友關系,和有向好友關系。例如人人網(wǎng)等社交網(wǎng)絡平臺,其好友關系指互相關注的好友關系。建立好友關系的方式為,一方提出申請后,倘若另一方接受申請,則雙方成為好友。而GooglePlUS、Twitter、新浪微博等社交網(wǎng)絡平臺則是用戶單方面關注其他用戶即可。2)從內容上進行劃分,主要分為短文本模式和富文本模式。例如Facebook、人人網(wǎng)、Google Plus等社交網(wǎng)絡平臺中的內容就是富文本格式。用戶可以在社交網(wǎng)絡平臺上創(chuàng)作或者分享文字、圖片、音頻、視頻等各種各樣的信息。而以Twitter和新浪微博等社交網(wǎng)絡平臺為例,則主要是由短文本的信息組成。但是隨著時間的推移,這些劃分的界限在不斷變得模糊起來。本發(fā)明主要研究社交網(wǎng)絡平臺下的基于核心用戶的社群發(fā)現(xiàn)。社交網(wǎng)絡是基于用戶關系實現(xiàn)信息的分享、獲取以及傳播的互聯(lián)網(wǎng)平臺。用戶利用社交網(wǎng)絡構建和維持著自身的人際網(wǎng)絡關系,并在相關平臺上發(fā)布消息。社交網(wǎng)絡的定位在于為用戶提供一個展示自己、宣傳自己的平臺。每個用戶都是一個獨立的信息發(fā)布中心。但是用戶之間可以通過轉載、評論、互相@等方式進行互動。社交網(wǎng)絡平臺有著以下特點1)社交網(wǎng)絡的好友關系為可單向的關注關系。這一特點導致名人、明星等公眾人士被大量用戶關注,從而使得這些公眾用戶的信息傳播到許多潛在的社群中。2)普通用戶可以通過私信、評論、轉發(fā)、轉評等各種方式直接和影響力較大的用戶進行互動。3)隨著移動互聯(lián)網(wǎng)的快速發(fā)展,越來越多的人使用移動終端訪問。社交網(wǎng)絡的數(shù)據(jù)擁有了地理位置屬性,便于對數(shù)據(jù)進行分析。隨著社交網(wǎng)絡在人們日常生活中的影響力越來越大,有很多社群逐漸在社交網(wǎng)絡平臺產(chǎn)生。這些社群產(chǎn)生的方式主要有以下幾種類型1)現(xiàn)實生活中的朋友在社交網(wǎng)絡平臺上自然的形成社群。2)基于某些興趣、愛好在網(wǎng)絡中形成社群。例如明星的粉絲、球迷等會形成不同的社群。3)基于某些話題形成的社群。這些話題可能是某些政治話題或是突然爆發(fā)的事件,使一些人暫時的聚集到一起。在社群中,通常都有部分核心用戶。這些核心用戶有的作為意見領袖發(fā)布原創(chuàng)信息,有的作為推手,將信息傳播出去或者拉攏新人進入社群。整個社群圍繞核心用戶進行不斷發(fā)展、演變。本專利的主要目標是在社交網(wǎng)絡平臺下,基于已知的一個或多個核心用戶,快速識別社交網(wǎng)絡社群。社群發(fā)現(xiàn)有許多應用領域,如在商業(yè)上,可以發(fā)現(xiàn)潛在的用戶社群或者競爭對手的用戶社群,從而對雙方的口碑進行比對。在政治上,社群發(fā)現(xiàn)可以用來尋找反動勢力在社交網(wǎng)絡平臺上的圈子,監(jiān)控其對輿論的引導,或者準備展開的行動。1、在線社交網(wǎng)絡及社交網(wǎng)絡分析在線社交網(wǎng)絡是網(wǎng)絡與社會關系的結合。其中社會關系是社會個體成員之間以互 動聯(lián)系而形成的相對穩(wěn)定的關系體系。在線社交網(wǎng)絡可以看成線下社交網(wǎng)絡向線上的遷移,我們可以借用一些社交網(wǎng)絡的分析方法和理論來對其進行研究。社交網(wǎng)絡分析法主要是研究一組行為者(actor)之間關系的方法。它主要分為兩種流派網(wǎng)絡結構分析和個體行為分析。社交網(wǎng)絡分析法得出的最重要的兩個理論是“六度分割理論”和“ 150法則”。2、復雜網(wǎng)絡復雜網(wǎng)絡的系統(tǒng)研究源于20世紀60年代匈牙利數(shù)學家EniSs和R6nyi建立的隨機圖理論。隨著小世界和無尺度網(wǎng)絡模型在20世紀末被提出,人們對來自不同領域的大量實際網(wǎng)絡進行了廣泛的實證性研究,復雜網(wǎng)絡也逐漸成為各個學科和領域研究的熱點。目前對于復雜網(wǎng)絡沒有一個精確嚴格的定義,錢學森曾經(jīng)給出復雜網(wǎng)絡一個較為嚴格的定義具有自組織、自相似、吸引子、小世界、無標度中部分或者全部特性的網(wǎng)絡稱為復雜網(wǎng)絡。3、在線社交網(wǎng)絡隨著互聯(lián)網(wǎng)的發(fā)展,人們的交流方式逐漸由線下向線上轉移,形成了在線的社交網(wǎng)絡。歷史研究已經(jīng)證明,在線社交網(wǎng)絡是復雜網(wǎng)絡的一種具體表現(xiàn)形式。所以,在線社交網(wǎng)絡和復雜網(wǎng)絡有很多共同的地方。二者都是通過網(wǎng)絡的概念來描述被研究的對象和對象之間的關系,所以可以基于復雜網(wǎng)絡理論對在線社交網(wǎng)絡的結構特性進行分析。根據(jù)復雜網(wǎng)絡的小世界特性所描述,復雜網(wǎng)絡是由許多子網(wǎng)絡構成的,這些子網(wǎng)絡內部個體間的關系比較緊密,而子網(wǎng)絡與子網(wǎng)絡之間的關系則相對分離。這一現(xiàn)象在在線社交網(wǎng)絡中尤其常見。在線社交網(wǎng)絡中的每個個體都可以看成是一個網(wǎng)絡節(jié)點,而個體之間的聯(lián)系是網(wǎng)絡的邊。根據(jù)六度分割理論,每個個體的社交圈都被不斷放大,最后形成了一個大型的在線社交網(wǎng)絡。復雜網(wǎng)絡的無標度特征主要是考察網(wǎng)絡節(jié)點度的分布情況,而對于在線社交網(wǎng)絡來講,節(jié)點的度即反映了網(wǎng)絡成員個體的交際能力,一般而言,節(jié)點的度越大,說明該個體連接的其他網(wǎng)絡成員越多,反映其交際能力越強。但是相對于復雜網(wǎng)絡研究往往從數(shù)學理論層面解釋和處理問題,在線社交網(wǎng)絡更側重于研究用戶和用戶之間的行為關系。隨著計算機技術的飛速發(fā)展,人們開始利用計算機來分析大規(guī)模的社交網(wǎng)絡。同時引入了圖論的相關概念,使用社會關系圖來反映社會結構的關系屬性
發(fā)明內容
本發(fā)明主要目標在于解決針對微博等社交網(wǎng)絡新型平臺的重要目標識別與分析。使得相關部門和機構能夠在社交網(wǎng)絡平臺上實現(xiàn)對重要目標及其群體的識別與監(jiān)控。本發(fā)明的技術方案為一種社交網(wǎng)絡重要目標及社區(qū)群體識別方法,包括以下步驟,步驟1,根據(jù)種子用戶進行社交網(wǎng)絡數(shù)據(jù)采集;步驟2,基于采集到的社交網(wǎng)絡中用戶對象之間的關注關系,構建用戶對象靜態(tài)的關系網(wǎng)絡;
步驟3,根據(jù)用戶對象之間的動態(tài)消息傳遞互動構建消息網(wǎng)絡,將關系網(wǎng)絡和消息網(wǎng)絡進行合并形成混合社交網(wǎng)絡拓撲;混合社交網(wǎng)絡拓撲中的節(jié)點是社交網(wǎng)絡的用戶對象,節(jié)點之間的有向邊表示兩個節(jié)點之間既有關注關系又有消息互動關系;步驟4,計算每個用戶對象在混合社交網(wǎng)絡拓撲中的影響力;步驟5,根據(jù)用戶對象的影響力得到重要目標及社區(qū)群體識別結果。而且,步驟I中根據(jù)種子用戶進行社交網(wǎng)絡數(shù)據(jù)采集時,數(shù)據(jù)來源包括對原始數(shù)據(jù)源的導出、基于社交網(wǎng)絡API的數(shù)據(jù)爬取和基于網(wǎng)頁的數(shù)據(jù)爬取。而且,步驟2的實現(xiàn)方式為,I)將種子用戶作為核心用戶依次加入靜態(tài)的關系網(wǎng)絡;2)通過廣度優(yōu)先的方式,依次逐層將核心用戶的關注用戶作為新的核心用戶加入靜態(tài)的關系網(wǎng)絡,直至靜態(tài)的關系網(wǎng)絡中的核心用戶達到上限,或者擴展層次達到閾值。而且,混合社交網(wǎng)絡拓撲中每個節(jié)點的屬性包括粉絲數(shù)目、用戶活躍度以及用戶互動程度;以混合社交網(wǎng)絡拓撲中某節(jié)點m為當前用戶,用戶互動程度的初始計算如公式I所示W(wǎng)eight (Nm) *= α X Cm+ β X RTnormalNm+ Y X RTkeyNm I 彡 m 彡 M (公式 I)其中,M為混合社交網(wǎng)絡拓撲中節(jié)點總數(shù),m的取值為1,2,-M ; α為單次原創(chuàng)的權重,β為當前用戶與非種子用戶進行交互的權重,Y為當前用戶與種子用戶進行交互的權重,Ci為當前用戶原創(chuàng)數(shù)量,RTnmiam為當前用戶與非種子用戶之間的轉發(fā)或評論量,RTkeym為當前用戶與種子用戶之間的轉發(fā)或評論量;對用戶互動程度的初始計算結果進行歸一化處理,歸一化計算公式如公式2 Weight (Nm) =Iog (Weight (Nm) *+MInPeR) /log (MinPr+MaxPr) (公式 2)其中,MaxPr=Max(Weitght(Nm)*)是混合社交網(wǎng)絡拓撲中各節(jié)點用戶互動程度中的最大值,MinPr=Min (Weight (NmD是混合社交網(wǎng)絡拓撲中各節(jié)點用戶互動程度中的最小值,MInPeR為預設的平滑參數(shù)。而且,步驟4的實現(xiàn)方式包括以下子步驟,步驟4.1,設V表示混合社交網(wǎng)絡拓撲中的任一節(jié)點處用戶對象,用戶對象V在混合社交網(wǎng)絡拓撲的好友集合f (V)中任一網(wǎng)絡好友記為用戶對象u,D(Nv)表示依據(jù)用戶對象V與用戶對象u的關注關系得到的最終中心度,B (Nv)是用戶對象V的活躍度,We i ght (Nv)是用戶對象V與用戶對象u的互動程度;步驟4. 2,設用戶對象u在混合社交網(wǎng)絡拓撲的好友集合f (U)中任一網(wǎng)絡好友記為用戶對象i,用戶對象u的好友集合f (U)中所有網(wǎng)絡好友數(shù)目記為n,混合社交網(wǎng)絡拓撲中用戶對象V的好友集合f (V)中的任一網(wǎng)絡好友U分配給V的IR值R (U,V)表示為公式3,
權利要求
1.一種社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于包括以下步驟,步驟1,根據(jù)種子用戶進行社交網(wǎng)絡數(shù)據(jù)采集;步驟2,基于采集到的社交網(wǎng)絡中用戶對象之間的關注關系,構建用戶對象靜態(tài)的關系網(wǎng)絡;步驟3,根據(jù)用戶對象之間的動態(tài)消息傳遞互動構建消息網(wǎng)絡,將關系網(wǎng)絡和消息網(wǎng)絡進行合并形成混合社交網(wǎng)絡拓撲;混合社交網(wǎng)絡拓撲中的節(jié)點是社交網(wǎng)絡的用戶對象,節(jié)點之間的有向邊表示兩個節(jié)點之間既有關注關系又有消息互動關系;步驟4,計算每個用戶對象在混合社交網(wǎng)絡拓撲中的影響力;步驟5,根據(jù)用戶對象的影響力得到重要目標及社區(qū)群體識別結果。
2.根據(jù)權利要求1所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于步驟I 中根據(jù)種子用戶進行社交網(wǎng)絡數(shù)據(jù)采集時,數(shù)據(jù)來源包括對原始數(shù)據(jù)源的導出、基于社交網(wǎng)絡API的數(shù)據(jù)爬取和基于網(wǎng)頁的數(shù)據(jù)爬取。
3.根據(jù)權利要求1所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于步驟2 的實現(xiàn)方式為,I)將種子用戶作為核心用戶依次加入靜態(tài)的關系網(wǎng)絡;2)通過廣度優(yōu)先的方式,依次逐層將核心用戶的關注用戶作為新的核心用戶加入靜態(tài)的關系網(wǎng)絡,直至靜態(tài)的關系網(wǎng)絡中的核心用戶達到上限,或者擴展層次達到閾值。
4.根據(jù)權利要求1所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于混合社交網(wǎng)絡拓撲中每個節(jié)點的屬性包括粉絲數(shù)目、用戶活躍度以及用戶互動程度;以混合社交網(wǎng)絡拓撲中某節(jié)點m為當前用戶,用戶互動程度的初始計算如公式I所示W(wǎng)eight (Nffl) *= α X Cm+ β X RTnormalNffl+ y X RTkeyNm I 彡 m 彡 M (公式 I)其中,M為混合社交網(wǎng)絡拓撲中節(jié)點總數(shù),m的取值為1,2,…M ; α為單次原創(chuàng)的權重, β為當前用戶與非種子用戶進行交互的權重,Y為當前用戶與種子用戶進行交互的權重, Ci為當前用戶原創(chuàng)數(shù)量,RTnorfflalm為當前用戶與非種子用戶之間的轉發(fā)或評論量,RTkeym為當前用戶與種子用戶之間的轉發(fā)或評論量;對用戶互動程度的初始計算結果進行歸一化處理,歸一化計算公式如公式2 Weight (Nm) =Iog (Weight (Nm) *+MInPeR) /log (MinPr+MaxPr) (公式 2)其中,MaxPr=Max(Weitght(Nm)*)是混合社交網(wǎng)絡拓撲中各節(jié)點用戶互動程度中的最大值,MinPr=Min (Weight (Nm) *)是混合社交網(wǎng)絡拓撲中各節(jié)點用戶互動程度中的最小值, MInPeR為預設的平滑參數(shù)。
5.根據(jù)權利要求1所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于步驟4 的實現(xiàn)方式包括以下子步驟,步驟4. 1,設V表示混合社交網(wǎng)絡拓撲中的任一節(jié)點處用戶對象,用戶對象V在混合社交網(wǎng)絡拓撲的好友集合f (V)中任一網(wǎng)絡好友記為用戶對象u,D(Nv)表示依據(jù)用戶對象V與用戶對象u的關注關系得到的最終中心度,B(Nv)是用戶對象V的活躍度,Weight (Nv)是用戶對象V與用戶對象U的互動程度;步驟4. 2,設用戶對象u在混合社交網(wǎng)絡拓撲的好友集合f (U)中任一網(wǎng)絡好友記為用戶對象i,用戶對象u的好友集合f (U)中所有網(wǎng)絡好友數(shù)目記為n,混合社交網(wǎng)絡拓撲中用戶對象V的好友集合f (V)中的任一網(wǎng)絡好友U分配給V的IR值R (U,V)表示為公式3,
6.根據(jù)權利要求1所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于步驟5 的實現(xiàn)方式為,將每個用戶對象在在混合社交網(wǎng)絡拓撲中的影響力映射到[O,10]的區(qū)間上,并從大到小進行排序,形成結果網(wǎng)絡,結果網(wǎng)絡中排序靠前的用戶對象為重要目標,結果網(wǎng)絡提供基于種子用戶所形成的社區(qū)群體。
7.根據(jù)權利要求1或2或3或4或5或6所述社交網(wǎng)絡重要目標及社區(qū)群體識別方法,其特征在于當用戶設定結果網(wǎng)絡中某個或某幾個用戶對象為噪聲節(jié)點后,重新執(zhí)行步驟2構建初始靜態(tài)社交網(wǎng)絡,刪除噪聲節(jié)點以及其他用戶對象與噪聲節(jié)點之間連接的邊; 然后重新執(zhí)行步驟3、4、5和6進行二次分析,得到去噪后的結果網(wǎng)絡。
全文摘要
本發(fā)明提供一種社交網(wǎng)絡重要目標及社區(qū)群體識別方法,首先將用戶的靜態(tài)好友網(wǎng)絡和活動網(wǎng)絡結合起來構建動態(tài)社交網(wǎng)絡拓撲;其次提出InfluenceRank算法,對動態(tài)社交網(wǎng)絡中的用戶影響力進行綜合打分,降低和核心用戶交互頻率低的用戶的權值;同時,引入用戶的先驗專家知識,刪除核心噪聲點,從而對結果進行修正。本發(fā)明從準確度、覆蓋度、效率三個方面對現(xiàn)有社群發(fā)現(xiàn)技術進行了非常有效的改進,在社會計算、輿情監(jiān)控、企業(yè)營銷推廣等方面有著廣泛的應用前景。
文檔編號H04L29/08GK103024017SQ20121051442
公開日2013年4月3日 申請日期2012年12月4日 優(yōu)先權日2012年12月4日
發(fā)明者彭敏, 武斌, 汪清, 黃佳佳, 代心媛 申請人:武漢大學