本發(fā)明涉及信息傳播檢測(cè)方法,特別涉及一種社交網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)的選擇方法。
背景技術(shù):
社會(huì)網(wǎng)絡(luò)(socialnetwork)是指社會(huì)個(gè)體之間通過(guò)社會(huì)關(guān)系結(jié)成的復(fù)雜網(wǎng)絡(luò)體系,它由社會(huì)中的個(gè)體以及個(gè)體之間的關(guān)系組成。近幾年,以twitter、facebook、微博、微信等為代表的在線社會(huì)網(wǎng)絡(luò)迅速發(fā)展,基于社會(huì)網(wǎng)絡(luò)的信息傳播(informationdiffusion)也越來(lái)越深入和廣泛,傳播對(duì)象包括新聞事件、社會(huì)熱點(diǎn)、時(shí)尚潮流,或者新發(fā)明、新創(chuàng)造、新思想,也有可能是網(wǎng)絡(luò)謠言等等。社會(huì)網(wǎng)絡(luò)中的信息傳播與傳統(tǒng)媒介中的信息傳播相比,呈現(xiàn)出大規(guī)模性、多模態(tài)性、實(shí)時(shí)性、快速性等特點(diǎn),其對(duì)經(jīng)濟(jì)社會(huì)和國(guó)家公共安全的影響越來(lái)越深入。在2011年爆發(fā)的“埃及革命”中,不法分子利用twitter和facebook等社會(huì)網(wǎng)絡(luò)或媒體大肆造謠,煽動(dòng)民意,傳播惡意信息并組織犯罪活動(dòng),在社交媒體的推波助瀾下,騷亂被極度放大并快速演變。在2013年4月四川“雅安地震”爆發(fā)后,微博成為最有力的信息傳播媒體,各類(lèi)政務(wù)微博、意見(jiàn)領(lǐng)袖、草根賬號(hào)等充分利用微博的信息擴(kuò)散能力,發(fā)布地震救援提示,為抗震救災(zāi)發(fā)揮積極作用.但是另一方面,也有不法分子利用微博傳播謠言,欺騙公眾,造成社會(huì)不安和民眾恐慌,帶來(lái)極壞的后果.對(duì)于社會(huì)網(wǎng)絡(luò)中的信息傳播,如何快速獲取其中的信息傳播態(tài)勢(shì),及時(shí)發(fā)現(xiàn)當(dāng)前流行的熱點(diǎn)事件或不良社會(huì)思潮,成為亟待解決的問(wèn)題,這對(duì)于輿情監(jiān)控和維護(hù)國(guó)家公共安全具有重要意義。對(duì)于大規(guī)模社會(huì)網(wǎng)絡(luò)和海量數(shù)據(jù)信息,為了降低檢測(cè)成本的同時(shí)保證檢測(cè)效果通常會(huì)選取傳播網(wǎng)絡(luò)中有限的節(jié)點(diǎn)作為觀察節(jié)點(diǎn),通過(guò)跟蹤這些觀察節(jié)點(diǎn)的狀態(tài)變化或分析其發(fā)布的信息來(lái)檢測(cè)整個(gè)網(wǎng)絡(luò)中的信息傳播態(tài)勢(shì)。
在本發(fā)明作出之前,近幾年,有些研究學(xué)者已經(jīng)對(duì)信息傳播檢測(cè)方法進(jìn)行了研究,如:文獻(xiàn)physicalreviewletters,2012,109(6)中刊登的“l(fā)ocatingthesourceofdiffusioniniargescalenetwork”對(duì)網(wǎng)絡(luò)中如何確定信息傳播源進(jìn)行了研究,通過(guò)在網(wǎng)絡(luò)中稀疏地布置傳感器,獲得觀察節(jié)點(diǎn)感染信息的不同時(shí)間,文章給出一個(gè)有效算法,對(duì)任意樹(shù)狀傳播網(wǎng)絡(luò)可以在o(n)時(shí)間內(nèi),對(duì)于任意傳播圖可以在o(n3)時(shí)間內(nèi)以一定的精度確定信息傳播源。proceedingsofthe10thacmconferenceonelectroniccommerce刊登的“a.socialinfluenceandthediffusionofusercreatedcontent”對(duì)信息傳播的早期接受者(earlyadopter)研究表明,這些人通常不具有很多的關(guān)注者(節(jié)點(diǎn)入度較小),他們的社交網(wǎng)絡(luò)在線時(shí)間也低于平均在線時(shí)間.the18thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining刊登的“”研究了趨勢(shì)發(fā)起者(trendsetter)的特點(diǎn),趨勢(shì)發(fā)起者是網(wǎng)絡(luò)中出現(xiàn)的熱點(diǎn)趨勢(shì)的早期接受者和傳播者,文章結(jié)合時(shí)間演化因素,基于pagerank思想,給出了一個(gè)挖掘不同話題領(lǐng)域趨勢(shì)發(fā)起者的算法.the13thacmsigkddinternationalconferenceonknowledgediscoveryanddatamining上刊登的“costeffectiveoutbreakdetectioninnetworks”針對(duì)博客網(wǎng)絡(luò)中信息暴發(fā)檢測(cè)(outbreakdetection)提出了基于次模特性(submodularity)的貪心算法celf。文章將信息檢測(cè)問(wèn)題抽象為一組需要最大化的目標(biāo)函數(shù)r(a),a表示需要部署傳感器的觀察節(jié)點(diǎn)集合。r(a)可以是由k個(gè)節(jié)點(diǎn)檢測(cè)到的信息傳播級(jí)聯(lián)的數(shù)量,或者由此帶來(lái)的信息傳播感染人數(shù)的減少量.文章證明了r(a)具有次模特性,基于此提出一個(gè)啟發(fā)式貪心算法celf.chinesejournalofcomputers上刊登的“anovelalgorithmforinformationdiffusiondetectioninsocialnetwork”提出一種傳播能力排序算法diffrank,根據(jù)算法結(jié)果選取傳播能力最強(qiáng)的k個(gè)節(jié)點(diǎn)作為觀察節(jié)點(diǎn)來(lái)檢測(cè)整體網(wǎng)絡(luò)信息傳播態(tài)勢(shì),
在現(xiàn)有的相關(guān)研究中,大部分算法以對(duì)社會(huì)網(wǎng)絡(luò)中的關(guān)系結(jié)構(gòu)為出發(fā)點(diǎn),忽略了交互結(jié)構(gòu),無(wú)法達(dá)到令人滿意的效果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就在于克服上述缺陷,提供一種社交網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)的選擇方法。
本發(fā)明的技術(shù)方案是:
一種社交網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)的選擇方法,其主要技術(shù)特征是:
4)定義話題相似性,關(guān)鍵詞相似性,并建立“用戶-話題-關(guān)鍵詞”三個(gè)層次的用戶話題興趣偏好模型;
5)融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方法;
6)基于隨機(jī)游走策略的社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)排序方法。
所述建立“用戶-話題-關(guān)鍵詞”三個(gè)層次的用戶話題興趣偏好模型,其步驟:
1)從社會(huì)網(wǎng)絡(luò)的日志文件中獲得每個(gè)用戶發(fā)布和接收的話題信息;
2)如果兩個(gè)用戶之間進(jìn)行了通信,則產(chǎn)生一條從發(fā)送用戶到被發(fā)送用戶的有向邊;
3)當(dāng)話題中包含一個(gè)關(guān)鍵詞時(shí),則從主題到該關(guān)鍵詞產(chǎn)生一條無(wú)向邊;
4)用戶發(fā)布一個(gè)主題,則從用戶到話題建立一條有向連邊,如果用戶接收一個(gè)話題,則從話題到用戶建立一條有向連邊;
5)定義話題的相似性,如果兩個(gè)話題的相似性超過(guò)閾值則以這兩個(gè)主題為端點(diǎn),建立一條無(wú)向邊;
6)定義關(guān)鍵詞的相似性,如果兩個(gè)關(guān)鍵詞的相似性超過(guò)閾值則以這兩個(gè)關(guān)鍵詞為端點(diǎn),建立一條無(wú)向邊。
所述融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方法步驟是:
1)給出用戶結(jié)構(gòu)相似性的計(jì)算方法;
2)給出用戶話題偏好相似性的計(jì)算方法;
3)給出融合用戶結(jié)構(gòu)相似性和用戶話題偏好相似性的社會(huì)網(wǎng)絡(luò)用戶節(jié)點(diǎn)的相似性計(jì)算方法。
所述基于隨機(jī)游走策略的社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)排序方法,具體包括步驟:
1)給出信息傳播概率的定義和計(jì)算公式;
2)結(jié)合用戶節(jié)點(diǎn)相似度和節(jié)點(diǎn)間傳播概率生成傳播概率圖及轉(zhuǎn)移概率矩陣;
3)在傳播概率圖上進(jìn)行有偏隨機(jī)游走,得到每個(gè)節(jié)點(diǎn)的傳播能力度量。
針對(duì)以上情況,本發(fā)明從社會(huì)網(wǎng)絡(luò)信息傳播的角度出發(fā),提出一種融合節(jié)點(diǎn)結(jié)構(gòu)關(guān)系和節(jié)點(diǎn)話題偏好的用戶節(jié)點(diǎn)重要性排序方法。
本發(fā)明的優(yōu)點(diǎn)在于:社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)的選擇綜合考慮了用戶結(jié)構(gòu)相似性和用戶話題偏好相似性,可以根據(jù)不同的社會(huì)網(wǎng)絡(luò)動(dòng)態(tài)的調(diào)整平衡參數(shù),具有更好的檢測(cè)效率,并從社會(huì)網(wǎng)絡(luò)中的關(guān)系結(jié)構(gòu)和交互結(jié)構(gòu)共同促進(jìn)網(wǎng)絡(luò)演化方面為基礎(chǔ),從更深層次考慮社會(huì)網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)和交互結(jié)構(gòu)的關(guān)系問(wèn)題,取得了比較滿意的效果。
附圖說(shuō)明
圖1——本發(fā)明流程示意圖。
圖2——本發(fā)明建立用戶話題偏好模型示意圖。
具體實(shí)施方式
本發(fā)明的技術(shù)思路是:
1998提出了著名的pagerank算法,該算法用于對(duì)網(wǎng)絡(luò)頁(yè)面節(jié)點(diǎn)的重要性進(jìn)行排序,并成功應(yīng)用該算法創(chuàng)立了google搜索引擎。該算法主要利用了馬爾可夫隨機(jī)游走模型,為了將網(wǎng)頁(yè)與該隨機(jī)游走模型對(duì)應(yīng),將網(wǎng)頁(yè)與模型中的粒子對(duì)應(yīng),將網(wǎng)頁(yè)的有向鏈接結(jié)構(gòu)與粒子前進(jìn)對(duì)應(yīng),這樣網(wǎng)頁(yè)的鏈接跳轉(zhuǎn)概率就被成功地轉(zhuǎn)換為了粒子前進(jìn)的概率轉(zhuǎn)移。因?yàn)椴煌木W(wǎng)頁(yè)節(jié)點(diǎn)具有不同的中心度和影響力,因此網(wǎng)頁(yè)節(jié)點(diǎn)在馬爾可夫隨機(jī)游走模型下獲得的點(diǎn)擊概率也可能不同,依據(jù)不同的點(diǎn)擊概率來(lái)對(duì)網(wǎng)頁(yè)節(jié)點(diǎn)進(jìn)行排名是pagerank的主要思想。研究表明具有較高節(jié)點(diǎn)入度的節(jié)點(diǎn)并不一定具有很大的影響力。通過(guò)這些方法通常找到的是網(wǎng)絡(luò)中的核心節(jié)點(diǎn),或是某領(lǐng)域的“意見(jiàn)領(lǐng)袖”。社會(huì)網(wǎng)絡(luò)中的信息傳播受節(jié)點(diǎn)影響力的影響,但是影響力最大并不一定就表示傳播能力最強(qiáng),因?yàn)橛绊懥Ψ治鏊惴](méi)有考慮節(jié)點(diǎn)對(duì)各種信息流的參與程度及發(fā)布文章或傳播信息的規(guī)模等因素。現(xiàn)有的算法對(duì)社會(huì)網(wǎng)絡(luò)中的關(guān)系結(jié)構(gòu)和交互結(jié)構(gòu)共同促進(jìn)網(wǎng)絡(luò)演化方面考慮不足,沒(méi)有從更深層次考慮社會(huì)網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)和交互結(jié)構(gòu)的關(guān)系問(wèn)題。
本發(fā)明的主要技術(shù)特征體現(xiàn)在:
1)建立“用戶-話題-關(guān)鍵詞”三個(gè)層次的用戶話題興趣偏好模型
具體技術(shù)路線是:1.用戶、話題和關(guān)鍵詞的相互關(guān)聯(lián)關(guān)系在它們之間建立邊;2.通過(guò)“用戶-話題-關(guān)鍵詞”三個(gè)層次的用戶話題興趣偏好模型可以完整地保存用戶的所有信息,為后續(xù)分析提供了基礎(chǔ)。
2)設(shè)計(jì)融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方法。
具體技術(shù)路線:1.定義用戶結(jié)構(gòu)相似性的計(jì)算公式;2.定義用戶話題偏好相似性的計(jì)算公式;3.設(shè)定權(quán)衡參數(shù)來(lái)定義融合用戶結(jié)構(gòu)相似性和用戶話題偏好相似性的社會(huì)網(wǎng)絡(luò)用戶節(jié)點(diǎn)的相似性計(jì)算方法。
下面具體說(shuō)明本發(fā)明,其流程如“圖1——本發(fā)明流程示意圖”所示。
1)定義主題相似性,關(guān)鍵詞相似性,并建立“用戶-話題-關(guān)鍵詞”三個(gè)層次的用戶話題興趣偏好模型
用戶信息傳播分析建立在一個(gè)用戶話題興趣偏好模型中,然后利用網(wǎng)絡(luò)分析方法對(duì)其進(jìn)行分析,具體的建立“用戶-話題-關(guān)鍵詞”三個(gè)層次用戶話題興趣偏好模型的方法步驟如下:
●從社會(huì)網(wǎng)絡(luò)網(wǎng)站的日志文件中獲取每個(gè)用戶的活動(dòng)信息,包括:通信信息、發(fā)送和接收話題信息等;
●建立一個(gè)三個(gè)層次的網(wǎng)絡(luò)模型,網(wǎng)絡(luò)中的節(jié)點(diǎn)包括:用戶、話題和關(guān)鍵詞,示意圖如“圖2——本發(fā)明建立用戶話題偏好模型示意圖”所示。
●節(jié)點(diǎn)之間的連接包括以下幾種情況:a)如果兩個(gè)用戶之間進(jìn)行了通信,則產(chǎn)生一條從發(fā)送用戶到被發(fā)送用戶的有向邊;b)當(dāng)話題中包含一個(gè)關(guān)鍵詞時(shí),則從話題到該關(guān)鍵詞產(chǎn)生一條無(wú)向邊;c)用戶發(fā)布一個(gè)話題,則從用戶到主題建立一條有向連邊,如果用戶接收一個(gè)話題,則從主題到用戶建立一條有向連邊。d)定義話題的相似性,第i個(gè)主題和第j個(gè)主題的相似性計(jì)算公式為:
2)設(shè)計(jì)融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方法。
“物以類(lèi)聚”的現(xiàn)象在社會(huì)網(wǎng)絡(luò)中廣泛存在,研究表明:節(jié)點(diǎn)之間的相似度與節(jié)點(diǎn)之間的影響力存在正相關(guān)關(guān)系,也是影響信息傳播的主要因素之一。節(jié)點(diǎn)vi和vj之間的相似度用sim(vi,vj)表示,本專(zhuān)利選取節(jié)點(diǎn)的結(jié)構(gòu)相似度和用戶話題偏好相似性兩個(gè)維度來(lái)衡量節(jié)點(diǎn)的相似性。融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方法:
●用戶結(jié)構(gòu)相似性使用公式
●用戶話題偏好相似性通過(guò)計(jì)算兩個(gè)用戶話題偏好向量的內(nèi)積得到,
●融合節(jié)點(diǎn)關(guān)系和節(jié)點(diǎn)話題偏好的社會(huì)網(wǎng)絡(luò)中用戶節(jié)點(diǎn)的相似性計(jì)算方。sims(vi,vj)=b×sims(vi,vj)+(1-b)×simt(vi,vj),其中參數(shù)b∈[0,1]用來(lái)權(quán)衡用戶結(jié)構(gòu)相似和用戶話題偏好所占的比例。
3)基于隨機(jī)游走策略的社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)排序方法。
具體實(shí)現(xiàn)如下:
●首先給出傳播概率p(vi,vj)的計(jì)算公式:
定義1:在圖gr=(v,e)中,對(duì)于信息級(jí)聯(lián)c,若節(jié)點(diǎn)vi∈c,并且
將c中所有信息級(jí)聯(lián)c進(jìn)行分解,每個(gè)級(jí)聯(lián)都分解為l(c)個(gè)單步(vi→vj,ti),最后獲取gr=(v,e)中各邊對(duì)應(yīng)的總傳輸次數(shù)nij。傳播概率高的節(jié)點(diǎn)之間通常會(huì)表現(xiàn)出更多的傳播次數(shù),因此p(vi,vj)與vi到vj之間的傳播次數(shù)成正比,選取指數(shù)關(guān)系模型。因此有
●結(jié)合用戶節(jié)點(diǎn)相似度和節(jié)點(diǎn)間傳播概率可以生成基于gr=(v,e)的傳播概率圖,其鄰接矩陣用an×n表示,
●在傳播概率圖上進(jìn)行有偏隨機(jī)游走,隨機(jī)游走的每一步按照公式r=d×qr+(1-d)×e迭代進(jìn)行,其中r是一個(gè)n維向量,每個(gè)分量r(i)代表隨機(jī)游走結(jié)束后對(duì)應(yīng)節(jié)點(diǎn)vi的被訪問(wèn)概率,很多粒子同時(shí)在傳播概率圖上游走,每個(gè)節(jié)點(diǎn)都是一個(gè)“吸引子”,其吸引力代表節(jié)點(diǎn)的傳播能力,游走過(guò)程分為兩部,第1部分按概率d游走到節(jié)點(diǎn)的鄰居節(jié)點(diǎn);第2部分按照概率(1-d)隨機(jī)跳躍到網(wǎng)絡(luò)中的任意節(jié)點(diǎn),各節(jié)點(diǎn)被隨機(jī)訪問(wèn)的概率由向量e決定,有偏的隨機(jī)游走通過(guò)對(duì)向量e的各個(gè)分量賦予不同的值,來(lái)表示離子隨機(jī)跳轉(zhuǎn)到各個(gè)節(jié)點(diǎn)的不同偏好,也就是各個(gè)“吸引子”的吸引力不同。對(duì)于信息傳播級(jí)聯(lián)c中的節(jié)點(diǎn),其接收到消息越早,位置約靠近c(diǎn)的前端,表示其傳播力越強(qiáng),對(duì)應(yīng)的e(i)的取值也越大。根據(jù)e(i)的取值進(jìn)行排序得到的結(jié)果即為基于隨機(jī)游走策略的社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)節(jié)點(diǎn)的最終排序。