本發(fā)明涉及社區(qū)搜索,尤其涉及基于主題感知與影響力融合的社區(qū)搜索方法。
背景技術:
1、隨著在線社交網(wǎng)絡(如facebook、x、微博等)的迅速發(fā)展,大型圖已被廣泛用于數(shù)據(jù)分析,并且人們對于在其中獲取有用信息的需求日益增長。在這些大型圖中,社區(qū)(community)是一個重要組成部分,它通常被定義為圖中一小群緊密連接的頂點所形成的內(nèi)聚子圖。而從圖中尋找社區(qū)的工作被稱為社區(qū)搜索(community?search,cs),它是大數(shù)據(jù)分析中的一個基本問題,并且已經(jīng)廣泛應用于廣告投放、社交推薦、事件組織等領域當中。近年來,研究人員開始將社會影響力納入至社區(qū)搜索問題中,旨在找到一組不僅緊密相連,且具有高度影響力的頂點,或者是將主題納入至社區(qū)搜索問題當中,找到一組連接緊密、主題關聯(lián)的頂點。盡管研究人員對這兩類問題進行了廣泛研究,但只有少數(shù)嘗試將社會影響力和主題同時納入至cs問題當中,并且僅有的一些關于影響力和主題感知結合的cs問題的研究仍然存在一些局限性:
2、1)內(nèi)聚性定義單調(diào)
3、在內(nèi)聚性的定義中,現(xiàn)有技術采用了經(jīng)典的k-core和k-truss模型及其變體。但這些模型不能表示不同主題上用戶之間關系的強度,因為它們只考慮兩個頂點之間是否存在邊(即連接)。
4、2)沒有考慮更貼近實際的不確定圖場景
5、它們并沒有捕捉到社區(qū)形成的不確定性,因為它們的定義都是基于確定性圖的,即邊生成概率一定為1。
6、3)沒有考慮不同主題下的影響力變化
7、在影響力方面,大多數(shù)工作預先為每個頂點指定一個固定的影響力分數(shù)。這樣的方案并沒有反映出用戶的影響力隨著主題的變化而變化,并且信息在社交網(wǎng)絡中的傳播通常由隨機擴散模型來描述,如獨立級聯(lián)(ic)模型。
8、以上這些限制會阻礙現(xiàn)有cs方法在現(xiàn)實場景中的應用。
技術實現(xiàn)思路
1、本發(fā)明的目的是針對現(xiàn)有技術的不足而提供的一種基于主題感知的最具影響力社區(qū)在線搜索方法。該方法是為解決在更為復雜的社交網(wǎng)絡圖下,搜索到一個潛在社區(qū),該社區(qū)同時滿足與查詢主題的高度關聯(lián)、給定主題下最高的對外影響力、社區(qū)內(nèi)極高的內(nèi)聚度等三個特征。
2、實現(xiàn)本發(fā)明目的的具體技術方案是:
3、步驟1:獲取社交網(wǎng)絡圖用戶給定的查詢主題分布q以及內(nèi)聚參數(shù)k,l,η。
4、該社交網(wǎng)絡圖中的每個頂點代表一個用戶實體,每條有向邊e∈ε上擁有主題分布,表示兩個用戶實體之間在不同主題下的社交關系權重,即ω(e)=(ω1(e),...,ωz(e)),e=(u,v)∈ε,其中z表示主題數(shù)量,ωi(e)表示用戶u對用戶v在第i個主題上的關系權重。而本發(fā)明的目的便是在這樣一個復雜的社交網(wǎng)絡中根據(jù)用戶給定的查詢主題q以及用戶希望的內(nèi)聚程度搜索到對應的潛在社區(qū)。
5、步驟2:根據(jù)用戶給定的主題分布q,將社交網(wǎng)絡圖轉化為基于主題分布q的交互圖gq=(vq,eq,p)。
6、基于主題的交互圖gq=(vq,eq,p)是從步驟1給定的社交網(wǎng)絡圖中提取的與向量q相關的一個有向不確定圖,其中p是將每條邊e∈ε映射到[0,1]區(qū)間內(nèi)的概率值p(e)的集合。具體來說,這個概率值由社交網(wǎng)絡圖中每條邊的主題分布與用戶給定的主題分布q運算得來,即p(e)=f(<ω(e),q>),其中<,>表示兩個向量的點積,而f(·)是一個單調(diào)函數(shù),用于將任意非負實數(shù)歸一化到范圍[0,1]區(qū)間內(nèi)。相應地,eq={e∈ε∣p(e)>0},vq={u∣(u,v)∈eq}∪{v∣(u,v)∈eq}。
7、步驟3:定義并提供一種有向不確定圖密度指標(k,l,η)-core和一種社區(qū)模型(k,l,η)-影響力社區(qū)。
8、步驟3-1:(k,l,η)-core是一個在k-core之上擴展的結構凝聚力評估指標,它適用于有向不確定圖,也是本發(fā)明之一。具體來說,它是用來提取步驟2中交互圖gq=(vq,eq,p)的內(nèi)聚子圖,一個(k,l,η)-core是一個滿足的極大誘導子圖c=(vc,ec,p),其中表示頂點v在圖c中的入度,而表示頂點v在圖c中的出度。此外,由于假設每條邊的存在都是獨立的,因此可以等價于與的乘積。
9、步驟3-2:(k,l,η)-影響力社區(qū)是本發(fā)明要搜索的潛在社區(qū)的模型,它更加契合于有向不確定圖。每個(k,l,η)-影響力社區(qū)c'都有對應的社區(qū)影響力分數(shù)它表明了不同社區(qū)在步驟1中給定主題q下的影響力,而的影響力分數(shù)定義為c'內(nèi)頂點影響力最小值,即此外,一個(k,l,η)-影響力社區(qū)c'需要滿足三個特性:1)弱連通特性;2)內(nèi)聚性,即c'是步驟2中交互圖gq的一個(k,l,η)-core;3)極大性,即不存在其他誘導子圖c”滿足前兩個特性并包含c'的同時,也滿足
10、步驟4:從gq中搜索多個極大(k,l,η)-core并存入集合包括以下子步驟:
11、步驟4-1:為了找到滿足(k,l,η)-core的子圖,第一步是計算gq中每個頂點v的和概率,它們的具體計算方法采用了bonchi等人提出的動態(tài)規(guī)劃方法。
12、步驟4-2:判斷當前gq中是否還存在某個頂點v不滿足(k,l,η)-core的條件,即如果是則執(zhí)行步驟4-3,否則執(zhí)行步驟4-5。
13、步驟4-3:刪除與頂點v相鄰的所有入邊e=(u,v),并更新指向v的鄰居頂點u的出度滿足≥l的概率,即類似地,還需要刪除與頂點v相鄰的所有出邊e=(v,u),更新v作為起點所指向的鄰居頂點u的入度滿足≥k的概率,即
14、步驟4-4:從gq當中刪除頂點v。
15、步驟4-5:重復上述步驟4-1至步驟4-4,直到gq中每個頂點v∈vq都滿足當每個頂點都滿足后,此時的gq可以被視為一個全局的(k,l,η)-core。但由于它不能保證連通,因此還需要將gq當中所有弱連通子圖(即局部(k,l,η)-core)c插入到集合當中。
16、步驟5:利用基于主題的ic模型模擬信息傳播,并使用ris技術計算gq中每個頂點在主題分布q下的近似影響力包括以下子步驟:
17、步驟5-1:從gq當中采樣θ個子圖g'1,…,g'θ,并對每個頂點u∈vq計算θ個rr集合rr(u,g'1),…,rr(u,g'θ)。其中采樣子圖g'i是通過在gq當中以概率1-pp(e)的概率隨機去除每條邊e∈eq而獲得,并且pp(e)=ap(e),α∈(0,1]則是一個放縮因子,用來加速收斂。另外,rr集合也被稱為反向可達集合,rr(u,g'i)意為在采樣子圖g'i中可以到達u的頂點集合;
18、步驟5-2:對于每個頂點u∈vq,獲得每個采樣子圖中包含u的rr集合的平均數(shù)量作為其影響得分,即以此來計算所有頂點的近似影響力。此外,本發(fā)明還運用霍夫丁不等式給出了對該近似影響力結果的理論保證,即當時,對于每個頂點v∈vq有至少1-δ的概率保證
19、步驟6:在gq中搜索最具影響力的(k,l,η)-影響力社區(qū)c'q,包括以下子步驟:
20、步驟6-1:在得到每個頂點的近似影響力分數(shù)和(k,l,η)-core的集合后,創(chuàng)建一個大頂堆將集合當中的每個(k,l,η)-corec按照近似影響力的降序插入至中。
21、步驟6-2:初始化和前者用于存放目標社區(qū),后者用于維護當前最大的近似影響力分數(shù)。
22、步驟6-3:判斷是否為空,如果是則執(zhí)行步驟6-3,否則跳轉至6-8;
23、步驟6-4:取的堆頂(k,l,η)-corec,并將其從堆中移出;
24、步驟6-5:如果那么更新
25、步驟6-6:尋找當前c中近似影響力最低的頂點并將它從c中刪除。
26、步驟6-7:首先刪除與v*相連的鄰邊,并分別更新鄰居頂點u的與隨后繼續(xù)判斷當前c中是否還有不滿足條的頂點,即如果有則繼續(xù)刪除,直到剩余頂點均滿足(k,l,η)-core的特性為止。
27、步驟6-8:將c中余下的所有弱連通子圖繼續(xù)插入至大頂堆當中,因為某些頂點的刪除,可能會導致c不滿足連通性。
28、步驟6-9:重復上述步驟6-3至步驟6-8,直到大頂堆為空為止。最后返回維護后的c'q,即在主題q下滿足最具影響力的潛在社區(qū)。
29、基于以上方法,本發(fā)明還提出了一種基于主題感知的最具影響力社區(qū)在線搜索系統(tǒng),包括:存儲器和處理器;所述存儲器上存儲有計算機程序,當所述計算機程序被所述處理器執(zhí)行時,實現(xiàn)本發(fā)明上述的方法。
30、本發(fā)明還提出了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現(xiàn)本發(fā)明上述的方法。
31、總體而言,通過本發(fā)明所構思的以上技術方案與現(xiàn)有技術相比,能夠取得下列有益效果:
32、1)該發(fā)明所考慮的是更為復雜的有向不確定圖場景,相比于現(xiàn)有技術,它具有極大的挑戰(zhàn),并且由于現(xiàn)有技術中并沒有適用于該圖場景下的社區(qū)模型,本發(fā)明分別定義并提供了(k,l,η)-core以及(k,l,η)-影響力社區(qū)模型。
33、2)大多數(shù)基于影響力的cs方法簡單地預先為每個頂點指定一個固定的影響力分數(shù),而忽略了影響力隨主題變化而變化的一個特性。本發(fā)明則通過利用擴散模型模擬圖中頂點的影響力傳播很好地解決了這個問題,但由于計算精確的影響力分數(shù)是一個#p難問題,本發(fā)明結合了速度更快的ris技術計算近似的影響力分數(shù),并給出了結果的理論保證。