一種移動群智感知中社會事件的總結(jié)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動群智感知技術(shù)領(lǐng)域,尤其是涉及一種移動群智感知中社會事件的總結(jié)方法。
【背景技術(shù)】
[0002]隨著以Foursquare為代表的移動社交網(wǎng)絡(luò)的興起,以及以Facebook、Twitter和微博等為代表的傳統(tǒng)社交網(wǎng)絡(luò)在移動端的廣泛應(yīng)用,人們線上的社交活動已經(jīng)由PC端向移動端大量傾斜。特別是在社會事件爆發(fā)時(如波士頓爆炸案),人們越來越多的開始使用移動互聯(lián)網(wǎng)作為消息發(fā)布的渠道。例如,在類似于波士頓爆炸案等突發(fā)事件發(fā)生時,現(xiàn)場的目擊者等往往比新聞記者更早的獲悉事件相關(guān)情況。這些事件親歷者在利用移動互聯(lián)網(wǎng)和移動社交網(wǎng)絡(luò)發(fā)布事件信息時,也在貢獻可以用于感知社會事件的數(shù)據(jù)。而用戶貢獻的感知數(shù)據(jù),即與社會事件相關(guān)的信息就可以作為我們了解社會事件的有價值的參考。因此,我們可以抓取社會性事件發(fā)生時,用戶通過移動互聯(lián)網(wǎng)或者移動社交網(wǎng)絡(luò)發(fā)布的與社會事件相關(guān)的信息,并以此為基礎(chǔ)來形成對社會事件的自動總結(jié),所得結(jié)果可以作為人們獲取事件相關(guān)信息的有價值參考。
[0003]專利201410406784.8提出了一種對新聞事件的動態(tài)跟蹤和總結(jié)算法,但其數(shù)據(jù)來源是與事件相關(guān)的若干個新聞文檔,無法滿足新聞報道的時效性。專利201210250175.9提出了一種面向微博的突發(fā)事件發(fā)現(xiàn)方法,但該方法主要針對突發(fā)事件的檢測,所得結(jié)果主要關(guān)鍵詞的形式呈現(xiàn),無法提供與事件相關(guān)的更豐富的信息。專利201310452806.X提出了一種識別微博突發(fā)熱點事件的方法及裝置,該方法從熱點事件的微博話題標(biāo)簽出發(fā),來判斷熱點事件是否是突發(fā)事件,但該方法只是在已有熱門事件的基礎(chǔ)上判斷事件是否熱門,沒有形成對事件發(fā)展過程的總結(jié)。本專利利用Tucker張量分解,可以得到對社會事件貢獻了較多有價值信息的用戶、事件發(fā)展過程中一系列重要的時間節(jié)點、以及用于描述事件發(fā)展過程的關(guān)鍵詞等,從用戶、時間、關(guān)鍵詞三個維度來對社會事件進行總結(jié)。
【發(fā)明內(nèi)容】
[0004]為解決上述問題,本發(fā)明提供了一種移動群智感知中社會事件的總結(jié)方法,綜合利用用戶發(fā)布的與社會性事件相關(guān)的感知數(shù)據(jù),來形成對社會性事件的總結(jié),作為人們獲取事件相關(guān)信息的參考。
[0005]為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
[0006]一種移動群智感知中社會事件的總結(jié)方法,包括如下步驟:
[0007]S1、在某個社會性事件發(fā)生之前,設(shè)置一些用戶在使用移動社交網(wǎng)絡(luò)發(fā)布與該事件相關(guān)信息時可能會使用的一些關(guān)鍵詞;
[0008]S2、在社會性事件發(fā)生時,利用移動社交網(wǎng)絡(luò)的APIs,采集包含指定關(guān)鍵詞的感知信息;
[0009]S3、在得到全部的感知信息之后,從中選取信息發(fā)布地點與事件發(fā)生地點相吻合的感知?目息;
[0010]S4、根據(jù)每個用戶發(fā)布的感知信息數(shù)量進行排序,選取發(fā)布信息個數(shù)大于閾值II1的用戶作為研宄對象;
[0011]S5、提取信息中的用戶、時間、正文三個字段,對正文進行預(yù)處理,刪除表情符、標(biāo)簽符、用戶名等噪音數(shù)據(jù),只保留與正文相關(guān)的文本信息;
[0012]S6、對于每一條感知信息,利用自然語言處理中的詞性標(biāo)注提取具有名詞形式的詞,利用命名實體辨識提取有特定意義的實體,并將上述提取結(jié)果統(tǒng)一作為該條信息的關(guān)鍵詞;
[0013]S7、從全體用戶發(fā)布的信息中提取出關(guān)鍵詞之后,選取使用頻率最高的112個關(guān)鍵詞作為研宄對象;
[0014]S8、以第一條感知信息發(fā)出的時間作為開始時間,以最后一條感知信息發(fā)出的時間作為結(jié)束時間,將全體時間T均勻地劃分為J個時間段;
[0015]S9、以時間、用戶和關(guān)鍵詞為三個維度,構(gòu)建張量,如果用戶Ui在時間t ^發(fā)表的感知信息正文中包含關(guān)鍵詞wk,則在所構(gòu)建的張量中,對應(yīng)的元素Hlijk為1,否則為O ;
[0016]S10、在張量構(gòu)建完成之后,利用Tensor Iab中的工具對張量進行Tucker張量分解計算,得到在時間、用戶和關(guān)鍵詞三個維度上的因子矩陣;
[0017]S11、在得到三個維度的因子矩陣之后,利用K-means聚類算法對因子矩陣進行行聚類,得聚類結(jié)果;
[0018]S12、分析聚類結(jié)果,得結(jié)果、
[0019]其中,所述步驟SlO中分解計算的公式為:
[0020]M ^ [G ;U,T,ff] = GX1UX2TX3W
[0021]其中,M e Rixjxk, U e Rixn, T e Rjxn, ff e RKXN;I為參與的用戶數(shù)量;J為時刻個數(shù);1(為關(guān)鍵詞的個數(shù);U,T,W為在時間、用戶和關(guān)鍵詞三個維度上的因子矩陣。
[0022]其中,所述步驟12所得的結(jié)果包括在該社會事件中具有較大影響力的用戶,這些用戶對該社會事件貢獻了較多有價值的信息;事件發(fā)展過程中一系列重要時刻,這些時刻與事件發(fā)展的不同階段相關(guān);一系列的關(guān)鍵詞,這些關(guān)鍵詞用來對事件的發(fā)展過程進行描述。
[0023]本發(fā)明具有以下有益效果:
[0024]綜合利用用戶發(fā)布的與社會性事件相關(guān)的感知數(shù)據(jù),來形成對社會性事件的總結(jié),作為人們獲取事件相關(guān)信息的參考。
【附圖說明】
[0025]圖1為本發(fā)明實施例1的流程圖。
【具體實施方式】
[0026]為了使本發(fā)明的目的及優(yōu)點更加清楚明白,以下結(jié)合實施例對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0027]如圖1所示,本發(fā)明實施例提供了一種移動群智感知中社會事件的總結(jié)方法,包括如下步驟:
[0028]步驟一、采集社會性事件發(fā)生時,大量用戶發(fā)布的與社會性事件相關(guān)的感知信息;由于隨著智能手機的普及,人們越來越多的開始使用移動互聯(lián)網(wǎng),特別是移動社交網(wǎng)絡(luò)作為消息發(fā)布的渠道。因此,需要首先采集大量用戶貢獻的與社會性事件相關(guān)的感知數(shù)據(jù)。現(xiàn)有的很多移動社交網(wǎng)絡(luò),都提供了豐富的APIs供開發(fā)者調(diào)用。例如,在Twitter中,可以事先指定與社會性事件相關(guān)的多個關(guān)鍵詞,在事件發(fā)生時利用Twitter Streaming APIs采集事件進行過程中用戶發(fā)布的包含指定關(guān)鍵詞的推文,從這些推文中提取出從移動端發(fā)出、且發(fā)布地點與事件發(fā)生地點向吻合的,作為用戶貢獻的事件相關(guān)感知數(shù)據(jù)。
[0029]步驟二、感知數(shù)據(jù)的預(yù)處理;
[0030]記用戶Ui在時刻t i發(fā)布的社會事件相關(guān)感知信息為text i,則一條感知信息可以表