亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法與流程

文檔序號:11950787閱讀:305來源:國知局

本發(fā)明涉及一種多線索社會事件總結(jié)方法,特別涉及一種基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法。



背景技術(shù):

近年來,隨著社交媒體,如微博,Twitter等為代表的社交網(wǎng)絡(luò)的快速發(fā)展,基于社交媒體數(shù)據(jù)進(jìn)行社會事件總結(jié)的工作受到了越來越多的研究人員的關(guān)注。當(dāng)某一社會事件發(fā)生時,會有大量的用戶在第一時間通過社交網(wǎng)絡(luò)發(fā)布相關(guān)的信息,進(jìn)行相關(guān)的討論,這里往往還包含了許多目擊者或是現(xiàn)場的第一手信息。與傳統(tǒng)媒體相比,社交媒體發(fā)布的信息更全面,然而,由于未經(jīng)過專業(yè)編輯的整理過濾,這些信息往往是雜亂的。因此,需要通過有效地措施對這些社交媒體信息進(jìn)行整理過濾,以得到清晰的結(jié)果用于社會事件總結(jié),為人們了解社會事件提供有價值的參考。

專利CN1710563提出了一種重要新聞事件檢測和摘要的方法,該專利主要面向新聞視頻數(shù)據(jù),將多個電視臺或電視頻道的新聞視頻數(shù)據(jù)庫里,自動檢測重要新聞,并按照重要度從高到低形成用戶指定時間的新聞?wù)?。專利CN104850606A公開了一種移動群智感知社會事件的總結(jié)方法,利用Tucker張量分解和K-means聚類分析對社會事件進(jìn)行總結(jié)。專利CN104182504A公開了一種新聞事件的動態(tài)跟蹤和總結(jié)算法,采用社區(qū)發(fā)現(xiàn)算法從詞共現(xiàn)圖中提取與新聞事件相關(guān)的多個主題,對主題集合中的每個主題按照發(fā)生時間,從所對應(yīng)的句子組序列中獲得與各自主題相對應(yīng)的摘要集合,從而生成與各自主題相對應(yīng)的總結(jié)。這些專利的不足之處就是忽略了社會事件中有多個線索,每個線索都有自己的發(fā)展情況。比如在天津大爆炸事件中,有救援情況的線索,有清理事故現(xiàn)場的線索,有受災(zāi)群眾安置的線索等。只有區(qū)分這些線索才可以得到一個清晰可讀的社會事件總結(jié),便于用戶了解社會事件不同方面的發(fā)展概況。



技術(shù)實(shí)現(xiàn)要素:

為了克服現(xiàn)有多線索社會事件總結(jié)方法實(shí)用性差的不足,本發(fā)明提供一種基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法。該方法根據(jù)相關(guān)的關(guān)鍵字獲得社交網(wǎng)絡(luò)中與該事件相關(guān)的微博,提取微博中的正文以及時間字段,對正文進(jìn)行預(yù)處理。根據(jù)時間字段構(gòu)建表示用戶發(fā)帖行為模式的圖模型T。根據(jù)正文內(nèi)容構(gòu)建表示微博內(nèi)容相似性的圖模型A。識別圖模型T中的所有連通子圖,每一個連通子圖代表事件發(fā)展的不同階段。識別圖模型A中的所有連通子圖,每一個連通子圖代表事件中的不同線索。冗余信息剔除,得到有發(fā)展脈絡(luò)的多線索社會事件總結(jié)。本發(fā)明根據(jù)用戶發(fā)帖的行為模式能夠更加全面的考慮社會事件中不同線索的內(nèi)部發(fā)展,從而獲得更細(xì)粒度的社會事件總結(jié),反映事件的動態(tài)發(fā)展及變化,實(shí)用性強(qiáng)。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案:一種基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法,其特點(diǎn)是包括以下步驟:

步驟一、當(dāng)一個社會事件發(fā)生后,根據(jù)相關(guān)的關(guān)鍵字利用網(wǎng)絡(luò)爬蟲獲得社交網(wǎng)絡(luò)中與該社會事件相關(guān)的微博,提取微博中的正文以及時間字段,對正文進(jìn)行分詞預(yù)處理,過濾無用的停止詞。

步驟二、根據(jù)時間字段計算不同微博間的發(fā)布時間間隔,以微博作為節(jié)點(diǎn),根據(jù)微博間的發(fā)布時間間隔構(gòu)建邊,若時間間隔小于2.4小時,則兩個節(jié)點(diǎn)間有一條邊,以此構(gòu)建表示用戶發(fā)帖行為模式的圖模型T。

步驟三、利用TF-IDF計算正文內(nèi)容中的關(guān)鍵詞,根據(jù)關(guān)鍵詞構(gòu)建文本向量,利用余弦距離計算不同微博的文本向量的距離,以微博作為節(jié)點(diǎn),根據(jù)微博間文本向量的距離構(gòu)建邊,若文本向量距離大于0.5,則兩個節(jié)點(diǎn)間有一條邊,以此構(gòu)建表示微博內(nèi)容相似性的圖模型A。

步驟四、利用深度優(yōu)先算法搜索圖模型T中的所有連通子圖,不同的連通子圖代表事件的不同發(fā)展階段,同一個連通子圖中的微博涉及相同的發(fā)展階段。

步驟五、利用深度優(yōu)先算法搜索圖模型A中的所有連通子圖,不同的連通子圖代表事件的不同線索,同一個連通子圖中的微博涉及相同的線索。

步驟六、根據(jù)步驟四得到事件的不同發(fā)展階段涉及的微博,根據(jù)步驟五得到事件的不同線索涉及的微博,將步驟五的結(jié)果映射至步驟四的結(jié)果上,得到在同一線索中微博的階段分布,即得到線索的內(nèi)部發(fā)展,進(jìn)而得到有發(fā)展脈絡(luò)的多線索社會事件總結(jié)。

步驟七、利用貪心算法使子模性函數(shù)最大化以剔除線索中的冗余信息,得到有發(fā)展脈絡(luò)的多線索社會事件總結(jié)。

其中,子模性函數(shù)為,

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>&Element;</mo> <mi>V</mi> <mo>\</mo> <mi>S</mi> </mrow> </msub> <munder> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>&lambda;</mi> <munder> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&Element;</mo> <mi>S</mi> <mo>:</mo> <mi>i</mi> <mo>&NotEqual;</mo> <mi>j</mi> </mrow> </munder> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow>

其中,V代表線索,S代表最后選中的微博,i,j代表微博,這個函數(shù)的意義就是使S中的微博信息覆蓋率最大,冗余率最小。利用貪心算法得到使該子模性函數(shù)最大化的微博集合S,即剔除了冗余信息后的線索。

本發(fā)明的有益效果是:該方法根據(jù)相關(guān)的關(guān)鍵字獲得社交網(wǎng)絡(luò)中與該事件相關(guān)的微博,提取微博中的正文以及時間字段,對正文進(jìn)行預(yù)處理。根據(jù)時間字段構(gòu)建表示用戶發(fā)帖行為模式的圖模型T。根據(jù)正文內(nèi)容構(gòu)建表示微博內(nèi)容相似性的圖模型A。識別圖模型T中的所有連通子圖,每一個連通子圖代表事件發(fā)展的不同階段。識別圖模型A中的所有連通子圖,每一個連通子圖代表事件中的不同線索。冗余信息剔除,得到有發(fā)展脈絡(luò)的多線索社會事件總結(jié)。本發(fā)明根據(jù)用戶發(fā)帖的行為模式能夠更加全面的考慮社會事件中不同線索的內(nèi)部發(fā)展,從而獲得更細(xì)粒度的社會事件總結(jié),反映事件的動態(tài)發(fā)展及變化,實(shí)用性強(qiáng)。

下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作詳細(xì)說明。

附圖說明

圖1是本發(fā)明基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法的流程圖。

具體實(shí)施方式

參照圖1。本發(fā)明基于用戶發(fā)帖行為模式的多線索社會事件總結(jié)方法具體步驟如下:

步驟1、根據(jù)關(guān)鍵字“天津塘沽大爆炸”利用網(wǎng)絡(luò)爬蟲獲得關(guān)于天津大爆炸事件的微博,提取微博中的正文內(nèi)容及時間字段,利用分詞工具對正文內(nèi)容進(jìn)行分詞并過濾停止詞。

步驟2、根據(jù)時間字段計算不同微博間的發(fā)布時間間隔,以微博作為節(jié)點(diǎn),根據(jù)微博間的發(fā)布時間間隔構(gòu)建邊,若時間間隔小于2.4小時,則兩個節(jié)點(diǎn)間有一條邊,以此構(gòu)建表示用戶發(fā)帖行為模式的圖模型T。

步驟3、利用TF-IDF計算正文內(nèi)容中的關(guān)鍵詞,如消防員、震感、小區(qū)、事故現(xiàn)場等。根據(jù)關(guān)鍵詞構(gòu)建文本向量,利用余弦距離計算不同微博的文本向量的距離,以微博作為節(jié)點(diǎn),根據(jù)微博間文本向量的距離構(gòu)建邊,若文本向量距離大于0.5,則兩個節(jié)點(diǎn)間有一條邊,以此構(gòu)建表示微博內(nèi)容相似性的圖模型A。

步驟4、利用深度優(yōu)先算法搜索圖模型T中的所有連通子圖ST,不同的連通子圖代表事件的不同發(fā)展階段,同一個連通子圖中的微博涉及相同的發(fā)展階段。比如ST1={a,b,c},ST2={d,e},a,b,c,d,e分別代表五個不同的微博。

步驟5、利用深度優(yōu)先算法搜索圖模型A中的所有連通子圖SA,不同的連通子圖代表事件的不同線索,同一個連通子圖中的微博涉及相同的線索。比如SA1={a,d},SA2={b,c,e}。

步驟6、根據(jù)ST1,ST2,SA1,SA2,可以得知屬于線索A1的微博a,d屬于兩個不同的發(fā)展階段,a∈ST1,d∈ST2,同理可以得知屬于線索A2的微博b,c和e屬于兩個不同的發(fā)展階段b,c∈ST1,e∈ST2。由此,我們可以得知道該事件有兩個線索,線索A1(a→d),線索A2(b→e,c→e)。

步驟7、根據(jù)子模性函數(shù)利用貪心算法剔除各線索中的冗余信息。經(jīng)過計算,發(fā)現(xiàn)線索A2中c為冗余信息,則剔除c,最終的事件總結(jié)為,該事件包括線索A1以及線索A2,其內(nèi)部發(fā)展情況為線索A1(a→d),線索A2(b→e)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1