本發(fā)明涉及微博技術(shù),尤其涉及一種基于語義擴展的微博突發(fā)事件檢測方法及裝置。
背景技術(shù):
微博的社會化特性及其可以被迅速、及時的傳播,吸引了大量對信息實時性有高需求的網(wǎng)民。微博使得世界上的每一個人都能夠成為信息源,并使之在全球傳播,這就使得微博本身所承載的信息量大大增加。微博已經(jīng)集合了海量的新聞、事件和信息,并且每天都在更新,每天都在流傳,對現(xiàn)實的社會產(chǎn)生巨大的影響。尤其是在突發(fā)事件的信息傳播上,微博更是超越了傳統(tǒng)媒體,成為了信息快速傳播的渠道。微博上的信息不僅發(fā)布及時,而且也是現(xiàn)實社會生活的縮影,挖掘微博上的信息有利于從不同角度分析現(xiàn)實世界的情況。因此,從海量的微博數(shù)據(jù)檢測事件具有十分重要的意義。
現(xiàn)有技術(shù)中的微博事件檢測的方法可以分為兩類,一類是針對特定事件的微博事件檢測方法,一類是通用的微博事件檢測方法。對于對特定事件的微博事件檢測方法,通常需要對事件具有一定的先驗知識,比如針對地震的微博事件檢測,需要首先通過地震相關的關鍵詞找出相關微博,然后對這部分微博進行分析,但是對于突發(fā)事件很難具有先驗的信息,因此,該種微博事件檢測方法具有很強的局限性。對于通用的微博事件檢測方法不需要事件的先驗知識,主要包括基于突發(fā)特征檢測、主題模型、聚類或者圖的方法,但是這些方法普遍需要離線檢測,不能處理流式數(shù)據(jù)。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種基于語義擴展的微博突發(fā)事件檢測方法及裝置,以解決上述技術(shù)問題。
本發(fā)明提供一種基于語義擴展的微博突發(fā)事件檢測方法,包括:
獲取與待檢測的微博突發(fā)事件對應的第一關鍵詞;
根據(jù)所述第一關鍵詞和所述第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件;
其中,所述第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,所述詞向量文件包括所述第一關鍵詞與其它訓練詞語之間的語義相似度。
如上所述的方法,所述根據(jù)所述第一關鍵詞和所述第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:
根據(jù)所述詞向量文件獲取與所述第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
根據(jù)所述第一關鍵詞和所述第二關鍵詞,獲取包含所述第一關鍵詞和/或所述第二關鍵詞的多個微博;
根據(jù)所述多個微博,得到所述微博突發(fā)事件。
如上所述的方法,在所述根據(jù)所述第一關鍵詞和所述第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:
獲取多個文本,并對各所述文本進行文本分詞,得到所述訓練詞語;
采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件。
如上所述的方法,在所述采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件之后,還包括:
每隔預設周期更新所述詞向量文件,得到更新后的詞向量文件;
相應地,所述根據(jù)所述第一關鍵詞和所述第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:
根據(jù)所述更新后的詞向量文件獲取與所述第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
根據(jù)所述第一關鍵詞和所述第二關鍵詞,獲取包含所述第一關鍵詞和/或所述第二關鍵詞的多個微博;
根據(jù)所述多個微博,得到所述微博突發(fā)事件。
如上所述的方法,所述每隔預設周期更新所述詞向量文件,包括:
每隔所述預設周期重新獲取多個文本,并對各重新獲取的文本進行文本分詞,得到更新后的訓練詞語;
采用word2vec方法對所述更新后的訓練詞語進行訓練,得到所述更新后的詞向量文件。
如上所述的方法,所述根據(jù)所述多個微博,得到所述微博突發(fā)事件,包括:
獲取所述多個微博被檢測出來的檢測時間;
獲取所述多個微博的相關度,將相關度位于前N名的N個微博作為所述微博突發(fā)事件的相關微博,并獲取所述相關微博的摘要;
獲取各所述相關微博的屬性,所述屬性包括:微博中出現(xiàn)的地點以及參與者,并獲取出現(xiàn)次數(shù)最多的目標地點和出現(xiàn)次數(shù)最多的目標參與者;
根據(jù)所述相關微博的語義表達,采用語義擴展的Embedding細胞詞庫和支持向量機SVM方法,獲取所述微博突發(fā)事件的分類;
采用基于所述SVM的情感分類方法,獲取所述微博突發(fā)事件的情感;
根據(jù)所述檢測時間、相關微博、摘要、目標地點、目標參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到所述微博突發(fā)事件。
如上所述的方法,所述獲取所述相關微博的摘要,包括:
采用NLPIR分詞系統(tǒng)獲取對所述相關微博的第一描述;
查詢所述相關微博中是否含有主體標簽,所述第一描述中是否含有所述主體標簽;
若所述相關微博和所述第一描述中均含有主體標簽,則將第一描述作為所述摘要;
若所述相關微博中包含主體標簽,第一描述中不包括主體標簽,則將所述主體標簽作為所述摘要;
若所述相關微博中不包含主體標簽,則獲取相關微博中包含最多關鍵詞的語句,將所述語句作為所述摘要;其中,所述關鍵詞是指所述第一關鍵詞和/或所述第二關鍵詞。
本發(fā)明還提供一種基于語義擴展的微博突發(fā)事件檢測裝置,包括:
第一關鍵詞獲取模塊,所述第一關鍵詞獲取模塊用于獲取與待檢測的微博突發(fā)事件對應的第一關鍵詞;
微博突發(fā)事件檢測模塊,所述微博突發(fā)事件檢測模塊用于根據(jù)所述第一關鍵詞和所述第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件;
其中,所述第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,所述詞向量文件包括所述第一關鍵詞與其它訓練詞語之間的語義相似度。
如上所述的裝置,所述微博突發(fā)事件檢測模塊包括:
第二關鍵詞獲取單元,所述第二關鍵詞獲取單元用于根據(jù)所述詞向量文件獲取與所述第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
微博獲取單元,所述微博獲取單元用于根據(jù)所述第一關鍵詞和所述第二關鍵詞,獲取包含所述第一關鍵詞和/或所述第二關鍵詞的多個微博;
微博突發(fā)事件獲取單元,所述微博突發(fā)事件獲取單元用于根據(jù)所述多個微博,得到所述微博突發(fā)事件。
如上所述的裝置,所述裝置還包括:
訓練詞語獲取模塊,所述訓練詞語獲取模塊用于獲取多個文本,并對各所述文本進行文本分詞,得到所述訓練詞語;
詞向量文件獲取模塊,所述詞向量文件獲取模塊用于采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件。
本發(fā)明提供一種基于語義擴展的微博突發(fā)事件檢測方法及裝置,本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測方法包括:獲取與待檢測的微博事件對應的第一關鍵詞;根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博事件;其中,第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,詞向量文件包括第一關鍵詞與其它訓練詞語之間的語義相似度。本發(fā)明的基于語義擴展的微博突發(fā)事件檢測方法及裝置,通過考慮文本的語義信息來擴展事件的關鍵詞,并通過擴展后的關鍵詞進行微博突發(fā)事件的檢測,可以準確的檢測到微博突發(fā)事件,避免將同一事件分成兩個微博事件,并可以進行在線檢測。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測方法的流程圖一;
圖2為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測方法的流程圖二;
圖3為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例一的結(jié)構(gòu)示意圖;
圖4為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例二的結(jié)構(gòu)示意圖;
圖5為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例三的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測方法的流程圖一,應用于基于語義擴展的微博突發(fā)事件檢測裝置,該裝置可以通過硬件和/或軟件實現(xiàn),如圖1所示,本實施例的方法可以包括:
S101、獲取與待檢測的微博突發(fā)事件對應的第一關鍵詞;
具體地,突發(fā)事件是指突然發(fā)生的或剛剛發(fā)生的事件。在具體的實現(xiàn)過程中,首先提取需要檢測的微博突發(fā)事件第一關鍵詞,比如需要檢測有關“女排獲得里約奧運會冠軍”的突發(fā)事件,提取第一關鍵詞:“女排”、“冠軍”,然后檢測用戶通過檢測用戶輸入界面輸入提取的第一關鍵詞,基于語義擴展的微博突發(fā)事件檢測裝置獲取第一關鍵詞。
S102、根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件;
具體地,第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,詞向量文件包括第一關鍵詞與其它訓練詞語之間的語義相似度,也就是說第一關鍵詞也為訓練詞語。
步驟“根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件”具體為:
根據(jù)詞向量文件獲取與第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;
根據(jù)第一關鍵詞和第二關鍵詞,獲取包含第一關鍵詞和/或第二關鍵詞的多個微博;
根據(jù)多個微博,得到微博突發(fā)事件。
具體地,基于語義擴展的微博突發(fā)事件檢測裝置獲取詞向量文件,然后根據(jù)第一關鍵詞和詞向量文件,基于語義擴展的微博突發(fā)事件檢測裝置獲取與第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;比如同樣針對有關“女排獲得里約奧運會冠軍”的突發(fā)事件,第一關鍵詞為“女排”、“冠軍”,基于語義擴展的微博突發(fā)事件檢測裝置分別查詢詞向量文件中與第一關鍵詞“冠軍”和“女排”語義相似度滿足第一閾值詞語,該些詞語即為第二關鍵詞,舉例來說,詞向量文件中詞語“冠軍”與詞語“奪冠”的語義相似度為0.9,詞語“冠軍”與“蘋果”的語義相似度為0.1,詞語“女排”與詞語“排球”的語義相似度為0.8,詞語“女排”與詞語“中國”的語義相似度為0.6,若第一閾值取值為0.6,則詞語“奪冠”、“中國”和“排球”便為第二關鍵詞。此處并沒有一一列舉與第一關鍵詞“冠軍”及“女排”的語義相似度大于等于第一閾值0.6的詞語,只要滿足與詞語“冠軍”及詞語“女排”的語義相似度大于等于第一閾值0.6的詞語都為第二關鍵詞。其中,第一閾值可以隨著第一關鍵詞的不同進行變更以適應微博突發(fā)事件檢測的實際需要。
根據(jù)詞向量文件獲取第二關鍵詞,對第一關鍵詞進行了擴展,將與第一關鍵詞的語義相似度滿足一定閾值的詞一同作為檢測微博突發(fā)事件的關鍵詞進行微博突發(fā)事件的檢測,可以將相關微博突發(fā)事件都檢測出來,避免突發(fā)事件沒有被檢測到的情況及描述相同內(nèi)容的微博被分為兩個微博事件。若將描述相同內(nèi)容的微博事件被分為兩個微博事件,在終端用戶檢索微博并查看時,微博系統(tǒng)會展現(xiàn)很多重復的微博,影響了終端用戶的使用體驗。
在獲取到第一關鍵詞和第二關鍵詞后,便可根據(jù)第一關鍵詞和第二關鍵詞,獲取包含第一關鍵詞和/或第二關鍵詞的多個微博。
接著根據(jù)包含第一關鍵詞和/或第二關鍵詞的多個微博多個微博,得到微博突發(fā)事件,其中,微博事件的定義如下:
事件E:<t,loc,par,desc,posts,type,emotion>
其中,t是事件的時間戳,表示事件被檢測出來的時間;loc是事件發(fā)生的地點;par是一個集合,表示事件參與者集合;desc是事件的摘要;posts是事件的相關微博的集合;type是事件的分類;emotion是事件的情感偏向。
“根據(jù)包含第一關鍵詞和/或第二關鍵詞的多個微博多個微博,得到微博突發(fā)事件”具體為:
獲取多個微博被檢測出來的檢測時間;
獲取多個微博的相關度,將相關度位于前N名的N個微博作為微博突發(fā)事件的相關微博,并獲取相關微博的摘要;
獲取各相關微博的屬性,屬性包括:微博中出現(xiàn)的地點以及參與者,并獲取出現(xiàn)次數(shù)最多的目標地點和出現(xiàn)次數(shù)最多的目標參與者;
根據(jù)相關微博的語義表達,采用語義擴展的Embedding細胞詞庫和支持向量機SVM方法,獲取微博突發(fā)事件的分類;
采用基于SVM的情感分類方法,獲取微博突發(fā)事件的情感;
根據(jù)檢測時間、相關微博、摘要、目標地點、目標參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到微博突發(fā)事件。
其中,N優(yōu)選為15,獲取多個微博的相關度的方法、語義擴展的Embedding細胞詞庫和支持向量機SVM方法、基于SVM的情感分類方法,均為現(xiàn)有技術(shù)中的方法,本發(fā)明不再贅述。
其中,獲取相關微博的摘要,包括:
采用NLPIR分詞系統(tǒng)獲取對相關微博的第一描述;查詢相關微博中是否含有主體標簽,第一描述中是否含有主體標簽;
若相關微博和第一描述中均含有主體標簽,則將第一描述作為摘要;若相關微博中包含主體標簽,第一描述中不包括主體標簽,則將主體標簽作為摘要;若相關微博中不包含主體標簽,則獲取相關微博中包含最多關鍵詞的語句,將包含最多關鍵詞的語句作為相關微博的摘要;其中,關鍵詞是指第一關鍵詞和/或第二關鍵詞。
具體地,本領域技術(shù)人員應當明白,若相關微博中沒有主體標簽,那么第一描述中也就沒有主體標簽,若相關微博中具有主體標簽,第一描述中可能包含主體標簽,也可能不包含主體標簽。
其中,每個相關微博對應一個摘要,各相關微博的摘要組成了事件的摘要。
本實施例的基于語義擴展的微博突發(fā)事件檢測方法,包括:獲取與待檢測的微博突發(fā)事件對應的第一關鍵詞;根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,詞向量文件包括第一關鍵詞與其它訓練詞語之間的語義相似度。本實施例的基于語義擴展的微博突發(fā)事件檢測方法,通過考慮文本的語義信息來擴展事件的關鍵詞,并通過擴展后的關鍵詞進行微博突發(fā)事件的檢測,可以準確的檢測微博突發(fā)事件,避免了將同一事件分成兩個微博事件,提升了終端用戶的使用體驗;此外,本實施例的基于語義擴展的微博突發(fā)事件檢測方法還可以進行在線檢測。
下面對上一實施例中的第一關鍵詞關聯(lián)的詞向量文件的獲取方法進行詳細的說明。圖2為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測方法的流程圖二,參見圖2,本實施例中的方法包括:
S201、獲取多個文本,并對各文本進行文本分詞,得到訓練詞語;
具體地,本實施例中的文本來源于網(wǎng)絡新聞和中文維基百科,文本分詞的過程為:首先加載詞典,分析文本,分詞為最大詞長切分得到訓練詞語。比如對文本“中華人民共和國成立了”進行分詞,分詞的結(jié)果為“中華人民共和國|成立|了”,得到訓練詞語“中華人民共和國”、“成立”。
文本分詞的方法為現(xiàn)有技術(shù)中的分詞方法,本發(fā)明不作詳細的闡述。
S202、采用word2vec方法對訓練詞語進行訓練,得到詞向量文件。
具體地,在本實施例中,采用word2vec方法可使用如下命令對訓練詞語進行訓練:
./word2vec-train test.txt-output vectors.bin-cbow 0-size 200-window 5-negative 0-hs 1-sample 1e-3-threads 12-binary 1
以上命令表示的是輸入文件是test.txt,輸出文件是vectors.bin,不使用cbow模型,默認為Skip-Gram模型;每個單詞的向量維度是200,訓練的窗口大小為5,即為考慮一個詞語的前五個詞語和后五個詞語;不使用Negative Sampling(NEG)方法,使用Hierarchhical Softmax方法;-sampe指的是采樣的閾值,如果一個詞語在訓練集中出現(xiàn)的頻率越大,那么就越會被采樣;-binary為1指的是結(jié)果二進制存儲;若-binary為0表示普通存儲。
采用上述命令對訓練詞語進行訓練,訓練完成之后,得到了vectors.bin這個詞向量文件。
其中,在普通存儲的情況下,詞向量文件是可以可視化的形式呈現(xiàn)給檢測用戶,也就是檢測用戶打開詞向量文件后,能看到詞語和詞語對應的向量(包含相似度的向量);而在二進制存儲的情況下,詞向量文件不能以可視化的形式呈現(xiàn)給檢測用戶。上述窗口的大小可以變更,優(yōu)先為小于等于5。
本實施例中通過采用word2vec方法對訓練詞語進行訓練,得到詞向量文件,實現(xiàn)了基于文本語義信息的對微博突發(fā)事件的檢測。
為了使得對微博事件的檢測更加準確,本實施例在上一實施例的基礎上作了進一步的改進,本實施例的基于語義擴展的微博突發(fā)事件檢測方法是在上一實施例的步驟“采用word2vec方法對所述訓練詞語進行訓練,得到所述詞向量文件”之后進行的,包括:每隔預設周期更新所述詞向量文件,得到更新后的詞向量文件;
相應地,根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)更新后的詞向量文件獲取與第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;根據(jù)第一關鍵詞和第二關鍵詞,獲取包含第一關鍵詞和/或第二關鍵詞的多個微博;根據(jù)多個微博,得到微博突發(fā)事件。
具體地,每隔預設周期更新詞向量文件,具體為:每隔預設周期重新獲取多個文本,并對各重新獲取的文本進行文本分詞,得到更新后的訓練詞語;采用word2vec方法對更新后的訓練詞語進行訓練,得到更新后的詞向量文件。其中,預設周期優(yōu)選為24小時,重新獲取的多個文本來源于最新的網(wǎng)絡新聞和中文維基百科,比如突發(fā)事件“美國總統(tǒng)大選可能需要威斯康星州、賓夕法尼亞州和密歇根州重新計票,但是賓夕法尼亞州拒絕重新計票”便為最新的網(wǎng)絡新聞。
舉例來說,在突發(fā)事件“美國總統(tǒng)大選可能需要威斯康星州、賓夕法尼亞州和密歇根州重新計票,但是賓夕法尼亞州拒絕重新計票”發(fā)生之前,詞語“美國”與詞語“華盛頓”的語義相似度大于詞語“美國”與詞語“賓夕法尼亞州”的語義相似度,在突發(fā)事件“美國總統(tǒng)大選可能需要威斯康星州、賓夕法尼亞州和密歇根州重新計票,但是賓夕法尼亞州拒絕重新計票”發(fā)生之后,詞語“美國”與詞語“華盛頓”的語義相似度小于詞語“美國”與詞語“賓夕法尼亞州”的語義相似度。采用通過最新的網(wǎng)絡新聞和中文維基百科獲取的文本對應的訓練詞語得到的更新后的詞向量文件對上述突發(fā)事件進行檢測時,輸入第一關鍵詞“美國”與“選舉”后,根據(jù)更新后的詞向量文件,便可擴展出第二關鍵詞“賓夕法尼亞州”,可準確的得到微博突發(fā)事件。若仍然采用突發(fā)事件“美國總統(tǒng)大選可能需要威斯康星州、賓夕法尼亞州和密歇根州重新計票,但是賓夕法尼亞州拒絕重新計票”發(fā)生之前得到的詞向量文件,輸入第一關鍵詞“美國”與“選舉”后,可能不會擴展出第二關鍵詞“賓夕法尼亞州”,那么得到的微博突發(fā)事件可能不準確,也就是說微博突發(fā)事件中可能不包括有關突發(fā)事件“美國總統(tǒng)大選可能需要威斯康星州、賓夕法尼亞州和密歇根州重新計票,但是賓夕法尼亞州拒絕重新計票”的微博。
本實施例中通過每隔預設周期更新詞向量文件,并采用更新后的詞向量文件進行微博突發(fā)事件的檢測,進一步保證了得到的微博突發(fā)事件的準確度。
圖3為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例一的結(jié)構(gòu)示意圖,如圖3所示,本實施例的裝置可以包括:第一關鍵詞獲取模塊31,和微博突發(fā)事件檢測模塊32;其中,第一關鍵詞獲取模塊31用于獲取與待檢測的微博突發(fā)事件對應的第一關鍵詞,微博突發(fā)事件檢測模塊32用于根據(jù)第一關鍵詞和第一關鍵詞關聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,第一關鍵詞關聯(lián)的詞向量文件是采用word2vec方法對訓練集中的訓練詞語進行訓練得到的,詞向量文件包括第一關鍵詞與其它訓練詞語之間的語義相似度。
本實施例的裝置,可以用于執(zhí)行圖1所示方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
圖4為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例二的結(jié)構(gòu)示意圖,如圖4所示,本實施例的裝置在圖3所示裝置結(jié)構(gòu)的基礎上,進一步地,微博突發(fā)事件檢測模塊32可以包括:第二關鍵詞獲取單元321、微博獲取單元322和微博突發(fā)事件獲取單元323,其中,第二關鍵詞獲取單元321用于根據(jù)詞向量文件獲取與第一關鍵詞語義相似度滿足第一閾值的第二關鍵詞;微博獲取單元322用于根據(jù)第一關鍵詞和第二關鍵詞,獲取包含第一關鍵詞和/或第二關鍵詞的多個微博;微博突發(fā)事件獲取單元323用于根據(jù)多個微博,得到微博突發(fā)事件。
微博突發(fā)事件獲取單元具體用于,
獲取多個微博被檢測出來的檢測時間;
獲取多個微博的相關度,將相關度位于前N名的N個微博作為微博突發(fā)事件的相關微博,并獲取相關微博的摘要;
獲取各相關微博的屬性,屬性包括:微博中出現(xiàn)的地點以及參與者,并獲取出現(xiàn)次數(shù)最多的目標地點和出現(xiàn)次數(shù)最多的目標參與者;
根據(jù)相關微博的語義表達,采用語義擴展的Embedding細胞詞庫和支持向量機SVM方法,獲取微博突發(fā)事件的分類;
采用基于SVM的情感分類方法,獲取微博突發(fā)事件的情感;
根據(jù)檢測時間、相關微博、摘要、目標地點、目標參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到微博突發(fā)事件。
本實施例的裝置,可以用于執(zhí)行上述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
圖5為本發(fā)明提供的基于語義擴展的微博突發(fā)事件檢測裝置實施例三的結(jié)構(gòu)示意圖,如圖5所示,本實施例的裝置在圖3所示裝置結(jié)構(gòu)的基礎上,進一步地,還可以包括:訓練詞語獲取模塊33和詞向量文件獲取模塊34,其中,訓練詞語獲取模塊33用于獲取多個文本,并對各文本進行文本分詞,得到訓練詞語;詞向量文件獲取模塊34用于采用word2vec方法對訓練詞語進行訓練,得到詞向量文件。
訓練詞語獲取模塊33還用于每隔預設周期重新獲取多個文本,并對各重新獲取的文本進行文本分詞,得到更新后的訓練詞語;詞向量文件獲取模塊34還用于采用word2vec方法對更新后的訓練詞語進行訓練,得到更新后的詞向量文件。
本實施例的裝置,可以用于執(zhí)行圖2所示方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
本領域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術(shù)人員應當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。