一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法

文檔序號(hào)：6402958閱讀：187來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法
技術(shù)領(lǐng)域：
本發(fā)明提出了一種基于可比時(shí)間段文檔集合中詞匯特征變化的突發(fā)事件檢測(cè)方法，通過(guò)分析可比時(shí)間段文檔集合中詞匯使用的不同，推斷可能的新事件，特別是突發(fā)事件。本發(fā)明屬于文本挖掘和信息檢索領(lǐng)域。
背景技術(shù)：
網(wǎng)絡(luò)信息化為人們傳遞消息、表達(dá)觀點(diǎn)、獲取信息提供了非常方便的手段。網(wǎng)絡(luò)已經(jīng)成為了信息的海洋。如何充分利用網(wǎng)絡(luò)信息資源，挖掘感興趣的信息，追蹤熱點(diǎn)事件，已經(jīng)成為人們非常關(guān)注的問(wèn)題。突發(fā)事件是一種可能給社會(huì)的安寧帶來(lái)沖擊的事件，歷來(lái)受到政府機(jī)構(gòu)和相關(guān)企業(yè)部門(mén)的高度重視。在當(dāng)今社會(huì)，網(wǎng)絡(luò)成為事件報(bào)道和信息傳播的主要途徑。一旦出現(xiàn)突發(fā)事件，通常會(huì)有大量的跟進(jìn)報(bào)道。從網(wǎng)上快速檢測(cè)突發(fā)事件、跟蹤事件的發(fā)展過(guò)程，對(duì)于政府決策和維護(hù)社會(huì)穩(wěn)定有著重要的作用。由于事件的突然性和特殊性，相關(guān)報(bào)道在用詞和語(yǔ)言的表達(dá)方面也會(huì)存在不同之處。本發(fā)明就是針對(duì)文檔集合，通過(guò)分析用詞規(guī)律的變化來(lái)檢測(cè)可能的突發(fā)事件。

發(fā)明內(nèi)容
為了便于說(shuō)明，先約定下列概念:內(nèi)容詞:這里指名詞、動(dòng)詞和形容詞。線索詞:也叫區(qū)分詞，是能夠用于檢測(cè)突發(fā)事件、并表達(dá)事件內(nèi)容的詞語(yǔ)。突發(fā)線索詞可以區(qū)分普通報(bào)道，特別是規(guī)律性的報(bào)道。在這里，突發(fā)線索詞屬于內(nèi)容詞。目標(biāo)文檔集:待挖掘的文檔集合。目標(biāo)文檔集包含若干文檔，每一文檔對(duì)應(yīng)于一篇網(wǎng)上時(shí)政新聞文章。比較文檔集:用于同目標(biāo)文檔集作對(duì)比的文檔集，通過(guò)對(duì)比來(lái)檢測(cè)目標(biāo)文檔在用詞方面的變化情況，以判斷目標(biāo)文檔是否含有突發(fā)事件。一般使用目標(biāo)文檔之前若干年同一時(shí)間段的新聞文章作為比較文檔集。突發(fā)事件:指目標(biāo)文檔集中與比較文檔集差異較大的一組文檔的集合共同表達(dá)的內(nèi)容，可以由一組線索詞來(lái)代表。在新聞文檔集合中，發(fā)生在A年份但在之前若干年份同一時(shí)期沒(méi)有發(fā)生的事件可以看成是突發(fā)事件。本發(fā)明的目的是提供一種簡(jiǎn)單的方法，在沒(méi)有人工干預(yù)的情況下，容易檢測(cè)目標(biāo)文檔集中所含的突發(fā)事件。本發(fā)明的原理是:利用某種度量方法計(jì)算目標(biāo)文檔集與比較文檔集中差異明顯的詞，將它們作為突發(fā)線索詞；再對(duì)線索詞集進(jìn)行聚類處理，然后將聚類結(jié)果映射到事件，從而找到目標(biāo)文檔集的突發(fā)事件。度量方法可以根據(jù)需要選擇，例如選擇TF-1DF方法，也可以是自己編寫(xiě)的其他方法。這里提到的TF-1DF方法是信息檢索中一種經(jīng)典的計(jì)算方法，其中，TF(t)表示詞t在一個(gè)文檔中出現(xiàn)的頻率(Term Frequency), DF(t)表示詞t在多少個(gè)文檔中出現(xiàn)(Document Frequency), IDF(t)稱為t的逆文檔頻率(Inverse DocumentFrequency),可以是DF(t)的倒數(shù)或其它變形的計(jì)算方法。如果詞t在某個(gè)文檔中出現(xiàn)得非常頻繁，同時(shí)，很少在其它文檔中出現(xiàn)，那么，這一個(gè)詞就是差異明顯的詞，也度量了所在文檔與其它文檔的某種差異。在后面的實(shí)施部分將詳細(xì)說(shuō)明TF和IDF的計(jì)算方法。本發(fā)明的技術(shù)方案如下:一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法(參圖1)，其特征是，包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站(例如騰訊、新浪)上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段(例如，某一天)的新聞文章，每一篇文章表示為一個(gè)文檔，時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合；對(duì)每一個(gè)文檔進(jìn)行預(yù)處理，包括漢語(yǔ)詞切分和詞性標(biāo)注；留下內(nèi)容詞，過(guò)濾掉其它詞；把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫(kù)中；步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集；對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理，保留內(nèi)容詞，將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中；這里的k值和r值可以根據(jù)需要設(shè)置；步驟三:從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞；步驟四:對(duì)線索詞集聚類，形成突發(fā)事件描述。所述的突發(fā)事件檢測(cè)方法，其特征是，所述步驟三，如下實(shí)現(xiàn):S31:從數(shù)據(jù)庫(kù)中獲取目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻；S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性；S33:根據(jù)一定的順序排列，把排在前面的部分詞語(yǔ)篩選出來(lái)，作為目標(biāo)文檔集的線索詞。所述的突發(fā)事件檢測(cè)方法，其特征是，所述步驟四，如下實(shí)現(xiàn):S41:構(gòu)建線索詞之間的相關(guān)度矩陣；S42:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上，對(duì)線索詞集進(jìn)行聚類處理，得到若干個(gè)子集合，每個(gè)子集合表示一個(gè)類，對(duì)應(yīng)于一個(gè)事件；S43:將聚類后得到的所有類別排序，然后再輸出排在前面的若干個(gè)類，表示若干個(gè)關(guān)發(fā)事件。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟一中，利用網(wǎng)絡(luò)爬蟲(chóng)每天從指定新聞網(wǎng)站爬取新聞文檔。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S32中，使用TF-1DF值作為信息衡量標(biāo)準(zhǔn)，也可以使用自己編寫(xiě)的其它信息衡量標(biāo)準(zhǔn)方法。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S33中，根據(jù)TF-1DF值降序進(jìn)行排列。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S41中，兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法可以是各種有效的方法，如互信息或卡方值等；若有η個(gè)線索詞，那么相關(guān)度矩陣就是ηΧη的矩陣，用V(nXn)表示；于是，V(i，j)便是線索詞i與線索詞j之間的相關(guān)度。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S42中，聚類的方法為現(xiàn)有的典型算法，如層次聚類或基于圖的聚類等，也可以是自己編寫(xiě)的其它聚類算法。所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S43中，按照詞語(yǔ)集合在目標(biāo)文檔集中頻次的大小降序，也可以是其它準(zhǔn)則。利用本發(fā)明提供的技術(shù)方案，可以將事件空間還原到線索詞空間，通過(guò)聚類的方法輸出的線索詞子集合，一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。

圖1是本發(fā)明所述方法流程示意2是突發(fā)事件獲取示例
具體實(shí)施例方式下面通過(guò)實(shí)例對(duì)本發(fā)明做進(jìn)一步的說(shuō)明，但是需要注意的是，給出實(shí)例的目的在于幫助進(jìn)一步理解本發(fā)明，但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi)，各種替換和修改都是可能的。因此，本發(fā)明不應(yīng)局限于實(shí)例所公開(kāi)的內(nèi)容，本發(fā)明要求保護(hù)的范圍以權(quán)利要求書(shū)界定的范圍為準(zhǔn)。假定本例中，目標(biāo)文檔集為2008年5月的新聞文檔集合(如，從騰訊網(wǎng)上獲取的時(shí)政新聞)，比較文檔集為2000年到2007年所有5月的新聞文檔的集合。那么需要檢測(cè)的突發(fā)事件是發(fā)生在2008年5月同時(shí)又不是每個(gè)5月周期性發(fā)生的事件。這里特別需要說(shuō)明的是，在實(shí)際分析突發(fā)事件時(shí)，一般以一天的新聞文檔集作為目標(biāo)文檔集，比較文檔集可以選取前后一定時(shí)間窗口的文檔。例如，若要分析2008年5月12日的突發(fā)事件，在選擇比較文檔集合時(shí)，可以選擇從5月12日前!■天(如前面10天)到后r天的文檔集合。首先需要獲得詞的信息，這里采用帶詞性信息的詞作為文檔中詞的信息。比如，有一個(gè)詞是“地震”，對(duì)應(yīng)的詞性是名詞(表示為“NN”)，那么用“地震#NN”代表這個(gè)特定的詞。只考慮文檔中的內(nèi)容詞。

衡量差異性的標(biāo)準(zhǔn)可以選擇現(xiàn)有的標(biāo)準(zhǔn)，也可以選擇自定義的標(biāo)準(zhǔn)。這里采用TF-1DF值作為標(biāo)準(zhǔn)。TF-1DF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高，并且在其他文章中很少出現(xiàn)，則認(rèn)為此詞具有很好的類別區(qū)分能力。本發(fā)明將具有區(qū)分能力的詞作為目標(biāo)文檔的突發(fā)線索詞。在計(jì)算TF的時(shí)候，將目標(biāo)文檔集合看成一個(gè)單獨(dú)的目標(biāo)文檔(一般以I天為I個(gè)集合單元)。不妨設(shè)其中的內(nèi)容詞出現(xiàn)的總次數(shù)為N，內(nèi)容詞t出現(xiàn)的次數(shù)為n，則詞t在目標(biāo)文檔集中的頻率為:丁丨.:(,)=專假設(shè)比較文檔集中的總文檔數(shù)為M，出現(xiàn)過(guò)詞t的文檔個(gè)數(shù)為m，則t的逆文檔頻率為:
,W!DF(Z1) = 1g,-
^ m于是，詞t的TF-1DF值的計(jì)算公式為，TF-1DF (t) = TF (t) XIDF(t)計(jì)算出每個(gè)詞語(yǔ)的TF-1DF值之后，根據(jù)TF-1DF值降序排列，將排在前面的k個(gè)詞語(yǔ)選做線索詞。有了線索詞集合，接下來(lái)要做的是計(jì)算線索詞之間的相關(guān)程度。這里以互信息為例?；バ畔?Mutual Information)是信息論里一種有用的信息度量，用于度量?jī)蓚€(gè)事件集合之間的相關(guān)性，相關(guān)性越大，互信息值也越大。通常用互信息作為特征詞和類別之問(wèn)的測(cè)度，如果兩個(gè)特征詞屬于同一類的話，它們的互信息量就大。兩個(gè)詞語(yǔ)Wl和《2的互信息的計(jì)算公式為:
權(quán)利要求
1.一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法，其特征是，包括如下步驟: 步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章，每一篇文章表示為一個(gè)文檔，時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合；對(duì)每一個(gè)文檔進(jìn)行預(yù)處理，包括漢語(yǔ)詞切分和詞性標(biāo)注；留下內(nèi)容詞，過(guò)濾掉其它詞；把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫(kù)中；步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集；對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理，保留內(nèi)容詞，將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中；步驟三:從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞；步驟四:對(duì)線索詞集聚類，形成突發(fā)事件描述。
2.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，所述步驟三，如下實(shí)現(xiàn): S31:從數(shù)據(jù)庫(kù)中獲取目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻； S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性； S33:根據(jù)一定的順序排列，把排在前面的部分詞語(yǔ)篩選出來(lái)，作為目標(biāo)文檔集的線索ο
3.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，所述步驟四，如下實(shí)現(xiàn): 541:構(gòu)建線索詞之間的相關(guān)度矩陣； 542:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上，對(duì)線索詞集進(jìn)行聚類處理，得到若干個(gè)子集合，每個(gè)子集合表示一個(gè)類，對(duì)應(yīng)于一個(gè)事件； 543:將聚類后得到的所有類別排序，然后再輸出排在前面的若干個(gè)類，表示若干個(gè)突發(fā)事件。
4.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，步驟一中，利用網(wǎng)絡(luò)爬蟲(chóng)每天從指定新聞網(wǎng)站爬取新聞文檔。
5.如權(quán)利要求2所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S32中，使用TF-1DF值作為信息衡量標(biāo)準(zhǔn)。
6.如權(quán)利要求5所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S33中，根據(jù)TF-1DF值降序進(jìn)行排列。
7.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S41中，兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法是互信息或卡方值。
8.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S42中，聚類的方法為層次聚類或基于圖的聚類。
9.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法，其特征是，步驟S43中，按照詞語(yǔ)集合在目標(biāo)文檔集中出現(xiàn)的頻次的大小降序。
全文摘要
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法。包括利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章；對(duì)每一個(gè)文檔進(jìn)行預(yù)處理，包括漢語(yǔ)詞切分和詞性標(biāo)注；留下內(nèi)容詞，過(guò)濾掉其它詞；獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集；對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理，保留內(nèi)容詞；從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞；對(duì)線索詞集聚類，形成突發(fā)事件描述。利用本發(fā)明提供的技術(shù)方案，可以將事件空間還原到線索詞空間，通過(guò)聚類的方法輸出的線索詞子集合，一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。
文檔編號(hào)G06F17/30GK103246728SQ20131017029
公開(kāi)日2013年8月14日申請(qǐng)日期2013年5月10日優(yōu)先權(quán)日2013年5月10日
發(fā)明者王厚峰, 張龍凱申請(qǐng)人:北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王厚峰;張龍凱
技術(shù)所有人：北京大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

高校突發(fā)事件的特征是相關(guān)技術(shù)

突發(fā)事件的特征相關(guān)技術(shù)

高校突發(fā)事件的特征相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法