專利名稱:一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明提出了一種基于可比時(shí)間段文檔集合中詞匯特征變化的突發(fā)事件檢測(cè)方法,通過(guò)分析可比時(shí)間段文檔集合中詞匯使用的不同,推斷可能的新事件,特別是突發(fā)事件。本發(fā)明屬于文本挖掘和信息檢索領(lǐng)域。
背景技術(shù):
網(wǎng)絡(luò)信息化為人們傳 遞消息、表達(dá)觀點(diǎn)、獲取信息提供了非常方便的手段。網(wǎng)絡(luò)已經(jīng)成為了信息的海洋。如何充分利用網(wǎng)絡(luò)信息資源,挖掘感興趣的信息,追蹤熱點(diǎn)事件,已經(jīng)成為人們非常關(guān)注的問(wèn)題。突發(fā)事件是一種可能給社會(huì)的安寧帶來(lái)沖擊的事件,歷來(lái)受到政府機(jī)構(gòu)和相關(guān)企業(yè)部門(mén)的高度重視。在當(dāng)今社會(huì),網(wǎng)絡(luò)成為事件報(bào)道和信息傳播的主要途徑。一旦出現(xiàn)突發(fā)事件,通常會(huì)有大量的跟進(jìn)報(bào)道。從網(wǎng)上快速檢測(cè)突發(fā)事件、跟蹤事件的發(fā)展過(guò)程,對(duì)于政府決策和維護(hù)社會(huì)穩(wěn)定有著重要的作用。由于事件的突然性和特殊性,相關(guān)報(bào)道在用詞和語(yǔ)言的表達(dá)方面也會(huì)存在不同之處。本發(fā)明就是針對(duì)文檔集合,通過(guò)分析用詞規(guī)律的變化來(lái)檢測(cè)可能的突發(fā)事件。
發(fā)明內(nèi)容
為了便于說(shuō)明,先約定下列概念:內(nèi)容詞:這里指名詞、動(dòng)詞和形容詞。線索詞:也叫區(qū)分詞,是能夠用于檢測(cè)突發(fā)事件、并表達(dá)事件內(nèi)容的詞語(yǔ)。突發(fā)線索詞可以區(qū)分普通報(bào)道,特別是規(guī)律性的報(bào)道。在這里,突發(fā)線索詞屬于內(nèi)容詞。目標(biāo)文檔集:待挖掘的文檔集合。目標(biāo)文檔集包含若干文檔,每一文檔對(duì)應(yīng)于一篇網(wǎng)上時(shí)政新聞文章。比較文檔集:用于同目標(biāo)文檔集作對(duì)比的文檔集,通過(guò)對(duì)比來(lái)檢測(cè)目標(biāo)文檔在用詞方面的變化情況,以判斷目標(biāo)文檔是否含有突發(fā)事件。一般使用目標(biāo)文檔之前若干年同一時(shí)間段的新聞文章作為比較文檔集。突發(fā)事件:指目標(biāo)文檔集中與比較文檔集差異較大的一組文檔的集合共同表達(dá)的內(nèi)容,可以由一組線索詞來(lái)代表。在新聞文檔集合中,發(fā)生在A年份但在之前若干年份同一時(shí)期沒(méi)有發(fā)生的事件可以看成是突發(fā)事件。本發(fā)明的目的是提供一種簡(jiǎn)單的方法,在沒(méi)有人工干預(yù)的情況下,容易檢測(cè)目標(biāo)文檔集中所含的突發(fā)事件。本發(fā)明的原理是:利用某種度量方法計(jì)算目標(biāo)文檔集與比較文檔集中差異明顯的詞,將它們作為突發(fā)線索詞;再對(duì)線索詞集進(jìn)行聚類處理,然后將聚類結(jié)果映射到事件,從而找到目標(biāo)文檔集的突發(fā)事件。度量方法可以根據(jù)需要選擇,例如選擇TF-1DF方法,也可以是自己編寫(xiě)的其他方法。這里提到的TF-1DF方法是信息檢索中一種經(jīng)典的計(jì)算方法,其中,TF(t)表示詞t在一個(gè)文檔中出現(xiàn)的頻率(Term Frequency), DF(t)表示詞t在多少個(gè)文檔中出現(xiàn)(Document Frequency), IDF(t)稱為t的逆文檔頻率(Inverse DocumentFrequency),可以是DF(t)的倒數(shù)或其它變形的計(jì)算方法。如果詞t在某個(gè)文檔中出現(xiàn)得非常頻繁,同時(shí),很少在其它文檔中出現(xiàn),那么,這一個(gè)詞就是差異明顯的詞,也度量了所在文檔與其它文檔的某種差異。在后面的實(shí)施部分將詳細(xì)說(shuō)明TF和IDF的計(jì)算方法。本發(fā)明的技術(shù)方案如下:一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法(參圖1),其特征是,包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站(例如騰訊、新浪)上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段(例如,某一天)的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語(yǔ)詞切分和詞性標(biāo)注;留下內(nèi)容詞,過(guò)濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫(kù)中;步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中;這里的k值和r值可以根據(jù)需要設(shè)置;步驟三:從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞;步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟三,如下實(shí)現(xiàn):S31:從數(shù)據(jù)庫(kù)中獲取 目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻;S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性;S33:根據(jù)一定的順序排列,把排在前面的部分詞語(yǔ)篩選出來(lái),作為目標(biāo)文檔集的線索詞。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟四,如下實(shí)現(xiàn):S41:構(gòu)建線索詞之間的相關(guān)度矩陣;S42:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上,對(duì)線索詞集進(jìn)行聚類處理,得到若干個(gè)子集合,每個(gè)子集合表示一個(gè)類,對(duì)應(yīng)于一個(gè)事件;S43:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個(gè)類,表示若干個(gè)關(guān)發(fā)事件。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟一中,利用網(wǎng)絡(luò)爬蟲(chóng)每天從指定新聞網(wǎng)站爬取新聞文檔。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標(biāo)準(zhǔn),也可以使用自己編寫(xiě)的其它信息衡量標(biāo)準(zhǔn)方法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S33中,根據(jù)TF-1DF值降序進(jìn)行排列。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S41中,兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法可以是各種有效的方法,如互信息或卡方值等;若有η個(gè)線索詞,那么相關(guān)度矩陣就是ηΧη的矩陣,用V(nXn)表示;于是,V(i,j)便是線索詞i與線索詞j之間的相關(guān)度。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S42中,聚類的方法為現(xiàn)有的典型算法,如層次聚類或基于圖的聚類等,也可以是自己編寫(xiě)的其它聚類算法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S43中,按照詞語(yǔ)集合在目標(biāo)文檔集中頻次的大小降序,也可以是其它準(zhǔn)則。利用本發(fā)明提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過(guò)聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。
圖1是本發(fā)明所述方法流程示意2是突發(fā)事件獲取示例
具體實(shí)施例方式下面通過(guò)實(shí)例對(duì)本發(fā)明做進(jìn)一步的說(shuō)明,但是需要注意的是,給出實(shí)例的目的在于幫助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)例所公開(kāi)的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書(shū)界定的范圍為準(zhǔn)。假定本例中,目標(biāo)文檔集為2008年5月的新聞文檔集合(如,從騰訊網(wǎng)上獲取的時(shí)政新聞),比較文檔集為2000年到2007年所有5月的新聞文檔的集合。那么需要檢測(cè)的突發(fā)事件是發(fā)生在2008年5月同時(shí)又不是每個(gè)5月周期性發(fā)生的事件。這里特別需要說(shuō)明的是,在實(shí)際分析突發(fā)事件時(shí),一般以一天的新聞文檔集作為目標(biāo)文檔集,比較文檔集可以選取前后一定時(shí)間窗口的文檔。例如,若要分析2008年5月12日的突發(fā)事件,在選擇比較文檔集合時(shí),可以選擇從5月12日前!■天(如前面10天)到后r天的文檔集合。首先需要獲得詞的信息,這里采用帶詞性信息的詞作為文檔中詞的信息。比如,有一個(gè)詞是“地震”,對(duì)應(yīng)的詞性是名詞(表示為“NN”),那么用“地震#NN”代表這個(gè)特定的詞。只考慮文檔中的內(nèi)容詞。
衡量差異性的標(biāo)準(zhǔn)可以選擇現(xiàn)有的標(biāo)準(zhǔn),也可以選擇自定義的標(biāo)準(zhǔn)。這里采用TF-1DF值作為標(biāo)準(zhǔn)。TF-1DF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力。本發(fā)明將具有區(qū)分能力的詞作為目標(biāo)文檔的突發(fā)線索詞。在計(jì)算TF的時(shí)候,將目標(biāo)文檔集合看成一個(gè)單獨(dú)的目標(biāo)文檔(一般以I天為I個(gè)集合單元)。不妨設(shè)其中的內(nèi)容詞出現(xiàn)的總次數(shù)為N,內(nèi)容詞t出現(xiàn)的次數(shù)為n,則詞t在目標(biāo)文檔集中的頻率為:丁丨.:(,)=專假設(shè)比較文檔集中的總文檔數(shù)為M,出現(xiàn)過(guò)詞t的文檔個(gè)數(shù)為m,則t的逆文檔頻率為:
,W!DF(Z1) = 1g,-
^ m于是,詞t的TF-1DF值的計(jì)算公式為,TF-1DF (t) = TF (t) XIDF(t)計(jì)算出每個(gè)詞語(yǔ)的TF-1DF值之后,根據(jù)TF-1DF值降序排列,將排在前面的k個(gè)詞語(yǔ)選做線索詞。有了線索詞集合,接下來(lái)要做的是計(jì)算線索詞之間的相關(guān)程度。這里以互信息為例?;バ畔?Mutual Information)是信息論里一種有用的信息度量,用于度量?jī)蓚€(gè)事件集合之間的相關(guān)性,相關(guān)性越大,互信息值也越大。通常用互信息作為特征詞和類別之問(wèn)的測(cè)度,如果兩個(gè)特征詞屬于同一類的話,它們的互信息量就大。兩個(gè)詞語(yǔ)Wl和《2的互信息的計(jì)算公式為:
權(quán)利要求
1.一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法,其特征是,包括如下步驟: 步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語(yǔ)詞切分和詞性標(biāo)注;留下內(nèi)容詞,過(guò)濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫(kù)中; 步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中; 步驟三:從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞; 步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。
2.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟三,如下實(shí)現(xiàn): S31:從數(shù)據(jù)庫(kù)中獲取目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻; S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性; S33:根據(jù)一定的順序排列,把排在前面的部分詞語(yǔ)篩選出來(lái),作為目標(biāo)文檔集的線索ο
3.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟四,如下實(shí)現(xiàn): 541:構(gòu)建線索詞之間的相關(guān)度矩陣; 542:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上,對(duì)線索詞集進(jìn)行聚類處理,得到若干個(gè)子集合,每個(gè)子集合表示一個(gè)類,對(duì)應(yīng)于一個(gè)事件; 543:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個(gè)類,表示若干個(gè)突發(fā)事件。
4.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,步驟一中,利用網(wǎng)絡(luò)爬蟲(chóng)每天從指定新聞網(wǎng)站爬取新聞文檔。
5.如權(quán)利要求2所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標(biāo)準(zhǔn)。
6.如權(quán)利要求5所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S33中,根據(jù)TF-1DF值降序進(jìn)行排列。
7.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S41中,兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法是互信息或卡方值。
8.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S42中,聚類的方法為層次聚類或基于圖的聚類。
9.如權(quán)利要求1所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S43中,按照詞語(yǔ)集合在目標(biāo)文檔集中出現(xiàn)的頻次的大小降序。
全文摘要
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法。包括利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語(yǔ)詞切分和詞性標(biāo)注;留下內(nèi)容詞,過(guò)濾掉其它詞;獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語(yǔ)切詞和詞性標(biāo)注處理,保留內(nèi)容詞;從數(shù)據(jù)庫(kù)中提取目標(biāo)文檔集中的所有線索詞;對(duì)線索詞集聚類,形成突發(fā)事件描述。利用本發(fā)明提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過(guò)聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。
文檔編號(hào)G06F17/30GK103246728SQ20131017029
公開(kāi)日2013年8月14日 申請(qǐng)日期2013年5月10日 優(yōu)先權(quán)日2013年5月10日
發(fā)明者王厚峰, 張龍凱 申請(qǐng)人:北京大學(xué)