專利名稱:突發(fā)事件熱點話題的識別與評估裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本數(shù)據(jù)挖掘領(lǐng)域中的話題檢測與跟蹤技術(shù),確切的說,涉及一種在突發(fā)事件發(fā)生后,從互聯(lián)網(wǎng)相關(guān)新聞報道文本中,識別出與突發(fā)事件相關(guān)聯(lián)的熱點話題,并對識別出的熱點話題進行熱度評估的裝置與方法,用于為后續(xù)熱點話題的追蹤提供識別與評估該熱點話題的方法,屬于互聯(lián)網(wǎng)話題檢測與跟蹤TDT (Topic Detection andTracking)的技術(shù)領(lǐng)域。
背景技術(shù):
話題檢測與跟蹤TDT技術(shù)是一種信息處理技術(shù),旨在依據(jù)事件對語言文本信息流進行組織與利用的研究,也是為應(yīng)對信息過載問題而提出的一項應(yīng)用研究。TDT檢測與跟蹤的對象包括從特定時間和地點的事件、直到具備更多相關(guān)性外延的話題,相關(guān)的理論與·應(yīng)用研究也從傳統(tǒng)的時間識別,跨越到包含突發(fā)事件和后續(xù)報告的話題檢測與跟蹤。與一般信息檢索或信息過濾不同,TDT關(guān)心的話題不是一個大的領(lǐng)域,而是一件非常具體的事情。為了區(qū)別語言上的概念,TDT評測對話題(Topic)、事件(Event)、活動(Activity)、報道(Story)和主題(Subject)都給出了下述定義事件(Event):由某些原因和條件所引起、發(fā)生在特定時間和特定地點的涉及某些對象并可能伴隨某些必然結(jié)果的事情。如“2011年3月11日,日本發(fā)生9. O級地震”就是一個具體的事件?;顒?Activity):發(fā)生在特定時間和特定地點、且有共同目的和共同關(guān)注的相關(guān)事件的集合。例如選舉。報道(Story):與話題緊密相關(guān)的、包含兩個或多個獨立陳述某個事件子句的新聞片段。話題(Topic):由一個種子事件或活動,以及與其直接相關(guān)的事件或活動組成。如2011年3月11日日本地震后引發(fā)的核危機話題。主題(Subject):涵蓋或泛指的多個類似具體事件,或根本不涉及任何具體事件,其涉及的概念比話題更廣泛。如“海嘯”是個主題,而“日本3. 11地震引發(fā)海嘯”則屬于一個話題。TDT是1996年由美國國防部高級研究計劃署DARPA聯(lián)合相關(guān)科研機構(gòu)提出的,還設(shè)立了下述五項基礎(chǔ)性研究任務(wù)新聞廣播類報道的切分任務(wù),已知話題的跟蹤任務(wù),未知話題的檢測任務(wù),未知話題首次相關(guān)報道的檢測任務(wù),報道間的關(guān)聯(lián)檢測任務(wù)。隨著研究的逐步深入和發(fā)展,美國國家標準技術(shù)研究院NIST為TDT逐步建立了完整的任務(wù)評測體系。最新版本的TDT2004確定了該領(lǐng)域的下述六個主要研究任務(wù)(A)新事件檢測NED (New Event Detection):判斷一個新聞報道是否描述了一個新的事件;(B)報道關(guān)聯(lián)檢測SLD (Story Link Detection):判斷兩篇新聞報道是否描述了同一個話題;
(C)話題檢測TD (Topic Detection):由新話題的檢測和話題追蹤兩項任務(wù)共同完成;(D)話題跟蹤TT (Topic Tracking):對于某個已經(jīng)發(fā)現(xiàn)的話題,判斷后續(xù)的話題是否屬于該話題;(E)自適應(yīng)話題跟蹤ATT (Adaptive Topic Tracking):相對于話題追蹤的任務(wù),具備自學習能力;(F)層次話題檢測HTD (Hierarchical Topic Detection):話題之間有層次關(guān)系,即一個報道可以屬于多個話題,一個話題也可以包含其它話題。截止2004年,NIST提供的所有評測任務(wù)基本覆蓋了 TDT技術(shù)領(lǐng)域內(nèi)的大部分研
究課題。下面介紹話題檢測技術(shù)的發(fā)展現(xiàn)狀從1996年DARPA提出對新聞數(shù)據(jù)流的話題進行自動判斷和識別的新技術(shù)作為起源,到1997年TDT項目開始啟動,卡耐基-梅隆大學、馬薩諸塞大學、濱州大學等分別發(fā)表各自開發(fā)的系統(tǒng)研究報告,建立了一個針對TDT研究的預(yù)研語料庫,開始進入初步研究階段。1998年,NIST開始舉辦由語言數(shù)據(jù)聯(lián)盟LDC提供的TDT評測。目前,已經(jīng)公布的訓(xùn)練和測試語料包括TDT pilot Corpus、TDT2、TDT3、TDT4,這些語料都事先由人工對若干事件話題進行了標注作為標準答案。TDT技術(shù)每年進行一次公開評測,每次評測的側(cè)重點有所不同,1999年進行的第二次TDT評測加入了中文語料。國內(nèi)的一些研究機構(gòu)如中科院計算所、哈工大、東北大學、北大計算語言學研究所、清華等也開始進行TDT相關(guān)關(guān)鍵技術(shù)的研究。由于中文文本處理比其它語言文本要復(fù)雜很多,并且從研究方法到技術(shù)實現(xiàn)方案都存在很大差別,因此,目前國內(nèi)的現(xiàn)有技術(shù)主要側(cè)重于對中文文本的研究。近年來,海內(nèi)外的研究更多地側(cè)重于話題聚類算法的實現(xiàn)和效率的評估,以及話題跟蹤模型的研究。哈工大對熱門話題檢測技術(shù)的研究比較突出,提出了基于內(nèi)容分析的話題檢測算法;也有人分別研究博客和微博客領(lǐng)域中文熱門話題檢測與跟蹤技術(shù),提出了將詞性和詞頻相結(jié)合的相似度計算方法,提出了基于語義結(jié)構(gòu)和時序特征的話題檢測與跟蹤技術(shù)和基于多重特征的話題追蹤模型等。中科院計算所提出從網(wǎng)絡(luò)論壇中基于噪音過濾模型的突發(fā)話題抽取方法。在商業(yè)系統(tǒng)中,TDT技術(shù)的應(yīng)用也越來越多。大多數(shù)搜索引擎廠商都提供新聞搜索服務(wù),將新聞作為一個垂直搜索領(lǐng)域來開發(fā)應(yīng)用。如Google中文資訊、有道熱聞和百度新聞等都用到了 TDT中的相關(guān)技術(shù),但都未公開其技術(shù)細節(jié)。TDT是一個直接面向應(yīng)用的研究方向,到目前為止,該領(lǐng)域的大部分研究都是借用信息檢索的某些方法,通過調(diào)整某些參數(shù)來對系統(tǒng)進行優(yōu)化。目前,國內(nèi)外對于新聞熱點話題的檢測,主要側(cè)重在新聞事件網(wǎng)絡(luò)報道信息流中自動檢測出新話題,并對其后續(xù)報道進行追蹤。由于突發(fā)事件的發(fā)生往往導(dǎo)致互聯(lián)網(wǎng)信息的驟然超載,使得傳統(tǒng)新聞事件的信息獲取和分析處理方法效率明顯降低。近年來,對于熱點話題的研究逐漸成為國內(nèi)外關(guān)注的重點,但是,大多集中于從各·類事件的新聞中發(fā)現(xiàn)話題并過濾熱點進行跟蹤的方法。然而,針對突發(fā)事件,尤其是重大突發(fā)事件的新聞報道具有特殊的屬性,至今還沒有提出特殊的、有針對性的處理方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種突發(fā)事件熱點話題的識別與評估裝置和方法,本發(fā)明是基于對突發(fā)事件本身的產(chǎn)生機理和演化規(guī)律進行研究而提出的,它能在突發(fā)事件發(fā)生后,快速識別和評估網(wǎng)絡(luò)新聞的熱點話題,并對話題進行跟蹤和演化分析,用于提高突發(fā)事件應(yīng)急預(yù)測預(yù)警的效率,改善應(yīng)急管理的知識模型,并對提高應(yīng)急預(yù)案的針對性和有效性等方面都能給予有力支持。為了達到上述目的,本發(fā)明提供了一種突發(fā)事件熱點話題的識別與評估裝置,其特征在于該裝置設(shè)有下述四個 組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評估單元,其中文本獲取單元,用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點話題相關(guān)的新聞報道頁面并進行文本處理,形成一組新聞文檔集合存儲于正文數(shù)據(jù)庫,以供文本表示、話題聚類和話題評估三個單元進行后續(xù)處理;設(shè)有頁面爬取、正文提取和頁面屬性提取三個模塊,以及爬取信息數(shù)據(jù)庫與正文數(shù)據(jù)庫;文本表示單元,用于完成文檔的向量化處理利用改進的文本特征權(quán)值計算方法建立數(shù)學模型并進行計算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標注、命名實體識另IJ、詞性/停用詞過濾、特征權(quán)值計算和特征選擇共五個模塊,以及分詞詞典和停用詞表兩個數(shù)據(jù)庫;話題聚類單元,負責對來自前述單元的特征詞進行聚類處理將描述相同話題的文檔進行聚合,組成多個被稱為簇的子集,使得每個簇中的各個文檔之間相似性強,而簇間各文檔的相似性弱;再用每個簇中特征權(quán)值最高的2飛個詞語描述一個話題,得到突發(fā)事件發(fā)生后設(shè)定時間段內(nèi)人們關(guān)注的若干個話題;設(shè)有文檔相似性計算模塊和文檔聚類模塊;話題評估單元,負責對突發(fā)事件發(fā)生后設(shè)定時間內(nèi)人們關(guān)注的若干話題進行熱度評估,并按照評估值大小對熱點話題進行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有網(wǎng)絡(luò)特征計算、熱度評估、話題排序三個模塊和特征向量數(shù)據(jù)庫。為了達到上述目的,本發(fā)明還提供了一種采用本發(fā)明突發(fā)事件熱點話題的識別與評估裝置的工作方法,其特征在于所述方法包括下列操作步驟(I)文本獲取單元獲取設(shè)定事件的新聞報道頁面,再從爬取的報道頁面中提取標題、報道時間、報道源,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的網(wǎng)絡(luò)特征作為頁面屬性,并對該報道頁面進行篩選、解析、提取和剪裁新聞?wù)牡牟僮鳎纬尚侣勎臋n集合;(2)文本表示單元采用改進的文本特征權(quán)值計算方法對每篇新聞文檔進行向量化處理,形成文本特征值矩陣;(3)話題聚類單元對設(shè)定特征詞對應(yīng)的文本特征值矩陣進行聚合處理將話題相同的相似文檔聚合,組成多個簇,使得每個簇中的各文檔相似性強,而不同簇的各文檔相似性弱;再用每個簇中特征權(quán)值最高的2 5個特征詞描述一個話題,得到突發(fā)事件發(fā)生后設(shè)定時間段內(nèi)人們關(guān)注的若干個話題;(4)話題評估單元對話題進行熱度評估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個話題基礎(chǔ)上,對這些話題進行熱度評估和排序,為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。本發(fā)明在TDT的基本檢測和追蹤方法基礎(chǔ)上進行了三處創(chuàng)新與改進首先,考慮到突發(fā)事件應(yīng)急系統(tǒng)的快速反應(yīng)機制對前期文本挖掘的實時性要求較高,即在保證信息處理方法滿足設(shè)定準確度要求的前提下,具有較高的執(zhí)行效率?,F(xiàn)有方法主要基于新聞報道全文或只提取標題作為數(shù)據(jù)源,開展后續(xù)的數(shù)據(jù)處理,這樣處理的后果有可能導(dǎo)致效率降低或提取信息的不準確。本發(fā)明在對新聞文本內(nèi)容及結(jié)構(gòu)進行大量分析的前提下,提出先對整個新聞 報道文本進行必要的裁剪,這種對原始數(shù)據(jù)先刪除冗余的做法在保證準確度要求的前提下,大大提高了后續(xù)算法的運行效率,從而降低了計算時間和空間的復(fù)雜度。其次,大量話題的發(fā)現(xiàn)必須通過一定規(guī)范的文本表示才能進行快速分析和處理。在文本表示階段,本發(fā)明通過對傳統(tǒng)權(quán)值計算方法的改進,建立針對具有時效性、報道源分布性和報道數(shù)量海量性等特征的新聞文本的表示模型,相對于傳統(tǒng)模型具有更強的文本表示能力,為后續(xù)話題發(fā)現(xiàn)和熱點的過濾提供了準確度更高的數(shù)據(jù)集。最后,突發(fā)事件發(fā)生后,會涌現(xiàn)大量話題,但其是否成為人們的關(guān)注熱點,為決策者提供更有效的數(shù)據(jù)支持,還需要對話題進一步過濾。本發(fā)明通過對網(wǎng)絡(luò)新聞報道的時間屬性、報道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的提取和分析,提出熱點話題的評估方法,可對發(fā)現(xiàn)出的話題計算其在設(shè)定時間內(nèi)的熱度值,實現(xiàn)熱點話題的有效識別。本發(fā)明針對上述三個關(guān)鍵技術(shù)的研究所提出的裝置和方法,經(jīng)過以2011年日本大地震突發(fā)事件新聞報道作為數(shù)據(jù)源進行模型評估和相關(guān)算法的仿真實施試驗。實驗結(jié)果表明,本發(fā)明與現(xiàn)有技術(shù)比較,具有以下優(yōu)點通過與現(xiàn)有的全文提取方法進行對比實驗,對新聞報道正文的裁剪,只提取標題、導(dǎo)語及相關(guān)特征等信息就能夠作為熱點話題識別的有效樣本集;改進的特征權(quán)值計算模型與經(jīng)典模型比較,具有更好的執(zhí)行效率和適應(yīng)性更強的文本表示能力;通過對聚類出的話題利用模型進行熱度值評估,計算出的熱點話題符合預(yù)期效果,更適應(yīng)于突發(fā)事件新聞報道的特征??傊?,試驗的結(jié)果證明本發(fā)明裝置和方法都是成功的,實現(xiàn)了發(fā)明目的。在處理突發(fā)事件新聞報道文本過程中,其計算復(fù)雜度、結(jié)果準確性和實時性方面都具有良好性能。
圖I是本發(fā)明突發(fā)事件熱點話題的識別與評估裝置的結(jié)構(gòu)組成示意圖。圖2是本發(fā)明突發(fā)事件熱點話題的識別與評估裝置工作方法流程圖。圖3是本發(fā)明實施例中的步驟I的特征值比較曲線圖。圖4是本發(fā)明實施例中的步驟3中的話題聚類仿真結(jié)果示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明作進一步的詳細描述。參照圖1,介紹突發(fā)事件熱點話題與評估的裝置的結(jié)構(gòu)組成設(shè)有文本獲取單元、文本表示單元、話題聚類單元和話題評估單元四個組成部件,本發(fā)明的創(chuàng)新主要集中在文本獲取、文本表示和話題評估三個單元中。下面分別介紹之
(A)文本獲取單元用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點話題相關(guān)的新聞報道頁面并進行文本處理,形成一組新聞文檔集合存儲于正文數(shù)據(jù)庫,以供文本表示、話題聚類和話題評估三個單元進行后續(xù)處理;設(shè)有頁面爬取、正文提取和頁面屬性提取三個模塊,以及爬取信息數(shù)據(jù)庫與正文數(shù)據(jù)庫。這些模塊和數(shù)據(jù)庫的功能說明如下頁面爬取模塊,負責從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報道頁面,并將該新聞報道頁面以頁面文件形式存儲在本地磁盤上。正文提取模塊,負責從本地磁盤讀取爬取后的頁面文件,并利用該正文提取模塊中的正文提取算法對每篇頁面文件去除噪聲、提取新聞?wù)?,并從新聞?wù)闹蟹蛛x出導(dǎo)語 和其余部分,再對實際文本長度進行剪裁,將剪裁后的新聞文檔存儲于正文數(shù)據(jù)庫中,然后根據(jù)報道源的不同在正文數(shù)據(jù)庫中建立索引,以使邏輯上形成不同數(shù)據(jù)源所對應(yīng)的一組正文集。頁面屬性提取模塊,用于從本地磁盤讀取爬取后的頁面文件,并提取每篇新聞報道特有的包括標題、報道時間和報道源的屬性,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的包括該話題的報道頻率、報道源數(shù)量、時間跨度、用戶點擊率和評論數(shù)的網(wǎng)絡(luò)特征屬性,再存儲于正文數(shù)據(jù)庫中。爬取信息數(shù)據(jù)庫是用于存儲頁面爬取模塊所需的配置信息。正文數(shù)據(jù)庫是用于存儲新聞報道處理后的正文和頁面屬性信息。(B)文本表示單元用于完成文檔的向量化處理利用改進的文本特征權(quán)值計算方法建立數(shù)學模型并進行計算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標注、命名實體識別、詞性/停用詞過濾、特征權(quán)值計算和特征選擇共五個模塊,以及分詞詞典和停用詞表兩個數(shù)據(jù)庫。這些模塊和數(shù)據(jù)庫的功能如下分詞及詞性標注模塊,負責采用中科院漢語詞法分析系統(tǒng)ICTCLASdnstitute ofComputing Technology, Chinese Lexical Analysis System)中文分詞系統(tǒng),對存儲在正文數(shù)據(jù)庫中的每篇新聞報道的新聞文檔進行分詞和詞性標注,再將處理結(jié)果暫存于話題評估單元中的特征向量數(shù)據(jù)庫中。命名實體識別模塊,用于針對分詞后的新聞文檔,將其中描述突發(fā)事件特征的標識性詞語、即包括時間、地點、機構(gòu)和人物的關(guān)鍵信息提取出來,并保存于特征向量數(shù)據(jù)庫中。詞性/停用詞過濾模塊,用于對分詞及詞性標注后的新聞文檔中的詞語繼續(xù)進行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒有實際語義的詞語,再根據(jù)停用詞表篩選出能夠在某種程度與熱點話題內(nèi)容相關(guān)的詞語,并將其保存于特征向量數(shù)據(jù)庫中。特征權(quán)值計算模塊,使用基于向量空間模型改進的特征權(quán)值計算模型,對每篇新聞文檔中經(jīng)過上述三個模塊處理而形成的詞語集合進行向量化表示,形成特征權(quán)值矩陣并存儲于特征向量數(shù)據(jù)庫中;該特征權(quán)值矩陣的行和列分別表示各個新聞文檔及其對應(yīng)的不同文本的特征權(quán)值。特征選擇模塊,利用現(xiàn)有的特征抽取和屬性約簡算法對特征詞進行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對無用的特征詞;然后,將保留的特征詞存儲于特征向量數(shù)據(jù)庫中。分詞詞典數(shù)據(jù)庫是存儲用于分詞的中文詞語信息的數(shù)據(jù)庫。停用詞表數(shù)據(jù)庫是存儲用于詞性過濾和停用詞過濾的中文詞語數(shù)據(jù)庫。(C)話題聚類單元,負責對來自前述單元的特征詞進行聚類處理將描述相同話題的文檔進行聚合,組成多個被稱為簇的子集,使得每個簇中的各個文檔之間相似性強,而簇間各文檔的相似性弱;再用每個簇中特征權(quán)值最高的2飛個詞語描述一個話題,得到突發(fā)事件發(fā)生后設(shè)定時間段內(nèi)人們關(guān)注的若干個話題;設(shè)有文檔相似性計算模塊和文檔聚類模塊,它們的功能介紹如下文檔相似性計算模塊,采用向量夾角的余弦值計算公式計算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個新聞文檔之間的相似度,并將各個新聞文檔相似度值存儲于特征向量數(shù)據(jù)庫中。文檔聚類模塊,采用改進的聚類算法對相似度值高的文檔進行分組聚類將描述相同話題的相似文檔進行聚合,組成多個被稱為簇的子集,同時根據(jù)文本特征權(quán)值的大小提取2飛個特征詞作為描述該簇的數(shù)據(jù),并將提取的特征詞存儲于特征向量數(shù)據(jù)庫中。(D)話題評估單元,負責對突發(fā)事件發(fā)生后設(shè)定時間內(nèi)人們關(guān)注的若干話題進行熱度評估,并按照評估值大小對熱點話題進行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有 網(wǎng)絡(luò)特征計算、熱度評估、話題排序三個模塊和特征向量數(shù)據(jù)庫。這三個模塊和數(shù)據(jù)庫的功能如下網(wǎng)絡(luò)特征計算模塊,用于從正文數(shù)據(jù)庫和來自話題聚類單元的特征向量數(shù)據(jù)庫中提取并計算與熱點話題關(guān)注度相關(guān)的包括該話題的報道頻率、報道源數(shù)量、時間跨度、用戶點擊率和評論數(shù)的各個網(wǎng)絡(luò)特征屬性。熱度評估模塊,用于根據(jù)網(wǎng)絡(luò)特征計算模塊計算得到的各個網(wǎng)絡(luò)特征屬性,建立熱點話題的熱度評估函數(shù),并據(jù)此計算突發(fā)事件中每個話題在設(shè)定時間內(nèi)的熱度值。話題排序模塊,負責依據(jù)熱度評估模塊處理后的熱點話題的熱度值的大小,對其進行降序排序,以2飛個特征詞描述一個熱點話題的方式進行展現(xiàn),同時將排序結(jié)果數(shù)據(jù)存儲于特征向量數(shù)據(jù)庫中。特征向量數(shù)據(jù)庫,用于分別存儲文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評估單元中各模塊的處理結(jié)果。本發(fā)明基于對突發(fā)事件新聞報道文本內(nèi)容、結(jié)構(gòu)特點和報道源分布性等特征的研究,以及新聞報道的時間屬性、報道屬性、用戶關(guān)注度等網(wǎng)絡(luò)特征的分析,提出了突發(fā)事件熱點話題識別與評估裝置。并在該裝置中的文本獲取單元采用了新聞報道正文裁剪方法,在文本表示單元采用了改進的文本特征權(quán)值計算方法,在話題評估單元采用了話題的熱度評估方法。下面參照圖2,具體說明本發(fā)明方法的各個操作步驟步驟1,文本獲取單元獲取設(shè)定事件的新聞報道頁面,再從爬取的報道頁面中提取標題、報道時間、報道源,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的網(wǎng)絡(luò)特征作為頁面屬性,并對該報道頁面進行篩選、解析、提取和剪裁新聞?wù)牡牟僮?,形成新聞文檔集合。該步驟包括下列操作內(nèi)容(11)頁面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL (Uniform ResourceLocator)地址和其它參數(shù),通過頁面爬取程序下載設(shè)定突發(fā)事件的新聞報道頁面,并將這些報道頁面以頁面文件形式自動存儲于本地磁盤的文件夾。(12)頁面屬性提取模塊讀取爬取后的頁面文件,并從中提取每篇新聞報道包括標題、報道時間和報道源的頁面屬性,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的網(wǎng)絡(luò)特征,所述網(wǎng)絡(luò)特征包括報道頻率、報道源數(shù)量、報道時間跨度、用戶點擊率和評論數(shù),然后將提取的頁面屬性保存在正文數(shù)據(jù)庫中。(13)正文提取模塊利用正文提取算法對爬取后的頁面集合逐個進行頁面的篩選、解析、提取和剪裁正文的操作,并將處理后的文本存儲于正文數(shù)據(jù)庫,與其頁面屬性共同組成初步過濾后的新聞文檔集合。
(14)正文提取模塊對于正文數(shù)據(jù)庫中的每篇新聞文檔提取標題和導(dǎo)語,所述導(dǎo)語是標題的擴展,它是結(jié)合新聞報道的文本長度及內(nèi)容特征進行裁剪得到的,在長新聞報道正文文本中所選取的導(dǎo)語至多為前兩個自然段,由此實現(xiàn)對提取正文后整篇報道的先行裁剪。步驟2,文本表示單元采用改進的文本特征權(quán)值計算方法對每篇新聞文檔進行向量化處理,形成文本特征值矩陣。該步驟包括下列操作內(nèi)容(21)分詞及詞性標注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典,進行包括分詞、詞性標注的操作,以便從每篇新聞文檔中初步篩選出相對有效的詞語,即特征詞,并存儲于特征向量數(shù)據(jù)庫中。(22)命名實體識別模塊從分詞和詞性標注后的文本中,將描述突發(fā)事件特征的包括時間、地點、機構(gòu)和人物的標識性詞語,作為特征詞提取出來,并保存于特征向量數(shù)據(jù)庫中。(23)詞性/停用詞過濾模塊繼續(xù)進行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒有實際語義的詞語,再根據(jù)停用詞表篩選出能在某種程度與反映熱點話題內(nèi)容相關(guān)的詞語,并將其保存于特征向量數(shù)據(jù)庫中。(24)特征權(quán)值計算模塊是基于改進的特征權(quán)值計算模型,對經(jīng)過上述三個模塊處理而形成的新聞文檔集合進行向量化處理,將每篇新聞報道文檔對應(yīng)一個特征向量,最終形成文檔特征權(quán)值矩陣。該步驟中的文檔特征權(quán)值的計算包括下列操作內(nèi)容(24A)先用特征向量空間D=W^d2,…d」,…d|D|}表示全部新聞文檔集合,式中,D為該特征向量空間中的元素總數(shù),即文檔總數(shù)量;每個特征向量dj=、.,w2j, ---Wi1Ij)表
示序號為j的文檔,Wij e [O, I]表示序號為j的文檔中第i個特征詞的權(quán)值,自然數(shù)序號I和j的最大值分別為111和N,即文檔總數(shù)為N,全部文檔中的特征詞集合或特征詞總數(shù)為I,也就是111為該特征詞集合的度;tfij=tf (ti; dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率,Hi表示全部文檔中包含特征ti的文檔數(shù)。(24B)采用改進的文本特征權(quán)值計算模型中的第一個計算公式
■
w =(l + log2^)xlog2—父,+~計算得到每個特征詞的權(quán)值;式中,位置因子
Kj
Pij=Position (t^dj)表示特征詞h在文檔d」中的出現(xiàn)位置若位于標題,則Pfa ;若位于導(dǎo)語,則Pfb ;若ti位于正文,則Pij=O,且a, b e [O, I];實體因子Eij=Entity (ti; d」)表示由命名實體識別模塊識別的包括時間、地點、人物和機構(gòu)的特征詞的附加權(quán)值若\在dj中是命名實體名詞,則Eij=I ;否則,即&在dj中不是命名實體名詞,則Eij=O ; (l+log^fij)
為詞頻權(quán)值因子權(quán)利要求
1.一種突發(fā)事件熱點話題的識別與評估裝置,其特征在于該裝置設(shè)有下述四個組成部件文本獲取單元、文本表示單元、話題聚類單元和話題評估單元,其中 文本獲取單元,用于發(fā)生突發(fā)事件后,從各大新聞網(wǎng)站采集與該突發(fā)事件熱點話題相關(guān)的新聞報道頁面并進行文本處理,形成一組新聞文檔集合存儲于正文數(shù)據(jù)庫,以供文本表示、話題聚類和話題評估三個單元進行后續(xù)處理;設(shè)有頁面爬取、正文提取和頁面屬性提取三個模塊,以及爬取信息數(shù)據(jù)庫與正文數(shù)據(jù)庫; 文本表示單元,用于完成文檔的向量化處理利用改進的文本特征權(quán)值計算方法建立數(shù)學模型并進行計算,以形成文本特征權(quán)值矩陣;設(shè)有分詞及詞性標注、命名實體識別、詞性/停用詞過濾、特征權(quán)值計算和特征選擇共五個模塊,以及分詞詞典和停用詞表兩個數(shù)據(jù)庫; 話題聚類單元,負責對來自前述單元的特征詞進行聚類處理將描述相同話題的文檔進行聚合,組成多個被稱為簇的子集,使得每個簇中的各個文檔之間相似性強,而簇間各文檔的相似性弱;再用每個簇中特征權(quán)值最高的2飛個詞語描述一個話題,得到突發(fā)事件發(fā)生后設(shè)定時間段內(nèi)人們關(guān)注的若干個話題;設(shè)有文檔相似性計算模塊和文檔聚類模塊; 話題評估單元,負責對突發(fā)事件發(fā)生后設(shè)定時間內(nèi)人們關(guān)注的若干話題進行熱度評估,并按照評估值大小對熱點話題進行降序排序,為迅速把握后續(xù)的重要事件和研究話題的演化規(guī)律提供基礎(chǔ);設(shè)有網(wǎng)絡(luò)特征計算、熱度評估、話題排序三個模塊和特征向量數(shù)據(jù)庫。
2.根據(jù)權(quán)利要求I所述的裝置,其特征在于,所述文本獲取單元中的各個模塊和數(shù)據(jù)庫的功能如下 頁面爬取模塊,負責從指定網(wǎng)站下載與預(yù)設(shè)關(guān)鍵詞相關(guān)的新聞報道頁面,并將該新聞報道頁面以頁面文件形式存儲在本地磁盤上; 正文提取模塊,負責從本地磁盤讀取爬取后的頁面文件,并利用該正文提取模塊中的正文提取算法對每篇頁面文件去除噪聲、提取新聞?wù)?,并從新聞?wù)闹蟹蛛x出導(dǎo)語和其余部分,再對實際文本長度進行剪裁,將剪裁后的新聞文檔存儲于正文數(shù)據(jù)庫中,然后根據(jù)報道源的不同在正文數(shù)據(jù)庫中建立索引,以使邏輯上形成不同數(shù)據(jù)源所對應(yīng)的一組正文集; 頁面屬性提取模塊,用于從本地磁盤讀取爬取后的頁面文件,并提取每篇新聞報道特有的包括標題、報道時間和報道源的屬性,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的包括該話題的報道頻率、報道源數(shù)量、時間跨度、用戶點擊率和評論數(shù)的網(wǎng)絡(luò)特征屬性,再存儲于正文數(shù)據(jù)庫中; 爬取信息數(shù)據(jù)庫,用于存儲頁面爬取模塊所需的配置信息; 正文數(shù)據(jù)庫,用于存儲新聞報道處理后的正文和頁面屬性信息。
3.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述文本表示單元中的各個模塊和數(shù)據(jù)庫的功能如下 分詞及詞性標注模塊,負責采用中科院漢語詞法分析系統(tǒng)ICTCLAS中文分詞系統(tǒng),對存儲在正文數(shù)據(jù)庫中的每篇新聞報道的新聞文檔進行分詞和詞性標注,再將處理結(jié)果暫存于話題評估單元中的特征向量數(shù)據(jù)庫中; 命名實體識別模塊,用于針對分詞后的新聞文檔,將其中描述突發(fā)事件特征的標識性詞語、即包括時間、地點、機構(gòu)和人物的關(guān)鍵信息提取出來,并保存于特征向量數(shù)據(jù)庫中;詞性/停用詞過濾模塊,用于對分詞及詞性標注后的新聞文檔中的詞語繼續(xù)進行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒有實際語義的詞語,再根據(jù)停用詞表篩選出能夠在某種程度與熱點話題內(nèi)容相關(guān)的詞語,并將其保存于特征向量數(shù)據(jù)庫中;特征權(quán)值計算模塊,使用基于向量空間模型改進的特征權(quán)值計算模型,對每篇新聞文檔中經(jīng)過上述三個模塊處理而形成的詞語集合進行向量化表示,形成特征權(quán)值矩陣并存儲于特征向量數(shù)據(jù)庫中;該特征權(quán)值矩陣的行和列分別表示各個新聞文檔及其對應(yīng)的不同文本的特征權(quán)值; 特征選擇模塊,利用現(xiàn)有的特征抽取和屬性約簡算法對特征詞進行篩選保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對無用的特征詞;然后,將保留的特征詞存儲于特征向量數(shù)據(jù)庫中; 分詞詞典數(shù)據(jù)庫,以數(shù)據(jù)庫形式存儲用于分詞的中文詞語信息; 停用詞表數(shù)據(jù)庫,以數(shù)據(jù)庫形式存儲用于詞性過濾和停用詞過濾的中文詞語。
4.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述話題聚類單元中的兩個模塊功能如下 文檔相似性計算模塊,采用向量夾角的余弦值計算公式計算得到文本表示單元中的特征權(quán)值矩陣中各行所表示的各個新聞文檔之間的相似度,并將各個新聞文檔相似度值存儲于特征向量數(shù)據(jù)庫中; 文檔聚類模塊,采用改進的聚類算法對相似度值高的文檔進行分組聚類將描述相同話題的相似文檔進行聚合,組成多個被稱為簇的子集,同時根據(jù)文本特征權(quán)值的大小提取2^5個特征詞作為描述該簇的數(shù)據(jù),并將提取的特征詞存儲于特征向量數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求I所述的裝置,其特征在于所述話題評估單元中的各個模塊和數(shù)據(jù)庫的功能如下 網(wǎng)絡(luò)特征計算模塊,用于從正文數(shù)據(jù)庫和來自話題聚類單元的特征向量數(shù)據(jù)庫中提取并計算與熱點話題關(guān)注度相關(guān)的包括該話題的報道頻率、報道源數(shù)量、時間跨度、用戶點擊率和評論數(shù)的各個網(wǎng)絡(luò)特征屬性; 熱度評估模塊,用于根據(jù)網(wǎng)絡(luò)特征計算模塊計算得到的各個網(wǎng)絡(luò)特征屬性,建立熱點話題的熱度評估函數(shù),并據(jù)此計算突發(fā)事件中每個話題在設(shè)定時間內(nèi)的熱度值; 話題排序模塊,負責依據(jù)熱度評估模塊處理后的熱點話題的熱度值的大小,對其進行降序排序,以2飛個特征詞描述一個熱點話題的方式進行展現(xiàn),同時將排序結(jié)果數(shù)據(jù)存儲于特征向量數(shù)據(jù)庫中; 特征向量數(shù)據(jù)庫,用于分別存儲文本表示單元中各模塊的處理結(jié)果、話題聚類單元中各模塊的處理結(jié)果和話題評估單元中各模塊的處理結(jié)果。
6.一種采用權(quán)利要求I所述的突發(fā)事件熱點話題的識別與評估裝置的工作方法,其特征在于所述方法包括下列操作步驟 (1)文本獲取單元獲取設(shè)定事件的新聞報道頁面,再從爬取的報道頁面中提取標題、報道時間、報道源,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的網(wǎng)絡(luò)特征作為頁面屬性,并對該報道頁面進行篩選、解析、提取和剪裁新聞?wù)牡牟僮?,形成新聞文檔集合; (2)文本表示單元采用改進的文本特征權(quán)值計算方法對每篇新聞文檔進行向量化處理,形成文本特征值矩陣; (3)話題聚類單元對設(shè)定特征詞對應(yīng)的文本特征值矩陣進行聚合處理將話題相同的相似文檔聚合,組成多個簇,使得每個簇中的各文檔相似性強,而不同簇的各文檔相似性弱;再用每個簇中特征權(quán)值最高的2飛個特征詞描述一個話題,得到突發(fā)事件發(fā)生后設(shè)定時間段內(nèi)人們關(guān)注的若干個話題; (4)話題評估單元對話題進行熱度評估在已獲取了突發(fā)事件發(fā)生后人們關(guān)注的若干個話題基礎(chǔ)上,對這些話題進行熱度評估和排序,為把握重要事件后續(xù)發(fā)展和研究話題的演化提供基礎(chǔ)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(I)包括下列操作內(nèi)容 (11)頁面爬取模塊根據(jù)用戶預(yù)設(shè)的統(tǒng)一資源定位符URL地址和其它參數(shù),通過頁面爬取程序下載設(shè)定突發(fā)事件的新聞報道頁面,并將這些報道頁面以頁面文件形式自動存儲于本地磁盤的文件夾; (12)頁面屬性提取模塊讀取爬取后的頁面文件,并從中提取每篇新聞報道包括標題、報道時間和報道源的頁面屬性,以及與后續(xù)熱點話題關(guān)注度計算相關(guān)的網(wǎng)絡(luò)特征,所述網(wǎng)絡(luò)特征包括報道頻率、報道源數(shù)量、報道時間跨度、用戶點擊率和評論數(shù),然后將提取的頁面屬性保存在正文數(shù)據(jù)庫中; (13)正文提取模塊利用正文提取算法對爬取后的頁面集合逐個進行頁面的篩選、解析、提取和剪裁正文的操作,并將處理后的文本存儲于正文數(shù)據(jù)庫,與其頁面屬性共同組成初步過濾后的新聞文檔集合; (14)正文提取模塊對于正文數(shù)據(jù)庫中的每篇新聞文檔提取標題和導(dǎo)語,所述導(dǎo)語是標題的擴展,它是結(jié)合新聞報道的文本長度及內(nèi)容特征進行裁剪得到的,在長新聞報道正文文本中所選取的導(dǎo)語至多為前兩個自然段,由此實現(xiàn)對提取正文后整篇報道的先行裁剪。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(2)包括下列操作內(nèi)容 (21)分詞及詞性標注模塊執(zhí)行正文預(yù)處理根據(jù)現(xiàn)有的分詞詞典和停用詞詞典,進行包括分詞、詞性標注的操作,以便從每篇新聞文檔中初步篩選出相對有效的詞語,即特征詞,并存儲于特征向量數(shù)據(jù)庫中; (22)命名實體識別模塊從分詞和詞性標注后的文本中,將描述突發(fā)事件特征的包括時間、地點、機構(gòu)和人物的標識性詞語,作為特征詞提取出來,并保存于特征向量數(shù)據(jù)庫中; (23)詞性/停用詞過濾模塊繼續(xù)進行詞性篩選刪除其中包括單字、介詞、助詞、副詞和連詞的沒有實際語義的詞語,再根據(jù)停用詞表篩選出能在某種程度與反映熱點話題內(nèi)容相關(guān)的詞語,并將其保存于特征向量數(shù)據(jù)庫中; (24)特征權(quán)值計算模塊是基于改進的特征權(quán)值計算模型,對經(jīng)過上述三個模塊處理而形成的新聞文檔集合進行向量化處理,將每篇新聞報道文檔對應(yīng)一個特征向量,最終形成文檔特征權(quán)值矩陣; (25)特征選擇模塊利用現(xiàn)有的特征抽取和屬性約簡算法對特征詞繼續(xù)進行篩選,以降低文檔特征權(quán)值矩陣的復(fù)雜度保留其中反映突發(fā)事件信息屬性的重要特征詞,剔除相對無用的特征詞;再將保留的特征詞存儲于特征向量數(shù)據(jù)庫中。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于所述步驟(24)中的文檔特征權(quán)值的計算包括下列操作內(nèi)容(24A)先用特征向量空間D=WDdfdfdll^表示全部新聞文檔集合,式中,|D|為該特征向量空間中的元素總數(shù),即文檔總數(shù)量;每個特征向量dj= (Wlj, W2j,…Wlllj)表示序號為j的文檔,Wij e [O, I]表示序號為j的文檔中第i個特征詞的權(quán)值,自然數(shù)序號i和j的最大值分別為111和N,即文檔總數(shù)為N,全部文檔中的特征詞集合或特征詞總數(shù)為I,也就是111為該特征詞集合的度;tfij=tf (ti; dj)表示特征詞ti在文檔dj中出現(xiàn)的頻率,rii表示全部文檔中包含特征ti的文檔數(shù); (24B)采用改進的文本特征權(quán)值計算模型中的第一個計算公式
10.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(3)包括下列操作內(nèi)容 (31)計算兩個文檔間的距離文檔相似性計算模塊從文檔向量空間D=W1, d2,…dj,…(!㈣}中隨機選擇k個文檔作為初始的聚類中心C=Ic1, C2,…Ci,…ck},再計算每個文檔dj與每個初始聚類中心Ci的相似度Sim (dj, Ci)
11.根據(jù)權(quán)利要求6所述的方法,其特征在于所述步驟(4)包括下列操作內(nèi)容 (41)計算網(wǎng)絡(luò)特征,建立熱點話題的熱度評估函數(shù),并據(jù)此計算突發(fā)事件中每個話題在設(shè)定時間內(nèi)的整體熱度值,用于判斷系統(tǒng)識別出的話題能否成立先定義和量化話題在設(shè)定時間段內(nèi)的熱度屬性網(wǎng)絡(luò)特征計算模塊根據(jù)步驟(I)提取的與熱點話題關(guān)注度相關(guān)的包括話題的報道頻率、報道源數(shù)量、時間跨度、用戶點擊率和評論數(shù)的網(wǎng)絡(luò)特征,采用三種評估算法分別計算話題的時間屬性、報道屬性和用戶關(guān)注度屬性; (42)根據(jù)熱度評估計算公式計算話題熱度值根據(jù)對話題熱度屬性的分析,得到設(shè)定時間段Ui內(nèi)突發(fā)事件中話題h的熱度評估計算公式Hh(Ui)為
12.根據(jù)權(quán)利要求11所述的方法,其特征在于所述步驟(41)中,計算話題熱度屬性值的三種評估算法包括下列操作內(nèi)容 (41Α)計算話題的時間屬性基于話題熱度的時間衰減性,每個話題h在設(shè)定時間段Ui的時間屬性包括時間跨度I (Ui)和指數(shù)衰減因子其中,自然數(shù)I(Ui)表示所統(tǒng)計的時間段Ui中的時間單元數(shù),時間單元為小時、日、周或月;系數(shù)λ (λ >0)是控制時間段衰減的速度因子;fili )(41B)計算話題的報道屬性設(shè)話題h的報道時間段為七時,該話題h的報道頻率^是該話題h的報道數(shù)量f (Ui)與這段時間全部報道總數(shù)F(Ui)之比,報道廣度^■是該話 ( ,)題h的報道源數(shù)量g(Ui)與這段時間內(nèi)總報道源數(shù)量G(Ui)之比,在設(shè)定時間段內(nèi),話題報道數(shù)量越多,表明該話題越重要,關(guān)注程度及其報道頻度越高,同時該話題的報道廣度也越大;(41C)計算話題的用戶關(guān)注度利用用戶點擊閱讀數(shù)C(Ui)和評論參與數(shù)(Kui)反映用戶的關(guān)注度,且參與評論數(shù)對話題成為熱點的貢獻度更高;即用戶的點擊閱讀率In # Ui11,K或評論參與率^數(shù)值越高,說明該新聞報道涉及的話題受到用戶的關(guān)注度越大。
Kni)
全文摘要
一種突發(fā)事件熱點話題的識別與評估裝置和方法,該裝置設(shè)有文本獲取、文本表示、話題聚類和話題評估共四個單元組成部件,本發(fā)明創(chuàng)新特點是對新聞報道正文的裁剪只提取標題、導(dǎo)語及相關(guān)特征等信息,就將其作為熱點話題識別的有效樣本集;與現(xiàn)有的全文提取進行對比實驗的結(jié)果表明,兩者的結(jié)果相近似,但本發(fā)明操作大大簡化。還使用改進的特征權(quán)值計算模型,與經(jīng)典模型比較,前者的執(zhí)行效率更好和文本表示能力適應(yīng)性更強。對聚類出的話題利用模型評估熱度值,所計算出的熱點話題符合預(yù)期效果,更適應(yīng)于突發(fā)事件新聞報道的特征??傊?,本發(fā)明裝置和方法在處理突發(fā)事件新聞報道文本過程中,其計算復(fù)雜度、結(jié)果準確性和實時性方面都具有良好性能。
文檔編號G06F17/30GK102937960SQ201210327979
公開日2013年2月20日 申請日期2012年9月6日 優(yōu)先權(quán)日2012年9月6日
發(fā)明者陳莉萍, 杜軍平, 宋茂強 申請人:北京郵電大學