專利名稱:一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能信息處理技術(shù)領(lǐng)域,具體涉及一種自動計算互聯(lián)網(wǎng)上 主題演化趨勢的方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)上文本信息的爆炸性增長,人們越來越難以從海量文本信息中及時獲得感興趣的主題(事件)信息。主題檢測技術(shù)(Topic Detection,也可以 稱為話題4企測技術(shù),事件;險測技術(shù))致力于實(shí)時地從海量文本中自動檢測到主 題,將主題信息提供給用戶,用戶通過瀏覽主題就能了解海量文本的重要內(nèi)容。 根據(jù)國際主題檢測與追蹤小組的定義(參見美國國家標(biāo)準(zhǔn)技術(shù)局?jǐn)M定的 The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan, version 1.1, http:〃www.nistgov/speech/tests/tdt/),主題由一系列直接相關(guān)的 事件或活動組成,事件則是在特定期間特定地點(diǎn)發(fā)生的事情。例如"2006年10 月份朝鮮核試驗(yàn)"這個主題可以包括朝鮮核試驗(yàn)活動,世界各國的反應(yīng)以及聯(lián) 合國對朝鮮的制裁等相關(guān)報道。在應(yīng)用中可以根據(jù)用戶的需求利用閾值調(diào)整的 方法對主題的概念進(jìn)行延伸或縮小。 一般不對主題和事件加以明確區(qū)分,兩者 相互通用。目前的主題檢測算法主要是對文本聚類算法的改進(jìn)和延伸,檢測的目的就 是要按照文本表達(dá)的主題將其進(jìn)行聚類。在線增量式聚類算法(INCR)是在線主 題才全觀'j的一種;克4亍算法,參見文章Topic detection and tracking pilot study: final report(作者為J. Allan等,發(fā)表于1998年出版的論文集Proceedings of DARPA Broadcast News Transcription and Understanding Workshop )和文章A study on retrospective and on-line event detection(作者為Y. Yang, T.Pierce和J. Carbonell,發(fā)表于1998年出版的論文集Proceedings of ACM SIGIR )。該算法將當(dāng)前文檔 分別與已經(jīng)形成的主題類簇進(jìn)行相似性比較。如果與某個主題類簇足夠相似 (與所有主題的最大相似度值大于設(shè)定的茱個閾值),那么將該文檔加入該主 題類簇中。如果沒有找到足夠相似的主題類簇(與所有主題的最大相似度值小 于設(shè)定的某個閾值),那么以該文檔為基礎(chǔ)創(chuàng)建一個新的主題類簇。文檔與主 題類簇之間的相似度一般通過標(biāo)準(zhǔn)的余弦相似度公式進(jìn)行計算,其中文本特征 的表示通常釆用詞,詞的權(quán)重為TF.IDF , TF為詞頻,IDF為詞的倒排索引頻 率。針對以上增量式聚類算法,有不少研究單位提出了改進(jìn)。文章Topic detection, a new application for lexical chaining (作者RHatch, N. Strokes和 J.Carthy,發(fā)表于2000年出版的論文集British Computer Society IRSG2000 ) 利用基于時間的選擇模型,這種模型考慮到一個新聞主題的發(fā)展過程通常很 快,之后該主題將會被其他新主題所取代,因此僅將當(dāng)前新聞文檔和以前若干 個最近更新過的主題類簇進(jìn)行比較,這種方法也是一種時間加窗處理??▋?nèi)基 梅隆大學(xué)在算法中采用了 一種自適應(yīng)的IDF計算方法,利用動態(tài)變化的與主題 相關(guān)的IDF值改進(jìn)主題才t測結(jié)果,參見文章A study on retrospective and on-line event detection (作者為Y. Yang, T.Pierce和J. Carbonell,發(fā)表于1998年出版的 論文集Proceedings of ACM SIGIR )和文章Learning approaches for detecting and tracking news events (作者為Y. Yang等人,發(fā)表于1999年出版的論文集IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval)。 IBM則提出了一種不同的主題類簇采用不同的IDF值的方法,對 于某個主題類簇中出現(xiàn)的詞的IDF值隨著文檔的變化不斷調(diào)整,參見文章Story segmentation and topic detection in the broadcast news domain (作者 S.Dharanipragada等,發(fā)表于1999年出版的論文集Proceedings of the DARPA Broadcast News Workshop )。除了對IDF值計算方法的改進(jìn)之外,主題的演化 也要求閾值隨之動態(tài)調(diào)整。馬薩諸塞州立大學(xué)提出了基于時間的閾值模型,該模型利用線性函數(shù)調(diào)整聚類閾值,使得在時間上距離某個主題越遠(yuǎn)的新聞報道越乂,力口入"i亥主題,參見文章On-line new event detection and tracking ( 4乍者J. Allan, R. Papka和V. Lavrenko,發(fā)表于1998年出版的論文集Proceedings of ACMSIGIR)。此外,還有人將機(jī)器學(xué)習(xí)的最新成果應(yīng)用于主題檢測,取得了 較好的結(jié)果,在此不——列舉。由于互聯(lián)網(wǎng)上的文本信息具有很強(qiáng)的時效性,其反映的主題隨著時間在不 斷發(fā)展變化,可能分裂為多個主題,或者和其它的相關(guān)主題合并成一個更大的 主題,也可能在某一個時間點(diǎn)消亡。比如朝鮮核試驗(yàn)這個主題在不同時間點(diǎn)具 有不同的內(nèi)容,其演化趨勢可能為核試驗(yàn)活動-各國譴責(zé)-聯(lián)合國制裁-朝鮮拒 絕制裁等,同時朝鮮核試驗(yàn)這個主題也與朝核問題六方會談等主題有密切關(guān) 聯(lián)。為了分析主題的演化趨勢,文章Event threading wkhin news topics (作者 為R. Nallapati等,發(fā)表于2004年出版的論文集Proceedings of ACM CIKM) 嘗試對屬于同一主題的文檔進(jìn)行分析,檢測到多個子事件以及它們之間的依賴 關(guān)系,然而這種方式無法在時間維上分析主題的演化趨勢。文章Discovering evolutionary theme patterns from text-an exploration of temporal text mining ("(乍者 為Q. Mei和C. Zhai,發(fā)表于2005年出版的論文集Proceedings of ACM SIGKDD)利用概率模型檢測文本主題以及發(fā)現(xiàn)主題之間的關(guān)系,該方法需要 大量的訓(xùn)練文檔集,訓(xùn)練過程比較慢。實(shí)際應(yīng)用中對主題的檢測以及主題演化趨勢的分析都要求實(shí)時進(jìn)行,其難 點(diǎn)在于處理的文檔數(shù)據(jù)量很大,文檔數(shù)據(jù)類型復(fù)雜,包括新聞,論壇,博客等 形式的文本。以上方法都基于特定的前提假設(shè),只能對少量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行一 定的分析與挖掘,無法滿足實(shí)際應(yīng)用的需求。發(fā)明內(nèi)容針對現(xiàn)有主題^:測系統(tǒng)無法分析計算主題演化趨勢的缺陷,本發(fā)明的目的 是通過實(shí)時計算不同時間4殳內(nèi)主題之間的相似性關(guān)系從而分析出主題隨時間的演化趨勢,并可繪制出主題演化趨勢圖。該方法具有高效性、魯棒性等優(yōu)點(diǎn), 具有很大的實(shí)用價值。為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是 一種自動計算互聯(lián)網(wǎng)上 主題演化趨勢的方法,包括以下步驟(1) 釆集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理;(2) 檢測主題事件,并對主題進(jìn)行淘汰和排序;(3 )定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān) 系,得到與當(dāng)前時間段內(nèi)每個主題相同的主題以及與該主題相關(guān)的主題; (4)根據(jù)給定的時間范圍取出主題信息,得出主題演化趨勢。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(l)中可利用各種網(wǎng) 頁采集工具對互聯(lián)上的文本信息進(jìn)行實(shí)時采集。根據(jù)用戶需求,這些文本 信息可能是新聞文本,也可以是論壇、博客等其它形式的文本。由于網(wǎng)頁 文本包含很多的HTML標(biāo)記,以及廣告、導(dǎo)航條等無關(guān)信息,因此需要對 下載的網(wǎng)頁要進(jìn)行HTML標(biāo)記過濾以及正文提取,時間提取等預(yù)處理過程, 盡可能地獲得網(wǎng)頁的重要文本內(nèi)容以及時間標(biāo)記。時間標(biāo)記指文本的發(fā)表 時間,在無法得到文本發(fā)表時間的情況下,可由網(wǎng)頁的更新時間等替代。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(2)的主題檢測算法 采用專利《一種自動檢測新聞事件的方法》(發(fā)明人路斌、楊霧、楊建 武、萬小軍、吳於萏,申請日2006年2月14日,申請?zhí)?00610007219.X ) 中的方法,主要步驟列舉如下2.1從數(shù)據(jù)源讀入一篇文本報道,并對報道進(jìn)行預(yù)處理;2.2計算文本報道與已檢測到的主題事件、或者報道與報道間的相似度,確定與當(dāng)前才艮道相關(guān)的主題事件,并對入相關(guān)主題;2.3若報道被歸入某個現(xiàn)有主題事件,則調(diào)整該事件;若報道無法歸入 現(xiàn)有事件,則將其列為新檢測到的事件;2.4對已檢測到的事件進(jìn)行兩兩比較,合并相關(guān)事件,并重新調(diào)整事件,以及報道和事件的相似度;2.5對各事件內(nèi)不滿足限制條件的報道進(jìn)行淘汰,并調(diào)整事件;通過時 間限制,事件列表中每個事件只包含一定期間范圍之內(nèi)的文檔;2.6比較當(dāng)前的事件數(shù)量與事件窗口大小,若事件數(shù)量大于事件窗口大 小,則進(jìn)行事件排序和淘汰;經(jīng)過排序和淘汰之后,事件列表中只保存一 定期間范圍之內(nèi)產(chǎn)生的熱點(diǎn)事件;2.7輸出檢測結(jié)果;步驟(2)中的主題檢測算法得到的主題列表中全部為當(dāng)前最新主題。進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(3)中時間段大小由 系統(tǒng)設(shè)定,可以是數(shù)個小時或者一天;對當(dāng)前時間段內(nèi)任一主題與前一時間段內(nèi)所有主題進(jìn)行計算,得到與 該主題相同的主題以及與該主題相關(guān)的主題;保存當(dāng)前時間4爻內(nèi)主題信息以及每一主題相應(yīng)的相同主題標(biāo)識和相關(guān) 主題標(biāo)識。保存當(dāng)前時間段內(nèi)主題信息時,在該主題信息中只保存當(dāng)前時 間段內(nèi)的文檔列表。進(jìn)一步,為給定主題獲得相同主題和相關(guān)主題,其中相同主題指在內(nèi) 容上基本一致的主題,相關(guān)主題則是指內(nèi)容有關(guān)聯(lián)的主題,包括以下步驟3.1分別計算給定主題與前一時間段內(nèi)所有主題的相似度值;3.2對相似度值從大到小排序,并按以下原則確定相關(guān)主題A:如果最大的相似度值大于或等于設(shè)定的相同主題閾值tsamet。pic3,么對應(yīng)的主題為給定主題的相同主題;對于排序列表中從第2個開始的后續(xù)k 個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值 t吐環(huán)t。pic,那么對應(yīng)的主題為給定主題的相關(guān)主題,其中 0〈trele窗topic〈tsametopic〈1 , k為正整數(shù),B:如果最大的相似度值小于設(shè)定的相同主題閾值tsamet。pic,么給定主題 沒有相同主題;對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與上一步驟類似的判斷,確定給定主題的相關(guān)主題。進(jìn)一步,計算給定主題與前一時間段內(nèi)所有主題的相似度值時,可采用奈弦公式進(jìn)行計算,也可采用Jaccard公式、Dice公式等主流相似度計算公式進(jìn)行計算,其中利用余弦公式計算主題Ci和Cj之間的相似度值時,首先以中心向量5,與5」表示主題,然后利用如下公式進(jìn)行計算<formula>formula see original document page 11</formula>其中1 Si,j^i,的,每個中心向量的每一維為主題中的 一個詞,n為詞的個數(shù), 詞t權(quán)重為tft*idft, tft為詞t在主題所有文檔中的平均頻率,idft為詞t的倒排 文檔頻率。進(jìn)一步,相同主題閾值Lsametopic設(shè)為0.6,相關(guān)主題閾值^^加。—設(shè)為0.4,最大相關(guān)主題個數(shù)k設(shè)為2。進(jìn)一 步,定期計算并保存當(dāng)前時間段內(nèi)主題與前一 時間段內(nèi)主題之間的關(guān)系, 一般l小時或2小時執(zhí)行一次。進(jìn)一步,還包括繪制主題演化趨勢圖的步驟,具體操作為在客戶端利用畫圖顯示程序繪制主題演化趨勢圖時,客戶端為網(wǎng)頁瀏覽器 (包括IE瀏覽器,火狐瀏覽器等),畫圖顯示程序?yàn)镕lash或者Java Applet等; 每一列表示某一時間段對應(yīng)的前m個主題(m—般設(shè)為20),相鄰兩列之間的 主題存在相同或相關(guān)關(guān)系;用不同的顏色和粗細(xì)表示主題的相對重要性(通過 比較主題包含的文檔數(shù)量獲得);相同的主題在同一行,相關(guān)的主題盡量靠近。本發(fā)明還提供 一 種自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng),包括以下 裝置文本采集裝置,主題檢測裝置,主題關(guān)系計算裝置,繪圖裝置;其中,文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時采集文本信息,包括新聞文 本、論壇文本以及博客文本等,并對這些文本進(jìn)行預(yù)處理,得到文本正文 及時間標(biāo)記;主題檢測裝置,用于實(shí)時檢測主題事件,并對主題加以淘汰和排序,不斷更新主題列表,使得當(dāng)前主題列表中保留重要的和較新的主題;主題關(guān)系計算裝置,用于定期計算當(dāng)前時間段主題與前一時間段主題的主 題關(guān)系,得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題,并保 存當(dāng)前時間段內(nèi)主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識。進(jìn)一步,還包括繪圖裝置,用于根據(jù)用戶需求取出多個時間段內(nèi)的主題信息以及關(guān)系,在客戶端繪制出主題演化趨勢圖,供用戶瀏覽與查看;其中客戶 端為網(wǎng)頁瀏覽器(包括正瀏覽器,火狐瀏覽器等),畫圖顯示程序?yàn)镕lash或 者Java Applet等;每一列表示某個時間段內(nèi)前m個主題(m —般設(shè)為20 ),相 鄰兩列之間的主題存在相同或相關(guān)關(guān)系;用不同的顏色和粗細(xì)表示主題的相對 重要性(通過比較主題包含的文檔數(shù)量獲得);相同的主題在同一行,相關(guān)的 主題盡量靠近。本發(fā)明的效果在于基于已有的主題檢測系統(tǒng),定期計算當(dāng)前時間段 主題與前一時間段內(nèi)主題的關(guān)系,并加以保存。采用的計算方法直接,能 夠?qū)Ω鞣N類型的數(shù)據(jù)進(jìn)行處理。該方法的計算和存儲效率都很高,適合實(shí)時對海量文本數(shù)據(jù)進(jìn)行分析和挖掘,具有很強(qiáng)的實(shí)用性。
圖1是本發(fā)明所述方法的流程圖;圖2-圖5是利用Flash繪制出的 一個主題演化圖實(shí)例,其中 圖2顯示了主題"英法德繞過美國向安理會散發(fā)伊朗核問題決議草案"的位 置及其包含的文檔列表;圖3顯示了主題"俄外長歐洲國家制裁伊朗草案不符合大國協(xié)議,,的位置及其包含的文檔列表;圖4顯示了主題"六國開始磋商制裁伊朗決議草案"的位置及其包含的文檔列表;圖5顯示了主題"伊朗裝第二批鈾濃縮設(shè)備"的位置及其包含的文檔列表。
具體實(shí)施方式
下面結(jié)合實(shí)施例和附圖進(jìn)一步闡明本發(fā)明所述的方法如圖l所示, 一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,包括以下步驟(1) 采集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理;本實(shí)施例中利用方正雷達(dá)網(wǎng)頁采集工具對互聯(lián)上的新聞文本信息進(jìn)行 實(shí)時采集,采集的文本來源包括新浪,搜狐,網(wǎng)易等十幾個主要新聞網(wǎng)站。 由于網(wǎng)頁文本包含很多的HTML標(biāo)記,以及廣告、導(dǎo)航條等無關(guān)信息,因 此對下載的網(wǎng)頁要進(jìn)行HTML標(biāo)記過濾以及正文提取,時間提取等預(yù)處理 過程,獲得網(wǎng)頁的重要文本內(nèi)容以及時間標(biāo)記。時間標(biāo)記指文本的發(fā)表時 間,在無法得到文本發(fā)表時間的情況下,可由網(wǎng)頁的更新時間等替代。(2) 實(shí)時檢測主題事件并對主題淘汰和排序; 對文本數(shù)據(jù)進(jìn)行實(shí)時主題檢測的具體方法如下1 )從數(shù)據(jù)源讀入一篇文本報道,并對報道進(jìn)行預(yù)處理;2) 計算文本報道與已檢測到的主題事件、或者報道與報道間的相似度, 確定與當(dāng)前報道相關(guān)的主題事件,并對入相關(guān)主題;3) 若報道被歸入某個現(xiàn)有主題事件,則調(diào)整該事件;若報道無法歸入 現(xiàn)有事件,則將其列為新檢測到的事件;4) 對已檢測到的事件進(jìn)行兩兩比較,合并相關(guān)事件,并重新調(diào)整事件, 以及報道和事件的相似度;5) 對各事件內(nèi)不滿足限制條件的報道進(jìn)行淘汰,并調(diào)整事件;本實(shí)施例中,通過時間限制,事件列表中每個事件只包含24小時之內(nèi)的文檔6) 比較當(dāng)前的事件數(shù)量與時間窗口大小,若事件數(shù)量大于事件窗口大 小,則進(jìn)行事件排序和淘汰;本實(shí)施例中,事件窗口大小為100,也就是經(jīng)過事件排序和淘汰,事件列表中只保留包含24小時之內(nèi)的文檔數(shù)量最多的100個事件。7)輸出檢測結(jié)果;(3 )定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān) 系,得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題,并保 存當(dāng)前主題信息以及計算得到的主題關(guān)系;定期可以每隔一小時進(jìn)行一次, 時間段由系統(tǒng)設(shè)定,可以是數(shù)個小時以前或者一天,此實(shí)施例采用一天。 定期計算并保存當(dāng)前主題與前一天主題之間的主題關(guān)系的具體方法如下1 )取出前一天的主題信息;2)對當(dāng)天主題列表中任一主題,計算得到與該主題相同的主題以及與 該主題相關(guān)的主題。其中相同主題指在內(nèi)容上基本一致的主題,相關(guān)主題則是指內(nèi)容有關(guān) 聯(lián)的主題,包括以下計算步驟2.1 )分別利用余弦公式計算給定主題與前一天所有主題的相似度值;利用余弦公式計算主題Ci和Cj之間的相似度值時,首先以中心向量5,與5j表示主題,然后利用如下公式進(jìn)行計算<formula>formula see original document page 14</formula>其中1 S,jSn,的,每個中心向量的每一維為主題中的 一個詞,n為詞的個數(shù), 詞t權(quán)重為tft*idft, tft為詞t在主題所有文檔中的平均頻率,idft為詞t的倒排 文檔頻率;2.2)對相似度值從大到小排序;如果最大的相似度值大于或等于設(shè)定的相同主題閾值^爐。—,那么對應(yīng)的主題為給定主題的相同主題;對于排序列表中從第2個開始的后續(xù)k個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值 tretev加。pic,那么對應(yīng)的主題為給定主題的相關(guān)主題,其中0^tfeieventopic〈tsametopic〈1 , 本實(shí)施例中分另'H文為treieventopic =0.4與tsametopic =0,6;k為正整數(shù),本實(shí)施例中設(shè)為2;如果最大的相似度值小于設(shè)定的相同主題閾值t,et。pic,那么給定主題沒有相同主題;對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與步驟2.3) 中類似的判斷,確定給定主題的相關(guān)主題;3)保存當(dāng)天主題信息以及計算得到的每一主題的相同主題標(biāo)識和相關(guān) 主題標(biāo)識,在該主題信息中只保存當(dāng)天的文檔列表,其目的是嚴(yán)格按照時 間段對主題進(jìn)行劃分,不允許文檔出現(xiàn)在多個主題中。(4 )根據(jù)給定的時間范圍取出多個時間段對應(yīng)的主題信息以及主題之 間的關(guān)系,得出主題演化趨勢,繪制主題演化趨勢圖。本實(shí)施例中時間段范圍為從2006年10月21日到2006年10月27日。本實(shí)施例用Flash作為客戶端繪圖程序。附圖中圖2至圖5顯示了最終繪制出的主題演化趨勢圖,圖中每一列 表示一天對應(yīng)的前20個主題,相同的主題在同一條線連接,相關(guān)的主題用 斜線連接。主題的顏色和粗細(xì)反映了主題的重要性。圖2至圖5分別顯示 了跟伊朗核問題有關(guān)的4個主題的信息。本發(fā)明還提供一種對互聯(lián)網(wǎng)上主題的演化趨勢進(jìn)行自動分析的系統(tǒng), 用于對主題演化趨勢進(jìn)行分析與展示。該系統(tǒng)包括以下裝置文本采集裝置,主題檢測裝置,主題關(guān)系計算 裝置,繪圖裝置;其中,文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時采集文本信息,包括新聞文 本、論壇文本以及博客文本等,并對這些文本進(jìn)行預(yù)處理,得到文本正文 及時間沖示i己;更新主題列表,使得當(dāng)前主題列表中保留重要的和較新的主題;主題關(guān)系計算裝置,用于定期計算當(dāng)前主題與前一天主題的主題關(guān)系,得 到與該主題相同的主題以及與該主題相關(guān)的主題,并保存當(dāng)前主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識;繪圖裝置,用于根據(jù)用戶需求取出每天的主題信息以及關(guān)系,在客戶端繪 制出主題演化趨勢圖,供用戶瀏覽與查看。該系統(tǒng)各裝置的功能與上述方法 一一對應(yīng)。本發(fā)明的方法繪制出的主題演化趨勢圖通過用戶分析和評價,主題關(guān) 系判斷絕大部分都比較準(zhǔn)確,能夠較好地反映主題的動態(tài)演化趨勢,方便 用戶深入了解某一主題,輔助用戶決策,在實(shí)際應(yīng)用中深受用戶好評。本發(fā)明的效果在于基于已有的主題檢測系統(tǒng),定期計算當(dāng)前主題與 前一天主題的關(guān)系,并加以保存。采用的計算方法直接,能夠?qū)Ω鞣N類型 的數(shù)據(jù)進(jìn)行處理。該方法的計算和存儲效率都很高,適合實(shí)時對海量文本 數(shù)據(jù)進(jìn)行分析和挖掘,具有很強(qiáng)的實(shí)用性。中可利用除方正雷達(dá)之外的其它網(wǎng)頁采集工具實(shí)時從互聯(lián)網(wǎng)上采集各類文 本信息。步驟(2)中的主題檢測算法也可以其它對增量聚類算法的改進(jìn)。 步驟(3)中計算主題關(guān)系所用到的相似性度量方法除了余弦公式之外,還 可以是Jaccard公式,Dice公式等。步驟(4)中繪制主題演化趨勢圖除了 使用Flash之外,還可以使用Java Applet等客戶端圖形顯示程序,或者直 接將主題演化趨勢圖生成圖片。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā) 明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1. 一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,包括以下步驟(1)采集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理;(2)檢測主題事件,并對主題進(jìn)行淘汰和排序;(3)定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān)系,得到與當(dāng)前時間段內(nèi)每個主題相同的主題以及與該主題相關(guān)的主題;(4)根據(jù)給定的時間范圍取出主題信息,得出主題演化趨勢。
2、 如權(quán)利要求1所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特 征在于,步驟(1)的具體實(shí)現(xiàn)方法為2.1利用網(wǎng)頁采集工具對互聯(lián)上的文本信息進(jìn)行實(shí)時采集,所述文本信 息包括但不限于新聞文本、論壇文本、博客文本;2.2對采集的信息進(jìn)行預(yù)處理,包括HTML標(biāo)記過濾以及正文提取、時 間提取,具體包括去除文本中的HTML標(biāo)記、廣告、導(dǎo)航條等無關(guān)信息,提取所需的文 本內(nèi)容及時間標(biāo)記,即文本的發(fā)表時間,如無法得到文本的發(fā)表時間,由 網(wǎng)頁的更新時間替代。
3、 如權(quán)利要求l或2所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法, 其特征在于,步驟(3)具體包括以下步驟3.1提取前一時間段內(nèi)的主題信息,時間段由系統(tǒng)設(shè)定,可以是數(shù)個小 時以前或者一天;3.2對當(dāng)前時間段內(nèi)任一主題進(jìn)行計算,得到與該主題相同的主題以及 與該主題相關(guān)的主題;3.3保存當(dāng)前時間段內(nèi)主題信息以及每一主題相應(yīng)的相同主題標(biāo)識和相 關(guān)主題標(biāo)識。
4、 如權(quán)利要求3所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特 征在于,步驟3.2為給定主題獲得相同主題和相關(guān)主題,其中相同主題指在內(nèi)容上基本一致的主題,相關(guān)主題則是指內(nèi)容有關(guān)聯(lián)的主題,包括以下步驟 1分別計算給定主題與前一時間段內(nèi)所有主題的相似度值; 4.2對相似度值從大到小排序,并按以下原則確定相關(guān)主題A:如果最大的相似度值大于或等于設(shè)定的相同主題閾值tsamet。pic,那么對應(yīng)的主題為給定主題的相同主題;對于排序列表中從第2個開始的后續(xù)k 個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值trelevent。pie,那么對應(yīng)的主題為給定主題的相關(guān)主題,其中 0<treleventopic<tsametopic<l , k為正整^1,B:如果最大的相似度值小于設(shè)定的相同主題閾值tsamet。pic^么給定主題 沒有相同主題;對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與上一 步驟類似的判斷,確定給定主題的相關(guān)主題。
5、如權(quán)利要求4所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特征 在于,步驟4.1計算給定主題與前一時間段內(nèi)所有主題的相似度值時,可采用 余弦公式進(jìn)行計算,也可采用Jaccard公式、Dice公式等主流相似度計算公式進(jìn)行計算,其中利用余弦公式計算主題Ci和Cj之間的相似度值時,首先以中心向量5i與5j表示主題,然后利用如下公式進(jìn)行計算<formula>formula see original document page 3</formula>其中15i,j^i,的,每個中心向量的每一維為主題中的 一個詞,n為詞的個數(shù), 詞t權(quán)重為tft"dfp tft為詞t在主題所有文檔中的平均頻率,idft為詞t的倒排 文檔頻率。
6、 如權(quán)利要求4所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特征 在于,步驟4.2中相同主題閾值t皿et。pjc設(shè)為0.6,相關(guān)主題閾值treleventopic設(shè)為0.4,最大相關(guān)主題個數(shù)k設(shè)為2。
7、 如權(quán)利要求3所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特征在于,步驟3.3保存當(dāng)前主題信息時,在該主題信息中只保存當(dāng)前時間段內(nèi)的 文檔列表。
8、 如權(quán)利要求l-7任一項所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法, 其特征在于,步驟(3)定期執(zhí)行, 一般l小時或2小時執(zhí)行一次。
9、 如權(quán)利要求8所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法,其特征 在于,還包括在客戶端繪制主題演化趨勢圖的步驟,具體操作為在客戶端利用畫圖顯示程序繪制主題演化趨勢圖時,客戶端為網(wǎng)頁瀏覽 器,包括IE瀏覽器,火狐瀏覽器等,畫圖顯示程序?yàn)镕lash或者Java Applet 等;每一列表示某個時間段對應(yīng)的前m個主題,相鄰兩列之間的主題存在相同 或相關(guān)關(guān)系;用不同的顏色和粗細(xì)表示主題的相對重要性;相同的主題在同一 行,相關(guān)的主題盡量靠近。
10、 一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng),包括以下裝置文 本采集裝置,主題檢測裝置,主題關(guān)系計算裝置,繪圖裝置;其中,文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時釆集文本信息,包括新聞文 本、論壇文本以及博客文本等,并對這些文本進(jìn)行預(yù)處理,得到文本正文 及時間標(biāo)記;主題檢測裝置,用于實(shí)時檢測主題事件,并對主題加以淘汰和排序,不斷 更新主題列表,使得當(dāng)前主題列表中保留重要的和較新的主題;主題關(guān)系計算裝置,用于定期計算當(dāng)前時間段內(nèi)主題與前一 時間段內(nèi)主題 的主題關(guān)系,得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題, 并保存當(dāng)前時間段內(nèi)主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題 標(biāo)識。
11、 如權(quán)利要求10所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng),其特 征在于,還包括繪圖裝置,用于根據(jù)用戶需求取出多個時間段對應(yīng)的主題信息 以及主題關(guān)系,在客戶端繪制出主題演化趨勢圖,供用戶瀏覽與查看;其中客 戶端為網(wǎng)頁瀏覽器,畫圖顯示程序?yàn)镕lash或者JavaApplet等;每一列表示某個時間段對應(yīng)的前m個主題,相鄰兩列之間的主題存在相同或相關(guān)關(guān)系;用不 同的顏色和粗細(xì)表示主題的相對重要性;相同的主題在同一行,相關(guān)的主題盡 量靠近。
全文摘要
本發(fā)明涉及一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)?,F(xiàn)有技術(shù)只能簡單地從文檔集中分析出主題(或事件),給出主題包含的文檔信息。事實(shí)上,每個主題隨著時間的變化而不斷變化,主題在時間維度上不斷演化。本發(fā)明以現(xiàn)有主題檢測系統(tǒng)為基礎(chǔ),定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的關(guān)系,并保存這些關(guān)系。系統(tǒng)根據(jù)用戶輸入的時間范圍取出多個時間段對應(yīng)的主題信息以及主題之間的關(guān)系,在客戶端以圖形化方式可視化地展現(xiàn)主題隨著時間的演化趨勢。采用本發(fā)明所述的方法,能夠給用戶提供更加立體的主題分析結(jié)果,加深用戶對主題的理解和認(rèn)識,從而輔助用戶決策。本方法可廣泛應(yīng)用于智能信息處理。
文檔編號G06F17/30GK101231640SQ20071006294
公開日2008年7月30日 申請日期2007年1月22日 優(yōu)先權(quán)日2007年1月22日
發(fā)明者萬小軍, 濤 馮, 吳於茜, 霙 楊, 楊建武, 斌 路, 黃小江 申請人:北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正技術(shù)研究院有限公司