一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)的制作方法

文檔序號：6573246閱讀：128來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于智能信息處理技術(shù)領(lǐng)域，具體涉及一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)。
背景技術(shù)：
隨著互聯(lián)網(wǎng)上文本信息的爆炸性增長，人們越來越難以從海量文本信息中及時獲得感興趣的主題(事件)信息。主題檢測技術(shù)(Topic Detection,也可以稱為話題4企測技術(shù)，事件;險測技術(shù))致力于實(shí)時地從海量文本中自動檢測到主題，將主題信息提供給用戶，用戶通過瀏覽主題就能了解海量文本的重要內(nèi)容。根據(jù)國際主題檢測與追蹤小組的定義(參見美國國家標(biāo)準(zhǔn)技術(shù)局?jǐn)M定的 The 2002 topic detection and tracking (TDT2002) task definition and evaluation plan, version 1.1， http:〃www.nistgov/speech/tests/tdt/),主題由一系列直接相關(guān)的事件或活動組成，事件則是在特定期間特定地點(diǎn)發(fā)生的事情。例如"2006年10 月份朝鮮核試驗(yàn)"這個主題可以包括朝鮮核試驗(yàn)活動，世界各國的反應(yīng)以及聯(lián) 合國對朝鮮的制裁等相關(guān)報道。在應(yīng)用中可以根據(jù)用戶的需求利用閾值調(diào)整的方法對主題的概念進(jìn)行延伸或縮小。一般不對主題和事件加以明確區(qū)分，兩者相互通用。目前的主題檢測算法主要是對文本聚類算法的改進(jìn)和延伸，檢測的目的就是要按照文本表達(dá)的主題將其進(jìn)行聚類。在線增量式聚類算法(INCR)是在線主題才全觀'j的一種;克4亍算法,參見文章Topic detection and tracking pilot study: final report(作者為J. Allan等，發(fā)表于1998年出版的論文集Proceedings of DARPA Broadcast News Transcription and Understanding Workshop )和文章A study on retrospective and on-line event detection(作者為Y. Yang， T.Pierce和J. Carbonell,發(fā)表于1998年出版的論文集Proceedings of ACM SIGIR )。該算法將當(dāng)前文檔分別與已經(jīng)形成的主題類簇進(jìn)行相似性比較。如果與某個主題類簇足夠相似 (與所有主題的最大相似度值大于設(shè)定的茱個閾值)，那么將該文檔加入該主題類簇中。如果沒有找到足夠相似的主題類簇(與所有主題的最大相似度值小于設(shè)定的某個閾值)，那么以該文檔為基礎(chǔ)創(chuàng)建一個新的主題類簇。文檔與主題類簇之間的相似度一般通過標(biāo)準(zhǔn)的余弦相似度公式進(jìn)行計算，其中文本特征的表示通常釆用詞，詞的權(quán)重為TF.IDF ， TF為詞頻，IDF為詞的倒排索引頻率。針對以上增量式聚類算法，有不少研究單位提出了改進(jìn)。文章Topic detection, a new application for lexical chaining (作者RHatch, N. Strokes和 J.Carthy,發(fā)表于2000年出版的論文集British Computer Society IRSG2000 ) 利用基于時間的選擇模型，這種模型考慮到一個新聞主題的發(fā)展過程通常很快，之后該主題將會被其他新主題所取代，因此僅將當(dāng)前新聞文檔和以前若干個最近更新過的主題類簇進(jìn)行比較，這種方法也是一種時間加窗處理?？▋?nèi)基梅隆大學(xué)在算法中采用了一種自適應(yīng)的IDF計算方法，利用動態(tài)變化的與主題相關(guān)的IDF值改進(jìn)主題才t測結(jié)果，參見文章A study on retrospective and on-line event detection (作者為Y. Yang, T.Pierce和J. Carbonell,發(fā)表于1998年出版的論文集Proceedings of ACM SIGIR )和文章Learning approaches for detecting and tracking news events (作者為Y. Yang等人，發(fā)表于1999年出版的論文集IEEE Intelligent Systems: Special Issue on Applications of Intelligent Information Retrieval)。 IBM則提出了一種不同的主題類簇采用不同的IDF值的方法，對于某個主題類簇中出現(xiàn)的詞的IDF值隨著文檔的變化不斷調(diào)整，參見文章Story segmentation and topic detection in the broadcast news domain (作者 S.Dharanipragada等，發(fā)表于1999年出版的論文集Proceedings of the DARPA Broadcast News Workshop )。除了對IDF值計算方法的改進(jìn)之外，主題的演化也要求閾值隨之動態(tài)調(diào)整。馬薩諸塞州立大學(xué)提出了基于時間的閾值模型，該模型利用線性函數(shù)調(diào)整聚類閾值，使得在時間上距離某個主題越遠(yuǎn)的新聞報道越乂,力口入"i亥主題，參見文章On-line new event detection and tracking ( 4乍者J. Allan, R. Papka和V. Lavrenko，發(fā)表于1998年出版的論文集Proceedings of ACMSIGIR)。此外，還有人將機(jī)器學(xué)習(xí)的最新成果應(yīng)用于主題檢測，取得了較好的結(jié)果，在此不——列舉。由于互聯(lián)網(wǎng)上的文本信息具有很強(qiáng)的時效性，其反映的主題隨著時間在不斷發(fā)展變化，可能分裂為多個主題，或者和其它的相關(guān)主題合并成一個更大的主題，也可能在某一個時間點(diǎn)消亡。比如朝鮮核試驗(yàn)這個主題在不同時間點(diǎn)具有不同的內(nèi)容，其演化趨勢可能為核試驗(yàn)活動-各國譴責(zé)-聯(lián)合國制裁-朝鮮拒絕制裁等，同時朝鮮核試驗(yàn)這個主題也與朝核問題六方會談等主題有密切關(guān) 聯(lián)。為了分析主題的演化趨勢，文章Event threading wkhin news topics (作者為R. Nallapati等，發(fā)表于2004年出版的論文集Proceedings of ACM CIKM) 嘗試對屬于同一主題的文檔進(jìn)行分析，檢測到多個子事件以及它們之間的依賴關(guān)系，然而這種方式無法在時間維上分析主題的演化趨勢。文章Discovering evolutionary theme patterns from text-an exploration of temporal text mining ("(乍者為Q. Mei和C. Zhai，發(fā)表于2005年出版的論文集Proceedings of ACM SIGKDD)利用概率模型檢測文本主題以及發(fā)現(xiàn)主題之間的關(guān)系，該方法需要大量的訓(xùn)練文檔集，訓(xùn)練過程比較慢。實(shí)際應(yīng)用中對主題的檢測以及主題演化趨勢的分析都要求實(shí)時進(jìn)行，其難點(diǎn)在于處理的文檔數(shù)據(jù)量很大，文檔數(shù)據(jù)類型復(fù)雜，包括新聞，論壇，博客等形式的文本。以上方法都基于特定的前提假設(shè)，只能對少量的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行一定的分析與挖掘，無法滿足實(shí)際應(yīng)用的需求。發(fā)明內(nèi)容針對現(xiàn)有主題^:測系統(tǒng)無法分析計算主題演化趨勢的缺陷，本發(fā)明的目的是通過實(shí)時計算不同時間4殳內(nèi)主題之間的相似性關(guān)系從而分析出主題隨時間的演化趨勢，并可繪制出主題演化趨勢圖。該方法具有高效性、魯棒性等優(yōu)點(diǎn)，具有很大的實(shí)用價值。為達(dá)到以上目的，本發(fā)明采用的技術(shù)方案是一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，包括以下步驟(1) 釆集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理；(2) 檢測主題事件，并對主題進(jìn)行淘汰和排序；(3 )定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān) 系，得到與當(dāng)前時間段內(nèi)每個主題相同的主題以及與該主題相關(guān)的主題； (4)根據(jù)給定的時間范圍取出主題信息，得出主題演化趨勢。進(jìn)一步，為使本發(fā)明獲得更好的發(fā)明效果，步驟(l)中可利用各種網(wǎng) 頁采集工具對互聯(lián)上的文本信息進(jìn)行實(shí)時采集。根據(jù)用戶需求，這些文本信息可能是新聞文本，也可以是論壇、博客等其它形式的文本。由于網(wǎng)頁文本包含很多的HTML標(biāo)記，以及廣告、導(dǎo)航條等無關(guān)信息，因此需要對下載的網(wǎng)頁要進(jìn)行HTML標(biāo)記過濾以及正文提取，時間提取等預(yù)處理過程，盡可能地獲得網(wǎng)頁的重要文本內(nèi)容以及時間標(biāo)記。時間標(biāo)記指文本的發(fā)表時間，在無法得到文本發(fā)表時間的情況下，可由網(wǎng)頁的更新時間等替代。進(jìn)一步，為使本發(fā)明獲得更好的發(fā)明效果，步驟(2)的主題檢測算法采用專利《一種自動檢測新聞事件的方法》(發(fā)明人路斌、楊霧、楊建武、萬小軍、吳於萏，申請日2006年2月14日，申請?zhí)?00610007219.X ) 中的方法，主要步驟列舉如下2.1從數(shù)據(jù)源讀入一篇文本報道，并對報道進(jìn)行預(yù)處理；2.2計算文本報道與已檢測到的主題事件、或者報道與報道間的相似度，確定與當(dāng)前才艮道相關(guān)的主題事件，并對入相關(guān)主題；2.3若報道被歸入某個現(xiàn)有主題事件，則調(diào)整該事件；若報道無法歸入現(xiàn)有事件，則將其列為新檢測到的事件；2.4對已檢測到的事件進(jìn)行兩兩比較，合并相關(guān)事件，并重新調(diào)整事件，以及報道和事件的相似度；2.5對各事件內(nèi)不滿足限制條件的報道進(jìn)行淘汰，并調(diào)整事件；通過時間限制，事件列表中每個事件只包含一定期間范圍之內(nèi)的文檔；2.6比較當(dāng)前的事件數(shù)量與事件窗口大小，若事件數(shù)量大于事件窗口大小，則進(jìn)行事件排序和淘汰；經(jīng)過排序和淘汰之后，事件列表中只保存一定期間范圍之內(nèi)產(chǎn)生的熱點(diǎn)事件；2.7輸出檢測結(jié)果；步驟(2)中的主題檢測算法得到的主題列表中全部為當(dāng)前最新主題。進(jìn)一步，為使本發(fā)明獲得更好的發(fā)明效果，步驟(3)中時間段大小由系統(tǒng)設(shè)定，可以是數(shù)個小時或者一天；對當(dāng)前時間段內(nèi)任一主題與前一時間段內(nèi)所有主題進(jìn)行計算，得到與該主題相同的主題以及與該主題相關(guān)的主題；保存當(dāng)前時間4爻內(nèi)主題信息以及每一主題相應(yīng)的相同主題標(biāo)識和相關(guān) 主題標(biāo)識。保存當(dāng)前時間段內(nèi)主題信息時，在該主題信息中只保存當(dāng)前時間段內(nèi)的文檔列表。進(jìn)一步，為給定主題獲得相同主題和相關(guān)主題，其中相同主題指在內(nèi) 容上基本一致的主題，相關(guān)主題則是指內(nèi)容有關(guān)聯(lián)的主題，包括以下步驟3.1分別計算給定主題與前一時間段內(nèi)所有主題的相似度值；3.2對相似度值從大到小排序,并按以下原則確定相關(guān)主題A:如果最大的相似度值大于或等于設(shè)定的相同主題閾值tsamet。pic3，么對應(yīng)的主題為給定主題的相同主題；對于排序列表中從第2個開始的后續(xù)k 個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值 t吐環(huán)t。pic,那么對應(yīng)的主題為給定主題的相關(guān)主題，其中 0〈trele窗topic〈tsametopic〈1 ， k為正整數(shù)，B:如果最大的相似度值小于設(shè)定的相同主題閾值tsamet。pic,么給定主題沒有相同主題；對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與上一步驟類似的判斷，確定給定主題的相關(guān)主題。進(jìn)一步，計算給定主題與前一時間段內(nèi)所有主題的相似度值時，可采用奈弦公式進(jìn)行計算，也可采用Jaccard公式、Dice公式等主流相似度計算公式進(jìn)行計算，其中利用余弦公式計算主題Ci和Cj之間的相似度值時，首先以中心向量5,與5」表示主題，然后利用如下公式進(jìn)行計算<formula>formula see original document page 11</formula>其中1 Si,j^i,的，每個中心向量的每一維為主題中的一個詞，n為詞的個數(shù)，詞t權(quán)重為tft*idft， tft為詞t在主題所有文檔中的平均頻率，idft為詞t的倒排文檔頻率。進(jìn)一步，相同主題閾值Lsametopic設(shè)為0.6,相關(guān)主題閾值^^加。—設(shè)為0.4，最大相關(guān)主題個數(shù)k設(shè)為2。進(jìn)一步，定期計算并保存當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的關(guān)系，一般l小時或2小時執(zhí)行一次。進(jìn)一步，還包括繪制主題演化趨勢圖的步驟，具體操作為在客戶端利用畫圖顯示程序繪制主題演化趨勢圖時，客戶端為網(wǎng)頁瀏覽器 (包括IE瀏覽器，火狐瀏覽器等)，畫圖顯示程序?yàn)镕lash或者Java Applet等；每一列表示某一時間段對應(yīng)的前m個主題(m—般設(shè)為20)，相鄰兩列之間的主題存在相同或相關(guān)關(guān)系；用不同的顏色和粗細(xì)表示主題的相對重要性(通過比較主題包含的文檔數(shù)量獲得)；相同的主題在同一行，相關(guān)的主題盡量靠近。本發(fā)明還提供一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng)，包括以下裝置文本采集裝置，主題檢測裝置，主題關(guān)系計算裝置，繪圖裝置；其中，文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時采集文本信息，包括新聞文本、論壇文本以及博客文本等，并對這些文本進(jìn)行預(yù)處理，得到文本正文及時間標(biāo)記；主題檢測裝置，用于實(shí)時檢測主題事件，并對主題加以淘汰和排序，不斷更新主題列表，使得當(dāng)前主題列表中保留重要的和較新的主題；主題關(guān)系計算裝置，用于定期計算當(dāng)前時間段主題與前一時間段主題的主題關(guān)系，得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題，并保存當(dāng)前時間段內(nèi)主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識。進(jìn)一步，還包括繪圖裝置，用于根據(jù)用戶需求取出多個時間段內(nèi)的主題信息以及關(guān)系，在客戶端繪制出主題演化趨勢圖，供用戶瀏覽與查看；其中客戶端為網(wǎng)頁瀏覽器(包括正瀏覽器，火狐瀏覽器等)，畫圖顯示程序?yàn)镕lash或者Java Applet等；每一列表示某個時間段內(nèi)前m個主題(m —般設(shè)為20 ),相鄰兩列之間的主題存在相同或相關(guān)關(guān)系；用不同的顏色和粗細(xì)表示主題的相對重要性(通過比較主題包含的文檔數(shù)量獲得)；相同的主題在同一行，相關(guān)的主題盡量靠近。本發(fā)明的效果在于基于已有的主題檢測系統(tǒng)，定期計算當(dāng)前時間段主題與前一時間段內(nèi)主題的關(guān)系，并加以保存。采用的計算方法直接，能夠?qū)Ω鞣N類型的數(shù)據(jù)進(jìn)行處理。該方法的計算和存儲效率都很高，適合實(shí)時對海量文本數(shù)據(jù)進(jìn)行分析和挖掘，具有很強(qiáng)的實(shí)用性。

圖1是本發(fā)明所述方法的流程圖；圖2-圖5是利用Flash繪制出的一個主題演化圖實(shí)例，其中圖2顯示了主題"英法德繞過美國向安理會散發(fā)伊朗核問題決議草案"的位置及其包含的文檔列表；圖3顯示了主題"俄外長歐洲國家制裁伊朗草案不符合大國協(xié)議，，的位置及其包含的文檔列表；圖4顯示了主題"六國開始磋商制裁伊朗決議草案"的位置及其包含的文檔列表；圖5顯示了主題"伊朗裝第二批鈾濃縮設(shè)備"的位置及其包含的文檔列表。
具體實(shí)施方式
下面結(jié)合實(shí)施例和附圖進(jìn)一步闡明本發(fā)明所述的方法如圖l所示，一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，包括以下步驟(1) 采集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理；本實(shí)施例中利用方正雷達(dá)網(wǎng)頁采集工具對互聯(lián)上的新聞文本信息進(jìn)行實(shí)時采集，采集的文本來源包括新浪，搜狐，網(wǎng)易等十幾個主要新聞網(wǎng)站。由于網(wǎng)頁文本包含很多的HTML標(biāo)記，以及廣告、導(dǎo)航條等無關(guān)信息，因此對下載的網(wǎng)頁要進(jìn)行HTML標(biāo)記過濾以及正文提取，時間提取等預(yù)處理過程，獲得網(wǎng)頁的重要文本內(nèi)容以及時間標(biāo)記。時間標(biāo)記指文本的發(fā)表時間，在無法得到文本發(fā)表時間的情況下，可由網(wǎng)頁的更新時間等替代。(2) 實(shí)時檢測主題事件并對主題淘汰和排序；對文本數(shù)據(jù)進(jìn)行實(shí)時主題檢測的具體方法如下1 )從數(shù)據(jù)源讀入一篇文本報道，并對報道進(jìn)行預(yù)處理；2) 計算文本報道與已檢測到的主題事件、或者報道與報道間的相似度，確定與當(dāng)前報道相關(guān)的主題事件，并對入相關(guān)主題；3) 若報道被歸入某個現(xiàn)有主題事件，則調(diào)整該事件；若報道無法歸入現(xiàn)有事件，則將其列為新檢測到的事件；4) 對已檢測到的事件進(jìn)行兩兩比較，合并相關(guān)事件，并重新調(diào)整事件，以及報道和事件的相似度；5) 對各事件內(nèi)不滿足限制條件的報道進(jìn)行淘汰，并調(diào)整事件；本實(shí)施例中，通過時間限制，事件列表中每個事件只包含24小時之內(nèi)的文檔6) 比較當(dāng)前的事件數(shù)量與時間窗口大小，若事件數(shù)量大于事件窗口大小，則進(jìn)行事件排序和淘汰；本實(shí)施例中，事件窗口大小為100,也就是經(jīng)過事件排序和淘汰，事件列表中只保留包含24小時之內(nèi)的文檔數(shù)量最多的100個事件。7)輸出檢測結(jié)果；(3 )定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān) 系，得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題，并保存當(dāng)前主題信息以及計算得到的主題關(guān)系；定期可以每隔一小時進(jìn)行一次，時間段由系統(tǒng)設(shè)定，可以是數(shù)個小時以前或者一天，此實(shí)施例采用一天。定期計算并保存當(dāng)前主題與前一天主題之間的主題關(guān)系的具體方法如下1 )取出前一天的主題信息；2)對當(dāng)天主題列表中任一主題，計算得到與該主題相同的主題以及與該主題相關(guān)的主題。其中相同主題指在內(nèi)容上基本一致的主題，相關(guān)主題則是指內(nèi)容有關(guān) 聯(lián)的主題，包括以下計算步驟2.1 )分別利用余弦公式計算給定主題與前一天所有主題的相似度值；利用余弦公式計算主題Ci和Cj之間的相似度值時，首先以中心向量5,與5j表示主題，然后利用如下公式進(jìn)行計算<formula>formula see original document page 14</formula>其中1 S,jSn，的，每個中心向量的每一維為主題中的一個詞，n為詞的個數(shù)，詞t權(quán)重為tft*idft， tft為詞t在主題所有文檔中的平均頻率，idft為詞t的倒排文檔頻率；2.2)對相似度值從大到小排序；如果最大的相似度值大于或等于設(shè)定的相同主題閾值^爐。—，那么對應(yīng)的主題為給定主題的相同主題；對于排序列表中從第2個開始的后續(xù)k個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值 tretev加。pic,那么對應(yīng)的主題為給定主題的相關(guān)主題，其中0^tfeieventopic〈tsametopic〈1 ，本實(shí)施例中分另'H文為treieventopic =0.4與tsametopic =0,6;k為正整數(shù)，本實(shí)施例中設(shè)為2;如果最大的相似度值小于設(shè)定的相同主題閾值t，et。pic,那么給定主題沒有相同主題；對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與步驟2.3) 中類似的判斷，確定給定主題的相關(guān)主題；3)保存當(dāng)天主題信息以及計算得到的每一主題的相同主題標(biāo)識和相關(guān) 主題標(biāo)識，在該主題信息中只保存當(dāng)天的文檔列表，其目的是嚴(yán)格按照時間段對主題進(jìn)行劃分，不允許文檔出現(xiàn)在多個主題中。(4 )根據(jù)給定的時間范圍取出多個時間段對應(yīng)的主題信息以及主題之間的關(guān)系，得出主題演化趨勢，繪制主題演化趨勢圖。本實(shí)施例中時間段范圍為從2006年10月21日到2006年10月27日。本實(shí)施例用Flash作為客戶端繪圖程序。附圖中圖2至圖5顯示了最終繪制出的主題演化趨勢圖，圖中每一列表示一天對應(yīng)的前20個主題，相同的主題在同一條線連接，相關(guān)的主題用斜線連接。主題的顏色和粗細(xì)反映了主題的重要性。圖2至圖5分別顯示了跟伊朗核問題有關(guān)的4個主題的信息。本發(fā)明還提供一種對互聯(lián)網(wǎng)上主題的演化趨勢進(jìn)行自動分析的系統(tǒng)，用于對主題演化趨勢進(jìn)行分析與展示。該系統(tǒng)包括以下裝置文本采集裝置，主題檢測裝置，主題關(guān)系計算裝置，繪圖裝置；其中，文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時采集文本信息，包括新聞文本、論壇文本以及博客文本等，并對這些文本進(jìn)行預(yù)處理，得到文本正文及時間沖示i己；更新主題列表，使得當(dāng)前主題列表中保留重要的和較新的主題；主題關(guān)系計算裝置，用于定期計算當(dāng)前主題與前一天主題的主題關(guān)系，得到與該主題相同的主題以及與該主題相關(guān)的主題，并保存當(dāng)前主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識；繪圖裝置，用于根據(jù)用戶需求取出每天的主題信息以及關(guān)系，在客戶端繪制出主題演化趨勢圖，供用戶瀏覽與查看。該系統(tǒng)各裝置的功能與上述方法一一對應(yīng)。本發(fā)明的方法繪制出的主題演化趨勢圖通過用戶分析和評價，主題關(guān) 系判斷絕大部分都比較準(zhǔn)確，能夠較好地反映主題的動態(tài)演化趨勢，方便用戶深入了解某一主題，輔助用戶決策，在實(shí)際應(yīng)用中深受用戶好評。本發(fā)明的效果在于基于已有的主題檢測系統(tǒng)，定期計算當(dāng)前主題與前一天主題的關(guān)系，并加以保存。采用的計算方法直接，能夠?qū)Ω鞣N類型的數(shù)據(jù)進(jìn)行處理。該方法的計算和存儲效率都很高，適合實(shí)時對海量文本數(shù)據(jù)進(jìn)行分析和挖掘，具有很強(qiáng)的實(shí)用性。中可利用除方正雷達(dá)之外的其它網(wǎng)頁采集工具實(shí)時從互聯(lián)網(wǎng)上采集各類文本信息。步驟(2)中的主題檢測算法也可以其它對增量聚類算法的改進(jìn)。步驟(3)中計算主題關(guān)系所用到的相似性度量方法除了余弦公式之外，還可以是Jaccard公式，Dice公式等。步驟(4)中繪制主題演化趨勢圖除了使用Flash之外，還可以使用Java Applet等客戶端圖形顯示程序，或者直接將主題演化趨勢圖生成圖片。顯然，本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā) 明的精神和范圍。這樣，倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)，則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1. 一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，包括以下步驟(1)采集互聯(lián)網(wǎng)文本信息并對其進(jìn)行預(yù)處理；(2)檢測主題事件，并對主題進(jìn)行淘汰和排序；(3)定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的主題關(guān)系，得到與當(dāng)前時間段內(nèi)每個主題相同的主題以及與該主題相關(guān)的主題；(4)根據(jù)給定的時間范圍取出主題信息，得出主題演化趨勢。
2、如權(quán)利要求1所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟(1)的具體實(shí)現(xiàn)方法為2.1利用網(wǎng)頁采集工具對互聯(lián)上的文本信息進(jìn)行實(shí)時采集，所述文本信息包括但不限于新聞文本、論壇文本、博客文本；2.2對采集的信息進(jìn)行預(yù)處理，包括HTML標(biāo)記過濾以及正文提取、時間提取，具體包括去除文本中的HTML標(biāo)記、廣告、導(dǎo)航條等無關(guān)信息，提取所需的文本內(nèi)容及時間標(biāo)記，即文本的發(fā)表時間，如無法得到文本的發(fā)表時間，由網(wǎng)頁的更新時間替代。
3、如權(quán)利要求l或2所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟(3)具體包括以下步驟3.1提取前一時間段內(nèi)的主題信息，時間段由系統(tǒng)設(shè)定，可以是數(shù)個小時以前或者一天；3.2對當(dāng)前時間段內(nèi)任一主題進(jìn)行計算，得到與該主題相同的主題以及與該主題相關(guān)的主題；3.3保存當(dāng)前時間段內(nèi)主題信息以及每一主題相應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識。
4、如權(quán)利要求3所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟3.2為給定主題獲得相同主題和相關(guān)主題，其中相同主題指在內(nèi)容上基本一致的主題，相關(guān)主題則是指內(nèi)容有關(guān)聯(lián)的主題，包括以下步驟 1分別計算給定主題與前一時間段內(nèi)所有主題的相似度值； 4.2對相似度值從大到小排序，并按以下原則確定相關(guān)主題A:如果最大的相似度值大于或等于設(shè)定的相同主題閾值tsamet。pic，那么對應(yīng)的主題為給定主題的相同主題；對于排序列表中從第2個開始的后續(xù)k 個值逐一進(jìn)行如下判斷如果相似度值大于或等于設(shè)定的相關(guān)主題閾值trelevent。pie,那么對應(yīng)的主題為給定主題的相關(guān)主題，其中 0<treleventopic<tsametopic<l ， k為正整^1，B:如果最大的相似度值小于設(shè)定的相同主題閾值tsamet。pic^么給定主題沒有相同主題；對于排序表中從第1個開始的后續(xù)k個值逐一進(jìn)行與上一步驟類似的判斷，確定給定主題的相關(guān)主題。
5、如權(quán)利要求4所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟4.1計算給定主題與前一時間段內(nèi)所有主題的相似度值時，可采用余弦公式進(jìn)行計算，也可采用Jaccard公式、Dice公式等主流相似度計算公式進(jìn)行計算，其中利用余弦公式計算主題Ci和Cj之間的相似度值時，首先以中心向量5i與5j表示主題，然后利用如下公式進(jìn)行計算<formula>formula see original document page 3</formula>其中15i，j^i，的，每個中心向量的每一維為主題中的一個詞，n為詞的個數(shù)，詞t權(quán)重為tft"dfp tft為詞t在主題所有文檔中的平均頻率，idft為詞t的倒排文檔頻率。
6、如權(quán)利要求4所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟4.2中相同主題閾值t皿et。pjc設(shè)為0.6，相關(guān)主題閾值treleventopic設(shè)為0.4，最大相關(guān)主題個數(shù)k設(shè)為2。
7、如權(quán)利要求3所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟3.3保存當(dāng)前主題信息時，在該主題信息中只保存當(dāng)前時間段內(nèi)的文檔列表。
8、如權(quán)利要求l-7任一項所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，步驟(3)定期執(zhí)行，一般l小時或2小時執(zhí)行一次。
9、如權(quán)利要求8所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法，其特征在于，還包括在客戶端繪制主題演化趨勢圖的步驟，具體操作為在客戶端利用畫圖顯示程序繪制主題演化趨勢圖時，客戶端為網(wǎng)頁瀏覽器，包括IE瀏覽器，火狐瀏覽器等，畫圖顯示程序?yàn)镕lash或者Java Applet 等；每一列表示某個時間段對應(yīng)的前m個主題，相鄰兩列之間的主題存在相同或相關(guān)關(guān)系；用不同的顏色和粗細(xì)表示主題的相對重要性；相同的主題在同一行，相關(guān)的主題盡量靠近。
10、一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng)，包括以下裝置文本采集裝置，主題檢測裝置，主題關(guān)系計算裝置，繪圖裝置；其中，文本采集裝置用于從互聯(lián)網(wǎng)上實(shí)時釆集文本信息，包括新聞文本、論壇文本以及博客文本等，并對這些文本進(jìn)行預(yù)處理，得到文本正文及時間標(biāo)記；主題檢測裝置，用于實(shí)時檢測主題事件，并對主題加以淘汰和排序，不斷更新主題列表，使得當(dāng)前主題列表中保留重要的和較新的主題；主題關(guān)系計算裝置，用于定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題的主題關(guān)系，得到與當(dāng)前時間段內(nèi)主題相同的主題以及與該主題相關(guān)的主題，并保存當(dāng)前時間段內(nèi)主題信息以及這些主題對應(yīng)的相同主題標(biāo)識和相關(guān)主題標(biāo)識。
11、如權(quán)利要求10所述的自動計算互聯(lián)網(wǎng)上主題演化趨勢的系統(tǒng)，其特征在于，還包括繪圖裝置，用于根據(jù)用戶需求取出多個時間段對應(yīng)的主題信息以及主題關(guān)系，在客戶端繪制出主題演化趨勢圖，供用戶瀏覽與查看；其中客戶端為網(wǎng)頁瀏覽器，畫圖顯示程序?yàn)镕lash或者JavaApplet等；每一列表示某個時間段對應(yīng)的前m個主題，相鄰兩列之間的主題存在相同或相關(guān)關(guān)系；用不同的顏色和粗細(xì)表示主題的相對重要性；相同的主題在同一行，相關(guān)的主題盡量靠近。
全文摘要
本發(fā)明涉及一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)?，F(xiàn)有技術(shù)只能簡單地從文檔集中分析出主題(或事件)，給出主題包含的文檔信息。事實(shí)上，每個主題隨著時間的變化而不斷變化，主題在時間維度上不斷演化。本發(fā)明以現(xiàn)有主題檢測系統(tǒng)為基礎(chǔ)，定期計算當(dāng)前時間段內(nèi)主題與前一時間段內(nèi)主題之間的關(guān)系，并保存這些關(guān)系。系統(tǒng)根據(jù)用戶輸入的時間范圍取出多個時間段對應(yīng)的主題信息以及主題之間的關(guān)系，在客戶端以圖形化方式可視化地展現(xiàn)主題隨著時間的演化趨勢。采用本發(fā)明所述的方法，能夠給用戶提供更加立體的主題分析結(jié)果，加深用戶對主題的理解和認(rèn)識，從而輔助用戶決策。本方法可廣泛應(yīng)用于智能信息處理。
文檔編號G06F17/30GK101231640SQ20071006294
公開日2008年7月30日申請日期2007年1月22日優(yōu)先權(quán)日2007年1月22日
發(fā)明者萬小軍, 濤馮, 吳於茜, 霙楊, 楊建武, 斌路, 黃小江申請人:北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正技術(shù)研究院有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：萬小軍;馮濤;黃小江;楊霙;楊建武;吳於茜;路斌
技術(shù)所有人：北大方正集團(tuán)有限公司;北京大學(xué);北京北大方正技術(shù)研究院有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

移動互聯(lián)網(wǎng)發(fā)展趨勢相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種自動計算互聯(lián)網(wǎng)上主題演化趨勢的方法及系統(tǒng)的制作方法