一種事件跟蹤方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種事件跟蹤方法及系統(tǒng),適用于輿情信息處理。所述方法包括獲取與事件相關的文檔;根據所獲取的文檔數量確定所述事件的階段個數;以及根據內容的相似程度對所獲取的文檔進行聚類,得到與所述事件的每個階段對應的文檔簇,其中文檔簇的總數與所述事件的階段個數相同。本發(fā)明無需人工參與,可以自動地進行事件跟蹤并輸出結果。與人工整理所耗費的人力和財力相比,節(jié)省了成本,并且提高了事件跟蹤的效率與準確度。
【專利說明】一種事件跟蹤方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及網絡信息處理【技術領域】,尤其涉及一種適用于輿情信息系統(tǒng)的事件跟蹤方法及系統(tǒng)。
【背景技術】
[0002]在輿情信息處理過程中,事件跟蹤是非常重要的一個環(huán)節(jié)。現有的事件跟蹤方法通常需要大量的人工參與,包括:對大量的文本信息進行搜集,確定某個具體事件下的文檔列表;對搜集到的文檔列表進行分割,選出事件的各個階段;以及,按照時間進行排序,以顯示一個完整的事件過程。
[0003]然而,在實際的輿情信息系統(tǒng)中,需要對大量的事件同時進行監(jiān)控,其往往涉及海量的文本信息,傳統(tǒng)的人工參與的方式需要大量的人力和財力。此外,輿情分析人員從搜集數據到制作一個完整的事件跟蹤需要較長的周期,容易導致事件跟蹤結果的不及時和不全面。因此,當前迫切需要一種事件跟蹤方法,其能夠自動地對事件進行跟蹤,以輔助輿情信息處理,同時提高事件跟蹤的效率和準確性,且減少人工進行事件跟蹤的成本。
【發(fā)明內容】
[0004]為解決上述問題,根據本發(fā)明的一個實施例,提供一種事件跟蹤方法,包括:
[0005]步驟I)、獲取與事件相關的文檔;
[0006]步驟2)、根據所獲取的文檔數量確定所述事件的階段個數;
[0007]步驟3)、根據內容的相似程度對所獲取的文檔進行聚類,得到與所述事件的每個階段對應的文檔簇,其中文檔簇的總數與所述事件的階段個數相同。
[0008]上述方法中,在步驟2)中根據下式來確定事件的階段個數:
[0009]
【權利要求】
1.一種事件跟蹤方法,包括: 步驟I)、獲取與事件相關的文檔; 步驟2)、根據所獲取的文檔數量確定所述事件的階段個數; 步驟3)、根據內容的相似程度對所獲取的文檔進行聚類,得到與所述事件的每個階段對應的文檔簇,其中文檔簇的總數與所述事件的階段個數相同。
2.根據權利要求1所述的方法,在步驟2)中,根據下式來確定事件的階段個數:
3.根據權利要求2所述的方法,其中m為20。
4.根據權利要求1-3中任何一個所述的方法,在步驟3)中,使用后綴樹聚類方法根據內容的相似程度對所獲取的文檔進行聚類。
5.根據權利要求1-3中任何一個所述的方法,其中,步驟3)還包括: 步驟a)、在每個文檔簇中,按照發(fā)布時間從新到舊排列文檔,選擇前k個文檔,其中,k為預先設定的正整數; 步驟b)、在每個文檔簇中,在所選擇的k個文檔中選取權威度最高的文檔作為代表文檔,其中,根據下式計算每個文檔簇中的每個文檔的權威度:
Authority = λ*DomainWeight+log(References) 其中,Authority表示文檔的權威度,Domainffeight是該文檔的URL所屬域名的權重,入是該文檔的URL和References的得分占比,References是該文檔被其他文檔轉載的次數。
6.根據權利要求5所述的方法,其中,步驟3)還包括: 對于每個文檔簇,在選擇其代表文檔之前,去除發(fā)布時間與該文檔簇的平均發(fā)布時間的差值超過預定閾值的文檔,其中,文檔簇的平均發(fā)布時間為該文檔簇中所有文檔的發(fā)布時間的平均值。
7.根據權利要求5所述的方法,其中,步驟b)之后還包括: 步驟c)、按照每個文檔簇的代表文檔的發(fā)布時間依次輸出P個代表文檔,其中,P是預先設定的將要顯示給用戶的事件階段數量。
8.根據權利要求1-3中任何一個所述的方法,其中,步驟I)包括: 檢索輿情信息系統(tǒng)中的內部資源或者外部網絡資源,得到與事件相關的文檔。
9.根據權利要求1-3中任何一個所述的方法,其中,步驟I)還包括: 去除所獲取的文檔中的無效字符、標簽以及停用詞。
10.根據權利要求1-3中任何一個所述的方法,其中,所述文檔的內容包括文檔標題或者文檔正文。
11.一種事件跟蹤系統(tǒng),包括: 檢索設備,用于獲取與事件相關的文檔; 階段計算設備,用于根據所獲取的文檔數量確定所述事件的階段個數;以及聚類設備,用于根據內容的相似程度對所獲取的文檔進行聚類,得到與所述事件的每個階段對應的文 檔簇,其中文檔簇的總數與所述事件的階段個數相同。
【文檔編號】G06F17/30GK103995849SQ201410190542
【公開日】2014年8月20日 申請日期:2014年5月7日 優(yōu)先權日:2014年5月7日
【發(fā)明者】史忠植, 王偉, 齊保元, 張博, 張建華, 岳金朋 申請人:中國科學院計算技術研究所, 北京聯索科技有限公司