專利名稱:一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法
技術領域:
本發(fā)明提供了一種在線新聞的熱點事件發(fā)現(xiàn)方法,具體涉及到從網(wǎng)上時序報道的海量新聞文本中快速發(fā)現(xiàn)熱點事件,并按熱度對事件排序,屬于自然語言處理和數(shù)據(jù)挖掘領域。
背景技術:
隨著網(wǎng)絡技術的蓬勃發(fā)展與隨之而來的信息爆炸,人們一方面可以隨時獲取到最新、最全的新聞大事,另一方面,讀者獲得關鍵信息的時間成本也隨之增加。如何從海量的在線網(wǎng)絡新聞中自動獲得有用信息成為一項迫切的任務。網(wǎng)絡在線新聞的熱點事件檢測可以滿足人們從時序海量的網(wǎng)絡新聞中獲取重要信息、提高閱讀效率,同時也能幫助政府相關部門進行網(wǎng)絡輿情監(jiān)控和突發(fā)事件監(jiān)測。
目前,很多方法在進行網(wǎng)絡新聞熱點檢測和新聞推薦時,使用了主題模型(TopicModel)和仿射傳播(Affinity Propagation)算法。但這兩類方法存在的問題是需要事先給定新聞中熱點數(shù)目k,而且只能處理靜態(tài)數(shù)據(jù)。實際情況是,每天發(fā)生的新聞大事數(shù)量并不確定,同時,新聞報道是動態(tài)、實時的。除上述問題外,事件本身還會經(jīng)歷發(fā)生、發(fā)展和衰減的過程,在熱點事件發(fā)現(xiàn)中,也應該考慮這些自然的規(guī)律。
發(fā)明內容
本發(fā)明中所指的網(wǎng)絡新聞熱點事件指的是在一組時序的網(wǎng)絡新聞文本流中存在的、在某一特定的時間段內被連續(xù)而廣泛報道、并受到高度關注的事件。在不作特別說明的情況下,本發(fā)明所述的時間單位都假定按“天”為單位,時間跨度也以“I天”為間隔。但本發(fā)明的方法適用于任意時間單位。本發(fā)明的目的是提供一種新的方法,通過快速處理海量的網(wǎng)絡新聞文本數(shù)據(jù),檢測其中的熱點事件,并按熱度對事件排序。面對時序海量的新聞文本,既要求算法時間效率高,又不能隨著新聞數(shù)據(jù)的增加而線性增加空間復雜性,同時,還能對熱點事件的發(fā)生、發(fā)展、衰減過程建模。本發(fā)明的原理是使用一個帶時間因子的狄利克雷過程用于網(wǎng)絡新聞聚類,它一方面能很好地表示新聞熱點的動態(tài)演化過程,另一方面將一般的狄利克雷過程變成了增量模型,內存的占用不會隨數(shù)據(jù)量增加而線性增加,適用于大規(guī)模網(wǎng)絡文本數(shù)據(jù)的處理。此夕卜,為了進一步提高時間效率,本發(fā)明提出了一種基于貪心搜索的快速推斷算法取代吉布斯采樣,大大加快了算法速度。之后,對挖掘出的熱點事件(即新聞文本聚類簇)進行排序,提取出最熱門的事件。下面先對幾個術語進行解釋-聚類簇:通過聚類方法形成的每個類稱為一個聚類簇。本發(fā)明中,每個聚類簇代表一個可能的事件。
-聚類簇大小聚類簇中的元素個數(shù);對于文本聚類而言,聚類簇的大小是指其中的文本個數(shù)。-狄利克雷過程(DirichletProcess):也稱為中餐館過程(Chinese RestaurantProcss),在[WIKI]上有詳細解釋(http://en. wikipedia. org/wiki/Dirichlet_process)。-tf-idf值信息檢索中的常用概念,是度量一個詞(或短語)表征文本內容的一種方法。假定某個詞(或短語)term在一個文本Text中出現(xiàn)的頻次為tf,該詞(或短語)在文本集合中的df個文本中出現(xiàn),若文本集合中的文本總數(shù)為Num,該term在文本Text中的tf-idf值按如下公式計算(對數(shù)log取10為底數(shù))
權利要求
1.一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法,包括 A.使用帶時間因子的狄利克雷過程對網(wǎng)絡新聞文本在線聚類,包括如下三步 Al.將網(wǎng)絡新聞文本序列按時間間隔分為區(qū)塊序列,每個區(qū)塊包含時間間隔內的多個新聞文本; A2.對第一個區(qū)塊的新聞文本按狄利克雷過程進行聚類,形成聚類簇集合; A3.把前一區(qū)塊聚類后的結果進行衰減、過濾,作為后續(xù)區(qū)塊的先驗分布,然后對后續(xù)區(qū)塊按按狄利克雷過程進行聚類; B.對熱點事件進行排序和展示,包括 BI.對每個聚類簇,計算此聚類簇在報道期間內平均時間段的報道量,然后按照報道量進行事件的熱度排序; B2.將排序值最高的T個聚類簇作為熱點事件,選取每個聚類簇中tf-idf值最高的M個特征作為熱點的關鍵詞,對熱點進行展示, 其中,T、M為用戶自定義值= Zi5Mog —「,tf為某個詞或短語term在一個 文本Text中出現(xiàn)的頻次,df為該詞或短語在文本集合中的多少個文本中出現(xiàn),Num為文 本集合中的文本總數(shù),對數(shù)log取10為底數(shù)。
2.如權利要求I所述的熱點事件快速檢測方法,其特征是,步驟Al中,所述時間間隔以I天為單位,每個區(qū)塊包含I天的新聞文本。
3.如權利要求I所述的熱點事件快速檢測方法,其特征是,步驟A3中,所述衰減的處理方法如下在前一區(qū)塊處理完之后,對形成的每個聚類簇以a為衰減因子實施衰減,假定某個聚類簇的大小為r,則,通過修改衰減后,其大小變?yōu)閞丨=a*r,其中a e (O, I),聚類簇內部的特征分布保持不變。
4.如權利要求I所述的熱點事件快速檢測方法,其特征是,步驟A3中,所述過濾的處理方法如下刪除大小小于一定閾值t的聚類簇,同時,刪除持續(xù)報道時間超過一定時間長度的聚類簇。
5.如權利要求I所述的熱點事件快速檢測方法,其特征是,步驟A2的實現(xiàn)方法如下 第I步初始化聚類簇集合C為空,聚類簇個數(shù)K為O ; 第2步設定一個概率最大值的初始值Pmax = O ; 第3步對于區(qū)塊中每一個文本Xi,重復執(zhí)行第3. I步 第3. 3步 第3. I步新增一個聚類簇cn ,記C’ = C U {cnew}; 第3. 2步對于每一個聚類簇& e C’,重復執(zhí)行第3. 2. I步 第3. 2. I步 第3. 2. I步當文本屬于Cj時,計算當前區(qū)塊整體的概率P如下 ①計算當前文本Xi之前各文本Xy I < r < i,屬于相應聚類簇的概率值②假定文本Xi之后的各文本i< r < m,屬于單獨的新聚類簇,其概率值則為 ③當前區(qū)塊的整體概率為上面各個文本Xi所屬聚類簇的概率值之積 ρΠ: 第3. 2. 2步若概率P大于最大概率值Pmax,即p>pmax時: 第3. 2. 2. I步第i個文本Xi的聚類簇指定為Cj ^ssigni=Cj ; 第3. 2. 2. 2步更新最大概率值,使Pmax=P ; 第3. 3步若第i個文本Xi所屬的聚類簇不屬于集合C,即assigni=cK+1: 第3. 3. I步將新的聚類簇cK+1加入到聚類簇集合C:C=C U {cK+1}; 第3. 3. 2步聚類簇數(shù)增1,即K=K+1 ; 第4步返回每個文本對應的聚類簇,即assign1:m ; 其中,區(qū)塊中的m個文本對應的聚類簇,以序列表示為^ssign1 : m =(assign” assign2, · · ·,assignj,其中 assign」e C, C 表示聚類簇集,即 C=Ic1, c2,…,ck},聚類簇的個數(shù)為K= I CI ;Nj表示屬于聚類簇h的文本個數(shù);L表示文本集合中總共包含的不同詞數(shù)Y表示屬于聚類簇h的文本集合中序號為I的詞總共出現(xiàn)的次數(shù);^是對應于<的超參數(shù),且爲二片,α也是超參數(shù),超參數(shù)給定為一個初始的常量值。
全文摘要
一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法,包括將網(wǎng)絡新聞文本序列按時間間隔分為區(qū)塊序列;對第一個區(qū)塊的新聞文本按狄利克雷過程進行聚類,形成聚類簇集合;把前一區(qū)塊聚類后的結果進行衰減、過濾,作為后續(xù)區(qū)塊的先驗分布,然后對后續(xù)區(qū)塊按按狄利克雷過程進行聚類;對每個聚類簇按照報道量進行事件的熱度排序;將排序值最高的T個聚類簇作為熱點事件,選取每個聚類簇中tf-idf值最高的M個特征作為熱點的關鍵詞,對熱點進行展示。本發(fā)明可以大大提高網(wǎng)絡新聞聚類的效率;同時內存的占用不隨數(shù)據(jù)量的增加而線性增加,適用于大規(guī)模文本數(shù)據(jù)分析。
文檔編號G06F17/30GK102779190SQ20121022937
公開日2012年11月14日 申請日期2012年7月3日 優(yōu)先權日2012年7月3日
發(fā)明者彭楠赟, 王厚峰 申請人:北京大學