一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法

文檔序號：6372818閱讀：504來源：國知局

專利名稱：一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法
技術領域：
本發(fā)明提供了一種在線新聞的熱點事件發(fā)現(xiàn)方法，具體涉及到從網(wǎng)上時序報道的海量新聞文本中快速發(fā)現(xiàn)熱點事件，并按熱度對事件排序，屬于自然語言處理和數(shù)據(jù)挖掘領域。
背景技術：
隨著網(wǎng)絡技術的蓬勃發(fā)展與隨之而來的信息爆炸，人們一方面可以隨時獲取到最新、最全的新聞大事，另一方面，讀者獲得關鍵信息的時間成本也隨之增加。如何從海量的在線網(wǎng)絡新聞中自動獲得有用信息成為一項迫切的任務。網(wǎng)絡在線新聞的熱點事件檢測可以滿足人們從時序海量的網(wǎng)絡新聞中獲取重要信息、提高閱讀效率，同時也能幫助政府相關部門進行網(wǎng)絡輿情監(jiān)控和突發(fā)事件監(jiān)測。
目前，很多方法在進行網(wǎng)絡新聞熱點檢測和新聞推薦時，使用了主題模型(TopicModel)和仿射傳播(Affinity Propagation)算法。但這兩類方法存在的問題是需要事先給定新聞中熱點數(shù)目k，而且只能處理靜態(tài)數(shù)據(jù)。實際情況是，每天發(fā)生的新聞大事數(shù)量并不確定，同時，新聞報道是動態(tài)、實時的。除上述問題外，事件本身還會經(jīng)歷發(fā)生、發(fā)展和衰減的過程，在熱點事件發(fā)現(xiàn)中，也應該考慮這些自然的規(guī)律。

發(fā)明內容
本發(fā)明中所指的網(wǎng)絡新聞熱點事件指的是在一組時序的網(wǎng)絡新聞文本流中存在的、在某一特定的時間段內被連續(xù)而廣泛報道、并受到高度關注的事件。在不作特別說明的情況下，本發(fā)明所述的時間單位都假定按“天”為單位，時間跨度也以“I天”為間隔。但本發(fā)明的方法適用于任意時間單位。本發(fā)明的目的是提供一種新的方法，通過快速處理海量的網(wǎng)絡新聞文本數(shù)據(jù)，檢測其中的熱點事件，并按熱度對事件排序。面對時序海量的新聞文本，既要求算法時間效率高，又不能隨著新聞數(shù)據(jù)的增加而線性增加空間復雜性，同時,還能對熱點事件的發(fā)生、發(fā)展、衰減過程建模。本發(fā)明的原理是使用一個帶時間因子的狄利克雷過程用于網(wǎng)絡新聞聚類，它一方面能很好地表示新聞熱點的動態(tài)演化過程，另一方面將一般的狄利克雷過程變成了增量模型，內存的占用不會隨數(shù)據(jù)量增加而線性增加，適用于大規(guī)模網(wǎng)絡文本數(shù)據(jù)的處理。此夕卜，為了進一步提高時間效率，本發(fā)明提出了一種基于貪心搜索的快速推斷算法取代吉布斯采樣，大大加快了算法速度。之后，對挖掘出的熱點事件(即新聞文本聚類簇)進行排序，提取出最熱門的事件。下面先對幾個術語進行解釋-聚類簇:通過聚類方法形成的每個類稱為一個聚類簇。本發(fā)明中，每個聚類簇代表一個可能的事件。
-聚類簇大小聚類簇中的元素個數(shù)；對于文本聚類而言，聚類簇的大小是指其中的文本個數(shù)。-狄利克雷過程(DirichletProcess):也稱為中餐館過程(Chinese RestaurantProcss),在[WIKI]上有詳細解釋(http://en. wikipedia. org/wiki/Dirichlet_process)。-tf-idf值信息檢索中的常用概念，是度量一個詞(或短語)表征文本內容的一種方法。假定某個詞(或短語)term在一個文本Text中出現(xiàn)的頻次為tf，該詞(或短語)在文本集合中的df個文本中出現(xiàn)，若文本集合中的文本總數(shù)為Num，該term在文本Text中的tf-idf值按如下公式計算(對數(shù)log取10為底數(shù))
權利要求
1.一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法，包括 A.使用帶時間因子的狄利克雷過程對網(wǎng)絡新聞文本在線聚類，包括如下三步 Al.將網(wǎng)絡新聞文本序列按時間間隔分為區(qū)塊序列，每個區(qū)塊包含時間間隔內的多個新聞文本； A2.對第一個區(qū)塊的新聞文本按狄利克雷過程進行聚類，形成聚類簇集合； A3.把前一區(qū)塊聚類后的結果進行衰減、過濾，作為后續(xù)區(qū)塊的先驗分布，然后對后續(xù)區(qū)塊按按狄利克雷過程進行聚類； B.對熱點事件進行排序和展示,包括 BI.對每個聚類簇，計算此聚類簇在報道期間內平均時間段的報道量，然后按照報道量進行事件的熱度排序； B2.將排序值最高的T個聚類簇作為熱點事件，選取每個聚類簇中tf-idf值最高的M個特征作為熱點的關鍵詞，對熱點進行展示，其中，T、M為用戶自定義值= Zi5Mog —「，tf為某個詞或短語term在一個文本Text中出現(xiàn)的頻次，df為該詞或短語在文本集合中的多少個文本中出現(xiàn)，Num為文本集合中的文本總數(shù)，對數(shù)log取10為底數(shù)。
2.如權利要求I所述的熱點事件快速檢測方法，其特征是，步驟Al中，所述時間間隔以I天為單位，每個區(qū)塊包含I天的新聞文本。
3.如權利要求I所述的熱點事件快速檢測方法，其特征是，步驟A3中，所述衰減的處理方法如下在前一區(qū)塊處理完之后，對形成的每個聚類簇以a為衰減因子實施衰減，假定某個聚類簇的大小為r,則,通過修改衰減后,其大小變?yōu)閞丨=a*r,其中a e (O, I),聚類簇內部的特征分布保持不變。
4.如權利要求I所述的熱點事件快速檢測方法，其特征是，步驟A3中，所述過濾的處理方法如下刪除大小小于一定閾值t的聚類簇，同時，刪除持續(xù)報道時間超過一定時間長度的聚類簇。
5.如權利要求I所述的熱點事件快速檢測方法，其特征是，步驟A2的實現(xiàn)方法如下第I步初始化聚類簇集合C為空，聚類簇個數(shù)K為O ; 第2步設定一個概率最大值的初始值Pmax = O ；第3步對于區(qū)塊中每一個文本Xi，重復執(zhí)行第3. I步第3. 3步第3. I步新增一個聚類簇cn ,記C’ = C U {cnew}；第3. 2步對于每一個聚類簇& e C’，重復執(zhí)行第3. 2. I步第3. 2. I步第3. 2. I步當文本屬于Cj時,計算當前區(qū)塊整體的概率P如下 ①計算當前文本Xi之前各文本Xy I < r < i，屬于相應聚類簇的概率值②假定文本Xi之后的各文本i< r < m，屬于單獨的新聚類簇，其概率值則為 ③當前區(qū)塊的整體概率為上面各個文本Xi所屬聚類簇的概率值之積 ρΠ: 第3. 2. 2步若概率P大于最大概率值Pmax，即p>pmax時: 第3. 2. 2. I步第i個文本Xi的聚類簇指定為Cj ^ssigni=Cj ；第3. 2. 2. 2步更新最大概率值，使Pmax=P ；第3. 3步若第i個文本Xi所屬的聚類簇不屬于集合C,即assigni=cK+1: 第3. 3. I步將新的聚類簇cK+1加入到聚類簇集合C:C=C U {cK+1}; 第3. 3. 2步聚類簇數(shù)增1，即K=K+1 ；第4步返回每個文本對應的聚類簇,即assign1:m ；其中，區(qū)塊中的m個文本對應的聚類簇，以序列表示為^ssign1 : m =(assign” assign2, · · ·，assignj，其中 assign」e C, C 表示聚類簇集，即 C=Ic1, c2,…，ck},聚類簇的個數(shù)為K= I CI ；Nj表示屬于聚類簇h的文本個數(shù)；L表示文本集合中總共包含的不同詞數(shù)Y表示屬于聚類簇h的文本集合中序號為I的詞總共出現(xiàn)的次數(shù)；^是對應于<的超參數(shù)，且爲二片，α也是超參數(shù)，超參數(shù)給定為一個初始的常量值。
全文摘要
一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法，包括將網(wǎng)絡新聞文本序列按時間間隔分為區(qū)塊序列；對第一個區(qū)塊的新聞文本按狄利克雷過程進行聚類，形成聚類簇集合；把前一區(qū)塊聚類后的結果進行衰減、過濾，作為后續(xù)區(qū)塊的先驗分布，然后對后續(xù)區(qū)塊按按狄利克雷過程進行聚類；對每個聚類簇按照報道量進行事件的熱度排序；將排序值最高的T個聚類簇作為熱點事件，選取每個聚類簇中tf-idf值最高的M個特征作為熱點的關鍵詞，對熱點進行展示。本發(fā)明可以大大提高網(wǎng)絡新聞聚類的效率；同時內存的占用不隨數(shù)據(jù)量的增加而線性增加，適用于大規(guī)模文本數(shù)據(jù)分析。
文檔編號G06F17/30GK102779190SQ20121022937
公開日2012年11月14日申請日期2012年7月3日優(yōu)先權日2012年7月3日
發(fā)明者彭楠赟, 王厚峰申請人:北京大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王厚峰;彭楠赟
技術所有人：北京大學
我是此專利的發(fā)明人

上一篇：一種基于重心歐氏距離的點云精確配準方法
上一篇：一種基于仿射尺度不變特征變換和結構相似的人臉識別方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種時序海量網(wǎng)絡新聞的熱點事件快速檢測方法