專利名稱:大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)及其方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)上的新聞報(bào)道也呈現(xiàn)爆發(fā)式的增長(zhǎng)。如何在海量的新聞信息中快速挖掘出需要的信息是一件值得研究的問題。現(xiàn)有的層次式聚類是對(duì)給定的數(shù)據(jù)集合進(jìn)行層次式的合并(或分解)的處理過程,在數(shù)據(jù)處理的過程中將根據(jù)數(shù)據(jù)間的相似程度來決定彼此之間合并的順序。層次式聚類法與其他聚類或者分類方法相比,優(yōu)點(diǎn)是層次式聚類法并不需要預(yù)先知道數(shù)據(jù)將會(huì)被劃分為類別的數(shù)目,更適合互聯(lián)網(wǎng)上新聞事件數(shù)目無法確切統(tǒng)計(jì)這一特點(diǎn)。但是層次聚類由于其算法本身的特性決定了其計(jì)算的復(fù)雜度較高,不利于在海量數(shù)據(jù)集合上進(jìn)行擴(kuò)展。因此面對(duì)互聯(lián)網(wǎng)海量的新聞報(bào)道,如何設(shè)計(jì)一種能夠在海量數(shù)據(jù)集合下使用的新聞事件挖掘技術(shù)是很有意義的。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)及其方法,在新聞信息量較大且不斷遞增時(shí),能夠?qū)A康男侣剤?bào)道內(nèi)容進(jìn)行自動(dòng)挖掘,動(dòng)態(tài)修正挖掘結(jié)果,并滿足時(shí)效性和準(zhǔn)確性的要求。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng),主要包括接收模塊、聚類處理模塊、事件合并模塊和緩存處理模塊;其中
所述接收模塊,用于接收一個(gè)時(shí)間片段內(nèi)推送到所述事件挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一個(gè)時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘;
所述聚類處理模塊,用于對(duì)接收到的新聞數(shù)據(jù)按照彼此間的標(biāo)題或正文文本的相似程度進(jìn)行層次式聚類處理,以挖掘出具有相同事件屬性的若干個(gè)族,即新聞族;將所述新聞簇作為事件合并模塊的輸入,以便與歷史事件進(jìn)行比較;
所述事件合并模塊,用于將經(jīng)聚類處理形成的新事件與歷史上形成的舊事件按照所述事件間的相似程度進(jìn)行合并處理;以及
所述緩存處理模塊,將新形成的事件與經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。其中所述時(shí)間合并模塊,還用于對(duì)經(jīng)過修改的舊事件與其他事件進(jìn)行合并處理。一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,該方法包括
A、接收一個(gè)時(shí)間片段內(nèi)推送到事件自動(dòng)挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一個(gè)時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘處理;
B、利用聚類處理模塊對(duì)接收的新聞數(shù)據(jù)按照彼此之間標(biāo)題或正文文本的相似程度進(jìn)行層次式的聚類處理,挖掘出具有相同事件屬性的若干個(gè)簇,即新聞族;然后將新聞簇作為下一個(gè)處理階段的事件合并模塊的輸入;
C、通過事件合并模塊對(duì)經(jīng)過聚類處理形成的新事件與歷史舊事件按照事件間的相似程度進(jìn)行合并處理;
D、將新形成的事件或經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。其中所述步驟C進(jìn)一步包括對(duì)經(jīng)過修改的舊事件與其他事件進(jìn)行合并處理。步驟B所述聚合的標(biāo)準(zhǔn)是按照新聞間標(biāo)題以及正文的相似程度大小來進(jìn)行判斷的,而計(jì)算兩條新聞之間的相似程度時(shí),如果大于預(yù)設(shè)閾值則合并兩篇新聞作為一個(gè)類別,即具有相同的事件屬性,否則,不處理。 進(jìn)一步包括對(duì)于兩個(gè)已經(jīng)包含了多篇新聞的類別,按照UPGMA算法計(jì)算所述兩個(gè)類別間的相似程度,大于預(yù)設(shè)閾值則認(rèn)為其具有相同的事件屬性,做合并處理,否則,不
I=I TT O步驟C所述對(duì)新事件與歷史舊事件進(jìn)行合并處理,包括
Cl、將聚類處理后形成的新事件與歷史舊事件按照規(guī)則進(jìn)行合并處理,所述規(guī)則是如果新事件與歷史舊事件相似程度大于設(shè)定的閾值,則將新舊兩個(gè)事件合并,否則不做任何處理;
C2、在舊事件中尋找可以合并處理的新聞事件進(jìn)行合并處理。步驟Cl進(jìn)一步包括當(dāng)一個(gè)新類別無法找到與其相似程度大于閾值的舊事件時(shí),則將該類別作為新增事件添加到歷史事件隊(duì)列中。所述緩存處理具體包括定期淘汰過期事件。本發(fā)明所提供的大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)及其方法,具有以下優(yōu)
占-
^ \\\ ·
本發(fā)明提出的在海量遞增的新聞數(shù)據(jù)下能夠快速準(zhǔn)確地進(jìn)行事件自動(dòng)挖掘系統(tǒng),運(yùn)用該系統(tǒng)能夠解決同類系統(tǒng)無法同時(shí)滿足的及時(shí)性及準(zhǔn)確性的需求。
圖1為本發(fā)明大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)框架示意圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對(duì)本發(fā)明的自動(dòng)挖掘系統(tǒng)及其方法作進(jìn)一步詳細(xì)的說明。本發(fā)明針對(duì)大規(guī)模新聞數(shù)據(jù)信息環(huán)境下,如何及時(shí)準(zhǔn)確的挖掘出新聞事件而提出的自動(dòng)聚類系統(tǒng),主要利用了兩次不同粒度的層次聚類的方法進(jìn)行數(shù)據(jù)處理。目前對(duì)對(duì)新聞數(shù)據(jù)進(jìn)行事件挖掘的方法是把全部的新聞數(shù)據(jù)作為整體輸入進(jìn)行分類或者聚類的一次性處理方法。這種方法有兩個(gè)缺陷第一,這種集中式處理的方法的在數(shù)據(jù)規(guī)模上擴(kuò)展性很差。此類方法在大規(guī)模新聞數(shù)據(jù)集合上的處理時(shí)間將會(huì)變得很長(zhǎng),不符合新聞事件挖掘及時(shí)性的需求。第二,一輪集中式的處理不利于事件的擴(kuò)展。實(shí)際應(yīng)用中的新聞報(bào)道是隨著時(shí)間不斷增多的,集中式的處理過程不利于將新增加的新聞報(bào)道添加到已經(jīng)得到的事件結(jié)果中。
圖1為本發(fā)明大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)框架示意圖,描述了該新聞事件自動(dòng)挖掘系統(tǒng)的組成結(jié)構(gòu)和對(duì)新聞事件的自動(dòng)挖掘過程。所述新聞事件自動(dòng)挖掘系統(tǒng),主要包括接收模塊、聚類處理模塊、事件合并模塊和緩存處理模塊。其中
所述接收模塊,用于接收一個(gè)時(shí)間片段內(nèi)推送到事件挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一個(gè)時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘。這里,該接收模塊能夠?qū)崟r(shí)地接收新聞數(shù)據(jù),并將一定時(shí)間片段內(nèi)接收到的新聞數(shù)據(jù)交給聚類處理模塊進(jìn)行聚類處理。該過程是一直持續(xù)進(jìn)行的,在接收本時(shí)間片段內(nèi)的新聞數(shù)據(jù)的同時(shí),上一個(gè)時(shí)間片段內(nèi)的新聞數(shù)據(jù)已經(jīng)被拿去進(jìn)行聚類處理。所述聚類處理模塊,用于對(duì)接收的新聞數(shù)據(jù)按照彼此之間標(biāo)題或正文文本的相似程度進(jìn)行層次式的聚類處理,通過所述聚類處理可以挖掘出具有相同事件屬性的若干個(gè)簇,稱為新聞族;然后將所述新聞簇作為下一個(gè)處理階段的事件合并模塊的輸入,以便與歷史事件進(jìn)行比較。這里,聚類處理模塊對(duì)新聞數(shù)據(jù)進(jìn)行聚類處理的過程中,在一定時(shí)間窗口內(nèi)由接收模塊接收到的新聞數(shù)據(jù)會(huì)發(fā)送給聚類處理模塊進(jìn)行聚類處理。聚合的標(biāo)準(zhǔn)是按照新聞間標(biāo)題以及正文的相似程度大小來進(jìn)行判斷的。計(jì)算兩條新聞之間的相似程度時(shí),如果大于閾值則合并兩篇新聞作為一個(gè)類別,認(rèn)為它們具有相同的事件屬性,否則不做處理。同理,對(duì)于兩個(gè)已經(jīng)包含了多篇新聞的類別而言,按照UPGMA算法計(jì)算兩個(gè)類別間的相似程度,大于閾值則認(rèn)為它們具有相同的事件屬性,應(yīng)當(dāng)被合并處理,否則不能合并。所述事件合并模塊,用于將經(jīng)所述聚類處理形成的新事件與歷史事件按照事件間的相似程度進(jìn)行合并處理,然后再對(duì)經(jīng)過修改的舊事件與其他事件進(jìn)行合并處理。下面簡(jiǎn)要介紹利用事件合并模塊對(duì)新聞事件進(jìn)行合并的過程新聞數(shù)據(jù)在經(jīng)過聚類處理后會(huì)形成一些具有相同事件屬性的類別,因此這些類別可以被看成是不同的新聞事件。但是在這些新聞事件中,有些事件是新出現(xiàn)的事件,有些則是已有事件的延續(xù)報(bào)道,需要一個(gè)新舊事件合并處理的過程。本過程可以分為兩個(gè)步驟首先是將聚類處理后形成的新事件與歷史上的舊事件按照規(guī)則進(jìn)行合并處理,這個(gè)規(guī)則是如果新事件與歷史事件相似程度大于設(shè)定的閾值,則將新舊兩個(gè)事件合并,否則不做任何處理。當(dāng)一個(gè)新類別無法找到與其相似程度大于閾值的舊事件時(shí),則把這個(gè)類別作為新增事件添加到歷史事件隊(duì)列中。第二個(gè)過程是在舊事件中尋找可以合并處理的新聞事件進(jìn)行合并處理。進(jìn)行這步處理的原因是在此之前的處理過程中會(huì)導(dǎo)致部分舊事件的屬性發(fā)生變化,因此需要在這個(gè)過程中對(duì)修改的舊事件進(jìn)行處理,將歷史事件中與它們相似程度超過閾值的事件進(jìn)行合并。所述緩存處理模塊,將新形成的事件與經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。下面對(duì)新聞事件的緩存處理過程進(jìn)行介紹經(jīng)過合并處理后的新聞事件會(huì)被推送到緩存模塊進(jìn)行緩存處理,以方便前臺(tái)讀取或者其他有需求的模塊讀取。緩存模塊會(huì)存儲(chǔ)一定時(shí)間內(nèi)的新聞事件,一個(gè)典型的例子是保存7天(注時(shí)長(zhǎng)可調(diào))內(nèi)有信息變動(dòng)的新聞事件。所述緩存處理模塊除了可以起到緩存事件并且定期淘汰過期事件的作用外,還可以使得數(shù)據(jù)處理與數(shù)據(jù)存儲(chǔ)分隔開,避免數(shù)據(jù)處理過程中意外錯(cuò)誤導(dǎo)致無法取得數(shù)據(jù)的缺點(diǎn)。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng),其特征在于,主要包括接收模塊、聚類處理模塊、事件合并模塊和緩存處理模塊;其中所述接收模塊,用于接收一個(gè)時(shí)間片段內(nèi)推送到所述事件挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一個(gè)時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘;所述聚類處理模塊,用于對(duì)接收到的新聞數(shù)據(jù)按照彼此間的標(biāo)題或正文文本的相似程度進(jìn)行層次式聚類處理,以挖掘出具有相同事件屬性的若干個(gè)族,即新聞族;將所述新聞簇作為事件合并模塊的輸入,以便與歷史事件進(jìn)行比較;所述事件合并模塊,用于將經(jīng)聚類處理形成的新事件與歷史上形成的舊事件按照所述事件間的相似程度進(jìn)行合并處理;以及所述緩存處理模塊,將新形成的事件與經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。
2.根據(jù)權(quán)利要求1所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng),其特征在于,所述時(shí)間合并模塊,還用于對(duì)經(jīng)過修改的舊事件與其他事件進(jìn)行合并處理。
3.一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,該方法包括A、接收一個(gè)時(shí)間片段內(nèi)推送到事件自動(dòng)挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一個(gè)時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘處理;B、利用聚類處理模塊對(duì)接收的新聞數(shù)據(jù)按照彼此之間標(biāo)題或正文文本的相似程度進(jìn)行層次式的聚類處理,挖掘出具有相同事件屬性的若干個(gè)簇,即新聞族;然后將新聞簇作為下一個(gè)處理階段的事件合并模塊的輸入;C、通過事件合并模塊對(duì)經(jīng)過聚類處理形成的新事件與歷史舊事件按照事件間的相似程度進(jìn)行合并處理;D、將新形成的事件或經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。
4.根據(jù)權(quán)利要求3所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,所述步驟C進(jìn)一步包括對(duì)經(jīng)過修改的舊事件與其他事件進(jìn)行合并處理。
5.根據(jù)權(quán)利要求3所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,步驟B所述聚合的標(biāo)準(zhǔn)是按照新聞間標(biāo)題以及正文的相似程度大小來進(jìn)行判斷的,而計(jì)算兩條新聞之間的相似程度時(shí),如果大于預(yù)設(shè)閾值則合并兩篇新聞作為一個(gè)類別,即具有相同的事件屬性,否則,不處理。
6.根據(jù)權(quán)利要求5所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,進(jìn)一步包括對(duì)于兩個(gè)已經(jīng)包含了多篇新聞的類別,按照UPGMA算法計(jì)算所述兩個(gè)類別間的相似程度,大于預(yù)設(shè)閾值則認(rèn)為其具有相同的事件屬性,做合并處理,否則,不合并。
7.根據(jù)權(quán)利要求3所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,步驟C所述對(duì)新事件與歷史舊事件進(jìn)行合并處理,包括Cl、將聚類處理后形成的新事件與歷史舊事件按照規(guī)則進(jìn)行合并處理,所述規(guī)則是如果新事件與歷史舊事件相似程度大于設(shè)定的閾值,則將新舊兩個(gè)事件合并,否則不做任何處理;C2、在舊事件中尋找可以合并處理的新聞事件進(jìn)行合并處理。
8.根據(jù)權(quán)利要求7所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,步驟Cl 進(jìn)一步包括當(dāng)一個(gè)新類別無法找到與其相似程度大于閾值的舊事件時(shí),則將該類別作為新增事件添加到歷史事件隊(duì)列中。
9.根據(jù)權(quán)利要求3所述大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘方法,其特征在于,所述緩存處理具體包括定期淘汰過期事件。
全文摘要
本發(fā)明公開了一種大規(guī)模數(shù)據(jù)下的新聞事件自動(dòng)挖掘系統(tǒng)及其方法,包括接收模塊,接收一個(gè)時(shí)間片段內(nèi)推送到所述事件挖掘系統(tǒng)的新聞數(shù)據(jù),并將上一時(shí)間片段內(nèi)積攢的新聞數(shù)據(jù)發(fā)送給聚類處理模塊進(jìn)行事件挖掘;聚類處理模塊,對(duì)接收到的新聞數(shù)據(jù)按照彼此間的標(biāo)題或正文文本的相似程度進(jìn)行層次式聚類處理,以挖掘出具有相同事件屬性的新聞族;事件合并模塊,將經(jīng)聚類處理形成的新事件與歷史上形成的舊事件按照所述事件間的相似程度進(jìn)行合并處理;緩存處理模塊,將新形成的事件與經(jīng)過修改的歷史事件發(fā)送到緩存模塊作緩存處理。采用本發(fā)明,能夠?qū)A啃侣剶?shù)據(jù)進(jìn)行自動(dòng)挖掘,并滿足時(shí)效性和準(zhǔn)確性要求。
文檔編號(hào)G06F17/30GK103020251SQ201210558059
公開日2013年4月3日 申請(qǐng)日期2012年12月20日 優(yōu)先權(quán)日2012年12月20日
發(fā)明者付萬宇, 黃叢蕊, 薛飛, 徐海瑞, 楊之光, 楊青 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司