專利名稱:基于分布式多級聚類的話題檢測裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本信息處理中的網(wǎng)絡(luò)信息分析、文本分類和文本聚類技術(shù),尤其涉及一種基于分布式多級聚類的話題檢測裝置及方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的信息越來越多元和豐富,與此同時(shí),網(wǎng)絡(luò)輿情的社會(huì)影響力不斷增強(qiáng),很多社會(huì)熱點(diǎn)事件都是在網(wǎng)絡(luò)中第一時(shí)間披露和傳播,網(wǎng)絡(luò)話題檢測因而愈發(fā)顯現(xiàn)出其重要價(jià)值。在互聯(lián)網(wǎng)環(huán)境中,存在大量自然語言形式的文檔,其類型包括新聞、博客、論壇帖子,以及新興的微博等,這些文檔為發(fā)現(xiàn)熱點(diǎn)話題提供了最基本的數(shù)據(jù)來源。 美國國防部開展的話題檢測與跟蹤項(xiàng)目(TDT, Topic Detection and Tracking)最早展開了該領(lǐng)域的系統(tǒng)性研究。多種TDT技術(shù)在該領(lǐng)域已經(jīng)做出了有益探索?,F(xiàn)有話題檢測技術(shù)大多串行地處理每個(gè)新產(chǎn)生文檔,基于向量空間模型或其他模型,采用單路徑聚類、凝聚層次聚類等聚類算法,考察其與現(xiàn)有話題集合中各話題的相關(guān)程度,并決定將其合并入現(xiàn)有話題或?qū)⑵湟暈橐粋€(gè)新話題。然而,由于這些方法采用串行方式處理每一個(gè)文檔,一旦面臨較大的數(shù)據(jù)量,如果不在聚類算法的選擇上采用復(fù)雜度較低但效果較差的算法,便難以保證具有實(shí)用意義的處理速度。并且,由于沒有采取預(yù)先有效降低噪聲的措施,其檢測效果也有待改善??傊捎诰W(wǎng)絡(luò)環(huán)境中新的文檔每時(shí)每刻都在大量產(chǎn)生,如何對它們進(jìn)行即有效又快速的分析,檢測出熱點(diǎn)話題,對現(xiàn)有技術(shù)構(gòu)成了很大挑戰(zhàn)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于分布式多級聚類的話題檢測裝置及方法,以解決在互聯(lián)網(wǎng)環(huán)境中大量文檔快速更新的條件下,話題檢測面臨的檢測效果與時(shí)間開銷的尖銳矛盾。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種基于分布式多級聚類的話題檢測裝置,該裝置主要包括
新聞采集模塊,用于實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息;
新聞分類模塊,用于對采集的新聞按主題類別進(jìn)行分類,分發(fā)到各個(gè)頻道;
話題檢測模塊,分為多個(gè)彼此獨(dú)立的模塊,每個(gè)頻道對應(yīng)一個(gè)模塊,采用并行方式在各頻道內(nèi)進(jìn)行多級聚類,計(jì)算各話題熱度,并篩選出頻道熱門話題;
話題整合模塊,用于綜合各頻道熱門話題,篩選出全系統(tǒng)的熱門話題。其中,所述話題檢測裝置進(jìn)一步包括
話題展示模塊,用于將各話題及其相關(guān)信息組織成用戶易使用的形式。一種基于分布式多級聚類的話題檢測方法,該方法包括
A、對新聞進(jìn)行采集的步驟,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞;B、對所述新采集的新聞進(jìn)行分類的步驟,按其主題類別進(jìn)行自動(dòng)化分類,每類對應(yīng)一個(gè)頻道,并將分類后的新聞分發(fā)到各個(gè)頻道的多級聚類模塊中;
C、對各頻道并行地進(jìn)行多級聚類的步驟;在所述的每個(gè)頻道中,對新進(jìn)入該頻道的新聞抽取特征,再對頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級聚類,將聚類產(chǎn)生的每一個(gè)集合或簇作為一個(gè)話題;
D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。其中,步驟A具體包括
Al、由網(wǎng)絡(luò)爬蟲采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁;
A2、對采集到的原始網(wǎng)頁做頁面分析,抽取出標(biāo)題、正文、摘要、作者、來源、發(fā)表時(shí)間、圖片、視頻信息,并組織成結(jié)構(gòu)化信息。
步驟B所述按新聞主題類別進(jìn)行自動(dòng)化分類,包括國內(nèi)、國際、社會(huì)、財(cái)經(jīng)、體育、娛樂、汽車、科技和互聯(lián)網(wǎng)類,并將所述類別作為相應(yīng)的頻道。步驟B具體包括
BI、采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁的標(biāo)題、正文、URL的特征,并結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁是否屬于新聞,如果是,進(jìn)一步判定其屬于哪一個(gè)頻道;
B2、將新采集到的新聞發(fā)送給對應(yīng)的頻道。7、根據(jù)權(quán)利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟C所述對各頻道并行地進(jìn)行多級聚類的步驟,具體包括
Cl、去除頻道內(nèi)長時(shí)間無變化的話題,以降低后續(xù)聚類處理的數(shù)據(jù)量,避免過時(shí)話題對聚類可能造成的干擾;
C2、對當(dāng)前周期內(nèi)進(jìn)入本頻道的各條新聞抽取特征;
C3、對步驟C2中生成的一批特征向量進(jìn)行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,在該算法中,聚類結(jié)果中的每個(gè)集合或簇都擁有一個(gè)中心向量;相似度的計(jì)算方法為采用兩個(gè)簇的中心向量的余弦相似度;
C4、對上述步驟C3中產(chǎn)生的每一個(gè)簇,找出與該簇的相似度最大的話題。相似度的計(jì)算方式仍為取余弦相似度;
C5、對本頻道內(nèi)所有話題再進(jìn)行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。步驟C2還包括
首先對新聞的標(biāo)題和正文進(jìn)行分詞、詞性標(biāo)注、去停用詞、專名識(shí)別、同義詞歸并,處理的結(jié)果以詞或短語為單位,統(tǒng)稱為token,對每個(gè)token,計(jì)算其TF. IffF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型信息,確定其最終的權(quán)重;然后再將token及其分值構(gòu)造成一個(gè)基于向量空間模型的特征向量,用以描述該新聞。步驟C4還包括如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時(shí)間;否則,將該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間均為系統(tǒng)當(dāng)前時(shí)間。步驟D具體包括
D1、對每個(gè)頻道內(nèi)的話題,依據(jù)其所含新聞的數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間的因素綜合計(jì)算,得出其熱度;
D2、再于頻道內(nèi)對各話題按熱度排序,從而篩選出各頻道內(nèi)的熱門話題;
D3、最后對整個(gè)系統(tǒng)內(nèi)的話題按熱度排序,篩選出全系統(tǒng)熱門話題,展示給用戶。本發(fā)明所提供的基于分布式多級聚類的話題檢測裝置及方法,具有以下優(yōu)點(diǎn) 在互聯(lián)網(wǎng)新聞快速、大量產(chǎn)生的環(huán)境中,宏觀上,對于所有新聞,基于“屬于同一話題的
新聞基本屬于相同主題類別”這一合理假設(shè),對新聞按主題類別(頻道)采取分而治之的分布式處理策略;而微觀上,對于每一頻道內(nèi)的新聞,基于“屬于同一話題的新聞在時(shí)間序列上傾向于相對集中”這一合理假設(shè),采取先局部再整體,先增量再全量的多級聚類方式。二者相結(jié)合,既大幅度降低了話題檢測時(shí)無關(guān)和弱相關(guān)數(shù)據(jù)的干擾,便于有針對性地對不同類別的數(shù)據(jù)設(shè)置不同參數(shù),有效保證了檢測效果,又顯著提高了整個(gè)系統(tǒng)的并行化程度,降低了時(shí)間開銷。出于實(shí)際產(chǎn)品的需求和其他原因的考慮,本發(fā)明主要針對處理的文檔類型為網(wǎng)絡(luò)新聞,還可以擴(kuò)展到博客、微博等其他自然語言形式的文檔領(lǐng)域。
圖I為本發(fā)明的基于分布式多級聚類的話題檢測方法的總體流程 圖2為應(yīng)用本發(fā)明針對新聞采集的流程 圖3為應(yīng)用本發(fā)明進(jìn)行新聞分類的流程 圖4為應(yīng)用本發(fā)明進(jìn)行多級聚類的流程 圖5為應(yīng)用本發(fā)明進(jìn)行熱門話題篩選的流程 圖6為本發(fā)明的一個(gè)具體實(shí)現(xiàn)裝置的模塊組成圖。
具體實(shí)施例方式下面結(jié)合附圖及本發(fā)明的實(shí)施例對本發(fā)明的基于分布式多級聚類的話題檢測裝置及方法作進(jìn)一步詳細(xì)的說明。圖I為本發(fā)明的基于分布式多級聚類的話題檢測方法的總體流程圖,如圖I所示,該流程為周期性執(zhí)行,主要包括以下步驟
步驟SI :新聞采集,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息。步驟S2 :新聞分類,對本周期內(nèi)新采集的新聞按其主題類別進(jìn)行自動(dòng)化分類,分發(fā)到各個(gè)頻道。步驟S3:在各頻道并行開展多級聚類。在每個(gè)頻道中,對本周期內(nèi)新進(jìn)入該頻道的新聞抽取特征,再對頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級層次聚類,聚類產(chǎn)生的每一個(gè)簇視為一個(gè)“話題”。該步驟是本發(fā)明的核心。步驟S4 :計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題,呈現(xiàn)給用戶。如圖2所示,所述步驟SI,進(jìn)一步包括
步驟Sll :采用網(wǎng)絡(luò)爬蟲采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁,這些網(wǎng)站不僅包含各類專業(yè)新聞網(wǎng)站(例如網(wǎng)易、新浪、搜狐等),也包括登載新聞的非新聞網(wǎng)站(例如各政府機(jī)關(guān)、事業(yè)單位、企業(yè)的官方網(wǎng)站)。步驟S12 :對采集到的原始網(wǎng)頁做頁面分析,抽取出標(biāo)題、正文、摘要、作者、來源、發(fā)表時(shí)間、圖片、視頻等信息,并組織成結(jié)構(gòu)化信息,以利于進(jìn)一步處理。如圖3所示,步驟S2對網(wǎng)頁進(jìn)行分類,其分類體系包括國內(nèi)、國際、社會(huì)、財(cái)經(jīng)、體育、娛樂、汽車、科技、互聯(lián)網(wǎng)等頻道。該步驟S2執(zhí)行以下步驟
步驟S21,采用預(yù)先訓(xùn)練的樸素貝葉斯分類器,利用網(wǎng)頁的標(biāo)題、正文、url等特征,結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁是否屬于新聞,如果是,判定該網(wǎng)頁屬于哪一個(gè)頻道。步驟S22,將新采集到的新聞發(fā)送給對應(yīng)的頻道。如圖4所示,該步驟S3并行地對屬于各個(gè)頻道的新聞分別進(jìn)行多級聚類,是整個(gè)流程的核心。在每個(gè)頻道內(nèi)執(zhí)行以下子步驟
步驟S31 :去除本頻道內(nèi)長時(shí)間沒有變化的話題。每個(gè)話題都記錄了其最近更新時(shí)間,如該時(shí)間距離當(dāng)前時(shí)間之差超過一定預(yù)值,則視為該話題已不可能再成為熱點(diǎn)。 步驟S32 :對本周期內(nèi)新進(jìn)入本頻道的各條新聞抽取特征,采用向量空間模型(VSM)刻劃其特征向量。首先對新聞的標(biāo)題和正文進(jìn)行分詞、停用詞去除、詞性標(biāo)注、專名識(shí)別、同義詞歸并等自然語言處理步驟,再把處理的結(jié)果進(jìn)行整合(比如一個(gè)專名可能包含多個(gè)相鄰的分詞結(jié)果單元,例如專名“北京大學(xué)經(jīng)濟(jì)學(xué)院”由包含分詞結(jié)果“北京大學(xué)”、“經(jīng)濟(jì)”和“學(xué)院”),整合結(jié)果以詞或短語為步驟位,統(tǒng)稱為token。對每個(gè)token,計(jì)算其權(quán)重,計(jì)算時(shí)綜合考慮以下幾項(xiàng)因素
I) token的TF. IffF分值。這一分值表征token在文檔中的重要性,與時(shí)間相關(guān),構(gòu)成token的基本權(quán)重。其計(jì)算公式為
.....·十.I
τ . Iη,_··ν_ w ^ τ · τ V·ν.
" i ... , ········; , ,· , :·· ,· _····....................................................................................
Il 、····· Γ I "·· ·Ι·丨I t1 , 、· \I ·Α ·ΜΙ■_··_
··! , t πτ , Λ 丄· I "·Λ
W
i................\\V· * "t··*w
I—I · I I I、· —>. t ..···_“ 、
兵十·■J.. ,■ 一^ _O
·... .J -I a.. IW-νΛ*'liiV·. I. ,·* · I*''P d, 1
"Λ * £ '% *■ ·¥i % · ·# * * ·..."IKfaIfc/ ΜΨ公式中的t代表某一周期,w代表token, d代表包含w的文檔,tf (w,d)代表w在d中出現(xiàn)的頻次,wft(w)代表w在t時(shí)刻的頻次總數(shù),d(t)代表t時(shí)刻前出現(xiàn)的d。2) token在網(wǎng)頁中的位置如果token在標(biāo)題中出現(xiàn),權(quán)重提高;
3)token的詞性實(shí)詞(名詞、動(dòng)詞等)的權(quán)重提高,虛詞的權(quán)重降低甚至去除;
4)token的專名類型(如果是專名)依據(jù)新聞所屬的具體頻道而定。本系統(tǒng)擁有專門開發(fā)的專名識(shí)別模塊,對專名類別的劃分較為細(xì)致。例如在汽車頻道,汽車型號等專名的權(quán)重提聞;在體育頻道,體育運(yùn)動(dòng)員等專名的權(quán)重提聞。確定每個(gè)token的權(quán)重后,把各token及其權(quán)重構(gòu)造成一個(gè)特征向量,用以描述該新聞。步驟S33 :對這批新的新聞進(jìn)行層次聚類,聚類算法采用UPGMC算法,該算法屬于凝聚式層次聚類,每個(gè)聚類結(jié)果(簇)都擁有一個(gè)中心向量。在初始階段,該算法把輸入的每一條新聞都視為一個(gè)簇,簇的中心向量為該新聞的特征向量,然后執(zhí)行以下步驟
I)計(jì)算所有簇兩兩之間的相似度。在本發(fā)明中,我們采用簇中心向量的余弦相似度作為這兩個(gè)簇之間的相似度度量。2)找出以上相似度中最大的相似度,若其高于預(yù)定閥值,則把對應(yīng)的兩個(gè)簇合并,合并后的新簇的中心向量為兩個(gè)簇的中心向量之和,為去除噪聲并避免維度過高,新中心向量中權(quán)重過低的分量將被去除,然后返回第I)步繼續(xù)執(zhí)行。否則算法結(jié)束。步驟S34 :對新產(chǎn)生的簇和頻道內(nèi)既有話題進(jìn)行合并。對每一個(gè)新產(chǎn)生的簇,依此考察本頻道中的每個(gè)話題,找出與該簇的相似度最大的話題。相似度的計(jì)算方法為計(jì)算簇中心向量和話題中心向量的余弦相似度。如果該相似度大于預(yù)定閥值,就把該簇合并到該話題中,并修正其中心向量和更新時(shí)間。否則,該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間都是系統(tǒng)當(dāng)前時(shí)間。步驟S35 :對本頻道內(nèi)所有話題(包括步驟S34產(chǎn)生的新話題)再進(jìn)行一次UPGMC層次聚類,同樣采用余弦相似度計(jì)算簇的相似度。如果有若干話題合并成新話題,新話題的更新時(shí)間亦為系統(tǒng)當(dāng)前時(shí)間。聚類結(jié)果產(chǎn)生的各個(gè)簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。
如圖5所示,所述的步驟S4負(fù)責(zé)篩選熱門話題。其進(jìn)一步包括如下兩個(gè)步驟 步驟S41 :并行地考察各個(gè)頻道中所有話題的熱度。對于一個(gè)話題,依據(jù)其所含新聞的
數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間等因素綜合計(jì)算,得出其熱度
權(quán)利要求
1.一種基于分布式多級聚類的話題檢測裝置,其特征在于,該裝置主要包括 新聞采集模塊,用于實(shí)時(shí)采集網(wǎng)絡(luò)新聞,并抽取出結(jié)構(gòu)化信息; 新聞分類模塊,用于對采集的新聞按主題類別進(jìn)行分類,分發(fā)到各個(gè)頻道; 話題檢測模塊,分為多個(gè)彼此獨(dú)立的模塊,每個(gè)頻道對應(yīng)一個(gè)模塊,采用并行方式在各頻道內(nèi)進(jìn)行多級聚類,計(jì)算各話題熱度,并篩選出頻道熱門話題; 話題整合模塊,用于綜合各頻道熱門話題,篩選出全系統(tǒng)的熱門話題。
2.根據(jù)權(quán)利要求I所述的基于分布式多級聚類的話題檢測裝置,其特征在于,所述話題檢測裝置進(jìn)一步包括 話題展示模塊,用于將各話題及其相關(guān)信息組織成用戶易使用的形式。
3.一種基于分布式多級聚類的話題檢測方法,其特征在于,該方法包括 A、對新聞進(jìn)行采集的步驟,從各類網(wǎng)站實(shí)時(shí)采集網(wǎng)絡(luò)新聞; B、對所述新采集的新聞進(jìn)行分類的步驟,按其主題類別進(jìn)行自動(dòng)化分類,每類對應(yīng)一個(gè)頻道,并將分類后的新聞分發(fā)到各個(gè)頻道的多級聚類模塊中; C、對各頻道并行地進(jìn)行多級聚類的步驟;在所述的每個(gè)頻道中,對新進(jìn)入該頻道的新聞抽取特征,再對頻道內(nèi)全部數(shù)據(jù)進(jìn)行多級聚類,將聚類產(chǎn)生的每一個(gè)集合或簇作為一個(gè)話題; D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。
4.根據(jù)權(quán)利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟A具體包括 Al、由網(wǎng)絡(luò)爬蟲采集目標(biāo)網(wǎng)站列表中的網(wǎng)頁; A2、對采集到的原始網(wǎng)頁做頁面分析,抽取出標(biāo)題、正文、摘要、作者、來源、發(fā)表時(shí)間、圖片、視頻信息,并組織成結(jié)構(gòu)化信息。
5.根據(jù)權(quán)利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟B所述按新聞主題類別進(jìn)行自動(dòng)化分類,包括國內(nèi)、國際、社會(huì)、財(cái)經(jīng)、體育、娛樂、汽車、科技和互聯(lián)網(wǎng)類,并將所述類別作為相應(yīng)的頻道。
6.根據(jù)權(quán)利要求3或5所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟B具體包括 BI、采用預(yù)先專門訓(xùn)練的樸素貝葉斯分類器,抽取網(wǎng)頁的標(biāo)題、正文、URL的特征,并結(jié)合若干規(guī)則,判定本周期內(nèi)新采集到的各網(wǎng)頁是否屬于新聞,如果是,進(jìn)一步判定其屬于哪一個(gè)頻道; B2、將新采集到的新聞發(fā)送給對應(yīng)的頻道。
7.根據(jù)權(quán)利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟C所述對各頻道并行地進(jìn)行多級聚類的步驟,具體包括 Cl、去除頻道內(nèi)長時(shí)間無變化的話題,以降低后續(xù)聚類處理的數(shù)據(jù)量,避免過時(shí)話題對聚類可能造成的干擾; C2、對當(dāng)前周期內(nèi)進(jìn)入本頻道的各條新聞抽取特征; C3、對步驟C2中生成的一批特征向量進(jìn)行層次聚類,聚類算法采用非加權(quán)組中心UPGMC算法,在該算法中,聚類結(jié)果中的每個(gè)集合或簇都擁有一個(gè)中心向量;相似度的計(jì)算方法為采用兩個(gè)簇的中心向量的余弦相似度;C4、對上述步驟C3中產(chǎn)生的每一個(gè)簇,找出與該簇的相似度最大的話題;相似度的計(jì)算方式仍為取余弦相似度; C5、對本頻道內(nèi)所有話題再進(jìn)行一次UPGMC層次聚類,聚類結(jié)果的所有簇即為本周期結(jié)束后本頻道內(nèi)的全部話題。
8.根據(jù)權(quán)利要求7所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟C2還包括 首先對新聞的標(biāo)題和正文進(jìn)行分詞、詞性標(biāo)注、去停用詞、專名識(shí)別、同義詞歸并,處理的結(jié)果以詞或短語為單位,統(tǒng)稱為token,對每個(gè)token,計(jì)算其TF. IffF分值作為基礎(chǔ)權(quán)重,并結(jié)合其在文中的位置、詞性、專名類型信息,確定其最終的權(quán)重;然后再將token及其分值構(gòu)造成一個(gè)基于向量空間模型的特征向量,用以描述該新聞。
9.根據(jù)權(quán)利要求7所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟C4還包括 如果該相似度大于預(yù)定閥值,將該簇合并到該話題中,并修正其中心向量和更新時(shí)間;否則,將該簇被視為一個(gè)新的話題,其誕生時(shí)間和更新時(shí)間均為系統(tǒng)當(dāng)前時(shí)間。
10.根據(jù)權(quán)利要求3所述的基于分布式多級聚類的話題檢測方法,其特征在于,步驟D具體包括 D1、對每個(gè)頻道內(nèi)的話題,依據(jù)其所含新聞的數(shù)量及其發(fā)表時(shí)間分布、話題的誕生時(shí)間、更新時(shí)間的因素綜合計(jì)算,得出其熱度; D2、再于頻道內(nèi)對各話題按熱度排序,從而篩選出各頻道內(nèi)的熱門話題; D3、最后對整個(gè)系統(tǒng)內(nèi)的話題按熱度排序,篩選出全系統(tǒng)熱門話題,展示給用戶。
全文摘要
本發(fā)明公開了一種基于分布式多級聚類的話題檢測裝置及方法,該裝置主要包括新聞采集模塊、新聞分類模塊、話題檢測模塊和話題整合模塊以及話題展示模塊;該方法包括題檢測方法,其特征在于,該方法包括A、對新聞進(jìn)行采集的步驟;B、對所述新采集的新聞進(jìn)行分類的步驟;C、對各頻道并行地進(jìn)行多級聚類的步驟;D、計(jì)算所有話題的熱度,篩選出全系統(tǒng)內(nèi)的熱點(diǎn)話題和每個(gè)頻道內(nèi)的熱點(diǎn)話題。采用本發(fā)明,能夠解決在互聯(lián)網(wǎng)環(huán)境中大量文檔快速更新的條件下,話題檢測面臨的檢測效果與時(shí)間開銷的尖銳矛盾。
文檔編號G06F17/30GK102831193SQ201210274779
公開日2012年12月19日 申請日期2012年8月3日 優(yōu)先權(quán)日2012年8月3日
發(fā)明者楊青, 李德聰 申請人:人民搜索網(wǎng)絡(luò)股份公司