一種基于時間窗口的lda微博主題趨勢檢測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域,具體涉及短文本處理、主題 檢測與跟蹤,以及網(wǎng)絡(luò)輿情分析的相關(guān)領(lǐng)域,尤其涉及一種基于時間窗口的LDA微博主題 趨勢檢測方法及裝置。
【背景技術(shù)】
[0002] 主題檢測與跟蹤(TopicDetectionandTracking,TDT)技術(shù)是由美國國防部 高級研究規(guī)劃署(DARPA)和國家標(biāo)準(zhǔn)技術(shù)局(NIST)發(fā)起的,旨在發(fā)展一系列基于時間 的信息組織技術(shù),幫助人們應(yīng)對信息過載問題。國外對于TDT的研究和起步較早,CMU, Cambridge等一流大學(xué)以及IBM公司在TDT評測中已經(jīng)取得了很好的成績。陸續(xù)地,TDT主 題檢測的技術(shù)被應(yīng)用到實踐中;一種基于增量TF-IDF(TermFrequency-InverseDocument Frequency,詞頻-逆向文件頻率)的事件檢測系統(tǒng)被成功開發(fā);自然語言處理技術(shù)被引入 到主題檢測中,且有效提高了主題檢測的質(zhì)量。國內(nèi)在TDT方面的研究相繼起步:TDT系統(tǒng) 評測會議從1999年開始引入漢語;中國臺灣大學(xué)參加了 1999年的TDT主題檢測任務(wù)的評 測;各大學(xué)相關(guān)專業(yè)人士相繼關(guān)注主題檢測與跟蹤的評測及研究;中科院的駱衛(wèi)華等人提 出一種基于多策略優(yōu)化的分治多層聚類算法比基準(zhǔn)方法有了較大的該進(jìn);復(fù)旦大學(xué)的閔可 銳等人采用一種基于知識庫和網(wǎng)絡(luò)流算法更好地實現(xiàn)了主題的聚合。
[0003] 潛在狄利克雷(LatentDirichletAllocation,LDA)模型是一種主題檢測模型, 能夠識別大規(guī)模文檔集(documentcollection)或者語料庫(corpus)中潛在的主題信息。 LDA模型是Blei等人在2003年提出的一種無監(jiān)督機器學(xué)習(xí)技術(shù),是一種三層貝葉斯概率 模型,包含:詞語、主題和文檔三層結(jié)構(gòu)。模型的生成過程首先假設(shè)不同主題下詞語按照不 用的概率分布隨機產(chǎn)生,一個主題下詞語服從多項式分布;其次假設(shè)不同文檔下主題依照 不同的概率隨機分布產(chǎn)生;最后對每一個文檔從Dirichlet分布中抽樣產(chǎn)生該文檔的主 題分布,結(jié)合主題詞的概率分布隨機生成文檔中的每一個詞。這種方法更針對微博文本的 特點。實際上LDA模型的主題檢測過程是上述生成過程的逆過程,在已知文檔中每個詞的 前提下,采用Gibbs抽樣算法估計相關(guān)參數(shù),從而獲得文檔集的主題概率分布(BleiDM, NgAY,JordanΜI.Latentdirichletallocation[J].JournalofMachineLearning Researrch,2003, (3) :2003-2003)〇
[0004] 目前已有LDA與時序信息結(jié)合進(jìn)行主題檢測的模型,相比傳統(tǒng)LDA模型能產(chǎn)生更 精準(zhǔn)的主題檢測結(jié)果。但此時獲得的主題結(jié)果數(shù)量仍較多,信息相對分散,不利于對熱點 主題的建模與分析,而且缺乏一個有力的指標(biāo)表達(dá)熱點事件的發(fā)展趨勢信息,無法供研究 人員分析熱點事件基于時間的演化規(guī)律。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于時間窗口的LDA微博主題趨勢檢測方法及裝置,本發(fā)明提 高了微博主題檢測的精度,使得趨勢指標(biāo)更具有表現(xiàn)力,為分析熱點主題趨勢提供更精準(zhǔn) 的依據(jù),詳見下文描述:
[0006] -種基于時間窗口的LDA微博主題趨勢檢測方法,所述檢測方法包括以下步驟:
[0007] 在各個時間窗口利用LDA主題模型從詞集中抽取主題詞,獲取全局各主題;
[0008] 對所述全局各主題進(jìn)行相似度計算,并進(jìn)行K-means聚類,獲取符合輿情分析的 熱點主題;
[0009] 通過LDA主題模型,結(jié)合所述熱點主題,依次在各個時間窗口提取每個熱點主題 的特征詞;
[0010] 結(jié)合所述特征詞的結(jié)果,計算所述熱點主題在各時間窗口的熱度值,并繪制所述 熱點主題的趨勢圖。
[0011] 其中,所述檢測方法還包括:
[0012] 通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集;
[0013] 對所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理,獲取所述詞集。
[0014] 其中,所述在各個時間窗口利用LDA主題模型從詞集中抽取主題詞,獲取全局各 主題的步驟具體為:
[0015] 將全局時間劃分為若干時間窗口;通過基于時間窗口的LDA主題模型,對各時間 窗口內(nèi)的所有文檔建立文檔-主題概率分布、以及主題-詞語概率分布,獲取每個文檔對應(yīng) 到不同主題的概率、以及每個主題生成單詞的概率。
[0016] 其中,所述對所述全局各主題進(jìn)行相似度計算,并進(jìn)行K-means聚類,獲取符合輿 情分析的熱點主題的步驟具體為:
[0017] 利用概率分布的相對熵表示兩個主題的差異性,所述差異性使用相對熵差分來計 算,再糾正相對熵差分距離的不對稱性,得到兩個主題的相似度值;
[0018] 結(jié)合相似度值對獲取到的全局主題應(yīng)用K-means聚類,聚類結(jié)果則代表符合輿情 分析的熱點主題。
[0019] -種基于時間窗口的LDA微博主題趨勢檢測裝置,所述檢測裝置包括:
[0020] 第一獲取模塊,用于在各個時間窗口利用LDA主題模型從詞集中抽取主題詞,獲 取全局各主題;
[0021] 第二獲取模塊,對所述全局各主題進(jìn)行相似度計算,并進(jìn)行K-means聚類,獲取符 合輿情分析的熱點主題;
[0022] 提取模塊,用于通過LDA主題模型,結(jié)合所述熱點主題,依次在各個時間窗口提取 每個熱點主題的特征詞;
[0023] 繪制模塊,用于結(jié)合所述特征詞的結(jié)果,計算所述熱點主題在各時間窗口的熱度 值,并繪制所述熱點主題的趨勢圖。
[0024] 其中,所述檢測裝置還包括:
[0025] 第三獲取模塊,用于通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集;
[0026] 第四獲取模塊,用于對所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理,獲取 所述詞集。
[0027] 其中,所述第一獲取模塊包括:
[0028] 劃分子模塊,用于將全局時間劃分為若干時間窗口;
[0029] 建立子模塊,用于通過基于時間窗口的LDA主題模型,對各時間窗口內(nèi)的所有文 檔建立文檔-主題概率分布、以及主題-詞語概率分布;
[0030] 第一獲取子模塊,用于獲取每個文檔對應(yīng)到不同主題的概率、以及每個主題生成 單詞的概率。
[0031] 其中,所述第二獲取模塊包括:
[0032] 第二獲取子模塊,用于利用概率分布的相對熵表示兩個主題的差異性,所述差異 性使用相對熵差分來計算,再糾正相對熵差分距離的不對稱性,得到兩個主題的相似度 值;
[0033] 聚類分析子模塊,用于結(jié)合相似度值對獲取到的全局主題應(yīng)用K-means聚類,聚 類結(jié)果則代表符合輿情分析的熱點主題。
[0034] 本發(fā)明提供的技術(shù)方案的有益效果是:本發(fā)明為微博主題檢測結(jié)果的利用與分析 提供了一種新思路,通過相似度聚類縮小主題范圍,并考慮將熱度值作為表示熱點主題趨 勢的指標(biāo),從而確定熱點主題作為輿情分析對象,與未經(jīng)處理的LDA主題檢測結(jié)果相比,主 題精度得到提升,趨勢指標(biāo)更具有表現(xiàn)力,為分析熱點主題趨勢提供更精準(zhǔn)的依據(jù),具有較 大實用特點。
【附圖說明】
[0035] 圖1為一種基于時間窗口的LDA微博主題趨勢檢測方法的流程圖;
[0036] 圖2為K-means聚類結(jié)果的示意圖;
[0037] 圖3為熱點主題趨勢圖;
[0038] 圖4為一種基于時間窗口的LDA微博主題趨勢檢測裝置的示意圖;
[0039] 圖5為一種基于時間窗口的LDA微博主題趨勢檢測裝置的另一示意圖;
[0040] 圖6為第一獲取模塊的不意圖;
[0041]圖7為第二獲取模塊的示意圖。
[0042] 附圖中,各部件的列表如下:
[0043]1 :第一獲取模塊; 2 :第二獲取模塊;
[0044] 3 :提取_旲塊; 4 :繪制_旲塊;
[0045]5 :第三獲取模塊; 6 :第四獲取模塊;
[0046]11 :劃分子模塊; 12 :建立子模塊;
[0047] 13 :第一獲取子模塊; 21 :第二獲取子模塊;
[0048]22 :聚類分析子模塊。
【具體實施方式】
[0049] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面對本發(fā)明實施方式作進(jìn)一步 地詳細(xì)描述。
[0050] 本發(fā)明實施例針對現(xiàn)有主題檢測結(jié)果數(shù)量較多且含義相對分散這一缺陷,在基于 時間窗口的LDA主題模型檢測的主題結(jié)果之上,應(yīng)用相似度聚類縮小主題范圍,確定熱點 主題,并提出熱度值計算方法,從而建立微博的熱點主題檢測和主題時間演化體系,并進(jìn)行 趨勢分析,詳見下文描述:
[0051] 實施例1
[0052] -種基于時間窗