一種基于時間窗口的lda微博主題趨勢檢測方法及裝置的制造方法

文檔序號：9579237閱讀：444來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于時間窗口的lda微博主題趨勢檢測方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘、自然語言處理和信息檢索領(lǐng)域，具體涉及短文本處理、主題檢測與跟蹤，以及網(wǎng)絡(luò)輿情分析的相關(guān)領(lǐng)域，尤其涉及一種基于時間窗口的LDA微博主題趨勢檢測方法及裝置。
【背景技術(shù)】
[0002] 主題檢測與跟蹤（TopicDetectionandTracking，TDT)技術(shù)是由美國國防部高級研究規(guī)劃署（DARPA)和國家標(biāo)準(zhǔn)技術(shù)局（NIST)發(fā)起的，旨在發(fā)展一系列基于時間的信息組織技術(shù)，幫助人們應(yīng)對信息過載問題。國外對于TDT的研究和起步較早，CMU， Cambridge等一流大學(xué)以及IBM公司在TDT評測中已經(jīng)取得了很好的成績。陸續(xù)地，TDT主題檢測的技術(shù)被應(yīng)用到實踐中；一種基于增量TF-IDF(TermFrequency-InverseDocument Frequency，詞頻-逆向文件頻率）的事件檢測系統(tǒng)被成功開發(fā)；自然語言處理技術(shù)被引入到主題檢測中，且有效提高了主題檢測的質(zhì)量。國內(nèi)在TDT方面的研究相繼起步：TDT系統(tǒng) 評測會議從1999年開始引入漢語；中國臺灣大學(xué)參加了 1999年的TDT主題檢測任務(wù)的評測；各大學(xué)相關(guān)專業(yè)人士相繼關(guān)注主題檢測與跟蹤的評測及研究；中科院的駱衛(wèi)華等人提出一種基于多策略優(yōu)化的分治多層聚類算法比基準(zhǔn)方法有了較大的該進(jìn)；復(fù)旦大學(xué)的閔可銳等人采用一種基于知識庫和網(wǎng)絡(luò)流算法更好地實現(xiàn)了主題的聚合。
[0003] 潛在狄利克雷（LatentDirichletAllocation，LDA)模型是一種主題檢測模型，能夠識別大規(guī)模文檔集（documentcollection)或者語料庫（corpus)中潛在的主題信息。 LDA模型是Blei等人在2003年提出的一種無監(jiān)督機器學(xué)習(xí)技術(shù)，是一種三層貝葉斯概率模型，包含：詞語、主題和文檔三層結(jié)構(gòu)。模型的生成過程首先假設(shè)不同主題下詞語按照不用的概率分布隨機產(chǎn)生，一個主題下詞語服從多項式分布；其次假設(shè)不同文檔下主題依照不同的概率隨機分布產(chǎn)生；最后對每一個文檔從Dirichlet分布中抽樣產(chǎn)生該文檔的主題分布，結(jié)合主題詞的概率分布隨機生成文檔中的每一個詞。這種方法更針對微博文本的特點。實際上LDA模型的主題檢測過程是上述生成過程的逆過程，在已知文檔中每個詞的前提下，采用Gibbs抽樣算法估計相關(guān)參數(shù)，從而獲得文檔集的主題概率分布（BleiDM， NgAY，JordanΜI.Latentdirichletallocation[J].JournalofMachineLearning Researrch，2003，（3) :2003-2003)〇
[0004] 目前已有LDA與時序信息結(jié)合進(jìn)行主題檢測的模型，相比傳統(tǒng)LDA模型能產(chǎn)生更精準(zhǔn)的主題檢測結(jié)果。但此時獲得的主題結(jié)果數(shù)量仍較多，信息相對分散，不利于對熱點主題的建模與分析，而且缺乏一個有力的指標(biāo)表達(dá)熱點事件的發(fā)展趨勢信息，無法供研究人員分析熱點事件基于時間的演化規(guī)律。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明提供了一種基于時間窗口的LDA微博主題趨勢檢測方法及裝置，本發(fā)明提高了微博主題檢測的精度，使得趨勢指標(biāo)更具有表現(xiàn)力，為分析熱點主題趨勢提供更精準(zhǔn) 的依據(jù)，詳見下文描述：
[0006] -種基于時間窗口的LDA微博主題趨勢檢測方法，所述檢測方法包括以下步驟：
[0007] 在各個時間窗口利用LDA主題模型從詞集中抽取主題詞，獲取全局各主題；
[0008] 對所述全局各主題進(jìn)行相似度計算，并進(jìn)行K-means聚類，獲取符合輿情分析的熱點主題；
[0009] 通過LDA主題模型，結(jié)合所述熱點主題，依次在各個時間窗口提取每個熱點主題的特征詞；
[0010] 結(jié)合所述特征詞的結(jié)果，計算所述熱點主題在各時間窗口的熱度值，并繪制所述熱點主題的趨勢圖。
[0011] 其中，所述檢測方法還包括：
[0012] 通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集；
[0013] 對所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理，獲取所述詞集。
[0014] 其中，所述在各個時間窗口利用LDA主題模型從詞集中抽取主題詞，獲取全局各主題的步驟具體為：
[0015] 將全局時間劃分為若干時間窗口；通過基于時間窗口的LDA主題模型，對各時間窗口內(nèi)的所有文檔建立文檔-主題概率分布、以及主題-詞語概率分布，獲取每個文檔對應(yīng) 到不同主題的概率、以及每個主題生成單詞的概率。
[0016] 其中，所述對所述全局各主題進(jìn)行相似度計算，并進(jìn)行K-means聚類，獲取符合輿情分析的熱點主題的步驟具體為：
[0017] 利用概率分布的相對熵表示兩個主題的差異性，所述差異性使用相對熵差分來計算，再糾正相對熵差分距離的不對稱性，得到兩個主題的相似度值；
[0018] 結(jié)合相似度值對獲取到的全局主題應(yīng)用K-means聚類，聚類結(jié)果則代表符合輿情分析的熱點主題。
[0019] -種基于時間窗口的LDA微博主題趨勢檢測裝置，所述檢測裝置包括：
[0020] 第一獲取模塊，用于在各個時間窗口利用LDA主題模型從詞集中抽取主題詞，獲取全局各主題；
[0021] 第二獲取模塊，對所述全局各主題進(jìn)行相似度計算，并進(jìn)行K-means聚類，獲取符合輿情分析的熱點主題；
[0022] 提取模塊，用于通過LDA主題模型，結(jié)合所述熱點主題，依次在各個時間窗口提取每個熱點主題的特征詞；
[0023] 繪制模塊，用于結(jié)合所述特征詞的結(jié)果，計算所述熱點主題在各時間窗口的熱度值，并繪制所述熱點主題的趨勢圖。
[0024] 其中，所述檢測裝置還包括：
[0025] 第三獲取模塊，用于通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集；
[0026] 第四獲取模塊，用于對所述微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理，獲取所述詞集。
[0027] 其中，所述第一獲取模塊包括：
[0028] 劃分子模塊，用于將全局時間劃分為若干時間窗口；
[0029] 建立子模塊，用于通過基于時間窗口的LDA主題模型，對各時間窗口內(nèi)的所有文檔建立文檔-主題概率分布、以及主題-詞語概率分布；
[0030] 第一獲取子模塊，用于獲取每個文檔對應(yīng)到不同主題的概率、以及每個主題生成單詞的概率。
[0031] 其中，所述第二獲取模塊包括：
[0032] 第二獲取子模塊，用于利用概率分布的相對熵表示兩個主題的差異性，所述差異性使用相對熵差分來計算，再糾正相對熵差分距離的不對稱性，得到兩個主題的相似度值；
[0033] 聚類分析子模塊，用于結(jié)合相似度值對獲取到的全局主題應(yīng)用K-means聚類，聚類結(jié)果則代表符合輿情分析的熱點主題。
[0034] 本發(fā)明提供的技術(shù)方案的有益效果是：本發(fā)明為微博主題檢測結(jié)果的利用與分析提供了一種新思路，通過相似度聚類縮小主題范圍，并考慮將熱度值作為表示熱點主題趨勢的指標(biāo)，從而確定熱點主題作為輿情分析對象，與未經(jīng)處理的LDA主題檢測結(jié)果相比，主題精度得到提升，趨勢指標(biāo)更具有表現(xiàn)力，為分析熱點主題趨勢提供更精準(zhǔn)的依據(jù)，具有較大實用特點。
【附圖說明】
[0035] 圖1為一種基于時間窗口的LDA微博主題趨勢檢測方法的流程圖；
[0036] 圖2為K-means聚類結(jié)果的示意圖；
[0037] 圖3為熱點主題趨勢圖；
[0038] 圖4為一種基于時間窗口的LDA微博主題趨勢檢測裝置的示意圖；
[0039] 圖5為一種基于時間窗口的LDA微博主題趨勢檢測裝置的另一示意圖；
[0040] 圖6為第一獲取模塊的不意圖；
[0041]圖7為第二獲取模塊的示意圖。
[0042] 附圖中，各部件的列表如下：
[0043]1 :第一獲取模塊； 2 :第二獲取模塊；
[0044] 3 :提取_旲塊； 4 :繪制_旲塊；
[0045]5 :第三獲取模塊； 6 :第四獲取模塊；
[0046]11 :劃分子模塊； 12 :建立子模塊；
[0047] 13 :第一獲取子模塊； 21 :第二獲取子模塊；
[0048]22 :聚類分析子模塊。
【具體實施方式】
[0049] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面對本發(fā)明實施方式作進(jìn)一步地詳細(xì)描述。
[0050] 本發(fā)明實施例針對現(xiàn)有主題檢測結(jié)果數(shù)量較多且含義相對分散這一缺陷，在基于時間窗口的LDA主題模型檢測的主題結(jié)果之上，應(yīng)用相似度聚類縮小主題范圍，確定熱點主題，并提出熱度值計算方法，從而建立微博的熱點主題檢測和主題時間演化體系，并進(jìn)行趨勢分析，詳見下文描述：
[0051] 實施例1
[0052] -種基于時間窗

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯德俊;尚鴻運;喻梅;緱小路;胡悅;高玥;
技術(shù)所有人：天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

lda文檔主題生成模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于時間窗口的lda微博主題趨勢檢測方法及裝置的制造方法