亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于時(shí)間窗口的lda微博主題趨勢(shì)檢測(cè)方法及裝置的制造方法_2

文檔序號(hào):9579237閱讀:來源:國知局
口的LDA微博主題趨勢(shì)檢測(cè)方法,參見圖1,該檢測(cè)方法包括以下 步驟:
[0053] 101 :通過網(wǎng)絡(luò)爬蟲獲取微博數(shù)據(jù)集;
[0054]例如:構(gòu)建針對(duì)新浪微博的爬蟲程序,爬取新浪微博上一定時(shí)長(zhǎng)的微博內(nèi)容,并保 留發(fā)表時(shí)間、發(fā)表作者、標(biāo)題、正文內(nèi)容等信息。該步驟為本領(lǐng)域技術(shù)人員所公知,本發(fā)明實(shí) 施例對(duì)此不作贅述。
[0055] 102 :對(duì)微博數(shù)據(jù)集進(jìn)行文本分詞、去除停用詞等預(yù)處理,獲取詞集;
[0056] 該步驟具體為:對(duì)獲取到的微博數(shù)據(jù)集,使用現(xiàn)有的漢語詞法分析系統(tǒng)進(jìn)行分詞; 之后使用"哈工大停用詞表"進(jìn)行去除停用詞篩選,只保留分詞結(jié)果中的名詞和動(dòng)詞。本發(fā) 明實(shí)施例對(duì)預(yù)處理中使用到的處理軟件、工具不做限制,只要能實(shí)現(xiàn)上述功能的軟件即可。
[0057] 103 :將全局時(shí)間劃分為若干時(shí)間窗口,在各個(gè)時(shí)間窗口利用LDA主題模型抽取主 題詞,獲取全局各主題;
[0058] 該步驟具體為:將全局時(shí)間劃分為若干時(shí)間窗口;每條微博的詞集視為一個(gè)文 檔,利用基于時(shí)間窗口的LDA主題模型,對(duì)各時(shí)間窗口內(nèi)的所有文檔建立文檔-主題概率分 布、以及主題-詞語概率分布,從兩個(gè)分布結(jié)果可得到每個(gè)文檔對(duì)應(yīng)到不同主題的概率、以 及每個(gè)主題生成單詞的概率。
[0059] 104:對(duì)全局各主題進(jìn)行相似度計(jì)算,之后進(jìn)行K-means聚類,找出符合輿情分析 的熱點(diǎn)主題;
[0060] 該步驟具體為:通過步驟103得到的主題-詞語概率分布,利用概率分布的 Kullback-Leibler散度(又稱相對(duì)熵)表示兩個(gè)主題的差異性,此差異性使用KL差分來計(jì) 算,再糾正KL差分距離的不對(duì)稱性,得到兩個(gè)主題的相似度值。結(jié)合此相似度結(jié)果,對(duì)步驟 103獲取到的全局主題應(yīng)用K-means聚類,聚類結(jié)果則代表符合輿情分析的熱點(diǎn)主題。
[0061] 105 :在每個(gè)時(shí)間窗口內(nèi),分別應(yīng)用LDA模型,抽取熱點(diǎn)主題對(duì)應(yīng)的特征詞;
[0062] 通過步驟103中的基于時(shí)間窗口的LDA主題模型算法,結(jié)合步驟104中得到的熱 點(diǎn)主題,依次在各個(gè)時(shí)間窗口提取每個(gè)熱點(diǎn)主題的特征詞。
[0063] 106 :結(jié)合特征詞結(jié)果,計(jì)算熱點(diǎn)主題在各時(shí)間窗口的熱度值,并繪制熱點(diǎn)主題趨 勢(shì)圖。
[0064] S卩,根據(jù)各時(shí)間窗口熱點(diǎn)主題特征詞序列,計(jì)算熱點(diǎn)主題在各時(shí)間窗口的熱度值, 并繪制熱點(diǎn)主題趨勢(shì)圖,以進(jìn)行熱點(diǎn)趨勢(shì)分析。
[0065] 綜上所述,本發(fā)明實(shí)施例通過上述步驟101-步驟106提高了微博主題檢測(cè)的精 度,使得趨勢(shì)指標(biāo)更具有表現(xiàn)力,為分析熱點(diǎn)主題趨勢(shì)提供更精準(zhǔn)的依據(jù)。
[0066] 實(shí)施例2
[0067] 下面結(jié)合具體的計(jì)算公式、例子、附圖1對(duì)實(shí)施例1中的方案進(jìn)行詳細(xì)描述,詳見 下文描述:
[0068] 201 :構(gòu)建針對(duì)新浪微博的爬蟲程序,爬取新浪微博上一定時(shí)長(zhǎng)的微博內(nèi)容,并保 留發(fā)表時(shí)間、發(fā)表作者、標(biāo)題、正文內(nèi)容等信息;
[0069] 202 :使用中國科學(xué)院計(jì)算技術(shù)研究所研發(fā)出的漢語詞法分析系統(tǒng) ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),米 用提供的API接口ICTCLAS5. 0進(jìn)行分詞處理,并將一些特殊詞語,例如:情感詞,網(wǎng)絡(luò)用詞 等作為用戶詞典添加到分詞器中,得到更好地分詞效果。
[0070] 203 :對(duì)分詞結(jié)果做停用詞篩選;
[0071] g卩,去除沒有實(shí)在意義使用頻率又高的詞,由于人工抽取的主題詞通常是名詞和 動(dòng)詞,因此本發(fā)明實(shí)施例只保留了分詞后的名詞和動(dòng)詞的實(shí)詞,得到最終詞集。
[0072] 204:根據(jù)微博數(shù)據(jù)的時(shí)間信息,并保證各窗口主題數(shù)目足以涵蓋有效的主題信 息,人工量定時(shí)間窗口單位,從而確定時(shí)間窗口的數(shù)量;
[0073] 205 :每條微博數(shù)據(jù)的詞集視為一個(gè)文檔,在各時(shí)間窗口利用LDA主題模型提取特 征詞,抽取主題詞;
[0074] 基于時(shí)間窗口的LDA主題模型用下面的公式,估計(jì)在t時(shí)間窗口的文檔-主題概 率分布Θ(t)h]和主題-詞語概率分布Φ(t)w],公式⑴和⑵如下:
[0075]
[0076]
[0077] 其中,w代表詞語;j代表主題;T是主題總數(shù);α1是在時(shí)間窗口t內(nèi)文檔的狄利克 雷先驗(yàn);βt是在時(shí)間窗口t內(nèi)隱臧主題的狄利克雷先驗(yàn);Cυτ是文檔-主題矩陣,規(guī)模大小 為NUXT,NU是文檔總數(shù);Γ?表示文檔h被分配給主題j的次數(shù);表示對(duì)t時(shí)間 窗口內(nèi)的某一文檔h分配給任一主題j'的次數(shù)并求和;類似地,CWT是詞語-主題矩陣,規(guī) 模大小SNWXT,NW為詞語總數(shù);是詞語w被分配給主題j的次數(shù),為在t時(shí)間窗 口內(nèi)的文檔u的特征詞總數(shù),表示對(duì)t時(shí)間窗口內(nèi)每個(gè)詞w'分配給某一主題j的次數(shù)并求和。
[0078] 在基于時(shí)間窗口的LDA主題模型參數(shù)中,確定文檔集合包含的主題總數(shù)T的取值, 在每個(gè)時(shí)間窗口通過模型求解抽取特征詞。LDA模型中參數(shù)Θ(t)h]、ci)(t)w]的估計(jì)方法使 用Gibbs抽樣法,用來對(duì)建模后的文本向量矩陣進(jìn)行求解。設(shè)置主題模型中Gibbs采樣參 數(shù)為at= 50/Τ,βt= 0· 01,迭代I= 50 次。
[0079] 206 :計(jì)算全局各主題的相似度;
[0080] 在相鄰時(shí)間間隔tjPt1+1上利用LDA主題模型抽取到主題/?和,Μ是計(jì) 算詞語-主題概率分布過程中得到的主題詞表,記q是__/~在Μ上的概率分布,ρ是 在Μ上的概率分布,則p和q之間的Kullback-Leibler散度就表示了上述兩個(gè)主題在詞 表上分布的差異性。差異度越小,兩個(gè)主題在語義上就更接近,關(guān)聯(lián)度就越高。主題/&和 的關(guān)聯(lián)度使用P和q的KL差分來計(jì)算,即公式(3)。
[0081]
[0082] 其中,D(pIIq)為分布p和分布q的KL差分,ρ,和q^分別為同一主題j在分布p 和q上的概率取值。
[0083] 兩個(gè)主題的語義相關(guān)性,應(yīng)該是相互關(guān)聯(lián)的,即對(duì)稱的。矯正Kullback-Leibler 差分距離的不對(duì)稱性,用著名的JS距離即公式(4)計(jì)算主題和主題的關(guān)聯(lián)度。
[0084]
[0085] 其中,5/歷("/' _/i+1)是計(jì)算結(jié)果即關(guān)聯(lián)度值;Jensen-Shannon(p,q)代表分布p 和分布q的JS距離計(jì)算符號(hào)
ID(p| |m)為分布p和分布m的KL差分; D(q| |m)為分布q和分布m的KL差分。當(dāng)兩個(gè)主題的相似度小于預(yù)先設(shè)定的閾值時(shí),則兩 個(gè)主題之間具有演化關(guān)系。
[0086] 207 :應(yīng)用K-means文本聚類方法,對(duì)全局所有主題進(jìn)行聚類,得到全局適合輿情 分析的熱點(diǎn)主題;
[0087] K-means算法采用主流通用代碼。K-means算法的優(yōu)勢(shì)在于聚類的中心是簇的中 心,能夠很好地代表類中的對(duì)象。其中,計(jì)算兩個(gè)文檔u、v距離采用歐氏距離,如公式(5) 所示。
[0088] (S)
[0089] 其中,dist(u,v)為u、v兩個(gè)文檔的距離;Ru.j為文檔u屬于主題j的權(quán)值;Rv.j為 文檔v屬于主題j的權(quán)值;T為所有文檔包含的主題總數(shù)。
[0090] 208 :根據(jù)熱點(diǎn)主題的數(shù)量,重新確定基于時(shí)間窗口LDA主題模型的參數(shù)K的取值, 在各時(shí)間窗口通過模型抽取特征詞;
[0091] 根據(jù)特征詞和主題的關(guān)聯(lián)度信息,同時(shí)權(quán)衡主題熱點(diǎn)的差異度,確定抽取的特征 詞個(gè)數(shù)。
[0092] 209 :結(jié)合各熱點(diǎn)主題在各窗口的特征詞結(jié)果,根據(jù)公式(6)計(jì)算各熱點(diǎn)主題在各 時(shí)間窗口的熱度值,最后根據(jù)熱度值結(jié)果,繪制熱點(diǎn)趨勢(shì)圖。
[0093]
(6)
[0094] 其中,< 為熱點(diǎn)主題j在時(shí)間窗口t的強(qiáng)度,代表該主題熱度;Θdj表示時(shí)間窗口 t內(nèi)任一文檔d是否歸類于熱點(diǎn)主題j出1為時(shí)間窗口t內(nèi)文檔的數(shù)量。
[0095] 綜上所述,本發(fā)明實(shí)施例通過上述步驟201-步驟209提高了微博主題檢測(cè)的精 度,使得趨勢(shì)指標(biāo)更具有表現(xiàn)力,為分析熱點(diǎn)主題趨勢(shì)提供更精準(zhǔn)的依據(jù)。
[0096] 實(shí)施例3
[0097] 下面結(jié)合附圖2和3、具體事例,對(duì)實(shí)施例1和2中的方案進(jìn)行可行性驗(yàn)證,詳見下 文描述:
[0098] 利用網(wǎng)絡(luò)爬蟲采集新浪微博上2011年9月-10月發(fā)布的微博內(nèi)容,共計(jì)25495條, 保留發(fā)表時(shí)間、發(fā)表作者、標(biāo)題、正文內(nèi)容等信息,進(jìn)行中文分詞、停用詞等預(yù)處理;之后將 全局時(shí)間劃分為4個(gè)時(shí)間窗口,如表1所示,在各個(gè)時(shí)間窗口利用LDA主題模型抽取主題共 計(jì)150個(gè);對(duì)該主題結(jié)果進(jìn)行相似度計(jì)算后,再進(jìn)行K-means聚類,設(shè)定聚類個(gè)數(shù)為2,則聚 類結(jié)果為2個(gè)熱點(diǎn)主題,回歸文檔數(shù)據(jù)后,確定主題1是"販賣兒童"事件,主題2是"天宮 一號(hào)"事件,如圖2所示,之后計(jì)算熱點(diǎn)主題在各時(shí)間窗口的熱度值,并繪制成熱點(diǎn)主題趨勢(shì) 圖,如圖3所示。<
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1