一種微博主題情感演化分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及網(wǎng)絡(luò)輿情分析技術(shù)領(lǐng)域,特別設(shè)及一種應(yīng)用于Web2. 0環(huán)境下微博消 息的主題情感演化分析方法。
【背景技術(shù)】
[0002] 微博是Web2. 0時代興起的一種集成化、開放化的互聯(lián)網(wǎng)社交服務(wù),它讓用戶能夠 向公眾發(fā)布簡短的文本消息。由于其簡便的特點,日益受到互聯(lián)網(wǎng)用戶的青睞。目前新浪 微博用戶規(guī)模已經(jīng)超過3億,每天都有大量的微博消息發(fā)布。在該些海量的微博消息中,有 許多飽含個人情感的資源,如何從該些微博消息中高效自動地提取主題與情感,并且對主 題與情感進(jìn)行演化分析,是一個很具有研究價值的熱點。
[0003] 網(wǎng)絡(luò)文本情感挖掘的算法大致可歸納為=類;有監(jiān)督的情感挖掘、無監(jiān)督的情感 挖掘與半監(jiān)督的情感挖掘。有(半)監(jiān)督的情感挖掘方法一般具有較高的分類準(zhǔn)確率,但 是它們都需要人工標(biāo)注的訓(xùn)練語料來訓(xùn)練生成文本情感分類器,而獲得人工標(biāo)注的訓(xùn)練語 料是十分耗時耗力的。傳統(tǒng)的無監(jiān)督情感挖掘方法是利用情感詞典對文本進(jìn)行情感分類, 該種方法對情感詞典具有極強(qiáng)的依賴性,而好的情感詞典卻很難獲得。因此,WJST、S-LDA 與DPLDA等為代表的無監(jiān)督情感分類方法近年來備受青睞,此類方法不僅能有效地避免傳 統(tǒng)無監(jiān)督情感分類方法具有的情感詞典依賴性缺點,達(dá)到較好的情感分類效果,而且該類 方法還可W很好的對文本進(jìn)行主題挖掘。然而,現(xiàn)有的該些LDA主題情感模型都還不能很 好的展示微博主題與情感的演化,下面W例加W說明。
[0004] 例1 ;給定用戶A的兩條微博; A1 ;和朋友一起看NBA總決賽,很喜歡馬刺隊,團(tuán)隊籃球必勝! 一2014. 06. 15A2 ;今天晚上和朋友通宵看世界杯了,C羅又帥氣又有實力! 一2014. 07. 13 針對該兩條微博,雖然JST、S-LDA與ASUM可W獲取A1的主題(NBA)與情感極性(積 極)還有A2的主題(世界杯)與情感極性(積極),但是JST、S-LDA與ASUM卻無法表示 A1、A2的主題出現(xiàn)的時間,更無法確切地分析用戶A關(guān)注的主題從NBA到世界杯的演化,該 是由于沒有融入時間參數(shù),3個模型會默認(rèn)A1與A2的主題是在同一時間出現(xiàn)的。
[0005] 微博主題演化近幾年吸引了不少人對其進(jìn)行研究,其中基于LDA模型的主題演化 模型備受研究者矚目,較具代表性的有;動態(tài)主題模型DTM、增量LDA模型ILDA、在線LDA模 型0LDA,擴(kuò)展0LDA模型等。然而該些模型只考慮了主題隨時間的演化卻沒有考慮情感隨時 間的演化,導(dǎo)致該些模型無法很好地解釋下列微博。
[0006] 例2 ;給定用戶B的兩條微博: B1 ;林俊杰的新歌《可惜沒有如果》真是太好聽了,非常喜歡,強(qiáng)力推 薦! 一2015. 03. 01 B2 ;浙江衛(wèi)視的節(jié)目《奔跑吧兄弟》第二季又要開始了,又可W看見喜歡的鄧超 了。一2015. 03. 08 B3 ;突然覺得《可惜沒有如果》該首歌很難聽?。?! 一2015. 03. 15 DTM、ILDA、OLDA雖然可W捕獲B1 (歌),B2 (節(jié)目),B3 (歌)的主題與主題隨時間的 演化,可是該些模型卻無法捕獲B1、B2、B3的情感還有B1 (積極)、B3 (消極)的主題情感 演化。
[0007]從上述分析可知,現(xiàn)有LDA主題情感模型沒有很好地從時間維的角度考慮主題與 情感的演化機(jī)制,而已有的LDA主題演化模型沒有將情感很好地融入,該兩種情況都可能 導(dǎo)致無法有效捕獲隱含于微博消息中的主題情感演化趨勢。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于提供一種微博主題情感演化分析方法,該方法能夠有效發(fā)現(xiàn)隱 藏于微博消息中的主題情感演化模式。
[0009]為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是;一種微博主題情感演化分析方法,包括W下步驟: 步驟1、設(shè)置本方法相關(guān)的循環(huán)控制參數(shù),W及情感詞典; 步驟2、初始化微博消息集中的詞語情感極性與主題歸屬:若微博消息集里的詞語在 所述情感詞典中出現(xiàn),則將所述詞語的情感極性賦為情感詞典定義的情感極性值,否則為 所述詞語隨機(jī)分配情感極性7;若詞語所在微博消息具有W特殊符號"#"標(biāo)記的微博用 戶明確定義的主題,則將所述主題作為所述詞語的所屬主題,否則為所述詞語隨機(jī)指定主 題; 步驟3、根據(jù)設(shè)定時間粒度TG計算微博消息的所屬時間片編號;假定微博消息集里 的所有消息發(fā)布時間序列為{?弓,... ,《與},對于發(fā)布時間為《^成1消息^,根據(jù) 始1奪k-rc?tif:' -14十(襄卡1)'巧?計算出其所在的時間片編號為k; 步驟4 ;利用主題情感演化模型TSEM不斷對變量
和占進(jìn)行迭代更 新;其中,地表示時間片納發(fā)布的消息誠]句子沖主題漏于情感極性7的頻數(shù), ?<£,》,,,1表示時間片冰3發(fā)布的消息礎(chǔ)勺句子5中屬于情感極性7的主題總頻數(shù), 示詞語時屬于主題f、情感極性7和時間片端]頻數(shù),表示所有同時屬于主題f、 情感極性7和時間片端]詞語的總頻數(shù),表示時間片冰3發(fā)布的消息?中情感極性7 出現(xiàn)的頻數(shù),表示時間片冰3發(fā)布的消息?中情感極性并勺總頻數(shù),,表示時間片 冰3發(fā)布的所有消息中詞語^^^時屬于主題巧日情感極性7的概率;.4^%^^表示時間片^/ 內(nèi)發(fā)布的消息?的句子5中主題漏于情感極性7的概率;舞^表示時間片冰g發(fā)布的消 息?中情感極性7出現(xiàn)的概率; 步驟5、通過打判斷每條發(fā)表于時間片冰g的消息W的情感極性;若 其中7i為積極情感,72為消極情感,則判定消息礎(chǔ)勺情感極性為積極情感,反之為消極情感。
[0010]進(jìn)一步的,所述主題情感演化模型TSEM的建立方法為; 步驟A1、初始化主題情感演化模型TSEM的分布參數(shù)n= {A,B,巧,其中,A為(時間,消 息,句子,情感)-主題分布,表示在時間片冰g發(fā)布的消息"中的情感標(biāo)簽為7的句子5的 主題為巧勺概率,B為(時間,情感,主題)-詞語分布,表示詞語的H現(xiàn)在時間片冰3且情感 標(biāo)簽與主題分別為7和巧勺概率,H為(時間,消息)-情感分布,表示在時間片冰g發(fā)布的 消息"具有情感7的概率;A、B與H分別服從狄利克雷分布Dir(a)、Dir( 0 )與Dir(n), 其中a是指主題姐時間片冰g發(fā)布的消息w的句子5中出現(xiàn)的先驗次數(shù),e是指詞語 在時間片冰3發(fā)布的消息集中出現(xiàn)的先驗次數(shù),n是指情感標(biāo)簽7在時間片冰3發(fā)布的消 息?中出現(xiàn)的先驗次數(shù); 步驟A2、重復(fù)如下操作直到生成一條微博消息中的所有詞語;在確定的時間片冰3,首 先從(時間,消息)-情感分布H中選出一個情感標(biāo)簽7,然后根據(jù)產(chǎn)生的情感標(biāo)簽7從(時 間,消息,句子,情感)-主題分布A中選出一個主題最后根據(jù)選出的情感標(biāo)簽7與主題f 從(時間,情感,主題)-詞語分布B中選擇一個詞語ff; 步驟A3、重復(fù)步驟A2直到微博消息集中的所有消息生成完畢。
[0011] 進(jìn)一步的,利用主題情感演化模型TSEM對變量
和抒進(jìn)行迭代更 新的方法為;設(shè)置本方法相關(guān)的循環(huán)控制參數(shù)C2、C3和C4, W及分別對應(yīng)于循環(huán)控制參 數(shù)Cl、C2、C3與C4的闊值D、X、Md和肺1,然后按W下步驟進(jìn)行4層迭代更新: 步驟B1、如果Cl大于闊值D,則結(jié)束迭代,根據(jù)判斷每條發(fā)表于時間片冰g的消息 曲的情感極性,否則轉(zhuǎn)步驟B2; 步驟B2、如果C2大于闊值X,則令C1加1,并置C2=0,然后轉(zhuǎn)步驟B1,否則轉(zhuǎn)步驟B3;步驟B3、如果Cs大于闊值Md,則更新及;;和好^>1^,并令C2加1,置C3=0,然后 轉(zhuǎn)步驟B2,否則轉(zhuǎn)步驟B4; 步驟B4、如果C4大于闊值Wm,則令C3加1,并置C4=0,然后轉(zhuǎn)步驟B3,否則從變量姑片松r中除去當(dāng)前詞語誠的情感標(biāo)簽和主題,再給詞語W重新賦一個情感標(biāo)簽和主題,并更新 變量姑令C4加1,然后重復(fù)步驟B4。<