本發(fā)明屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,具體涉及一種面向微博短文本的情感分析方法及其系統(tǒng)。
背景技術(shù):
微博作為一個(gè)普遍的社交平臺(tái),承載了海量的信息,如何有效分析和挖掘用戶微博中的情感是非常有意義的?,F(xiàn)有技術(shù)中,與傳統(tǒng)的情感分析工作一樣,對微博的情感分析方法可以分為兩類。一類是基于情感詞典和規(guī)則的方法,這類方法通過計(jì)算句子中負(fù)面情感詞和正面情感詞的個(gè)數(shù)來識別情感傾向。另一類是基于機(jī)器學(xué)習(xí)的方法,它們通過挑選合適的特征來訓(xùn)練模型。
例如現(xiàn)有專利文獻(xiàn)中CN104331506A公開了一種面向雙語微博文本的多類情感分析方法與系統(tǒng),屬于微博文本的情感分析技術(shù)領(lǐng)域,其技術(shù)方案主要包括(1)雙語詞典構(gòu)建;(2)文本預(yù)處理;(3)文本特征空間表示;(4)利用多情感分類模型實(shí)現(xiàn)語料文本的情感識別任務(wù);該方法利用小規(guī)模的情感分析歸類,提高了分析的準(zhǔn)確率。
然而,以上方法都沒有意識到中文微博數(shù)據(jù)集中的情感傾向分布不平衡性對情感分類的影響,也就是說當(dāng)數(shù)據(jù)集中負(fù)面情感的句子和正面情感的句子的數(shù)量相差很大時(shí),會(huì)影響分類器的判別準(zhǔn)確性。
例如實(shí)際生活中情感傾向分布極不平衡的例子:在微博上討論的話題或者事件的本身往往帶有很強(qiáng)的情感傾向性,這導(dǎo)致很多話題的情感傾向分布不平衡,例如“#90后暴打老人#”、等話題本身具有明顯的貶義情感,而“#莫言獲諾貝爾獎(jiǎng)#”這個(gè)話題具有明顯的褒義情感。數(shù)據(jù)集情感傾向分布的不平衡性恰恰是導(dǎo)致很多機(jī)器學(xué)習(xí)算法表現(xiàn)不好的重要因素,尤其是在數(shù)據(jù)集情感傾向中占少數(shù)的類別的識別效果上。此外,微博的長度比傳統(tǒng)文本要短,這使得傳統(tǒng)方法很難從其中抽取出很多有助于情感分類的信息,而且目前還沒有一個(gè)足夠大的情感詞典可以覆蓋所有的情感詞。
Word2vec是Google在2013年開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為K維向量空間中的向量 運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。Word2vec輸出的詞向量可以被用來做很多NLP相關(guān)的工作,比如聚類、找同義詞、詞性分析等等。
CRF模型(即條件隨機(jī)場模型)由Lafferty等人于2001年提出,結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn),是一種無向圖模型,近年來在分詞、詞性標(biāo)注和命名實(shí)體識別等序列標(biāo)注任務(wù)中取得了很好的效果。條件隨機(jī)場是一個(gè)典型的判別式模型,其聯(lián)合概率可以寫成若干勢函數(shù)聯(lián)乘的形式,其中最常用的是線性鏈條件隨機(jī)場。
Affinity Propagation聚類算法是Frey和Dueck在2007年Science上提出的一種新的聚類算法.與其他聚類算法不同,它的特性是高效、快速。而且,它允許我們不必事先確定聚類數(shù)目并且能夠很好地解決非歐空間問題(如不滿足對稱性或者不滿足三角不等式)以及大規(guī)模稀疏矩陣計(jì)算問題等。所以,它已經(jīng)被廣泛應(yīng)用于人臉識別、基因發(fā)現(xiàn)、以及實(shí)物圖像識別等領(lǐng)域。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于為解決上述現(xiàn)有技術(shù)中的問題,提供一種面向微博短文本的情感分析方法及其系統(tǒng),屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,能夠有效地針對解決當(dāng)中文微博數(shù)據(jù)集出現(xiàn)情感傾向分布不平衡時(shí)的情感傾向識別問題,并且實(shí)施十分簡單,識別率高,具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值和現(xiàn)實(shí)意義。
為實(shí)現(xiàn)本發(fā)明目的所采用的技術(shù)方案之一為:一種面向微博短文本的情感分析方法,其至少包括如下步驟:
生成偽樣本步驟:對于一個(gè)微博文本的訓(xùn)練集t1,將其中的數(shù)據(jù)分為多數(shù)類maj1和少數(shù)類min1,即情感傾向占多數(shù)的數(shù)據(jù)類別為多數(shù)類,情感傾向占少數(shù)的數(shù)據(jù)類別為少數(shù)類;利用混合高斯分布模型來為訓(xùn)練集t1中的少數(shù)類生成偽樣本,從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集;
預(yù)處理步驟:對微博文本進(jìn)行清洗過濾,并至少對微博文本進(jìn)行分詞、詞性標(biāo)注和停用詞處理的操作;
擴(kuò)展微博步驟:通過利用Word2vec來求微博文本中每個(gè)詞的前K個(gè)相似詞從而擴(kuò)展微博;
特征抽取步驟:利用情感分析詞典,對經(jīng)過預(yù)處理步驟的微博文本進(jìn)行特征抽取;
情感分析模型訓(xùn)練步驟:利用CRF模型對經(jīng)過生成偽樣本步驟和擴(kuò)展微博步驟處理的 微博文本進(jìn)行處理,得到GWCRF模型;然后將特征抽取步驟中從微博文本提取出來的特征作為特征向量輸入,來訓(xùn)練GWCRF模型;
情感傾向性識別步驟:利用訓(xùn)練好的GWCRF模型對待預(yù)測的微博文本進(jìn)行情感傾向識別。
優(yōu)選的,對于所述生成偽樣本步驟中,還包括如下步驟:
步驟1-1、對于少數(shù)類min1,使用Affinity Propagation聚類算法將它聚成m個(gè)子類,假設(shè){Xi}代表min1,那么聚類后的min1就可以表示為代表min1中第j個(gè)子類,其中,m代表min1聚類后的子類個(gè)數(shù);
步驟1-2、利用混合高斯分布模型按比例為min1中的每個(gè)子類隨機(jī)生成偽樣本得到min2,使min2的樣本數(shù)量與min1的樣本數(shù)量相同或相近;為每個(gè)子類進(jìn)行高斯參數(shù)估計(jì),Nj是指min1中第j個(gè)子類的樣本數(shù),具體步驟如下:
1)計(jì)算min1中第j個(gè)子類的均值μj:
2)計(jì)算子類的協(xié)方差矩陣U;
3)根據(jù)協(xié)方差矩陣U和均值μj,為子類生成符合高斯分布的偽樣本;
步驟1-3、將數(shù)據(jù)集min2和maj1集中在一起得到一個(gè)平衡訓(xùn)練集t2。然后將t2代替t1作為最終的訓(xùn)練集。
優(yōu)選的,對于所述擴(kuò)展微博步驟,還包括如下步驟:
步驟3-1、訓(xùn)練詞向量,對微博文本過濾掉一些無意義的符號和網(wǎng)址,利用剩下的微博數(shù)據(jù)用來當(dāng)訓(xùn)練集,然后利用Word2vec中的CBOW模型來訓(xùn)練詞向量,最后通過該詞向量來求微博文本中每個(gè)詞的相似詞;
步驟3-2、利用詞向量擴(kuò)展微博,具體步驟如下:
1)對于一條微博文本t,將它分詞之后得到它的詞序列,表示為(W1,W2,...,Wn);
2)使用已經(jīng)訓(xùn)練好的詞向量來求微博文本t中每個(gè)詞的前k個(gè)相似詞,從而達(dá)到擴(kuò)展微博句子的目的;擴(kuò)展后的微博句子可以表示為(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表詞W1的前k個(gè)相似詞。
優(yōu)選的,在所述擴(kuò)展微博步驟中,對于微博文本中表情符號和標(biāo)點(diǎn)符號的處理是將它 們直接保留在微博中,用于使擴(kuò)展后的微博句子會(huì)比原微博句子含有更多的信息。
優(yōu)選的,在所述情感傾向性識別步驟中,對待預(yù)測的微博短文本數(shù)據(jù)依次進(jìn)行生成偽樣本步驟、預(yù)處理步驟、擴(kuò)展微博步驟、特征抽取步驟和情感分析模型訓(xùn)練步驟的處理,得到待預(yù)測微博短文本數(shù)據(jù)的特征向量;將待預(yù)測微博短文本數(shù)據(jù)的特征向量作為GWCRF模型輸入,利用訓(xùn)練好的GWCRF模型對待預(yù)測微博短文本數(shù)據(jù)進(jìn)行情感傾向識別。
為實(shí)現(xiàn)本發(fā)明目的所采用的技術(shù)方案之二為:一種面向微博短文本的情感分析系統(tǒng),其至少包括如下模塊:
生成偽樣本模塊:對于一個(gè)微博文本的訓(xùn)練集t1,將其中的數(shù)據(jù)分為多數(shù)類maj1和少數(shù)類min1,即情感傾向占多數(shù)的數(shù)據(jù)類別為多數(shù)類,情感傾向占少數(shù)的數(shù)據(jù)類別為少數(shù)類;利用混合高斯分布模型來為訓(xùn)練集t1中的少數(shù)類生成偽樣本,從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集;
預(yù)處理模塊:對微博文本進(jìn)行清洗過濾,并至少對微博文本進(jìn)行分詞、詞性標(biāo)注和停用詞處理的操作;
擴(kuò)展微博模塊:通過利用Word2vec來求微博文本中每個(gè)詞的前K個(gè)相似詞從而擴(kuò)展微博;
特征抽取模塊:利用情感分析詞典,對經(jīng)過預(yù)處理步驟的微博文本進(jìn)行特征抽??;
情感分析模型訓(xùn)練模塊:利用CRF模型對經(jīng)過生成偽樣本步驟和擴(kuò)展微博步驟處理的微博文本進(jìn)行處理,得到GWCRF模型;然后將特征抽取步驟中從微博文本提取出來的特征作為特征向量輸入,來訓(xùn)練GWCRF模型;
情感傾向性識別模塊:利用訓(xùn)練好的GWCRF模型對待預(yù)測的微博文本進(jìn)行情感傾向識別。
優(yōu)選的,對于所述生成偽樣本模塊中,包括如下模塊:
模塊1-1、對于少數(shù)類min1,使用Affinity Propagation聚類算法將它聚成m個(gè)子類,假設(shè){Xi}代表min1,那么聚類后的min1就可以表示為代表min1中第j個(gè)子類,其中,m代表min1聚類后的子類個(gè)數(shù);
模塊1-2、利用混合高斯分布模型按比例為min1中的每個(gè)子類隨機(jī)生成偽樣本得到min2,使min2的樣本數(shù)量與min1的樣本數(shù)量相同或相近;為每個(gè)子類進(jìn)行高斯參數(shù)估計(jì),Nj是指min1中第j個(gè)子類的樣本數(shù),具體步驟如下:
1)計(jì)算min1中第j個(gè)子類的均值μj:
2)計(jì)算子類的協(xié)方差矩陣U;
3)根據(jù)協(xié)方差矩陣U和均值μj,為子類生成符合高斯分布的偽樣本;
模塊1-3、將數(shù)據(jù)集min2和maj1集中在一起得到一個(gè)平衡訓(xùn)練集t2。然后將t2代替t1作為最終的訓(xùn)練集。
優(yōu)選的,對于所述擴(kuò)展微博模塊,包括如下步驟:
模塊3-1、訓(xùn)練詞向量,對微博文本過濾掉一些無意義的符號和網(wǎng)址,利用剩下的微博數(shù)據(jù)用來當(dāng)訓(xùn)練集,然后利用Word2vec中的CBOW模型來訓(xùn)練詞向量,最后通過該詞向量來求微博文本中每個(gè)詞的相似詞;
模塊3-2、利用詞向量擴(kuò)展微博,具體步驟如下:
1)對于一條微博文本t,將它分詞之后得到它的詞序列,表示為(W1,W2,...,Wn);
2)使用已經(jīng)訓(xùn)練好的詞向量來求微博文本t中每個(gè)詞的前k個(gè)相似詞,從而達(dá)到擴(kuò)展微博句子的目的;擴(kuò)展后的微博句子可以表示為(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表詞W1的前k個(gè)相似詞。
優(yōu)選的,在所述擴(kuò)展微博模塊中,對于微博文本中表情符號和標(biāo)點(diǎn)符號的處理是將它們直接保留在微博中,用于使擴(kuò)展后的微博句子會(huì)比原微博句子含有更多的信息。
優(yōu)選的,在所述情感傾向性識別模塊中,對待預(yù)測的微博短文本數(shù)據(jù)依次經(jīng)過生成偽樣本模塊、預(yù)處理模塊、擴(kuò)展微博模塊、特征抽取模塊和情感分析模型訓(xùn)練模塊的處理,得到待預(yù)測微博短文本數(shù)據(jù)的特征向量;將待預(yù)測微博短文本數(shù)據(jù)的特征向量作為GWCRF模型輸入,利用訓(xùn)練好的GWCRF模型對待預(yù)測微博短文本數(shù)據(jù)進(jìn)行情感傾向識別。
本發(fā)明的有益效果有:本發(fā)明首先利用混合高斯分布生成偽樣本,利用混合高斯分布模型來為訓(xùn)練集中的少數(shù)類生成偽樣本,其中少數(shù)類是指在訓(xùn)練集情感傾向中占少數(shù)的類別,從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集,以降低數(shù)據(jù)集情感傾向分布的不平衡性對情感分類效果的影響;其次對微博文本預(yù)處理,對微博文本進(jìn)行清洗過濾,并進(jìn)行分詞、詞性標(biāo)注和停用詞處理等預(yù)處理操作;再次利用Word2vec擴(kuò)展微博,通過利用Word2vec來求微博中每個(gè)詞的前K個(gè)相似詞從而擴(kuò)展微博;然后進(jìn)行特征抽取,加載與情感分析相 關(guān)的詞典,對前面預(yù)處理過的微博進(jìn)行特征抽?。唤又M(jìn)行情感分析模型訓(xùn)練,在上面已經(jīng)平衡和擴(kuò)展后的訓(xùn)練集上訓(xùn)練GWCRF模型;最后進(jìn)行情感傾向性識別,利用訓(xùn)練好的GWCRF模型對待預(yù)測的微博進(jìn)行情感傾向識別。利用本發(fā)明的方案,能夠有效地解決當(dāng)中文微博數(shù)據(jù)集出現(xiàn)情感傾向分布不平衡時(shí)的情感傾向識別問題,并且實(shí)施十分簡單,識別率高,具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值和現(xiàn)實(shí)意義。
本發(fā)明提出的基于混合高斯分布偽樣本生成技術(shù)和CRF模型的情感分析方法GWCRF(Gaussian Mixture Distribution Word2vec CRF)。該方法首先利用混合高斯分布模型來為訓(xùn)練集中的少數(shù)類生成偽樣本從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集,然后通過使用Word2vec來擴(kuò)展微博句子以豐富它的情感信息,從而緩解情感詞典不足夠大對情感分類的負(fù)面影響;最后將條件隨機(jī)場(Conditional Random Field)模型應(yīng)用在上面已經(jīng)平衡和擴(kuò)展后的訓(xùn)練集上。實(shí)驗(yàn)結(jié)果表明該方法比現(xiàn)有方法在數(shù)據(jù)集情感傾向分布不平衡時(shí)能更有效地識別微博的情感傾向。
附圖說明
圖1為本發(fā)明具體實(shí)施例情感分析方法的流程示意圖
圖2為本發(fā)明具體實(shí)施例中構(gòu)建平衡訓(xùn)練集的方法示意圖
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式作進(jìn)一步說明:
實(shí)施例一、
如圖1和2所示,本實(shí)施例一種面向微博短文本的情感分析方法,包括如下步驟:
生成偽樣本步驟、預(yù)處理步驟、擴(kuò)展微博步驟、特征抽取步驟、情感分析模型訓(xùn)練步驟和情感傾向性識別步驟。
下面分別敘述各步驟的具體內(nèi)容:
1、生成偽樣本步驟:利用混合高斯分布生成偽樣本。
本實(shí)施例利用混合高斯分布模型來為訓(xùn)練集中的少數(shù)類生成偽樣本,其中少數(shù)類是指在訓(xùn)練集情感傾向中占少數(shù)的類別,從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集。
本發(fā)明的混合高斯分布生成偽樣本技術(shù)分為如下幾步:
(1)對于一個(gè)訓(xùn)練集t1,將它分為多數(shù)類maj1,即數(shù)據(jù)集中情感傾向占多數(shù)的類別, 和少數(shù)類min1,即數(shù)據(jù)集的情感傾向中占少數(shù)類別。例如,在不平衡數(shù)據(jù)集“#90后暴打老人#”中,負(fù)面情感的數(shù)據(jù)會(huì)比正面情感數(shù)據(jù)的多很多,所以負(fù)面情感的數(shù)據(jù)就是多數(shù)類,正面情感的數(shù)據(jù)就是少數(shù)類。
(2)對于少數(shù)類min1,使用Affinity Propagation聚類算法將它聚成m個(gè)子類,假設(shè){Xi}代表min1,那么聚類后的min1就可以表示為代表min1中第j個(gè)子類。
(3)為了構(gòu)建平衡的數(shù)據(jù)集,利用混合高斯分析按比例為min1中的每個(gè)子類隨機(jī)生成偽樣本得到min2,使得min2的樣本數(shù)量與min1的樣本數(shù)量相近。為每個(gè)子類進(jìn)行高斯參數(shù)估計(jì),Nj是指min1中第j個(gè)子類的樣本數(shù),具體步驟如下:
1)計(jì)算min1中第j個(gè)子類的均值μj:
2)計(jì)算子類的協(xié)方差矩陣U;
3)根據(jù)協(xié)方差矩陣U和均值μj,為子類生成符合高斯分布的偽樣本。
(4)將數(shù)據(jù)集min2和maj1集中在一起得到一個(gè)平衡訓(xùn)練集t2。然后將t2代替t1作為最終的訓(xùn)練集。
2、預(yù)處理步驟:對微博文本預(yù)處理。
該步驟主要工作是對微博文本進(jìn)行清洗過濾,并進(jìn)行分詞、詞性標(biāo)注和停用詞處理等預(yù)處理操作;
3、擴(kuò)展微博步驟:利用Word2vec擴(kuò)展微博。
本實(shí)施例通過利用Word2vec來求微博句子中每個(gè)詞的前K個(gè)相似詞從而擴(kuò)展微博,具體步驟包括以下兩步,分別是訓(xùn)練詞向量和擴(kuò)展微博句子。
(1)訓(xùn)練詞向量。例如,發(fā)明人從新浪微博API收集了大量的微博語料,過濾掉一些沒用符號和網(wǎng)址,最后剩下10G的微博數(shù)據(jù)用來當(dāng)訓(xùn)練集。然后利用Word2vec中的CBOW模型來訓(xùn)練詞向量,最后通過該詞向量來求微博句子中每個(gè)詞的相似詞。
(2)利用詞向量擴(kuò)展微博。1)對于一條微博句子t,將它分詞之后得到它的詞序列,表示為(W1,W2,...,Wn)。2)使用已經(jīng)訓(xùn)練好的詞向量來求微博句子t中每個(gè)詞的前k個(gè)相似詞,從而達(dá)到擴(kuò)展微博句子的目的。擴(kuò)展后的微博句子可以表示為(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,..., W1k)代表詞W1的前k個(gè)相似詞。3)對于微博句子中表情符號和標(biāo)點(diǎn)符號的處理是將它們直接保留在微博中,所以擴(kuò)展后的微博句子會(huì)比原微博句子含有更多的信息。
4、特征抽取步驟
(1)加載情感分析相關(guān)詞典,包括情感詞典、情符號詞典、流行語詞典、否定詞詞典等,用于特征抽取。
(2)借助上面已經(jīng)加載好的詞典數(shù)據(jù),對預(yù)處理后的微博文本進(jìn)行預(yù)定義特征的抽取,將文本向量化并轉(zhuǎn)化為情感分析模型訓(xùn)練步驟能夠處理的格式。
5、情感分析模型訓(xùn)練步驟
本實(shí)施例將CRF模型應(yīng)用在經(jīng)過混合高斯分布生成偽樣本技術(shù)和Word2vec技術(shù)處理后的數(shù)據(jù)上從而得到GWCRF模型。然后將特征抽取步驟從微博中提取出來的特征向量作為輸入,來訓(xùn)練GWCRF模型。該模型不僅有可以克服訓(xùn)練集中情感分布不平衡的影響優(yōu)點(diǎn),而且有可以增加微博句子的情感信息從而緩解了情感詞典覆蓋面不夠的影響的優(yōu)點(diǎn),從而具有很強(qiáng)的應(yīng)用價(jià)值。
6、情感傾向性識別步驟
首先對待預(yù)測的數(shù)據(jù)進(jìn)行微博文本預(yù)處理、利用Word2vec技術(shù)擴(kuò)展、特征抽取等操作,即上述1至5步驟的操作,從而得到測數(shù)據(jù)的特征向量;然后將預(yù)測數(shù)據(jù)的特征向量作為GWCRF模型輸入,利用訓(xùn)練好的GWCRF模型對待預(yù)測的微博進(jìn)行情感傾向識別。
實(shí)施例二、
本實(shí)施例一種面向微博短文本的情感分析系統(tǒng),包括如下執(zhí)行模塊:
生成偽樣本模塊、預(yù)處理模塊、擴(kuò)展微博模塊、特征抽取模塊、情感分析模型訓(xùn)練模塊和情感傾向性識別模塊。
下面分別敘述各模塊的具體內(nèi)容:
1、生成偽樣本模塊:利用混合高斯分布生成偽樣本。
本實(shí)施例利用混合高斯分布模型來為訓(xùn)練集中的少數(shù)類生成偽樣本,其中少數(shù)類是指在訓(xùn)練集情感傾向中占少數(shù)的類別,從而構(gòu)建一個(gè)情感傾向分布平衡的訓(xùn)練集。
本發(fā)明的混合高斯分布生成偽樣本技術(shù)分為如下幾步:
(1)對于一個(gè)訓(xùn)練集t1,將它分為多數(shù)類maj1,即數(shù)據(jù)集中情感傾向占多數(shù)的類別,和少數(shù)類min1,即數(shù)據(jù)集的情感傾向中占少數(shù)類別。例如,在不平衡數(shù)據(jù)集“#90后暴打 老人#”中,負(fù)面情感的數(shù)據(jù)會(huì)比正面情感數(shù)據(jù)的多很多,所以負(fù)面情感的數(shù)據(jù)就是多數(shù)類,正面情感的數(shù)據(jù)就是少數(shù)類。
(2)對于少數(shù)類min1,使用Affinity Propagation聚類算法將它聚成m個(gè)子類,假設(shè){Xi}代表min1,那么聚類后的min1就可以表示為代表min1中第j個(gè)子類。
(3)為了構(gòu)建平衡的數(shù)據(jù)集,利用混合高斯分析按比例為min1中的每個(gè)子類隨機(jī)生成偽樣本得到min2,使得min2的樣本數(shù)量與min1的樣本數(shù)量相近。為每個(gè)子類進(jìn)行高斯參數(shù)估計(jì),Nj是指min1中第j個(gè)子類的樣本數(shù),具體步驟如下:
1)計(jì)算min1中第j個(gè)子類的均值μj:
2)計(jì)算子類的協(xié)方差矩陣U;
3)根據(jù)協(xié)方差矩陣U和均值μj,為子類生成符合高斯分布的偽樣本。
(4)將數(shù)據(jù)集min2和maj1集中在一起得到一個(gè)平衡訓(xùn)練集t2。然后將t2代替t1作為最終的訓(xùn)練集。
2、預(yù)處理模塊:對微博文本預(yù)處理。
該模塊主要工作是對微博文本進(jìn)行清洗過濾,并進(jìn)行分詞、詞性標(biāo)注和停用詞處理等預(yù)處理操作;
3、擴(kuò)展微博模塊:利用Word2vec擴(kuò)展微博。
本實(shí)施例通過利用Word2vec來求微博句子中每個(gè)詞的前K個(gè)相似詞從而擴(kuò)展微博,具體步驟包括以下兩步,分別是訓(xùn)練詞向量和擴(kuò)展微博句子。
(1)訓(xùn)練詞向量。例如,發(fā)明人從新浪微博API收集了大量的微博語料,過濾掉一些沒用符號和網(wǎng)址,最后剩下10G的微博數(shù)據(jù)用來當(dāng)訓(xùn)練集。然后利用Word2vec中的CBOW模型來訓(xùn)練詞向量,最后通過該詞向量來求微博句子中每個(gè)詞的相似詞。
(2)利用詞向量擴(kuò)展微博。1)對于一條微博句子t,將它分詞之后得到它的詞序列,表示為(W1,W2,...,Wn)。2)使用已經(jīng)訓(xùn)練好的詞向量來求微博句子t中每個(gè)詞的前k個(gè)相似詞,從而達(dá)到擴(kuò)展微博句子的目的。擴(kuò)展后的微博句子可以表示為(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表詞W1的前k個(gè)相似詞。3)對于微博句子中表情符號和標(biāo)點(diǎn)符號的處理是將它們 直接保留在微博中,所以擴(kuò)展后的微博句子會(huì)比原微博句子含有更多的信息。
4、特征抽取模塊
(1)加載情感分析相關(guān)詞典,包括情感詞典、情符號詞典、流行語詞典、否定詞詞典等,用于特征抽取。
(2)借助上面已經(jīng)加載好的詞典數(shù)據(jù),對預(yù)處理后的微博文本進(jìn)行預(yù)定義特征的抽取,將文本向量化并轉(zhuǎn)化為情感分析模型訓(xùn)練模塊能夠處理的格式。
5、情感分析模型訓(xùn)練模塊
本實(shí)施例將CRF模型應(yīng)用在經(jīng)過混合高斯分布生成偽樣本技術(shù)和Word2vec技術(shù)處理后的數(shù)據(jù)上從而得到GWCRF模型。然后將特征抽取模塊從微博中提取出來的特征向量作為輸入,來訓(xùn)練GWCRF模型。該模型不僅有可以克服訓(xùn)練集中情感分布不平衡的影響優(yōu)點(diǎn),而且有可以增加微博句子的情感信息從而緩解了情感詞典覆蓋面不夠的影響的優(yōu)點(diǎn),從而具有很強(qiáng)的應(yīng)用價(jià)值。
6、情感傾向性識別模塊
首先對待預(yù)測的數(shù)據(jù)進(jìn)行微博文本預(yù)處理、利用Word2vec技術(shù)擴(kuò)展、特征抽取等操作,即上述1至5模塊的操作,從而得到測數(shù)據(jù)的特征向量;然后將預(yù)測數(shù)據(jù)的特征向量作為GWCRF模型輸入,利用訓(xùn)練好的GWCRF模型對待預(yù)測的微博進(jìn)行情感傾向識別。
根據(jù)上述說明書的揭示和教導(dǎo),本發(fā)明所屬領(lǐng)域的技術(shù)人員還可以對上述實(shí)施方式進(jìn)行變更和修改。因此,本發(fā)明并不局限于上面揭示和描述的具體實(shí)施方式,對發(fā)明的一些修改和變更也應(yīng)當(dāng)落入本發(fā)明的權(quán)利要求的保護(hù)范圍內(nèi)。此外,盡管本說明書中使用了一些特定的術(shù)語,但這些術(shù)語只是為了方便說明,并不對本發(fā)明構(gòu)成任何限制。