本發(fā)明涉及一種基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法。
背景技術(shù):
隨著網(wǎng)絡(luò)輿論成為社會輿論的一種重要表現(xiàn)形式,網(wǎng)絡(luò)輿情也逐漸對有關(guān)部門的決策產(chǎn)生了影響。但由于網(wǎng)絡(luò)輿論是個“自由超市”,加上內(nèi)容“把關(guān)人”的缺席,網(wǎng)絡(luò)輿論的局限性比起傳統(tǒng)媒體環(huán)境中一般意義上的局限更甚。因此,必須對網(wǎng)絡(luò)輿論信息進(jìn)行有效的匯集以及整理,以作進(jìn)一步的引導(dǎo)和控制。
輿情工作者每天面對海量的輿論信息,想要及時發(fā)現(xiàn)負(fù)面敏感信息是非常困難的,亟需完善的文本情感分類方法。近年來,網(wǎng)絡(luò)輿情信息情感的分類方法也在不斷被研究人員推陳出新,現(xiàn)有的主要計算方法有:
1)基于貝葉斯分類器的分類方法
收集一定比例的正面、中性、負(fù)面情感文本語料庫,將文本通過分詞工具預(yù)處理,得到每一種情感分類下的詞匯集合和相應(yīng)的概率。通過貝葉斯分類器進(jìn)行機(jī)器學(xué)習(xí),在待分類文本到來時,分別計算文本屬于正面、中性、負(fù)面三類集合的概率,得到概率值后,認(rèn)定文本屬于概率值較大的一類,得到情感傾向分析結(jié)果。
2)基于詞典和極性的分類方法
人工構(gòu)建情感詞典庫,其中標(biāo)注有詞匯、分值、極性,同時引入極性判斷規(guī)則,在文本極性發(fā)生變化時,相應(yīng)的情感得分值會取反。在待分類文本到來時,參考預(yù)置的情感詞典庫,對每一個情感詞匯計算得分值,匯總所有的情感詞匯分值后,比對預(yù)先測算出的閾值,判斷目標(biāo)值所處的區(qū)間,以得到文本所屬的情感分類。
現(xiàn)有技術(shù)的缺點(diǎn)如下:
1)貝葉斯分類器模型依賴于其學(xué)習(xí)的語料庫,語料庫的收集和全面性是一大難題。另外,漢語言的復(fù)雜性、語境問題也使得分類結(jié)果會產(chǎn)生較大偏差。
2)輿情領(lǐng)域的情感詞典隨著經(jīng)驗(yàn)的積累會相對完善,但單純考慮情感詞極性對篇章情感的影響不夠全面,忽略了詞性、語義這些對情感結(jié)果作用的因素。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法。該方法通過基礎(chǔ)情感詞典庫,對待分類文本進(jìn)行分詞后,結(jié)合詞典分值、篇章結(jié)構(gòu)、語義和句法多種因素對待分類文本進(jìn)行情感分類,以得到相對更準(zhǔn)確的情感分類結(jié)果。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是,基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法,包括以下步驟:
一、構(gòu)建詞典
通過人工收集和標(biāo)注的形式構(gòu)建情感詞詞典、否定詞詞典、程度詞詞典庫;
情感詞詞典包含詞匯、詞性、情感強(qiáng)度、極性四個屬性;否定詞詞典包含詞匯一個屬性;程度詞詞典包含詞匯、強(qiáng)度兩個屬性;
二、待分類文本拆分
按照篇章-段落-句子-意群子句的結(jié)構(gòu)對待分類文本進(jìn)行拆分,得到若干意群子句;
三、計算意群情感分值
對每一意群子句采用hanlp分詞包分詞,得到詞匯和詞性信息,記為詞匯組;
遍歷詞匯組中的每一個詞匯,同時標(biāo)記程度詞和否定詞出現(xiàn)的位置,依據(jù)詞性類別從情感詞典中取出情感強(qiáng)度,記為得分值,在詞匯極性為負(fù)面時取反;如果情感詞前出現(xiàn)程度詞,則分值在原有基礎(chǔ)上乘以程度詞強(qiáng)度值;如果情感詞前出現(xiàn)否定詞,則分值在原有基礎(chǔ)上取反,否定詞作用可累加;詞匯組中每一個詞匯得分值累加后得到的是意群情感分值;
四、計算文本情感分值
將意群子句情感分值按照文本篇章結(jié)構(gòu)逆向合并即可得到文本情感分值,過程如下:
1)將句子中各意群子句分值累加得到句子分值;
2)將段落中各句子分值取均值得到段落分值;
3)將篇章中各段落分值取均值得到文本篇章分值;
4)由文本篇章分值落入的區(qū)間范圍,判定文章情感傾向性。
本發(fā)明的有益效果是:
通過基于構(gòu)建的詞典庫,結(jié)合文本篇章結(jié)構(gòu)、句法分析內(nèi)容,充分考慮意群子句中否定詞、程度詞的作用和情感詞詞性的影響,能夠更為準(zhǔn)確地計算出文本篇章所表述出的情感傾向性,能更好地適用于網(wǎng)絡(luò)輿情信息情感分類。
附圖說明
下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。
圖1是本發(fā)明基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法實(shí)施例的結(jié)構(gòu)示意圖。
圖2是本發(fā)明基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法實(shí)施例的意群子句情感分值計算的流程圖。
圖3是本發(fā)明基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法實(shí)施例的意群子句逆向合并得到文本篇章情感值的過程示意圖。
具體實(shí)施方式
一種基于詞典的網(wǎng)絡(luò)輿情信息情感分類方法,包括以下步驟:
一、構(gòu)建詞典
通過人工收集和標(biāo)注的形式構(gòu)建情感詞詞典(sentilib)、否定詞詞典(negativelib)、程度詞詞典(degreelib)庫。
情感詞詞典包含詞匯(word)、詞性(feature)、情感強(qiáng)度(strength)、極性(polar)四個屬性;否定詞詞典包含詞匯(word)一個屬性;程度詞詞典包含詞匯(word)、強(qiáng)度(strength)兩個屬性。
二、待分類文本拆分
按照篇章-段落-句子-意群子句的結(jié)構(gòu)對待分類文本進(jìn)行拆分,得到若干意群子句。主要包含以下步驟(圖1):
1)將文本按照篇章結(jié)構(gòu)拆分成段落集合ps=[p1,p2,…,pn];
2)對每一個段落按照句子結(jié)構(gòu)拆分成句子集合sts=[st1,st2,…,stm];
3)對每一個句子按照逗號“,”分隔符拆分成意群子句集合gs=[g1,g2,…,gk]。
三、計算意群情感分值
對每一意群子句gi采用hanlp分詞包分詞,得到詞匯和詞性信息,記為詞匯組wordarray=[word1,word2,…,wordn]。
意群子句gi情感分值sg由詞匯組得分值合并得來,遍歷詞匯組中的每一個詞匯word[i],按照以下規(guī)則計算分值:
1)將情感詞典中標(biāo)注的情感強(qiáng)度記為得分值ws,在詞匯極性為負(fù)面時取反ws=ws*(-1);
2)如果情感詞前出現(xiàn)程度詞,則分值在原有基礎(chǔ)上乘以程度詞強(qiáng)度值ws=ws*degree;
3)如果情感詞前出現(xiàn)否定詞,則分值在原有基礎(chǔ)上取反ws=ws*(-1);如連續(xù)出現(xiàn)否定詞,則依次取反ws=ws*(-1);
4)將當(dāng)前詞匯得分值納入意群子句分值中sg=sg+ws。重復(fù)以上步驟直至本意群子句中所有詞匯分值計算結(jié)束。
圖2是上述意群子句情感分值計算的流程圖。
四、計算文本情感分值
將意群子句情感分值按照文本篇章結(jié)構(gòu)逆向合并即可得到文本情感分值。如圖3所示,過程如下:
1)將句子中各意群子句分值累加得到句子分值sc=sg[0]+sg[1]+…+sg[k];
2)將段落中各句子分值取均值得到段落分值sp=(sc[0]+sc[1]+…sc[n])/m;
3)將篇章中各段落分值取均值得到文本篇章分值s=(sp[0]+sp[1]+…sp[n])/n;
4)由文本篇章分值落入的區(qū)間范圍,判定文章情感傾向性。s∈(-∞,-1]時,文本情感傾向于負(fù)面;s∈(-1,5]時,文本情感傾向于中性;s∈(5,+∞)時,文本情感傾向于正面。
案例
假定要對文本:“記者在基層調(diào)研發(fā)現(xiàn),受利益驅(qū)使,企業(yè)環(huán)保數(shù)據(jù)造假的行為仍舊屢禁不止。不斷涌現(xiàn)出來的環(huán)保數(shù)據(jù)造假使數(shù)據(jù)失真,進(jìn)而影響環(huán)保治理決策,長此以往終究危及環(huán)境?!边M(jìn)行情感分類,如圖2所示,過程如下:
1、構(gòu)建詞典
通過人工收集和標(biāo)注的形式構(gòu)建情感詞詞典sentilib、否定詞詞典negativelib、程度詞詞典庫degreelib。
2、待分類文本拆分
1)段落集合ps=[p1],其中p1=“記者在基層調(diào)研發(fā)現(xiàn),受利益驅(qū)使,企業(yè)環(huán)保數(shù)據(jù)造假的行為仍舊屢禁不止。不斷涌現(xiàn)出來的環(huán)保數(shù)據(jù)造假使數(shù)據(jù)失真,進(jìn)而影響環(huán)保治理決策,長此以往終究危及環(huán)境?!?;
2)句子集合sts=[st1,st2],其中st1=“記者在基層調(diào)研發(fā)現(xiàn),受利益驅(qū)使,企業(yè)環(huán)保數(shù)據(jù)造假的行為仍舊屢禁不止。”,st2=“不斷涌現(xiàn)出來的環(huán)保數(shù)據(jù)造假使數(shù)據(jù)失真,進(jìn)而影響環(huán)保治理決策,長此以往終究危及環(huán)境?!保?/p>
3)意群子句集合gs1=[g11,g12,g13],gs2=[g21,g22,g23],其中g(shù)11=“記者在基層調(diào)研發(fā)現(xiàn)”,g12=“受利益驅(qū)使”,以此類推。
3、計算意群情感分值
1)對意群子句g11采用hanlp分詞包分詞,得到wordarray=[記者/nnt,在/p,基層/n,調(diào)研/vn,發(fā)現(xiàn)/v];
2)依規(guī)則計算得到sg=ws1+ws2+ws3+ws4+ws5=1.0;
3)重復(fù)以上步驟,計算出所有的sg。
4、計算文本情感分值
1)句子分值sc[0]=sg1[0]+sg1[1]+sg1[2]=-9.0,
sc[1]=sg2[0]+sg2[1]+sg2[2]=-5.0;
2)段落分值sp[0]=(sc[0]+sc[1])/2=-7.0;
3)文本篇章分值s=(sp[0])/1=-7.0;
4)本例中s∈(-∞,-1],文本情感傾向于負(fù)面。
以上所述的本發(fā)明實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限定。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。