一種基于中文語義結(jié)構(gòu)和細(xì)分詞庫結(jié)合的情感分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于中文語義結(jié)構(gòu)和細(xì)分詞庫結(jié)合的情感分析方法,尤其涉及一 種應(yīng)用于中文財經(jīng)新聞評論句子級文本的情感分析方法,屬于計算機(jī)科學(xué)技術(shù)、財經(jīng)學(xué)、語 言學(xué)的交叉學(xué)科。
【背景技術(shù)】
[0002] 自然語言處理在1950年由圖靈提出,至今已有60多年的發(fā)展歷程。文本情感分 析是自然語言處理近十年的新興研究方向。文本情感分析是對帶有情感色彩的主觀性文本 進(jìn)行分析、處理、歸納和推理,從而得到文本的正負(fù)面或褒貶義的機(jī)器自動識別和判斷。最 初的情感分析源自對帶有情感色彩的詞語的分析,如各種褒義詞或貶義詞。隨著互聯(lián)網(wǎng)上 帶有情感色彩的大量的主觀性文本的出現(xiàn),研究重點逐步過渡到對更為復(fù)雜的情感語句或 情感篇章的研究。
[0003] 國內(nèi)關(guān)于情感分析的研究主要集中在傾向度分析,其中包括兩個重要方向。一個 方向是以中科院譚松波的文本情感傾向度分析方法為代表,基于大規(guī)模情感語料庫,計算 詞匯與上下文的統(tǒng)計特性,作為情感傾向值。另一個方向以中科院董振東提出的知網(wǎng)體系 為代表,基于語義網(wǎng),根據(jù)概念的上下位、同反義等關(guān)系,獲得概念距離,得到情感傾向值。 本發(fā)明中的情感計算類似于后者,建立在語義規(guī)則的基礎(chǔ)之上,但同時又帶有前者的風(fēng)格, 統(tǒng)計疊加情感單元的情感值,作為句子的最終情感。
[0004] 自然語言處理建立在詞的基礎(chǔ)之上,詞是表達(dá)語義的最小單位。對于西方語言,詞 之間有明確的分界符,統(tǒng)計和使用語言模型非常直接。而對于中文等語言,詞之間沒有明確 的分界符,若要進(jìn)行自然語言處理,必須首先對句子進(jìn)行分詞?,F(xiàn)在的一些分詞程序?qū)I(yè)性 不強(qiáng),只能對一些常用的普通詞匯進(jìn)行分詞,而要得到某專業(yè)內(nèi)的常用詞匯或?qū)I(yè)詞匯,必 須在分詞詞典中添加上該行業(yè)的特定詞匯。
[0005] 目前常用的文本情感分析方法更多的是對情感詞的識別,在此基礎(chǔ)上將文本中所 有情感詞的極性進(jìn)行累加,最后得到整個文本的極性,從而實現(xiàn)對文本的情感分類。其中對 情感詞的研究更多地集中在情感詞的褒貶分類上。
[0006] 在語義模式匹配中,更多的是根據(jù)中文句型的樣式人工標(biāo)注句型結(jié)構(gòu),這樣的句 型結(jié)構(gòu)太過通用,不能很好地與情感詞句型結(jié)構(gòu)匹配,導(dǎo)致句型不適合情感匹配。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明旨在克服現(xiàn)有文本情感分析方法的缺陷,本發(fā)明提供了一種基于中文語義 結(jié)構(gòu)和細(xì)分詞庫結(jié)合的情感分析方法。
[0008] 本發(fā)明提供了 一種基于中文語義結(jié)構(gòu)和細(xì)分詞庫結(jié)合的情感分析方法,其特征在 于,所述情感分析方法包括: 1) 在計算機(jī)系統(tǒng)中輸入至少由一個語句組成的待測文本; 2) 通過計算機(jī)系統(tǒng)的分詞模塊對待測文本的每一語句進(jìn)行分詞處理,標(biāo)注每一語句中 的情感詞和其它詞,其中, 所述分詞模塊通過計算機(jī)中存儲的字典,標(biāo)注每一語句中的情感詞和其它詞,所述字 典中詞匯被分類為情感詞類和其它詞類; 所述字典中情感詞匯的分類標(biāo)注表如下:
.,: 所述字典中其它詞類標(biāo)注表如下:
3)通過計算機(jī)系統(tǒng)的語義模式匹配模塊,對經(jīng)分詞處理的待測文本進(jìn)行匹配,得到每 一語義單元(指能夠匹配語義模式的文本片段)的語義模式,其中,所述語義單元是指待測 文本的每一語句中能夠匹配語義模式的文本片段; 所述語義模式匹配表包括:
, 4) 通過計算機(jī)系統(tǒng)的情感分析模塊,將待測文本的每一語義單元的語義模式對應(yīng)為情 感值,并將文本中所有語義單元的情感值進(jìn)行累加,得到待測文本的情感值,其中,當(dāng)某一 語句中出現(xiàn)沒有匹配語義模式的剩余的否定詞時,該語句中否定詞之后的語義單元的情感 值X (-1),再參與所述文本中所有語義單元的情感值累加的計算; 當(dāng)某一語句中出現(xiàn)沒有匹配語義模式的剩余的反轉(zhuǎn)詞時,該語句中反轉(zhuǎn)詞之后的語義 單元的情感值X2,再參與所述文本中所有語義單元的情感值累加的計算; 當(dāng)某一語句中出現(xiàn)沒有匹配語義模式的剩余的否定詞和反轉(zhuǎn)詞時,該語句中否定詞和 反轉(zhuǎn)詞之后的語義單元的情感值X (-1) X2,再參與所述文本中所有語義單元的情感值累 加的計算; 5) 當(dāng)待測文本的情感值大于1的時候,判定待測文本的情感值為正面,標(biāo)注為1, 當(dāng)待測文本的情感值小于1的時候,判定待測文本的情感值為負(fù)面,標(biāo)注為-1, 無模式匹配或疊加情感為O時,判定待測文本的情感為中性,標(biāo)注為0。
[0009] 本發(fā)明從非結(jié)構(gòu)化文本中切分出情感詞、連接詞、轉(zhuǎn)折詞等,根據(jù)各詞的實際排 列,匹配句型模式,得到語義單元情感值,根據(jù)語義單元情感值綜合計算句子情感值,達(dá)到 量化財經(jīng)新聞評論句子情感值的目的; 以滿足語義模式的情感單元而不是情感詞為單位進(jìn)行情感分析,最大程度上保證了情 感疊加單元的情感準(zhǔn)確度,從而獲得文本更準(zhǔn)確的情感結(jié)果;由于細(xì)分詞庫,更好地匹配情 感語義模式,以語義分析為主,統(tǒng)計疊加情感單元情感值為輔,凝聚了中文語義分析和統(tǒng)計 分析的精華; 本發(fā)明針對目前財經(jīng)情感分析領(lǐng)域中對情感詞的分類不具體,導(dǎo)致只能對情感詞疊加 得到文本總情感值,從而準(zhǔn)確率和可信度偏低的問題。在中文文本財經(jīng)領(lǐng)域,對領(lǐng)域內(nèi)的常 用詞匯、專業(yè)詞匯細(xì)分為幾十個子類的情況尚屬首次,有效地解決了情感詞分類過于籠統(tǒng), 文本情感值完全基于以情感詞為單位統(tǒng)計疊加的問題。本發(fā)明句型模式的積累采用統(tǒng)計方 法,根據(jù)分詞標(biāo)注的情感值與其他否定詞、反轉(zhuǎn)詞等的不同排列組合,統(tǒng)計得到句型結(jié)構(gòu)出 現(xiàn)概率大的幾十種模式,滿足了以情感詞為主體的文本的句型匹配,同時大大提高了句型 匹配率。
[0010] 較佳地,所述待測文本包括以唯一句子結(jié)束符結(jié)尾的待測文本(即所述待測文本 為一段文本,含有至少一個語句,該段文本中只含有一個句子結(jié)束符且句子結(jié)束符在該段 話的尾部);當(dāng)然所述待測文本中也可以包含有多個句子結(jié)束符; 所述待測文本的輸入采用網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)中抓取、切分得到。
[0011] 較佳地,所述情感字典包括《知網(wǎng)》、《臺灣大學(xué)情感詞典》、《褒義詞詞典》、《貶義詞 詞典》、以及待測文本所屬領(lǐng)域的專業(yè)情感詞典。
[0012] 情感詞典分為基礎(chǔ)情感詞典和專業(yè)情感詞典?;A(chǔ)情感詞典包括《知網(wǎng)》、《臺灣大 學(xué)情感詞典》、《褒義詞詞典》、《貶義詞詞典》提供的情感詞匯,通過去重處理,得到基礎(chǔ)情 感詞典。專業(yè)情感詞典即財經(jīng)領(lǐng)域情感詞典,主要從《證券投資分析》、《經(jīng)濟(jì)學(xué)詞典》中獲 取財經(jīng)詞匯。另外,因為本發(fā)明主要是對網(wǎng)絡(luò)爬蟲抓取的財經(jīng)新聞評論文本和股吧論壇的 文本進(jìn)行情感分析,所以人工提取了 2013年至2015年所抓取數(shù)據(jù)的網(wǎng)絡(luò)詞和財經(jīng)新聞用 詞,并分析其情感色彩,擴(kuò)充財經(jīng)情感詞庫,使情感詞典更適合網(wǎng)絡(luò)財經(jīng)新聞文本的情感分 析,大大提高了情感識別率和準(zhǔn)確率。
[0013] 較佳地,待測文本屬于財經(jīng)領(lǐng)域,所述情感詞典還包括《證券投資分析》、《經(jīng)濟(jì)學(xué) 詞典》。
[0014] 較佳地,所述詞典還包括從爬蟲抓取的近五萬條財經(jīng)評論短文本的網(wǎng)絡(luò)常用財經(jīng) 詞匯和其他網(wǎng)絡(luò)情感術(shù)語,即所述詞典還包括通過爬蟲抓取的網(wǎng)絡(luò)財經(jīng)詞匯和其它網(wǎng)絡(luò)情 感術(shù)語。
[0015] 較佳地,所述分詞模塊采用雙向最大匹配算法識別待測文本中長短詞匯或短語。 [0016] 為了更好地匹配財經(jīng)新聞評論中出現(xiàn)的詞語,讓機(jī)器更大化地理解文本的意義, 盡量識別長短語即盡可能多地獲取更長的信息將有助于機(jī)器情感分析。基于雙向最大匹配 算法的分詞模塊能更好地識別出文本長短語,使情感分析更準(zhǔn)確。
[0017] 較佳地,所述句子語義模式匹配模塊采用最右優(yōu)先匹配算法:從待測文本中語句 的END結(jié)束符開始,自右向左掃描整個語句,與《語義模式匹配表》(即《句子情感模式匹配 表》)中預(yù)設(shè)的模式進(jìn)行匹配,采用最長匹配的原則,優(yōu)先匹配《句子情感模式匹配表》中的 長模式,得到模式對應(yīng)的情感值,即為該情感單元的情感值;然后將各情感單元的情感值進(jìn) 行累加,得到語句的累加情感值。
[0018] 采用最右匹配的原則是根據(jù)中文語言的特點來決定的。中文表達(dá)中,重要的觀點 是在句子的后半段提出,因而情感值以最右匹配為標(biāo)準(zhǔn)。
[0019] 又,本發(fā)明還提供