了一種包含上述情感分析方法的多個待測文本情感分析方法, 所述多個待測文本的情感分析方法包括: 首先,在計算機系統(tǒng)中同時輸入首尾依次連接多個待測文本; 其次,采用權利要求1-9中任一所述的情感分析方法,分析出多個待測文本中每一待 測文本的情感值; 再者,將每一待測文本的情感值,從最后一個待測文本開始,依次向前累加。
[0020] 較佳地,所述累加為:從后向前,從右向左,依次向前累加。
[0021] 本發(fā)明的有益效果: 1. 專業(yè)的基于中文財經(jīng)詞匯的分詞模塊。普通分詞程序?qū)I(yè)性不強,只能對一些常用 的普通詞匯進行分詞,而要得到某專業(yè)內(nèi)的常用詞匯或?qū)I(yè)詞匯,必須在分詞詞典中添加 上該行業(yè)的特定詞匯。建議基于財經(jīng)詞匯的專業(yè)分詞模塊是本發(fā)明至關重要的環(huán)節(jié); 2. 全面的中文財經(jīng)情感詞典。情感詞典分為基礎情感詞典和專業(yè)情感詞典。基礎情感 詞典包括《知網(wǎng)》、《臺灣大學情感詞典》、《褒義詞詞典》、《貶義詞詞典》提供的情感詞匯,通 過去重處理,得到基礎情感詞典。專業(yè)情感詞典即財經(jīng)領域情感詞典,主要從《證券投資分 析》、《經(jīng)濟學詞典》中獲取財經(jīng)詞匯。另外,因為本發(fā)明主要是對網(wǎng)絡爬蟲抓取的財經(jīng)新聞 評論文本和股吧論壇的文本進行情感分析,所以人工提取了 2013年至2015年所抓取數(shù)據(jù) 的網(wǎng)絡詞和財經(jīng)新聞用詞,并分析其情感色彩,擴充財經(jīng)情感詞庫,使情感詞典更適合網(wǎng)絡 財經(jīng)新聞文本的情感分析,大大提高了情感識別率和準確率; 3. 詳細的情感詞分類。目前常用的文本情感分析方法對情感詞的研究更多地集中在情 感詞的褒貶分類上。本發(fā)明針對目前財經(jīng)情感分析領域中對情感詞的分類不具體,導致只 能對情感詞疊加得到文本總情感值,從而準確率和可信度偏低的問題。在中文文本財經(jīng)領 域,對領域內(nèi)的常用詞匯、專業(yè)詞匯細分為幾十個子類的情況尚屬首次,有效地解決了情感 詞分類過于籠統(tǒng),文本情感值完全基于對其中出現(xiàn)的情感詞統(tǒng)計疊加的問題; 4. 語義模式的匹配建立在情感詞排列統(tǒng)計的基礎之上,使用的是基于情感詞的語義模 式組合。在語義模式匹配中,更多的是根據(jù)中文句型的樣式人工標注句型結構,如主謂賓結 構。這樣的句型結構太過通用,不能很好地與情感詞句型結構匹配,導致句型不適合情感匹 配。本發(fā)明句型模式的積累采用統(tǒng)計方法,根據(jù)分詞標注的情感值與其他否定詞、反轉(zhuǎn)詞等 的不同排列組合,統(tǒng)計得到句型結構出現(xiàn)概率大的幾十種模式,滿足了情感文本的情感句 型匹配和識別; 5. 由于細分詞庫,更好地匹配情感語義模式,以語義分析為主,統(tǒng)計疊加情感單元情感 值為輔,凝聚了中文語義分析和統(tǒng)計分析的精華。以滿足語義模式的情感單元而不是情感 詞為單位進行情感分析,最大程度上保證了情感疊加單元的情感準確度,從而獲得文本更 準確的情感結果。
【附圖說明】
[0022] 圖1示出了本發(fā)明一個實施例中情感分析方法的步驟示意圖。
【具體實施方式】
[0023] 以下結合附圖和下述實施方式進一步說明本發(fā)明,應理解,附圖及下述實施方式 僅用于說明本發(fā)明,而非限制本發(fā)明。
[0024] 本發(fā)明提出一種基于中文語義結構和細分詞庫結合的情感分析方法,尤其涉及一 種應用于中文財經(jīng)新聞評論句子級文本的情感分析方法,屬于計算機科學技術、財經(jīng)學、 語言學的交叉學科。其中包括情感詞典、分詞模塊、語義模式庫、情感分析模塊四大部分。它 們之間的關系如圖1所示。
[0025] 財經(jīng)文本(可以作為待測文本)短句來源:網(wǎng)絡爬蟲全網(wǎng)抓取,選定特定的財經(jīng)新 聞評論數(shù)據(jù)源,并切分成短句。
[0026] 分詞模塊:采用雙向最大匹配算法,匹配出所有字串形成的最長詞語。
[0027] 語義模式匹配模塊:根據(jù)情感詞、否定詞、連接詞、反轉(zhuǎn)詞、比較詞等的排列組合模 式,統(tǒng)計提取出出現(xiàn)幾率比較大的幾十種模式,并按照實際句子的情感人工給出模式的情 感值。
[0028] 情感分析模塊:根據(jù)語義模式匹配的結果綜合得到句子情感值。
[0029] 情感值輸出:句子情感值,最終結果大于1則判定情感值為正面,小于-1則判定情 感值為負面,無模式匹配或情感單元疊加后值為〇則情感值為〇,判為中性情感。
[0030] 1.分詞模塊 該模塊完成的功能包括:對財經(jīng)新聞評論文本進行斷句和分詞處理,最大化地提取出 財經(jīng)情感詞匯或短語,根據(jù)情感詞典,對情感詞匯或情感短語進行屬性標注。
[0031] 分詞模塊的前期工作:為了使分詞詞典更全面地覆蓋盡可能多的財經(jīng)詞匯,在基 礎詞庫的基礎之上,采用人工提取和篩選的方法,從網(wǎng)絡爬蟲獲取的近五萬條新聞評論語 料庫中人工提取財經(jīng)詞匯和短語,尤其是財經(jīng)情感分析需要的詞匯、短語和網(wǎng)絡習慣用語 添加進分詞詞典中,從而使分詞模塊能夠識別財經(jīng)詞匯或短語,更專業(yè)化地針對財經(jīng)文本 進行處理。
[0032] 分詞模塊的算法:基于雙向最大匹配算法。為了更好地匹配財經(jīng)新聞評論中出現(xiàn) 的詞語,讓機器更大化地理解文本的意義,盡量識別長短語即盡可能多地獲取更長的信息 將有助于機器情感分析?;陔p向最大匹配算法的分詞模塊能更好地識別出文本長短語, 使情感分析更準確。
[0033] 下面詳細地介紹情感標注的標準: (1)斷句的標注。模塊中將"。"、";"、" !"、"? "、"……"作為句子結束的標志,標注符 為END,其他表示句子未結束,進行句中間隔的標點符號如","、"、",標注為COMMA ; ⑵情感詞的標注。參考情感詞庫中的情感詞分類,對存在于情感詞庫中的情感詞的屬 性進行標注。分詞屬性的標注按照情感詞類和輔助類進行標注,情感詞類共分為14類,分 別是八類不及物動詞,四類及物動詞(包括形容詞)和兩類名詞。
[0034] 表1情感分類標注表
表2其它詞類標注表: CN 105095190 A 說明書 8/15 頁
:0
[0035] 2.情感詞典 情感詞典分為兩部分:基礎情感詞典和專業(yè)情感詞典?;A情感詞典包括《知網(wǎng)》、《臺 灣大學情感詞典》、《褒義詞詞典》、《貶義詞詞典》提供的情感詞匯,通過去重處理,得到基礎 情感詞典。專業(yè)情感詞典即財經(jīng)領域情感詞典,主要從《證券投資分析》、《經(jīng)濟學詞典》中 獲取財經(jīng)詞匯。另外,因為本發(fā)明主要是對網(wǎng)絡爬蟲抓取的財經(jīng)新聞評論文本和股吧論壇 的文本進行情感分析,所以人工提取了 2013年至2015年所抓取數(shù)據(jù)的網(wǎng)絡詞和財經(jīng)新聞 用詞,并分析其情感色彩,擴充財經(jīng)情感詞庫,使情感詞典更適合網(wǎng)絡財經(jīng)新聞文本的情感 分析,從而大大提高了情感識別率和準確率。
[0036] 3.語義模式匹配模塊 情感詞分類識別之后,就可以判斷整個句子的情感值。本發(fā)明建立了專門適用于以句 子為單位的情感模式匹配模塊,根據(jù)各類情感詞的排列規(guī)則,統(tǒng)計出幾十種可供句子情感 匹配的模式條目,只有分析的句子符合諸如表3所列條目的一種,才綜合計算和賦予句子 情感值。
[0037] 表3句子情感模式匹配表(語義模式匹配表)
[0038] 4.情感分析模塊 情感分析模塊根據(jù)情感詞的分類排列,與語義模式進行匹配,按照最右優(yōu)先匹配的方 法與表3的語義模式進行匹配,得到每個情感單元的情感值。
[0039] 最右優(yōu)先匹配的算法是:從分詞標注的END結束符(即句子結束符)開始,自右 向左掃描整個句子,與表3中預設的模式進行匹配,采用最長匹配的原則,優(yōu)先匹配表3中 的長模式,得到模式對應的情感值,即為該情感單元的情感值。然后將各情感單元的情感強 度進行累加,得到句子的累加情感值。采用最右匹配的原則是根據(jù)中文語言的特點來決定 的。中文表達中,重要的觀點是在句子的后半段提出,因而情感語義模式的匹配以最右匹配 為標準。
[0040] 情感單元累加公式如式1 :
(I) q
[0041] 其中,S表示句子,E (S)表示整個句子的情感總值,m表示該句中情感單元的個數(shù), Si表示單個情感單元,E (S ;)表示單個情感單元的情感值。
[0042] 當句子中出現(xiàn)單獨的否定詞、反轉(zhuǎn)詞而無模式匹配,或出現(xiàn)句子結束符時,作如下 處理,如式2 :
.〇
[0043] 說明