基于情感詞典的短文本情感傾向分析方法
【技術領域】
[0001] 本發(fā)明涉及短文本進行情感傾向分類技術領域,提供了一種基于情感詞典的短文 本情感傾向分析方法。
【背景技術】
[0002] 從互聯(lián)網(wǎng)社區(qū)概念的提出到現(xiàn)在的十多年中,各國的研究者對互聯(lián)網(wǎng)社區(qū)檢測的 相關技術和研究給予了很多關注,取得了很多實質性的進展。
[0003] 研究者首先對互聯(lián)網(wǎng)的拓撲結構進行了更加深入的分析。與人們的設想不同,互 聯(lián)網(wǎng)和其他很多網(wǎng)絡的相互關聯(lián)并不完全是隨機的,并不能完全用隨機圖來描述互聯(lián)網(wǎng)社 區(qū)的結構。尤其是在對越來越多互聯(lián)網(wǎng)數(shù)據(jù)進行分析后,隨機圖結構的概念受到嚴重的沖 擊?;ヂ?lián)網(wǎng)的實際結構遠比我們想象得要復雜得多,鏈接、網(wǎng)站、頁面、用戶、管理者之間的 關系也是多樣化的。在互聯(lián)網(wǎng)中有很多區(qū)域內(nèi)部聯(lián)系緊密同外部的聯(lián)系較弱,這些區(qū)域就 是互聯(lián)網(wǎng)社區(qū),互聯(lián)網(wǎng)社區(qū)的結構特征是無法用隨機圖描述清楚的。
[0004]隨著互聯(lián)網(wǎng)社區(qū)概念的提出和相關研究的深入展開,開發(fā)者們設計了各種不同類 型的的互聯(lián)網(wǎng)社區(qū)檢測算法對其進行結構檢測,并根據(jù)實驗結果不斷地對算法進行改進和 優(yōu)化。隨著研究的深入開展,對互聯(lián)網(wǎng)社區(qū)進行檢測的算法也在不斷地被優(yōu)化改進。
[0005] 與傳統(tǒng)方法相比,現(xiàn)在的算法大多能夠充分考慮到網(wǎng)絡運行的并行性、實時性和 可擴展性等來解決物理上的限制。比如Sadi等人提出的用并行的螞蟻找圈的社區(qū)檢測方 法。這樣可以在不影響結果效果的前提下,壓縮互聯(lián)網(wǎng)結構圖直至一個穩(wěn)定的大小以降低 算法運行的成本,從而完成對大規(guī)模網(wǎng)絡的處理。也有Leung等人提出的對標簽傳播算法 進行改進,并加入啟發(fā)式教育法的方法對大規(guī)模網(wǎng)絡進行實時的社區(qū)檢測。針對不同的互 聯(lián)網(wǎng)社區(qū)檢測方法,Leskovec等人對現(xiàn)有的一些方法進行研究比較,發(fā)現(xiàn)大規(guī)模網(wǎng)絡社區(qū) 檢測問題并不是一個簡單算法就能解決的,是一個非常復雜的問題,要考慮到網(wǎng)絡結構、數(shù) 據(jù)分布、網(wǎng)絡爬行效果等多方面的問題。隨著檢測技術的不斷成熟,互聯(lián)網(wǎng)社區(qū)檢測有效度 也在不斷提升,同傳統(tǒng)的蠻力算法相比較,社區(qū)檢測技術已經(jīng)越來越成為一種藝術。作為社 區(qū)檢測一個新興的方向,將會對互聯(lián)網(wǎng)結構挖掘做出巨大影響。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種基于情感詞典的短文本情感傾向分析方法。
[0007] 基于情感詞典的短文本情感傾向分析方法,其特征在于包括如下步驟:
[0008] 步驟1、構建情感詞典,基于詞頻統(tǒng)計的方法構建基礎情感詞典;通過S0-PMI方 法,對候選詞語與基礎情感詞典中詞匯的統(tǒng)計相關性計算來判別它的情感傾向,從而擴充 基礎詞典。
[0009] 步驟2、構建情感分析的模型,在情感詞典的基礎上,以每條評價語句S為單位,以 該語句中的每個情感詞WS為分隔符,對兩個分隔符之間的斷句phrase(WSi-1,WSi)進行情 感權值計算,然后將每個斷句的權值加權求和得出S的總體情感傾向值weight(S),判斷S 的情感極性的方法是:如果weight(S)大于0,則該評論屬于正面評論;否則,認為S屬于負 向評論,從而實現(xiàn)對評價語句的極性分類,斷句phrase(WSi-1,WSi)包含詞語WSi,但是不 包含詞語WSi-1。
[0010] 上述技術方案中,S0-PMI方法包括如下步驟:
[0011] 步驟2-1、采用ICTCLAS系統(tǒng)分詞之后獲取詞語的詞性property,
[0012] 步驟 2-2、計算由word,propertyalG{a,ad,an,ag,al}和*〇『(1. propertyalG{vn,vd,vi,vg,vl}所限定的兩種候選詞word的SO-PMI值,其余詞性的候選 詞直接被視為中性詞語;
[0013] 計算兩種候選詞word的S0-PMI值具體為:
[0014] 計算候選詞和正向基礎情感詞之間的PMI值,計算候選詞與負向基礎情感詞之間 的PMI值,最后將兩者相減得到候選詞的S0-PMI值,S0-PMI的計算式如下:
[0015]
[0016]posWords為正向基礎情感詞典,negWords為負向基礎情感詞典,word為候選詞 語;
[0017]S0-PMI的值和情感傾向之間的關系如下式:
[0018]
[0019] 步驟2-4、將正面基礎情感詞語的同義詞,以及符合式word, propertyalG{a,ad,an,ag,al}或式word,propertyalG{vn,vd,vi,vg,vl}并經(jīng)式 2 判 定為正面傾向的情感詞加入至posWords;
[0020] 步驟2-5、將負面基礎情感詞語的同義詞,以及符合式word, propertyalG{a,ad,an,ag,al}或式word,propertyalG{vn,vd,vi,vg,vl}并經(jīng)式 2 判 定為負面傾向的情感詞加入至negWords,得到一個全面的情感詞比較樣本。
[0021] 本發(fā)明因為采用以上技術方案,因此具備以下有益效果:
[0022] 我們的實驗結果表明,在數(shù)據(jù)集包含10萬商品評論的情況下,單純基于機器學習 和單純基于情感詞典的情感傾向分析方法的準確率分別為67. 9%和83. 27%,而本文提出 的綜合型方法的準確率可以達到85. 9%,效果遠優(yōu)于基于機器學習的方法,也好于單純基 于情感詞典的方法。
【具體實施方式】
[0023] 本發(fā)明提供了 一種基于情感詞典的短文本情感傾向分析方法。
[0024] 情感詞典的構建方法
[0025] 情感詞典是指一系列能夠表達人類正面或者負面情緒的詞語的集合。為便于后面 對商品評論短句進行量化的情感傾向值計算,本文還在情感詞典中針對每個詞語保存其情 感傾向值,其中,+1代表最強烈的正面情感,-1代表最強烈的負面情感。
[0026] 我們設計的情感詞典構建方法包含兩個部分:基于詞頻統(tǒng)計的方法構建基礎情感 詞典;基于改進的S0-PMI方法,通過對候選詞語與基礎情感詞典中詞匯的統(tǒng)計相關性計算 來判別它的情感傾向,從而擴充基礎詞典。
[0027] 基礎情感詞典的構建
[0028] 基礎情感詞典是基于自然語言處理方法進行短文本情感分析的基礎和關鍵。本課 題將根據(jù)語料集中的詞語是否出現(xiàn)在情感詞典之中,以及出現(xiàn)在詞典之中的詞語的情感傾 向值來計算商品評論短句的情感傾向值。所以,將哪些詞語納入情感詞典,詞典中的詞語在 商品評價領域內(nèi)是否具有代表性,這些詞語的情感傾向值是否準確,這些問題都會對情感 分類結果的準確性造成影響。解決這些問題的第一步就是建立精準的基礎情感詞典。
[0029] 構建基礎情感詞典的常用方法是:從知網(wǎng)(Hownet)中選取一系列情感詞,將它們 逐個輸入至Google搜索引擎,根據(jù)Google返回的點擊量(hits值)的大小對情感詞進行 排序,選取點擊量最高的若干個情感詞作為基礎情感詞。由于本課題的語料集僅僅來自于 電子商務網(wǎng)站中的商品評價信息,所以知網(wǎng)中的詞匯集對于本課題而言范圍過大。并且,搜 索引擎反饋的點擊量不能反映一個詞匯在商品評價語料集中是否具有代表性。所以,該方 法不適于本課題。
[0030] 本課題采用基于詞頻統(tǒng)計的方法,半自動地選取基礎情感詞匯。因為商品評價短 文本中含有情感成分的詞語大多為形容詞、動詞和少量的名詞,所以在進行預處理之后,只 需要基于條目數(shù)量足夠多的商品評論短句集合,針對形容詞、動詞和名詞進行自動詞頻統(tǒng) 計,然后針對詞頻較高若干詞匯,手工選取詞頻最高的20個正面情感詞和詞頻最高的20個 負面情感詞,由它們構成本課題的基礎情感詞典。
[0031] 采用上述方法,我們最終納入基礎詞典的正面和負面情感詞匯見表1。
[0032] 表1:基礎情感詞典
[0033]
[0034] 由于基礎情感詞匯表達了很強烈的感情傾向,所以我們?yōu)檎蚧A情感詞賦予的 情感傾向值為+1,為負向基礎情感詞賦予的情感傾向值為-1。
[0035] 情感詞典的擴充
[0036] 基礎情感詞典的詞匯量很小,不可能包含在商品評價語料集中出現(xiàn)的所有帶有情 感傾向的詞匯。因此,需要對基礎情感詞典進行擴充,構建相對完整的情感詞典。我們的擴 充方法有兩種:添加同義詞、添加帶有情感傾向的候選詞。
[0037] 添加同義詞
[0038] 在商品評價短文本中,有很多贊揚或者貶低的用詞都互為同義詞。所以,擴充同義 詞能夠幫助我們更寬泛地識別情感詞匯。為此,我們希望利用哈工大同義詞詞林[33],對基 礎情感詞典進行同義詞擴充。但是,哈工大同義詞詞林中有很多同義詞是非常書面化的詞 語,在商品評價語料集中完全不會用到,比如"不好"的同義詞"窳劣"。為了提高情感傾向 計算的算法性能,我們?nèi)孕枞斯ずY選出常用的同義詞詞匯。在同義詞的擴充之后,情感詞典 的詞語增至256個。因為是同義詞,我們將基礎情感詞典中所有正面情感詞的同義詞的情 感傾向值設置為+1,并將所有負面情感詞的同義詞的情感傾向值設置為-1。
[0039] 添加相關的情感詞
[0040] 雖然構建完全無遺漏的情感詞典非常困難,但通過分析語料集中每個詞語與字典 中情感詞匯的相關性,將相關性很高的詞語納入詞典,可以有效地構建覆蓋面更廣的情感 詞典。本課題使用一種基于統(tǒng)計的方法:點互信息法(PointwiseMutualInformation) 來計算候選詞與字典中情感詞匯的相關性,從而判斷該詞是否應該作為情感詞。若是,則添 加至情感詞典。
[0041] 點互信息法基于互信息理論計算詞語和詞語之間的相關性。它的基本思想是:統(tǒng) 計兩個詞wordjPword^在商品評價語句中共現(xiàn)的概率。共現(xiàn)的概率越大,則表示這兩個詞 之間的相關性越高,如式下所示:
[0042]
[0043] 其中p(word;Aword是wordJPword』在語料集中共現(xiàn)的概率,其計算方法如 式(6-1)所示,其中n代表語料集中商品評論的總條數(shù),numSentence^ord^wordj)表示同 時包含wordjPwordj的評價條數(shù)。P(word;)和P(word)分別表示語料集中包含wordjPI word,的評價條數(shù)在總的評價條數(shù)所占的比例。它們的計算方法如式6-2和6-3所示,其中 numSentence^ordi)表示語料集中包含wordj^評價條數(shù)。式(6-1)中的PMnword^wordj) 表示當wordJPwordj其中一個變量出現(xiàn)時,我們可以獲取到的另一個變量的信息量,這充 分表現(xiàn)了wordJPwordj之間的統(tǒng)計相關性:PMI大于0時,表示兩個詞語是具有相關性的, 且PMI值越大,相關性越強;PMI等于0時,表示這兩個詞之間是統(tǒng)計獨立的;PMI小于0時, 表示這兩個詞之間是互斥的。
[0044]
[0045]
[0046]
[0047] 當我們將PMI的原理應用于情感極性分析時,就演變成了S0-PMI算法。S0-PMI 采用PMI的思想計算候選詞和各組基礎情感詞之間的統(tǒng)計相關性,從各組統(tǒng)計相關性綜 合判斷該詞的情感傾向。具體的計算步驟是:首先,計算候選詞和正向基礎情感詞之間的 PMI值;然后,計算候選詞與負向基礎情感詞之間的PMI值;最后將兩者相減得到候選詞的 S0-PMI值。假設正向基礎情感詞典為posWords,負向基礎情感詞典為negWords,則對于候 選詞語word,S0-PMI的計算如式6-4所示:
[0048]
6-4)[0049]S0-PMI的值和情感傾向之間的關系如式6-5所示:
[0050]
[0051] 將S0-PMI方法應用于本實驗的商品評價語料集時,我們發(fā)現(xiàn)了以下問題:
[0052] 1)很多單字動詞和專屬名詞本身是中性含義,但它們可能會在語料集中和詞典中 某一情感詞共現(xiàn)的概率很大,從而導致S0-PMI大大偏離中性值。比如動詞"擊"。它與詞典 中正面詞語之間的