文本情感傾向判斷方法與系統(tǒng)的制作方法
【技術(shù)領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù)領域中的用戶文本情感傾向判斷。更具體而言,本發(fā)明 涉及一種基于用戶性格特征的文本情感傾向判斷方法與系統(tǒng)。
【背景技術(shù)】
[0002] 隨著SNS (Social Networking Services,社會性網(wǎng)絡服務)不斷流行,人們通過微 博、論壇等平臺,對人物、事件、產(chǎn)品發(fā)布各種各樣的觀點。為了有效處理這些信息,發(fā)現(xiàn)人 們的態(tài)度意見,就需要進行文本情感分析。文本情感傾向,表達了人們對某事件、某產(chǎn)品的 喜好。
[0003] 然而,在個性化時代的今天,每個人表達情感的方式和程度都是不一樣的。比如對 于"還好"這個詞,對一些人表示"好的"而對另一些人則表示"一般"而已。因此如何能根 據(jù)每個人不同的性格特征、表達特點去做情感判斷才客觀真實。
[0004] 為了解決上面提到的問題。我們首先來看看現(xiàn)有技術(shù)方法,以及該方法的不足。
[0005] 在專利文獻1中公開了一種情感分析系統(tǒng)及方法,該系統(tǒng)包括語料庫建立模組, 用于建立觀點句識別及情感傾向分析所需的訓練集;數(shù)據(jù)預處理模組,用于對訓練集中的 句子進行預處理;觀點句識別模組,采用支持向量機分類器與貝葉斯分類器分別對預處理 后的句子進行觀點句識別,并對兩分類器的結(jié)果進行集成處理,得到最終的分類結(jié)果;以及 情感傾向分析模組,基于支持向量機分類器及貝葉斯分類器分別直接將預處理后的句子分 為正面、負面和無觀點三類,并通過一集成公式將該支持向量機分類器和貝葉斯分類器的 分類結(jié)果集成,得到當前句子的分類結(jié)果
[0006] 在專利文獻2中公開了一種面向微博短文本的情感分析方法,該方法包括:步驟 1,采集包含指定關(guān)鍵字詞的微博數(shù)據(jù)存入數(shù)據(jù)庫;步驟2,對微博數(shù)據(jù)進行預處理;步驟3, 加載相關(guān)字典;步驟4,進行分句,過濾掉不包含用戶配置關(guān)鍵字的句子;步驟5,對包含關(guān) 鍵字的句子進行分詞,詞性標注;步驟6,利用句法分析工具對包含主題的句子進行依存句 法分析;步驟7,對包含主題詞的每個句子的極性進行判斷;步驟8,判斷完所有包含主題詞 的句子的極性后,判斷整條微博的情感傾向性。
[0007] 然而,在現(xiàn)有技術(shù)中都存在一個共同問題:忽略了人本身的性格特征和表達方式, 情感分析按照統(tǒng)一的無差別的方式進行標準化計算,得出的情感傾向必然失真。
[0008] 現(xiàn)有技術(shù)文獻
[0009] 專利文獻
[0010] 專利文獻 I :CNl〇3〇34626A
[0011] 專利文獻 2 :CN102663046A
【發(fā)明內(nèi)容】
[0012] 本發(fā)明鑒于上述問題而研發(fā),目的在于提供一種考慮了用戶性格特征的文本情感 傾向判斷方法與系統(tǒng),提高文本情感傾向判斷的準確性。
[0013] 本發(fā)明的一個方面涉及一種文本情感傾向判斷方法,其特征在于包括:語料取得 步驟,取得一定時間窗口內(nèi)的用戶歷史文本信息作為語料;用戶性格特征判斷步驟,根據(jù)所 述語料判斷用戶的性格特征;情感詞匯權(quán)重調(diào)整步驟,利用情感詞匯詞典獲取需要判斷的 用戶文本中的情感詞匯以及初始權(quán)重形成情感詞匯列表,并且根據(jù)所述用戶性格特征判斷 步驟中判斷出的用戶的性格特征對所述情感詞匯列表中的詞匯權(quán)重進行調(diào)整;以及文本情 感傾向判斷步驟,根據(jù)所述情感詞匯列表中每個詞匯的極性及其被調(diào)整過的權(quán)重,判斷所 述需要判斷的用戶文本的情感傾向。
[0014] 另外,在本發(fā)明中優(yōu)選:還包括文本處理步驟,在所述文本處理步驟中,對所述語 料或者所述需要判斷的用戶文本進行分詞、詞性判斷,并且利用情感詞匯詞典獲取所述語 料或者所述需要判斷的用戶文本中的情感詞匯,在所述用戶性格特征判斷步驟中,根據(jù)所 述語料中的情感詞匯來判斷用戶的性格特征。
[0015] 另外,在本發(fā)明中優(yōu)選:所述用戶性格特征判斷步驟包括:將所述語料按照文本 發(fā)布的時間進行排序的步驟;按照時間對所述語料進行聚類,并將不同的聚類分別保存在 不同的語料集合中的步驟;對每一個所述語料集合中的語料進行分析,判斷對于當前語料 集合的用戶性格特征的步驟;以及對全部所述語料集合的用戶性格特征進行綜合計算,從 而得到最終的用戶的性格特征的步驟。
[0016] 另外,在本發(fā)明中優(yōu)選:在對全部所述語料集合的用戶性格特征進行綜合計算時, 利用下述數(shù)學式調(diào)整用戶性格特征的權(quán)重W,
[0017]
[0018] 其中,T為表示衰減周期的常數(shù),t為時間間隔,e為規(guī)定常數(shù)。
[0019] 在本發(fā)明中優(yōu)選:在所述情感詞匯權(quán)重調(diào)整步驟中,利用下述數(shù)學式對情感詞匯 的權(quán)重S進行調(diào)整,
[0020] a
[0021] 其中,a是大于1的經(jīng)驗參數(shù),S。是情感詞匯的初始權(quán)重,X是量化后的用戶性格 特征,y是情感詞匯的極性。
[0022] 另外,在本發(fā)明中優(yōu)選:在所述文本情感傾向判斷步驟中,當所述情感詞匯列表中 的所有正向詞匯的貢獻率與所有負向詞匯的貢獻率之差的絕對值不大于給定閾值β時, 將所述需要判斷的用戶文本的情感傾向判斷為中性,當所述情感詞匯列表中的所有正向詞 匯的貢獻率與所有負向詞匯的貢獻率之差大于β時,將所述需要判斷的用戶文本的情感 傾向判斷為正性,當所述情感詞匯列表中的所有正向詞匯的貢獻率與所有負向詞匯的貢獻 率之差小于-β時,將所述需要判斷的用戶文本的情感傾向判斷為負性。
[0023] 本發(fā)明的另一方面涉及一種文本情感傾向判斷系統(tǒng),其特征在于包括:語料取得 單元,取得一定時間窗口內(nèi)的用戶歷史文本信息作為語料;用戶性格特征判斷單元,根據(jù)所 述語料判斷用戶的性格特征;情感詞匯權(quán)重調(diào)整單元,利用情感詞匯詞典獲取需要判斷的 用戶文本中的情感詞匯以及初始權(quán)重形成情感詞匯列表,并且根據(jù)由所述用戶性格特征判 斷單元判斷出的用戶的性格特征對所述情感詞匯列表中的詞匯權(quán)重進行調(diào)整;以及文本情 感傾向判斷單元,根據(jù)所述情感詞匯列表中每個詞匯的極性及其被調(diào)整過的權(quán)重,判斷所 述需要判斷的用戶文本的情感傾向。
[0024] 另外,在本發(fā)明中優(yōu)選:還包括文本處理單元,在所述文本處理單元中,對所述語 料或者所述需要判斷的用戶文本進行分詞、詞性判斷,并且利用情感詞匯詞典獲取所述語 料或者所述需要判斷的用戶文本中的情感詞匯,所述用戶性格特征判斷單元根據(jù)所述語料 中的情感詞匯來判斷用戶的性格特征。
[0025] 發(fā)明效果
[0026] 根據(jù)本發(fā)明,能夠根據(jù)用戶的歷史語料判斷出用戶的性格、情緒、表達風格(即用 戶性格特征)再進行情感分析。根據(jù)此方法能夠進行準確的信息推薦(如商品、好友、新聞 等等)、評價等工作。
【附圖說明】
[0027] 附圖用來對本發(fā)明做進一步理解,構(gòu)成說明書的一部分,與優(yōu)選實施例一起用于 對本發(fā)明進行詳細的解釋,并不構(gòu)成對本發(fā)明的限制。其中:
[0028] 圖1是本發(fā)明涉及的文本情感傾向判斷系統(tǒng)的示意框圖。
[0029] 圖2是本發(fā)明涉及的文本情感傾向判斷方法的主流程圖。
[0030] 圖3是本發(fā)明用于判斷用戶性格特征的流程圖。
[0031] 圖4是本發(fā)明用于調(diào)整情感詞匯權(quán)重的流程圖。
【具體實施方式】
[0032] 下面將參考附圖來對本發(fā)明的實施方式進行詳細說明,但本發(fā)明并不限于該實施 方式。此外,在本發(fā)明的下列描述中,將省略對已知功能和配置的具體描述,以避免使本發(fā) 明的主題不清楚。
[0033] 如圖1所示,本實施方式的文本情感傾向判斷系統(tǒng)包括:語料取得單元101、用戶 性格特征判斷單元102、情感詞匯權(quán)重調(diào)整單元103、文本情感傾向判斷單元104、用戶接口 單元105、以及文本處理單元106。
[0034] 語料取得單元101收集在一定時間窗口內(nèi)用戶的歷史文本信息作為語料。時間窗 口可以是天、月等單位,也可以是用戶自行設置的時間單位。通過網(wǎng)站提供的API進行內(nèi)容 抓取,也可以通過網(wǎng)絡爬蟲進行文本收集。將獲得到的網(wǎng)絡文本信息保存至本地存儲作為 語料庫。將語料按照文本發(fā)布的時間進行排序,再按照時間對文本進行聚類,聚類的規(guī)則是 將相近時間段發(fā)布的文本聚為一類,把不同時間聚類的文本存放在不同的集合中。