一種面向雙語微博文本的多類情感分析方法與系統(tǒng)的制作方法

文檔序號：6635209閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向雙語微博文本的多類情感分析方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種面向雙語微博文本的多類情感分析方法與系統(tǒng)，屬于微博文本情感分析【技術(shù)領(lǐng)域】，包括以下步驟：(1)雙語詞典構(gòu)建：首先收集一定規(guī)模具有情感傾向的語料，并從語料中提取出具有情感傾向的高頻詞匯；然后用已有知識庫和詞匯相似度計(jì)算模型對情感詞典進(jìn)行擴(kuò)展；最后在情感詞典中加入網(wǎng)絡(luò)語言和表情符號；(2)文本預(yù)處理：對待識別文本進(jìn)行分詞并去除停用詞以及英文詞形規(guī)范化處理；(3)文本特征空間表示：利用所述雙語情感詞典對文本進(jìn)行向量化；(4)利用多情感分類模型實(shí)現(xiàn)語料文本的情感識別任務(wù)。本發(fā)明方法的準(zhǔn)確率和F1值高于傳統(tǒng)的分類方法，特別是半監(jiān)督高斯混合模型分類算法在小規(guī)模訓(xùn)練集下的分類效果明顯優(yōu)于其他方法。
【專利說明】-種面向雙語微博文本的多類情感分析方法與系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種情感分析方法與系統(tǒng)，特別涉及一種面向雙語微博文本的多類情感分析方法與系統(tǒng)，屬于微博文本情感分析【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] 隨著社交媒體平臺的興起與移動設(shè)備的廣泛使用，人們已經(jīng)習(xí)慣用140個字符來傳情達(dá)意表達(dá)訴求。發(fā)布微博已成為個體表達(dá)情感的重要手段，因此針對微博文本進(jìn)行情感傾向分析具有重要的現(xiàn)實(shí)意義。目前，新浪微博已成為國內(nèi)網(wǎng)絡(luò)輿論的主要載體，大量用戶通過微博進(jìn)行信息交互和情感表達(dá)。針對用戶微博文本進(jìn)行情感分類系統(tǒng)的開發(fā)進(jìn)而完成情感辨識，在輿情監(jiān)測、產(chǎn)品測評等領(lǐng)域都有著重要的參考意義。
[0003] 現(xiàn)有情感分析系統(tǒng)多將微博文本分為正向情感和負(fù)向情感兩類。但是人類的情感是復(fù)雜多樣的，正向情感包括如信任、感激、慶幸等情緒，負(fù)向情感則包括如痛苦、鄙視、仇恨、嫉妒等。簡單的將情感分為兩類不能夠保證情感辨別的準(zhǔn)確度。目前尚缺少能撲捉群體關(guān)注的細(xì)粒度情感分類系統(tǒng)。目前的微博情感分析系統(tǒng)的主要針對單一語種文本即中文情感傾向進(jìn)行統(tǒng)計(jì)分析，然而近年來由于中國大陸地區(qū)教育水平的提高，W及國際化趨勢的影響，中英文搭配使用或純英文書寫已逐漸成為個體情感表達(dá)的重要形式。該種中英文混搭的微博文本也為微博情感分析帶來新的挑戰(zhàn)?；趩握Z情感分析方法的情感分類系統(tǒng) 不再適合越來越復(fù)雜的微博語言環(huán)境。
[0004] 此外，目前情感詞匯的辨別工作大部分采用機(jī)器翻譯的方法獲取情感詞匯，但對于微博文本，由于其短文本、140字的限制，詞匯構(gòu)成比較復(fù)雜，英文但語、網(wǎng)絡(luò)流行短語數(shù) 目與日俱增，機(jī)器翻譯的質(zhì)量無法得到保證。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是為解決現(xiàn)有微博情感分析方法分類粒度粗、對于中英文混搭的微博文本分析質(zhì)量不高、情感詞匯的辨別方法滯后的問題，在微博文本情感領(lǐng)域提供一種基于微博語料的中英雙語情感詞典構(gòu)造方法W及一種基于雙語詞典的微博多類情感分析方法和雙語微博文本多類情感分析系統(tǒng)，從而針對微博文本進(jìn)行多類情感分析。
[0006] 本發(fā)明技術(shù)方案的思想是通過收集大量具有情感傾向的微博文本語料，構(gòu)建中英情感詞典庫，采用半監(jiān)督與全監(jiān)督的混合模型構(gòu)建多種情感分類器，在對雙語文本進(jìn)行文本處理之后根據(jù)詞匯情感類別對文本進(jìn)行空間特征表示，從而利用構(gòu)建的多種情感分類器實(shí)現(xiàn)微博文本的情感識別任務(wù)。
[0007] 本發(fā)明的具體實(shí)現(xiàn)步驟如下：
[0008] -種中英雙語情感詞典構(gòu)造方法，該方法包括W下步驟：
[0009] 步驟一、抓取微博網(wǎng)頁，從網(wǎng)頁中收集具有情感傾向的中英文語料，并從語料集中提取出具有情感傾向的高頻詞匯加入情感詞典庫；
[0010] 步驟二、應(yīng)用已有知識庫對所述情感詞典進(jìn)行擴(kuò)展；
[0011] 步驟H、分析抓取的微博語料，將網(wǎng)絡(luò)新興語言和表情符號加入所述情感詞典。
[0012] 較優(yōu)的，所述情感傾向包括社會關(guān)愛、高興、悲傷、憤怒和恐懼五類。
[0013] 較優(yōu)的，所述知識庫包括WordNet、NTUSD和化wNet。
[0014] 較優(yōu)的，所述步驟二的擴(kuò)展是通過分別計(jì)算各知識庫中情感詞匯與情感詞典中各情感傾向詞匯的平均相似度，并將情感詞擴(kuò)充到相似度最大的情感傾向分類中。
[0015] 較優(yōu)的，對所述網(wǎng)絡(luò)新興語言和表情符號采用多人舉手投票的方式對其情感傾向進(jìn)行分類。
[0016] 一種基于雙語詞典的多類情感分析方法，該方法包括W下步驟：
[0017] 步驟一、對語料文本進(jìn)行預(yù)處理；
[0018] 步驟二、依照所述中英雙語情感詞典對所述語料文本進(jìn)行特征空間表示；
[0019] 步驟H、根據(jù)已建立的文本情感分類器模型對語料文本進(jìn)行情感分類。
[0020] 較優(yōu)的，所述預(yù)處理包括分詞和去停用詞，對于英文文本還包括詞形規(guī)范化。
[0021] 較優(yōu)的，所述文本特征空間表示是將語料中每一條文本表示成五維向量，向量中每個元素分別代表包含的所述中英雙語情感詞典中對應(yīng)類別的情感詞的個數(shù)。
[0022] 較優(yōu)的，所述情感分類器模型為半監(jiān)督高斯混合模型分類算法（Semi-GMM)或基于對稱相對賭的K近鄰算法（KNN-KL)。
[0023] 較優(yōu)的，所述半監(jiān)督高斯混合模型分類算法是通過已標(biāo)記的訓(xùn)練語料集學(xué)習(xí)高斯混合模型，然后W該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對已標(biāo)記的測試語料集進(jìn)行迭代學(xué)習(xí)，直至算法收斂或未標(biāo)注集合為空。
[0024] 較優(yōu)的，所述基于對稱相對賭的K近鄰算法是采用相對賭對文本情感相似性進(jìn)行度量W表達(dá)文本的距離，依據(jù)鄰近樣本的類別來決定待分類樣本所屬類別。
[0025] 較優(yōu)的，所述相對賭采用如下公式進(jìn)行計(jì)算：
[0026]

【權(quán)利要求】
1. 一種中英雙語情感詞典構(gòu)造方法，其特征在于：包括以下步驟：步驟一、抓取微博網(wǎng)頁，從網(wǎng)頁中收集具有情感傾向的中英文語料，并從語料集中提取出具有情感傾向的1?頻詞匯加入情感詞典庫；步驟二、應(yīng)用已有知識庫對所述情感詞典進(jìn)行擴(kuò)展；步驟三、分析抓取的微博語料，將網(wǎng)絡(luò)新興語言和表情符號加入所述情感詞典。
2. 根據(jù)權(quán)利要求1所述的一種中英雙語情感詞典構(gòu)造方法，其特征在于：所述情感傾向包括社會關(guān)愛、高興、悲傷、憤怒和恐懼5類。
3. 根據(jù)權(quán)利要求1所述的一種中英雙語情感詞典構(gòu)造方法，其特征在于：步驟二的擴(kuò) 展是通過分別計(jì)算各知識庫中情感詞匯與情感詞典中各情感傾向詞匯的平均相似度，并將情感詞擴(kuò)充到相似度最大的情感傾向分類中；所述知識庫包括WordNet、NTUSD和HowNet。
4. 根據(jù)權(quán)利要求1-3任一所述的一種中英雙語情感詞典構(gòu)造方法，其特征在于：對所述網(wǎng)絡(luò)語言和表情符號采用多人舉手投票的方式對其情感傾向進(jìn)行分類。
5. -種基于雙語詞典的多類情感分析方法，該方法包括以下步驟：步驟一、對語料文本進(jìn)行預(yù)處理；步驟二、依照所述中英雙語情感詞典對所述語料文本進(jìn)行特征空間表示；步驟三、根據(jù)已建立的文本情感多分類模型對語料文本進(jìn)行情感分類。
6. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法，其特征在于：所述預(yù)處理進(jìn)一步包括分詞和去停用詞，對于英文文本還包括詞形規(guī)范化。
7. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法，其特征在于：所述文本特征空間表示是將語料中每一條文本表示成五維向量，向量中每個元素分別代表包含的所述中英雙語情感詞典中對應(yīng)類別的情感詞的個數(shù)。
8. 根據(jù)權(quán)利要求5所述的一種基于雙語詞典的微博多類情感分析方法，其特征在于：所述情感多分類模型為半監(jiān)督高斯混合模型分類算法或基于對稱相對熵的K近鄰算法；所述半監(jiān)督高斯混合模型分類算法是通過已標(biāo)記的訓(xùn)練語料集學(xué)習(xí)高斯混合模型，然后以該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對已標(biāo)記的測試語料集進(jìn)行迭代學(xué)習(xí)，直至算法收斂或未標(biāo)注集合為空；所述基于對稱相對熵的K近鄰算法是采用相對熵對文本情感相似性進(jìn)行度量以表達(dá) 文本的距離，依據(jù)鄰近樣本的類別來決定待分類樣本所屬類別。
9. 根據(jù)權(quán)利要求8所述的一種基于雙語詞典的微博多類情感分析方法，其特征在于：所述相對熵采用如下公式進(jìn)行計(jì)算：
其中，Ti為已標(biāo)記文本的歸一化向量表不，Tj為未標(biāo)記文本的歸一化向量表不，to ik、 ?jk分別表示凡、L的第k項(xiàng)，k為1到5之間的整數(shù)。
10. -種面向雙語微博文本的多類情感分析系統(tǒng)，其特征在于：包括中英雙語情感詞典，語料預(yù)處理模塊，語料文本特征空間表示模塊和情感分類器識別模塊四個模塊；中英雙語情感詞典采用如權(quán)利要求1所述中英雙語情感詞典構(gòu)造方法構(gòu)建；語料預(yù)處理模塊用于對待分析的語料本文進(jìn)行分詞和去停用詞處理，對于英文文本還要進(jìn)行詞形規(guī)范化處理；語料文本特征空間表示模塊用于對經(jīng)語料預(yù)處理模塊處理后的文本進(jìn)行向量化表示，將文本處理為五維向量，向量中的五個元素分別表示文本中包含在所述中英雙語情感詞典中社會關(guān)愛、高興、悲傷、憤怒和恐懼五類情感詞的個數(shù)；情感分類器識別模塊用于采用如權(quán)利要求8所述情感分類器模型對語料文本向量進(jìn) 行情感識別，確定語料文本所屬的情感類別。
【文檔編號】G06F17/27GK104331506SQ201410670909
【公開日】2015年2月4日申請日期:2014年11月20日優(yōu)先權(quán)日:2014年11月20日
【發(fā)明者】禮欣, 栗雨晴, 韓煦, 宋丹丹, 廖樂健申請人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：禮欣;栗雨晴;韓煦;宋丹丹;廖樂健
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本情感分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向雙語微博文本的多類情感分析方法與系統(tǒng)的制作方法