一種基于微博群環(huán)境的微博多模態(tài)情感分析方法
【專利摘要】本發(fā)明公開了一種基于微博群環(huán)境的微博多模態(tài)情感分析方法,其特征是按如下步驟進行:1、獲取微博數(shù)據(jù);2、提取所述微博文本內(nèi)容和所述評論內(nèi)容的第一模態(tài)文本特征;3、提取所述評論內(nèi)容的第二模態(tài)特征;4、將所述第一模態(tài)文本特征和第二模態(tài)特征進行結(jié)合獲得最終特征向量;5、對微博數(shù)據(jù)進行情感標(biāo)記處理并獲得多模態(tài)情感訓(xùn)練模型;6、預(yù)測待測試微博文本內(nèi)容的情感狀態(tài)。本發(fā)明能夠進一步結(jié)合微博評論內(nèi)容對微博文本內(nèi)容進行特征提取,從而提高微博情感狀態(tài)判斷的準(zhǔn)確度。
【專利說明】一種基于微博群環(huán)境的微博多模態(tài)情感分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語言處理技術(shù)與情感計算領(lǐng)域,具體地說,是一種基于微博群環(huán)境的微博多模態(tài)情感分析方法。
【背景技術(shù)】
[0002]隨著電子商務(wù)、微博、網(wǎng)絡(luò)新聞媒體等信息交流和交易平臺的大行其道,使得相關(guān)的評論和微博數(shù)據(jù)呈井噴式增長。面對如此海量的數(shù)據(jù),如何從其中提取有利于各方的有用信息,已經(jīng)成為了現(xiàn)如今各領(lǐng)域的研究熱點。文本傾向性判斷作為其中的研究方向,亦被作為數(shù)據(jù)價值性分析的重要依據(jù)之一。
[0003]微博,微博客的簡稱,隨著社交網(wǎng)絡(luò)興起,微博不再只是人們工作和生活中情感表達的方法,而更多是被用作為人與人之間的交流和溝通的方式。又因為微博承載的信息量龐大,表達的情感豐富,成為了相關(guān)研究重要的數(shù)據(jù)來源。因此近來有關(guān)微博數(shù)據(jù)的分析處理已經(jīng)成為國內(nèi)外研究熱點。例如:對新聞軼事,產(chǎn)品評價,娛樂事件等內(nèi)容的微博用戶的關(guān)注度進行統(tǒng)計,關(guān)注信息進行分析等。
[0004]現(xiàn)有的文本情感分類相關(guān)問題的解決大部分是僅僅基于文本特征提取的方法。其中對于多數(shù)文本特征提取只考慮了詞表面含義,且并沒有進一步在語義層面上對文本進行分析,從而導(dǎo)致了情感分析不夠準(zhǔn)確。由于微博屬于句子級的文本,在情感分析時候特征的選擇也受到了篇幅的限制,現(xiàn)有的微博情感分析方法只是對于微博文本內(nèi)容進行特征的提取,而忽略了微博文本所處的情感環(huán)境,即沒有從微博評論的角度出發(fā),考慮對微博文本內(nèi)容的情感表達,以及微博用戶與微博好友之間的互動。
【發(fā)明內(nèi)容】
[0005]本發(fā)明是為了克服現(xiàn)有技術(shù)存在的不足之處,提出一種基于微博群環(huán)境的微博多模態(tài)情感分析方法,能夠進一步結(jié)合微博評論內(nèi)容對微博文本內(nèi)容進行特征提取,從而提高微博情感狀態(tài)判斷的準(zhǔn)確度。
[0006]本發(fā)明為解決技術(shù)問題采取如下技術(shù)方案:
[0007]本發(fā)明一種基于微博群環(huán)境的微博多模態(tài)情感分析方法,所述微博群環(huán)境是由微博用戶和微博用戶好友構(gòu)成,所述微博多模態(tài)情感分析方法的特點是按如下步驟進行:
[0008]步驟1:獲取微博數(shù)據(jù):
[0009]步驟1.1:獲取所述微博用戶的賬號ID ;
[0010]步驟1.2:根據(jù)所述微博用戶的賬號ID,調(diào)用微博的第三方API應(yīng)用接口獲得所述微博數(shù)據(jù);所述微博數(shù)據(jù)包括微博文本內(nèi)容、所述微博文本內(nèi)容的評論內(nèi)容、所述微博文本內(nèi)容的評論數(shù)目和微博評論者;
[0011]步驟2:提取所述微博文本內(nèi)容和所述評論內(nèi)容的第一模態(tài)文本特征:
[0012]步驟2.1:對所述微博文本內(nèi)容和所述評論內(nèi)容分別進行分詞和詞性標(biāo)注處理獲得預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容;[0013]步驟2.2:利用情感詞典獲得所述預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容中的情感詞以及所述情感詞對應(yīng)的情感值;
[0014]步驟2.3:對所述預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容構(gòu)建語法樹并獲得所述情感詞的修飾成分;
[0015]步驟2.4:根據(jù)所述情感詞的修飾成分調(diào)整所述情感詞的情感值獲得所述情感詞的最終情感值;
[0016]步驟2.5:將所述情感詞和所述情感詞的最終情感值作為第一模態(tài)文本特征并用文本特征向量r/表示;
[0017]步驟3:提取所述評論內(nèi)容的第二模態(tài)特征:
[0018]步驟3.1:根據(jù)所述微博文本內(nèi)容的評論數(shù)目繪制微博群環(huán)境圖;
[0019]步驟3.2:利用所述微博群環(huán)境圖獲取所述微博用戶與所述微博評論者對所述評論內(nèi)容的第二模態(tài)特征并用微博群環(huán)境向量^表示;
[0020]步驟4:將所述第一模態(tài)文本特征和第二模態(tài)特征進行結(jié)合獲得最終特征向量:
[0021]步驟4.1:利用式⑴獲得矩陣向量^
【權(quán)利要求】
1.一種基于微博群環(huán)境的微博多模態(tài)情感分析方法,所述微博群環(huán)境是由微博用戶和微博用戶好友構(gòu)成,其特征是,所述微博多模態(tài)情感分析方法按如下步驟進行: 步驟1:獲取微博數(shù)據(jù): 步驟1.1:獲取所述微博用戶的賬號ID ; 步驟1.2:根據(jù)所述微博用戶的賬號ID,調(diào)用微博的第三方API應(yīng)用接口獲得所述微博數(shù)據(jù);所述微博數(shù)據(jù)包括微博文本內(nèi)容、所述微博文本內(nèi)容的評論內(nèi)容、所述微博文本內(nèi)容的評論數(shù)目和微博評論者; 步驟2:提取所述微博文本內(nèi)容和所述評論內(nèi)容的第一模態(tài)文本特征: 步驟2.1:對所述微博文本內(nèi)容和所述評論內(nèi)容分別進行分詞和詞性標(biāo)注處理獲得預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容; 步驟2.2:利用情感詞典獲得所述預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容中的情感詞以及所述情感詞對應(yīng)的情感值; 步驟2.3:對所述預(yù)處理后的文本內(nèi)容和預(yù)處理后的評論內(nèi)容構(gòu)建語法樹并獲得所述情感詞的修飾成分; 步驟2.4:根據(jù)所述情感詞的修飾成分調(diào)整所述情感詞的情感值獲得所述情感詞的最終情感值; 步驟2.5:將所述情感詞和所述情感詞的最終情感值作為第一模態(tài)文本特征并用文本特征向量i/表示;` 步驟3:提取所述評論內(nèi)容的第二模態(tài)特征: 步驟3.1:根據(jù)所述微博文本內(nèi)容的評論數(shù)目繪制微博群環(huán)境圖; 步驟3.2:利用所述微博群環(huán)境圖獲取所述微博用戶與所述微博評論者對所述評論內(nèi)容的第二模態(tài)特征并用微博群環(huán)境向量G表示; 步驟4:將所述第一模態(tài)文本特征和第二模態(tài)特征進行結(jié)合獲得最終特征向量: 步驟4.1:利用式(I)獲得矩陣向
【文檔編號】G06F17/30GK103729456SQ201410006867
【公開日】2014年4月16日 申請日期:2014年1月7日 優(yōu)先權(quán)日:2014年1月7日
【發(fā)明者】孫曉, 李承程, 孫重遠, 高飛, 陳煒亮, 任福繼 申請人:合肥工業(yè)大學(xué)