一種基于微博文本的情緒分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語(yǔ)言處理和社交網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于微博文本的情緒分 類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的開放性、虛擬性與共享性使其漸漸成為人們表達(dá)觀點(diǎn)、態(tài)度、感覺、情緒 等各種情感的公共平臺(tái),并且產(chǎn)生大量的社交網(wǎng)站,同時(shí)微型博客(Microblog)也隨之產(chǎn) 生,成為又一個(gè)跨時(shí)代產(chǎn)品。根據(jù)人民網(wǎng)報(bào)道,截至2013年底,中國(guó)微博用戶數(shù)為2. 81億 人,每天發(fā)布和轉(zhuǎn)發(fā)微博信息達(dá)2. 5億條。在這些龐大的短文本信息中,有很大一部分是帶 有情感的文本信息。處理和分析這些海量的帶情感的數(shù)據(jù)信息蘊(yùn)含著巨大的商業(yè)價(jià)值。例 如,微博監(jiān)管、突發(fā)事件預(yù)警、輿情發(fā)現(xiàn)、輿論引導(dǎo)和商業(yè)競(jìng)爭(zhēng)情報(bào)分析等工作的實(shí)現(xiàn)。因 此,對(duì)于微博情緒分析的研究,具有較高的理論價(jià)值和應(yīng)用價(jià)值。
[0003] 所謂文本情緒分析,一般包含兩個(gè)任務(wù):一是情緒識(shí)別,即通過(guò)對(duì)文本進(jìn)行分析, 判斷該文本是否含有情緒;二是情緒分類,即指對(duì)含有情緒的文本進(jìn)行分析,進(jìn)行情緒具體 類別的判別。本發(fā)明的研究主要針對(duì)文本情緒分類。
[0004] 舉例說(shuō)明具體的情緒分類,例如微博:"明天不用上班了,休息一天,真好馨《,該 微博文本含有快樂的情緒。
[0005] 微博文本的情緒分類是將微博文本作為研究對(duì)象。由于社交網(wǎng)絡(luò)剛剛起步相關(guān)研 究較少,因此關(guān)于微博文本情緒分類的研究也比較缺乏。因此,本發(fā)明提供一種基于微博文 本的情緒分類方法及系統(tǒng)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供一種基于微博文本的情緒分類方法,包括以下步驟:
[0007]S1、收集一定數(shù)量微博用戶發(fā)表的微博文本,并將收集到的微博文本進(jìn)行情緒類 型標(biāo)注;
[0008]S2、利用分詞軟件將標(biāo)注好的微博文本進(jìn)行分詞處理,并將經(jīng)過(guò)分詞處理的微博 文本作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本及貝葉斯工具包構(gòu)建貝葉斯分類器;
[0009]S3、利用所述貝葉斯分類器,對(duì)用戶微博文本進(jìn)行分類,得到分類結(jié)果,并根據(jù)所 述分類結(jié)果確定情緒類型。
[0010] 優(yōu)選的,步驟S1中收集微博用戶發(fā)表的微博文本的過(guò)程包括以下步驟:
[0011]S11、構(gòu)建一個(gè)空的用戶列表,并在微博選取一個(gè)用戶作為種子用戶加入所述空的 用戶列表中;
[0012]S12、抓取所述種子用戶的用戶信息及其發(fā)表的微博文本,并將所述種子用戶的關(guān) 注用戶和粉絲用戶加入用戶列表中,并繼續(xù)抓取所述關(guān)注用戶和粉絲用戶的用戶信息及其 發(fā)表的微博文本;
[0013]S13、重復(fù)步驟S12,直至達(dá)到所需用戶數(shù)量。
[0014] 優(yōu)選的,在步驟S12中,所述用戶信息包括用戶名、認(rèn)證類型、關(guān)注用戶和粉絲用 戶。
[0015] 優(yōu)選的,所述情緒類型包括快樂、憤怒、悲傷、恐懼、正面復(fù)合、中性復(fù)合、反面復(fù)合 及無(wú)情緒類型。
[0016] 優(yōu)選的,在步驟S2中,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的分詞軟件ICTCLAS將標(biāo) 注好的微博文本進(jìn)行分詞處理。
[0017] 優(yōu)選的,在步驟S2中,所述貝葉斯工具包由Mallet提供。
[0018] 優(yōu)選的,所述貝葉斯分類器采用樸素貝葉斯模型。
[0019] 本發(fā)明還提供一種基于微博文本的情緒分類系統(tǒng),包括微博文本獲取模塊、情緒 標(biāo)注模塊、訓(xùn)練樣本獲取模塊、分類器構(gòu)建模塊及分類模塊,所述微博文本獲取模塊連接情 緒標(biāo)注模塊,所述情緒標(biāo)注模塊連接訓(xùn)練樣本獲取模塊,訓(xùn)練樣本獲取模塊連接分類器構(gòu) 建模塊,所述分類器構(gòu)建模塊連接分類模塊:所述微博文本獲取模塊,用于收集微博用戶發(fā) 表的微博文本;所述情緒標(biāo)注模塊,用于將收集到的微博文本進(jìn)行情緒類型標(biāo)注;所述訓(xùn) 練樣本獲取模塊,用于利用分詞軟件將標(biāo)注好的微博文本進(jìn)行分詞處理,并將經(jīng)過(guò)分詞處 理的微博文本作為訓(xùn)練樣本;所述分類器構(gòu)建模塊,用于利用所述訓(xùn)練樣本及貝葉斯工具 包構(gòu)建貝葉斯分類器;所述分類模塊,用于利用所述貝葉斯分類器,對(duì)用戶微博文本進(jìn)行分 類,得到分類結(jié)果,并根據(jù)所述分類結(jié)果確定情緒類型。
[0020] 根據(jù)本發(fā)明提供的基于微博文本的情緒分類方法及系統(tǒng),所述方法包括以下步 驟。收集一定數(shù)量微博用戶發(fā)表的微博文本,并將收集到的微博文本進(jìn)行情緒類型標(biāo)注。利 用分詞軟件將標(biāo)注好的微博文本進(jìn)行分詞處理,并將經(jīng)過(guò)分詞處理的微博文本作為訓(xùn)練樣 本,并利用所述訓(xùn)練樣本及貝葉斯工具包構(gòu)建貝葉斯分類器。利用所述貝葉斯分類器,對(duì)用 戶微博文本進(jìn)行分類,得到分類結(jié)果,并根據(jù)所述分類結(jié)果確定情緒類型。如此,以較高的 準(zhǔn)確率達(dá)到了對(duì)微博文本進(jìn)行情緒分類。
【附圖說(shuō)明】
[0021] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0022] 圖1是本發(fā)明較佳實(shí)施例提供的基于微博文本的情緒分類方法流程圖;
[0023]圖2是本發(fā)明較佳實(shí)施例提供的收集微博用戶發(fā)表的微博文本的流程圖;
[0024]圖3是本發(fā)明較佳實(shí)施例提供的基于微博文本的情緒分類系統(tǒng)示意圖。
【具體實(shí)施方式】
[0025] 下文中將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。需要說(shuō)明的是,在不沖突的 情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0026]圖1是本發(fā)明較佳實(shí)施例提供的基于微博文本的情緒分類方法流程圖。如圖1所 示,本發(fā)明較佳實(shí)施例提供的基于微博文本的情緒分類方法包括步驟S1~S3。
[0027] 步驟S1 :收集一定數(shù)量微博用戶發(fā)表的微博文本,并將收集到的微博文本進(jìn)行情 緒類型標(biāo)注。
[0028] 具體而言,本實(shí)施例中,所述微博是以騰訊微博為例說(shuō)明,具體通過(guò)騰訊微博提供 的API收集用戶發(fā)表的微博文本。其它實(shí)施例中,也可使用其他社交網(wǎng)站的用戶發(fā)表的文 本信息。所述收集一定數(shù)量微博用戶發(fā)表的微博文本過(guò)程作如下分解。
[0029]圖2是本發(fā)明較佳實(shí)施例提供的收集微博用戶發(fā)表的微博文本的流程圖。如圖2 所示,本發(fā)明較佳實(shí)施例提供的收集微博用戶發(fā)表的微博文本流程包括步驟S11~S13。
[0030] 步驟S11 :構(gòu)建一個(gè)空的用戶列表,并在微博選取一個(gè)用戶作為種子用戶加入所 述空的用戶列表中。
[0031] 步驟S12 :抓取所述種子用戶的用戶信息及其發(fā)表的微博文本,并將所述種子用 戶的關(guān)注用戶和粉絲用戶加入用戶列表中,并繼續(xù)抓取所述關(guān)注用戶和粉絲用戶的用戶信 息及其發(fā)表的微博文本。
[0032] 本步驟中,所述用戶信息包括用戶名、認(rèn)證類型、關(guān)注用戶和粉絲用戶。
[0033] 步驟S13 :重復(fù)步驟S12,直至達(dá)到所需用戶數(shù)量。
[0034] 接下來(lái),將收集到的微博文本進(jìn)行情緒類型標(biāo)注。于此,所述情緒類型包括快樂、