一種句子級(jí)情感分類(lèi)方法及裝置制造方法
【專(zhuān)利摘要】本申請(qǐng)?zhí)峁┝艘环N句子級(jí)情感分類(lèi)方法,包括:獲取預(yù)設(shè)句子級(jí)情感分類(lèi)單元;利用預(yù)設(shè)句子級(jí)情感分類(lèi)單元對(duì)已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本進(jìn)行分類(lèi);其中,預(yù)設(shè)句子級(jí)情感分類(lèi)器的獲取過(guò)程,包括:分別獲取標(biāo)記為正、負(fù)和客觀的篇章級(jí)文本;對(duì)拆分篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本;利用正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元。因此,本申請(qǐng)相比于采用人工標(biāo)注的方式對(duì)句子級(jí)文本進(jìn)行分類(lèi),提高了工作效率,且由于不需要再使用人工來(lái)標(biāo)注,因此不需要支付人工費(fèi),降低了成本。
【專(zhuān)利說(shuō)明】一種句子級(jí)情感分類(lèi)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及自然語(yǔ)言處理及機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種句子級(jí)情感分類(lèi)方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)所倡導(dǎo)“以用戶(hù)為中心,用戶(hù)參與”的開(kāi)放式構(gòu)架理念,使得互聯(lián)網(wǎng)用戶(hù)由被動(dòng)地接受互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng)造互聯(lián)網(wǎng)信息轉(zhuǎn)變。因此,互聯(lián)網(wǎng)(如博客和論壇)上產(chǎn)生了大量用戶(hù)參與的、對(duì)于諸如人物、事件、產(chǎn)品等有價(jià)值的評(píng)論信息,這些評(píng)論信息表達(dá)了用戶(hù)的各種情感色彩和情感傾向性,如喜、怒、哀、樂(lè)和批評(píng)、贊揚(yáng)等。用戶(hù)可以通過(guò)瀏覽這些主觀色彩的評(píng)論來(lái)了解大眾輿論對(duì)于某一事件或產(chǎn)品的看法。越來(lái)越多的用戶(hù)樂(lè)于在互聯(lián)網(wǎng)上分享自己的觀點(diǎn)或體驗(yàn),導(dǎo)致評(píng)論信息量迅速增加,僅靠人工的方法難以應(yīng)付網(wǎng)上海量信息的收集和處理,因此文本情感分析技術(shù)應(yīng)運(yùn)而生。
[0003]文本情感分析技術(shù)利用計(jì)算機(jī)快速獲取和整理相關(guān)評(píng)價(jià)信息,其可以對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理。
[0004]情感分類(lèi)是文本情感分析技術(shù)的一項(xiàng)子任務(wù),其利用底層情感信息抽取的結(jié)果將情感文本分為若干情感類(lèi)別,如分為褒貶兩類(lèi)或者其他更細(xì)致的情感類(lèi)別。
[0005]目前,基于計(jì)算機(jī)的情感分類(lèi),主要對(duì)篇章級(jí)文本進(jìn)行分類(lèi),對(duì)句子級(jí)文本進(jìn)行分類(lèi)則主要采用人工逐句標(biāo)注的方式,但是采用人工逐句標(biāo)注的方式對(duì)句子級(jí)文本進(jìn)行分類(lèi),效率低,且由于需要支付人工費(fèi),因此長(zhǎng)期使用人工逐句標(biāo)注的方式,投資大,成本高。
[0006]由上可見(jiàn),采用人工逐句標(biāo)注的方式對(duì)句子級(jí)文本進(jìn)行分類(lèi),存在效率低,投資大,成本高的缺點(diǎn)。
【發(fā)明內(nèi)容】
[0007]為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種句子級(jí)情感分類(lèi)方法及裝置,以達(dá)到提高工作效率,不需要支付人工費(fèi),降低了成本的目的,技術(shù)方案如下:
[0008]一種句子級(jí)情感分類(lèi)方法,包括:
[0009]獲取預(yù)設(shè)句子級(jí)情感分類(lèi)單元;
[0010]利用所述預(yù)設(shè)句子級(jí)情感分類(lèi)單元對(duì)已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本進(jìn)行分類(lèi);
[0011]其中,所述預(yù)設(shè)句子級(jí)情感分類(lèi)器的獲取過(guò)程,包括:
[0012]分別獲取標(biāo)記為正、負(fù)和客觀的篇章級(jí)文本;
[0013]對(duì)拆分所述篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本;
[0014]利用所述正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元。
[0015]優(yōu)選的,所述對(duì)拆分所述篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本的過(guò)程,包括:
[0016]確定所述標(biāo)記為正的篇章級(jí)文本、所述標(biāo)記為負(fù)的篇章級(jí)文本、所述標(biāo)記為正的篇章級(jí)文本中的句子文本和所述標(biāo)記為負(fù)的篇章級(jí)文本中的句子級(jí)文本為二部圖的文檔
向量;
[0017]確定所述正篇章級(jí)文本中的詞語(yǔ)和所述負(fù)篇章級(jí)文本中的詞語(yǔ)為二部圖的詞向量;
[0018]計(jì)算任意一個(gè)文檔向量到該文檔向量所包含的詞向量的詞轉(zhuǎn)移概率;
[0019]依據(jù)所述詞轉(zhuǎn)移概率,計(jì)算任意一個(gè)文檔向量到任意一個(gè)文檔向量的文檔轉(zhuǎn)移概率;
[0020]依據(jù)每個(gè)文檔轉(zhuǎn)移概率和二部圖的標(biāo)簽傳播算法,計(jì)算每個(gè)句子級(jí)文本對(duì)應(yīng)的正句子級(jí)概率和每個(gè)句子級(jí)文本對(duì)應(yīng)的負(fù)句子級(jí)概率;[0021]比較所述正句子級(jí)概率和負(fù)句子級(jí)概率的大??;
[0022]在比較結(jié)果為所述正句子級(jí)概率大于所述負(fù)句子級(jí)概率的情況下,確定該句子級(jí)文本的類(lèi)別為正;
[0023]在比較結(jié)果為所述負(fù)句子級(jí)概率大于所述正句子級(jí)概率的情況下,確定該句子級(jí)文本的類(lèi)別為負(fù);
[0024]確定類(lèi)別為正的句子級(jí)文本為正訓(xùn)練樣本,確定類(lèi)別為負(fù)的句子級(jí)文本為負(fù)訓(xùn)練樣本;
[0025]對(duì)所述標(biāo)記為客觀的篇章級(jí)文本中的句子級(jí)文本進(jìn)行人工標(biāo)注,確定類(lèi)別為客觀的句子級(jí)文本,并確定類(lèi)別為客觀的句子級(jí)文本為客觀訓(xùn)練樣本。
[0026]優(yōu)選的,利用所述正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元的過(guò)程,包括:
[0027]確定所述正、負(fù)和客觀訓(xùn)練樣本中包含的詞語(yǔ)為特征值;
[0028]依據(jù)公式
【權(quán)利要求】
1.一種句子級(jí)情感分類(lèi)方法,其特征在于,包括:
獲取預(yù)設(shè)句子級(jí)情感分類(lèi)單元; 利用所述預(yù)設(shè)句子級(jí)情感分類(lèi)單元對(duì)已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本進(jìn)行分類(lèi); 其中,所述預(yù)設(shè)句子級(jí)情感分類(lèi)器的獲取過(guò)程,包括: 分別獲取標(biāo)記為正、負(fù)和客觀的篇章級(jí)文本; 對(duì)拆分所述篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本; 利用所述正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)拆分所述篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本的過(guò)程,包括: 確定所述標(biāo)記為正的篇章級(jí)文本、所述標(biāo)記為負(fù)的篇章級(jí)文本、所述標(biāo)記為正的篇章級(jí)文本中的句子文本和所述標(biāo)記為負(fù)的篇章級(jí)文本中的句子級(jí)文本為二部圖的文檔向量; 確定所述正篇章級(jí)文本中的詞語(yǔ)和所述負(fù)篇章級(jí)文本中的詞語(yǔ)為二部圖的詞向量; 計(jì)算任意一個(gè)文檔向量到該文檔向量所包含的詞向量的詞轉(zhuǎn)移概率; 依據(jù)所述詞轉(zhuǎn)移概率,計(jì)算任意一個(gè)文檔向量到任意一個(gè)文檔向量的文檔轉(zhuǎn)移概率;依據(jù)每個(gè)文檔轉(zhuǎn)移概率和二部圖的標(biāo)簽傳播算法,計(jì)算每個(gè)句子級(jí)文本對(duì)應(yīng)的正句子級(jí)概率和每個(gè)句子級(jí)文本對(duì)應(yīng)的負(fù)句子級(jí)概率; 比較所述正句子級(jí)概率和負(fù)句子級(jí)概率的大小; 在比較結(jié)果為所述正句子級(jí)概率大于所述負(fù)句子級(jí)概率的情況下,確定該句子級(jí)文本的類(lèi)別為正; 在比較結(jié)果為所述負(fù)句子級(jí)概率大于所述正句子級(jí)概率的情況下,確定該句子級(jí)文本的類(lèi)別為負(fù); 確定類(lèi)別為正的句子級(jí)文本為正訓(xùn)練樣本,確定類(lèi)別為負(fù)的句子級(jí)文本為負(fù)訓(xùn)練樣本; 對(duì)所述標(biāo)記為客觀的篇章級(jí)文本中的句子級(jí)文本進(jìn)行人工標(biāo)注,確定類(lèi)別為客觀的句子級(jí)文本,并確定類(lèi)別為客觀的句子級(jí)文本為客觀訓(xùn)練樣本。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用所述正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元的過(guò)程,包括: 確定所述正、負(fù)和客觀訓(xùn)練樣本中包含的詞語(yǔ)為特征值;
依據(jù)公式
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述利用所述預(yù)設(shè)句子級(jí)情感分類(lèi)單元對(duì)已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本進(jìn)行分類(lèi),包括:確定所述已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本為待分類(lèi)句子級(jí)文本; 確定所述待分類(lèi)句子級(jí)文本所包含的詞語(yǔ)為待分類(lèi)特征值; 預(yù)設(shè)所述待分類(lèi)句子級(jí)文本的情感類(lèi)別分別為正、負(fù)和客觀;
依據(jù)公式
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在確定所述待分類(lèi)句子級(jí)文本的情感類(lèi)別之后,還包括: 判斷所述待分類(lèi)句子級(jí)文本的情感類(lèi)別對(duì)應(yīng)的句子級(jí)預(yù)測(cè)條件概率與0.5之差的絕對(duì)值是否小于0.05 ; 若是,將所述待分類(lèi)句子級(jí)文本的情感類(lèi)別轉(zhuǎn)換為客觀; 若否,所述待分類(lèi)句子級(jí)文本的情感類(lèi)別保持不變。
6.一種句子級(jí)情感分類(lèi)裝置,其特征在于,包括: 第一獲取單元,用于獲取預(yù)設(shè)句子級(jí)情感分類(lèi)單元; 預(yù)設(shè)句子級(jí)情感分類(lèi)單元,用于對(duì)已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本進(jìn)行分類(lèi); 其中,第一獲取單元,包括: 第二獲取單元,用于分別獲取標(biāo)記為正、負(fù)和客觀的篇章級(jí)文本; 第一分類(lèi)單元,用于對(duì)拆分所述篇章級(jí)文本獲取到的句子級(jí)文本按照正、負(fù)和客觀類(lèi)型進(jìn)行分類(lèi)標(biāo)記,得到對(duì)應(yīng)的正、負(fù)和客觀訓(xùn)練樣本; 訓(xùn)練單元,用于利用所述正、負(fù)和客觀訓(xùn)練樣本對(duì)最大熵分類(lèi)器進(jìn)行訓(xùn)練,得到預(yù)設(shè)句子級(jí)情感分類(lèi)單元。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一分類(lèi)單元包括: 第一確定單元,用于確定所述標(biāo)記為正的篇章級(jí)文本、所述標(biāo)記為負(fù)的篇章級(jí)文本、所述標(biāo)記為正的篇章級(jí)文本中的句子文本和所述標(biāo)記為負(fù)的篇章級(jí)文本中的句子級(jí)文本為二部圖的文檔向量; 第二確定單元,用于確定所述正篇章級(jí)文本中的詞語(yǔ)和所述負(fù)篇章級(jí)文本中的詞語(yǔ)為二部圖的詞向量; 第一計(jì)算單元,用于計(jì)算任意一個(gè)文檔向量到該文檔向量所包含的詞向量的詞轉(zhuǎn)移概率; 第二計(jì)算單元,用于依據(jù)所述詞轉(zhuǎn)移概率,計(jì)算任意一個(gè)文檔向量到任意一個(gè)文檔向量的文檔轉(zhuǎn)移概率; 第三計(jì)算單元,用于依據(jù)每個(gè)文檔轉(zhuǎn)移概率和二部圖的標(biāo)簽傳播算法,計(jì)算每個(gè)句子級(jí)文本對(duì)應(yīng)的正句子級(jí)概率和每個(gè)句子級(jí)文本對(duì)應(yīng)的負(fù)句子級(jí)概率; 第一比較單元,用于比較所述正句子級(jí)概率和負(fù)句子級(jí)概率的大小,在比較結(jié)果為所述正句子級(jí)概率大于所述負(fù)句子級(jí)概率的情況下,執(zhí)行第三確定單元,在比較結(jié)果為所述負(fù)句子級(jí)概率大于所述正句子級(jí)概率的情況下,執(zhí)行第四確定單元; 第三確定單元,用于確定該句子級(jí)文本的類(lèi)別為正; 第四確定單元,用于確定該句子級(jí)文本的類(lèi)別為負(fù); 第五確定單元,用于確定類(lèi)別為正的句子級(jí)文本為正訓(xùn)練樣本,確定類(lèi)別為負(fù)的句子級(jí)文本為負(fù)訓(xùn)練樣本; 第六確定單元,用于對(duì)所述標(biāo)記為客觀的篇章級(jí)文本中的句子級(jí)文本進(jìn)行人工標(biāo)注,確定類(lèi)別為客觀的句子級(jí)文本,并確定類(lèi)別為客觀的句子級(jí)文本為客觀訓(xùn)練樣本。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述訓(xùn)練單元包括: 第七確定單元,用于確定所述正、負(fù)和客觀訓(xùn)練樣本中包含的詞語(yǔ)為特征值; 第四計(jì)算單元,用于依據(jù)公式
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述預(yù)設(shè)句子級(jí)情感分類(lèi)單元包括: 第九確定單元,用于確定所述已標(biāo)注情感類(lèi)別的篇章級(jí)文本中的句子級(jí)文本為待分類(lèi)句子級(jí)文本; 第十確定單元,用于確定所述待分類(lèi)句子級(jí)文本所包含的詞語(yǔ)為待分類(lèi)特征值; 預(yù)設(shè)單元,用于預(yù)設(shè)所述待分類(lèi)句子級(jí)文本的情感類(lèi)別分別為正、負(fù)和客觀;第五計(jì)算單元,用于依據(jù)公式
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,還包括: 判斷單元,用于判斷所述待分類(lèi)句子級(jí)文本的情感類(lèi)別對(duì)應(yīng)的句子級(jí)預(yù)測(cè)條件概率與0.5之差的絕對(duì)值是否小于0.05,若是,執(zhí)行轉(zhuǎn)換單元,若否,所述待分類(lèi)句子級(jí)文本的情感類(lèi)別保持不變; 轉(zhuǎn)換單元,用于將所述待分類(lèi)句子級(jí)文本的情感類(lèi)別轉(zhuǎn)換為客觀。
【文檔編號(hào)】G06F17/30GK103514279SQ201310445953
【公開(kāi)日】2014年1月15日 申請(qǐng)日期:2013年9月26日 優(yōu)先權(quán)日:2013年9月26日
【發(fā)明者】李壽山, 朱珠, 周?chē)?guó)棟 申請(qǐng)人:蘇州大學(xué)