一種計算機文本情感分類方法
【專利摘要】本發(fā)明提出了一種計算機文本情感分類方法,包括以下步驟:使用兩種方法表示文本:使用詞袋的方法把文本表示為一個由一組特征組成的特征向量;使用圖的方法把整個特征空間表示為一個有向無環(huán)圖,圖上的每一個節(jié)點為一個特征;用L1-正則化邏輯回歸作為特征選擇工具進行特征空間降維。用降維后的特征向量和特征空間中的子圖作為輸入,利用圖稀疏化邏輯回歸分類器模型為文本分類。本發(fā)明對現(xiàn)有的基于詞袋的文本表示方法進行改善和提高,能夠避免詞袋方法導(dǎo)致的文本結(jié)構(gòu)信息丟失的問題。特征空間上建立的有向無環(huán)圖可以很好地表示出文本的結(jié)構(gòu)信息。同時,L1-正則化邏輯回歸可以很好地選出關(guān)鍵特征,提高學(xué)習(xí)效率。
【專利說明】一種計算機文本情感分類方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計算機文本數(shù)據(jù)處理領(lǐng)域,特別是一種計算機文本情感分類方法。
【背景技術(shù)】
[0002]隨著當(dāng)今世界信息量的急劇增加,以及計算機網(wǎng)絡(luò)技術(shù)迅速普及和發(fā)展,虛擬生活越來越成為人們必不可少的東西。人們在網(wǎng)絡(luò)中發(fā)表大量的觀點,評論。在信息量爆炸的網(wǎng)絡(luò)大數(shù)據(jù)時代,對數(shù)據(jù)的計算機分類多種多樣,不同的分類有不同的作用。情感分類能夠快速的把握人們對一類輿情的導(dǎo)向。因此如何對計算機文本進行情感分類成為重要的技術(shù)問題。比如,人們對某一個電影的影評,對某一部手機的評價等。能夠自動的預(yù)測人們發(fā)表的評論的情感,可以幫助預(yù)測人們對某件事物的看法,進而有利于進一步改進產(chǎn)品等。用計算機自動的為這些評論進行情感分類,成為了當(dāng)下非常熱門的研究課題。文本的情感分類就是根據(jù)文本的內(nèi)容,利用計算機給一個文本安排一個情感(正情感和負情感)。對于一個文本的情感分類任務(wù),首先把每一個文本都映射到一個高維歐幾里得空間,然后使用特征選擇方法或特征抽取方法選出一部分對分類有用的特征。利用機器學(xué)習(xí)里的分類器,從大量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出分類器模型,最后用這個分類器模型對未知情感的文本進行分類。近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,文本情感分類方法取得了一系列重要的進展。而在文本的表示步驟中,基于詞袋的文本表示方法因為其簡單,高效的性質(zhì)而得到了廣泛的應(yīng)用。但是這種表示方法忽略了文本的結(jié)構(gòu)信息,無法表示出文本中詞與詞之間的內(nèi)在結(jié)構(gòu)關(guān)系。比如下面這個例子,他們是來自真實的用戶評論數(shù)據(jù)庫中,是用戶對同一款數(shù)碼相機的評價,并且這四個文本表達了同一個意思“在取景窗中可以看到鏡頭”:
[0003]文本1: lens visible in optical viewfinder.[0004]文本2: lens is visible in the viewfinder.[0005]文本 3:lens barrel in the viewfinder.[0006]文本 4: the lens barrel does obstruct part of the lower left corner inthe lens viewfinder.[0007]通過這四個文本我們可以發(fā)現(xiàn),如果一個句子中有Iens和viewfinder這兩個詞同時出現(xiàn)在一起,這個評論就很有可能是一個負面評論。但是基于詞袋的文本表示方法獨立的看待每一個特征,并不能表示出這兩個詞同時出現(xiàn)在一起這個信息。而基于圖的文本表示方法可以克服這個問題,構(gòu)建三階的有向圖就可以把邊Iens — viewfinder這個重要信息建立出來。這樣,這個有向邊就會幫助學(xué)習(xí)器找出這個隱含的規(guī)律,從而提高文本情感分類的精度。
【發(fā)明內(nèi)容】
[0008]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種計算機文本情感分類方法。[0009]為了解決上述技術(shù)問題,本發(fā)明公開了一種文本情感分類方法,包括以下步驟:
[0010]步驟一,使用詞袋方法處理計算機文本:使用詞袋方法把計算機文本表示為一個由一組特征組成的特征向量,每個計算機文本包括一個類標;
[0011]步驟二,使用圖的方法處理計算機文本:使用有向無環(huán)圖的方法把根據(jù)特征向量得到的整個特征空間表示為一個子圖G,圖上的每一個節(jié)點為一個特征;
[0012]步驟三,使用L1-正則化邏輯回歸作為特征選擇工具進行特征空間降維;
[0013]步驟四,利用圖稀疏化邏輯回歸分類器模型為文本分類。
[0014]本權(quán)利步驟一包括以下步驟:
[0015]對于計算機文本集合Doc中的文本d=Cl,c2, -Cj-, ck,其中Cj為文本d中的第j個詞(英文文本中的單詞,中文文本需要經(jīng)過分詞得到每一個詞),j=l,2,…k,k表示文本d的總詞數(shù),用詞袋的方法把文本d的表示為一個由一組特征組成的特征向量,表示為:(CI1, Q2,…,akk),其中,kk表示文本d去掉停用詞后的總詞數(shù),特征向量中的每一維表示一個特征S,一個特征s對應(yīng)一個詞a。
[0016]本權(quán)利步驟一包括以下步驟:
[0017]根據(jù)詞頻逆向文件頻率(tf ?idf)的計算公式計算特征向量中第i個特征Si在第j個文本中的權(quán)重Wij:
【權(quán)利要求】
1.一種計算機文本情感分類方法,其特征在于,包括以下步驟: 步驟一,使用詞袋方法處理計算機文本:使用詞袋方法把計算機文本表示為一個由一組特征組成的特征向量,每個計算機文本包括一個類標; 步驟二,使用圖的方法處理計算機文本:使用有向無環(huán)圖的方法把根據(jù)特征向量得到的整個特征空間表示為一個子圖G,圖上的每一個節(jié)點為一個特征; 步驟三,使用L1-正則化邏輯回歸作為特征選擇工具進行特征空間降維; 步驟四,利用圖稀疏化邏輯回歸分類器模型為文本分類。
2.根據(jù)權(quán)利要求1中所述的方法,其特征在于,步驟一包括以下步驟: 對于計算機文本集合Doc中的文本Cl=C1, C2, -Cj-, ck,其中Cj為文本d中的第j個詞,j=l, 2,…k,k表示文本d的總詞數(shù),用詞袋的方法把文本d的表示為一個由一組特征組成的特征向量,表示為=U1, Ci2,…,akk),其中,kk表示文本d去掉停用詞后的總詞數(shù),特征向量中的每一維表示一個特征S, —個特征s對應(yīng)一個詞α。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,步驟一包括以下步驟: 根據(jù)詞頻逆向文件頻率的計算公式計算特征向量中第i個特征Si在第j個文本中的權(quán)重Wij:
4.根據(jù)權(quán)利要求1中所述方法,其特征在于,步驟二包括以下步驟: 根據(jù)文本集合Doc中所有文本,抽取全部非重復(fù)特征,做為特征空間; 根據(jù)每一個文本的詞序結(jié)構(gòu),以特征空間中每一個特征為節(jié)點,建立一個有向無環(huán)圖dG。
5.根據(jù)權(quán)利要求4中所述方法,其特征在于,步驟二包括以下步驟: 有向無環(huán)圖中每一條邊的代價Ce采用下面的計算公式進行計算:
6.根據(jù)權(quán)利要求1中所述方法,其特征在于,步驟三包括以下步驟: 根據(jù)L1-正則化邏輯回歸分類器的目標函數(shù)計算學(xué)習(xí)的參數(shù)β:
7.根據(jù)權(quán)利要求6中所述的方法,其特征在于,步驟三包括以下步驟: 學(xué)習(xí)參數(shù)向量β中,它為維度為m的向量,每一個維度對應(yīng)于特征空間中的一個特征,根據(jù)向量β中非零的維度,選擇出對應(yīng)的特征空間中的特征,把未被選中的特征從特征空間中去掉,同時,在每一個文本的向量形式中,去掉未被選中的特征; 假設(shè)被選中的特征共有ms個,去掉未被選中的特征后,將向量形式變?yōu)閄’ j:
X j- (w 1; j ? w 2,j,...W ms, j) ? W' u表示原來的向量形式中對應(yīng)的一個維度的值, 對于特征空間上建立的有向無環(huán)圖,同樣根據(jù)向量β中非零的維度去掉有向無環(huán)圖dG中未被選中的特征和相關(guān)的邊,得到子圖G。
8.根據(jù)權(quán)利要求7中所述的方法,其特征在于,步驟四包括以下步驟: 根據(jù)圖稀疏化邏輯回歸分類器的目標函數(shù):
9.根據(jù)權(quán)利要求8中所述的方法,其特征在于,步驟四包括以下步驟: 對于一個輸入文本d,根據(jù)步驟一轉(zhuǎn)化為向量形式X'后,根據(jù)分類器模型y= ντχ'判斷文本的類別; 如果y>0,則為正類; 如果y〈0,則為負 類。
【文檔編號】G06F17/30GK103473380SQ201310462797
【公開日】2013年12月25日 申請日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】戴新宇, 付強 申請人:南京大學(xué)