一種基于文本特征嵌入的中文短文本情感分類方法
【專利摘要】本發(fā)明公開了一種基于文本特征嵌入的中文短文本情感分類方法,采用文本特征嵌入的方式進行特征提取,首先通過詞嵌入將詞表示為較短長度的向量,一方面降低了特征的維度,另一方面可以較好地描述詞與詞之間的相似關(guān)系;然后根據(jù)不同的詞在文本中所處的位置對詞向量進行加權(quán),從而進行文本特征嵌入,得到較低維度的文本特征,在基礎(chǔ)上進行中文短文本情感分類,從而提高中文短文本情感分類精度。另外,由于網(wǎng)絡(luò)語言變化快,中文短文本的隨意性強,本發(fā)明采用增量學(xué)習(xí)的方式不斷更新詞向量,使其能夠緊跟待訓(xùn)練文本的變化,以提高文本情感分類的精度。
【專利說明】
一種基于文本特征嵌入的中文短文本情感分類方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種針對Twitter文本事件抽取的方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和通訊設(shè)備的普及化、移動化,微博、網(wǎng)絡(luò)社群等便捷 的網(wǎng)絡(luò)應(yīng)用迅速崛起,更多的人在網(wǎng)絡(luò)上獲取信息并對其表明態(tài)度、發(fā)表看法。Internet逐 漸發(fā)展成為信息發(fā)布、獲取和傳遞的主要載體。把握互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)中發(fā)表的觀點、情 感,可準確評價產(chǎn)品、服務(wù)的受歡迎程度,以改善產(chǎn)品、服務(wù)的質(zhì)量;把握事件的發(fā)生發(fā)展過 程中網(wǎng)民的態(tài)度,正確進行輿情監(jiān)控和引導(dǎo);透析不同網(wǎng)民的個人喜好,正確進行信息推 薦。因此對互聯(lián)網(wǎng)文本進行情感分析具有重要的現(xiàn)實意義。由于產(chǎn)品評論和主流社交媒體 (如微博)上面以短文本為主,包含信息較少,并且口語化嚴重,加上中文的變化性強,對短 文本的情感分析存在較大困難,因此研究中文短文本情感分類方法具有重要的理論研究價 值。
[0003] 文本情感分類一般包括文本預(yù)處理、文本特征提取、分類器訓(xùn)練與預(yù)測三個步驟, 其中核心是文本特征提取與分類器的選擇,由于文本情感分類研究中對分類器的選擇已有 較多研究,本發(fā)明著重研究文本特征提取。文本特征提取一般有文本特征選擇和文本特征 嵌入兩種方式,其中特征選擇是最常用的方法,即從高維的基本特征中選擇一些對分類任 務(wù)有利的特征來表示樣本,以增強分類器的區(qū)分性從而提高精度;而特征嵌入采用一定的 數(shù)學(xué)方法將高維的基本特征向量嵌入到一個固定長度的低維特征向量中,以降低特征維 度。對于文本分類,文本基本特征主要是詞,文本特征選擇即選擇對分類任務(wù)有利的詞組成 分類特征,文本特征嵌入即將詞和文本嵌入到固定長度的分布式向量中作為分類特征。由 于中文短文本的開放性、隨意性和口語化,分詞難以取得很好效果,詞義與上下文關(guān)系較 大,在不同的語境下相同的詞可表現(xiàn)出不同的情感,傳統(tǒng)基于向量空間模型和特征選擇的 方法存在特征空間稀疏,無法表示詞與詞之間相似程度等問題,無法很好地對中文短文本 進行情感分類。
【發(fā)明內(nèi)容】
[0004] 針對上述現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種基于文本特征嵌入的中文短文本 情感分類方法,用于解決中文短文本情感分類算法精度有待于進一步提高的問題。
[0005] 本發(fā)明中使用如下的定義和計算公式。
[0006] (1)分布式詞向量。分布式詞向量就是將傳統(tǒng)的通過向量空間模型得來的高維稀 疏詞向量映射到一個低維空間的詞向量,分布式詞向量的相似性代表兩個詞的相似性。即 對于數(shù)據(jù)集的詞表V,對應(yīng)一個映射矩陣CG RmX I vI,其中C( j) G Rm為詞對應(yīng)的詞向量,m為 指定的分布式詞向量長度,詞向量矩陣C往往是作為一組參數(shù),伴隨著語言模型的大量訓(xùn)練 而獲得,本發(fā)明的詞向量是采用W 〇rd2VeC詞向量訓(xùn)練方法,首先在所有Wiki中文數(shù)據(jù)上進 行初始化訓(xùn)練,然后根據(jù)采集的數(shù)據(jù)流進行在線增量訓(xùn)練得到的,是對普適性和領(lǐng)域性的 一個折中。
[0007] (2)基于加權(quán)詞向量的文本特征嵌入。
[0008] 對于一個文本D={wi,W2, . . .wd},其中Wi表示第i個詞,記v(wi)為詞Wi對應(yīng)的分布 式詞向量,v (D)為文本D對應(yīng)的分布式詞向量。通常,一個文本的中心點一般出現(xiàn)在文本的 開頭或者文本的結(jié)尾以作為強調(diào)或總結(jié),因此,文本開頭和結(jié)尾的詞的重要程度應(yīng)該比其 他區(qū)域的詞更高,它們的權(quán)重也應(yīng)該更大?;谶@個判斷,本發(fā)明在得到的詞向量的基礎(chǔ) 上,通過對文本中包含的詞進行加權(quán)得到文本的分布式特征,其中位于開頭或者結(jié)尾的詞 向量權(quán)重較大,其它部分權(quán)重較小。具體地,根據(jù)文本D包含的詞的個數(shù),將文檔分為2部分: 中間部分Di、開頭和結(jié)尾部分D2,即D = {Di,D2},其中| Di | = | D21,文本分布式特征向量的計 算方法為:
[0010] 其中|D |為詞的總個數(shù),C為權(quán)重因子,且滿足0<C<1,表示文本中間部分的詞向 量所占的權(quán)重。
[0011] (3) logistic 分類。
[0012] Logistic函數(shù)是形如"S"型的曲線,其函數(shù)表達式如下:
[0014]可以看出,Logistic函數(shù)有以下的特點:
[0015]①其值域為(0,1 ),函數(shù)連續(xù)且處處可導(dǎo),函數(shù)在正無窮大時趨近1,負無窮大時趨 近于〇;
[0016]②函數(shù)值在y軸附近變化很快,在x = 0時,y = 0.5,并且該點二階導(dǎo)為0。
[0017] Logistic分類的函數(shù)如下:
[0019] 其中0Tx為特征的線性加權(quán)。如果把Logi st i c函數(shù)用作二分類問題,那么可以規(guī) 定:當g(x) >0.5時,為正類,否則為負類。
[0020] 本發(fā)明提出一種基于文本特征嵌入的中文短文本情感分類方法,包括如下步驟: [0021]步驟1)采用Wiki中文所有數(shù)據(jù)進行初始化詞向量訓(xùn)練,從Wiki公開網(wǎng)站下載Wiki 中文所有數(shù)據(jù);
[0022]步驟11)對Wiki中文所有數(shù)據(jù)進行預(yù)處理,由于下載的Wiki中文數(shù)據(jù)格式是xml格 式,首先要對其進行文本內(nèi)容解析,在內(nèi)容解析的基礎(chǔ)上對文本進行分詞和去停用詞的預(yù) 處理;
[0023]步驟12)在預(yù)處理的基礎(chǔ)上,首先采用均勻分布對詞向量進行隨機初始化,然后采 用Word2Vec詞向量訓(xùn)練工具,對在所有數(shù)據(jù)中出現(xiàn)次數(shù)大于3的詞進行詞向量訓(xùn)練;
[0024]步驟2)以Wiki中文訓(xùn)練出的詞向量為初始向量,采用分類相關(guān)數(shù)據(jù)集進行詞向量 優(yōu)化訓(xùn)練;
[0025]步驟21)對訓(xùn)練集文本進行預(yù)處理,將訓(xùn)練集的文本進行分詞,然后去掉停用詞; [0026]步驟22)在預(yù)處理的基礎(chǔ)上,使用Wiki訓(xùn)練出的詞向量作為初始化詞向量,采用 Word2Vec詞向量訓(xùn)練工具,對在訓(xùn)練集中出現(xiàn)次數(shù)大于3的詞進行詞向量訓(xùn)練;
[0027] 步驟3)采用步驟2)訓(xùn)練的詞向量,對每一個分類訓(xùn)練集中的文本,首先檢索出文 本中所包含的每一個詞的分布式詞向量,然后根據(jù)詞在文本中所處位置,根據(jù)公式(1)對詞 向量進行加權(quán),得到文本分布式特征向量;
[0028] 步驟4)以步驟3)得到的文本分布式特征向量為文本特征,采用公式(3)介紹的 logistic分類方法進行分類器訓(xùn)練;
[0029] 步驟5)采集需要進行情感分類的中文短文本。需要分類的文本一般來自于互聯(lián) 網(wǎng),并且數(shù)據(jù)在不斷產(chǎn)生,因此在本步驟主要對目標文本進行采集;
[0030] 步驟6)對采集到的文本進行預(yù)處理。對采集到的文本,首先進行去重處理,然后對 剩下的文本進行分詞并去除停用詞;
[0031] 步驟7)如需要更新詞向量,對新采集到的數(shù)據(jù)為訓(xùn)練集,重復(fù)步驟2)至步驟4)。這 是一個增量學(xué)習(xí)的過程,詞向量的更新可以定期進行也可以在采集到的數(shù)據(jù)量達到一定規(guī) 模是進行。以上一次訓(xùn)練到此次訓(xùn)練之間采集到的數(shù)據(jù)作為數(shù)據(jù)集,重復(fù)2)_4)步驟分別進 行詞向量、分類訓(xùn)練集文本向量和logistic分類器的更新訓(xùn)練;
[0032] 步驟8)采用上一次更新過程中步驟2)訓(xùn)練出的分布式詞向量,對于每一個待分類 的文本,首先檢索出文本中所包含的每一個詞的分布式詞向量,然后根據(jù)詞在文本中所處 位置,根據(jù)公式(1)對詞向量進行加權(quán),得到文本分布式特征向量;
[0033] 步驟9)以步驟8)中得到的文本向量為特征,采用上一次更新過程中步驟4)訓(xùn)練出 的logistic分類器進行文本情感分類。
[0034]本發(fā)明有益效果:
[0035] 1、本發(fā)明采用特征嵌入的方法來進行文本中文短文本特征提取,克服了傳統(tǒng)基于 向量空間模型和特征選擇的文本特征提取方法中高維稀疏和無法表示詞的相似性的問題, 更好地表示文本特征,可以得到更準確的文本描述;
[0036] 2、本發(fā)明采用首先以內(nèi)容全面的Wiki中文數(shù)據(jù)進行詞向量初始化訓(xùn)練,再使用領(lǐng) 域相關(guān)文本進行詞向量優(yōu)化訓(xùn)練的詞向量增量訓(xùn)練方法。不但滿足了普適性和領(lǐng)域性的折 中,而且能夠更好地適應(yīng)網(wǎng)絡(luò)語言的變化,可以得到更持續(xù)的情感分類結(jié)果;
[0037] 3、本發(fā)明根據(jù)不同詞在文本中的位置對詞向量進行加權(quán),使得能夠代表文本的詞 具有更大的權(quán)重,從而更好地描述文本,經(jīng)過分類器分類后,確實提高了中文短文本情感分 類的精度。
【附圖說明】
[0038] 圖1為文本情感分類方法的一般過程。
[0039] 圖2為本發(fā)明基于文本特征嵌入的中文短文本情感分類方法的基本過程。
[0040] 圖3為基于Wiki中文數(shù)據(jù)和領(lǐng)域知識的分布式詞向量訓(xùn)練過程。
[0041 ]圖4為分類器訓(xùn)練的過程。
[0042]圖5為分布式詞向量增量優(yōu)化學(xué)習(xí)的過程。
[0043]圖6為對待分類文本進行情感分類的具體過程。
【具體實施方式】
[0044] 下面通過具體實施例對本發(fā)明作進一步的說明。
[0045] 圖1是文本情感分類方法的一般流程,即首先對訓(xùn)練集和待分類文本分別進行預(yù) 處理和文本特征提取,得到每一個文本的特征,然后用訓(xùn)練集文本訓(xùn)練分類器,最后利用訓(xùn) 練好的分類器,根據(jù)待分類文本的特征,對待分類文本進行情感分類。圖2是本發(fā)明基于文 本特征嵌入的中文短文本情感分類方法的基本過程,通過圖1和圖2的對比可以發(fā)現(xiàn),本發(fā) 明提出的方法主要從三個方面進行了改進和設(shè)計,一方面是在文本特征提取上本發(fā)明采用 特征嵌入的方式進行文本特征提取;二是本發(fā)明展現(xiàn)了一個在線的訓(xùn)練和分類過程,即新 的數(shù)據(jù)源源不斷地輸入系統(tǒng),要進行情感分類;三是本發(fā)明的文本嵌入特征過程采用的詞 向量是一個在線增量訓(xùn)練的過程,隨著采集數(shù)量的增多,詞向量會不斷進行增量優(yōu)化,進一 步調(diào)整分類器的訓(xùn)練,對方法的適應(yīng)性具有更好的作用。
[0046] 對于本發(fā)明的【具體實施方式】,現(xiàn)假設(shè)有如下實例:存在兩個靜態(tài)數(shù)據(jù)集和一個動 態(tài)數(shù)據(jù)集。靜態(tài)數(shù)據(jù)集包括Wiki中文所有數(shù)據(jù),用于訓(xùn)練基礎(chǔ)詞向量和從待分類文本中隨 機挑選的帶有情感標記的訓(xùn)練集,用于第一次詞向量優(yōu)化訓(xùn)練和分類器訓(xùn)練,動態(tài)數(shù)據(jù)集 為源源不斷采集到的待分類文本,用于后續(xù)詞向量增量優(yōu)化訓(xùn)練和對他們進行情感分類。 具體步驟為:
[0047] 步驟1):離線詞向量訓(xùn)練,流程圖如圖3。采用兩個靜態(tài)數(shù)據(jù)集進行離線的詞向量 基礎(chǔ)訓(xùn)練和首次優(yōu)化訓(xùn)練。本發(fā)明采用的詞向量首先經(jīng)過Wiki中文所有數(shù)據(jù)進行基礎(chǔ)性訓(xùn) 練,使詞向量具有一定的普適性,然后以此為初始參數(shù),采用領(lǐng)域相關(guān)的訓(xùn)練集進行詞向量 優(yōu)化訓(xùn)練,使得詞向量不僅滿足普適性,而且也滿足領(lǐng)域性的要求。
[0048]步驟11)對Wiki中文所有數(shù)據(jù)進行預(yù)處理,由于下載的Wiki中文數(shù)據(jù)格式是xml格 式,首先要對其進行文本內(nèi)容解析,在內(nèi)容解析的基礎(chǔ)上對文本進行分詞和去停用詞的預(yù) 處理;
[0049] 步驟12)在預(yù)處理的基礎(chǔ)上,首先采用均勻分布對詞向量進行隨機初始化,然后采 用Word2Vec詞向量訓(xùn)練工具,對在所有數(shù)據(jù)中出現(xiàn)次數(shù)大于3的詞進行詞向量訓(xùn)練;
[0050] 步驟13)對訓(xùn)練集文本進行預(yù)處理,將訓(xùn)練集的文本進行分詞,然后去掉停用詞; [00511步驟14)在預(yù)處理的基礎(chǔ)上,使用Wiki訓(xùn)練出的詞向量作為初始化詞向量,采用 Word2Vec詞向量訓(xùn)練工具,對在訓(xùn)練集中出現(xiàn)次數(shù)大于3的詞進行詞向量訓(xùn)練;
[0052]步驟15)將優(yōu)化訓(xùn)練后的詞向量保存;
[0053]步驟2)分類器訓(xùn)練,流程如圖4。采用離線訓(xùn)練好的詞向量和帶有情感標記的訓(xùn)練 集,進行分類其訓(xùn)練。
[0054]步驟21)對訓(xùn)練集文本進行預(yù)處理,包括分詞、去停用詞等操作;
[0055] 步驟22)確定文本中詞的位置,將文本中的詞劃分到相應(yīng)的集合中;
[0056] 步驟23)讀取文本中詞的詞向量;
[0057]步驟24)計算訓(xùn)練集中每一個文本的嵌入式特征;
[0058]步驟25)根據(jù)訓(xùn)練集文本的嵌入式特征進行分類器訓(xùn)練;
[0059]步驟26)保存訓(xùn)練好的分類器參數(shù);
[0060] 步驟1)和步驟2)為離線過程,在之后為在線過程,在線過程主要包括在線增量訓(xùn) 練過程和在線分類過程。
[0061] 步驟3)在線訓(xùn)練過程,包括詞向量增量優(yōu)化和分類器更新。在線訓(xùn)練過程是當動 態(tài)數(shù)據(jù)量或者時間達到一定條件進行的。
[0062] 步驟31)詞向量增量優(yōu)化,如圖5所示,根據(jù)新采集的數(shù)據(jù)對詞向量增量訓(xùn)練達到 優(yōu)化目的;
[0063] 步驟311)對新的詞向量增量訓(xùn)練數(shù)據(jù)集進行預(yù)處理,包括去重、分詞、去停用詞 等;
[0064]步驟312)讀取上一次保存的詞向量;
[0065]步驟313)將上一次的詞向量作為初始參數(shù),采用新的增量訓(xùn)練數(shù)據(jù)集訓(xùn)練新的詞 向量;
[0066]步驟314)保存新的詞向量;
[0067] 步驟32)分類器更新,步驟與步驟2)相同。
[0068] 步驟4)在線文本情感分類,流程圖如圖6,即對源源不斷采集到的數(shù)據(jù)進行文本情 感分類。
[0069]步驟41)對待分類文本進行預(yù)處理,包括分詞、去停用詞等操作;
[0070] 步驟42)確定文本中詞的位置,將文本中的詞劃分到相應(yīng)的集合中;
[0071] 步驟43)讀取文本中詞的詞向量;
[0072]步驟44)計算每一個待分類文本的嵌入式特征;
[0073]步驟45)根據(jù)待分類文本的嵌入式特征對其進行情感分類。
[0074]本文中應(yīng)用了具體實施例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的 說明只是用于幫助理解本發(fā)明的方法及其核心思想。以上所述僅是本發(fā)明的優(yōu)選實施方 式,應(yīng)當指出,由于文字表達的有限性,而客觀上存在無限的具體結(jié)構(gòu),對于本技術(shù)領(lǐng)域的 普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進、潤飾或變化,也 可以將上述技術(shù)特征以適當?shù)姆绞竭M行組合;這些改進潤飾、變化或組合,或未經(jīng)改進將發(fā) 明的構(gòu)思和技術(shù)方案直接應(yīng)用于其它場合的,均應(yīng)視為本發(fā)明的保護范圍。
【主權(quán)項】
1. 一種基于文本特征嵌入的中文短文本情感分類方法,其特征在于,包含如下步驟: 步驟1)采用Wiki中文所有數(shù)據(jù)進行初始化詞向量訓(xùn)練; 步驟2)以Wiki中文訓(xùn)練出的詞向量為初始向量,采用分類相關(guān)數(shù)據(jù)集進行詞向量優(yōu)化 訓(xùn)練; 步驟3)采用步驟2)訓(xùn)練出的詞向量,對分類訓(xùn)練集中文本進行特征嵌入; 步驟4)以步驟3)得到的文本分布式特征向量為文本特征,采用logistic分類進行分類 器訓(xùn)練; 步驟5)采集需要進行情感分類的中文短文本; 步驟6)對采集到的數(shù)據(jù)進行預(yù)處理,首先進行去重處理,然后對剩下的文本進行分詞 并去除停用詞; 步驟7)如需要更新詞向量,以新采集到的數(shù)據(jù)為訓(xùn)練集,重復(fù)步驟2)至步驟4),分別進 行詞向量、分類訓(xùn)練集文本向量和logistic分類器的更新訓(xùn)練; 步驟8)采用上一次更新過程中步驟2)訓(xùn)練出的分布式詞向量,對待分類文本進行特征 嵌入; 步驟9)以步驟8)中得到的文本向量為特征,采用上一次更新過程中步驟4)訓(xùn)練出的 logistic分類器進行文本情感分類。2. 如權(quán)利要求1所述的一種基于文本特征嵌入的中文短文本情感分類方法,其特征在 于:步驟1)具體包括如下步驟: 步驟11)對Wiki中文所有數(shù)據(jù)進行預(yù)處理,首先要對其進行文本內(nèi)容解析,在內(nèi)容解析 的基礎(chǔ)上對文本進行分詞和去停用詞的預(yù)處理; 步驟12)用預(yù)處理后的Wiki中文數(shù)據(jù),訓(xùn)練初始化詞向量。3. 如權(quán)利要求1所述的一種基于文本特征嵌入的中文短文本情感分類方法,其特征在 于:步驟2)具體包括如下步驟: 步驟21)對訓(xùn)練集文本進行預(yù)處理,將訓(xùn)練集的文本進行分詞,然后去掉停用詞; 步驟22)用預(yù)處理后的訓(xùn)練集文本,在Wiki訓(xùn)練出的初始化詞向量基礎(chǔ)上進行詞向量 優(yōu)化訓(xùn)練。4. 如權(quán)利要求1所述的一種基于文本特征嵌入的中文短文本情感分類方法,其特征在 于:所述詞向量訓(xùn)練采用Word2Vec詞向量訓(xùn)練工具。5. 如權(quán)利要求1 一4任一所述的一種基于文本特征嵌入的中文短文本情感分類方法,其 特征在于:本方法中基于詞向量的文本特征嵌入方法包括:根據(jù)文本中詞的位置不同將其 分為重要詞和普通詞兩個集合,給予不同的權(quán)重,然后讀取訓(xùn)練好的詞向量,根據(jù)詞所在集 合進行詞向量加權(quán),得到文本特征向量。6. 如權(quán)利要求5所述的一種基于文本特征嵌入的中文短文本情感分類方法,其特征在 于:對于一個文本D= {wi,W2, . . .Wd},其中Wi表示第i個詞,記v(Wi)為詞Wi對應(yīng)的分布式詞向 量,v (D)為文本D對應(yīng)的分布式詞向量,根據(jù)文本D包含的詞的個數(shù),將文檔分為2部分:中間 部分Di、開頭和結(jié)尾部分D2,即D = {Di,D2},其中| Di | = | D21,文本分布式特征向量的計算方 法為:其中Id|為詞的總個數(shù),c為權(quán)重因子,且滿足o<c<i,表示文本中間部分的詞向量所 占的權(quán)重。
【文檔編號】G06F17/30GK106055673SQ201610392495
【公開日】2016年10月26日
【申請日】2016年6月6日
【發(fā)明人】張勝, 李沛, 程佳軍, 丁兆云, 張鑫, 王暉, 沈大勇, 陳科第, 葉棟, 喬鳳才
【申請人】中國人民解放軍國防科學(xué)技術(shù)大學(xué)