本發(fā)明屬于文本分類與深度學(xué)習(xí)領(lǐng)域,涉及一種基于積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法,可用于針對微博,短信息,用戶query等海量短文本數(shù)據(jù)的分類或者情感分類等任務(wù)。且能夠?yàn)樗阉饕?、信息檢索等系統(tǒng)服務(wù)使用。
背景技術(shù):
隨著近年來互聯(lián)網(wǎng)的飛速發(fā)展,各種信息交互平臺(tái)會(huì)產(chǎn)生大量的短文本(shorttext),這些短文本涉及到人們生活的各個(gè)領(lǐng)域,逐漸成為人們使用頻繁且公認(rèn)的溝通方式。比如電子商務(wù)評論、網(wǎng)頁信息檢索、智能問答系統(tǒng)等均是海量短文本的產(chǎn)生源。如何從海量短文本中挖掘有效信息,是近年來諸多學(xué)者廣泛研究的課題。文本分類是一種文本挖掘的有效方法,但由于短文本長度短、詞項(xiàng)特征稀疏等特點(diǎn),致使傳統(tǒng)的長文本分類方法變得不再適用。短文本分類技術(shù)(shorttextclassification)在一定程度上可以解決上述短文本應(yīng)用中面臨的挑戰(zhàn),該技術(shù)是近年來國內(nèi)外眾多學(xué)者的研究熱點(diǎn)之一,也是自然語言處理(nlp)領(lǐng)域中一項(xiàng)至關(guān)重要的任務(wù)?,F(xiàn)如今,文本分類方法主要是基于統(tǒng)計(jì)學(xué)習(xí)方法或者機(jī)器學(xué)習(xí)的方法,采用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法在經(jīng)過人工標(biāo)注的語料庫上進(jìn)行訓(xùn)練得到分類器,隨后對待分類數(shù)據(jù)集進(jìn)行分類。其中比較主流的機(jī)器學(xué)習(xí)方法有樸素貝葉斯(naivebayes,nb)、支持向量機(jī)(supportvectormachine,svm)、邏輯回歸(logisticregression,lr)多類邏輯回歸(softmaxregression,sr)、隨機(jī)森林(randomforest,rf)、深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)等。在文本分類領(lǐng)域中取得較成功的長文本分類方法難以直接應(yīng)用到短文本分類中,因此,針對短文本的分類算法已經(jīng)成為目前研究者亟待解決的一個(gè)研究難題,短文本分類面臨的挑戰(zhàn)主要為:
1)短文本關(guān)鍵詞特征稀疏,與一般詞項(xiàng)豐富的長文本相比,短文本往往僅有幾個(gè)有效關(guān)鍵字,且使用向量空間模型表示文本時(shí),難以充分挖掘特征之間的關(guān)聯(lián)性;
2)在開放領(lǐng)域(比如微博,搜索引擎)中,信息更新快,單篇短文本信息量小,但總體文本信息量極大,信息之間的交叉部分少;
3)新詞、新用語、口語化的大量出現(xiàn),這些詞語對于己有分類系統(tǒng)來說通常是很難難處理的。
國內(nèi)外學(xué)者已經(jīng)針對短文本分類問題進(jìn)行了一些有意義的研究與探索,第一類是基于短文本特征擴(kuò)展的方法:bouaziz等人利用潛在狄利克雷分配(latentdirichletallocation,lda)模型學(xué)習(xí)維基百科數(shù)據(jù)上的主題及詞語在主題上的分布,然后用同主題下的高頻詞語來擴(kuò)展短文本,再使用隨機(jī)語義森林對擴(kuò)展詞語進(jìn)行特征選擇,然后進(jìn)行分類;還有一些學(xué)者通過關(guān)聯(lián)規(guī)則挖掘(fp-growth)得到詞語共現(xiàn)模式集合,將其作為文本特征擴(kuò)展的依據(jù),而詞語關(guān)系置信度作為持征擴(kuò)展時(shí)的權(quán)重來完成短文本的特征擴(kuò)展與分類;xhphan等人通過抓取互聯(lián)網(wǎng)海量數(shù)據(jù)來構(gòu)建全局語料庫,之后使用lda主題模型的方法得到全局語料庫的主題模型,最后使用全局的lda主題模型對待分類的短文本語料庫進(jìn)行主題推斷(modelestimation),得到待分類短文本的主題分布,使用該主題分布對短文本進(jìn)行特征擴(kuò)展,最后進(jìn)行分類。第一類方法在做短文本擴(kuò)展特征時(shí)會(huì)不可避免的引入噪音,造成分類效果差。
第二類是基于深度學(xué)習(xí)的方法:socher等人采用遞歸神經(jīng)網(wǎng)絡(luò)模型(recursiveneuralnetwork,rnn),用于句子級別的情感分析任務(wù),在sst等多個(gè)數(shù)據(jù)集的分類任務(wù)中均取得了一定的效果提升;kalchbrenner等人[8]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)來處理語句級別的短文本分類任務(wù),并提出動(dòng)態(tài)卷積網(wǎng)絡(luò)模型(dynimicconvolutionalneuralnetwork,dcnn),該模型在多個(gè)數(shù)據(jù)集上都取得很好的效果,進(jìn)一步驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在短文本分類研究中的潛力?;谏窠?jīng)網(wǎng)絡(luò)方法的輸入通常采用隨機(jī)初始化或者使用預(yù)訓(xùn)練詞向量。通常詞向量的訓(xùn)練方式多種多樣,語料、模型、預(yù)處理不同會(huì)產(chǎn)生不同含義的詞向量,不同的詞向量從不同的方面(角度)來刻畫詞語語義。由于短文本特征稀疏,為了充分提取特征,可以考慮利用結(jié)合多種詞向量來充分提取特征,提高卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力;此外softmax做為卷積網(wǎng)絡(luò)分類器時(shí),一般采用bp算法進(jìn)行訓(xùn)練,該過程只考慮極小化訓(xùn)練誤差,由于局部極小值以及梯度消失、過擬合等現(xiàn)象的存在難以使神經(jīng)網(wǎng)絡(luò)達(dá)到最佳的泛化能力。隨機(jī)森林是一種基于boostrapaggregation(bagging)的集成學(xué)習(xí)方法,通過組合多棵決策樹使得模型對異常值和噪聲具有很強(qiáng)的容忍性與魯棒性,能克服單個(gè)決策樹泛化能力不足的問題。隨機(jī)森林有許多優(yōu)點(diǎn),比如:
1)需要較少的參數(shù)調(diào)整,訓(xùn)練速度快;
2)訓(xùn)練過程中基本不會(huì)產(chǎn)生過擬合問題;
3)對噪音擾動(dòng)的魯棒性高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提出了一種結(jié)合雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類算法(cnn-rf),雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)使用兩種預(yù)訓(xùn)練詞向量作為輸入,可充分提取短文本特征,克服短文本特征稀疏的不足;之后采用隨機(jī)森林進(jìn)行分類,增強(qiáng)模型的泛化能力。cnn-rf模型的訓(xùn)練分為兩個(gè)階段:1)預(yù)訓(xùn)練階段:使用softmax作為分類器的雙重詞向量卷積網(wǎng)絡(luò)訓(xùn)練,保存模型參數(shù);2)分類器訓(xùn)練階段:保持預(yù)訓(xùn)練階段模型參數(shù)不變,將全連接層接入隨機(jī)森林,使用高階特征訓(xùn)練隨機(jī)森林,保存參數(shù)。實(shí)驗(yàn)過程中發(fā)現(xiàn),僅需要很少的epoch來進(jìn)行預(yù)訓(xùn)練,便能使分類器訓(xùn)練階段的模型收斂,且能達(dá)到較好的分類效果。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的計(jì)數(shù)方案為一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法,該方法包括以下步驟:
步驟1:對待分類語料庫中所有中文文本進(jìn)行分詞,分別使用word2vec和glove詞向量訓(xùn)練工具得到語料庫的兩組詞向量,將文本表示為兩個(gè)維度相等的矩陣;分別對兩個(gè)矩陣進(jìn)行二維卷積操作,得到兩個(gè)卷基層特征圖。
步驟2:卷積操作之后,分別對兩個(gè)卷基層特征圖進(jìn)行池化操作,得到兩個(gè)池化層特征矩陣;對該池化層特征矩陣進(jìn)行非線性sigmod變換,得到兩個(gè)池化層特征圖。
步驟3:對步驟2的得到的兩個(gè)池化層特征圖進(jìn)行卷積操作,得到最終的單個(gè)全連接層特征圖。
步驟4:將步驟3得到的全連接特征圖作為隨機(jī)森林層的輸入數(shù)據(jù)集,對該集合進(jìn)行boostrap采樣,bootstrap采樣是一種統(tǒng)計(jì)學(xué)上的抽樣方法,對于有m個(gè)樣本的數(shù)據(jù)集d,進(jìn)行m次有放回采樣得到新數(shù)據(jù)集d′,明顯d與d′大小相同,而且放回采樣使得d′中有重復(fù)出現(xiàn)的樣本,也有樣本沒有出現(xiàn)。
步驟5:對多個(gè)boostrap樣本集分別使用gini系數(shù)法建立分類與回歸樹cart,gini系數(shù)用于特征選擇,用該特征將特征空間進(jìn)行劃分,劃分之后從特征集合中去除此特征,對左右子樹分別遞歸執(zhí)行特征選取與特征劃分操作直到滿足停止條件。此外為防止決策樹過擬合現(xiàn)象的發(fā)生,本方法采用預(yù)剪枝操作。將多個(gè)決策樹組合起來,共同為樣本的類別進(jìn)行決策,通常采用投票法。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果。
采用隨機(jī)森林(randomforest)來取代卷積神經(jīng)網(wǎng)絡(luò)的全連接softmax層,增強(qiáng)了整體分類方法得魯棒性,減小了模型的過擬合,增強(qiáng)了模型泛化能力;采用雙重詞向量卷積神經(jīng)網(wǎng)絡(luò),可以提取更為豐富的特征;不依賴于復(fù)雜的句法分析樹,只需要通過卷積與最大值池化(maxpoolingovertime)進(jìn)行特征提取,將得到的高層抽象結(jié)構(gòu)特征送入隨機(jī)森林層進(jìn)行分類,從偏差-方差(bias-variance)角度來看,集成多個(gè)模型會(huì)降低分類模型的方差,提高模型的穩(wěn)定性。本方法也無需復(fù)雜的特征擴(kuò)展過程,特征擴(kuò)展算法通常會(huì)引入噪音,且費(fèi)時(shí)費(fèi)力,該方法充分利用短文本自身信息,較之于傳統(tǒng)的單通道詞向量輸入卷積網(wǎng)絡(luò),充分的緩解了短文本數(shù)據(jù)的稀疏性,可以充分提取特征。max-pooling-over-time操作也解決了可變長度的短文本輸入問題,可見基于雙重預(yù)訓(xùn)練詞向量卷積網(wǎng)絡(luò)也可有效的提高短文本分類的準(zhǔn)確度。實(shí)驗(yàn)過程中發(fā)現(xiàn),僅需要很少的epoch來進(jìn)行預(yù)訓(xùn)練,便能使本方法達(dá)到很好的效果。
附圖說明
圖1為預(yù)訓(xùn)練詞向量生成模型,skip-gram模型示意圖
圖2為卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林相結(jié)合的分類模型
圖3為在三個(gè)數(shù)據(jù)集上分別與nbcartrfcnn在精確率(acc)上的對比
圖4為在fudan數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比
圖5為在mr數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比
圖6為在weibo數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比
圖7.1rf算法在fudan數(shù)據(jù)集上隨著決策樹的變化三個(gè)評價(jià)指標(biāo)的變化
圖7.2本方法在fudan數(shù)據(jù)集上隨著決策樹的變化三個(gè)評價(jià)指標(biāo)的變化
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和特點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例子,并參照附圖,對本發(fā)明進(jìn)行進(jìn)一步的細(xì)化說明。
本發(fā)明采用隨機(jī)森林(randomforest)來取代卷積神經(jīng)網(wǎng)絡(luò)的全連接softmax層,增強(qiáng)了整體分類方法得魯棒性,防止模型過擬合,增強(qiáng)了模型泛華能力;進(jìn)一步采用雙重詞向量卷積神經(jīng)網(wǎng)絡(luò),適用于提取更豐富的高階特征。本發(fā)明具體的的改進(jìn)可以歸納為以下幾個(gè)方面:1)使用兩組預(yù)訓(xùn)練詞向量代替隨機(jī)初始化的詞向量,該方法相對于以往方法或者詞袋模型,會(huì)減小特征維度,提取充分特征;2)隨機(jī)初始化詞向量還需對詞向量矩陣進(jìn)行參數(shù)更新,本方法則無需這種操作,提高了模型的效率;3)無需特征擴(kuò)展,或者引入句法分析樹等復(fù)雜操作,避免為模型后續(xù)的特征提取與分類引入噪音;4)首先類似于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),使用卷積-池化-softmax層來提取特征,經(jīng)過一定的epoch之后,全連接層的輸出特征變?yōu)楦唠A結(jié)構(gòu)特征;5)使用隨機(jī)森林代替softmax來做分類,隨機(jī)森林可以有效提高模型的泛化能力,防止模型的過擬合,增強(qiáng)分類效果。實(shí)驗(yàn)證明,本發(fā)明所提出的方法在三個(gè)公開實(shí)驗(yàn)數(shù)據(jù)集(fudan,weibo,mr)上的結(jié)果表明,與其他方法相比cnn-rf在多個(gè)評價(jià)指標(biāo)上均有明顯優(yōu)勢。
圖1為本發(fā)明采用的word2vec詞向量模型中的skip-gram,圖2為基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法采用的結(jié)構(gòu),對兩組預(yù)訓(xùn)練詞向量,首先將語料庫中的短文本分別構(gòu)造為兩個(gè)詞向量矩陣,進(jìn)行2維卷積運(yùn)算與max-pooling-over-time運(yùn)算,然后使用卷積操作結(jié)合兩個(gè)通道的特征,進(jìn)行預(yù)訓(xùn)練,最后使用隨機(jī)森林構(gòu)建分類模型,具體的實(shí)施過程分為以預(yù)訓(xùn)練階段與分類器訓(xùn)練階段:
一:預(yù)訓(xùn)練階段
步驟1:得到兩組詞向量后,對于語料庫d,用x表示一篇文本,則
這里
步驟2:分別對兩個(gè)輸入層進(jìn)行卷積操作,使用
ci=f(w·xi:i+h-1+b)
其中h即為過濾器在詞語窗口上的尺寸,
cconv=[cconv,1,cconv,2,…,cconv,n-h+1]
為充分提取特征,訓(xùn)練過程中設(shè)置不同跨度的過濾器m個(gè),用{w1,w2,…wm}表示,每種過濾器分別設(shè)置
步驟3:步驟2將會(huì)產(chǎn)生m×s個(gè)池化層特征,將其拼接起來便得到池化層特征
步驟4:對兩個(gè)池化層特征進(jìn)行卷積操作,得到最終的全連接層特征cfinal,cfinal,i代表cfinal的分量:
步驟5:全連接層特征之后接入softmax分類器,整個(gè)預(yù)訓(xùn)練階段的模型使用adam批量梯度下降(mini-batchgradientdescent)算法訓(xùn)練即可,用bp算法對各層參數(shù)調(diào)整,待收斂后記錄下整個(gè)cnn的參數(shù)θ。訓(xùn)練時(shí)采用dropout與l2正則防止過擬合。
二:分類器訓(xùn)練階段
步驟6:讀取步驟5中的參數(shù)θ,采用隨機(jī)森林模型替換softmax模型,將全連接層特征cfinal送入隨機(jī)森林進(jìn)行訓(xùn)練。首先設(shè)置森林中決策樹n的大小,進(jìn)行bootstrap抽樣得到n個(gè)數(shù)據(jù)集,接下來學(xué)習(xí)n顆樹中每顆樹的參數(shù)θn,由于森林中各個(gè)樹之間的訓(xùn)練過程相互沒有影響,因此試驗(yàn)中采用并行訓(xùn)練的方式來加快速度。
步驟7:單個(gè)決策樹訓(xùn)練完成后,最后以投票的方法得到cnn-rf模型的輸出:
ti(x)是樹i對樣本x的分類結(jié)果,即投票法,c*即為樣本對應(yīng)最終類別,n為隨機(jī)森林中決策樹的數(shù)目。由于隨機(jī)森林的全連接層特征cfinal通常維度不大,一般數(shù)據(jù)集種均有m×s<103,所以建立隨機(jī)森林的開銷非常小。
本方法結(jié)合了cnn的特征提取能力與隨機(jī)森林的泛化能力,泛化能力可以從以下三個(gè)方面分析:1)從統(tǒng)計(jì)角度來看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等水準(zhǔn)的性能,此時(shí)若使用單一決策樹可能因?yàn)檎`選而導(dǎo)致泛化能力不佳;2)從特征提取角度分析,雙重詞向量分別從兩個(gè)角度刻畫詞語的含義,豐富了短文本信息,相對于單一詞向量來說擴(kuò)充了特征信息;3)從表示方面來看,某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前決策樹算法所處的假設(shè)空間之內(nèi),此時(shí)若使用單一分類方法,會(huì)導(dǎo)致搜索不到既定的假設(shè)空間,并且隨機(jī)森林采用bootstrap抽樣,可以降低機(jī)器學(xué)習(xí)模型對數(shù)據(jù)的依賴能力,降低模型的的方差,使得模型擁有更好的泛化能力。
實(shí)驗(yàn)設(shè)備與所需環(huán)境
win732位操作系統(tǒng),intelxeone5處理器,cpu主頻3.30ghz,內(nèi)存16g。實(shí)驗(yàn)代碼采用python,深度學(xué)習(xí)環(huán)境為tensorflow結(jié)合scikitlearn框架。
實(shí)驗(yàn)結(jié)果與說明
本方法分別在fudan中文數(shù)據(jù)集、nlpir提供的weibo數(shù)據(jù)集和mr評論情感分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。fudan中文數(shù)據(jù)集中包含訓(xùn)練語料9804篇文檔,測試語料共9833篇文檔,共計(jì)20個(gè)類別,本發(fā)明使用fudan中文數(shù)據(jù)集中的新聞標(biāo)題作為短文本分類語料,且只選取了其中的5個(gè)類別分別為c3-art、c32-agriculture、c34-economy、c7-history、c38-politics,共計(jì)7120篇標(biāo)題文檔;weibo數(shù)據(jù)集中共計(jì)21個(gè)類別,本發(fā)明使用除“人文藝術(shù)”、“廣告公共”、“校園”之外的所有類別,共計(jì)18個(gè)類別36412篇微博文本。對于沒有劃分訓(xùn)練集與測試集的weibo與mr數(shù)據(jù)集在實(shí)驗(yàn)中進(jìn)行了10折交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果有較強(qiáng)的說服力。
預(yù)處理及參數(shù)設(shè)置
實(shí)驗(yàn)中,采用兩組詞向量,第一組由word2vec中的skip-gram訓(xùn)練得到,第二組由glove模型得到,訓(xùn)練詞向量的語料均采用各數(shù)據(jù)集自身訓(xùn)練得到,只對于復(fù)旦數(shù)據(jù)集,采用新聞內(nèi)容和新聞標(biāo)題共同作為詞向量的訓(xùn)練語料。預(yù)處理過程中對中文采用hanlp進(jìn)行分詞,去除停用詞操作。兩組詞向量的維度都設(shè)置為100,卷積神經(jīng)網(wǎng)絡(luò)中過濾器尺寸分別為2,3,4,每種過濾器均設(shè)置100個(gè),dropout參數(shù)設(shè)置為0.5,l2正則參數(shù)為0.001。由于預(yù)處理方式和詞向量語料與方法選擇的差異,導(dǎo)致不同作者的實(shí)驗(yàn)結(jié)果在相同數(shù)據(jù)集上存在一定偏差。本文為了驗(yàn)證cnn-rf的分類性能,需要在相同預(yù)處理機(jī)制上,自行實(shí)現(xiàn)多種分類模型與本文的分類方法進(jìn)行分類性能的比較實(shí)驗(yàn)。
實(shí)驗(yàn)設(shè)置與評價(jià)指標(biāo)
本發(fā)明分別與樸素貝葉斯(nb)、分類與回歸樹(cart)、隨機(jī)森林(rf)和kim提出的cnn網(wǎng)絡(luò)四種算法進(jìn)行對比。其中nb、cart、rf中用做分類的特征向量均為其文本對應(yīng)的詞向量相加的形式。試驗(yàn)采取了精確率(accuracy)、準(zhǔn)確率(precision)、召回率(recall)、f1值(f1-measure)作為評價(jià)標(biāo)準(zhǔn),計(jì)算如下:
1)精確率(accuracy):
2)準(zhǔn)確率(precision):
3)召回率(recall):
4)f1值(f1-measure):
其中tp表示正樣本預(yù)測為正樣本數(shù)目,tn表示負(fù)樣本預(yù)測為負(fù)樣本數(shù)量,fn表示正樣本預(yù)測為負(fù)樣本的數(shù)量,fp表示負(fù)數(shù)據(jù)預(yù)測為正樣本的數(shù)量,n表示樣本總數(shù)。之后實(shí)驗(yàn)分析了隨著決策樹個(gè)數(shù)的增加對rf與cnn-rf方法的影響,最后對比了cnn-rf方法與cnn算法的收斂速度分析對比。
實(shí)驗(yàn)結(jié)果分析
首先,對五種算法在3個(gè)數(shù)據(jù)集上進(jìn)行精確率對比分析。由圖3可見,本發(fā)明所提出的cnn-rf方法在3個(gè)數(shù)據(jù)集上精確率均為最高的,在fudan數(shù)據(jù)集上相對于cnn提升了1.7%,在weibo數(shù)據(jù)集上相對于cnn提升了1.6%,在mr數(shù)據(jù)集上提升了0.8%?;谏疃葘W(xué)習(xí)的cnn方法得到的結(jié)果僅次于cnn-rf,且好于其他三種方法,nb、cart的精確率均低于集成學(xué)習(xí)方法rf,從實(shí)驗(yàn)結(jié)果分析可得,集成學(xué)習(xí)方法組合多個(gè)模型泛化能力較單模型有所提升,但弱于深度學(xué)習(xí)cnn方法。cnn通過提取抽象結(jié)構(gòu)特征,所以會(huì)得到較優(yōu)的精確率。cnn-rf結(jié)合了兩者優(yōu)勢,所以取得較好結(jié)果。
五種算法在fudan中文數(shù)據(jù)集上的結(jié)果如圖4所示。由實(shí)驗(yàn)數(shù)據(jù)可見rf算法在準(zhǔn)確率,召回率,f1值三個(gè)指標(biāo)均超過cart與nb算法,可見基于集成學(xué)習(xí)的方法的確增加了對噪音的擾動(dòng)能力,增強(qiáng)了分類器的泛化能力。且在準(zhǔn)確率方面,rf算法比cnn高1.0%,但是在召回率上,cnn比rf算法高出6.1%,因此綜合起來,在f1值上,cnn超過rf了2.5%,并且cnn在幾種方法中達(dá)到了最優(yōu)的召回率92.8%,比cnn-rf算法高出0.6%。除了在召回率不足cnn之外,cnn-rf算法進(jìn)一步增強(qiáng)了模型泛化能力,準(zhǔn)確率較之cnn提高了4.1%,f1值提高了1.9%,cnn-rf算法在精確率與f1值上取得了最優(yōu)的結(jié)果。
五種算法在mr數(shù)據(jù)集上的結(jié)果如圖5所示,mr數(shù)據(jù)集為二分類情感數(shù)據(jù)集。cnn-rf在三個(gè)評價(jià)指標(biāo)上均是最高的,在f1測度上比cnn高出1.2%左右,比rf高出4.4%,且不同與其他兩個(gè)數(shù)據(jù)集,cnn-rf在mr數(shù)據(jù)集上準(zhǔn)確率、召回率、f1值均超過cnn,分別超過了1.5%,1.1%與1.3%。
五種算法在weibo數(shù)據(jù)集上的結(jié)果如圖6所示,由數(shù)據(jù)可見,rf的召回率仍表現(xiàn)不佳,但準(zhǔn)確率比cnn算法高7.6%,相對來說cnn算法取得了最高的召回率,分別高出rf和cnn-rf算法15.6%與9.2%,導(dǎo)致rf的f1值比cnn算法低5.1%。但cnn由于準(zhǔn)確率表現(xiàn)不佳,所以其f1值低于cnn-rf。cnn-rf在準(zhǔn)確率與f1值上均得到了最佳的結(jié)果,在準(zhǔn)確率上cnn-rf比cnn高出了11%,達(dá)到了最優(yōu)的f1值,分別比rf與cnn高出6%與0.9%。
綜上可知,cnn-rf方法對短文本數(shù)據(jù)集長度不敏感,雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)可以充分提取特征,且模型泛化能力均好于其他四種算法。相比之下,cart算法與nb算法的效果最差,使用rf這種集成學(xué)習(xí)方式使得泛化能力有一定提升,但由于僅僅使用初始的word2vec提取的詞向量并將詞向量特征相加,導(dǎo)致分類效果差于cnn-rf。cnn-rf方法首先利用了雙重詞向量cnn提取的抽象高階特征,而且組合多顆決策樹增強(qiáng)了模型的泛化能力,在幾個(gè)數(shù)據(jù)集上綜合表現(xiàn)要好于cnn與rf。相對于cnn,在3個(gè)數(shù)據(jù)集上f1值分別提高了1.9%,0.9%與1.3%,實(shí)驗(yàn)結(jié)果驗(yàn)證了本發(fā)明方法的有效性。
關(guān)于隨機(jī)森林中決策樹數(shù)目參數(shù)的影響問題,在fudan中文數(shù)據(jù)集上做了實(shí)驗(yàn),結(jié)果見圖7.1與圖7.2,圖中決策樹數(shù)目的數(shù)量分別以10為增量由10增加到200,共20次。圖7.1代表了rf算法,圖7.2代表本文方法??梢姵跏紩r(shí)隨著決策樹數(shù)目n的增加,cnn-rf與rf的三個(gè)評價(jià)指標(biāo)均在上升,在rf中當(dāng)決策樹數(shù)目達(dá)到80后,三個(gè)評測指標(biāo)的結(jié)果便趨于穩(wěn)定。而在cnn-rf中,數(shù)目達(dá)到50后,三個(gè)評測指標(biāo)基本趨于穩(wěn)定。