一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法與流程

文檔序號(hào)：11519781閱讀：1129來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法與流程

本發(fā)明屬于文本分類與深度學(xué)習(xí)領(lǐng)域，涉及一種基于積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法，可用于針對微博，短信息，用戶query等海量短文本數(shù)據(jù)的分類或者情感分類等任務(wù)。且能夠?yàn)樗阉饕?、信息檢索等系統(tǒng)服務(wù)使用。

背景技術(shù)：

隨著近年來互聯(lián)網(wǎng)的飛速發(fā)展，各種信息交互平臺(tái)會(huì)產(chǎn)生大量的短文本(shorttext)，這些短文本涉及到人們生活的各個(gè)領(lǐng)域，逐漸成為人們使用頻繁且公認(rèn)的溝通方式。比如電子商務(wù)評論、網(wǎng)頁信息檢索、智能問答系統(tǒng)等均是海量短文本的產(chǎn)生源。如何從海量短文本中挖掘有效信息，是近年來諸多學(xué)者廣泛研究的課題。文本分類是一種文本挖掘的有效方法，但由于短文本長度短、詞項(xiàng)特征稀疏等特點(diǎn)，致使傳統(tǒng)的長文本分類方法變得不再適用。短文本分類技術(shù)(shorttextclassification)在一定程度上可以解決上述短文本應(yīng)用中面臨的挑戰(zhàn)，該技術(shù)是近年來國內(nèi)外眾多學(xué)者的研究熱點(diǎn)之一，也是自然語言處理(nlp)領(lǐng)域中一項(xiàng)至關(guān)重要的任務(wù)?，F(xiàn)如今，文本分類方法主要是基于統(tǒng)計(jì)學(xué)習(xí)方法或者機(jī)器學(xué)習(xí)的方法，采用統(tǒng)計(jì)或機(jī)器學(xué)習(xí)的方法在經(jīng)過人工標(biāo)注的語料庫上進(jìn)行訓(xùn)練得到分類器，隨后對待分類數(shù)據(jù)集進(jìn)行分類。其中比較主流的機(jī)器學(xué)習(xí)方法有樸素貝葉斯(naivebayes，nb)、支持向量機(jī)(supportvectormachine，svm)、邏輯回歸(logisticregression，lr)多類邏輯回歸(softmaxregression，sr)、隨機(jī)森林(randomforest，rf)、深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork，dnn)等。在文本分類領(lǐng)域中取得較成功的長文本分類方法難以直接應(yīng)用到短文本分類中，因此，針對短文本的分類算法已經(jīng)成為目前研究者亟待解決的一個(gè)研究難題，短文本分類面臨的挑戰(zhàn)主要為：

1)短文本關(guān)鍵詞特征稀疏，與一般詞項(xiàng)豐富的長文本相比，短文本往往僅有幾個(gè)有效關(guān)鍵字，且使用向量空間模型表示文本時(shí)，難以充分挖掘特征之間的關(guān)聯(lián)性；

2)在開放領(lǐng)域(比如微博，搜索引擎)中，信息更新快，單篇短文本信息量小，但總體文本信息量極大，信息之間的交叉部分少；

3)新詞、新用語、口語化的大量出現(xiàn)，這些詞語對于己有分類系統(tǒng)來說通常是很難難處理的。

國內(nèi)外學(xué)者已經(jīng)針對短文本分類問題進(jìn)行了一些有意義的研究與探索，第一類是基于短文本特征擴(kuò)展的方法：bouaziz等人利用潛在狄利克雷分配(latentdirichletallocation，lda)模型學(xué)習(xí)維基百科數(shù)據(jù)上的主題及詞語在主題上的分布，然后用同主題下的高頻詞語來擴(kuò)展短文本，再使用隨機(jī)語義森林對擴(kuò)展詞語進(jìn)行特征選擇，然后進(jìn)行分類；還有一些學(xué)者通過關(guān)聯(lián)規(guī)則挖掘(fp-growth)得到詞語共現(xiàn)模式集合，將其作為文本特征擴(kuò)展的依據(jù)，而詞語關(guān)系置信度作為持征擴(kuò)展時(shí)的權(quán)重來完成短文本的特征擴(kuò)展與分類；xhphan等人通過抓取互聯(lián)網(wǎng)海量數(shù)據(jù)來構(gòu)建全局語料庫，之后使用lda主題模型的方法得到全局語料庫的主題模型，最后使用全局的lda主題模型對待分類的短文本語料庫進(jìn)行主題推斷(modelestimation)，得到待分類短文本的主題分布，使用該主題分布對短文本進(jìn)行特征擴(kuò)展，最后進(jìn)行分類。第一類方法在做短文本擴(kuò)展特征時(shí)會(huì)不可避免的引入噪音，造成分類效果差。

第二類是基于深度學(xué)習(xí)的方法：socher等人采用遞歸神經(jīng)網(wǎng)絡(luò)模型(recursiveneuralnetwork，rnn)，用于句子級別的情感分析任務(wù)，在sst等多個(gè)數(shù)據(jù)集的分類任務(wù)中均取得了一定的效果提升；kalchbrenner等人^[8]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork，cnn)來處理語句級別的短文本分類任務(wù)，并提出動(dòng)態(tài)卷積網(wǎng)絡(luò)模型(dynimicconvolutionalneuralnetwork，dcnn)，該模型在多個(gè)數(shù)據(jù)集上都取得很好的效果，進(jìn)一步驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在短文本分類研究中的潛力?；谏窠?jīng)網(wǎng)絡(luò)方法的輸入通常采用隨機(jī)初始化或者使用預(yù)訓(xùn)練詞向量。通常詞向量的訓(xùn)練方式多種多樣，語料、模型、預(yù)處理不同會(huì)產(chǎn)生不同含義的詞向量，不同的詞向量從不同的方面(角度)來刻畫詞語語義。由于短文本特征稀疏，為了充分提取特征，可以考慮利用結(jié)合多種詞向量來充分提取特征，提高卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力；此外softmax做為卷積網(wǎng)絡(luò)分類器時(shí)，一般采用bp算法進(jìn)行訓(xùn)練，該過程只考慮極小化訓(xùn)練誤差，由于局部極小值以及梯度消失、過擬合等現(xiàn)象的存在難以使神經(jīng)網(wǎng)絡(luò)達(dá)到最佳的泛化能力。隨機(jī)森林是一種基于boostrapaggregation(bagging)的集成學(xué)習(xí)方法，通過組合多棵決策樹使得模型對異常值和噪聲具有很強(qiáng)的容忍性與魯棒性，能克服單個(gè)決策樹泛化能力不足的問題。隨機(jī)森林有許多優(yōu)點(diǎn)，比如：

1)需要較少的參數(shù)調(diào)整，訓(xùn)練速度快；

2)訓(xùn)練過程中基本不會(huì)產(chǎn)生過擬合問題；

3)對噪音擾動(dòng)的魯棒性高。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的在于提出了一種結(jié)合雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類算法(cnn-rf)，雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)使用兩種預(yù)訓(xùn)練詞向量作為輸入，可充分提取短文本特征，克服短文本特征稀疏的不足；之后采用隨機(jī)森林進(jìn)行分類，增強(qiáng)模型的泛化能力。cnn-rf模型的訓(xùn)練分為兩個(gè)階段：1)預(yù)訓(xùn)練階段：使用softmax作為分類器的雙重詞向量卷積網(wǎng)絡(luò)訓(xùn)練，保存模型參數(shù)；2)分類器訓(xùn)練階段：保持預(yù)訓(xùn)練階段模型參數(shù)不變，將全連接層接入隨機(jī)森林，使用高階特征訓(xùn)練隨機(jī)森林，保存參數(shù)。實(shí)驗(yàn)過程中發(fā)現(xiàn)，僅需要很少的epoch來進(jìn)行預(yù)訓(xùn)練，便能使分類器訓(xùn)練階段的模型收斂，且能達(dá)到較好的分類效果。

為實(shí)現(xiàn)上述目的，本發(fā)明采用的計(jì)數(shù)方案為一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法，該方法包括以下步驟：

步驟1：對待分類語料庫中所有中文文本進(jìn)行分詞，分別使用word2vec和glove詞向量訓(xùn)練工具得到語料庫的兩組詞向量，將文本表示為兩個(gè)維度相等的矩陣；分別對兩個(gè)矩陣進(jìn)行二維卷積操作，得到兩個(gè)卷基層特征圖。

步驟2：卷積操作之后，分別對兩個(gè)卷基層特征圖進(jìn)行池化操作，得到兩個(gè)池化層特征矩陣；對該池化層特征矩陣進(jìn)行非線性sigmod變換，得到兩個(gè)池化層特征圖。

步驟3：對步驟2的得到的兩個(gè)池化層特征圖進(jìn)行卷積操作，得到最終的單個(gè)全連接層特征圖。

步驟4：將步驟3得到的全連接特征圖作為隨機(jī)森林層的輸入數(shù)據(jù)集，對該集合進(jìn)行boostrap采樣，bootstrap采樣是一種統(tǒng)計(jì)學(xué)上的抽樣方法，對于有m個(gè)樣本的數(shù)據(jù)集d，進(jìn)行m次有放回采樣得到新數(shù)據(jù)集d′，明顯d與d′大小相同，而且放回采樣使得d′中有重復(fù)出現(xiàn)的樣本，也有樣本沒有出現(xiàn)。

步驟5：對多個(gè)boostrap樣本集分別使用gini系數(shù)法建立分類與回歸樹cart，gini系數(shù)用于特征選擇，用該特征將特征空間進(jìn)行劃分，劃分之后從特征集合中去除此特征，對左右子樹分別遞歸執(zhí)行特征選取與特征劃分操作直到滿足停止條件。此外為防止決策樹過擬合現(xiàn)象的發(fā)生，本方法采用預(yù)剪枝操作。將多個(gè)決策樹組合起來，共同為樣本的類別進(jìn)行決策，通常采用投票法。

與現(xiàn)有技術(shù)相比，本發(fā)明具有如下的有益效果。

采用隨機(jī)森林(randomforest)來取代卷積神經(jīng)網(wǎng)絡(luò)的全連接softmax層，增強(qiáng)了整體分類方法得魯棒性，減小了模型的過擬合，增強(qiáng)了模型泛化能力；采用雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)，可以提取更為豐富的特征；不依賴于復(fù)雜的句法分析樹，只需要通過卷積與最大值池化(maxpoolingovertime)進(jìn)行特征提取，將得到的高層抽象結(jié)構(gòu)特征送入隨機(jī)森林層進(jìn)行分類，從偏差-方差(bias-variance)角度來看，集成多個(gè)模型會(huì)降低分類模型的方差，提高模型的穩(wěn)定性。本方法也無需復(fù)雜的特征擴(kuò)展過程，特征擴(kuò)展算法通常會(huì)引入噪音，且費(fèi)時(shí)費(fèi)力，該方法充分利用短文本自身信息，較之于傳統(tǒng)的單通道詞向量輸入卷積網(wǎng)絡(luò)，充分的緩解了短文本數(shù)據(jù)的稀疏性，可以充分提取特征。max-pooling-over-time操作也解決了可變長度的短文本輸入問題，可見基于雙重預(yù)訓(xùn)練詞向量卷積網(wǎng)絡(luò)也可有效的提高短文本分類的準(zhǔn)確度。實(shí)驗(yàn)過程中發(fā)現(xiàn)，僅需要很少的epoch來進(jìn)行預(yù)訓(xùn)練，便能使本方法達(dá)到很好的效果。

附圖說明

圖1為預(yù)訓(xùn)練詞向量生成模型，skip-gram模型示意圖

圖2為卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林相結(jié)合的分類模型

圖3為在三個(gè)數(shù)據(jù)集上分別與nbcartrfcnn在精確率(acc)上的對比

圖4為在fudan數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比

圖5為在mr數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比

圖6為在weibo數(shù)據(jù)集上分別與nbcartrfcnn在準(zhǔn)確率(pr)、召回率(re)、f1值得對比

圖7.1rf算法在fudan數(shù)據(jù)集上隨著決策樹的變化三個(gè)評價(jià)指標(biāo)的變化

圖7.2本方法在fudan數(shù)據(jù)集上隨著決策樹的變化三個(gè)評價(jià)指標(biāo)的變化

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案和特點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例子，并參照附圖，對本發(fā)明進(jìn)行進(jìn)一步的細(xì)化說明。

本發(fā)明采用隨機(jī)森林(randomforest)來取代卷積神經(jīng)網(wǎng)絡(luò)的全連接softmax層，增強(qiáng)了整體分類方法得魯棒性，防止模型過擬合，增強(qiáng)了模型泛華能力；進(jìn)一步采用雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)，適用于提取更豐富的高階特征。本發(fā)明具體的的改進(jìn)可以歸納為以下幾個(gè)方面：1)使用兩組預(yù)訓(xùn)練詞向量代替隨機(jī)初始化的詞向量，該方法相對于以往方法或者詞袋模型，會(huì)減小特征維度，提取充分特征；2)隨機(jī)初始化詞向量還需對詞向量矩陣進(jìn)行參數(shù)更新，本方法則無需這種操作，提高了模型的效率；3)無需特征擴(kuò)展，或者引入句法分析樹等復(fù)雜操作，避免為模型后續(xù)的特征提取與分類引入噪音；4)首先類似于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)，使用卷積-池化-softmax層來提取特征，經(jīng)過一定的epoch之后，全連接層的輸出特征變?yōu)楦唠A結(jié)構(gòu)特征；5)使用隨機(jī)森林代替softmax來做分類，隨機(jī)森林可以有效提高模型的泛化能力，防止模型的過擬合，增強(qiáng)分類效果。實(shí)驗(yàn)證明，本發(fā)明所提出的方法在三個(gè)公開實(shí)驗(yàn)數(shù)據(jù)集(fudan，weibo，mr)上的結(jié)果表明，與其他方法相比cnn-rf在多個(gè)評價(jià)指標(biāo)上均有明顯優(yōu)勢。

圖1為本發(fā)明采用的word2vec詞向量模型中的skip-gram，圖2為基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法采用的結(jié)構(gòu)，對兩組預(yù)訓(xùn)練詞向量，首先將語料庫中的短文本分別構(gòu)造為兩個(gè)詞向量矩陣，進(jìn)行2維卷積運(yùn)算與max-pooling-over-time運(yùn)算，然后使用卷積操作結(jié)合兩個(gè)通道的特征，進(jìn)行預(yù)訓(xùn)練，最后使用隨機(jī)森林構(gòu)建分類模型，具體的實(shí)施過程分為以預(yù)訓(xùn)練階段與分類器訓(xùn)練階段：

一：預(yù)訓(xùn)練階段

步驟1：得到兩組詞向量后，對于語料庫d，用x表示一篇文本，則代表第文本中第i個(gè)詞語的詞向量，一個(gè)長度為n的句子表示成如下形式：

這里變?yōu)橄蛄科唇硬僮?，n為訓(xùn)練語料中最長的句子的長度。對于長度不足n的文本則用特殊符號(hào)<pad>進(jìn)行補(bǔ)齊，使用(-0.25,0.25)之間的均勻分布生成的向量表示<pad>。假設(shè)詞向量長度為k，則現(xiàn)在每篇文本x均以表示為兩個(gè)的單通道(channel)二維矩陣，即為兩個(gè)輸入層。

步驟2：分別對兩個(gè)輸入層進(jìn)行卷積操作，使用的過濾器作用于詞向量序列xi:i+h-1＝{xi,xi+1,…,xi+h-1}上：

ci＝f(w·xi:i+h-1+b)

其中h即為過濾器在詞語窗口上的尺寸，為一個(gè)偏置項(xiàng)，f為非線性激活函數(shù)。過濾器w會(huì)作用于整個(gè)詞向量序列{x1:h,x2:h+1,…,xn-h+1:n}上，來產(chǎn)生卷積層特征圖

cconv＝[cconv,1,cconv,2,…,cconv,n-h+1]

為充分提取特征，訓(xùn)練過程中設(shè)置不同跨度的過濾器m個(gè)，用{w1,w2,…wm}表示，每種過濾器分別設(shè)置個(gè)，通常令即會(huì)產(chǎn)生m×s個(gè)特征圖，之后便使用最大值池化(max-pooling-over-time)操作作用于單個(gè)特征圖cconv之上，來得到特征圖中最重要的特征

步驟3：步驟2將會(huì)產(chǎn)生m×s個(gè)池化層特征，將其拼接起來便得到池化層特征其中l(wèi)＝1,2分別代表兩組詞向量的池化層特征。

步驟4：對兩個(gè)池化層特征進(jìn)行卷積操作，得到最終的全連接層特征cfinal，cfinal,i代表cfinal的分量：

步驟5：全連接層特征之后接入softmax分類器，整個(gè)預(yù)訓(xùn)練階段的模型使用adam批量梯度下降(mini-batchgradientdescent)算法訓(xùn)練即可，用bp算法對各層參數(shù)調(diào)整，待收斂后記錄下整個(gè)cnn的參數(shù)θ。訓(xùn)練時(shí)采用dropout與l2正則防止過擬合。

二：分類器訓(xùn)練階段

步驟6：讀取步驟5中的參數(shù)θ，采用隨機(jī)森林模型替換softmax模型，將全連接層特征cfinal送入隨機(jī)森林進(jìn)行訓(xùn)練。首先設(shè)置森林中決策樹n的大小，進(jìn)行bootstrap抽樣得到n個(gè)數(shù)據(jù)集，接下來學(xué)習(xí)n顆樹中每顆樹的參數(shù)θn，由于森林中各個(gè)樹之間的訓(xùn)練過程相互沒有影響，因此試驗(yàn)中采用并行訓(xùn)練的方式來加快速度。

步驟7：單個(gè)決策樹訓(xùn)練完成后，最后以投票的方法得到cnn-rf模型的輸出：

ti(x)是樹i對樣本x的分類結(jié)果，即投票法，c^*即為樣本對應(yīng)最終類別，n為隨機(jī)森林中決策樹的數(shù)目。由于隨機(jī)森林的全連接層特征cfinal通常維度不大，一般數(shù)據(jù)集種均有m×s<10³，所以建立隨機(jī)森林的開銷非常小。

本方法結(jié)合了cnn的特征提取能力與隨機(jī)森林的泛化能力，泛化能力可以從以下三個(gè)方面分析：1)從統(tǒng)計(jì)角度來看，由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大，可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等水準(zhǔn)的性能，此時(shí)若使用單一決策樹可能因?yàn)檎`選而導(dǎo)致泛化能力不佳；2)從特征提取角度分析，雙重詞向量分別從兩個(gè)角度刻畫詞語的含義，豐富了短文本信息，相對于單一詞向量來說擴(kuò)充了特征信息；3)從表示方面來看，某些學(xué)習(xí)任務(wù)的真實(shí)假設(shè)可能不在當(dāng)前決策樹算法所處的假設(shè)空間之內(nèi)，此時(shí)若使用單一分類方法，會(huì)導(dǎo)致搜索不到既定的假設(shè)空間，并且隨機(jī)森林采用bootstrap抽樣，可以降低機(jī)器學(xué)習(xí)模型對數(shù)據(jù)的依賴能力，降低模型的的方差，使得模型擁有更好的泛化能力。

實(shí)驗(yàn)設(shè)備與所需環(huán)境

win732位操作系統(tǒng)，intelxeone5處理器，cpu主頻3.30ghz，內(nèi)存16g。實(shí)驗(yàn)代碼采用python，深度學(xué)習(xí)環(huán)境為tensorflow結(jié)合scikitlearn框架。

實(shí)驗(yàn)結(jié)果與說明

本方法分別在fudan中文數(shù)據(jù)集、nlpir提供的weibo數(shù)據(jù)集和mr評論情感分類數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。fudan中文數(shù)據(jù)集中包含訓(xùn)練語料9804篇文檔，測試語料共9833篇文檔，共計(jì)20個(gè)類別，本發(fā)明使用fudan中文數(shù)據(jù)集中的新聞標(biāo)題作為短文本分類語料，且只選取了其中的5個(gè)類別分別為c3-art、c32-agriculture、c34-economy、c7-history、c38-politics，共計(jì)7120篇標(biāo)題文檔；weibo數(shù)據(jù)集中共計(jì)21個(gè)類別，本發(fā)明使用除“人文藝術(shù)”、“廣告公共”、“校園”之外的所有類別，共計(jì)18個(gè)類別36412篇微博文本。對于沒有劃分訓(xùn)練集與測試集的weibo與mr數(shù)據(jù)集在實(shí)驗(yàn)中進(jìn)行了10折交叉驗(yàn)證，實(shí)驗(yàn)結(jié)果有較強(qiáng)的說服力。

預(yù)處理及參數(shù)設(shè)置

實(shí)驗(yàn)中，采用兩組詞向量，第一組由word2vec中的skip-gram訓(xùn)練得到，第二組由glove模型得到，訓(xùn)練詞向量的語料均采用各數(shù)據(jù)集自身訓(xùn)練得到，只對于復(fù)旦數(shù)據(jù)集，采用新聞內(nèi)容和新聞標(biāo)題共同作為詞向量的訓(xùn)練語料。預(yù)處理過程中對中文采用hanlp進(jìn)行分詞，去除停用詞操作。兩組詞向量的維度都設(shè)置為100，卷積神經(jīng)網(wǎng)絡(luò)中過濾器尺寸分別為2，3，4，每種過濾器均設(shè)置100個(gè)，dropout參數(shù)設(shè)置為0.5，l2正則參數(shù)為0.001。由于預(yù)處理方式和詞向量語料與方法選擇的差異，導(dǎo)致不同作者的實(shí)驗(yàn)結(jié)果在相同數(shù)據(jù)集上存在一定偏差。本文為了驗(yàn)證cnn-rf的分類性能，需要在相同預(yù)處理機(jī)制上，自行實(shí)現(xiàn)多種分類模型與本文的分類方法進(jìn)行分類性能的比較實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)置與評價(jià)指標(biāo)

本發(fā)明分別與樸素貝葉斯(nb)、分類與回歸樹(cart)、隨機(jī)森林(rf)和kim提出的cnn網(wǎng)絡(luò)四種算法進(jìn)行對比。其中nb、cart、rf中用做分類的特征向量均為其文本對應(yīng)的詞向量相加的形式。試驗(yàn)采取了精確率(accuracy)、準(zhǔn)確率(precision)、召回率(recall)、f1值(f1-measure)作為評價(jià)標(biāo)準(zhǔn)，計(jì)算如下：

1)精確率(accuracy)：

2)準(zhǔn)確率(precision)：

3)召回率(recall)：

4)f1值(f1-measure)：

其中tp表示正樣本預(yù)測為正樣本數(shù)目，tn表示負(fù)樣本預(yù)測為負(fù)樣本數(shù)量，fn表示正樣本預(yù)測為負(fù)樣本的數(shù)量，fp表示負(fù)數(shù)據(jù)預(yù)測為正樣本的數(shù)量，n表示樣本總數(shù)。之后實(shí)驗(yàn)分析了隨著決策樹個(gè)數(shù)的增加對rf與cnn-rf方法的影響，最后對比了cnn-rf方法與cnn算法的收斂速度分析對比。

實(shí)驗(yàn)結(jié)果分析

首先，對五種算法在3個(gè)數(shù)據(jù)集上進(jìn)行精確率對比分析。由圖3可見，本發(fā)明所提出的cnn-rf方法在3個(gè)數(shù)據(jù)集上精確率均為最高的，在fudan數(shù)據(jù)集上相對于cnn提升了1.7％，在weibo數(shù)據(jù)集上相對于cnn提升了1.6％，在mr數(shù)據(jù)集上提升了0.8％?；谏疃葘W(xué)習(xí)的cnn方法得到的結(jié)果僅次于cnn-rf，且好于其他三種方法，nb、cart的精確率均低于集成學(xué)習(xí)方法rf，從實(shí)驗(yàn)結(jié)果分析可得，集成學(xué)習(xí)方法組合多個(gè)模型泛化能力較單模型有所提升，但弱于深度學(xué)習(xí)cnn方法。cnn通過提取抽象結(jié)構(gòu)特征，所以會(huì)得到較優(yōu)的精確率。cnn-rf結(jié)合了兩者優(yōu)勢，所以取得較好結(jié)果。

五種算法在fudan中文數(shù)據(jù)集上的結(jié)果如圖4所示。由實(shí)驗(yàn)數(shù)據(jù)可見rf算法在準(zhǔn)確率，召回率，f1值三個(gè)指標(biāo)均超過cart與nb算法，可見基于集成學(xué)習(xí)的方法的確增加了對噪音的擾動(dòng)能力，增強(qiáng)了分類器的泛化能力。且在準(zhǔn)確率方面，rf算法比cnn高1.0％，但是在召回率上，cnn比rf算法高出6.1％，因此綜合起來，在f1值上，cnn超過rf了2.5％，并且cnn在幾種方法中達(dá)到了最優(yōu)的召回率92.8％，比cnn-rf算法高出0.6％。除了在召回率不足cnn之外，cnn-rf算法進(jìn)一步增強(qiáng)了模型泛化能力，準(zhǔn)確率較之cnn提高了4.1％，f1值提高了1.9％，cnn-rf算法在精確率與f1值上取得了最優(yōu)的結(jié)果。

五種算法在mr數(shù)據(jù)集上的結(jié)果如圖5所示，mr數(shù)據(jù)集為二分類情感數(shù)據(jù)集。cnn-rf在三個(gè)評價(jià)指標(biāo)上均是最高的，在f1測度上比cnn高出1.2％左右，比rf高出4.4％，且不同與其他兩個(gè)數(shù)據(jù)集，cnn-rf在mr數(shù)據(jù)集上準(zhǔn)確率、召回率、f1值均超過cnn，分別超過了1.5％，1.1％與1.3％。

五種算法在weibo數(shù)據(jù)集上的結(jié)果如圖6所示，由數(shù)據(jù)可見，rf的召回率仍表現(xiàn)不佳，但準(zhǔn)確率比cnn算法高7.6％，相對來說cnn算法取得了最高的召回率，分別高出rf和cnn-rf算法15.6％與9.2％，導(dǎo)致rf的f1值比cnn算法低5.1％。但cnn由于準(zhǔn)確率表現(xiàn)不佳，所以其f1值低于cnn-rf。cnn-rf在準(zhǔn)確率與f1值上均得到了最佳的結(jié)果，在準(zhǔn)確率上cnn-rf比cnn高出了11％，達(dá)到了最優(yōu)的f1值，分別比rf與cnn高出6％與0.9％。

綜上可知，cnn-rf方法對短文本數(shù)據(jù)集長度不敏感，雙重詞向量卷積神經(jīng)網(wǎng)絡(luò)可以充分提取特征，且模型泛化能力均好于其他四種算法。相比之下，cart算法與nb算法的效果最差，使用rf這種集成學(xué)習(xí)方式使得泛化能力有一定提升，但由于僅僅使用初始的word2vec提取的詞向量并將詞向量特征相加，導(dǎo)致分類效果差于cnn-rf。cnn-rf方法首先利用了雙重詞向量cnn提取的抽象高階特征，而且組合多顆決策樹增強(qiáng)了模型的泛化能力，在幾個(gè)數(shù)據(jù)集上綜合表現(xiàn)要好于cnn與rf。相對于cnn，在3個(gè)數(shù)據(jù)集上f1值分別提高了1.9％，0.9％與1.3％，實(shí)驗(yàn)結(jié)果驗(yàn)證了本發(fā)明方法的有效性。

關(guān)于隨機(jī)森林中決策樹數(shù)目參數(shù)的影響問題，在fudan中文數(shù)據(jù)集上做了實(shí)驗(yàn)，結(jié)果見圖7.1與圖7.2，圖中決策樹數(shù)目的數(shù)量分別以10為增量由10增加到200，共20次。圖7.1代表了rf算法，圖7.2代表本文方法?？梢姵跏紩r(shí)隨著決策樹數(shù)目n的增加，cnn-rf與rf的三個(gè)評價(jià)指標(biāo)均在上升，在rf中當(dāng)決策樹數(shù)目達(dá)到80后，三個(gè)評測指標(biāo)的結(jié)果便趨于穩(wěn)定。而在cnn-rf中，數(shù)目達(dá)到50后，三個(gè)評測指標(biāo)基本趨于穩(wěn)定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉澤錦;王潔
技術(shù)所有人：北京工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

cnn卷積神經(jīng)網(wǎng)絡(luò)詳解相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)代碼相關(guān)技術(shù)

全卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的短文本分類方法與流程