本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種文本分類方法及終端設(shè)備。
背景技術(shù):
:文本分類是指把一組預(yù)先由專家分類過的文本作為訓(xùn)練樣本集,對訓(xùn)練樣本集進(jìn)行分析得出分類模式,用導(dǎo)出的分類模式對其他文本加以分類。它主要應(yīng)用于信息檢索、機(jī)器翻譯、自動文摘及信息過濾等。在實(shí)現(xiàn)本發(fā)明的過程中,本申請的發(fā)明人發(fā)現(xiàn),采用基于分層分類器HierarchicalSoftmax的CBOW訓(xùn)練方式對罕見詞更有利,可實(shí)現(xiàn)對該類文本的較快速分類,基于負(fù)采樣算法的CBOW訓(xùn)練方式對常見詞和低維向量的文本分類有利,同時,基于兩種不同算法的CBOW在訓(xùn)練時,通常選擇的窗口大小在5左右,基于上述兩種文本訓(xùn)練方法得到的詞向量,雖然具有一定的語義特征,但是并不能深度認(rèn)知、理解文本的內(nèi)容。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施方式的目的在于提供一種文本分類方法及終端設(shè)備,CBOW對詞向量化時,會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系,再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò),可使整個網(wǎng)絡(luò)訓(xùn)練也具有語義特性,進(jìn)一步讓整個網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容,具有更好的訓(xùn)練效果。為解決上述技術(shù)問題,本發(fā)明的實(shí)施方式提供了一種文本分類方法,包括:將N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中,計算包含各個詞向量wij的詞向量矩陣Wij;所述N為大于2的自然數(shù);根據(jù)所述各個訓(xùn)練樣本包含的詞向量wij,計算每種文本類型的訓(xùn)練樣本的特征向量Dl;其中,l=1,2,...,N;根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl,計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入E;根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò),計算文本分類器P;根據(jù)待測試文本的特征向量和所述文本分類器P,確定待測試文本的類型;其中,i為詞數(shù),j為詞向量的維度。本發(fā)明的實(shí)施方式還提供了一種終端設(shè)備,包括:詞向量計算模塊,用于根據(jù)N種文本類型的訓(xùn)練樣本的分詞,計算包含各個詞向量wij的詞向量矩陣Wij;所述N為大于2的自然數(shù);訓(xùn)練樣本特征向量計算模塊,用于根據(jù)所述各個訓(xùn)練樣本所包含的詞向量wij,計算每種文本類型的訓(xùn)練樣本的的特征向量Dl;其中,l=1,2,...,N。后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊,用于根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl,計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入;文本分類器確定模塊,用于根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò),計算文本分類器P;待測試文本類型確定模塊,用于根據(jù)待測試文本的特征向量和所述文本分類器P,確定待測試文本的類型;其中,i為詞數(shù),j為詞向量的維度。本發(fā)明實(shí)施方式相對于現(xiàn)有技術(shù)而言,計算N種文本類型的訓(xùn)練樣本分詞后包含各個詞向量的詞向量矩陣,再基于該詞向量矩陣計算出每種文本類型的訓(xùn)練樣本的特征向量,并根據(jù)計算出的訓(xùn)練樣本的特征向量計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入量,再根據(jù)該后向傳播神經(jīng)網(wǎng)絡(luò)確定出文本分類器,最后根據(jù)待測試文本的特征向量和文本分類器,確定待測試文本的類型。CBOW對詞向量化時,會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系,從而根據(jù)詞向量計算得到的特征向量在一定程度上具有語義特征,再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò),可使整個網(wǎng)絡(luò)訓(xùn)練也具有語義特性,進(jìn)一步讓整個網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容,具有更好的訓(xùn)練效果,根據(jù)具有語義特性的后向傳播神經(jīng)網(wǎng)絡(luò)確定的確定文本分類器P,也會具有一定語義特性,可極大提高文本分類的準(zhǔn)確度。另外,所述根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl,計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入,具體包括:根據(jù)所述特征向量Dl,通過以下公式,計算所述后向傳播神經(jīng)網(wǎng)絡(luò)的輸入E:其中,M代表所述訓(xùn)練樣本數(shù),M>N,k為每個所述訓(xùn)練樣本中的詞數(shù)。通過進(jìn)一步計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入量,可以更好的激活后向傳播神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,使其具有更好的反饋和回應(yīng)機(jī)制,其中,反饋機(jī)制是指信息輸入神經(jīng)網(wǎng)絡(luò)后,神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元所做出的相應(yīng)回應(yīng),回應(yīng)機(jī)制則是對反饋機(jī)制最終認(rèn)知的正確輸出。另外,所述根據(jù)后向傳播神經(jīng)網(wǎng)絡(luò),計算文本分類器P,具體包括:將所述后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次;所述迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò),被確定為文本分類器P;其中,T為預(yù)設(shè)的迭代次數(shù)。通過將后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次,可以讓整個網(wǎng)絡(luò)具有一定的深度,進(jìn)一步使整個網(wǎng)絡(luò)更好的認(rèn)知、理解文本內(nèi)容,具有更好的訓(xùn)練效果,提高分類結(jié)果的準(zhǔn)確度。另外,所述根據(jù)各個訓(xùn)練樣本所包含的詞向量wij,計算每種文本類型的訓(xùn)練樣本的特征向量Dl,具體包括:采用加和求平均的計算方式,計算每種文本類型的所述訓(xùn)練樣本的特征向量Dl;通過加和求平均的計算方式,計算每種文本類型的所述訓(xùn)練樣本的特征向量時,運(yùn)算量小而且計算過程簡便快捷。另外,所述確定待測試文本的類型之前,還包括:計算所述待測試文本的特征向量;其中,將所述待測試文本分詞后,從所述詞向量矩陣Wij中查找所述待測試文本包含的各個詞向量wij;根據(jù)所述待測試文本的詞向量wij,采用加和求平均的計算方式,計算所述待測試文本的特征向量。通過查找詞向量矩陣Wij中的待測試文本所包含的各個詞向量wij,可以充分利用已有的詞向量矩陣Wij,從而實(shí)現(xiàn)對各個詞向量的快速準(zhǔn)確查找,間接提高整個待測試文本分類過程的效率。附圖說明圖1是根據(jù)本發(fā)明第一實(shí)施方式的一種詞向量的文本分類方法流程圖;圖2是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型的結(jié)構(gòu)示意圖;圖3是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖;圖4是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型查詞的相關(guān)示意圖;圖5是根據(jù)本發(fā)明第一實(shí)施方式的負(fù)采樣算法隱射的建立示意圖;圖6是根據(jù)本發(fā)明第一實(shí)施方式的CBOW-BP模型的結(jié)構(gòu)示意圖;圖7是根據(jù)本發(fā)明第三實(shí)施方式的一種終端設(shè)備的結(jié)構(gòu)示意圖;圖8是根據(jù)本發(fā)明第四實(shí)施方式的一種終端設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明的各實(shí)施方式進(jìn)行詳細(xì)的闡述。然而,本領(lǐng)域的普通技術(shù)人員可以理解,在本發(fā)明各實(shí)施方式中,為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是,即使沒有這些技術(shù)細(xì)節(jié)和基于以下各實(shí)施方式的種種變化和修改,也可以實(shí)現(xiàn)本申請所要求保護(hù)的技術(shù)方案。本發(fā)明的第一實(shí)施方式涉及一種詞向量的文本分類方法。具體流程如圖1所示。在步驟101中,計算詞向量矩陣Wij,將N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中,計算詞向量矩陣Wij。具體地說,將包含N種文本類型的訓(xùn)練樣本進(jìn)行分詞后,得到的數(shù)據(jù)輸入至CBOW中,計算出該N種文本類型的訓(xùn)練樣本的詞向量及包含各詞向量的詞向量矩陣,其中,詞向量記作wij,詞向量矩陣記作Wij,i為詞數(shù),j為詞向量的維度,詞向量矩陣Wij的具體形式如下所示:其中,Wij中的每一行代表一個詞的向量表達(dá)。此外,本發(fā)明實(shí)施方式中所說的CBOW,是基于負(fù)采樣算法的CBOW。常用的CBOW有基于HierarchicalSoftmax的CBOW和基于負(fù)采樣算法的CBOW兩種類型,下面分別對基于HierarchicalSoftmax的CBOW和基于負(fù)采樣算法的CBOW進(jìn)行介紹。其中,基于HierarchicalSoftmax的CBOW模型,包含輸入層、投影層和輸出層,其是在已知當(dāng)前詞wt的上下文wt-2,wt-1,wt+1,wt+2的前提下預(yù)測當(dāng)前詞wt,如圖2所示。假設(shè)樣本(Context(w),w)由w前后各c個詞構(gòu)成,則輸入層包含Context(w)中2c個詞的詞向量v(Context(w)1v),v(Context(w)2v),v(Context(w)2cv)∈Rm,m表示詞向量的長度。投影層將輸入的2c個向量做求和累加,即其結(jié)構(gòu)示意圖如圖3所示。輸出層對應(yīng)一棵二叉樹,它是以語料中出現(xiàn)過的詞當(dāng)葉子結(jié)點(diǎn),以各詞在語料中出現(xiàn)的次數(shù)當(dāng)權(quán)值構(gòu)造出來的霍夫曼樹,在這棵霍夫曼樹中,葉子結(jié)點(diǎn)共N=(|D|)個,分別對應(yīng)詞典D中的詞s,非葉子結(jié)點(diǎn)N-1個(圖中標(biāo)成黑色的那些結(jié)點(diǎn))。HierarchicalSoftmax是詞向量中用于提高性能的一項關(guān)鍵技術(shù),霍夫曼樹中的某個葉子結(jié)點(diǎn),假設(shè)它對應(yīng)詞典D中的詞w,記:1)pw表示從根結(jié)點(diǎn)出發(fā)到達(dá)w對應(yīng)葉子結(jié)點(diǎn)的路徑;2)lw表示路徑pw中包含結(jié)點(diǎn)的個數(shù);3)表示路徑pw中的lw個結(jié)點(diǎn),其中表示根結(jié)點(diǎn),表示詞w對應(yīng)的結(jié)點(diǎn);4)表示詞w的霍夫曼編碼,它由lw-1位編碼構(gòu)成,表示路徑pw中第j個結(jié)點(diǎn)對應(yīng)的編碼(根結(jié)點(diǎn)不對應(yīng)編碼);5)表示路徑pw中非葉子結(jié)點(diǎn)對應(yīng)的向量,表示路徑pw中第j個非葉子結(jié)點(diǎn)對應(yīng)的向量?,F(xiàn)用詞w=“足球”的示例,說明如何在圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)下,利用向量xw∈Rm以及霍夫曼樹來定義函數(shù)p(w|Context(w)),具體過程如圖4所示。四條虛線邊串起來的5個節(jié)點(diǎn)就構(gòu)成路徑pw,其長度lw=5,為路徑pw上的5個結(jié)點(diǎn),且對應(yīng)根結(jié)點(diǎn),分別為1,0,0,1,即“足球”的霍夫曼編碼為1001,此外,分別表示路徑pw上4個非葉子結(jié)點(diǎn)對應(yīng)的向量。從根結(jié)點(diǎn)出發(fā)到達(dá)“足球”這個葉子節(jié)點(diǎn),中間共經(jīng)理了4次分支(每條虛線的邊對應(yīng)一次分支),而每一次分支都可視為進(jìn)行了一次二分類。既然是從二分類的角度來考慮問題,那么每一個非葉子結(jié)點(diǎn),就需要為其左右孩子結(jié)點(diǎn)制定一個類別,即哪個是正類(標(biāo)簽為1),哪個是負(fù)類(標(biāo)簽為0),除根結(jié)點(diǎn)以外,樹中每個結(jié)點(diǎn)都對應(yīng)了一個取值為0或1的霍夫曼編碼,因此,一種最自然的做法就是將霍夫曼編碼為1的結(jié)點(diǎn)定義為正類,編碼為0的結(jié)點(diǎn)定義為負(fù)類(也可將0定義為正類,1定義為負(fù)類),也就是將一個結(jié)點(diǎn)進(jìn)行分類時,分到左邊就是負(fù)類,分到右邊就是正類,在此約定:根據(jù)邏輯回歸可知,一個結(jié)點(diǎn)被分為正類的概率是被分為負(fù)類的概率則為其中,θ是待定參數(shù),在這里非葉子結(jié)點(diǎn)對應(yīng)的那些就可以扮演參數(shù)θ的角色。對于從根結(jié)點(diǎn)出發(fā)到達(dá)“足球”這個葉子結(jié)點(diǎn)所經(jīng)歷的4次二分類,將每次分類結(jié)果的概率寫出來就是:1)第1次:2)第2次:3)第3次:4)第4次:則至此,通過w=“足球”的例子可知:對于詞典D中的任意詞w,霍夫曼樹中必存在一條存根結(jié)點(diǎn)到詞w對應(yīng)結(jié)點(diǎn)的路徑pw(且這條路徑是唯一的)。路徑pw上存在lw-1個分支,將每個分支看作一次二分類,每一次分類就產(chǎn)生一個概率,將這些概率相乘即為p(w|Context(w))。p(w|Context(w))=Πj=2lwp(djw|xw,θj-1w)---(1)]]>p(djw|xw,θj-1w)=σ(xwTθj-1w),djw=01-σ(xwTθj-1w),djw=1]]>或者,寫成整體表達(dá)式的形式:p(djw|xw,θj-1w)=[σ(xwTθj-1w)]1-djw[1-σ(xwTθj-1w)]djw]]>假設(shè)Yw=(yw,1,yw,2,…,yw,N)T為一個長度為N的向量,其分量不能表示概率,如果想要Yw的分量yw,i表示上下文為Context(w)時下一個詞恰巧為詞典D中第i個詞的概率,則需要做一個softmax的歸一化處理,則有其中iw表示詞w在詞典D中的索引。因此將式(1)代入對數(shù)似然函數(shù)中,則:l=Σw∈ClogΠj=2lw{[σ(xwTθj-1w)]1-djw[1-σ(xwTθj-1w)]djw}=Σw∈CΠj=2lw{(1-djw)·log[σ(xwTθj-1w)]+djw·log[1-σ(xwTθj-1w)]}]]>記為CBOW模型的目標(biāo)函數(shù),在詞向量中是利用隨機(jī)梯度上升法來優(yōu)化上述函數(shù)的。隨機(jī)梯度上升法的做法如下所示:每取一個樣本(Context(w),w),就對目標(biāo)函數(shù)中的所有相關(guān)參數(shù)做一次更新。觀察目標(biāo)函數(shù)可知,該函數(shù)中的參數(shù)包括向量給出函數(shù)關(guān)于這些向量的梯度。其中,關(guān)于的梯度為:∂l(w,j)∂θj-1w=∂∂θj-1w(1-djw)·log[σ(xwTθj-1w)]+djw·log[1-σ(xwTθj-1w)]}=(1-djw)[1-σ(xwTθj-1w)]xw-djwσ(xwTθj-1w)xw={(1-djw)[1-σ(xwTθj-1w)]-djwσ(xwTθj-1w)}xw=[1-djw-σ(xwTθj-1w)]xw]]>于是,的更新公式可寫為:η表示學(xué)習(xí)率。同理可得對xw的梯度為:∂l(w,j)∂xw=[1-djw-σ(xwTθj-1w)]θj-1w]]>這里,xw表示的是Context(w)中各詞的詞向量的累加,最終目的是求詞典D中每個詞的詞向量,則基于負(fù)采樣算法的CBOW模型中,已知詞w的上下文Context(w),需要預(yù)測w,因此,對于給定的Context(w),詞w就是正樣本,其他詞就是負(fù)樣本。假設(shè)現(xiàn)已選好一個關(guān)于w的負(fù)樣本子集對于定義代表詞的標(biāo)簽,即正樣本的標(biāo)簽為1,負(fù)樣本的標(biāo)簽為0。對于一個給定的正樣本(Context(w),w),希望最大化g(w)=Πu∈{w}∪NEG(w)p(u|Context(w))---(2)]]>其中,也可以寫成整體表達(dá)式的形式:p(u|Context(w))=[σ(xwTθu)]Lw(u)·[1-σ(xwTθu)]1-Lw(u)---(3)]]>這里xw仍表示Context(w)中各個詞的向量之和,而θu∈Rm表示詞u對應(yīng)的一個向量。將式(3)代入式(2),有:g(w)=σ(xwTθw)Πu∈NEG(w)[1-σ(xwTθu)]]]>其中,表示當(dāng)上下文為(Context(w),w)時,預(yù)測中心詞為w的概率,而則表示當(dāng)上下文為Context(w)時,預(yù)測中心詞為u的概率,則最大化g(w)時,也即最大化同時最小化所有的也即增大正樣本的概率的同時降低負(fù)樣本的概率。對于一個給定的語料庫C,函數(shù)作為整體優(yōu)化的目標(biāo),為簡化計算,對G取對數(shù),則最終的目標(biāo)函數(shù)為:l=logG=logΠw∈Cg(w)=Σw∈Clogg(w)=Σw∈ClogΠn∈{w}∪NEG(w){[σ(xwTθu)Lw(u)·[1-σ(xwTθu)]1-Lw(u)}=Σw∈CΣu∈{w}∪NEG(w){Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]}]]>記上式為則:l(w,u)=Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]]]>同樣利用隨機(jī)梯度上升法對其參數(shù)進(jìn)行優(yōu)化,則:關(guān)于θu的梯度為:∂l(w,u)∂θu=∂∂θu{Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]}=Lw(u)[1-σ(xwTθu)]xw-[1-Lw(u)]σ(xwTθu)xw={Lw(u)[1-σ(xwTθu)]-[1-Lw(u)]σ(xwTθu)xw=[Lw(u)-σ(xwTθu)]xw]]>于是,θu的更新公式可寫為:θu:=θu+η[Lw(u)-σ(xwTθ)]xw]]>關(guān)于xw的梯度為:∂l(w,u)∂xw=[Lw(u)-σ(xwθu)]θu]]>于是,利用可得的更新公式為:下面再對本發(fā)明實(shí)施方式中采用的負(fù)采樣算法進(jìn)行簡單介紹,詞典D中的詞在語料C中出現(xiàn)的次數(shù)有高有低,對于那些高頻詞,被選為負(fù)樣本的概率就應(yīng)該比較大,反之,對于那些低頻詞,被選中的概率就會較小。其本質(zhì)上為帶權(quán)采樣的問題,具體算法過程,可描述為:假設(shè)詞典D中的每一個詞w對應(yīng)一個線段l(w),長度為:len(w)=counter(w)Σu∈Dcounter(u)]]>這里counter(·)表示一個詞在語料C中出現(xiàn)的次數(shù)(分母中的求和項用來做歸一化),現(xiàn)在將這些線段收尾相連拼接在一起,形成一個長度為1的單位線段。如果隨機(jī)的往這個單位線段上打點(diǎn),則長度越長的線段(對應(yīng)高頻詞)被打中的概率就越大。記這里wj表示詞典D中第j個詞,則以為剖分節(jié)點(diǎn)可得到區(qū)[0,1]上的一個非等距剖分,Ii=(li-1,li],i-1,2,…,N為其N個剖分區(qū)間。進(jìn)一步引入?yún)^(qū)間[0,1]上的一個等距離剖分,剖分節(jié)點(diǎn)為其中M>>N,如圖5所示。將內(nèi)部剖分節(jié)點(diǎn)投影到非等距剖分上,如圖6中的虛線所示,則與區(qū)間的映射關(guān)系為:Table(i)=wk,wheremi∈Ik,i=1,2,…,M-1根據(jù)該映射關(guān)系,其采樣過程即為:每次生成一個[1,M-1]間的隨機(jī)整數(shù)r,Table(r)樣本,如果在采樣過程中采樣剛好取到自身wi,則跳過即可。在步驟102中,根據(jù)Wij計算每種文本類型的訓(xùn)練樣本的特征向量。具體地說,根據(jù)步驟101計算出的各個訓(xùn)練樣本所包含的詞向量wij,采用加和求平均的計算方式,可以計算出每種文本類型的訓(xùn)練樣本的特征向量Dl,其中,l=1,2,...,N,N表示文本類型數(shù)量。假設(shè)有娛樂類、科技類、財經(jīng)類,分別用D1、D2、D3代表娛樂類、科技類和財經(jīng)類的特征向量,則有:D1=[avg(w11+w21+…+we1)avg(w12+w22+…+we2)…avg(w1n+w3n+…+wen)]=[Went1Went2…Wentn]D2=[avg(w11+w31+…+wi1)avg(w12+w32+…+wi2)…avg(w1n+w3n+…+win)]=[Wtech1Wtech3…Wtechn]D3=[avg(w11+…+wf1+…+wi1)avg(w12+…+wf2+…+wi2)…avg(w1n+…+wfn+…+win)]=[Wfina1Wfina2…Wfinan]其中,e代表第e個詞,i第i個詞,f第f個詞,Went1=avg(w11+w21+…+we1),Went2=avg(w12+w22+…+wen),Wentn=avg(w1n+w3n+…+wen),Wtech1=avg(w11+w31+…+wi1),Wtech2=avg(w12+w32+…+wi2),Wtechn=avg(w1n+w3n+…+win),Wfina1=avg(w11+…+wf1+…+wi1),Wfina2=avg(w12+…+wf2+…+wi2),Wfinan=avg(w1n+…+wfn+…+win),若有其他文本類型,同理可得每種文本類型的特征向量。需要注意的是,D1∈[w1,w2,…,we],D2∈[w1,w3,…,wi],D3∈[w1,…,wf,…,wi],其中,每一類中w1,w2,…wm為詞的集合,每個不同文本類型由不同或部分相同的詞組合而成,且特征向量T1、T2、T3中,每個avg(·)中的元素,與Wij中m個詞的順序無關(guān),也不需要連續(xù),只與當(dāng)前該文本類型中的組成的詞有關(guān),因此,在求每一類文本類型時,從矩陣Wij中查找相關(guān)詞并進(jìn)行相應(yīng)的計算即可。在步驟103中,計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。具體地說,將步驟102計算出的各種文本類型的訓(xùn)練樣本的特征向量經(jīng)過加和求平均的特定運(yùn)算后,作為后向傳播神經(jīng)網(wǎng)絡(luò)的輸入,于是將CBOW與后向傳播神經(jīng)網(wǎng)絡(luò)聯(lián)合起來,形成一個新的網(wǎng)絡(luò)模型,并將該網(wǎng)絡(luò)模型稱為CBOW-BP模型,如圖6所示,其中,該后向傳播神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))也分為3層,分別為輸入層、隱含層和輸出層。定義代表CBOW-BP網(wǎng)路的第4層,并定義作為后向傳播神經(jīng)網(wǎng)絡(luò)輸入層的輸入,其中,根據(jù)各種文本類型的訓(xùn)練樣本的特征向量Dl進(jìn)行計算得到,具體計算過程為:⊗=E=fM(t)=avg(Σk≥20Kw(t)k)M]]>其中,M代表訓(xùn)練樣本數(shù),M>N,k為每個訓(xùn)練樣本中的詞數(shù)。在此計算過程中,將訓(xùn)練樣本中詞數(shù)少于20個的剔除掉,每個訓(xùn)練樣本的特征向量Dl經(jīng)過層的處理后,作為后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。后向傳播神經(jīng)網(wǎng)絡(luò)隱含層的激活函數(shù)采用S型生長函數(shù)sigmoid函數(shù),若CBOW-BP模型的輸出為文本的種類N,則后向傳播神經(jīng)網(wǎng)絡(luò)的輸出層的神經(jīng)元個數(shù)為N個。在步驟104中,計算文本分類器P。具體地說,通過將步驟103計算得到的后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次,將迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò),確定為文本分類器P,其中,T為預(yù)設(shè)的迭代次數(shù)。在步驟105中,從Wij中查找待測試文本包含的詞向量。具體地說,首先將待測試文本進(jìn)行分詞,然后在詞量矩陣Wij中查找該待測試文本所包含的各個詞向量wij。在步驟106中,計算待測試文本的特征向量。具體地說,根據(jù)步驟105得到的待測試文本所包含的各個詞向量wij,采用加和求平均的計算方式,計算待測試文本的特征向量。假設(shè)當(dāng)前待測試文本tm分詞后,由詞w1,w2,…,wn組成,通過在詞向量矩陣Wij中查找待測試文本tm中詞w1,w2,…,wn的向量,得到其中,tm矩陣中一行向量代表一個詞的向量,則當(dāng)前待測試文本的特征向量為:Tm=[avg(w11+w21+…+wn1)avg(w12+w22+…+wn2)avg(w1i+w2i+…+wnj)]=[t11t12…t1n]其中,t的下標(biāo)n代表詞向量的維度,1代表當(dāng)前第一個文本,當(dāng)有多個文本時,該處1的值可為自然數(shù)。在步驟107中,確定待測試文本的類型。具體地說,根據(jù)步驟104的文本分類器P和步驟106的待測試文本的特征向量,確定待測試文本的類型。其中,將待測試文本的特征向量輸入到步驟104已確定的文本分類器P中進(jìn)行測試,該待測試文本的類型就是步驟104已確定的文本分類器P的輸出。不難發(fā)現(xiàn),在本實(shí)施方式中,通過基于HierarchicalSoftmax的連續(xù)詞袋模型CBOW,計算M個N種文本類型的訓(xùn)練樣本分詞后包含各個詞向量的詞向量矩陣,再基于該詞向量矩陣計算出每種文本類型的訓(xùn)練樣本的特征向量,并將計算出的訓(xùn)練樣本的特征向量經(jīng)過特定運(yùn)算后,輸入至后向傳播神經(jīng)網(wǎng)絡(luò),計算文本分類器,最后根據(jù)待測試文本的特征向量和文本分類器,確定待測試文本的類型。通過這種方式,CBOW對詞向量化時,會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系,從而根據(jù)詞向量計算得到的特征向量在一定程度上具有語義特征,再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò),構(gòu)建出一個新的CBOW-BP網(wǎng)絡(luò),不僅使整個CBOW-BP網(wǎng)絡(luò)訓(xùn)練具有語義特性,還可進(jìn)一步讓CBOW-BP網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容,具有更好的訓(xùn)練效果,根據(jù)具有語義特性的后向傳播神經(jīng)網(wǎng)絡(luò)確定的確定文本分類器P,也會具有一定語義特性,可極大提高文本分類的準(zhǔn)確度本發(fā)明的第二實(shí)施方式涉及一種詞向量的文本分類方法。第二實(shí)施方式在第一實(shí)施方式的基礎(chǔ)上做了進(jìn)一步改進(jìn),主要改進(jìn)之處在于:在本發(fā)明第二實(shí)施方式中,給出了步驟105中,從詞向量矩陣Wij中快速查找所需詞向量的優(yōu)化方法,該方法具體為:預(yù)先為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引,然后根據(jù)該索引在向量矩陣Wij中查找各個待測試文本所包含的詞向量wij。具體流程如圖1所示。本實(shí)施方式不但可以達(dá)到第一實(shí)施方式的技術(shù)效果,而且通過預(yù)先為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引的方式,可以更便捷、快速的在詞量矩陣Wij中查找所需的各個詞向量wij,不僅提高了查找效率,還間接提高了整個文本分類的效率。本發(fā)明第三實(shí)施方式涉及一種終端設(shè)備,包括:詞向量計算模塊10、訓(xùn)練樣本特征向量計算模塊11、后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊12、文本分類器確定模塊13和待測試文本類型確定模塊14,其中,文本分類器確定模塊13具體包括:迭代子模塊131與確定子模塊132,待測試文本類型確定模塊14又具體包括:詞向量獲取子模塊141、特征向量計算子模塊142,如圖7所示。詞向量計算模塊10,用于將M個N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中,計算包含各個詞向量wij的詞向量矩陣Wij。訓(xùn)練樣本特征向量計算模塊11,用于根據(jù)各個訓(xùn)練樣本所包含的詞向量wij,計算每種文本類型的訓(xùn)練樣本的的特征向量Dl。后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊12,用于根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl,計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。文本分類器確定模塊13,用于根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò),計算文本分類器P。迭代子模塊131,用于將所述后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次。確定子模塊132,用于將所述迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò),確定為所述文本分類器P。待測試文本類型確定模塊14,用于根據(jù)待測試文本的特征向量和所述文本分類器P,確定待測試文本的類型。詞向量獲取子模塊141,用于將所述待測試文本分詞后,從所述詞向量矩陣Wij中查找所述待測試文本所包含的各個詞向量wij。特征向量計算子模塊142,用于根據(jù)所述待測試文本的詞向量wij,采用加和求平均的計算方式,計算所述待測試文本的特征向量。不難發(fā)現(xiàn),本實(shí)施方式為與第一實(shí)施方式相對應(yīng)的系統(tǒng)實(shí)施例,本實(shí)施方式可與第一實(shí)施方式互相配合實(shí)施。第一實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效,為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第一實(shí)施方式中。值得一提的是,本實(shí)施方式中所涉及到的各模塊均為邏輯模塊,在實(shí)際應(yīng)用中,一個邏輯單元可以是一個物理單元,也可以是一個物理單元的一部分,還可以以多個物理單元的組合實(shí)現(xiàn)。此外,為了突出本發(fā)明的創(chuàng)新部分,本實(shí)施方式中并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的單元引入,但這并不表明本實(shí)施方式中不存在其它的單元。本發(fā)明第四實(shí)施方式涉及一種終端設(shè)備,第四實(shí)施方式在第三實(shí)施方式的基礎(chǔ)上做了進(jìn)一步改進(jìn),主要改進(jìn)之處在于:在本發(fā)明第四實(shí)施方式中,在詞向量計算模塊10之后,還包括:建立索引模塊15,如圖8所示。建立索引模塊15,用于為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引,使得詞向量獲取子模塊141可以更便捷、快速的根據(jù)該索引,在詞向量矩陣Wij中,查找各個待測試文本所包含的詞向量wij。由于第二實(shí)施方式與本實(shí)施方式相互對應(yīng),因此本實(shí)施方式可與第二實(shí)施方式互相配合實(shí)施。第二實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效,在第二實(shí)施方式中所能達(dá)到的技術(shù)效果在本實(shí)施方式中也同樣可以實(shí)現(xiàn),為了減少重復(fù),這里不再贅述。相應(yīng)地,本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第二實(shí)施方式中。本領(lǐng)域技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序存儲在一個存儲介質(zhì)中,包括若干指令用以使得一個設(shè)備(可以是單片機(jī),芯片等)或處理器(processor)執(zhí)行本申請各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲器(RAM,RandomAccessMemory)、GPU、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。本領(lǐng)域的普通技術(shù)人員可以理解,上述各實(shí)施方式是實(shí)現(xiàn)本發(fā)明的具體實(shí)施例,而在實(shí)際應(yīng)用中,可以在形式上和細(xì)節(jié)上對其作各種改變,而不偏離本發(fā)明的精神和范圍。當(dāng)前第1頁1 2 3