文本分類方法及終端設(shè)備與流程

文檔序號：12597870閱讀：247來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及信息處理領(lǐng)域，特別涉及一種文本分類方法及終端設(shè)備。
背景技術(shù)：
：文本分類是指把一組預(yù)先由專家分類過的文本作為訓(xùn)練樣本集，對訓(xùn)練樣本集進(jìn)行分析得出分類模式，用導(dǎo)出的分類模式對其他文本加以分類。它主要應(yīng)用于信息檢索、機(jī)器翻譯、自動文摘及信息過濾等。在實(shí)現(xiàn)本發(fā)明的過程中，本申請的發(fā)明人發(fā)現(xiàn)，采用基于分層分類器HierarchicalSoftmax的CBOW訓(xùn)練方式對罕見詞更有利，可實(shí)現(xiàn)對該類文本的較快速分類，基于負(fù)采樣算法的CBOW訓(xùn)練方式對常見詞和低維向量的文本分類有利，同時，基于兩種不同算法的CBOW在訓(xùn)練時，通常選擇的窗口大小在5左右，基于上述兩種文本訓(xùn)練方法得到的詞向量，雖然具有一定的語義特征，但是并不能深度認(rèn)知、理解文本的內(nèi)容。技術(shù)實(shí)現(xiàn)要素：本發(fā)明實(shí)施方式的目的在于提供一種文本分類方法及終端設(shè)備，CBOW對詞向量化時，會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系，再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò)，可使整個網(wǎng)絡(luò)訓(xùn)練也具有語義特性，進(jìn)一步讓整個網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容，具有更好的訓(xùn)練效果。為解決上述技術(shù)問題，本發(fā)明的實(shí)施方式提供了一種文本分類方法，包括：將N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中，計算包含各個詞向量wij的詞向量矩陣Wij；所述N為大于2的自然數(shù)；根據(jù)所述各個訓(xùn)練樣本包含的詞向量wij，計算每種文本類型的訓(xùn)練樣本的特征向量Dl；其中，l＝1,2,...,N；根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl，計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入E；根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò)，計算文本分類器P；根據(jù)待測試文本的特征向量和所述文本分類器P，確定待測試文本的類型；其中，i為詞數(shù)，j為詞向量的維度。本發(fā)明的實(shí)施方式還提供了一種終端設(shè)備，包括：詞向量計算模塊，用于根據(jù)N種文本類型的訓(xùn)練樣本的分詞，計算包含各個詞向量wij的詞向量矩陣Wij；所述N為大于2的自然數(shù)；訓(xùn)練樣本特征向量計算模塊，用于根據(jù)所述各個訓(xùn)練樣本所包含的詞向量wij，計算每種文本類型的訓(xùn)練樣本的的特征向量Dl；其中，l＝1,2,...,N。后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊，用于根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl，計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入；文本分類器確定模塊，用于根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò)，計算文本分類器P；待測試文本類型確定模塊，用于根據(jù)待測試文本的特征向量和所述文本分類器P，確定待測試文本的類型；其中，i為詞數(shù)，j為詞向量的維度。本發(fā)明實(shí)施方式相對于現(xiàn)有技術(shù)而言，計算N種文本類型的訓(xùn)練樣本分詞后包含各個詞向量的詞向量矩陣，再基于該詞向量矩陣計算出每種文本類型的訓(xùn)練樣本的特征向量，并根據(jù)計算出的訓(xùn)練樣本的特征向量計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入量，再根據(jù)該后向傳播神經(jīng)網(wǎng)絡(luò)確定出文本分類器，最后根據(jù)待測試文本的特征向量和文本分類器，確定待測試文本的類型。CBOW對詞向量化時，會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系，從而根據(jù)詞向量計算得到的特征向量在一定程度上具有語義特征，再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò)，可使整個網(wǎng)絡(luò)訓(xùn)練也具有語義特性，進(jìn)一步讓整個網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容，具有更好的訓(xùn)練效果，根據(jù)具有語義特性的后向傳播神經(jīng)網(wǎng)絡(luò)確定的確定文本分類器P，也會具有一定語義特性，可極大提高文本分類的準(zhǔn)確度。另外，所述根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl，計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入，具體包括：根據(jù)所述特征向量Dl，通過以下公式，計算所述后向傳播神經(jīng)網(wǎng)絡(luò)的輸入E：其中，M代表所述訓(xùn)練樣本數(shù)，M＞N，k為每個所述訓(xùn)練樣本中的詞數(shù)。通過進(jìn)一步計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入量，可以更好的激活后向傳播神經(jīng)網(wǎng)絡(luò)的神經(jīng)元，使其具有更好的反饋和回應(yīng)機(jī)制，其中，反饋機(jī)制是指信息輸入神經(jīng)網(wǎng)絡(luò)后，神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元所做出的相應(yīng)回應(yīng)，回應(yīng)機(jī)制則是對反饋機(jī)制最終認(rèn)知的正確輸出。另外，所述根據(jù)后向傳播神經(jīng)網(wǎng)絡(luò)，計算文本分類器P，具體包括：將所述后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次；所述迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò)，被確定為文本分類器P；其中，T為預(yù)設(shè)的迭代次數(shù)。通過將后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次，可以讓整個網(wǎng)絡(luò)具有一定的深度，進(jìn)一步使整個網(wǎng)絡(luò)更好的認(rèn)知、理解文本內(nèi)容，具有更好的訓(xùn)練效果，提高分類結(jié)果的準(zhǔn)確度。另外，所述根據(jù)各個訓(xùn)練樣本所包含的詞向量wij，計算每種文本類型的訓(xùn)練樣本的特征向量Dl，具體包括：采用加和求平均的計算方式，計算每種文本類型的所述訓(xùn)練樣本的特征向量Dl；通過加和求平均的計算方式，計算每種文本類型的所述訓(xùn)練樣本的特征向量時，運(yùn)算量小而且計算過程簡便快捷。另外，所述確定待測試文本的類型之前，還包括：計算所述待測試文本的特征向量；其中，將所述待測試文本分詞后，從所述詞向量矩陣Wij中查找所述待測試文本包含的各個詞向量wij；根據(jù)所述待測試文本的詞向量wij，采用加和求平均的計算方式，計算所述待測試文本的特征向量。通過查找詞向量矩陣Wij中的待測試文本所包含的各個詞向量wij，可以充分利用已有的詞向量矩陣Wij，從而實(shí)現(xiàn)對各個詞向量的快速準(zhǔn)確查找，間接提高整個待測試文本分類過程的效率。附圖說明圖1是根據(jù)本發(fā)明第一實(shí)施方式的一種詞向量的文本分類方法流程圖；圖2是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型的結(jié)構(gòu)示意圖；圖3是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖；圖4是根據(jù)本發(fā)明第一實(shí)施方式的CBOW模型查詞的相關(guān)示意圖；圖5是根據(jù)本發(fā)明第一實(shí)施方式的負(fù)采樣算法隱射的建立示意圖；圖6是根據(jù)本發(fā)明第一實(shí)施方式的CBOW-BP模型的結(jié)構(gòu)示意圖；圖7是根據(jù)本發(fā)明第三實(shí)施方式的一種終端設(shè)備的結(jié)構(gòu)示意圖；圖8是根據(jù)本發(fā)明第四實(shí)施方式的一種終端設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對本發(fā)明的各實(shí)施方式進(jìn)行詳細(xì)的闡述。然而，本領(lǐng)域的普通技術(shù)人員可以理解，在本發(fā)明各實(shí)施方式中，為了使讀者更好地理解本申請而提出了許多技術(shù)細(xì)節(jié)。但是，即使沒有這些技術(shù)細(xì)節(jié)和基于以下各實(shí)施方式的種種變化和修改，也可以實(shí)現(xiàn)本申請所要求保護(hù)的技術(shù)方案。本發(fā)明的第一實(shí)施方式涉及一種詞向量的文本分類方法。具體流程如圖1所示。在步驟101中，計算詞向量矩陣Wij，將N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中，計算詞向量矩陣Wij。具體地說，將包含N種文本類型的訓(xùn)練樣本進(jìn)行分詞后，得到的數(shù)據(jù)輸入至CBOW中，計算出該N種文本類型的訓(xùn)練樣本的詞向量及包含各詞向量的詞向量矩陣，其中，詞向量記作wij，詞向量矩陣記作Wij，i為詞數(shù)，j為詞向量的維度，詞向量矩陣Wij的具體形式如下所示：其中，Wij中的每一行代表一個詞的向量表達(dá)。此外，本發(fā)明實(shí)施方式中所說的CBOW，是基于負(fù)采樣算法的CBOW。常用的CBOW有基于HierarchicalSoftmax的CBOW和基于負(fù)采樣算法的CBOW兩種類型，下面分別對基于HierarchicalSoftmax的CBOW和基于負(fù)采樣算法的CBOW進(jìn)行介紹。其中，基于HierarchicalSoftmax的CBOW模型，包含輸入層、投影層和輸出層，其是在已知當(dāng)前詞wt的上下文wt-2，wt-1，wt+1，wt+2的前提下預(yù)測當(dāng)前詞wt，如圖2所示。假設(shè)樣本(Context(w),w)由w前后各c個詞構(gòu)成，則輸入層包含Context(w)中2c個詞的詞向量v(Context(w)1v)，v(Context(w)2v)，v(Context(w)2cv)∈Rm，m表示詞向量的長度。投影層將輸入的2c個向量做求和累加，即其結(jié)構(gòu)示意圖如圖3所示。輸出層對應(yīng)一棵二叉樹，它是以語料中出現(xiàn)過的詞當(dāng)葉子結(jié)點(diǎn)，以各詞在語料中出現(xiàn)的次數(shù)當(dāng)權(quán)值構(gòu)造出來的霍夫曼樹，在這棵霍夫曼樹中，葉子結(jié)點(diǎn)共N＝(|D|)個，分別對應(yīng)詞典D中的詞s，非葉子結(jié)點(diǎn)N-1個(圖中標(biāo)成黑色的那些結(jié)點(diǎn))。HierarchicalSoftmax是詞向量中用于提高性能的一項關(guān)鍵技術(shù)，霍夫曼樹中的某個葉子結(jié)點(diǎn)，假設(shè)它對應(yīng)詞典D中的詞w，記：1)pw表示從根結(jié)點(diǎn)出發(fā)到達(dá)w對應(yīng)葉子結(jié)點(diǎn)的路徑；2)lw表示路徑pw中包含結(jié)點(diǎn)的個數(shù)；3)表示路徑pw中的lw個結(jié)點(diǎn)，其中表示根結(jié)點(diǎn)，表示詞w對應(yīng)的結(jié)點(diǎn)；4)表示詞w的霍夫曼編碼，它由lw-1位編碼構(gòu)成，表示路徑pw中第j個結(jié)點(diǎn)對應(yīng)的編碼(根結(jié)點(diǎn)不對應(yīng)編碼)；5)表示路徑pw中非葉子結(jié)點(diǎn)對應(yīng)的向量，表示路徑pw中第j個非葉子結(jié)點(diǎn)對應(yīng)的向量?，F(xiàn)用詞w＝“足球”的示例，說明如何在圖3所示的網(wǎng)絡(luò)結(jié)構(gòu)下，利用向量xw∈Rm以及霍夫曼樹來定義函數(shù)p(w|Context(w))，具體過程如圖4所示。四條虛線邊串起來的5個節(jié)點(diǎn)就構(gòu)成路徑pw，其長度lw＝5，為路徑pw上的5個結(jié)點(diǎn)，且對應(yīng)根結(jié)點(diǎn)，分別為1,0,0,1，即“足球”的霍夫曼編碼為1001，此外，分別表示路徑pw上4個非葉子結(jié)點(diǎn)對應(yīng)的向量。從根結(jié)點(diǎn)出發(fā)到達(dá)“足球”這個葉子節(jié)點(diǎn)，中間共經(jīng)理了4次分支(每條虛線的邊對應(yīng)一次分支)，而每一次分支都可視為進(jìn)行了一次二分類。既然是從二分類的角度來考慮問題，那么每一個非葉子結(jié)點(diǎn)，就需要為其左右孩子結(jié)點(diǎn)制定一個類別，即哪個是正類(標(biāo)簽為1)，哪個是負(fù)類(標(biāo)簽為0)，除根結(jié)點(diǎn)以外，樹中每個結(jié)點(diǎn)都對應(yīng)了一個取值為0或1的霍夫曼編碼，因此，一種最自然的做法就是將霍夫曼編碼為1的結(jié)點(diǎn)定義為正類，編碼為0的結(jié)點(diǎn)定義為負(fù)類(也可將0定義為正類，1定義為負(fù)類)，也就是將一個結(jié)點(diǎn)進(jìn)行分類時，分到左邊就是負(fù)類，分到右邊就是正類，在此約定：根據(jù)邏輯回歸可知，一個結(jié)點(diǎn)被分為正類的概率是被分為負(fù)類的概率則為其中，θ是待定參數(shù)，在這里非葉子結(jié)點(diǎn)對應(yīng)的那些就可以扮演參數(shù)θ的角色。對于從根結(jié)點(diǎn)出發(fā)到達(dá)“足球”這個葉子結(jié)點(diǎn)所經(jīng)歷的4次二分類，將每次分類結(jié)果的概率寫出來就是：1)第1次：2)第2次：3)第3次：4)第4次：則至此，通過w＝“足球”的例子可知：對于詞典D中的任意詞w,霍夫曼樹中必存在一條存根結(jié)點(diǎn)到詞w對應(yīng)結(jié)點(diǎn)的路徑pw(且這條路徑是唯一的)。路徑pw上存在lw-1個分支，將每個分支看作一次二分類，每一次分類就產(chǎn)生一個概率，將這些概率相乘即為p(w|Context(w))。p(w|Context(w))=Πj=2lwp(djw|xw,θj-1w)---(1)]]>p(djw|xw,θj-1w)=σ(xwTθj-1w),djw=01-σ(xwTθj-1w),djw=1]]>或者，寫成整體表達(dá)式的形式：p(djw|xw,θj-1w)=[σ(xwTθj-1w)]1-djw[1-σ(xwTθj-1w)]djw]]>假設(shè)Yw＝(yw,1,yw,2,…,yw,N)T為一個長度為N的向量，其分量不能表示概率，如果想要Yw的分量yw,i表示上下文為Context(w)時下一個詞恰巧為詞典D中第i個詞的概率，則需要做一個softmax的歸一化處理，則有其中iw表示詞w在詞典D中的索引。因此將式(1)代入對數(shù)似然函數(shù)中，則：l=Σw∈ClogΠj=2lw{[σ(xwTθj-1w)]1-djw[1-σ(xwTθj-1w)]djw}=Σw∈CΠj=2lw{(1-djw)·log[σ(xwTθj-1w)]+djw·log[1-σ(xwTθj-1w)]}]]>記為CBOW模型的目標(biāo)函數(shù)，在詞向量中是利用隨機(jī)梯度上升法來優(yōu)化上述函數(shù)的。隨機(jī)梯度上升法的做法如下所示：每取一個樣本(Context(w),w)，就對目標(biāo)函數(shù)中的所有相關(guān)參數(shù)做一次更新。觀察目標(biāo)函數(shù)可知，該函數(shù)中的參數(shù)包括向量給出函數(shù)關(guān)于這些向量的梯度。其中，關(guān)于的梯度為：∂l(w,j)∂θj-1w=∂∂θj-1w(1-djw)·log[σ(xwTθj-1w)]+djw·log[1-σ(xwTθj-1w)]}=(1-djw)[1-σ(xwTθj-1w)]xw-djwσ(xwTθj-1w)xw={(1-djw)[1-σ(xwTθj-1w)]-djwσ(xwTθj-1w)}xw=[1-djw-σ(xwTθj-1w)]xw]]>于是，的更新公式可寫為：η表示學(xué)習(xí)率。同理可得對xw的梯度為：∂l(w,j)∂xw=[1-djw-σ(xwTθj-1w)]θj-1w]]>這里，xw表示的是Context(w)中各詞的詞向量的累加，最終目的是求詞典D中每個詞的詞向量，則基于負(fù)采樣算法的CBOW模型中，已知詞w的上下文Context(w)，需要預(yù)測w,因此，對于給定的Context(w)，詞w就是正樣本，其他詞就是負(fù)樣本。假設(shè)現(xiàn)已選好一個關(guān)于w的負(fù)樣本子集對于定義代表詞的標(biāo)簽，即正樣本的標(biāo)簽為1，負(fù)樣本的標(biāo)簽為0。對于一個給定的正樣本(Context(w),w),希望最大化g(w)=Πu∈{w}∪NEG(w)p(u|Context(w))---(2)]]>其中，也可以寫成整體表達(dá)式的形式：p(u|Context(w))=[σ(xwTθu)]Lw(u)·[1-σ(xwTθu)]1-Lw(u)---(3)]]>這里xw仍表示Context(w)中各個詞的向量之和，而θu∈Rm表示詞u對應(yīng)的一個向量。將式(3)代入式(2)，有：g(w)=σ(xwTθw)Πu∈NEG(w)[1-σ(xwTθu)]]]>其中，表示當(dāng)上下文為(Context(w),w)時，預(yù)測中心詞為w的概率，而則表示當(dāng)上下文為Context(w)時，預(yù)測中心詞為u的概率，則最大化g(w)時，也即最大化同時最小化所有的也即增大正樣本的概率的同時降低負(fù)樣本的概率。對于一個給定的語料庫C，函數(shù)作為整體優(yōu)化的目標(biāo)，為簡化計算，對G取對數(shù)，則最終的目標(biāo)函數(shù)為：l=logG=logΠw∈Cg(w)=Σw∈Clogg(w)=Σw∈ClogΠn∈{w}∪NEG(w){[σ(xwTθu)Lw(u)·[1-σ(xwTθu)]1-Lw(u)}=Σw∈CΣu∈{w}∪NEG(w){Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]}]]>記上式為則：l(w,u)=Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]]]>同樣利用隨機(jī)梯度上升法對其參數(shù)進(jìn)行優(yōu)化，則：關(guān)于θu的梯度為：∂l(w,u)∂θu=∂∂θu{Lw(u)·log[σ(xwTθu)]+[1-Lw(u)]·log[1-σ(xwTθu)]}=Lw(u)[1-σ(xwTθu)]xw-[1-Lw(u)]σ(xwTθu)xw={Lw(u)[1-σ(xwTθu)]-[1-Lw(u)]σ(xwTθu)xw=[Lw(u)-σ(xwTθu)]xw]]>于是，θu的更新公式可寫為：θu:=θu+η[Lw(u)-σ(xwTθ)]xw]]>關(guān)于xw的梯度為：∂l(w,u)∂xw=[Lw(u)-σ(xwθu)]θu]]>于是，利用可得的更新公式為：下面再對本發(fā)明實(shí)施方式中采用的負(fù)采樣算法進(jìn)行簡單介紹，詞典D中的詞在語料C中出現(xiàn)的次數(shù)有高有低，對于那些高頻詞，被選為負(fù)樣本的概率就應(yīng)該比較大，反之，對于那些低頻詞，被選中的概率就會較小。其本質(zhì)上為帶權(quán)采樣的問題，具體算法過程，可描述為：假設(shè)詞典D中的每一個詞w對應(yīng)一個線段l(w),長度為：len(w)=counter(w)Σu∈Dcounter(u)]]>這里counter(·)表示一個詞在語料C中出現(xiàn)的次數(shù)(分母中的求和項用來做歸一化)，現(xiàn)在將這些線段收尾相連拼接在一起，形成一個長度為1的單位線段。如果隨機(jī)的往這個單位線段上打點(diǎn)，則長度越長的線段(對應(yīng)高頻詞)被打中的概率就越大。記這里wj表示詞典D中第j個詞，則以為剖分節(jié)點(diǎn)可得到區(qū)[0,1]上的一個非等距剖分，Ii＝(li-1,li],i-1,2,…,N為其N個剖分區(qū)間。進(jìn)一步引入?yún)^(qū)間[0,1]上的一個等距離剖分，剖分節(jié)點(diǎn)為其中M＞＞N，如圖5所示。將內(nèi)部剖分節(jié)點(diǎn)投影到非等距剖分上，如圖6中的虛線所示，則與區(qū)間的映射關(guān)系為：Table(i)＝wk,wheremi∈Ik,i＝1,2,…,M-1根據(jù)該映射關(guān)系，其采樣過程即為：每次生成一個[1,M-1]間的隨機(jī)整數(shù)r,Table(r)樣本，如果在采樣過程中采樣剛好取到自身wi，則跳過即可。在步驟102中，根據(jù)Wij計算每種文本類型的訓(xùn)練樣本的特征向量。具體地說，根據(jù)步驟101計算出的各個訓(xùn)練樣本所包含的詞向量wij，采用加和求平均的計算方式，可以計算出每種文本類型的訓(xùn)練樣本的特征向量Dl，其中，l＝1,2,...,N，N表示文本類型數(shù)量。假設(shè)有娛樂類、科技類、財經(jīng)類，分別用D1、D2、D3代表娛樂類、科技類和財經(jīng)類的特征向量，則有：D1＝[avg(w11+w21+…+we1)avg(w12+w22+…+we2)…avg(w1n+w3n+…+wen)]＝[Went1Went2…Wentn]D2＝[avg(w11+w31+…+wi1)avg(w12+w32+…+wi2)…avg(w1n+w3n+…+win)]＝[Wtech1Wtech3…Wtechn]D3＝[avg(w11+…+wf1+…+wi1)avg(w12+…+wf2+…+wi2)…avg(w1n+…+wfn+…+win)]＝[Wfina1Wfina2…Wfinan]其中，e代表第e個詞，i第i個詞，f第f個詞，Went1＝avg(w11+w21+…+we1)，Went2＝avg(w12+w22+…+wen)，Wentn＝avg(w1n+w3n+…+wen)，Wtech1＝avg(w11+w31+…+wi1)，Wtech2＝avg(w12+w32+…+wi2)，Wtechn＝avg(w1n+w3n+…+win)，Wfina1＝avg(w11+…+wf1+…+wi1)，Wfina2＝avg(w12+…+wf2+…+wi2)，Wfinan＝avg(w1n+…+wfn+…+win)，若有其他文本類型，同理可得每種文本類型的特征向量。需要注意的是，D1∈[w1,w2,…,we]，D2∈[w1,w3,…,wi]，D3∈[w1,…,wf,…,wi]，其中，每一類中w1,w2,…wm為詞的集合，每個不同文本類型由不同或部分相同的詞組合而成，且特征向量T1、T2、T3中，每個avg(·)中的元素，與Wij中m個詞的順序無關(guān)，也不需要連續(xù)，只與當(dāng)前該文本類型中的組成的詞有關(guān)，因此，在求每一類文本類型時，從矩陣Wij中查找相關(guān)詞并進(jìn)行相應(yīng)的計算即可。在步驟103中，計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。具體地說，將步驟102計算出的各種文本類型的訓(xùn)練樣本的特征向量經(jīng)過加和求平均的特定運(yùn)算后，作為后向傳播神經(jīng)網(wǎng)絡(luò)的輸入，于是將CBOW與后向傳播神經(jīng)網(wǎng)絡(luò)聯(lián)合起來，形成一個新的網(wǎng)絡(luò)模型，并將該網(wǎng)絡(luò)模型稱為CBOW-BP模型，如圖6所示，其中，該后向傳播神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))也分為3層，分別為輸入層、隱含層和輸出層。定義代表CBOW-BP網(wǎng)路的第4層，并定義作為后向傳播神經(jīng)網(wǎng)絡(luò)輸入層的輸入，其中，根據(jù)各種文本類型的訓(xùn)練樣本的特征向量Dl進(jìn)行計算得到，具體計算過程為：⊗=E=fM(t)=avg(Σk≥20Kw(t)k)M]]>其中，M代表訓(xùn)練樣本數(shù)，M＞N，k為每個訓(xùn)練樣本中的詞數(shù)。在此計算過程中，將訓(xùn)練樣本中詞數(shù)少于20個的剔除掉，每個訓(xùn)練樣本的特征向量Dl經(jīng)過層的處理后，作為后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。后向傳播神經(jīng)網(wǎng)絡(luò)隱含層的激活函數(shù)采用S型生長函數(shù)sigmoid函數(shù)，若CBOW-BP模型的輸出為文本的種類N，則后向傳播神經(jīng)網(wǎng)絡(luò)的輸出層的神經(jīng)元個數(shù)為N個。在步驟104中，計算文本分類器P。具體地說，通過將步驟103計算得到的后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次，將迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò)，確定為文本分類器P，其中，T為預(yù)設(shè)的迭代次數(shù)。在步驟105中，從Wij中查找待測試文本包含的詞向量。具體地說，首先將待測試文本進(jìn)行分詞，然后在詞量矩陣Wij中查找該待測試文本所包含的各個詞向量wij。在步驟106中，計算待測試文本的特征向量。具體地說，根據(jù)步驟105得到的待測試文本所包含的各個詞向量wij，采用加和求平均的計算方式，計算待測試文本的特征向量。假設(shè)當(dāng)前待測試文本tm分詞后，由詞w1,w2,…,wn組成，通過在詞向量矩陣Wij中查找待測試文本tm中詞w1,w2,…,wn的向量，得到其中，tm矩陣中一行向量代表一個詞的向量，則當(dāng)前待測試文本的特征向量為：Tm＝[avg(w11+w21+…+wn1)avg(w12+w22+…+wn2)avg(w1i+w2i+…+wnj)]＝[t11t12…t1n]其中，t的下標(biāo)n代表詞向量的維度，1代表當(dāng)前第一個文本，當(dāng)有多個文本時，該處1的值可為自然數(shù)。在步驟107中，確定待測試文本的類型。具體地說，根據(jù)步驟104的文本分類器P和步驟106的待測試文本的特征向量，確定待測試文本的類型。其中，將待測試文本的特征向量輸入到步驟104已確定的文本分類器P中進(jìn)行測試，該待測試文本的類型就是步驟104已確定的文本分類器P的輸出。不難發(fā)現(xiàn)，在本實(shí)施方式中，通過基于HierarchicalSoftmax的連續(xù)詞袋模型CBOW，計算M個N種文本類型的訓(xùn)練樣本分詞后包含各個詞向量的詞向量矩陣，再基于該詞向量矩陣計算出每種文本類型的訓(xùn)練樣本的特征向量，并將計算出的訓(xùn)練樣本的特征向量經(jīng)過特定運(yùn)算后，輸入至后向傳播神經(jīng)網(wǎng)絡(luò)，計算文本分類器，最后根據(jù)待測試文本的特征向量和文本分類器，確定待測試文本的類型。通過這種方式，CBOW對詞向量化時，會考慮當(dāng)前詞的前面幾個詞和后面幾個詞的聯(lián)系，從而根據(jù)詞向量計算得到的特征向量在一定程度上具有語義特征，再結(jié)合經(jīng)典的后向傳播神經(jīng)網(wǎng)絡(luò)，構(gòu)建出一個新的CBOW-BP網(wǎng)絡(luò)，不僅使整個CBOW-BP網(wǎng)絡(luò)訓(xùn)練具有語義特性，還可進(jìn)一步讓CBOW-BP網(wǎng)絡(luò)認(rèn)知、理解文本內(nèi)容，具有更好的訓(xùn)練效果，根據(jù)具有語義特性的后向傳播神經(jīng)網(wǎng)絡(luò)確定的確定文本分類器P，也會具有一定語義特性，可極大提高文本分類的準(zhǔn)確度本發(fā)明的第二實(shí)施方式涉及一種詞向量的文本分類方法。第二實(shí)施方式在第一實(shí)施方式的基礎(chǔ)上做了進(jìn)一步改進(jìn)，主要改進(jìn)之處在于：在本發(fā)明第二實(shí)施方式中，給出了步驟105中，從詞向量矩陣Wij中快速查找所需詞向量的優(yōu)化方法，該方法具體為：預(yù)先為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引，然后根據(jù)該索引在向量矩陣Wij中查找各個待測試文本所包含的詞向量wij。具體流程如圖1所示。本實(shí)施方式不但可以達(dá)到第一實(shí)施方式的技術(shù)效果，而且通過預(yù)先為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引的方式，可以更便捷、快速的在詞量矩陣Wij中查找所需的各個詞向量wij，不僅提高了查找效率，還間接提高了整個文本分類的效率。本發(fā)明第三實(shí)施方式涉及一種終端設(shè)備，包括：詞向量計算模塊10、訓(xùn)練樣本特征向量計算模塊11、后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊12、文本分類器確定模塊13和待測試文本類型確定模塊14，其中，文本分類器確定模塊13具體包括：迭代子模塊131與確定子模塊132，待測試文本類型確定模塊14又具體包括：詞向量獲取子模塊141、特征向量計算子模塊142，如圖7所示。詞向量計算模塊10，用于將M個N種文本類型的訓(xùn)練樣本分詞后的數(shù)據(jù)輸入連續(xù)詞袋模型CBOW中，計算包含各個詞向量wij的詞向量矩陣Wij。訓(xùn)練樣本特征向量計算模塊11，用于根據(jù)各個訓(xùn)練樣本所包含的詞向量wij，計算每種文本類型的訓(xùn)練樣本的的特征向量Dl。后向傳播神經(jīng)網(wǎng)絡(luò)輸入計算模塊12，用于根據(jù)各種文本類型的所述訓(xùn)練樣本的特征向量Dl，計算后向傳播神經(jīng)網(wǎng)絡(luò)的輸入。文本分類器確定模塊13，用于根據(jù)所述后向傳播神經(jīng)網(wǎng)絡(luò)，計算文本分類器P。迭代子模塊131，用于將所述后向傳播神經(jīng)網(wǎng)絡(luò)迭代T次。確定子模塊132，用于將所述迭代T次的后向傳播神經(jīng)網(wǎng)絡(luò)，確定為所述文本分類器P。待測試文本類型確定模塊14，用于根據(jù)待測試文本的特征向量和所述文本分類器P，確定待測試文本的類型。詞向量獲取子模塊141，用于將所述待測試文本分詞后，從所述詞向量矩陣Wij中查找所述待測試文本所包含的各個詞向量wij。特征向量計算子模塊142，用于根據(jù)所述待測試文本的詞向量wij，采用加和求平均的計算方式，計算所述待測試文本的特征向量。不難發(fā)現(xiàn)，本實(shí)施方式為與第一實(shí)施方式相對應(yīng)的系統(tǒng)實(shí)施例，本實(shí)施方式可與第一實(shí)施方式互相配合實(shí)施。第一實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效，為了減少重復(fù)，這里不再贅述。相應(yīng)地，本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第一實(shí)施方式中。值得一提的是，本實(shí)施方式中所涉及到的各模塊均為邏輯模塊，在實(shí)際應(yīng)用中，一個邏輯單元可以是一個物理單元，也可以是一個物理單元的一部分，還可以以多個物理單元的組合實(shí)現(xiàn)。此外，為了突出本發(fā)明的創(chuàng)新部分，本實(shí)施方式中并沒有將與解決本發(fā)明所提出的技術(shù)問題關(guān)系不太密切的單元引入，但這并不表明本實(shí)施方式中不存在其它的單元。本發(fā)明第四實(shí)施方式涉及一種終端設(shè)備，第四實(shí)施方式在第三實(shí)施方式的基礎(chǔ)上做了進(jìn)一步改進(jìn)，主要改進(jìn)之處在于：在本發(fā)明第四實(shí)施方式中，在詞向量計算模塊10之后，還包括：建立索引模塊15，如圖8所示。建立索引模塊15，用于為詞向量矩陣Wij中的每一個詞向量wij建立相應(yīng)索引，使得詞向量獲取子模塊141可以更便捷、快速的根據(jù)該索引，在詞向量矩陣Wij中，查找各個待測試文本所包含的詞向量wij。由于第二實(shí)施方式與本實(shí)施方式相互對應(yīng)，因此本實(shí)施方式可與第二實(shí)施方式互相配合實(shí)施。第二實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)在本實(shí)施方式中依然有效，在第二實(shí)施方式中所能達(dá)到的技術(shù)效果在本實(shí)施方式中也同樣可以實(shí)現(xiàn)，為了減少重復(fù)，這里不再贅述。相應(yīng)地，本實(shí)施方式中提到的相關(guān)技術(shù)細(xì)節(jié)也可應(yīng)用在第二實(shí)施方式中。本領(lǐng)域技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成，該程序存儲在一個存儲介質(zhì)中，包括若干指令用以使得一個設(shè)備(可以是單片機(jī)，芯片等)或處理器(processor)執(zhí)行本申請各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括：U盤、移動硬盤、只讀存儲器(ROM，Read-OnlyMemory)、隨機(jī)存取存儲器(RAM，RandomAccessMemory)、GPU、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。本領(lǐng)域的普通技術(shù)人員可以理解，上述各實(shí)施方式是實(shí)現(xiàn)本發(fā)明的具體實(shí)施例，而在實(shí)際應(yīng)用中，可以在形式上和細(xì)節(jié)上對其作各種改變，而不偏離本發(fā)明的精神和范圍。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周誠;趙世亭;
技術(shù)所有人：上海高欣計算機(jī)系統(tǒng)有限公司;
我是此專利的發(fā)明人

上一篇：一種赤小豆的高產(chǎn)栽培方法與流程
上一篇：一種風(fēng)電場載荷的長期評估方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本分類方法相關(guān)技術(shù)

對文本分類的方法相關(guān)技術(shù)

文本分類有哪些方法相關(guān)技術(shù)

文本類型分類方法相關(guān)技術(shù)

終端設(shè)備開發(fā)相關(guān)技術(shù)

物聯(lián)網(wǎng)終端設(shè)備相關(guān)技術(shù)

終端設(shè)備相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本分類方法及終端設(shè)備與流程