一種文本分類方法及裝置與流程

文檔序號：11230605閱讀：1032來源：國知局

本發(fā)明涉及計算機
技術領域：
，特別是涉及一種文本分類方法及裝置。
背景技術：
：隨著互聯(lián)網技術的飛速發(fā)展，網絡、數(shù)據(jù)庫、電子郵件等海量信息資源以文本的形式存在，文本分類已經成為處理互聯(lián)網海量信息資源的關鍵技術，可以用于搜索引擎、情感分析和用戶畫像等領域。參見圖1，圖1為相關技術中的文本分類方法的流程圖，包括：文本預處理、文本表示、訓練分類器和分類器性能評價等階段。首先，對文本進行預處理，文本預處理指的是對文本進行分詞并且去除對分類性能提高沒有貢獻的停用詞。其次，對分詞結果進行文本表示，即，將非結構化的文本信息映射為vsm(vectorspacemodel，向量空間模型)中的一個向量。然后，根據(jù)機器學習算法設計分類器，通過訓練集(已知文本類型的訓練文本的集合)對分類器進行訓練。最后，通過測試集(已知文本類型的測試文本的集合)對分類器進行測試，得到分類器性能的評價。在分類器性能達到預期目標之后，通過將待分類文本輸入該分類器，即可得到待分類文本的文本類型。提高文本分類準確率的關鍵(提高分類器性能的關鍵)是解決文本中出現(xiàn)的同義詞和一詞多義的問題，解決這兩個問題更有利于計算機理解文本內容，從而對文本進行正確的分類。通常，將語料庫中的詞語統(tǒng)計信息引入分類器，即基于統(tǒng)計的詞語相似度。其中，基于統(tǒng)計的詞語相似度的計算，可以采用基于類別的權重計算方式、基于高階路徑的權重計算方式和基于平均值計算的權重計算方式等多種方法。在得到基于統(tǒng)計的詞語相似度之后，將基于統(tǒng)計的詞語相似度嵌入核函數(shù)，核函數(shù)將高維空間中的兩個點的內積運算替換為兩個簡單函數(shù)的求值，解決了高維空間中內積運算復雜的問題，可以解決非線性分類問題，從而達到文本分類的目的。雖然基于統(tǒng)計的文本分類方法比較客觀，綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是，該方法比較依賴于訓練所用的語料庫，計算量大，計算方法復雜，而且資料稀疏和資料噪聲的干擾較大。因此，如果語料庫不準確，相應的，通過該方法得到的文本分類的準確性會比較低。技術實現(xiàn)要素：本發(fā)明實施例的目的在于提供一種文本分類方法及裝置，以提高文本分類的準確性。具體技術方案如下：本發(fā)明實施例公開了一種文本分類方法，包括：通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量；根據(jù)預先建立的語義平滑矩陣將所述第一文本向量映射為高維空間中的第一映射向量，其中，所述語義平滑矩陣是通過對統(tǒng)計相似度矩陣和詞語相似度矩陣進行計算得到；對所述第一映射向量進行分類，得到所述待分類文本的文本分類結果?？蛇x的，在所述通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量之前，所述方法還包括：通過文本表示將訓練文本映射為vsm中的第二文本向量；根據(jù)核矩陣公式，計算所述第二文本向量的統(tǒng)計相似度矩陣；根據(jù)世界知識，確定所述第二文本向量的詞語相似度矩陣；根據(jù)所述統(tǒng)計相似度矩陣和所述詞語相似度矩陣，確定所述語義平滑矩陣。可選的，在所述通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量之前，所述方法還包括：對所述待分類文本進行預處理，得到預處理后的待分類文本；所述通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量，包括：通過文本表示將預處理后的待分類文本映射為vsm中的第一文本向量?？蛇x的，所述通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量，包括：如果所述待分類文本dj中包含的n個特征詞分別為：w1j,w2j,…,wnj，所述n個特征詞構成的向量表示為：(w1j,w2j,…,wnj)，根據(jù)權重計算公式：確定所述第一文本向量中特征詞w的權重uw,c(w,dj)；w包括：w1j,w2j,…,wnj，則所述第一文本向量表示為：[uw,c(w1j,dj),uw,c(w2j,dj),…,uw,c(wnj,dj)]，其中，tfcw,c表示特征詞w在類別c中出現(xiàn)的總個數(shù)，|d|表示文本的總個數(shù)，dfw表示包含特征詞w的文本的總個數(shù)。可選的，所述根據(jù)核矩陣公式，計算所述第二文本向量的統(tǒng)計相似度矩陣，包括：根據(jù)所述核矩陣公式：s＝uut，確定所述第二文本向量的統(tǒng)計相似度矩陣s，其中，u表示所述第二文本向量中特征詞的權重形成的矩陣?？蛇x的，所述根據(jù)所述統(tǒng)計相似度矩陣和所述詞語相似度矩陣，確定所述語義平滑矩陣，包括：根據(jù)公式：e＝λ1×s+λ2×z，通過調節(jié)所述統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和所述詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到所述語義平滑矩陣e；根據(jù)所述語義平滑矩陣e，確定所述訓練文本的文本分類結果以及所述訓練文本的文本分類準確率；當所述文本分類準確率小于預設閾值時，返回所述通過調節(jié)所述統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和所述詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到所述語義平滑矩陣e的步驟，直至所述文本分類準確率大于或等于所述預設閾值；當所述文本分類準確率大于或等于所述預設閾值時，確定所述語義平滑矩陣e對應的λ1和λ2的值；根據(jù)公式：e＝λ1×s+λ2×z，確定所述語義平滑矩陣e；其中，λ1+λ2＝1。本發(fā)明實施例還公開了一種文本分類裝置，包括：第一文本表示模塊，用于通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量；文本映射模塊，用于根據(jù)預先建立的語義平滑矩陣將所述第一文本向量映射為高維空間中的第一映射向量，其中，所述語義平滑矩陣是通過對統(tǒng)計相似度矩陣和詞語相似度矩陣進行計算得到；文本分類模塊，用于對所述第一映射向量進行分類，得到所述待分類文本的文本分類結果?？蛇x的，本發(fā)明實施例的文本分類裝置，還包括：第二文本表示模塊，用于通過文本表示將訓練文本映射為vsm中的第二文本向量；統(tǒng)計相似度矩陣確定模塊，用于根據(jù)核矩陣公式，計算所述第二文本向量的統(tǒng)計相似度矩陣；詞語相似度矩陣確定模塊，用于根據(jù)世界知識，確定所述第二文本向量的詞語相似度矩陣；語義平滑矩陣確定模塊，用于根據(jù)所述統(tǒng)計相似度矩陣和所述詞語相似度矩陣，確定所述語義平滑矩陣。可選的，本發(fā)明實施例的文本分類裝置，還包括：預處理模塊，用于對所述待分類文本進行預處理，得到預處理后的待分類文本；第一文本表示模塊，進一步用于通過文本表示將預處理后的待分類文本映射為vsm中的第一文本向量?？蛇x的，所述第一文本表示模塊具體用于，如果所述待分類文本dj中包含的n個特征詞分別為：w1j,w2j,…,wnj，所述n個特征詞構成的向量表示為：(w1j,w2j,…,wnj)，根據(jù)權重計算公式：確定所述第一文本向量中特征詞w的權重uw,c(w,dj)；w包括：w1j,w2j,…,wnj，則所述第一文本向量表示為：[uw,c(w1j,dj),uw,c(w2j,dj),…,uw,c(wnj,dj)]，其中，tfcw,c表示特征詞w在類別c中出現(xiàn)的總個數(shù)，|d|表示文本的總個數(shù)，dfw表示包含特征詞w的文本的總個數(shù)。本發(fā)明實施例提供的文本分類方法及裝置，通過文本表示將待分類文本映射為vsm中的第一文本向量。根據(jù)預先建立的語義平滑矩陣將第一文本向量映射為高維空間中的第一映射向量。對第一映射向量進行分類，得到待分類文本的文本分類結果。本發(fā)明實施例通過將統(tǒng)計相似度矩陣和詞語相似度矩陣相結合，建立語義平滑矩陣，通過語義平滑矩陣對文本進行分類，提高了文本分類的準確性。當然，實施本發(fā)明的任一產品或方法并不一定需要同時達到以上所述的所有優(yōu)點。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為相關技術中的文本分類方法的流程圖；圖2為本發(fā)明實施例的文本分類方法的流程圖；圖3為本發(fā)明實施例的文本分類裝置的一種結構圖；圖4為本發(fā)明實施例的文本分類裝置的另一種結構圖。具體實施方式下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。為了解決現(xiàn)有技術中的問題，本發(fā)明實施例提供了一種文本分類方法及裝置，以提高文本分類的準確性。下面首先對本發(fā)明實施例所提供的文本分類方法進行介紹。參見圖2，圖2為本發(fā)明實施例的文本分類方法的流程圖，包括以下步驟：s201，通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量。需要說明的是，文本表示是一種文本信息處理方法，由于文本是一種非結構化的數(shù)據(jù)，計算機無法直接對文本進行處理。因此，在通過文本表示將文本映射成為vsm中的向量之后，計算機可以對該vsm中的向量進行處理。其中，vsm中向量中的元素表示文本中各個詞語的權重。在現(xiàn)有技術中，通常使用詞袋子來表示文章，所謂詞袋子，就是詞語權重的值通常由詞頻或者tf-idf(termfrequency–inversedocumentfrequency，詞頻-逆向文件頻率)公式得到。tf-idf是應用最廣泛的權值計算方法，它是一種統(tǒng)計方法，用以評估一個字詞對于一個文本集或一個語料庫中的其中一份文本的重要程度。一般來說，字詞的重要性隨著它在文本中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。根據(jù)tf-idf公式：tf-idf(w,di)＝tfw*idf(w)，計算特征詞w在所有文本中的tf-idf值。其中，idf公式為：idf(w)表示特征詞w在所有文本中的逆向文本頻率，|d|表示文本的總個數(shù)，dfw表示包含特征詞w的文本的總個數(shù)，tfw表示tf值，也即特征詞w在文本d中出現(xiàn)的個數(shù)。通過計算詞語權重的值，即tf-idf值，可以得到詞語在文本中的重要程度，將文本映射成為詞權重向量φ(dj)：φ(dj)＝[tfidf(w1,dj),tfidf(w2,dj),…,tfidf(wn,dj)]，其中，tfidf(wi,dj)表示特征詞wi在文本dj中的tf-idf值。那么，φ(dj)即為文本dj通過文本表示后得到的文本向量。本發(fā)明實施例中，根據(jù)待分類文本中的詞語在待分類文本中的重要程度，確定待分類文本對應的第一文本向量。待分類文本中的詞語在待分類文本中的重要程度通過權重計算公式進行計算，權重計算公式的具體計算方法將在下文進行詳細描述，在此不再贅述。s202，根據(jù)預先建立的語義平滑矩陣將第一文本向量映射為高維空間中的第一映射向量，其中，語義平滑矩陣是通過對統(tǒng)計相似度矩陣和詞語相似度矩陣進行計算得到。具體的，在通過s201得到待分類文本的第一文本向量之后，將第一文本向量輸入分類器，通過分類器對待分類文本進行分類。由于分類器決定了文本分類的準確率，因此，分類器的設計是文本分類的關鍵。常用的分類器設計方式包括：貝葉斯分類器、knn(k-nearestneighbor，k最近鄰)分類器和svm(supportvectormachine，支持向量機)分類器等等。其中，knn算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于該類別，并具有該類別上樣本的特性。svm是從統(tǒng)計學習理論發(fā)展出的一種非常有效的機器學習算法。svm由vapnik、guyon和boser提出，svm的核心目標是利用類別間最大間距找到最優(yōu)的分割超平面，svm可以發(fā)現(xiàn)全局最優(yōu)解和具有很好的健壯性等。鑒于svm的上述優(yōu)點，本發(fā)明實施例中的分類器可以為svm分類器。對于svm分類器，在實際操作中，提出定義一個合適的核函數(shù)，核函數(shù)對找到最優(yōu)的分割超平面有直接的影響。核函數(shù)將高維空間中的兩個點的內積運算替換為兩個簡單函數(shù)的求值，解決了高維空間中內積運算復雜的問題，從而可以解決非線性分類問題，從而達到文本分類的目的。常用的核函數(shù)包括：線性核函數(shù)：k(dp,dq)＝dpdq；多項式核函數(shù)：k(dp,dq)＝(dpdq+1)b,b＝1,2,……；rbf(radialbasisfunction，徑向基函數(shù))：k(dp,dq)＝exp(γ||dp-dq||2)。核函數(shù)的選擇與先驗知識有關，一般來說，運用svm解決實際問題時通常選用徑向基函數(shù)，也就是高斯核函數(shù)，這是由于實際數(shù)據(jù)中大部分分布都可以認為近似服從高斯分布。對于文本分類問題，svm核函數(shù)可以看成是一個詞語相似函數(shù)。本發(fā)明實施例中，語義平滑矩陣也是一種核函數(shù)。語義平滑矩陣就是對詞語的詞向量進行調整，使得調整后的詞向量更能準確地表示該詞語。下文將對語義平滑矩陣進行詳細介紹，在此不再贅述。s203，對第一映射向量進行分類，得到待分類文本的文本分類結果。需要說明的是，在沒有定義核函數(shù)時，分割超平面是低維的，此時，通過低維的超平面是不容易對文本進行分類的。在定義核函數(shù)之后，核函數(shù)將特征向量從低維空間映射到高維空間，映射到高維空間以后，很多線性不可分的數(shù)據(jù)，就變成了可分的數(shù)據(jù)。本發(fā)明實施例中，通過語義平滑矩陣將第一文本向量映射為第一映射向量，第一映射向量為高維向量。這樣，分類器可以直接對第一映射向量進行分類，得到待分類文本的文本分類結果?？梢姡景l(fā)明實施例的文本分類方法，通過文本表示將待分類文本映射為vsm中的第一文本向量。根據(jù)預先建立的語義平滑矩陣將第一文本向量映射為高維空間中的第一映射向量。對第一映射向量進行分類，得到待分類文本的文本分類結果。本發(fā)明實施例通過將統(tǒng)計相似度矩陣和詞語相似度矩陣相結合，以及對訓練文本進行訓練，得到語義平滑矩陣，通過語義平滑矩陣對文本進行分類，提高了文本分類的準確性?？蛇x的，在通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量之前，本發(fā)明實施例的文本分類方法還包括：第一步，通過文本表示將訓練文本映射為vsm中的第二文本向量。需要說明的是，本發(fā)明實施例的語義平滑矩陣，是通過對訓練文本進行訓練得到的。因此，在訓練過程中對訓練文本的文本表示方法與實際分類過程中對待分類文本的文本表示方法是相同的，即，第一步中的文本表示與s201中的過程是相同的，具體過程可參見s201，在此不再贅述。第二步，根據(jù)核矩陣公式，計算第二文本向量的統(tǒng)計相似度矩陣?？蛇x的，上述第二步的一種實施方式中，根據(jù)核矩陣公式，計算第二文本向量的統(tǒng)計相似度矩陣，包括：根據(jù)核矩陣公式：s＝uut，確定第二文本向量的統(tǒng)計相似度矩陣s，其中，u表示第二文本向量中特征詞的權重形成的矩陣，第二文本向量中特征詞的權重的計算方法與第一文本向量中特征詞的權重的計算方法相同，并且將在下文進行介紹，統(tǒng)計相似度矩陣s是一個對稱矩陣，統(tǒng)計相似度矩陣s中的元素si,j表示特征詞wi與特征詞wj的統(tǒng)計相似度。第三步，根據(jù)世界知識，確定第二文本向量的詞語相似度矩陣。其中，世界知識為文本所用語言的詞典知識，詞典包括：《知網》和《詞林》等。根據(jù)世界知識得到詞語相似度矩陣，指的是從詞典中抽取規(guī)則對詞語進行分類?！吨W》主要包括概念和義原兩個概念。每個詞語會有多個概念來描述，每個概念都由一系列的義原描述，也就是說義原是《知網》中最小的表達單元?！吨W》中共包含1500個義原，可以分為基本義原(描述概念的語義特征)、語法義原(描述詞語的語法特征)、關系義原(描述概念之間的關系)三大類。此外，《知網》中還采用一些符號對概念的語義進行描述，這些符號可以包括：邏輯符號(,～^)、關系符號(#％$*+&@？！)、特殊符號({}()[])。所以概念之間的關系既可以使用關系義原，又可以使用關系符號來表示?！吨W》中主要收錄了實詞和虛詞兩大類，虛詞的表示比較簡單，用句法義原或者關系義原表示。實詞的描述比較復雜，有一系列的“語義描述式”組成。但是，在計算詞語相似度的時候可以對其結構進行重構，將其定義為如下結構：詞語相似度的計算包括：虛詞相似度計算：虛詞相似度只需要計算其句法義原或者關系義原之間的相似度即可。而虛詞和實詞之間的相似度為零。實詞相似度計算：其中，sim1(s1,s2)表示第一基本義原相似度，sim2(s1,s2)表示其他基本義原相似度，sim3(s1,s2)表示關系義原相似度，sim4(s1,s2)表示關系符號相似度，βi為可調整參數(shù)，滿足以下約束條件：β1+β2+β3+β4＝1,β1≥β2≥β3≥β4，其中，sim1(s1,s2)表示兩個義原的相似度，計算公式如下所示：其中，d表示p1和p2在義原層次體系中的路徑長度，α是一個可調節(jié)參數(shù)，sim2(s1,s2)是兩個集合之間的相似度，即所有元素對的相似度的算術平均值。sim3(s1,s2)是兩個特征結構相似度的計算，即為特征結構中的基本義原或者具體詞之間相似度計算之后進行算術平均，sim4(s1,s2)也是兩個特征結構相似度的計算，該特征結構中的元素是集合，而集合的元素是基本義原或者具體詞，所以最終轉化為對基本義原求相似度再取平均。從上面基于《知網》作為世界知識的詞語相似度的計算方法可以看出，詞語相似度矩陣z中的元素zi,j表示特征詞i和特征詞j的相似度。第四步，根據(jù)統(tǒng)計相似度矩陣和詞語相似度矩陣，確定語義平滑矩陣。本發(fā)明實施例的目的是將基于統(tǒng)計的統(tǒng)計相似度矩陣和基于世界知識的詞語相似度矩陣相結合，得到使文本分類準確率更高的語義平滑矩陣。本發(fā)明實施例的一種實現(xiàn)方式中，根據(jù)統(tǒng)計相似度矩陣和詞語相似度矩陣確定語義平滑矩陣，包括：根據(jù)公式：e＝λ1×s+λ2×z，通過調節(jié)統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到語義平滑矩陣e；根據(jù)語義平滑矩陣e，確定訓練文本的文本分類結果以及訓練文本的文本分類準確率。當文本分類準確率小于預設閾值時，返回通過調節(jié)統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到語義平滑矩陣e的步驟，直至文本分類準確率大于或等于預設閾值。當文本分類準確率大于或等于預設閾值時，確定語義平滑矩陣e對應的λ1和λ2的值；根據(jù)公式：e＝λ1×s+λ2×z，確定語義平滑矩陣e；其中，λ1+λ2＝1。本發(fā)明實施例中，通過公式：e＝λ1×s+λ2×z，將統(tǒng)計相似度矩陣和詞語相似度矩陣相結合。其中，λ1+λ2＝1，并且λ1和λ2的值是可以調節(jié)的。因此，確定語義平滑矩陣e的過程，即為調節(jié)λ1和λ2的值，使訓練文本的文本分類準確率達到預設閾值的過程。具體的，在對訓練文本進行訓練時，通過調節(jié)λ1和λ2的值，對訓練文本進行訓練，得到語義平滑矩陣。例如，可以設置λ1的值為0、0.2、0.4、0.6、0.8和1，相應的，λ2的值為1、0.8、0.6、0.4、0.2和0。計算λ1和λ2取不同值時，訓練文本的文本分類結果，將得到的文本分類結果與訓練文本實際的文本類型進行比較，計算文本分類的準確率。將文本分類的準確率達到預設閾值時對應的語義平滑矩陣確認為本發(fā)明實施例訓練得到的語義平滑矩陣。即，確定文本分類準確率達到預設閾值時語義平滑矩陣e對應的λ1和λ2的值，根據(jù)公式：e＝λ1×s+λ2×z，確定語義平滑矩陣e。其中，預設閾值可以為80％，也可以為根據(jù)實際情況設定的其他值，在此不做限定。舉例而言，某大學訓練文本分為藝術，文學，教育，哲學，空間，能源，電子，通訊，計算機，地理，交通，環(huán)境，農業(yè)，經濟，法律，醫(yī)療，軍事，政治和體育等20個類別。本發(fā)明實施例中，在每個類別中選擇100個文檔，因此，訓練文本包含總共2000個文檔。表一為訓練文本的文本分類準確率，表格中的縱向(第一列)表示訓練文本中訓練數(shù)據(jù)占比變化，橫向(第一行)表示λ1值，與此對應的λ2的值為1-λ1。通過這個表格表現(xiàn)出語義平滑矩陣在訓練集占比不同的情況下，分類器性能的變化。其中，訓練文本包括：訓練數(shù)據(jù)和測試數(shù)據(jù)，訓練數(shù)據(jù)用于訓練分類器，測試數(shù)據(jù)用于測試通過對訓練數(shù)據(jù)進行訓練得到的分類器的性能。表一ts％00.20.40.60.813084.44％85.81％85.25％82.22％78.81％73.13％5084.69％85.67％84.22％83.32％78.19％73.78％7086.49％86.73％85.78％85.54％79.83％74.92％8085.46％87.23％86.17％85.11％81.20％75.21％9084.82％84.82％85.78％82.06％78.62％76.67％可選的，當文本分類的準確率大于或等于80％時確定分類器是有效的，那么，從表一種可以看出當λ1＝1時，即單純使用基于統(tǒng)計的統(tǒng)計相似度矩陣作為核函數(shù)時，準確率并不能達到有效的要求。當訓練集在30％時，統(tǒng)計相似度矩陣和詞語相似度矩陣占比為2:8時，文本分類的準確率最高。當訓練集在90％時，統(tǒng)計相似度和語義相似度占比為4:6時，分類準確率達到最高。并且，當訓練集占90％以上，準確率都能保持在較高的水平。可以看出，通過將統(tǒng)計相似度矩陣和詞語相似度矩陣相結合，比單獨使用該兩種矩陣時，提高了文本分類的準確率?？蛇x的，在通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量之前，本發(fā)明實施例的文本分類方法還包括：對待分類文本進行預處理，得到預處理后的待分類文本。通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量，包括：通過文本表示將預處理后的待分類文本映射為vsm中的第一文本向量。一般的，待分類文本中包含多種詞語，例如：使用頻率很低的不常用詞語，或者已經停止使用的詞語等，這些詞語對分類器性能的提高是沒有貢獻的。通過對待分類文本進行預處理，例如，將這些詞語刪除，在對預處理后的待分類文本進行文本表示時，可以減小文本表示過程中的計算量。本發(fā)明實施例的一種實現(xiàn)方式中，通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量，包括：如果待分類文本dj中包含的n個特征詞分別為：w1j,w2j,…,wnj，n個特征詞構成的向量表示為：(w1j,w2j,…,wnj)，根據(jù)權重計算公式：確定第一文本向量中特征詞w的權重uw,c(w,dj)；w包括：w1j,w2j,…,wnj，則第一文本向量表示為：[uw,c(w1j,dj),uw,c(w2j,dj),…,uw,c(wnj,dj)]，其中，tfcw,c表示特征詞w在類別c中出現(xiàn)的總個數(shù)，|d|表示文本的總個數(shù)，dfw表示包含特征詞w的文本的總個數(shù)。本發(fā)明實施例通過權重計算公式對待分類文本進行文本表示，與tf-idf相比，該權重計算公式還將特征詞與文本類別相聯(lián)系，得到特征詞在某一文本類別的權重。通過實驗測試發(fā)現(xiàn)，本發(fā)明實施例通過權重計算公式得到的特征詞的權重，準確性更高。相應于上述方法實施例，本發(fā)明實施例還公開了了一種文本分類裝置，參見圖3，圖3為本發(fā)明實施例的文本分類裝置的一種結構圖，包括：第一文本表示模塊301，用于通過文本表示將待分類文本映射為向量空間模型vsm中的第一文本向量。文本映射模塊302，用于根據(jù)預先建立的語義平滑矩陣將第一文本向量映射為高維空間中的第一映射向量，其中，語義平滑矩陣是通過對統(tǒng)計相似度矩陣和詞語相似度矩陣進行計算得到。文本分類模塊303，用于對第一映射向量進行分類，得到待分類文本的文本分類結果?？梢?，本發(fā)明實施例的文本分類裝置，通過文本表示將待分類文本映射為vsm中的第一文本向量。根據(jù)預先建立的語義平滑矩陣將第一文本向量映射為高維空間中的第一映射向量。對第一映射向量進行分類，得到待分類文本的文本分類結果。本發(fā)明實施例通過將統(tǒng)計相似度矩陣和詞語相似度矩陣相結合，以及對訓練文本進行訓練，得到語義平滑矩陣，通過語義平滑矩陣對文本進行分類，提高了文本分類的準確性。需要說明的是，本發(fā)明實施例的裝置是應用上述文本分類方法的裝置，則上述文本分類方法的所有實施例均適用于該裝置，且均能達到相同或相似的有益效果。參見圖4，圖4為本發(fā)明實施例的文本分類裝置的另一種結構圖，在圖3實施例的基礎上，還包括：第二文本表示模塊401，用于通過文本表示將訓練文本映射為vsm中的第二文本向量。統(tǒng)計相似度矩陣確定模塊402，用于根據(jù)核矩陣公式，計算第二文本向量的統(tǒng)計相似度矩陣。詞語相似度矩陣確定模塊403，用于根據(jù)世界知識，確定第二文本向量的詞語相似度矩陣。語義平滑矩陣確定模塊404，用于根據(jù)統(tǒng)計相似度矩陣和詞語相似度矩陣，確定語義平滑矩陣。可選的，本發(fā)明實施例的文本分類裝置，還包括：預處理模塊，用于對待分類文本進行預處理，得到預處理后的待分類文本。第一文本表示模塊，進一步用于通過文本表示將預處理后的待分類文本映射為vsm中的第一文本向量。本發(fā)明實施例的一種實現(xiàn)方式中，第一文本表示模塊具體用于，如果待分類文本dj中包含的n個特征詞分別為：w1j,w2j,…,wnj，n個特征詞構成的向量表示為：(w1j,w2j,…,wnj)，根據(jù)權重計算公式：確定第一文本向量中特征詞w的權重uw,c(w,dj)；w包括：w1j,w2j,…,wnj，則第一文本向量表示為：[uw,c(w1j,dj),uw,c(w2j,dj),…,uw,c(wnj,dj)]，其中，tfcw,c表示特征詞w在類別c中出現(xiàn)的總個數(shù)，|d|表示文本的總個數(shù)，dfw表示包含特征詞w的文本的總個數(shù)。可選的，本發(fā)明實施例的文本分類裝置中，統(tǒng)計相似度矩陣確定模塊具體用于，根據(jù)核矩陣公式：s＝uut，確定第二文本向量的統(tǒng)計相似度矩陣s，其中，u表示第二文本向量中特征詞的權重形成的矩陣?？蛇x的，本發(fā)明實施例的文本分類裝置中，語義平滑矩陣確定模塊，包括：調節(jié)子模塊，用于根據(jù)公式：e＝λ1×s+λ2×z，通過調節(jié)統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到語義平滑矩陣e。文本分類準確率確定子模塊，用于根據(jù)語義平滑矩陣e，確定訓練文本的文本分類結果以及訓練文本的文本分類準確率。循環(huán)子模塊，用于當文本分類準確率小于預設閾值時，返回通過調節(jié)統(tǒng)計相似度矩陣s權重的歸一化參數(shù)λ1和詞語相似度矩陣z權重的歸一化參數(shù)λ2的值得到語義平滑矩陣e的步驟，直至文本分類準確率大于或等于預設閾值。參數(shù)確定子模塊，用于當文本分類準確率大于或等于預設閾值時，確定語義平滑矩陣e對應的λ1和λ2的值。矩陣確定子模塊，用于根據(jù)公式：e＝λ1×s+λ2×z，確定語義平滑矩陣e。其中，λ1+λ2＝1。需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。本說明書中的各個實施例均采用相關的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。以上所述僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等，均包含在本發(fā)明的保護范圍內。當前第1頁12

完整全部詳細技術資料下載

當前第1頁1 2