一種基于改進的SVM中文文本分類方法與流程

文檔序號：12666940閱讀：來源：國知局

技術(shù)特征：

1.一種基于改進的SVM中文文本分類方法，其特征在于包括如下步驟：

步驟1，對中文文本預處理，得到特征項集合；

步驟2，對特征項集合進行特征選擇，得到精簡后的特征項集合；

步驟3，對精簡后的特征項集合計算權(quán)重；

步驟4，構(gòu)建文本向量，將文本中的每個關(guān)鍵詞語作為向量空間中的一個維度，而維度上的值是該關(guān)鍵詞語的權(quán)重；

步驟5，采用加權(quán)支持向量機構(gòu)建分類器；

步驟6，對待分類文本采用步驟1-4進行處理，得到文本向量，將文本向量輸入步驟5構(gòu)建的分類器，得到分類結(jié)果。

2.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法，其特征在于：所述步驟1中，對中文文本預處理包括中文分詞和去停用詞兩個過程。

3.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法，其特征在于：所述步驟2的具體內(nèi)容是：構(gòu)造一個評估函數(shù)對特征項集合中的所有特征項進行評估，然后按照評估值降序排序，根據(jù)設(shè)定的閾值或特征項數(shù)目的要求選擇前面的那些特征項，得到精簡后的特征項集合。

4.如權(quán)利要求3所述的一種基于改進的SVM中文文本分類方法，其特征在于：所述評估函數(shù)采用開方檢驗函數(shù)，假設(shè)特征項t和類別C_i之間符合一階自由度的x²分布，其計算公式如下：

$<mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <msup> <mrow> <mo>(</mo> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>B</mi> <mi>C</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>(</mo> <mi>B</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> <mo>(</mo> <mi>C</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> </mrow> </mfrac> </mrow>$

其中，N為所有的文本數(shù)，A為包含特征項t且屬于類別C_i的文本數(shù)目，B為包含特征項t且不屬于類別C_i的文本數(shù)目，C為不包含特征項t且屬于類別C_i的文本數(shù)目，D為不包含特征項t且不屬于類別C_i的文本數(shù)目；

然后，將每個特征項t的x²統(tǒng)計值從大到小排個序，選取前若干個作為精簡后的特征項集合。

5.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法，其特征在于：所述步驟3中，采用反比文檔頻率進行權(quán)重計算，權(quán)重IDF的計算公式是：

IDF＝log(D_all/D_t)

其中，D_all為文章總數(shù)，D_t為該詞出現(xiàn)的文章數(shù)量。

6.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法，其特征在于：所述步驟5的詳細內(nèi)容是：

設(shè)有訓練樣本集表示為其中，i＝1,2,…,m，y_i∈{0,1,2,3,4,5,6,7,8,9}，表示第i個文本的向量，y_i為分類標記；基于加權(quán)支持向量機的文本分類模型表示如下：

$<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mi>min</mi> </mtd> <mtd> <mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>σ</mi> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>S</mi> <mi>i</mi> </msub> <msub> <mi>ζ</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>$

$<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>T</mi> </msup> <mi>Φ</mi> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>ζ</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>$

其中，ζ_i≥0，i＝1,2,…,l，l表示樣本個數(shù)，為核函數(shù)；S_i＞0表示樣本重要性權(quán)值，如果0＜S_i＜1表示樣本不重要；S_i＝1表示一般重要；如果S_i＞1表示很重要；樣本類別權(quán)值為σ≥1，屬于相同類別的樣本具有相同的類別權(quán)值；

對權(quán)重IDF值的計算公式構(gòu)造拉格朗日函數(shù)如下：

$<mrow> <mi>Φ</mi> <mrow> <mo>(</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>σ</mi> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>ξ</mi> <mi>i</mi> </msub> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>α</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msup> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mi>T</mi> </msup> <mi>Φ</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow> <mo>)</mo> <mo>-</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>ξ</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>β</mi> <mi>i</mi> </msub> <msub> <mi>ξ</mi> <mi>i</mi> </msub> </mrow>$

其中，α_i，β_i為拉格朗日乘子，i＝1,2,…,l；

最終得到最優(yōu)分類器：

$<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msubsup> <mi>a</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow>$

其中，為徑向基核函數(shù)。

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文文本分類相關(guān)技術(shù)

中文文本分類數(shù)據(jù)集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進的SVM中文文本分類方法與流程