亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進的SVM中文文本分類方法與流程

文檔序號:12666940閱讀:來源:國知局

技術(shù)特征:

1.一種基于改進的SVM中文文本分類方法,其特征在于包括如下步驟:

步驟1,對中文文本預處理,得到特征項集合;

步驟2,對特征項集合進行特征選擇,得到精簡后的特征項集合;

步驟3,對精簡后的特征項集合計算權(quán)重;

步驟4,構(gòu)建文本向量,將文本中的每個關(guān)鍵詞語作為向量空間中的一個維度,而維度上的值是該關(guān)鍵詞語的權(quán)重;

步驟5,采用加權(quán)支持向量機構(gòu)建分類器;

步驟6,對待分類文本采用步驟1-4進行處理,得到文本向量,將文本向量輸入步驟5構(gòu)建的分類器,得到分類結(jié)果。

2.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟1中,對中文文本預處理包括中文分詞和去停用詞兩個過程。

3.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟2的具體內(nèi)容是:構(gòu)造一個評估函數(shù)對特征項集合中的所有特征項進行評估,然后按照評估值降序排序,根據(jù)設(shè)定的閾值或特征項數(shù)目的要求選擇前面的那些特征項,得到精簡后的特征項集合。

4.如權(quán)利要求3所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述評估函數(shù)采用開方檢驗函數(shù),假設(shè)特征項t和類別Ci之間符合一階自由度的x2分布,其計算公式如下:

<mrow> <msup> <mi>x</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <msup> <mrow> <mo>(</mo> <mi>A</mi> <mi>D</mi> <mo>-</mo> <mi>B</mi> <mi>C</mi> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>C</mi> <mo>)</mo> <mo>(</mo> <mi>B</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> <mo>(</mo> <mi>A</mi> <mo>+</mo> <mi>B</mi> <mo>)</mo> <mo>(</mo> <mi>C</mi> <mo>+</mo> <mi>D</mi> <mo>)</mo> </mrow> </mfrac> </mrow>

其中,N為所有的文本數(shù),A為包含特征項t且屬于類別Ci的文本數(shù)目,B為包含特征項t且不屬于類別Ci的文本數(shù)目,C為不包含特征項t且屬于類別Ci的文本數(shù)目,D為不包含特征項t且不屬于類別Ci的文本數(shù)目;

然后,將每個特征項t的x2統(tǒng)計值從大到小排個序,選取前若干個作為精簡后的特征項集合。

5.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟3中,采用反比文檔頻率進行權(quán)重計算,權(quán)重IDF的計算公式是:

IDF=log(Dall/Dt)

其中,Dall為文章總數(shù),Dt為該詞出現(xiàn)的文章數(shù)量。

6.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟5的詳細內(nèi)容是:

設(shè)有訓練樣本集表示為其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i個文本的向量,yi為分類標記;基于加權(quán)支持向量機的文本分類模型表示如下:

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mi>min</mi> </mtd> <mtd> <mrow> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>&sigma;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>S</mi> <mi>i</mi> </msub> <msub> <mi>&zeta;</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msup> <mover> <mi>W</mi> <mo>&OverBar;</mo> </mover> <mi>T</mi> </msup> <mi>&Phi;</mi> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&zeta;</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中,ζi≥0,i=1,2,…,l,l表示樣本個數(shù),為核函數(shù);Si>0表示樣本重要性權(quán)值,如果0<Si<1表示樣本不重要;Si=1表示一般重要;如果Si>1表示很重要;樣本類別權(quán)值為σ≥1,屬于相同類別的樣本具有相同的類別權(quán)值;

對權(quán)重IDF值的計算公式構(gòu)造拉格朗日函數(shù)如下:

<mrow> <mi>&Phi;</mi> <mrow> <mo>(</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>,</mo> <mi>b</mi> <mo>,</mo> <mi>a</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <mi>&sigma;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>s</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msup> <mover> <mi>w</mi> <mo>&RightArrow;</mo> </mover> <mi>T</mi> </msup> <mi>&Phi;</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>b</mi> </mrow> <mo>)</mo> <mo>-</mo> <mn>1</mn> <mo>+</mo> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>&xi;</mi> <mi>i</mi> </msub> </mrow>

其中,αi,βi為拉格朗日乘子,i=1,2,…,l;

最終得到最優(yōu)分類器:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>s</mi> <mi>g</mi> <mi>n</mi> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>y</mi> <mi>i</mi> </msub> <msubsup> <mi>a</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mi>K</mi> <mo>(</mo> <mrow> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>j</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msup> <mi>b</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow>

其中,為徑向基核函數(shù)。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1