1.一種基于改進的SVM中文文本分類方法,其特征在于包括如下步驟:
步驟1,對中文文本預處理,得到特征項集合;
步驟2,對特征項集合進行特征選擇,得到精簡后的特征項集合;
步驟3,對精簡后的特征項集合計算權(quán)重;
步驟4,構(gòu)建文本向量,將文本中的每個關(guān)鍵詞語作為向量空間中的一個維度,而維度上的值是該關(guān)鍵詞語的權(quán)重;
步驟5,采用加權(quán)支持向量機構(gòu)建分類器;
步驟6,對待分類文本采用步驟1-4進行處理,得到文本向量,將文本向量輸入步驟5構(gòu)建的分類器,得到分類結(jié)果。
2.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟1中,對中文文本預處理包括中文分詞和去停用詞兩個過程。
3.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟2的具體內(nèi)容是:構(gòu)造一個評估函數(shù)對特征項集合中的所有特征項進行評估,然后按照評估值降序排序,根據(jù)設(shè)定的閾值或特征項數(shù)目的要求選擇前面的那些特征項,得到精簡后的特征項集合。
4.如權(quán)利要求3所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述評估函數(shù)采用開方檢驗函數(shù),假設(shè)特征項t和類別Ci之間符合一階自由度的x2分布,其計算公式如下:
其中,N為所有的文本數(shù),A為包含特征項t且屬于類別Ci的文本數(shù)目,B為包含特征項t且不屬于類別Ci的文本數(shù)目,C為不包含特征項t且屬于類別Ci的文本數(shù)目,D為不包含特征項t且不屬于類別Ci的文本數(shù)目;
然后,將每個特征項t的x2統(tǒng)計值從大到小排個序,選取前若干個作為精簡后的特征項集合。
5.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟3中,采用反比文檔頻率進行權(quán)重計算,權(quán)重IDF的計算公式是:
IDF=log(Dall/Dt)
其中,Dall為文章總數(shù),Dt為該詞出現(xiàn)的文章數(shù)量。
6.如權(quán)利要求1所述的一種基于改進的SVM中文文本分類方法,其特征在于:所述步驟5的詳細內(nèi)容是:
設(shè)有訓練樣本集表示為其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i個文本的向量,yi為分類標記;基于加權(quán)支持向量機的文本分類模型表示如下:
其中,ζi≥0,i=1,2,…,l,l表示樣本個數(shù),為核函數(shù);Si>0表示樣本重要性權(quán)值,如果0<Si<1表示樣本不重要;Si=1表示一般重要;如果Si>1表示很重要;樣本類別權(quán)值為σ≥1,屬于相同類別的樣本具有相同的類別權(quán)值;
對權(quán)重IDF值的計算公式構(gòu)造拉格朗日函數(shù)如下:
其中,αi,βi為拉格朗日乘子,i=1,2,…,l;
最終得到最優(yōu)分類器:
其中,為徑向基核函數(shù)。