技術(shù)總結(jié)
本發(fā)明公開一種基于改進(jìn)的SVM中文文本分類方法,包括如下步驟:步驟1,對中文文本預(yù)處理,得到特征項(xiàng)集合;步驟2,對特征項(xiàng)集合進(jìn)行特征選擇,得到精簡后的特征項(xiàng)集合;步驟3,對精簡后的特征項(xiàng)集合計(jì)算權(quán)重;步驟4,構(gòu)建文本向量,將文本中的每個關(guān)鍵詞語作為向量空間中的一個維度,而維度上的值是該關(guān)鍵詞語的權(quán)重;步驟5,采用加權(quán)支持向量機(jī)構(gòu)建分類器;步驟6,對待分類文本采用步驟1?4進(jìn)行處理,得到文本向量,將文本向量輸入步驟5構(gòu)建的分類器,得到分類結(jié)果。此種分類方法可提高文本分類精度。
技術(shù)研發(fā)人員:邱志斌;向靚;涂高元;郭永興;陸云燕;陳雅賢
受保護(hù)的技術(shù)使用者:廈門天銳科技股份有限公司
文檔號碼:201710026144
技術(shù)研發(fā)日:2017.01.13
技術(shù)公布日:2017.06.13