技術總結(jié)
本發(fā)明公開了一種基于文本分類的城市管理案件分類方法,包括以下步驟,S1:預處理,對短文本進行預處理,進行分詞、去除文本中的停用詞、統(tǒng)計詞頻等操作,其中停用詞包括標點符號、表情符號、語氣助詞、介詞和連接詞;S2:互鄰特征組合,通過互鄰特征組合算法對文本特征空間中的特征進行組合,形成新的特征,并擴展特征空間,S3:基于類別特征域的特征選擇,經(jīng)上述互鄰特征組合算法進行特征擴展之后,整個短文本的特征空間變得十分龐大,在產(chǎn)生對短文本分類描述力更強的組合特征的同時,也產(chǎn)生了很多對分類效果貢獻不大甚至有影響的特征,需要對其進行特征選擇,S4:采用tf?idf加權,計算每個文本特征向量;S5:訓練分類器并對測試文本分類。
技術研發(fā)人員:李靈巧;魏文;楊浩;丁煜;何勝韜
受保護的技術使用者:廣西智度信息科技有限公司
文檔號碼:201610750148
技術研發(fā)日:2016.08.29
技術公布日:2017.01.11