亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于特征分布信息的文本分類特征篩選方法

文檔序號:6586110閱讀:598來源:國知局
專利名稱:基于特征分布信息的文本分類特征篩選方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本分類特征篩選方法,特別是涉及一種基于特征分布信息的文本分類特征篩選方法。
背景技術(shù)
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,在互聯(lián)網(wǎng)上,每天都有大量的電子文檔如新聞、郵件、微博等產(chǎn)生。文本自動分類作為一種高效地對大量文檔進行分類管理的方法,已經(jīng)在很多領(lǐng)域被廣泛的使用。隨著信息量的爆炸性增長,自動文本分類面臨的一個主要問題是如何處理大量文本數(shù)據(jù)產(chǎn)生的高維文本向量特征空間。過高的文本向量特征空間將會對文本分類方法產(chǎn)生兩個不利影響:(1)很多比較成熟的方法在高維空間內(nèi)無法進行優(yōu)化,進而無法應(yīng)用于文本分類中。(2)由于分類器是通過訓練集訓練而得,維度過高的文本向量空間將不可避免地導致過擬合現(xiàn)象發(fā)生[1]。文本向量空間中,大部分維度與文本分類并不相關(guān),甚至摻雜較多影響文本分類精度的噪聲數(shù)據(jù)[2]。文本特征篩選,依據(jù)某種特征篩選算法,從原始的特征空間中選擇出一部分更具代表性的文本特征構(gòu)成一個新的維度較低的特征空間,達到降維的目的。該方法是解決文本分類中文本向量特征空間維度過高問題的行之有效的方法。文本特征篩選的目的是要提高文本分類工作效率和算法的執(zhí)行效率。很多實驗證明,在大多數(shù)情況下,主動對特征空間進行約減會在較少的分類精度損失下獲得很大的性能提升[3]?,F(xiàn)有的文本分類特征篩選算法主要有文檔頻率(DF)、信息增益(IG)、信息增益率(GR)、卡方檢驗(CHI)、互信息(MI)和Gini索引等[3’4]。下面對其中的幾項在文本分類中效果較好的技術(shù)進行簡要介紹:文檔頻率(DF):文檔頻率是指對于給定特征t,在文檔集合中包含t的文檔數(shù)目。其基本假設(shè)是稀有特征對于類別預(yù)測是沒有幫助的,或者不會影響整體性能。文檔頻率的優(yōu)點:由于其實現(xiàn)簡單、計算量小,所以特征選擇速度很快,且實際效果也不錯;缺點:稀有的特征可能在某一類文本中不是稀有的,也可能包含著重要的類別信息,簡單的剔除掉,可能會影響分類的效果,因此不宜用DF大量的剔除特征。信息增益(IG):信息增益是一種基于熵的評估方法,給定一個特征t,考慮和不考慮它的時候信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息量,即增益[5]。信息增益考慮了一個特征的出現(xiàn)與否,在不均衡數(shù)據(jù)集中,對于稀有類別,實驗表明,考慮特征不出現(xiàn)的情況對判斷文本類別的貢獻往往遠小于考慮特征不現(xiàn)情況所帶來的干擾。信息增益率(GR):信息增益在很多結(jié)果中被證明是有偏差的。由于取值較多且不同的屬性對于訓練集學習的過于充分,導致信息增益方法更傾向于選擇這種屬性,信息增益率解決了信息增益的這個缺點[6]??ǚ綑z驗(CHI):卡方檢驗是數(shù)理統(tǒng)計中一種常用的檢驗兩個變量獨立性的方法,其最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否[7’8]。文本分類的實驗表明中,作為特征選擇時,卡方檢驗的效果是最佳的一種,但是它只統(tǒng)計了文本中是否出現(xiàn)特征t,卻沒有考慮特征t在該文本中出現(xiàn)的次數(shù),因此使得它對低頻詞有一定夸大作用,這也就是卡方檢驗著名的“低頻詞缺陷”。本發(fā)明在特征分布系統(tǒng)[9]的基礎(chǔ)上,對類間離散度計算方法進行改進,將該系統(tǒng)運用到特征篩選過程中。參考文獻:[I]Jieming Yang,Yuanning LiuiXiaodong Zhu et al,A new feature selectionbased on comprehensive measurement both in inter-category and intra-categoryfor text categorization, Information Processing&Management, Volume48, Issue4,2012,pp.741-754[2]Wenqian Shang, Houkuan Huang and Haibin Zhu et al, A novel featureselection algorithm for text classification, Expert Systems with Applications,Volume33, Issuel,2007,pp.1-5[3]Monica Rogati and Yiming Yang,High-performing feature selection fortext classification.1n Proceedings of the eleventh international conferenceon Information and knowledge management(CIKMr 02).ACM, New York, NY, USA,2002,pp.659-661.
[4] Yang, Y.,Pedersen, J.0.,A Comparative Study on Feature Selectionin Text Classification.1n Proceedings of thel4th international conference onmachine learning,Nashville,USA,1997,pp.412-420.
[5]Forman, G., An Extensive Empirical of Feature Selection Metrics forText Classification.Journal of Machine Learning Research,3,2003,pp.1289—1305.
[6]Tatsunori Mori, Miwa Kikuchi and Kazufumi Yoshida,, Term WeightingMethod based on Information Gain Ratio for Summarizing Documents retrieved byIR systems.Journal of Natural Language Processing,9(4),2001,pp.3-32.
[7]Zheng, Z., Srihari, R, Optimally Combining Positive and NegativeFeatures for Text Classification.1CML2003Workshop on Learning from ImbalancedData Sets,2003.
[8]Luigi Galavotti, Via Jacopo Nardi and Fabrizio Sebastiani et al,Feature Selection and Negative Evidence in Automated Text Classification.1nProceedings of the 4thEuropean Conference on Research and Advanced Technologyfor Digital Libraries (ECDL,00),2000.
V.Lertnattee, T.Theeramunkong, Improving centroid-based textclassification using term-distribution-based weighting and feature selection,In Proceedings of INTECH-01,2ndInternationaI Conference onlntelligentTechnologies,Bangkok,Thailand,2001,pp.349-355.

發(fā)明內(nèi)容
為了克服現(xiàn)有的文本分類特征篩選方法準確度差的不足,本發(fā)明提供一種基于特征分布信息的文本分類特征篩選方法。該方法在特征分布系統(tǒng)的基礎(chǔ)上,對類間離散度計算方法進行改進,將特征分布系統(tǒng)運用到特征篩選過程中。該方法充分利用了文本特征的tf*idf信息、類內(nèi)和類間分布信息,更客觀地反映特征項在文本中的重要程度,從而選出最能代表文本特征的特征項,達到特征篩選目的,可以提高文本分類效率和準確率。本方法可以在選擇較少特征項的情況下達到較高的分類準確度,同時具有收斂速度快的優(yōu)點,對類間分布的改進使得本方法也可運用于偏斜數(shù)據(jù)集。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于特征分布信息的文本分類特征篩選方法,其特點是包括以下步驟:1.對文檔集中每一篇文檔進行分詞、去除停用詞以及取詞干處理。2.將整個文檔集合表示為向量空間模型VSM。3.從文檔集合中抽取所有的特征詞,構(gòu)造特征詞典。4.統(tǒng)計文本特征空間中每個特征詞t在每篇文檔Clj中出現(xiàn)的頻率TF (t,dj),以及在每個類Ci中出現(xiàn)的頻率TF (t,Ci),同時統(tǒng)計每個類Ci包含特征詞t的文檔數(shù)DF (t,Cj)。5.根據(jù)步驟4得到的信息,對于每個特征詞tk,首先計算出針對每個類Ci的歸一化的tf*idf值,然后計算該特征詞在每個類(;內(nèi)的離散度DIntra和平均類間離散度DInterAvg06.根據(jù)步驟4、步驟5步得到的信息,利用下式計算文本特征空間中每個特征詞tk在類別Ci中的權(quán)重Wi (t)。
權(quán)利要求
1.一種基于特征分布信息的文本分類特征篩選方法,其特征在于包括以下步驟: (1).對文檔集中每一篇文檔進行分詞、去除停用詞以及取詞干處理; (2).將整個文檔集合表示為向量空間模型VSM; (3).從文檔集合中抽取所有的特征詞,構(gòu)造特征詞典; (4).統(tǒng)計文本特征空間中每個特征詞t在每篇文檔Clj中出現(xiàn)的頻率TF(t,dj),以及在每個類Ci中出現(xiàn)的頻率TF (t,Ci),同時統(tǒng)計每個類Ci包含特征詞t的文檔數(shù)DF (t,Cj); (5).根據(jù)步驟(4)得到的信息,對于每個特征詞tk,首先計算出針對每個類Ci的歸一化的tf*idf值,然后計算該特征詞在每個類Ci內(nèi)的離散度DIntra和平均類間離散度DInterAvg ; (6).根據(jù)步驟(4)、步驟(5)步得到的信息,利用下式計算文本特征空間中每個特征詞tk在類別Ci中的權(quán)重Wi (t);Wi (t)=tf*idf*DInterAvg*(1-DIntra) 將特征詞tk在每個類 別中的權(quán)重求和,即為該特征詞在整個文檔集的權(quán)重,即特征詞tk 的 TDFS 值; f-l (7).將全部特征詞按照其在整個文檔集的權(quán)重降序排列,進行特征篩選時,優(yōu)先保留排位靠前的特征詞。
全文摘要
本發(fā)明公開了一種基于特征分布信息的文本分類特征篩選方法,用于解決現(xiàn)有的文本分類特征篩選方法準確度差的技術(shù)問題。技術(shù)方案是首先對文檔集中每一篇文檔進行預(yù)處理;再將整個文檔集合表示為向量空間模型VSM;構(gòu)造特征詞典;統(tǒng)計每個類Ci包含特征詞t的文檔數(shù)DF(t,Cj);計算出針對每個類Ci的歸一化的tf*idf值,然后計算該特征詞在每個類Ci內(nèi)的離散度DIntra和平均類間離散度DInterAvg;計算文本特征空間中每個特征詞tk在類別Ci中的權(quán)重wi(t);將全部特征詞按照其在整個文檔集的權(quán)重降序排列,進行特征篩選時,優(yōu)先保留排位靠前的特征詞。該方法在特征分布系統(tǒng)的基礎(chǔ)上,將特征分布系統(tǒng)運用到特征篩選過程中,提高了文本分類效率和準確率。
文檔編號G06F17/30GK103106275SQ20131005058
公開日2013年5月15日 申請日期2013年2月8日 優(yōu)先權(quán)日2013年2月8日
發(fā)明者李思男, 李戰(zhàn)懷, 李寧 申請人:西北工業(yè)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1