一種基于卡方統(tǒng)計(jì)和smo算法的文本分類方法
【專利摘要】本發(fā)明公開了一種基于卡方統(tǒng)計(jì)量和SMO算法的文本分類方法:其步驟:首先對訓(xùn)練文本進(jìn)行分詞、去除停用詞、預(yù)處理操作,再以卡方統(tǒng)計(jì)量為標(biāo)準(zhǔn)遴選出設(shè)定數(shù)量單詞作為特征詞;然后,分別計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值;將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型;將訓(xùn)練后的分類器對測試文本的特征向量進(jìn)行分類,得到每條測試文本的分類結(jié)果。該方法能夠克服將所有詞作為特征導(dǎo)致文本分類的特征多、噪聲多的缺陷,并能提高文本的分類精度和效率。
【專利說明】一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言計(jì)算機(jī)自動處理【技術(shù)領(lǐng)域】,特別涉及一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法。
【背景技術(shù)】
[0002]近年來,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和普及,網(wǎng)絡(luò)上的電子資源信息急劇增加,面對如此大量的數(shù)據(jù)信息,如何有效地組織和管理這些海量信息,并從中快速、準(zhǔn)確地獲得自己所需要的、真正感興趣的信息已成為當(dāng)前的一大難題。在網(wǎng)絡(luò)信息中,大多數(shù)以文本的形式來保存,因而文本數(shù)據(jù)的挖掘具有很高的潛在價(jià)值。文本分類技術(shù)作為一種典型的文本挖掘技術(shù),能夠組織和處理大量文本信息,有助于信息檢索與分析,方便用戶快速、準(zhǔn)確地定位所需要的信息。
[0003]文本分類是指計(jì)算機(jī)對文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記(中國專利文獻(xiàn)名稱為“基于修正的K近鄰文本分類方法”,專利號為201010601777.5),文本自動分類研究始于20世紀(jì)50年代末,美國IBM公司的H.P.Luhn在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究。20世紀(jì)60年代至80年代末,文本分類系統(tǒng)以知識工程的方法為主,知識工程技術(shù)即根據(jù)領(lǐng)域?qū)<覍o定文本集合的分類經(jīng)驗(yàn),人工提取出一組邏輯規(guī)則,作為計(jì)算機(jī)文本分類的依據(jù),然后分析這些系統(tǒng)的技術(shù)特點(diǎn)和性能,即利用專家規(guī)則來進(jìn)行分類;到了 90年代以后,統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)的方法被引入到文本自動分類中,取代了知識工程的方法,其中,機(jī)器學(xué)習(xí)算法,該方法中提取有效的特征向量,得到一個(gè)好的學(xué)習(xí)效果,因此提取有效的特征向量以及避免噪音特征的干擾是提高機(jī)器支持向量機(jī)學(xué)習(xí)效果的重要途徑。卡耐基梅隆大學(xué) Yiming Yang 1997 年于 ICML 會議上發(fā)表的《A Comparative Study on FeatureSelection in Text Categorization》報(bào)道基于向量空間模型的支持向量機(jī)方法效果最好。有效的特征向量的建立最常用的方法是TF-1DF (TF:Term Frequency, IDF:1nverseDocument Frequency)方法。傳統(tǒng)的向量空間模型在文本分類中已經(jīng)得到比較多的應(yīng)用,特征向量通過向量空間模型(Vector Space Model, VSM)表示,該模型表示文本文件的代數(shù)模型,模型的向量中,每一維都相當(dāng)于是一個(gè)獨(dú)立的詞組。如果獨(dú)立的詞組出現(xiàn)在了文檔中,則該向量中的值為非零。SMO算法(Sequential minimal optimization,縮寫為SM0)由Microsoft Research的John C.Platt在1998年提出。為節(jié)省存儲空間和提高搜索效率,在自然語言計(jì)算機(jī)自動處理文本之前或之后,會自動過濾掉停用詞,為防止停用詞與安全口令發(fā)生混淆,將停用詞形成一個(gè)停用詞表。但是,并沒有一個(gè)統(tǒng)一的停用詞表能夠適用于所有的自然語言處理工具。對于一個(gè)給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類:
一類是人類語言中包含的功能詞,功能詞極其普遍,與其他詞相比,功能詞沒有什么實(shí)際含義,比如’ the’、’ is’、’ at’、’ which’、’ on’,對于搜索引擎來說,當(dāng)所要搜索的短語包含功能詞,例如’ The Who’、’ The The’或’ Take The’復(fù)合名詞,該復(fù)合名詞中包含停用詞,使用就會發(fā)生混淆。[0004]另一類詞包括詞匯詞,比如詞匯詞’ want’,這些詞匯應(yīng)用十分廣泛,對這些詞的搜索引擎無法得到精確的搜索結(jié)果,難以縮小文本的搜索范圍,降低詞匯的搜索效率,通常會把上述諸如此類的詞匯移去,提高搜索效率。
綜上所述,目前機(jī)器學(xué)習(xí)方法,在的提取學(xué)習(xí)特征時(shí),常常將所有詞作為特征,其特征多,且包含很多噪音,導(dǎo)致文本分類的效果較差。,通常,采用的最近鄰分類方法(KNN)對文本進(jìn)行分類,該分類方法對特征多、含很多噪音所有分類樣本分類時(shí),所有用時(shí)間較長,分類效率不高。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于針對已有技術(shù)存在的不足,提供一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法,該方法能夠克服將所有詞作為特征導(dǎo)致文本分類的特征多、噪聲多的缺陷,并能提高文本的分類精度和效率。
[0006]為達(dá)到上述目的,本發(fā)明的構(gòu)思如下:首先對訓(xùn)練文本進(jìn)行分詞、去除停用詞、預(yù)處理操作,再以卡方統(tǒng)計(jì)量為標(biāo)準(zhǔn)遴選出設(shè)定數(shù)量單詞作為特征詞;然后,分別計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值;將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型;將訓(xùn)練后的分類器對測試文本的特征向量進(jìn)行分類,得到每條測試文本的分類結(jié)果。
[0007]根據(jù)上述發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案:
一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法,其步驟如下:
(1),收集互聯(lián)網(wǎng)文本,將文本分為訓(xùn)練文本和測試文本:從互聯(lián)網(wǎng)收集文本,對每條文本進(jìn)行類別標(biāo)簽,將已進(jìn)行類別標(biāo)簽的文本為訓(xùn)練文本,將已進(jìn)行類別標(biāo)簽的文本為待分類的文本,待分類的文本作為測試文本;
(2),對訓(xùn)練文本進(jìn)行預(yù)處理,得到訓(xùn)練文本詞匯表:對訓(xùn)練文本進(jìn)行分詞、去除停用詞、過濾文本亂碼,得到訓(xùn)練文本詞匯表;
(3),計(jì)算各個(gè)單詞對應(yīng)的訓(xùn)練文本詞匯表卡方統(tǒng)計(jì)量,得到訓(xùn)練文本特征詞表:計(jì)算訓(xùn)練文本詞匯表中的每個(gè)單詞關(guān)于各類別的卡方統(tǒng)計(jì)量,取該單詞在各個(gè)類別中最大的卡方統(tǒng)計(jì)量作為該單詞的權(quán)重,然后,將各個(gè)單詞按照其權(quán)重由大到小的順序排列,選取其中一定數(shù)量的權(quán)重最大的單詞,由權(quán)重最大所對應(yīng)的單詞構(gòu)成訓(xùn)練文本特征詞表;
(4),分別計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值:分別計(jì)算上述訓(xùn)練文本和測試文本中各個(gè)單詞的TF-1DF特征權(quán)重值,將各個(gè)單詞及各個(gè)存在于特征詞表中的單詞的TF-1DF特征權(quán)重值組成訓(xùn)練文本的特征向量和測試文本的特征向量,由各個(gè)訓(xùn)練文本的特征向量組成訓(xùn)練文本特征向量表,由各個(gè)測試文本的特征向量共同組成測試文本特征向量表;
(5),將特征向量表轉(zhuǎn)換為文檔向量模型:將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型,
所述的文檔向量模型表示訓(xùn)練文本特征向量寫入文件作為訓(xùn)練文件,
所述的文檔向量模型表示測試文本特征向量寫入文件作為測試文件;
(6),加載訓(xùn)練文件分類器,對測試文件進(jìn)行分類:加載上述訓(xùn)練文件訓(xùn)練SMO分類器,再加上述載測試文件,將訓(xùn)練后的分類器對測試文本的特征向量進(jìn)行分類,得到每條測試文本的分類結(jié)果。
[0008]上述步驟(3)所述的計(jì)算各個(gè)單詞對應(yīng)的訓(xùn)練文本詞匯表卡方統(tǒng)計(jì)量,其計(jì)算式為:
【權(quán)利要求】
1.一種基于卡方統(tǒng)計(jì)量和SMO算法的文本分類方法,其特征在于, 首先對訓(xùn)練文本進(jìn)行分詞、去除停用詞、預(yù)處理操作,再以卡方統(tǒng)計(jì)量為標(biāo)準(zhǔn)遴選出設(shè)定數(shù)量單詞作為特征詞;然后,分別計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值;將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型;將訓(xùn)練后的分類器對測試文本的特征向量進(jìn)行分類,得到每條測試文本的分類結(jié)果,其具體步驟如下: (1),收集互聯(lián)網(wǎng)文本,將文本分為訓(xùn)練文本和測試文本:從互聯(lián)網(wǎng)收集文本,對每條文本進(jìn)行類別標(biāo)簽,將已進(jìn)行類別標(biāo)簽的文本為訓(xùn)練文本,將已進(jìn)行類別標(biāo)簽的文本為待分類的文本,待分類的文本作為測試文本; (2),對訓(xùn)練文本進(jìn)行預(yù)處理,得到訓(xùn)練文本詞匯表:對訓(xùn)練文本進(jìn)行分詞、去除停用詞、過濾文本亂碼,得到訓(xùn)練文本詞匯表; (3),計(jì)算各個(gè)單詞對應(yīng)的訓(xùn)練文本詞匯表卡方統(tǒng)計(jì)量,得到訓(xùn)練文本特征詞表:計(jì)算訓(xùn)練文本詞匯表中的每個(gè)單詞關(guān)于各類別的卡方統(tǒng)計(jì)量,取該單詞在各個(gè)類別中最大的卡方統(tǒng)計(jì)量作為該單詞的權(quán)重,然后,將各個(gè)單詞按照其權(quán)重由大到小的順序排列,選取其中一定數(shù)量的權(quán)重最大的單詞,由權(quán)重最大所對應(yīng)的單詞構(gòu)成訓(xùn)練文本特征詞表; (4),分別計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值:分別計(jì)算上述訓(xùn)練文本和測試文本中各個(gè)單詞的TF-1DF特征權(quán)重值,將各個(gè)單詞及各個(gè)存在于特征詞表中的單詞的TF-1DF特征權(quán)重值組 成訓(xùn)練文本的特征向量和測試文本的特征向量,由各個(gè)訓(xùn)練文本的特征向量組成訓(xùn)練文本特征向量表,由各個(gè)測試文本的特征向量共同組成測試文本特征向量表; (5),將特征向量表轉(zhuǎn)換為文檔向量模型:將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型,所述的文檔向量模型表示訓(xùn)練文本特征向量寫入文件作為訓(xùn)練文件,所述的文檔向量模型表示測試文本特征向量寫入文件作為測試文件; (6),加載訓(xùn)練文件分類器,對測試文件進(jìn)行分類:加載上述訓(xùn)練文件訓(xùn)練SMO分類器,再加上述載測試文件,將訓(xùn)練后的分類器對測試文本的特征向量進(jìn)行分類,得到每條測試文本的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法,其特征在于,上述步驟(3)所述的計(jì)算各個(gè)單詞對應(yīng)的訓(xùn)練文本詞匯表卡方統(tǒng)計(jì)量,其計(jì)算式為:
3.根據(jù)權(quán)利要求2所述的一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法,其特征在于,上述步驟(4)所述的計(jì)算上述訓(xùn)練文本和測試文本的特征權(quán)重值,其計(jì)算式為:
4.根據(jù)權(quán)利要求3所述的一種基于卡方統(tǒng)計(jì)和SMO算法的文本分類方法,其特征在于,上述步驟(5)所述的將每條訓(xùn)練文本和測試文本的特征向量轉(zhuǎn)換為訓(xùn)練文檔向量模型和測試文檔向量模型,其轉(zhuǎn)換表達(dá)式為:
【文檔編號】G06F17/27GK103995876SQ201410225565
【公開日】2014年8月20日 申請日期:2014年5月26日 優(yōu)先權(quán)日:2014年5月26日
【發(fā)明者】武星, 裴孟齊 申請人:上海大學(xué)