本發(fā)明涉及文本挖掘與機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種重要性加權(quán)的文本分類特征選擇方法。
背景技術(shù):
文本分類問(wèn)題是一類特殊的機(jī)器學(xué)習(xí)問(wèn)題。通常的做法是,采用向量空間模型,將文本表示成多維特征空間上的點(diǎn),然后再借助各種機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí)以及判別。在一個(gè)文本分類問(wèn)題中,通常可以有成千上萬(wàn)的特征可用來(lái)確定這樣一個(gè)語(yǔ)義空間。但不同特征對(duì)類別的區(qū)分能力卻有很大不同,為了獲得理想的分類準(zhǔn)確率以及較高的處理效率,通常需要使用特征選擇技術(shù)來(lái)從可能的候選特征集合中確定一個(gè)相對(duì)精簡(jiǎn)、更有效的一個(gè)特征子集。
在過(guò)去幾十年中,機(jī)器學(xué)習(xí)領(lǐng)域的專家學(xué)者提出了各種不同的特征選擇方法。現(xiàn)有的特征選擇方法大致可以分為兩大類:選擇法和重構(gòu)法。選擇法從候選特征集中確定一個(gè)子集,而重構(gòu)法從候選集合轉(zhuǎn)換生成一個(gè)小規(guī)模的特征集合,其中的特征通常與候選集合中的特征完全不一樣。選擇法因?yàn)閷?shí)現(xiàn)簡(jiǎn)單、易于理解和解釋而得到較廣泛應(yīng)用。在選擇法中,通常采用過(guò)濾的策略,即為每個(gè)候選特征計(jì)算一個(gè)類別區(qū)分能力的統(tǒng)計(jì)量,然后選擇取值較高的若干特征構(gòu)造語(yǔ)義空間。常用的統(tǒng)計(jì)量有:信息增益、開(kāi)方檢驗(yàn)、互信息、差異率等等。
作為一類特殊的機(jī)器學(xué)習(xí)問(wèn)題,文本分類有其獨(dú)特性,如特征在文本中的重要性差別很大。有些特征或詞匯對(duì)確定文本的語(yǔ)義很重要,而另外一些卻無(wú)足輕重,完全可以忽略。在計(jì)算特征類別區(qū)分能力的統(tǒng)計(jì)量時(shí),現(xiàn)有的方法對(duì)每個(gè)特征對(duì)所在樣本的代表能力(即重要性)不做區(qū)分。這在解決其他類型數(shù)據(jù)的分類問(wèn)題中通常是可行的,但對(duì)于文本數(shù)據(jù)來(lái)說(shuō),卻存在很大缺陷。
因此,本發(fā)明致力于開(kāi)發(fā)一種特別針對(duì)文本數(shù)據(jù)的、能夠更準(zhǔn)確地確定每個(gè)特征的類別區(qū)分能力的特征選擇方法。
技術(shù)實(shí)現(xiàn)要素:
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種重要性加權(quán)的文本分類特征選擇方法,改進(jìn)了多種統(tǒng)計(jì)量的計(jì)算,可以更準(zhǔn)確地確定每個(gè)特征的類別區(qū)分能力。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種重要性加權(quán)的文本分類特征選擇方法,包括:
第一步驟:統(tǒng)計(jì)各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計(jì)時(shí)特別考慮了候選特征對(duì)文本的語(yǔ)義代表程度,即重要性;
第二步驟:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關(guān)性統(tǒng)計(jì)量計(jì)算公式,計(jì)算各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力;
第三步驟:匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力,并且依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行排序,并且輸出經(jīng)由排序得到的特征列表。
優(yōu)選地,第二步驟利用如下開(kāi)方檢驗(yàn)統(tǒng)計(jì)量計(jì)算公式
其中,Ai表示有多少包含預(yù)定特征t的樣本屬于預(yù)定類別CLSi;
Bi表示有多少包含預(yù)定特征t的樣本不屬于預(yù)定類別CLSi;
Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含預(yù)定特征t;
Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含預(yù)定特征t。
優(yōu)選地,第二步驟也可以利用如下信息增益統(tǒng)計(jì)量計(jì)算公式
其中
其中,Ai表示有多少包含特征t的樣本屬于預(yù)定類別CLSi;
Bi表示有多少包含特征t的樣本不屬于預(yù)定類別CLSi;
Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含特征t;
Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含特征t。
優(yōu)選地,第一步驟包括:
首先,對(duì)文本進(jìn)行預(yù)處理以得到包含詞語(yǔ)、字符串、數(shù)字、符號(hào)中的一個(gè)或多個(gè)的混合序列,混合序列中的每一項(xiàng)記作為一個(gè)標(biāo)記,而且每個(gè)標(biāo)記作為一個(gè)候選特征。
然后,構(gòu)建一個(gè)標(biāo)記與標(biāo)識(shí)符的映射表,其中為每個(gè)標(biāo)記賦予以一個(gè)唯一的標(biāo)識(shí)符;
此后,記錄每個(gè)候選特征在各個(gè)類別樣本中出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù),建立并初始化一個(gè)計(jì)數(shù)器矩陣,矩陣中的每一項(xiàng)對(duì)應(yīng)于相應(yīng)候選特征在每個(gè)類別上的統(tǒng)計(jì)數(shù)據(jù);
接著,依次處理標(biāo)注了類別信息的文本集合中的每個(gè)樣本,統(tǒng)計(jì)在樣本中出現(xiàn)的每個(gè)候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進(jìn)行排列。
優(yōu)選地,每出現(xiàn)一個(gè)屬于預(yù)定類別CLSi并且含有預(yù)定特征t的樣本dj,就使得Ai遞增α,其中α∈[0,1],α的值表示預(yù)定特征t對(duì)預(yù)定樣本dj的語(yǔ)義代表程度。
優(yōu)選地,利用如下公式計(jì)算α:
其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。
優(yōu)選地,在第三步驟,依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行降序排列。
以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明,以充分地解釋說(shuō)明本發(fā)明的目的、特征和效果。
附圖說(shuō)明
結(jié)合附圖,并通過(guò)參考下面的詳細(xì)描述,將會(huì)更容易地對(duì)本發(fā)明有更完整的理解并且更容易地理解其伴隨的優(yōu)點(diǎn)和特征,其中:
圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于統(tǒng)計(jì)量的特征選擇基本流程示意圖。
圖2A示出了在20Newsgroup數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖2B示出了在20Newsgroup數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。
圖3A示出了在Sector數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖3B示出了在Sector數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。
圖4A示出了在Nlpcc2014數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。
圖4B示出了在Nlpcc2014數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。
需要說(shuō)明的是,附圖用于說(shuō)明本發(fā)明,而非限制本發(fā)明。注意,表示結(jié)構(gòu)的附圖可能并非按比例繪制。并且,附圖中,相同或者類似的元件標(biāo)有相同或者類似的標(biāo)號(hào)。
具體實(shí)施方式
在計(jì)算用于特征選擇的統(tǒng)計(jì)量時(shí),現(xiàn)有的方法通常忽略了各個(gè)候選特征在文本中的重要程度的差異,而把它們一視同仁,這樣就不可避免地引入一些噪音,影響到準(zhǔn)確測(cè)定每個(gè)候選特征的類別區(qū)分能力。本發(fā)明針對(duì)這一問(wèn)題,提出了一種重要性加權(quán)的文本分類特征選擇策略,在多個(gè)文本分類問(wèn)題上的實(shí)驗(yàn)表明:與以往不考慮特征重要性的方法相比,本發(fā)明的策略能有效提高各種統(tǒng)計(jì)量對(duì)特征類別區(qū)分能力的測(cè)定,進(jìn)而進(jìn)一步提高特征選擇的有效性。
下面將具體描述本發(fā)明的原理以及優(yōu)選實(shí)施例。
為計(jì)算一個(gè)特征t對(duì)某個(gè)類別CLSi的區(qū)分能力,通常需要統(tǒng)計(jì)以下四個(gè)量:
Ai:有多少包含特征t的樣本屬于類別CLSi;
Bi:有多少包含特征t的樣本不屬于類別CLSi;
Ci:有多少屬于類別CLSi的樣本但不包含特征t;
Di:有多少樣本既不屬于類別CLSi也不包含特征t。
有了以上四個(gè)量,開(kāi)方檢驗(yàn)(Chi-Square)統(tǒng)計(jì)量可以采用下面公式(1)計(jì)算得到:
其中,M表示需要考慮的類別總數(shù)。
類似地,信息增益(information gain)統(tǒng)計(jì)量可以由公式(2)、(3)、(4)計(jì)算得到:
其中
用現(xiàn)有方法計(jì)算特征選擇統(tǒng)計(jì)量(如信息增益和開(kāi)方檢驗(yàn))時(shí),通常采用二元策略來(lái)統(tǒng)計(jì)Ai、Bi、Ci及Di的值。例如,依次讀取各個(gè)樣本,每出現(xiàn)一個(gè)屬于類別CLSi并且含有特征t的樣本dj,就使得Ai遞增1。而在本發(fā)明提出的重要性加權(quán)的特征選擇策略中,不是為Ai加1,而是為Ai遞增α∈[0,1],這個(gè)α的值表示特征t在樣本dj中的重要程度,即對(duì)樣本dj的語(yǔ)義代表程度。α值的計(jì)算可以有不同的公式,一種簡(jiǎn)單的計(jì)算方式如下:
其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。公式(5)中分母部分計(jì)算候選特征的最大特征頻數(shù),即出現(xiàn)次數(shù)最多的特征的出現(xiàn)個(gè)數(shù)。公式(5)實(shí)際計(jì)算了特征t在樣本dj中的相對(duì)頻數(shù)。一般來(lái)說(shuō),可以認(rèn)為出現(xiàn)頻繁的特征相對(duì)更重要。
當(dāng)特征t在樣本dj中出現(xiàn)時(shí),可以用公式(5)計(jì)算Ai和Bi,但當(dāng)特征t不在樣本dj中出現(xiàn)時(shí),對(duì)于如何計(jì)算Ci與Di,可以采用以下三種策略:
最小重要性MIN:用樣本dj中所有特征的最小重要性值做α;
平均重要性AVG:用樣本dj中所有特征的平均重要性值做α;
最大重要性MAX:用樣本dj中所有特征的最大重要性值做α(=1)。
參照?qǐng)D1,下面給出使用重要性加權(quán)的文本分類特征選擇策略的具體實(shí)施步驟。
圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于統(tǒng)計(jì)量的特征選擇基本流程示意圖。
如圖1所示,根據(jù)本發(fā)明優(yōu)選實(shí)施例的重要性加權(quán)的文本分類特征選擇方法包括:
第一步驟101:統(tǒng)計(jì)各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計(jì)時(shí)特別考慮了候選特征對(duì)文本的語(yǔ)義代表程度,即重要性;也就是說(shuō),統(tǒng)計(jì)采用了候選特征對(duì)文本的語(yǔ)義代表程度,即重要性;
具體地,對(duì)于第一步驟,可以執(zhí)行下述步驟:
首先,對(duì)文本進(jìn)行預(yù)處理,例如分詞、標(biāo)記化(tokenization)等,得到詞語(yǔ)、字符串、數(shù)字、符號(hào)等的混合序列,混合序列中的每一項(xiàng)記作為一個(gè)標(biāo)記(token),而且每個(gè)標(biāo)記作為一個(gè)候選特征。
然后,構(gòu)建一個(gè)標(biāo)記與標(biāo)識(shí)符的映射表,其中為每個(gè)標(biāo)記賦予以一個(gè)唯一的標(biāo)識(shí)符。
此后,記錄每個(gè)候選特征在各個(gè)類別樣本中出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù),建立并初始化一個(gè)計(jì)數(shù)器矩陣,矩陣中的每一項(xiàng)對(duì)應(yīng)于相應(yīng)候選特征在每個(gè)類別上的統(tǒng)計(jì)數(shù)據(jù)(矩陣中的所有項(xiàng)的初值設(shè)置為0)。
接著,依次處理標(biāo)注了類別信息的文本集合中的每個(gè)樣本,統(tǒng)計(jì)在樣本中出現(xiàn)的每個(gè)候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進(jìn)行排列。具體地,樣本的類別信息是知道的,這樣就可以調(diào)整在樣本中出現(xiàn)的每個(gè)候選特征在各類別中出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù);例如,遞增的增加量由下面公式計(jì)算得到:
上面的公式實(shí)際計(jì)算了某個(gè)候選特征t在樣本dj中的相對(duì)頻數(shù)。在此認(rèn)為出現(xiàn)頻繁的特征相對(duì)更重要。
為了后期計(jì)算的方便性,通常還保留有某個(gè)樣本中所有候選特征的平均重要性、最小重要性、最大重要性的取值以及求和的結(jié)果。
第二步驟102:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關(guān)性統(tǒng)計(jì)量計(jì)算公式,計(jì)算各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力;
特征與類別的相關(guān)性可以有多種方式進(jìn)行計(jì)算,比較常見(jiàn)的兩種是:開(kāi)方檢驗(yàn)和信息增益。
開(kāi)方檢驗(yàn)(Chi-Square)統(tǒng)計(jì)量可以采用下面公式計(jì)算得到:
其中,M表示需要考慮的類別總數(shù)。
類似地,信息增益(information gain)統(tǒng)計(jì)量可以由下面的公式計(jì)算得到:
而函數(shù)e(x,y)的計(jì)算方法如下:
由此,在本步驟中,利用第一步驟101得到的統(tǒng)計(jì)數(shù)據(jù)再套入上面相關(guān)性統(tǒng)計(jì)量計(jì)算公式得到各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力。
第三步驟103:匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力,并且依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行排序(例如,降序排列),并且輸出經(jīng)由排序得到的特征列表。
其中,對(duì)于匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力,一個(gè)文本分類問(wèn)題通常是一個(gè)多類別的問(wèn)題,即需要考慮的類別數(shù)量是多于一個(gè)的。與此同時(shí),一個(gè)候選特征對(duì)不同類別的區(qū)分能力是不同的。因此,需要匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力。常用的有最大法和求和法(亦即平均法),這里使用性能較好的求和法。
本發(fā)明在以下3個(gè)數(shù)據(jù)集合上實(shí)驗(yàn)比較了本發(fā)明提出的策略與已有方法的性能差異:
·20Newsgroups:20個(gè)類別,11293個(gè)訓(xùn)練樣本,7528個(gè)測(cè)試樣本,共有73712個(gè)候選特征;
·Sector:105個(gè)類別,6412個(gè)訓(xùn)練樣本,3207個(gè)測(cè)試樣本,共有48988個(gè)候選特征;
·Nlpcc2014:247個(gè)類別,11385個(gè)訓(xùn)練樣本,11577個(gè)測(cè)試樣本,共有425488個(gè)候選特征。
這3個(gè)數(shù)據(jù)集合在類別分布均衡性上差別很大:20Newsgroups數(shù)據(jù)集合是均衡的,Sector數(shù)據(jù)集有一定的不均衡性,而Nlpcc2014數(shù)據(jù)集有相當(dāng)高的類別分布不均衡性。
實(shí)驗(yàn)時(shí),使用Liblinear算法做分類,使用Stanford切分程序做分詞。使用Micro-Averaging F1和Macro-Averaging F1做評(píng)價(jià)指標(biāo),分別選取值最高的前100、200、300、…、10000特征做訓(xùn)練與分類。分別比較了原始信息增益(IG)以及重要性加權(quán)的信息增益(IWIG)特征選擇方法和原始開(kāi)方檢驗(yàn)(CHI)以及重要性加權(quán)的開(kāi)方檢驗(yàn)(IWCHI)特征選擇方法在3個(gè)數(shù)據(jù)集合上的分類性能。
嘗試了MIN、AVG以及MAX三種不同的策略計(jì)算Ci與Di的值,得到了基本一致的實(shí)驗(yàn)結(jié)果。為節(jié)省篇幅,在下面的敘述中只給出使用MAX這種最簡(jiǎn)單的計(jì)算策略得到的實(shí)驗(yàn)結(jié)果。
圖2A和圖2B、圖3A和圖3B、圖4A和圖4B分別給出了在3個(gè)數(shù)據(jù)集合上的實(shí)驗(yàn)結(jié)果??傮w而言,從圖2A和圖2B、圖3A和圖3B、圖4A和圖4B中可以看出,本發(fā)明提出的重要性加權(quán)的文本分類特征選擇策略能有效提高傳統(tǒng)的開(kāi)方檢驗(yàn)以及信息增益特征選擇方法的有效性。在類別不均衡數(shù)據(jù)集合上,使用較少特征時(shí)本發(fā)明提出的策略的優(yōu)越性更明顯。
上述說(shuō)明示出并描述了本發(fā)明的優(yōu)選實(shí)施例,如前所述,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng),如用于改進(jìn)除開(kāi)方檢驗(yàn)和信息增益的其他基于統(tǒng)計(jì)量Ai、Bi、Ci及Di計(jì)算的特征選擇方法。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。