重要性加權(quán)的文本分類特征選擇方法與流程

文檔序號(hào)：11063579閱讀：485來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及文本挖掘與機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，尤其涉及一種重要性加權(quán)的文本分類特征選擇方法。

背景技術(shù)：

文本分類問(wèn)題是一類特殊的機(jī)器學(xué)習(xí)問(wèn)題。通常的做法是，采用向量空間模型，將文本表示成多維特征空間上的點(diǎn)，然后再借助各種機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí)以及判別。在一個(gè)文本分類問(wèn)題中，通常可以有成千上萬(wàn)的特征可用來(lái)確定這樣一個(gè)語(yǔ)義空間。但不同特征對(duì)類別的區(qū)分能力卻有很大不同，為了獲得理想的分類準(zhǔn)確率以及較高的處理效率，通常需要使用特征選擇技術(shù)來(lái)從可能的候選特征集合中確定一個(gè)相對(duì)精簡(jiǎn)、更有效的一個(gè)特征子集。

在過(guò)去幾十年中，機(jī)器學(xué)習(xí)領(lǐng)域的專家學(xué)者提出了各種不同的特征選擇方法。現(xiàn)有的特征選擇方法大致可以分為兩大類：選擇法和重構(gòu)法。選擇法從候選特征集中確定一個(gè)子集，而重構(gòu)法從候選集合轉(zhuǎn)換生成一個(gè)小規(guī)模的特征集合，其中的特征通常與候選集合中的特征完全不一樣。選擇法因?yàn)閷?shí)現(xiàn)簡(jiǎn)單、易于理解和解釋而得到較廣泛應(yīng)用。在選擇法中，通常采用過(guò)濾的策略，即為每個(gè)候選特征計(jì)算一個(gè)類別區(qū)分能力的統(tǒng)計(jì)量，然后選擇取值較高的若干特征構(gòu)造語(yǔ)義空間。常用的統(tǒng)計(jì)量有：信息增益、開(kāi)方檢驗(yàn)、互信息、差異率等等。

作為一類特殊的機(jī)器學(xué)習(xí)問(wèn)題，文本分類有其獨(dú)特性，如特征在文本中的重要性差別很大。有些特征或詞匯對(duì)確定文本的語(yǔ)義很重要，而另外一些卻無(wú)足輕重，完全可以忽略。在計(jì)算特征類別區(qū)分能力的統(tǒng)計(jì)量時(shí)，現(xiàn)有的方法對(duì)每個(gè)特征對(duì)所在樣本的代表能力(即重要性)不做區(qū)分。這在解決其他類型數(shù)據(jù)的分類問(wèn)題中通常是可行的，但對(duì)于文本數(shù)據(jù)來(lái)說(shuō)，卻存在很大缺陷。

因此，本發(fā)明致力于開(kāi)發(fā)一種特別針對(duì)文本數(shù)據(jù)的、能夠更準(zhǔn)確地確定每個(gè)特征的類別區(qū)分能力的特征選擇方法。

技術(shù)實(shí)現(xiàn)要素：

有鑒于現(xiàn)有技術(shù)的上述缺陷，本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種重要性加權(quán)的文本分類特征選擇方法，改進(jìn)了多種統(tǒng)計(jì)量的計(jì)算，可以更準(zhǔn)確地確定每個(gè)特征的類別區(qū)分能力。

為實(shí)現(xiàn)上述目的，本發(fā)明提供了一種重要性加權(quán)的文本分類特征選擇方法，包括：

第一步驟：統(tǒng)計(jì)各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息，統(tǒng)計(jì)時(shí)特別考慮了候選特征對(duì)文本的語(yǔ)義代表程度，即重要性；

第二步驟：使用在第一步驟得到的所述數(shù)據(jù)信息，利用相關(guān)性統(tǒng)計(jì)量計(jì)算公式，計(jì)算各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力；

第三步驟：匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力，并且依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行排序，并且輸出經(jīng)由排序得到的特征列表。

優(yōu)選地，第二步驟利用如下開(kāi)方檢驗(yàn)統(tǒng)計(jì)量計(jì)算公式

其中，A_i表示有多少包含預(yù)定特征t的樣本屬于預(yù)定類別CLS_i；

B_i表示有多少包含預(yù)定特征t的樣本不屬于預(yù)定類別CLS_i；

C_i表示有多少屬于預(yù)定類別CLS_i的樣本但不包含預(yù)定特征t；

D_i表示有多少樣本既不屬于預(yù)定類別CLS_i也不包含預(yù)定特征t。

優(yōu)選地，第二步驟也可以利用如下信息增益統(tǒng)計(jì)量計(jì)算公式

其中

其中，A_i表示有多少包含特征t的樣本屬于預(yù)定類別CLS_i；

B_i表示有多少包含特征t的樣本不屬于預(yù)定類別CLS_i；

C_i表示有多少屬于預(yù)定類別CLS_i的樣本但不包含特征t；

D_i表示有多少樣本既不屬于預(yù)定類別CLS_i也不包含特征t。

優(yōu)選地，第一步驟包括：

首先，對(duì)文本進(jìn)行預(yù)處理以得到包含詞語(yǔ)、字符串、數(shù)字、符號(hào)中的一個(gè)或多個(gè)的混合序列，混合序列中的每一項(xiàng)記作為一個(gè)標(biāo)記，而且每個(gè)標(biāo)記作為一個(gè)候選特征。

然后，構(gòu)建一個(gè)標(biāo)記與標(biāo)識(shí)符的映射表，其中為每個(gè)標(biāo)記賦予以一個(gè)唯一的標(biāo)識(shí)符；

此后，記錄每個(gè)候選特征在各個(gè)類別樣本中出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)，建立并初始化一個(gè)計(jì)數(shù)器矩陣，矩陣中的每一項(xiàng)對(duì)應(yīng)于相應(yīng)候選特征在每個(gè)類別上的統(tǒng)計(jì)數(shù)據(jù)；

接著，依次處理標(biāo)注了類別信息的文本集合中的每個(gè)樣本，統(tǒng)計(jì)在樣本中出現(xiàn)的每個(gè)候選特征在該樣本中的出現(xiàn)頻次，并按照出現(xiàn)頻次的大小進(jìn)行排列。

優(yōu)選地，每出現(xiàn)一個(gè)屬于預(yù)定類別CLS_i并且含有預(yù)定特征t的樣本d_j，就使得A_i遞增α，其中α∈[0,1]，α的值表示預(yù)定特征t對(duì)預(yù)定樣本d_j的語(yǔ)義代表程度。

優(yōu)選地，利用如下公式計(jì)算α：

其中|d_j|表示樣本d_j中可能的候選特征總數(shù)，TF表示特征頻數(shù)。

優(yōu)選地，在第三步驟，依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行降序排列。

以下將結(jié)合附圖對(duì)本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說(shuō)明，以充分地解釋說(shuō)明本發(fā)明的目的、特征和效果。

附圖說(shuō)明

結(jié)合附圖，并通過(guò)參考下面的詳細(xì)描述，將會(huì)更容易地對(duì)本發(fā)明有更完整的理解并且更容易地理解其伴隨的優(yōu)點(diǎn)和特征，其中：

圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于統(tǒng)計(jì)量的特征選擇基本流程示意圖。

圖2A示出了在20Newsgroup數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。

圖2B示出了在20Newsgroup數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。

圖3A示出了在Sector數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。

圖3B示出了在Sector數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。

圖4A示出了在Nlpcc2014數(shù)據(jù)集上使用信息增益(IG)做特征選擇的系統(tǒng)性能。

圖4B示出了在Nlpcc2014數(shù)據(jù)集上使用開(kāi)方檢驗(yàn)(CHI)做特征選擇的系統(tǒng)性能。

需要說(shuō)明的是，附圖用于說(shuō)明本發(fā)明，而非限制本發(fā)明。注意，表示結(jié)構(gòu)的附圖可能并非按比例繪制。并且，附圖中，相同或者類似的元件標(biāo)有相同或者類似的標(biāo)號(hào)。

具體實(shí)施方式

在計(jì)算用于特征選擇的統(tǒng)計(jì)量時(shí)，現(xiàn)有的方法通常忽略了各個(gè)候選特征在文本中的重要程度的差異，而把它們一視同仁，這樣就不可避免地引入一些噪音，影響到準(zhǔn)確測(cè)定每個(gè)候選特征的類別區(qū)分能力。本發(fā)明針對(duì)這一問(wèn)題，提出了一種重要性加權(quán)的文本分類特征選擇策略，在多個(gè)文本分類問(wèn)題上的實(shí)驗(yàn)表明：與以往不考慮特征重要性的方法相比，本發(fā)明的策略能有效提高各種統(tǒng)計(jì)量對(duì)特征類別區(qū)分能力的測(cè)定，進(jìn)而進(jìn)一步提高特征選擇的有效性。

下面將具體描述本發(fā)明的原理以及優(yōu)選實(shí)施例。

為計(jì)算一個(gè)特征t對(duì)某個(gè)類別CLS_i的區(qū)分能力，通常需要統(tǒng)計(jì)以下四個(gè)量：

A_i:有多少包含特征t的樣本屬于類別CLS_i；

B_i:有多少包含特征t的樣本不屬于類別CLS_i；

C_i:有多少屬于類別CLS_i的樣本但不包含特征t；

D_i:有多少樣本既不屬于類別CLS_i也不包含特征t。

有了以上四個(gè)量，開(kāi)方檢驗(yàn)(Chi-Square)統(tǒng)計(jì)量可以采用下面公式(1)計(jì)算得到：

其中，M表示需要考慮的類別總數(shù)。

類似地，信息增益(information gain)統(tǒng)計(jì)量可以由公式(2)、(3)、(4)計(jì)算得到：

其中

用現(xiàn)有方法計(jì)算特征選擇統(tǒng)計(jì)量(如信息增益和開(kāi)方檢驗(yàn))時(shí)，通常采用二元策略來(lái)統(tǒng)計(jì)A_i、B_i、C_i及D_i的值。例如，依次讀取各個(gè)樣本，每出現(xiàn)一個(gè)屬于類別CLS_i并且含有特征t的樣本d_j，就使得A_i遞增1。而在本發(fā)明提出的重要性加權(quán)的特征選擇策略中，不是為A_i加1，而是為A_i遞增α∈[0,1]，這個(gè)α的值表示特征t在樣本d_j中的重要程度，即對(duì)樣本d_j的語(yǔ)義代表程度。α值的計(jì)算可以有不同的公式，一種簡(jiǎn)單的計(jì)算方式如下：

其中|d_j|表示樣本d_j中可能的候選特征總數(shù)，TF表示特征頻數(shù)。公式(5)中分母部分計(jì)算候選特征的最大特征頻數(shù)，即出現(xiàn)次數(shù)最多的特征的出現(xiàn)個(gè)數(shù)。公式(5)實(shí)際計(jì)算了特征t在樣本d_j中的相對(duì)頻數(shù)。一般來(lái)說(shuō)，可以認(rèn)為出現(xiàn)頻繁的特征相對(duì)更重要。

當(dāng)特征t在樣本d_j中出現(xiàn)時(shí)，可以用公式(5)計(jì)算A_i和B_i，但當(dāng)特征t不在樣本d_j中出現(xiàn)時(shí)，對(duì)于如何計(jì)算C_i與D_i，可以采用以下三種策略：

最小重要性MIN:用樣本d_j中所有特征的最小重要性值做α；

平均重要性AVG:用樣本d_j中所有特征的平均重要性值做α；

最大重要性MAX:用樣本d_j中所有特征的最大重要性值做α(＝1)。

參照?qǐng)D1，下面給出使用重要性加權(quán)的文本分類特征選擇策略的具體實(shí)施步驟。

圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的基于統(tǒng)計(jì)量的特征選擇基本流程示意圖。

如圖1所示，根據(jù)本發(fā)明優(yōu)選實(shí)施例的重要性加權(quán)的文本分類特征選擇方法包括：

第一步驟101：統(tǒng)計(jì)各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息，統(tǒng)計(jì)時(shí)特別考慮了候選特征對(duì)文本的語(yǔ)義代表程度，即重要性；也就是說(shuō)，統(tǒng)計(jì)采用了候選特征對(duì)文本的語(yǔ)義代表程度，即重要性；

具體地，對(duì)于第一步驟，可以執(zhí)行下述步驟：

首先，對(duì)文本進(jìn)行預(yù)處理，例如分詞、標(biāo)記化(tokenization)等，得到詞語(yǔ)、字符串、數(shù)字、符號(hào)等的混合序列，混合序列中的每一項(xiàng)記作為一個(gè)標(biāo)記(token)，而且每個(gè)標(biāo)記作為一個(gè)候選特征。

然后，構(gòu)建一個(gè)標(biāo)記與標(biāo)識(shí)符的映射表，其中為每個(gè)標(biāo)記賦予以一個(gè)唯一的標(biāo)識(shí)符。

接著，依次處理標(biāo)注了類別信息的文本集合中的每個(gè)樣本，統(tǒng)計(jì)在樣本中出現(xiàn)的每個(gè)候選特征在該樣本中的出現(xiàn)頻次，并按照出現(xiàn)頻次的大小進(jìn)行排列。具體地，樣本的類別信息是知道的，這樣就可以調(diào)整在樣本中出現(xiàn)的每個(gè)候選特征在各類別中出現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)；例如，遞增的增加量由下面公式計(jì)算得到：

上面的公式實(shí)際計(jì)算了某個(gè)候選特征t在樣本d_j中的相對(duì)頻數(shù)。在此認(rèn)為出現(xiàn)頻繁的特征相對(duì)更重要。

為了后期計(jì)算的方便性，通常還保留有某個(gè)樣本中所有候選特征的平均重要性、最小重要性、最大重要性的取值以及求和的結(jié)果。

第二步驟102：使用在第一步驟得到的所述數(shù)據(jù)信息，利用相關(guān)性統(tǒng)計(jì)量計(jì)算公式，計(jì)算各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力；

特征與類別的相關(guān)性可以有多種方式進(jìn)行計(jì)算，比較常見(jiàn)的兩種是：開(kāi)方檢驗(yàn)和信息增益。

開(kāi)方檢驗(yàn)(Chi-Square)統(tǒng)計(jì)量可以采用下面公式計(jì)算得到：

其中，M表示需要考慮的類別總數(shù)。

類似地，信息增益(information gain)統(tǒng)計(jì)量可以由下面的公式計(jì)算得到：

而函數(shù)e(x,y)的計(jì)算方法如下：

由此，在本步驟中，利用第一步驟101得到的統(tǒng)計(jì)數(shù)據(jù)再套入上面相關(guān)性統(tǒng)計(jì)量計(jì)算公式得到各個(gè)候選特征對(duì)各個(gè)類別的區(qū)分能力。

第三步驟103：匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力，并且依據(jù)各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力對(duì)所有候選特征進(jìn)行排序(例如，降序排列)，并且輸出經(jīng)由排序得到的特征列表。

其中，對(duì)于匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力，一個(gè)文本分類問(wèn)題通常是一個(gè)多類別的問(wèn)題，即需要考慮的類別數(shù)量是多于一個(gè)的。與此同時(shí)，一個(gè)候選特征對(duì)不同類別的區(qū)分能力是不同的。因此，需要匯總計(jì)算各個(gè)候選特征對(duì)所有類別的總體區(qū)分能力。常用的有最大法和求和法(亦即平均法)，這里使用性能較好的求和法。

本發(fā)明在以下3個(gè)數(shù)據(jù)集合上實(shí)驗(yàn)比較了本發(fā)明提出的策略與已有方法的性能差異：

·20Newsgroups：20個(gè)類別，11293個(gè)訓(xùn)練樣本，7528個(gè)測(cè)試樣本，共有73712個(gè)候選特征；

·Sector：105個(gè)類別，6412個(gè)訓(xùn)練樣本，3207個(gè)測(cè)試樣本，共有48988個(gè)候選特征；

·Nlpcc2014：247個(gè)類別，11385個(gè)訓(xùn)練樣本，11577個(gè)測(cè)試樣本，共有425488個(gè)候選特征。

這3個(gè)數(shù)據(jù)集合在類別分布均衡性上差別很大：20Newsgroups數(shù)據(jù)集合是均衡的，Sector數(shù)據(jù)集有一定的不均衡性，而Nlpcc2014數(shù)據(jù)集有相當(dāng)高的類別分布不均衡性。

實(shí)驗(yàn)時(shí)，使用Liblinear算法做分類，使用Stanford切分程序做分詞。使用Micro-Averaging F1和Macro-Averaging F1做評(píng)價(jià)指標(biāo)，分別選取值最高的前100、200、300、…、10000特征做訓(xùn)練與分類。分別比較了原始信息增益(IG)以及重要性加權(quán)的信息增益(IWIG)特征選擇方法和原始開(kāi)方檢驗(yàn)(CHI)以及重要性加權(quán)的開(kāi)方檢驗(yàn)(IWCHI)特征選擇方法在3個(gè)數(shù)據(jù)集合上的分類性能。

嘗試了MIN、AVG以及MAX三種不同的策略計(jì)算C_i與D_i的值，得到了基本一致的實(shí)驗(yàn)結(jié)果。為節(jié)省篇幅，在下面的敘述中只給出使用MAX這種最簡(jiǎn)單的計(jì)算策略得到的實(shí)驗(yàn)結(jié)果。

圖2A和圖2B、圖3A和圖3B、圖4A和圖4B分別給出了在3個(gè)數(shù)據(jù)集合上的實(shí)驗(yàn)結(jié)果?？傮w而言，從圖2A和圖2B、圖3A和圖3B、圖4A和圖4B中可以看出，本發(fā)明提出的重要性加權(quán)的文本分類特征選擇策略能有效提高傳統(tǒng)的開(kāi)方檢驗(yàn)以及信息增益特征選擇方法的有效性。在類別不均衡數(shù)據(jù)集合上，使用較少特征時(shí)本發(fā)明提出的策略的優(yōu)越性更明顯。

上述說(shuō)明示出并描述了本發(fā)明的優(yōu)選實(shí)施例，如前所述，應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式，不應(yīng)看作是對(duì)其他實(shí)施例的排除，而可用于各種其他組合、修改和環(huán)境，并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi)，通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)，如用于改進(jìn)除開(kāi)方檢驗(yàn)和信息增益的其他基于統(tǒng)計(jì)量A_i、B_i、C_i及D_i計(jì)算的特征選擇方法。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍，則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李保利;
技術(shù)所有人：上海利連信息科技有限公司;
我是此專利的發(fā)明人

上一篇：一種試題搜索方法及裝置與制造工藝
上一篇：三維仿真地圖的切圖方法及裝置與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

特征選擇相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

重要性加權(quán)的文本分類特征選擇方法與流程