1.一種重要性加權(quán)的文本分類特征選擇方法,其特征在于包括:
第一步驟:統(tǒng)計各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計時特別考慮了候選特征對文本的語義代表程度,即重要性;
第二步驟:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關(guān)性統(tǒng)計量計算公式,計算各個候選特征對各個類別的區(qū)分能力;
第三步驟:匯總計算各個候選特征對所有類別的總體區(qū)分能力,并且依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行排序,并且輸出經(jīng)由排序得到的特征列表。
2.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第二步驟利用如下開方檢驗統(tǒng)計量計算公式
其中,Ai表示有多少包含預(yù)定特征t的樣本屬于預(yù)定類別CLSi;
Bi表示有多少包含預(yù)定特征t的樣本不屬于預(yù)定類別CLSi;
Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含預(yù)定特征t;
Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含預(yù)定特征t。
3.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第二步驟也可以利用如下信息增益統(tǒng)計量計算公式
其中
其中,Ai表示有多少包含特征t的樣本屬于預(yù)定類別CLSi;
Bi表示有多少包含特征t的樣本不屬于預(yù)定類別CLSi;
Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含特征t;
Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含特征t。
4.如權(quán)利要求2或3所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第一步驟包括:
首先,對文本進行預(yù)處理以得到包含詞語、字符串、數(shù)字、符號中的一個或多個的混合序列,混合序列中的每一項記作為一個標記,而且每個標記作為一個候選特征。
然后,構(gòu)建一個標記與標識符的映射表,其中為每個標記賦予以一個唯一的標識符;
此后,記錄每個候選特征在各個類別樣本中出現(xiàn)的統(tǒng)計數(shù)據(jù),建立并初始化一個計數(shù)器矩陣,矩陣中的每一項對應(yīng)于相應(yīng)候選特征在每個類別上的統(tǒng)計數(shù)據(jù);
接著,依次處理標注了類別信息的文本集合中的每個樣本,統(tǒng)計在樣本中出現(xiàn)的每個候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進行排列。
5.如權(quán)利要求4所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,每出現(xiàn)一個屬于預(yù)定類別CLSi并且含有預(yù)定特征t的樣本dj,就使得Ai遞增α,其中α∈[0,1],α的值表示預(yù)定特征t對預(yù)定樣本dj的語義代表程度。
6.如權(quán)利要求5所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,利用如下公式計算α:
其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。
7.如權(quán)利要求1或2所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,在第三步驟,依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行降序排列。