重要性加權(quán)的文本分類特征選擇方法與流程

文檔序號：11063579閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>重要性加權(quán)的文本分類特征選擇方法與制造工藝

技術(shù)特征：

1.一種重要性加權(quán)的文本分類特征選擇方法，其特征在于包括：

第一步驟：統(tǒng)計各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息，統(tǒng)計時特別考慮了候選特征對文本的語義代表程度，即重要性；

第二步驟：使用在第一步驟得到的所述數(shù)據(jù)信息，利用相關(guān)性統(tǒng)計量計算公式，計算各個候選特征對各個類別的區(qū)分能力；

第三步驟：匯總計算各個候選特征對所有類別的總體區(qū)分能力，并且依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行排序，并且輸出經(jīng)由排序得到的特征列表。

2.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，第二步驟利用如下開方檢驗統(tǒng)計量計算公式

$<mrow> <msub> <mi>CHI</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>×</mo> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>×</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>×</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>×</mo> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>×</mo> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>×</mo> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>$

其中，A_i表示有多少包含預(yù)定特征t的樣本屬于預(yù)定類別CLS_i；

B_i表示有多少包含預(yù)定特征t的樣本不屬于預(yù)定類別CLS_i；

C_i表示有多少屬于預(yù)定類別CLS_i的樣本但不包含預(yù)定特征t；

D_i表示有多少樣本既不屬于預(yù)定類別CLS_i也不包含預(yù)定特征t。

3.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，第二步驟也可以利用如下信息增益統(tǒng)計量計算公式

$<mrow> <msub> <mi>IG</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>$

其中

其中，A_i表示有多少包含特征t的樣本屬于預(yù)定類別CLS_i；

B_i表示有多少包含特征t的樣本不屬于預(yù)定類別CLS_i；

C_i表示有多少屬于預(yù)定類別CLS_i的樣本但不包含特征t；

D_i表示有多少樣本既不屬于預(yù)定類別CLS_i也不包含特征t。

4.如權(quán)利要求2或3所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，第一步驟包括：

首先，對文本進行預(yù)處理以得到包含詞語、字符串、數(shù)字、符號中的一個或多個的混合序列，混合序列中的每一項記作為一個標記，而且每個標記作為一個候選特征。

然后，構(gòu)建一個標記與標識符的映射表，其中為每個標記賦予以一個唯一的標識符；

此后，記錄每個候選特征在各個類別樣本中出現(xiàn)的統(tǒng)計數(shù)據(jù)，建立并初始化一個計數(shù)器矩陣，矩陣中的每一項對應(yīng)于相應(yīng)候選特征在每個類別上的統(tǒng)計數(shù)據(jù)；

接著，依次處理標注了類別信息的文本集合中的每個樣本，統(tǒng)計在樣本中出現(xiàn)的每個候選特征在該樣本中的出現(xiàn)頻次，并按照出現(xiàn)頻次的大小進行排列。

5.如權(quán)利要求4所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，每出現(xiàn)一個屬于預(yù)定類別CLS_i并且含有預(yù)定特征t的樣本d_j，就使得A_i遞增α，其中α∈[0,1]，α的值表示預(yù)定特征t對預(yù)定樣本d_j的語義代表程度。

6.如權(quán)利要求5所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，利用如下公式計算α：

其中|d_j|表示樣本d_j中可能的候選特征總數(shù)，TF表示特征頻數(shù)。

7.如權(quán)利要求1或2所述的重要性加權(quán)的文本分類特征選擇方法，其特征在于，在第三步驟，依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行降序排列。

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

特征選擇相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

重要性加權(quán)的文本分類特征選擇方法與流程