亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

重要性加權(quán)的文本分類特征選擇方法與流程

文檔序號:11063579閱讀:來源:國知局

技術(shù)特征:

1.一種重要性加權(quán)的文本分類特征選擇方法,其特征在于包括:

第一步驟:統(tǒng)計各候選特征在各類別中出現(xiàn)的數(shù)據(jù)信息,統(tǒng)計時特別考慮了候選特征對文本的語義代表程度,即重要性;

第二步驟:使用在第一步驟得到的所述數(shù)據(jù)信息,利用相關(guān)性統(tǒng)計量計算公式,計算各個候選特征對各個類別的區(qū)分能力;

第三步驟:匯總計算各個候選特征對所有類別的總體區(qū)分能力,并且依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行排序,并且輸出經(jīng)由排序得到的特征列表。

2.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第二步驟利用如下開方檢驗統(tǒng)計量計算公式

<mrow> <msub> <mi>CHI</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>&times;</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>&times;</mo> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,Ai表示有多少包含預(yù)定特征t的樣本屬于預(yù)定類別CLSi;

Bi表示有多少包含預(yù)定特征t的樣本不屬于預(yù)定類別CLSi

Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含預(yù)定特征t;

Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含預(yù)定特征t。

3.如權(quán)利要求1所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第二步驟也可以利用如下信息增益統(tǒng)計量計算公式

<mrow> <msub> <mi>IG</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mrow> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中

其中,Ai表示有多少包含特征t的樣本屬于預(yù)定類別CLSi;

Bi表示有多少包含特征t的樣本不屬于預(yù)定類別CLSi

Ci表示有多少屬于預(yù)定類別CLSi的樣本但不包含特征t;

Di表示有多少樣本既不屬于預(yù)定類別CLSi也不包含特征t。

4.如權(quán)利要求2或3所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,第一步驟包括:

首先,對文本進行預(yù)處理以得到包含詞語、字符串、數(shù)字、符號中的一個或多個的混合序列,混合序列中的每一項記作為一個標記,而且每個標記作為一個候選特征。

然后,構(gòu)建一個標記與標識符的映射表,其中為每個標記賦予以一個唯一的標識符;

此后,記錄每個候選特征在各個類別樣本中出現(xiàn)的統(tǒng)計數(shù)據(jù),建立并初始化一個計數(shù)器矩陣,矩陣中的每一項對應(yīng)于相應(yīng)候選特征在每個類別上的統(tǒng)計數(shù)據(jù);

接著,依次處理標注了類別信息的文本集合中的每個樣本,統(tǒng)計在樣本中出現(xiàn)的每個候選特征在該樣本中的出現(xiàn)頻次,并按照出現(xiàn)頻次的大小進行排列。

5.如權(quán)利要求4所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,每出現(xiàn)一個屬于預(yù)定類別CLSi并且含有預(yù)定特征t的樣本dj,就使得Ai遞增α,其中α∈[0,1],α的值表示預(yù)定特征t對預(yù)定樣本dj的語義代表程度。

6.如權(quán)利要求5所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,利用如下公式計算α:

其中|dj|表示樣本dj中可能的候選特征總數(shù),TF表示特征頻數(shù)。

7.如權(quán)利要求1或2所述的重要性加權(quán)的文本分類特征選擇方法,其特征在于,在第三步驟,依據(jù)各個候選特征對所有類別的總體區(qū)分能力對所有候選特征進行降序排列。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1