,互信息的計算也更復(fù)雜,為驗證提出方法的有 效性,一個多值分類問題被分析。
[0115] 從雅虎網(wǎng)站收集171832個英文網(wǎng)頁,網(wǎng)頁的單詞數(shù)少于50的頁面被過濾掉,運(yùn)些 網(wǎng)頁包含不同的主題,本實例選擇3類主題進(jìn)行研究,即金融、運(yùn)動、汽車,金融網(wǎng)頁被標(biāo)注 為0,運(yùn)動網(wǎng)頁標(biāo)注為1,汽車網(wǎng)頁標(biāo)注為2。每個主題包含10000個網(wǎng)頁,共30000個網(wǎng)頁。 首先,根據(jù)式(13)計算每個文檔中每個詞的TF-IDF值,在所有文檔中,詞的TF-IDF最大值 小于0. 02的將被忽略掉,通過過濾,剩余1200個詞,我們利用本文提出的方法選擇多值文 本分類的最佳特征變量組合,過程如下。
[0116] 特征選擇:
[0117] 1200個詞用本文提出的特征選擇方法進(jìn)行分析,根據(jù)每個詞與類變量之間的互信 息值進(jìn)行降序排序,每個詞用相應(yīng)的序列號進(jìn)行表示,即0, 1,,1199,在本實例中,選擇特征 的個數(shù)被指定為30,文檔集合分別被均勻劃分為1,2,4等份,基于不同劃分形式的特征選 擇結(jié)果如表7所示,給出了基于不同劃分形式的特征選擇結(jié)果。基于不同劃分形式選擇的 特征變量分別用向量F1,F(xiàn)2和F4表示。 陽11引 表7 陽119]
[0120] 文本分類: 陽121] 經(jīng)過特征選擇,選擇的特征用做支持向量機(jī)的輸入進(jìn)行文本分類。20000個文檔用 做訓(xùn)練樣本,余下的當(dāng)作測試樣本,在運(yùn)個支持向量機(jī)模型中,徑向基函數(shù)當(dāng)作核函數(shù),常 系數(shù)C= 1,丫 = 0.003和e= 0.001。通過訓(xùn)練,測試結(jié)果如表8所示,給出了基于不同 特征選擇結(jié)果分類結(jié)果。為了比較,取30個具有最大互信息的特征變量進(jìn)行文本分類,分 類結(jié)果如表9所示,給出了基于30個最大互信息的特征變量的分類結(jié)果。
[0122]表 8陽 123]
陽126]特征選擇比較:
[0127] 為進(jìn)行比較,基于MapRe化ce的邏輯回歸和基于MPI的遺傳算法用來選擇特征變 量組合,30個變量被選擇,選擇的結(jié)果列于表10,給出了基于邏輯回歸和遺傳算法的特征 選擇結(jié)果,在4個計算節(jié)點(diǎn)運(yùn)行,基于特征選擇結(jié)果進(jìn)行文本分類,分類結(jié)果列于表11,給 出了基于不同方法得到的特征選擇分類結(jié)果。 陽128]表10 陽 129]
[0132] 從上面兩個例子分析結(jié)果可W看出,本文提出的特征選擇方法在處理大規(guī)模特征 選擇問題方面是有效的,可有效降低算法的計算量。
[0133] 結(jié)論:特征選擇是文本分類中重要任務(wù),基于瑞利賭的互信息能夠度量變量之間 的任意統(tǒng)計相關(guān)性,然而,基于互信息的特征選擇方法計算量特別大,本文提出的并行特征 選擇方法能夠顯著降低計算量,該方法具有很好的可擴(kuò)展性。通過實例分析的結(jié)果看,基于 本文提出的特征選擇方法得到特征組合的分類結(jié)果要好于目前常用特征選擇方法得到的 結(jié)果,特征選擇的計算量通過MapRe化ce并行化可顯著降低,本文提出的并行特征選擇方 法可擴(kuò)展性好,可處理大規(guī)模問題,可被廣泛應(yīng)用到各個領(lǐng)域。
【主權(quán)項】
1. 一種基于互信息的用于文檔分類的并行特征選擇方法,其特征在于,通過以下步驟 來實現(xiàn): a) .選取樣本并分類,選取N篇文檔,形成訓(xùn)練樣本集合D = {山,(12,...乂},山為 選取的單篇文檔;采用人工劃分的方式每個文檔進(jìn)行分類,形成類變量集合C = Y = Ic1, c2, ···,cp},文檔Cl1的種類必屬于類變量集合D ; b) .求解詞的TF-IDF值,TF-IDF是詞頻tf (t,d)和逆文檔頻率idf (t,D)的乘積,對于 每個文檔中的每個詞計算求解其TF-IDF值;在所有文檔中如果某個詞的TF-IDF值都小于 臨界值m,則該詞屬于低頻詞,將其忽落掉; c) .生成初始化數(shù)據(jù)集合,以每個文檔中詞的TF-IDF值為向量,組成初始化數(shù)據(jù)集合D =(X1, X2, ...,xN},Xi為文檔i中所有被選中詞的TF-IDF值所組成的向量; d) .分布式計算,將數(shù)據(jù)集合D = U1, x2,. . .,xN}平均分成η個子數(shù)據(jù)集D1, D2,…,Dn, 然后將所有子數(shù)據(jù)集平均分布到m個計算節(jié)點(diǎn)上,以確保較高的計算速度;設(shè)要選擇出數(shù) 目為k的詞變量集合; e) .建立集合,假設(shè)S和V為兩個集合,設(shè)S = Φ,V = (X1, X2,. . .,XM},S表示已被選 擇的特征,V表示沒被選擇的特征; f) .計算聯(lián)合、條件概率分布,對于每個沒有被選中的詞變量X1,計算聯(lián)合概率分 布 pGSJJ)和條件概率分布函數(shù)pGSJJ ICj), i e {1,2,...,M},j e {l,2,...,p}; P ({S,XJ)表示某一文檔中待判斷的特征變量&與已選中的特征詞集合S之間的聯(lián)合概率 分布; g) .計算互信息,通過公式⑴計算{s,XJ與類變量Y之間的互信息I({S,XJ ;Y): I ({S, XJ ;Y) = H ({S, XJ) +H (Y) H ({S, Xj , Y) (I) 其中,i e {1,2,...,Μ};每個計算節(jié)點(diǎn)計算完畢后,本次計算中使互信息IGSjJ ;Υ) 具有最大值的特征變量X1作為選中詞; h) .選取特征變量,統(tǒng)計每個計算節(jié)點(diǎn)所返回的特征變量&和相應(yīng)的互信息,被選中次 數(shù)最多的詞&作為本次計算所要選擇的特征變量;如果兩個變量被選中的次數(shù)一樣多,則 選擇互信息值的和最大的特征變量作為計算所要選擇的特征變量;把本次計算中選取的詞 變量X 1從集合V中去除,將其增添至集合S中,執(zhí)行步驟i); i) .判斷數(shù)量是否已夠,判斷集合S中所選取的特征變量的數(shù)目是否達(dá)到了設(shè)定的k 個,如果達(dá)到,則停止運(yùn)算;如果沒有達(dá)到,則跳轉(zhuǎn)至步驟f),繼續(xù)進(jìn)行特征變量的選??; j) .文本分類,利用所選取的k個特征變量作為支持向量機(jī)的輸入對文本進(jìn)行分類,具 有很高的準(zhǔn)確率。2. 根據(jù)權(quán)利要求1所述的基于互信息的用于文檔分類的并行特征選擇方法,其特征在 于,步驟b)中TF-IDF值的求取通過以下步驟來實現(xiàn): TF-IDF是詞頻tf (t, d)和逆文檔頻率idf (t, D)的乘積,詞頻利用詞t在文檔d中出現(xiàn) 的頻率進(jìn)行計算,其通過公式(2)進(jìn)行求?。耗嫖臋n頻率是該詞提供信息的測度,某一特定詞的idf(t,D)由總文檔數(shù)目除以包含 該詞語之文檔的數(shù)目,再將得到的商取對數(shù)得到,其通過公式(3)進(jìn)行求?。浩渲校琋是文檔總數(shù),|d e D:t e d|是出現(xiàn)詞t的文檔數(shù): TF-IDF的值tfidf(t,d,D)通過公式⑷進(jìn)行求取: tfidf (t, d, D) = tf (t, d) X idf (t, D) (4)。3. 根據(jù)權(quán)利要求1或2所述的基于互信息的用于文檔分類的并行特征選擇方法,其特 征在于,步驟f)中所述的聯(lián)合概率分布和條件概率分布通過以下步驟來實現(xiàn): f-Ι).假設(shè)一組訓(xùn)練文檔樣本用(Xuc1)表示,i = 1,2,···,N,X1是文檔中所有TF-IDF 值組成的向量,其中每個文檔的向量值和對應(yīng)的類變量值都已知,通過公式(5)計算概率 分布函數(shù):其中,參數(shù)μ和Σ的極大似然估計分別通過公式(6)和公式(7)進(jìn)行求?。篺_2).最初的數(shù)據(jù)集合被分成q部分,每部分的大小為Ν,,它滿足;類C = (^的 概率分布函數(shù)為:f_3).離散類變量的概率分布函數(shù)通過統(tǒng)計方法計算,即:f-4). X和C = (^的聯(lián)合概率分布函數(shù)為:將變量{S,XJ代入公式(10)和(8)即可求取聯(lián)合概率分布函數(shù)和條件概率分布函數(shù)。4. 根據(jù)權(quán)利要求1或2所述的基于互信息的用于文檔分類的并行特征選擇方法,其特 征在于,步驟g)中所述的互信息I ({S,XJ ;Y)通過以下方法來求取: 特征變量X和類變量C之間的互信息可根據(jù)公式I (X ;C) = H (X) +H (C) -H (X,C)中,特 征變量X的二次熵H(X)、類變量C的二次熵H(C)、特征變量X與類變量C的聯(lián)合熵分別通 過公式(11)、(12)和(13)進(jìn)行求取:將特征變量{s,XJ和類變量Y代入公式(11)、(12)和(13)中,即可求出公式(1)中 的以以義:^以^以以父丄仏以計算出以義丨與類變量丫之間的互信息^以義}。)。5.根據(jù)權(quán)利要求1或2所述的基于互信息的用于文檔分類的并行特征選擇方法,其特 征在于,步驟d)中要選擇出的詞變量的數(shù)目k = 30。
【專利摘要】本發(fā)明的基于互信息的用于文檔分類的并行特征選擇方法,包括a).選取樣本并分類;b).求解詞的TF-IDF值;c).生成初始化數(shù)據(jù)集合D={x1,x2,…,xN};d).分布式計算,將所有子數(shù)據(jù)集平均分布到m個計算節(jié)點(diǎn)上;e).建立集合,S=Φ,V={X1,X2,…,XM};f).計算聯(lián)合、條件概率分布;g).計算互信息;h).選取特征變量;i).判斷數(shù)量是否已夠;j).文本分類。本發(fā)明的文檔分類的并行特征選擇方法,基于瑞利熵的互信息被用來度量特征變量與類變量之間的相關(guān)性,使得最終選取的特征變量更能代表文檔分類的特征,分類效果更準(zhǔn)確,分類結(jié)果要好于目前常用特征選擇方法得到的結(jié)果,有益效果顯著,適于推廣應(yīng)用。
【IPC分類】G06K9/62, G06F17/30
【公開號】CN105183813
【申請?zhí)枴緾N201510532920
【發(fā)明人】李釗, 顧衛(wèi)東, 孫占全
【申請人】山東省計算中心(國家超級計算濟(jì)南中心)
【公開日】2015年12月23日
【申請日】2015年8月26日