基于互信息的用于文檔分類的并行特征選擇方法
【技術領域】
[0001] 本發(fā)明設及一種文檔分類特征的選擇方法,更具體的說,尤其設及一種基于互信 息的用于文檔分類的并行特征選擇方法。
【背景技術】
[0002] 自動文本分類是數(shù)據(jù)分析中特別具有挑戰(zhàn)性的任務,不論是在理論還是實踐方 面,已成功應用于很多領域,如圖書館文獻、新聞報紙分類、主題檢測、垃圾郵件過濾、作者 識別、網(wǎng)頁分類等。隨著信息技術的發(fā)展,在很多領域中,數(shù)據(jù)不論是在規(guī)模還是維度上都 變得越來越大,運需要花費更多的時間和空間。對于文本分類,特征選擇是實現(xiàn)高效文本分 類而又不影響準確率的一項重要手段。特征選擇是降維、去除不相關數(shù)據(jù)、提高學習精度、 提高結果可理解性的關鍵技術,是直接影響文檔分類的準確率的重要工作,特征選擇主要 有兩個主要目的,首先,特征選擇使分類更有效通過降低有效詞組的大小,其次,分類準確 率通常通過噪音特征去除而提高。有很多特征選擇方法,如基于統(tǒng)計的詞頻法燈巧、詞頻逆 文檔頻率燈F-ID巧法、卡方、信息增益(IG)、文檔頻次值巧和互信息法(MI)等,DF和TF 主要注重文檔和詞頻,運兩種方法是無監(jiān)督方法,在不考慮類分布的情況下刪除低頻詞,互 信息、卡方、信息增益?zhèn)戎赜诜治鎏卣髋c類之間的關系,有些時候運些方法會對低頻詞產(chǎn)生 偏差,而實際上很多低頻詞是噪音,只有一些對于分類提供有價值信息。
[0003] 現(xiàn)有的用于分類的特征選擇的方法有基于群體優(yōu)化與信息增益混合的方法,W及 基于概率的特征選擇方法,所有特征選擇方法最終目的都是為了提高分類效率和準確率, 但如何設計一個合適的特征選擇方法仍然是個具有挑戰(zhàn)性的問題。為解決運個問題,本文 提出了一種TF-IDF與互信息相結合的特征選擇方法,首先,計算文檔的TF-IDF值,生成文 檔的詞向量,每個詞的TF-IDF概率分布通過極大似然法進行估計。然后,聯(lián)合互信息被用 來度量特征和類之間的關系。
[0004] 隨著電子計算機技術的發(fā)展,電子數(shù)據(jù)量呈指數(shù)發(fā)展,特征選擇的計算量也隨之 顯著增加,當數(shù)據(jù)量很大時,傳統(tǒng)的基于串行編程的特征選擇方法已不適用,因此,基于并 行算法的特征選擇方法將是處理大規(guī)模數(shù)據(jù)的合理選擇。并行算法通過不同的并行化技術 來實現(xiàn),如多線程、MPI、MapRe化ce、工作流技術等,不同的并行化技術會有不同的性能和使 用特征,據(jù)了解,化doop是最流行的開源MapRe化ce平臺,但化doop運種MapRe化ce架構 不支持迭代的Map和Re化ce任務,而很多機器學習算法需要運種迭代。為解決運個問題, 一些迭代MapReduce架構被提出來,如Twister,Spark等。 陽〇化]已有一些基于并行化技術的研究工作來提高處理速度,一種并行協(xié)同進化遺傳算 法被提出來解決大規(guī)模特征選擇問題,提出了一種基于MapRe化ce的并行粗糖集算法,基 于互信息的并行特征選擇方法被提出,運種方法只能處理離散變量的問題,而在文本分類 中,詞的TF-IDF值通常被認為是連續(xù)變量,如何處理大規(guī)模連續(xù)變量的特征選擇是具有挑 戰(zhàn)性的問題。本文提出了一種處理大規(guī)模連續(xù)變量特征選擇的并行方法,在該方法中,基于 瑞利賭的互信息被用來度量特征與類之間的相關性。詞變量的分布被認為服從正態(tài)分布, 多個詞變量的聯(lián)合分布被認為服從多變量正態(tài)分布,該特征選擇方法基于貪婪法。
[0006] 經(jīng)過特征選擇,選擇的特征被用來構建一個文檔分類器。很多分類器用于文檔分 類,如KNN,樸素貝葉斯、Ad油oost、支持向量機等。支持向量機被認為是最有效的文本分 類器之一,但支持向量機所需計算和存儲資源會隨著訓練樣本量的增多而快速增加,因此, 很多實際問題不能夠用支持向量機進行處理。為提高支持向量機的訓練速度,一種基于 MapRe化ce的并行支持向量機模型,本文將用該模型進行文本分類。該方法的有效性將通過 案例分析予W驗證。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明為了克服上述技術問題的缺點,提供了一種基于互信息的用于文檔分類的 并行特征選擇方法。
[0008] 本發(fā)明的基于互信息的用于文檔分類的并行特征選擇方法,其特別之處在 于,通過W下步驟來實現(xiàn):a).選取樣本并分類,選取N篇文檔,形成訓練樣本集合D= (山d2, . . .,cU,di為選取的單篇文檔;采用人工劃分的方式每個文檔進行分類,形成類變 量集合0 = ¥={〇1,〇2,...,〇。},文檔(11的種類必屬于類變量集合0;6).求解詞的1尸-10尸 值,TF-IDF是詞頻tf(t,d)和逆文檔頻率idf(t,D)的乘積,對于每個文檔中的每個詞計算 求解其TF-IDF值;在所有文檔中如果某個詞的TF-IDF值都小于臨界值m,則該詞屬于低頻 詞,將其忽落掉;C).生成初始化數(shù)據(jù)集合,W每個文檔中詞的TF-IDF值為向量,組成初始 化數(shù)據(jù)集合D= 1x1,而,...,%},為文檔i中所有被選中詞的TF-IDF值所組成的向量; d).分布式計算,將數(shù)據(jù)集合D= 1x1,X2,. . .,xj平均分成n個子數(shù)據(jù)集化,〇2,…,D。,然后 將所有子數(shù)據(jù)集平均分布到m個計算節(jié)點上,W確保較高的計算速度;設要選擇出數(shù)目為 k的詞變量集合;e).建立集合,假設S和V為兩個集合,設S=巫,V=找1,X2,. . .,Xm}, S表示已被選擇的特征,V表示沒被選擇的特征;f).計算聯(lián)合、條件概率分布,對于每個 沒有被選中的詞變量Xi,計算聯(lián)合概率分布P(怯,Xi})和條件概率分布函數(shù)P(怯,Xi}ICj), iG(l,2,...,M},jG{l,2,...,p} ;paS,Xi})表示某一文檔中待判斷的特征變量Xi與已 選中的特征詞集合S之間的聯(lián)合概率分布;g).計算互信息,通過公式(1)計算怯,XJ與類 變量Y之間的互信息I(怯,Xil;Y),
[0009] I({S,XJ;Y) =H({S,XJ)+H(Y)-H({S,XJ,Y) (1)
[0010] 其中,iG{1,2,...,M};每個計算節(jié)點計算完畢后,本次計算中使互信息 iaS,Xi} ;Y)具有最大值的特征變量Xi作為選中詞;h).選取特征變量,統(tǒng)計每個計算節(jié)點 所返回的特征變量Xi和相應的互信息,被選中次數(shù)最多的詞Xi作為本次計算所要選擇的特 征變量;如果兩個變量被選中的次數(shù)一樣多,則選擇互信息值的和最大的特征變量作為計 算所要選擇的特征變量;把本次計算中選取的詞變量Xi從集合V中去除,將其增添至集合 S中,執(zhí)行步驟i) ;i).判斷數(shù)量是否已夠,判斷集合S中所選取的特征變量的數(shù)目是否達 到了設定的k個,如果達到,則停止運算;如果沒有達到,則跳轉至步驟f),繼續(xù)進行特征變 量的選?。籮).文本分類,利用所選取的k個特征變量作為支持向量機的輸入對文本進行分 類,具有很高的準確率。
[0011] 本發(fā)明的基于互信息的用于文檔分類的并行特征選擇方法,步驟b)中TF-IDF值 的求取通過W下步驟來實現(xiàn):
[0012] TF-IDF是詞頻tf(t,d)和逆文檔頻率i壯(t,D)的乘積,詞頻利用詞t在文檔d中 出現(xiàn)的頻率進行計算,其通過公式(2)進行求?。?br>[0013]
C 2)
[0014] 逆文檔頻率是該詞提供信息的測度,某一特定詞的i壯(t,D)由總文檔數(shù)目除W 包含該詞語之文檔的數(shù)目,再將得到的商取對數(shù)得到,其通過公式(3)進行求?。?br>[0015]
結)
[0016] 其中,N是文檔總數(shù),IdGD:tGd|是出現(xiàn)詞t的文檔數(shù):
[0017]TF-IDF的值tfi壯(t,d,D)通過公式(4)進行求取:
[0018] tfidf(t,d,D) =tf(t,d)Xidf(t,D) (4)。
[0019] 本發(fā)明的基于互信息的用于文檔分類的并行特征選擇方法,步驟f)中所述的聯(lián) 合概率分布和條件概率分布通過W下步驟來實現(xiàn):
[0020]f-1).假設一組訓練文檔樣本用(Xi,Ci)表示,i=1,2,…,N,Xi是文檔中所有 TF-IDF值組成的向量,其中每個文檔的向量值和對應的類變量值都已知,通過公式(5)計 算概率分布函數(shù):
[0021]
(5)
[0022] 其中,參數(shù)y和X的極大似然估計分別通過公式(6)和公式(7)進行求?。?br>[00對f-2).最初的數(shù)據(jù)集合被分成q部分,每部分的大小為N,,它滿巧
類C= C,的概率分布函數(shù)為:
[0026]
[0027]f-3).離散類變量的概率分布函數(shù)通過統(tǒng)計方法計算,即:
[0028]
[0029] f-4).X和C=C,的聯(lián)合概率分布函數(shù)為:
[0030]
[0031] 將變量怯,XJ代入公式(10)和(8)即可求取聯(lián)合概率分布函數(shù)和條件概率分布 函數(shù)。
[0032] 本發(fā)明的基于互信息的用于文檔分類的并行特征選擇方法,步驟g)中所述的互 信息ias,Xi} ;Y)通過W下方法來求?。?陽03引特征變量X和類變量C之間的互信息可根據(jù)公式I狂;C)=H佩+H似-H化C)中, 特征變量X的二次賭H狂)、類變量C的二次賭H(C)、特征變量X與類變量C的聯(lián)合賭分別 通過公式(11)、(12)和(13)進行求?。?br>[0037] 將特征變量怯,XJ和類變量Y代入公式(11)、(12)和(13)中,即可求出公式(1) 中的H(怯,Xi})、H燈)