專利名稱:一種信息處理特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理算法領(lǐng)域,且特別涉及一種信息處理特征提取方法。
背景技術(shù):
文本的表示及其特征項(xiàng)的選取是文本挖掘、信息檢索的一個(gè)基本問題,它把從文本中抽取出的特征詞進(jìn)行量化來表示文本信息。將它們從一個(gè)無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識別處理的信息,即對文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計(jì)算機(jī)能夠通過對這種模型的計(jì)算和操作來實(shí)現(xiàn)對文本的識別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計(jì)方法得到的特征項(xiàng)來表示文本向量中的各個(gè)維,那么這個(gè)向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計(jì)算開銷,使整個(gè)處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)上,找出對文本特征類別最具代表性的文本特征。為了解決這個(gè)問題,最有效的辦法就是通過特征選擇來降維。目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。特征項(xiàng)必須具備一定的特性1)特征項(xiàng)要能夠確實(shí)標(biāo)識文本內(nèi)容;幻特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力;3)特征項(xiàng)的個(gè)數(shù)不能太多;4)特征項(xiàng)分離要比較容易實(shí)現(xiàn)。在中文文本中可以采用字、詞或短語作為表示文本的特征項(xiàng)。相比較而言,詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng),稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實(shí)現(xiàn)文檔與文檔、文檔與用戶目標(biāo)之間的相似度計(jì)算。如果把所有的詞都作為特征項(xiàng),那么特征向量的維數(shù)將過于巨大,從而導(dǎo)致計(jì)算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計(jì)算,提高文本處理的速度和效率。文本特征選擇對文本內(nèi)容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個(gè)特征評估函數(shù)計(jì)算各個(gè)特征的評分值,然后按評分值對這些特征進(jìn)行排序,選取若干個(gè)評分值最高的作為特征詞,這就是特征抽取(Feature Selection)0現(xiàn)有的特征選取的方式有4種(I)用映射或變換的方法把原始特征變換為較少的新特征;( 從原始特征中挑選出一些最具代表性的特征;C3)根據(jù)專家的知識挑選最有影響的特征;(4)用數(shù)學(xué)的方法進(jìn)行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)的應(yīng)用。詞頻空間特征提取方法,這類型算法通過構(gòu)造評估函數(shù),對特征集合中的每個(gè)特征進(jìn)行評估,并對每個(gè)特征打分,這樣每個(gè)詞語都獲得一個(gè)評估值,又稱為權(quán)值。然后將所有特征按權(quán)值大小排序,提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)果的特征子集。顯然,對于這類型算法,決定文本特征提取效果的主要因素是評估函數(shù)的質(zhì)量。UTF-IDF 單詞權(quán)重最為有效的實(shí)現(xiàn)方法就是TF*IDF,它是由Mlton在1988年提出的。其中TF稱為詞頻,用于計(jì)算該詞描述文檔內(nèi)容的能力;IDF稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力。TF*IDF的指導(dǎo)思想建立在這樣一條基本假設(shè)之上在一個(gè)文本中出現(xiàn)很多次的單詞,在另一個(gè)同類文本中出現(xiàn)次數(shù)也會很多,反之亦然。所以如果特征空間坐標(biāo)系取 TF詞頻作為測度,就可以體現(xiàn)同類文本的特點(diǎn)。另外還要考慮單詞區(qū)別不同類別的能力, TF*IDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻率越小,它區(qū)別不同類別的能力就越大,所以引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測度。TFIDF法是以特征詞在文檔d中出現(xiàn)的次數(shù)與包含該特征詞的文檔數(shù)之比作為該詞的權(quán)重,即其中,Wi表示第i個(gè)特征詞的權(quán)重,TFi (t,d)表示詞t在文檔d中的出現(xiàn)頻率,N表示總的文檔數(shù),DF(t)表示包含t的文檔數(shù)。用TFIDF算法來計(jì)算特征詞的權(quán)重值是表示當(dāng)一個(gè)詞在這篇文檔中出現(xiàn)的頻率越高,同時(shí)在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對于表示這篇文檔的區(qū)分能力越強(qiáng),所以其權(quán)重值就應(yīng)該越大。將所有詞的權(quán)值排序,根據(jù)需要可以有兩種選擇方式(1)選擇權(quán)值最大的某一固定數(shù)η個(gè)關(guān)鍵詞;( 選擇權(quán)值大于某一閾值的關(guān)鍵詞。一些實(shí)驗(yàn)表示,人工選擇關(guān)鍵詞,4 7個(gè)比較合適,機(jī)選關(guān)鍵詞10 15通常具有最好的覆蓋度和專指度。TFIDF算法是建立在這樣一個(gè)假設(shè)之上的對區(qū)別文檔最有意義的詞語應(yīng)該是那些在文檔中出現(xiàn)頻率高,而在整個(gè)文檔集合的其他文檔中出現(xiàn)頻率少的詞語,所以如果特征空間坐標(biāo)系取TF詞頻作為測度,就可以體現(xiàn)同類文本的特點(diǎn)。另外考慮到單詞區(qū)別不同類別的能力,TFIDF法認(rèn)為一個(gè)單詞出現(xiàn)的文本頻數(shù)越小,它區(qū)別不同類別文本的能力就越大。因此引入了逆文本頻度IDF的概念,以TF和IDF的乘積作為特征空間坐標(biāo)系的取值測度,并用它完成對權(quán)值TF的調(diào)整,調(diào)整權(quán)值的目的在于突出重要單詞,抑制次要單詞。但是在本質(zhì)上IDF是一種試圖抑制噪音的加權(quán),并且單純地認(rèn)為文本頻數(shù)小的單詞就越重要, 文本頻數(shù)大的單詞就越無用,顯然這并不是完全正確的。IDF的簡單結(jié)構(gòu)并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權(quán)值調(diào)整的功能,所以TFIDF 法的精度并不是很高。此外,在TFIDF算法中并沒有體現(xiàn)出單詞的位置信息,對于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此應(yīng)該對于處于網(wǎng)頁不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果。2、互信息(MutualInformation)互信息衡量的是某個(gè)詞和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,某個(gè)詞t和某個(gè)類別Ci傳統(tǒng)的互信息定義如下互信息是計(jì)算語言學(xué)模型分析的常用方法,它度量兩個(gè)對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度?;バ畔⒌亩x與交叉嫡近似?;バ畔⒈緛硎切畔⒄撝械囊粋€(gè)概念,用于表示信息之間的關(guān)系,是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測度,使用互信息理論進(jìn)行特征抽取是基于如下假設(shè)在某個(gè)特定類別出現(xiàn)頻率高,但在其他類別出現(xiàn)頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特征詞和類別之問的測度, 如果特征詞屬于該類的話,它們的互信息量最大。由于該方法不需要對特征詞和類別之問關(guān)系的性質(zhì)作任何假設(shè),因此非常適合于文本分類的特征和類別的配準(zhǔn)工作。特征項(xiàng)和類別的互信息體現(xiàn)了特征項(xiàng)與類別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)。互信息與期望交叉熵的不同在于沒有考慮特征出現(xiàn)的頻率,這樣導(dǎo)致互信息評估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。因?yàn)閷τ诿恳恢黝}來講,特征t的互信息越大,說明它與該主題的共現(xiàn)概率越大,因此,以互信息作為提取特征的評價(jià)時(shí)應(yīng)選互信息最大的若干個(gè)特征?;バ畔⒂?jì)算的時(shí)間復(fù)雜度類似于信息增益,互信息的平均值就是信息增益。互信息的不足之處在于得分非常受詞條邊緣概率的影響。實(shí)驗(yàn)數(shù)據(jù)顯示,互信息分類效果最差,其次是文檔頻率、CC統(tǒng)計(jì),CHI統(tǒng)計(jì)分類效果最好。對互信息而言,提高分類精度的方法有1)可以增加特征空間的維數(shù),以提取足夠多的特征信息,這樣就會帶來了時(shí)間和空間上的額外開銷;2)根據(jù)互信息函數(shù)的定義, 認(rèn)為這些低頻詞攜帶著較為強(qiáng)烈的類別信息,從而對它們有不同程度的倚重.當(dāng)訓(xùn)練語料庫沒有達(dá)到一定規(guī)模的時(shí)候,特征空間中必然會存在大量的出現(xiàn)文檔頻率很低(比如低于 3次)的詞條,他們較低的文檔頻率導(dǎo)致了他們必然只屬于少數(shù)類別.但是從抽取出來的特征詞觀察發(fā)現(xiàn),大多數(shù)為生僻詞,很少一部分確實(shí)帶有較強(qiáng)的類別信息,多數(shù)詞攜帶少量的類別信息,甚至是噪音詞.3、期望交叉熵(ExpectedCrossEntropy)交叉嫡,也稱KL距離。它反映了文本主題類的概率分布和在出現(xiàn)了某特定詞匯的條件下文本主題類的概率分布之間的距離,詞匯w的交叉嫡越大,對文本主題類分布的影響也越大。它與信息增益唯一的不同之處在于沒有考慮單詞未發(fā)生的情況,只計(jì)算出現(xiàn)在文本中的特征項(xiàng)。如果特征項(xiàng)和類別強(qiáng)相關(guān),P(CiIw)就大,若P(Ci)又很小的話,則說明該特征對分類的影響大。交叉熵反映了文本類別的概率分布和在出現(xiàn)了某個(gè)特定詞的條件下文本類別的概率分布之間的距離,特征詞t的交叉熵越大,對文本類別分布的影響也越大。熵的特征選擇效果都要優(yōu)于信息增益。4、二次信息熵(QEMI)將二次熵函數(shù)應(yīng)用于互信息評估方法中,取代互信息中的aiarmon熵,就形成了基于二次熵的互信息評估函數(shù)?;诙戊氐幕バ畔⒖朔嘶バ畔⒌碾S機(jī)性,是一個(gè)確定的量,因此可以作為信息的整體測度,另外它還比互信息最大化的計(jì)算復(fù)雜度要小,所以可以比較高效地用在基于分類的特征選取上。5、信息增益方法 anformationGain)信息增益方法是機(jī)器學(xué)習(xí)的常用方法,在過濾問題中用于度量已知一個(gè)特征是否出現(xiàn)于某主題相關(guān)文本中對于該主題預(yù)測有多少信息。通過計(jì)算信息增益可以得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征,以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征。信息增益是一種基于熵的評估方法,涉及較多的數(shù)學(xué)理論和復(fù)雜的熵理論公式,定義為某特征項(xiàng)為整個(gè)分類所能提供的信息量,不考慮任何特征的熵與考慮該特征后的熵的差值。他根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)特征項(xiàng)的信息增益, 刪除信息增益很小的項(xiàng),其余的按照信息增益從大到小排序。信息增益是信息論中的一個(gè)重要概念,它表示了某一個(gè)特征項(xiàng)的存在與否對類別預(yù)測的影響,定義為考慮某一特征項(xiàng)在文本中出現(xiàn)前后的信息熵之差。某個(gè)特征項(xiàng)的信息增益值越大,貢獻(xiàn)越大,對分類也越重要。信息增益方法的不足之處在于它考慮了特征未發(fā)生的情況。特別是在類分布和特征值分布高度不平衡的情況下,絕大多數(shù)類都是負(fù)類,絕大多數(shù)特征都不出現(xiàn)。此時(shí)的函數(shù)值由不出現(xiàn)的特征決定,因此,信息增益的效果就會大大降低。信息增益表現(xiàn)出的分類性能偏低。因?yàn)樾畔⒃鲆婵紤]了文本特征未發(fā)生的情況,雖然特征不出現(xiàn)的情況腫可能對文本類別具有貢獻(xiàn),但這種貢獻(xiàn)往往小于考慮這種情況時(shí)對特征分值帶來的干擾。上述幾種評價(jià)函數(shù)都是試圖通過概率找出特征與主題類之間的聯(lián)系,信息增益的定義過于復(fù)雜,因此應(yīng)用較多的是交叉嫡和互信息。其中互信息的效果要好于交又嫡,這是因?yàn)榛バ畔⑹菍Σ煌闹黝}類分別抽取特征詞,而交叉嫡跟特征在全部主題類內(nèi)的分布有關(guān),是對全部主題類來抽取特征詞。這些方法,在英文特征提取方面都有各自的優(yōu)勢,但用于中文文本,并沒有很高的效率。主要有2個(gè)方面的原因1)特征提取的計(jì)算量太大,特征提取效率太低,而特征提取的效率直接影響到整個(gè)文本分類系統(tǒng)的效率。2、經(jīng)過特征提取后生成的特征向量維數(shù)太高,而且不能直接計(jì)算出特征向量中各個(gè)特征詞的權(quán)重。
發(fā)明內(nèi)容
本發(fā)明提出一種信息處理特征提取的算法,并且實(shí)現(xiàn)一種采用詞頻空間特征提取的方法。在選擇特征提取算法時(shí),對算法的時(shí)間、空間復(fù)雜度和特征提取效果進(jìn)行了綜合的考慮,設(shè)計(jì)并實(shí)現(xiàn)了一種簡單易行的特征提取算法。為了實(shí)現(xiàn)上述目的,本發(fā)明提出一種信息處理特征提取方法,包括下列步驟建立包含所有原始特征項(xiàng)的特征項(xiàng)集合;對于每個(gè)類別,計(jì)算所有特征項(xiàng)和該類別的權(quán)重;對于每個(gè)類別,從大到小排序所述計(jì)算得到的特征項(xiàng)的權(quán)重,并提取前K個(gè)特征項(xiàng);合并所有類提取到的特征項(xiàng),統(tǒng)一特征空間。進(jìn)一步的,所述權(quán)重計(jì)算步驟采用了以詞頻法取局部權(quán)值,以信息熵法取全局權(quán)值。進(jìn)一步的,所述權(quán)重計(jì)算公式為
權(quán)利要求
1.一種信息處理特征提取方法,其特征在于,包括下列步驟 建立包含所有原始特征項(xiàng)的特征項(xiàng)集合;對于每個(gè)類別,計(jì)算所有特征項(xiàng)和該類別的權(quán)重;對于每個(gè)類別,從大到小排序所述計(jì)算得到的特征項(xiàng)的權(quán)重,并提取前K個(gè)特征項(xiàng); 合并所有類提取到的特征項(xiàng),統(tǒng)一特征空間。
2.根據(jù)權(quán)利要求1所述的信息處理特征提取方法,其特征在于,所述權(quán)重計(jì)算步驟采用了以詞頻法取局部權(quán)值,以信息熵法取全局權(quán)值。
3.根據(jù)權(quán)利要求1所述的信息處理特征提取方法,其特征在于,所述權(quán)重計(jì)算公式為
4.根據(jù)權(quán)利要求3所述的信息處理特征提取方法,其特征在于,為了消除由于文本長度不一致造成的詞出現(xiàn)數(shù)量的不一致,給權(quán)重評價(jià)帶來區(qū)分度的不一致,對權(quán)重~進(jìn)行歸一化處理,計(jì)算公式為
5.根據(jù)權(quán)利要求1所述的信息處理特征提取方法,其特征在于,K的取值采用預(yù)設(shè)初始值,其范圍為1000 10000。
全文摘要
本發(fā)明提出一種信息處理特征提取方法,包括下列步驟建立包含所有原始特征項(xiàng)的特征項(xiàng)集合;對于每個(gè)類別,計(jì)算所有特征項(xiàng)和該類別的權(quán)重;對于每個(gè)類別,從大到小排序所述計(jì)算得到的特征項(xiàng)的權(quán)重,并提取前K個(gè)特征項(xiàng);合并所有類提取到的特征項(xiàng),統(tǒng)一特征空間。本發(fā)明提出的信息處理特征提取的算法,并且實(shí)現(xiàn)一種采用詞頻空間特征提取的方法。在選擇特征提取算法時(shí),對算法的時(shí)間、空間復(fù)雜度和特征提取效果進(jìn)行了綜合的考慮,設(shè)計(jì)并實(shí)現(xiàn)了一種簡單易行的特征提取算法。
文檔編號G06F17/30GK102567308SQ20111043107
公開日2012年7月11日 申請日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
發(fā)明者趙孟德 申請人:上海電機(jī)學(xué)院