亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于信息熵的文本特征量化方法和裝置及文本分類方法和裝置的制造方法

文檔序號:9471530閱讀:311來源:國知局
一種基于信息熵的文本特征量化方法和裝置及文本分類方法和裝置的制造方法
【技術(shù)領域】
[0001] 本發(fā)明屬于文本挖掘與機器學習技術(shù)領域,特別設及一種基于信息賭的文本特征 量化方法和裝置及文本分類方法和裝置。
【背景技術(shù)】
[0002] 大規(guī)模文本數(shù)據(jù)的組織和挖掘經(jīng)常依賴于自動文本分類技術(shù)。自動文本分類技 術(shù)一般在分類之前需要對文本的特征進行量化,W便于計算機用有監(jiān)督的機器學習方法進 行分類處理。文本的特征可用一些詞匯來描述,文本特征的量化就是從文本中挑選一些詞 匯作為特征詞,并為它們分配不同的權(quán)重,從而把每個文本文檔都表示成由多個特征詞的 權(quán)重值所組成的向量(稱為特征向量)??梢?,文本特征的量化包含特征詞的選擇和權(quán)重 計算兩方面。特征選擇有很多方法,其中常用的方法(或特征選擇指標)有卡方統(tǒng)計量 (Chi-squarestatistics,或簡寫為CHI或x2)、信息增益(informationgain,IG)、互信 息量(mu化alin化rmation,MI)、奇異比值(oddsratio,OR)、等等。研究表明,卡方統(tǒng)計 量(CHI)或信息增益(IG)的性能都比較好。特征詞權(quán)重計算也有很多方法,其中,最著名 的傳統(tǒng)方法就是TF-IDF(te;rmfrequen巧&inversedo州mentfrequen巧,詞頻-反文檔頻 率)方法,它最初被用于信息檢索領域,后來也被用于文本分類領域。但是TF-IDF方法在 計算特征詞的權(quán)重時并沒有考慮文本的類別,計算結(jié)果存在偏差,影響了文本分類準確率。 于是研究人員提出了一系列利用了已知的文本類別信息的替代方法,統(tǒng)稱為有監(jiān)督的詞加 權(quán)(supervisedtermwei曲ting,或簡寫為STW)方法。但是,很多STW方法都只利用了特 征詞在正反兩類文本上的粗糖分布信息,對于多類別文本的分類并不是最優(yōu)的。而基于信 息賭的權(quán)重計算方法利用了特征詞在多個文本類別上的精細分布信息,因此可W得到比傳 統(tǒng)的TF-IDF方法和其它STW方法更為精確的特征詞權(quán)重值,從而有望進一步提高文本分類 的性能。盡管現(xiàn)有的某些方法在特定的語料庫上表現(xiàn)較好,但在其它語料庫上卻表現(xiàn)較差, 其性能不穩(wěn)定。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明提供了一種基于信息賭的文本特征量化方法和裝置及文本分類方法和裝 置,根據(jù)特征詞在文本集(或語料庫)的所有不同文本類別上分布的信息賭來計算特征詞 的全局權(quán)重因子,并與基于詞頻的局部權(quán)重因子相結(jié)合來為各個特征詞分配合適的權(quán)重, 從而把每個文本文檔都表示成特征向量,使得不同類別的文本特征差異更加突出,提高了 文本分類的準確率,并且性能更加穩(wěn)定。
[0004] 一種用于文本分類的文本特征量化方法,包括W下步驟:
[0005] 步驟1 :將已分類的訓練文本集和待分類的文本集進行預處理;
[0006] 所述已分類的訓練文本集簡稱為訓練集,其中每個文檔都帶有類別標簽;
[0007] 所述待分類的文本集為無類別標簽的文本集或帶有類別標簽的測試文本集;
[0008] 所述文檔是指被分類的文本數(shù)據(jù)單元;內(nèi)容為文本數(shù)據(jù)的文檔也稱為文本文檔;
[0009] 所述文本集是指文本數(shù)據(jù)集,它是由很多相同或不同類別的文本文檔組成的;
[0010] 所述文本分類是指為文本文檔分配與其內(nèi)容相符的預定義的類別標簽;
[0011] 所述預處理是指對文本進行分詞和去噪處理,所述去噪包括去除標點符號、數(shù)字 及停用詞,將英文字母轉(zhuǎn)換為小寫、提取英文單詞的詞根;
[0012] 步驟2:從預處理后的訓練集中提取不同的特征詞,構(gòu)建由不同的特征詞組成的 初始詞表,并且統(tǒng)計訓練集中的每個文本類別的文檔數(shù)目、每個特征詞的類別文檔頻率;
[0013] 所述特征詞是指文本中的各個單獨的詞匯(比如英語單詞、漢語詞組)或其它不 包含空格或標點符號的連續(xù)字符串,每個特征詞代表文本的一個特征或?qū)傩裕?br>[0014] 所述特征詞的類別文檔頻率是指包含某特征詞的屬于某個文本類別的訓練文檔 數(shù)目;
[0015]同時,統(tǒng)計訓練集與待分類的文本集中每個文檔包含的每個特征詞的詞頻,所述 每個文檔包括訓練文檔和待分類文檔,所述詞頻(term化equency或簡寫為T巧是指某特 征詞在一篇文檔中的出現(xiàn)頻次;
[0016] 步驟3 :根據(jù)特征選擇指標對初始詞表進行篩選,保留指標計算值大的特征詞作 為文本的特征或?qū)傩裕瑯?gòu)建新的特征詞表;
[0017] 待分類的文本集和訓練集使用相同的特征詞表;
[001引所述特征選擇指標包括卡方統(tǒng)計量間li-squarestatistics)或信息增益(informationgain);
[0019] 所述篩選方法是先計算每個特征詞的特征選擇指標,將所有特征詞的特征選擇指 標計算值按照從大到小排序,選擇排列在前面的200~9000個特征詞作為文本的特征或?qū)?性;
[0020] 步驟4:用TF-ENT方法計算每個特征詞在文檔中的權(quán)重;
[0021] 所述TF-ENT方法是指根據(jù)特征詞在文檔中的詞頻燈巧和在訓練集的所有不同文 本類別上分布的信息賭(entropy或簡寫為ENT)來計算特征詞的權(quán)重;
[0022] 根據(jù)所述TF-ENT方法,特征詞tk在文檔d沖的權(quán)重W(tk,di)按照W下公式計算 獲得:
[0023]
[0024] 其中,k= 1,2,…,n,為各特征詞的索引序號,n為經(jīng)過步驟3篩選后保留的不同 特征詞的數(shù)量;tfki為特征詞tk在文檔d1中的詞頻;如果tk沒有d1中出現(xiàn),tfki=0,則權(quán) 重W(tk,di)的值為0,否則W詞頻的平方根^ (即:開方詞頻)作為特征詞tk在文檔di 中的局部權(quán)重因子;G(tk)為特征詞tk在整個文本集中的全局權(quán)重因子,是利用特征詞在訓 練集的所有不同文本類別上分布的信息賭計算獲得的;
[00巧]步驟5 :歸一化處理特征詞權(quán)重,生成文檔特征向量并輸出;
[00%] 按照W下公式對每個特征詞的權(quán)重進行歸一化處理,用每個特征詞的歸一化權(quán)重 值堿每,堿組成文檔di的特征向量〇,'=[H'化,(/,?),"作?成),??????:,: 斯];
[0027]
[00測其中,tk和t,均為在文檔d1出現(xiàn)的特征詞;如果t汲有在d沖出現(xiàn),則相應的歸 一化權(quán)重值H化,斯為0。
[0029] 【為了節(jié)省存儲空間和提高分類速度,文檔特征向量采用稀疏存儲模式,就是只存 儲非零的特征權(quán)重值及對應特征詞的索引序號?!?br>[0030] 所述特征詞權(quán)重計算方法TF-ENT中的全局權(quán)重因子G(tk)利用特征詞tk在訓練 文本集中的類間分布賭E"t(tk)并按照W下公式計算獲得:
[0031]
[0032] 其中,參數(shù)e的取值為0. 01~1. 0 ;所有對數(shù)運算log()的底數(shù)與計算E"e(tk) 時所使用的對數(shù)運算相同;m為文本類別數(shù);
[0033] 所述特征詞在訓練文本集中的類間分布賭E"t(tk)是根據(jù)特征詞tk在訓練集的各 個不同文本類別{c,|j= 1,2,…,m}中出現(xiàn)的文檔頻率{dfk,|j= 1,2,…,m}來計算的信 息賭,采用W下公式計算獲得:
[0034]
[0035] 其中,壯k,是特征詞的類別文檔頻率,表示包含特征詞tk的屬于類別C,的訓練文 檔數(shù)目;壯k為特征詞tk在訓練集中的總文檔頻率,即:
對數(shù)運算log()的底 數(shù)為2或10或自然對數(shù)的底e;通常用2作為底數(shù);
[0036] 在任何訓練文檔和待分類文檔中,同一個特征詞的所述全局權(quán)重因子的值是相同 的。
[0037] 當文本集中各特征詞的平均文檔頻率不超過總文檔數(shù)的1. 5%時,所述全局權(quán)重 因子G(tk)也可利用特征詞的類間分布賭6。。也)與反文檔頻率(ID巧來計算,具體計算公 式如下:
[0038]
[0039] 其中,1/壯k就是特征詞tk的反文檔頻率,N為訓練集中的總文檔數(shù),n為所有不同 特征詞的數(shù)目,其余各項的含義與前面所述相同。
[0040] 附加因子
能進一步提高文本分類性能,實際上保留了傳統(tǒng)的 TF-IDF方法的部分優(yōu)點,但是只有當文本集中各特征詞出現(xiàn)的文檔頻率普遍比較低,并且 滿足
的條件時才引入運個附加因子,它與慣用的IDF因子也有所不 同。
[0041] 所述全局權(quán)重因子中特征詞的類間分布賭己。也)也可采用特征詞tk出現(xiàn)的類 內(nèi)文檔比例壯k,/N,或者特征詞的類別總詞頻tfk(c,)或類別平均詞頻tfk(c,)/N,(j= 1,2,…,m)代替特征詞的類別文檔頻率壯k,來計算;其中,N,為文本類別C,內(nèi)的文檔數(shù);所 述特征詞的類別總詞頻tfk(c,)是指特征詞tk在某個類別C,的所有訓練文檔中的詞頻之 和。
[0042] 所述特征詞權(quán)重計算方法TF-ENT也可采用特征詞tk在文檔di中的對數(shù)詞頻 log(tfki+1)代替開方詞頻作為局部權(quán)重因子來計算特征詞的權(quán)重,對數(shù)運算log() 的底數(shù)為2或10或自然對數(shù)的底e。
[0043]【根據(jù)前面所述,所述特征詞權(quán)重計算方法TF-ENT中的全局權(quán)重因子有兩種類型: 只基于特征詞的類間分布賭、基于特征詞的類間分布賭與反文檔頻率;其中第二種類型只 有當所有特征詞的平均文檔頻率不超過訓練集總文檔數(shù)的1. 5%時才選擇; W44] 所述特征詞的類間分布賭E。。(tk)可W選擇特征詞的4種類間分布信息來計算,分 別是:壯k.j,壯k.j/Nj,tfk(Cj)和tfk(Cj)/Nj(j= 1,2,…,m),它們都可表示特征詞tk在訓練集 的不同類別C,(j= 1,2, ...,m)中出現(xiàn)的頻繁度;一般選擇壯k,即可,但對于各類別文檔數(shù) 相差懸殊的非平衡文本集,選擇壯k,/N,更合適。
[0045] 所述特征詞權(quán)重計算方法TF-ENT中的局部權(quán)重因子也有兩種類型,分別為:開方 詞頻#^和對數(shù)詞頻l〇g(tfki+l);-般可選擇開方詞
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1