亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種優(yōu)化訓(xùn)練樣本集的knn文本分類方法

文檔序號(hào):6551539閱讀:416來源:國知局
一種優(yōu)化訓(xùn)練樣本集的knn文本分類方法
【專利摘要】本發(fā)明公開了一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,屬于文本挖掘,自然語言處理等領(lǐng)域,解決傳統(tǒng)KNN文本分類方法的效率和準(zhǔn)確率低的問題。本發(fā)明在于對(duì)訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)進(jìn)行文本預(yù)處理;將預(yù)處理后的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別進(jìn)行文本表示;對(duì)文本表示的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別利用遺傳算法進(jìn)行特征提取;對(duì)提取的訓(xùn)練用文本數(shù)據(jù)特征進(jìn)行分類訓(xùn)練,使用經(jīng)過優(yōu)化樣本集的KNN算法進(jìn)行訓(xùn)練分類,構(gòu)造文本分類器;將文本分類器作用于特征提取后的待分類文本數(shù)據(jù),得到待分類文本數(shù)據(jù)的分類結(jié)果。本發(fā)明能夠更好的應(yīng)用于文本信息挖掘系統(tǒng)。
【專利說明】一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法

【技術(shù)領(lǐng)域】
[0001] 一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,基于裁剪優(yōu)化訓(xùn)練集的K最近鄰結(jié)點(diǎn) 算法對(duì)文本進(jìn)行分類,屬于文本挖掘,自然語言處理等領(lǐng)域。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)絡(luò)上大量信息不斷的涌現(xiàn)出來,給信息的查詢以及檢索帶來了很大的 不便,而人們對(duì)獲得信息的快捷性以及信息的簡潔性的需求與日俱增。面對(duì)這個(gè)問題,文本 分類技術(shù)就被提出了出來。它能夠?qū)A啃畔⑦M(jìn)行有序整理組織,能夠在隱藏的、未知的大 量文本信息中幫助用戶發(fā)現(xiàn)有用的、潛在的知識(shí)。
[0003] 文本分類技術(shù)的出現(xiàn)立即獲得了人們廣泛的關(guān)注,同時(shí)也成為了研究的熱點(diǎn)。文 本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程。20世紀(jì)90年代以 前,占主導(dǎo)地位的文本分類方法一直是基于知識(shí)工程的分類方法,即由專業(yè)人員手工進(jìn)行 分類。分類非常費(fèi)時(shí),效率過低。90年代以來,眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng) 文本分類。
[0004] 爆炸式增長的文本信息給文本分類的精度與速度提出了新的標(biāo)準(zhǔn)和挑戰(zhàn)。隨著分 類技術(shù)在各個(gè)領(lǐng)域的廣泛應(yīng)用,毫無疑問,對(duì)文本分類技術(shù)研究的重要意義越來越明確的 顯現(xiàn)。
[0005] 國外對(duì)于文本自動(dòng)分類的研究開展較早,20世紀(jì)50年代末,Η. P. Luhn對(duì)文本自 動(dòng)分類進(jìn)行了開創(chuàng)性的研究,將詞頻統(tǒng)計(jì)思想應(yīng)用于文本自動(dòng)分類。I960年,Maro發(fā)表 了關(guān)于自動(dòng)分類的第一篇論文,隨后,K. Spark、G. Salton、R. M. Needham、Μ· E. Lesk以及 K. S. Jones等學(xué)者在這一領(lǐng)域進(jìn)行了很成功的研究,到目前為止,國外基本經(jīng)歷了以下四個(gè) 文本分類的主要階段,分別為:
[0006] 第一階段(1958-1964):針對(duì)文本自動(dòng)分類的可行性研究;
[0007] 第二階段(1965-1974):文本自動(dòng)分類的實(shí)驗(yàn)階段;
[0008] 第三階段(1975-1998):文本自動(dòng)分類的實(shí)際應(yīng)用階段;
[0009] 第四階段(1990至今):因特網(wǎng)文本自動(dòng)分類研究階段。
[0010]目前比較主要的文本分類方法有以下三個(gè)類別:基于規(guī)則的文本分類方法,基于 統(tǒng)計(jì)的文本分類方法,以及基于連接的文本分類方法。
[0011] 常見的基于規(guī)則的分類方法有決策樹、關(guān)聯(lián)規(guī)則等;基于統(tǒng)計(jì)的分類方法有樸素 貝葉斯、KNN方法等;基于連接的分類方法有神經(jīng)網(wǎng)絡(luò)等。
[0012] 對(duì)于每一個(gè)文檔與其類別的二元組〈di,Ci> e DXC,判斷其結(jié)果,如果結(jié)果為1,這 表示文檔屯屬于類別Ci ;如果結(jié)果為0,則表示文檔屯不屬于類別Ci。其中,屯代指文檔集 合D中的一個(gè)文檔,C= {Cl,c2,...,Cn}是預(yù)先定義好的類別集合。文本分類的目的就是找 出將文本進(jìn)行分類的函數(shù)Φ :DXC - {1,0},這個(gè)函數(shù)就是文本分類器。
[0013] 在文本分類的特征提取階段,傳統(tǒng)的互信息MI特征提取方法雖然有著對(duì)類別和 特征之間的連接性能夠增強(qiáng)的特點(diǎn),但是對(duì)低頻詞的處理效果并不好,在處理單個(gè)特征的 時(shí)候容易陷入局部最優(yōu)。
[0014] 在文本分類的分類階段,傳統(tǒng)KNN分類算法的基本思想是:先計(jì)算待分類樣本與 已知類別的訓(xùn)練樣本之間的距離或相似度,找到距離或相似度與待分類樣本數(shù)據(jù)最近的K 個(gè)鄰居;再根據(jù)這些鄰居所屬的類別來判斷待分類樣本數(shù)據(jù)的類別。如果待分類樣本數(shù)據(jù) 的K個(gè)鄰居都屬于一個(gè)類別,那么待分類樣本也屬于這個(gè)類別。
[0015] KNN是空間向量模型中最好的算法之一,KNN算法最大的優(yōu)點(diǎn)在于簡單,不需要訓(xùn) 練學(xué)習(xí),但是KNN -種惰性的分類方法,只有需要分類時(shí)才建立分類器,需要將樣本集中的 每個(gè)樣本都要遍歷一次,計(jì)算量大(比如要建立一個(gè)文本分類器,若有上萬個(gè)類別,即使每 個(gè)類別只有30個(gè)訓(xùn)練樣本數(shù)據(jù),要判斷出一個(gè)新的待分類樣本的類別,也需要至少做30萬 次的比較),并且KNN易受樣本空間密度的影響,分類效率較低。


【發(fā)明內(nèi)容】

[0016] 本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足之處提供一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法, 解決傳統(tǒng)KNN文本分類方法的效率和準(zhǔn)確率低的問題,并且在特征提取步驟將互信息值引 入到遺傳算法之中,能夠結(jié)合兩種提取方法的優(yōu)點(diǎn),使得特征提取結(jié)果更為可靠,使整個(gè)文 本分類能夠更好的應(yīng)用于文本信息挖掘系統(tǒng)。
[0017] 為了解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
[0018] -種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,其特征在于,如下步驟:
[0019] (1)對(duì)訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)進(jìn)行文本預(yù)處理;
[0020] (2)將預(yù)處理后的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別進(jìn)行文本表示;
[0021] (3)對(duì)文本表示的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別利用遺傳算法進(jìn)行特征 提??;
[0022] (4)對(duì)提取的訓(xùn)練用文本數(shù)據(jù)特征進(jìn)行分類訓(xùn)練,使用經(jīng)過優(yōu)化樣本集的KNN算 法進(jìn)行訓(xùn)練分類,構(gòu)造文本分類器;
[0023] (5)將文本分類器作用于特征提取后的待分類文本數(shù)據(jù),得到待分類文本數(shù)據(jù)的 分類結(jié)果。
[0024] 作為優(yōu)選,所述步驟(2)中,文本表示是指將預(yù)處理后的結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為 向量空間模型表示,具體步驟如下:
[0025] (21)使用TF_IDF法分別計(jì)算訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)中每個(gè)特征詞的 權(quán)重,計(jì)算公式為:
[0026]

【權(quán)利要求】
1. 一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,其特征在于,如下步驟: (1) 對(duì)訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)進(jìn)行文本預(yù)處理; (2) 將預(yù)處理后的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別進(jìn)行文本表示; (3) 對(duì)文本表示的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別利用遺傳算法進(jìn)行特征提 ?。? (4) 對(duì)提取的訓(xùn)練用文本數(shù)據(jù)特征進(jìn)行分類訓(xùn)練,使用經(jīng)過優(yōu)化樣本集的KNN算法進(jìn) 行訓(xùn)練分類,構(gòu)造文本分類器; (5) 將文本分類器作用于特征提取后的待分類文本數(shù)據(jù),得到待分類文本數(shù)據(jù)的分類 結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,其特征在于,所述 步驟(2)中,文本表示是指將預(yù)處理后的結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為向量空間模型表示,具體 步驟如下: (21) 使用TF_IDF法分別計(jì)算訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)中每個(gè)特征詞的權(quán) 重,計(jì)算公式為:
其中,表示的是第i個(gè)文本特征詞在文本(訓(xùn)練用文本數(shù)據(jù)或待分類文本數(shù)據(jù))dj 中出現(xiàn)的頻率數(shù)目,N是文檔(訓(xùn)練用文本數(shù)據(jù)或待分類文本數(shù)據(jù))的總數(shù)目,隊(duì)是指文檔 (訓(xùn)練用文本數(shù)據(jù)或待分類文本數(shù)據(jù))集合中出現(xiàn)第i個(gè)文本特征詞的文本數(shù)目,η為文本 特征抽取時(shí)所選用的文本特征詞數(shù)目,k為求和公式起點(diǎn)到終點(diǎn)的取值,從1開始計(jì)算到η, tfkj表示的是第k個(gè)文本特征詞在文本七中出現(xiàn)的頻率數(shù)目; (22) 將計(jì)算出的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)特征詞權(quán)值分別表示為向量,具體 表示為, v (dj) = (w! (dj), w2 (dj), . . . , wn (dj)), 其中,n表示文本特征提取所用的文本特征詞數(shù)目,% (cQ表示第j個(gè)文本特征詞在文 檔(訓(xùn)練用文本數(shù)據(jù)或待分類文本數(shù)據(jù))Φ中的權(quán)值,j為1到η的任意值; (23) 計(jì)算訓(xùn)練用文本數(shù)據(jù)特征的平均互信息值MIavg(w),計(jì)算公式為:

其中,P(w Λ c J表示訓(xùn)練樣本集中既屬于特征詞w又屬于類別Ci的概率,P(w)表示 包含特征詞w在訓(xùn)練用文本數(shù)據(jù)中出現(xiàn)的概率,P(Ci)表示訓(xùn)練用文本數(shù)據(jù)中屬于類別Ci 的文本數(shù)據(jù)的概率,MI (w,Ci)表示單個(gè)類別下的互信息值,MIavg(w)為平均互信息值; (24) 將訓(xùn)練用文本數(shù)據(jù)的特征平均互信息值加入到步驟(22)訓(xùn)練用文本數(shù)據(jù)向量表 示的最后一維度,具體表示為, v (di) = (ψ1 (di), w2 (di), . . . , wn (di), MIn+1 (di)), 其中,n表示文本特征提取所用的特征詞數(shù)目,% (cQ表示第j個(gè)文本特征詞在文檔φ 中的權(quán)值,MIn+1 (cQ表示特征的平均互信息值,j為1到η的任意值。
3. 根據(jù)權(quán)利要求1所述的一種優(yōu)化訓(xùn)練樣本集的ΚΝΝ文本分類方法,其特征在于,所述 步驟(3)中,對(duì)文本表示的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)分別利用遺傳算法進(jìn)行特征 提取,具體步驟如下: (31) 采用浮點(diǎn)數(shù)編碼方式分別對(duì)文本表示的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)進(jìn)行 染色體編碼; (32) 將編碼后的訓(xùn)練用文本數(shù)據(jù)和待分類文本數(shù)據(jù)的文本特征詞進(jìn)行初始化,包括設(shè) 置迭代次數(shù),隨機(jī)生成部分個(gè)體作為初始種群; (33) 計(jì)算初始種群中的每一條染色體的適應(yīng)度; (34) 判斷染色體適應(yīng)度是否穩(wěn)定或者是否已經(jīng)達(dá)到遺傳算法迭代的最終次數(shù),如果 是,則輸出最優(yōu)解,否則,執(zhí)行步驟(35); (35) 使用比例法進(jìn)行選擇,將選擇算子作用于種群; (36) 使用單點(diǎn)交叉和多點(diǎn)交叉相結(jié)合的方式,將交叉算子作用于種群; (37) 隨機(jī)從未選中過的特征詞權(quán)值中選擇一個(gè)特征詞權(quán)值,替換每條染色體中特征詞 權(quán)值最小的值,并將變異算子作用于種群,生成新一代的種群,并轉(zhuǎn)到步驟(33)。
4. 根據(jù)權(quán)利要求3所述的一種優(yōu)化訓(xùn)練樣本集的ΚΝΝ文本分類方法,其特征在于,所述 步驟(35)中,比例法的公式為:
其中,F(xiàn)it(Si)為每一條染色體81的適應(yīng)度,P(Si)為最終 81被選擇的概率,j為從j = 1開始直到η,η為遺傳算法染色體總數(shù)。
5. 根據(jù)權(quán)利要求1所述的一種優(yōu)化訓(xùn)練樣本集的ΚΝΝ文本分類方法,其特征在于,所述 步驟(4)中,使用經(jīng)過優(yōu)化樣本集的ΚΝΝ算法進(jìn)行訓(xùn)練分類的步驟如下: (41) 對(duì)訓(xùn)練用文本數(shù)據(jù)進(jìn)行裁剪,得到裁剪樣本文本數(shù)據(jù)訓(xùn)練集; (42) 采用余弦定理計(jì)算待分類文本數(shù)據(jù)和裁剪后樣本文本數(shù)據(jù)訓(xùn)練集中已知類別樣 本文本數(shù)據(jù)之間的相似度; (43) 選取與待分類文本數(shù)據(jù)之間相似度最高的Κ個(gè)已知類別樣本文本數(shù)據(jù); (44) 根據(jù)Κ個(gè)已知類別樣本文本數(shù)據(jù)判斷待分類文本數(shù)據(jù)的類別。
6. 根據(jù)權(quán)利要求5所述的一種優(yōu)化訓(xùn)練樣本集的ΚΝΝ文本分類方法,其特征在于,所述 步驟(42)中,相似度的計(jì)算公式為:
其中,Simd dp表示文本屯和4之間的相似程度,η表示文本的特征詞數(shù)目,wki和 wkj分別表示文本屯和七的第k個(gè)特征詞的權(quán)值,Sim(屯,dp值越大表示兩個(gè)文本之間的 相似度越高,反之,兩個(gè)文本之間的區(qū)別越大。
7. 根據(jù)權(quán)利要求5所述的一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,其特征在于,所述 步驟(41)中,得到裁剪樣本文本數(shù)據(jù)訓(xùn)練集的步驟如下: (411) 將訓(xùn)練用文本數(shù)據(jù)分為類內(nèi)樣本文本數(shù)據(jù)和邊界樣本文本數(shù)據(jù); (412) 裁剪類內(nèi)樣本文本數(shù)據(jù); (413) 裁剪邊界樣本文本數(shù)據(jù)。
8. 根據(jù)權(quán)利要求7所述的一種優(yōu)化訓(xùn)練樣本集的KNN文本分類方法,其特征在于,所述 步驟(412)中,類內(nèi)樣本文本數(shù)據(jù)裁剪的步驟如下: (4121) 計(jì)算出訓(xùn)練用文本數(shù)據(jù)中的每一個(gè)已知類別樣本文本數(shù)據(jù)類別的中心向量 距離類中心向量最遠(yuǎn)的向量:^和訓(xùn)練用文本數(shù)據(jù)中的每一個(gè)已知類別樣本文本數(shù)據(jù)的平 均密度P ; (4122) 計(jì)算出每次的增量9 = ,η為初始設(shè)置同類別下文本數(shù)據(jù)分割增量區(qū) 間個(gè)數(shù); (4123) 如果計(jì)算類間增量小區(qū)域<^;; + V>內(nèi)的訓(xùn)練用文本數(shù)據(jù)中的每 一個(gè)已知類別樣本文本數(shù)據(jù)下增量內(nèi)的樣本文本數(shù)據(jù)的平均密度Pi和標(biāo)準(zhǔn)密度P Vi, 其中Ψ是代表一個(gè)初始設(shè)置裁剪樣本空間比例值的參數(shù),當(dāng)離類中心越 近時(shí)取值越大; (4124) 判斷Pi > P Vi是否成立,成立則裁剪小區(qū)域內(nèi)鄰域最多的樣本,并轉(zhuǎn)到步驟 (4125),否則;;=^ +▽,計(jì)算下一個(gè)增量空間并轉(zhuǎn)到步驟(4123); (4125) 依次遍歷完所有增量空間。
9. 根據(jù)權(quán)利要求7所述的一種基于KNN算法的文本分類方法,其特征在于,所述步驟 (413)中,邊界樣本裁剪文本數(shù)據(jù)的步驟如下: (4131) 計(jì)算出所有邊界樣本文本數(shù)據(jù)ε鄰域范圍的平均樣本個(gè)數(shù)AVG; (4132) 計(jì)算單個(gè)邊界樣本文本數(shù)據(jù)的鄰域內(nèi)樣本個(gè)數(shù)|Νε (X) |,如果|Νε (X) | >AVG, 則對(duì)邊界樣本文本數(shù)據(jù)進(jìn)行裁剪并轉(zhuǎn)到步驟(4133),否則直接轉(zhuǎn)到步驟(4133); (4133) 依次遍歷完所有邊界樣本文本數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK104063472SQ201410305607
【公開日】2014年9月24日 申請(qǐng)日期:2014年6月30日 優(yōu)先權(quán)日:2014年6月30日
【發(fā)明者】屈鴻, 諶語, 紹領(lǐng), 解修蕊, 黃利偉 申請(qǐng)人:電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1