亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進(jìn)的SVM中文文本分類(lèi)方法與流程

文檔序號(hào):12666940閱讀:445來(lái)源:國(guó)知局
一種基于改進(jìn)的SVM中文文本分類(lèi)方法與流程

本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種基于改進(jìn)的SVM中文文本分類(lèi)方法。



背景技術(shù):

文本分類(lèi)方法是一種有指導(dǎo)的分類(lèi)方法,它用一個(gè)已標(biāo)好類(lèi)別的文本數(shù)據(jù)集(即訓(xùn)練集)來(lái)訓(xùn)練分類(lèi)器,然后用訓(xùn)練好的分類(lèi)器對(duì)未標(biāo)識(shí)類(lèi)別的文本進(jìn)行分類(lèi),現(xiàn)有的分類(lèi)方法及缺陷是:

(1)貝葉斯方法和K鄰近算法等傳統(tǒng)的機(jī)器學(xué)習(xí)方法都是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化而實(shí)現(xiàn),推廣性能不夠理想;

(2)傳統(tǒng)的支持向量機(jī)(SVM,Support Vector Machine)方法是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的一種新的模式識(shí)別方法,具有小樣本,良好的推廣性能,全局最優(yōu)等特點(diǎn),但是在現(xiàn)實(shí)操作中,普遍存在樣本不平衡的分類(lèi)問(wèn)題,此時(shí),傳統(tǒng)的支持向量機(jī)方法會(huì)存在較高的誤判率,有待改進(jìn)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的,在于提供一種基于改進(jìn)的SVM中文文本分類(lèi)方法,其可提高文本分類(lèi)精度。

為了達(dá)成上述目的,本發(fā)明的解決方案是:

一種基于改進(jìn)的SVM中文文本分類(lèi)方法,包括如下步驟:

步驟1,對(duì)中文文本預(yù)處理,得到特征項(xiàng)集合;

步驟2,對(duì)特征項(xiàng)集合進(jìn)行特征選擇,得到精簡(jiǎn)后的特征項(xiàng)集合;

步驟3,對(duì)精簡(jiǎn)后的特征項(xiàng)集合計(jì)算權(quán)重;

步驟4,構(gòu)建文本向量,將文本中的每個(gè)關(guān)鍵詞語(yǔ)作為向量空間中的一個(gè)維度,而維度上的值是該關(guān)鍵詞語(yǔ)的權(quán)重;

步驟5,采用加權(quán)支持向量機(jī)構(gòu)建分類(lèi)器;

步驟6,對(duì)待分類(lèi)文本采用步驟1-4進(jìn)行處理,得到文本向量,將文本向量輸入步驟5構(gòu)建的分類(lèi)器,得到分類(lèi)結(jié)果。

上述步驟1中,對(duì)中文文本預(yù)處理包括中文分詞和去停用詞兩個(gè)過(guò)程。

上述步驟2的具體內(nèi)容是:構(gòu)造一個(gè)評(píng)估函數(shù)對(duì)特征項(xiàng)集合中的所有特征項(xiàng)進(jìn)行評(píng)估,然后按照評(píng)估值降序排序,根據(jù)設(shè)定的閾值或特征項(xiàng)數(shù)目的要求選擇前面的那些特征項(xiàng),得到精簡(jiǎn)后的特征項(xiàng)集合。

上述評(píng)估函數(shù)采用開(kāi)方檢驗(yàn)函數(shù),假設(shè)特征項(xiàng)t和類(lèi)別Ci之間符合一階自由度的x2分布,其計(jì)算公式如下:

其中,N為所有的文本數(shù),A為包含特征項(xiàng)t且屬于類(lèi)別Ci的文本數(shù)目,B為包含特征項(xiàng)t且不屬于類(lèi)別Ci的文本數(shù)目,C為不包含特征項(xiàng)t且屬于類(lèi)別Ci的文本數(shù)目,D為不包含特征項(xiàng)t且不屬于類(lèi)別Ci的文本數(shù)目;

然后,將每個(gè)特征項(xiàng)t的x2統(tǒng)計(jì)值從大到小排個(gè)序,選取前若干個(gè)作為精簡(jiǎn)后的特征項(xiàng)集合。

上述步驟3中,采用反比文檔頻率進(jìn)行權(quán)重計(jì)算,權(quán)重IDF的計(jì)算公式是:

IDF=log(Dall/Dt)

其中,Dall為文章總數(shù),Dt為該詞出現(xiàn)的文章數(shù)量。

上述步驟5的詳細(xì)內(nèi)容是:

設(shè)有訓(xùn)練樣本集表示為其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i個(gè)文本的向量,yi為分類(lèi)標(biāo)記;基于加權(quán)支持向量機(jī)的文本分類(lèi)模型表示如下:

其中,ζi≥0,i=1,2,…,l,l表示樣本個(gè)數(shù),為核函數(shù);Si>0表示樣本重要性權(quán)值,如果0<Si<1表示樣本不重要;Si=1表示一般重要;如果Si>1表示很重要;樣本類(lèi)別權(quán)值為σ≥1,屬于相同類(lèi)別的樣本具有相同的類(lèi)別權(quán)值;

對(duì)權(quán)重IDF值的計(jì)算公式構(gòu)造拉格朗日函數(shù)如下:

其中,αi,βi為拉格朗日乘子,i=1,2,…,l;

最終得到最優(yōu)分類(lèi)器:

其中,為徑向基核函數(shù)。

采用上述方案后,本發(fā)明通過(guò)在傳統(tǒng)基于向量機(jī)的文本分類(lèi)方法上增加了加權(quán)步驟,能夠有效改善目前多類(lèi)中文文本分類(lèi)中樣本不平衡的情況,將改進(jìn)后的加權(quán)支持向量機(jī)文本分類(lèi)方法應(yīng)用于企事業(yè)單位的日常文件分類(lèi)中,提高了分類(lèi)精度,確保某些重要類(lèi)別文件(如財(cái)務(wù)類(lèi)別文件)不外泄,在一定程度上保障了數(shù)據(jù)安全。

附圖說(shuō)明

圖1是本發(fā)明訓(xùn)練階段的流程圖;

圖2是本發(fā)明分類(lèi)階段的流程圖。

具體實(shí)施方式

以下將結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明。

本發(fā)明提供一種基于改進(jìn)的SVM中文文本分類(lèi)方法,文本分類(lèi)是將文本文檔與規(guī)定好的類(lèi)別進(jìn)行匹配的過(guò)程,包含有訓(xùn)練和分類(lèi)兩個(gè)階段,其中,訓(xùn)練階段的流程圖如圖1所示,分類(lèi)階段的流程圖如圖2所示,這兩個(gè)階段的處理除了最后一步不相同,其它的處理步驟完全相同,最后一個(gè)步驟,在訓(xùn)練階段是分類(lèi)算法利用輸入的數(shù)據(jù)進(jìn)行分類(lèi)器的構(gòu)建,在分類(lèi)階段是利用訓(xùn)練好的分類(lèi)器進(jìn)行分類(lèi)處理;所述分類(lèi)方法包括如下步驟:

(一)訓(xùn)練階段

步驟1,中文文本預(yù)處理,包括中文分詞和去停用詞兩個(gè)過(guò)程。

中文分詞,指的是對(duì)一個(gè)用漢語(yǔ)表達(dá)的語(yǔ)句,分析其包含的有意義的詞或詞組,最后把這些詞從中文語(yǔ)句中提取出來(lái),這樣原來(lái)的中文語(yǔ)句變成一個(gè)個(gè)單獨(dú)的詞;

去停用詞,一般是指去除文本中出現(xiàn)頻率很高,但實(shí)際意義又不大的詞,如常見(jiàn)的“的”、“在”、“和”、“接著”之類(lèi),還有一些是使用過(guò)于頻繁的單詞,如“我”、“就”、“啊”和“吧”等等,以及各種的標(biāo)點(diǎn)符號(hào),避免分詞后有過(guò)多的干擾。

該步驟可以使用中科院的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)分詞系統(tǒng),ICTCLAS分詞系統(tǒng)充分利用了詞典匹配、統(tǒng)計(jì)分析這兩種分詞方法的優(yōu)點(diǎn),既能發(fā)揮詞典匹配法分詞速度快、效率高的特點(diǎn),又能利用統(tǒng)計(jì)分析法結(jié)合上下文識(shí)別新詞、消除歧義的優(yōu)點(diǎn)。

步驟2,特征選擇

文本預(yù)處理后以特征項(xiàng)集合的形式存在,此時(shí)特征項(xiàng)集合中的特征項(xiàng)數(shù)量非常的多,需要對(duì)特征項(xiàng)集合進(jìn)行降維處理,即特征選擇。通過(guò)構(gòu)造一個(gè)評(píng)估函數(shù)(本實(shí)施例采用開(kāi)方檢驗(yàn)函數(shù))對(duì)特征項(xiàng)集合中的所有特征項(xiàng)進(jìn)行評(píng)估,然后按照評(píng)估值降序排序,根據(jù)設(shè)定的閾值或特征項(xiàng)數(shù)目的要求選擇前面的那些特征項(xiàng)。

開(kāi)方檢驗(yàn):假設(shè)特征項(xiàng)t和類(lèi)別Ci之間符合一階自由度的x2分布,特征項(xiàng)t對(duì)于類(lèi)別Ci的x2統(tǒng)計(jì)值越高,特征項(xiàng)t和類(lèi)別Ci的相關(guān)性越強(qiáng),類(lèi)別區(qū)分度越大,反之的類(lèi)別區(qū)分度越小,其計(jì)算公式如下:

其中,N為所有的文本數(shù),A為包含特征項(xiàng)t且屬于類(lèi)別Ci的文本數(shù)目,B為包含特征項(xiàng)t且不屬于類(lèi)別Ci的文本數(shù)目,C為不包含特征項(xiàng)t且屬于類(lèi)別Ci的文本數(shù)目,D為不包含特征項(xiàng)t且不屬于類(lèi)別Ci的文本數(shù)目。

然后,將每個(gè)特征項(xiàng)t的x2統(tǒng)計(jì)值從大到小排個(gè)序,選取前若干個(gè)作為精簡(jiǎn)后的特征項(xiàng)集合。

步驟3,權(quán)重計(jì)算

本發(fā)明采用反比文檔頻率(inverse document frequency,IDF)來(lái)進(jìn)行權(quán)重計(jì)算,某一特定詞的IDF值,是一個(gè)詞普遍重要性的度量,用總文件數(shù)除以包含該詞的文章數(shù)量,再將得到的商取對(duì)數(shù)(log)。IDF值的計(jì)算公式是:

IDF=log(Dall/Dt)

其中,Dall為文章總數(shù),Dt為該詞出現(xiàn)的文章數(shù)量。

步驟4,文本表示

為了便于計(jì)算機(jī)處理文本,采用向量空間模型將文本表示成計(jì)算機(jī)方便處理的形式。在文本向量空間中,每個(gè)關(guān)鍵詞語(yǔ)即為向量空間中的一個(gè)維度,而維度上的值是該關(guān)鍵詞語(yǔ)的權(quán)重,權(quán)重代表了該關(guān)鍵詞語(yǔ)的重要程度。

步驟5,構(gòu)建分類(lèi)器

本發(fā)明中采用改進(jìn)后的支持向量機(jī)方法——加權(quán)支持向量機(jī)作為構(gòu)建分類(lèi)器的方法,用于解決樣本不平衡情形下的分類(lèi)問(wèn)題。除了各類(lèi)別樣本數(shù)量的懸殊,類(lèi)別的重要程度不同也會(huì)導(dǎo)致樣本的不平衡。例如:針對(duì)公司單位的文本的分類(lèi)問(wèn)題,“財(cái)務(wù)文件”的重要程度顯然比“運(yùn)動(dòng)會(huì)文件”重要程度高。在保證分類(lèi)精度的同時(shí),應(yīng)盡量避免對(duì)重要類(lèi)別的誤判。

步驟如下:

①加權(quán)支持向量機(jī)給訓(xùn)練樣本加以類(lèi)別權(quán)值,體現(xiàn)不同類(lèi)別的重要性。通過(guò)增加重要文件類(lèi)別權(quán)重,可以有效地減少該類(lèi)別中被錯(cuò)分的樣本數(shù)。

②另外,考慮到每個(gè)文本的重要程度也不盡相同,即它們對(duì)分類(lèi)的貢獻(xiàn)也不相同,通過(guò)給個(gè)文本加以樣本權(quán)重,提高了每個(gè)文本被正確分類(lèi)可能性,減少了重要文本被誤分類(lèi)的可能性,從而提高了分類(lèi)精度。

具體算法及推導(dǎo)如下:

設(shè)有訓(xùn)練樣本集表示為其中,i=1,2,…,m,yi∈{0,1,2,3,4,5,6,7,8,9},表示第i個(gè)文本的向量,yi為分類(lèi)標(biāo)記(本實(shí)施例中類(lèi)別個(gè)數(shù)為10),例如yi=1表示第i個(gè)文本屬于第2個(gè)類(lèi)別?;诩訖?quán)支持向量機(jī)的文本分類(lèi)模型表示如下:

其中,ζi≥0,i=1,2,…,l,l表示樣本個(gè)數(shù),為核函數(shù)。Si>0表示樣本重要性權(quán)值,如果0<Si<1表示樣本不重要;Si=1表示一般重要;如果Si>1表示很重要。樣本類(lèi)別權(quán)值為σ≥1,屬于相同類(lèi)別的樣本具有相同的類(lèi)別權(quán)值。加權(quán)支持向量機(jī)與標(biāo)準(zhǔn)支持向量機(jī)相比,最突出的優(yōu)點(diǎn)是它模糊化了對(duì)樣本錯(cuò)分的懲罰,即對(duì)每個(gè)樣本的松弛變量乘以樣本對(duì)應(yīng)的重要性權(quán)值和類(lèi)別權(quán)值。

對(duì)IDF值的計(jì)算公式構(gòu)造拉格朗日函數(shù)如下:

其中,αi,βi為拉格朗日乘子,i=1,2,…,l。

最終得到最優(yōu)分類(lèi)器:

其中,為徑向基核函數(shù)。

(二)分類(lèi)階段

對(duì)一個(gè)待分類(lèi)的文本,首先利用訓(xùn)練階段中的步驟1-4對(duì)文本進(jìn)行處理,得到一個(gè)相應(yīng)的文本向量X,然后將X輸入到步驟5所構(gòu)建的分類(lèi)器f()中,就能得到X所對(duì)應(yīng)的分類(lèi)結(jié)果f(X),從而得到文本的類(lèi)別。

以上實(shí)施例僅為說(shuō)明本發(fā)明的技術(shù)思想,不能以此限定本發(fā)明的保護(hù)范圍,凡是按照本發(fā)明提出的技術(shù)思想,在技術(shù)方案基礎(chǔ)上所做的任何改動(dòng),均落入本發(fā)明保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1