亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法

文檔序號:6369870閱讀:326來源:國知局
專利名稱:融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法
技術(shù)領(lǐng)域
本發(fā)明屬于智能信息處理技術(shù),更進一步是關(guān)于文本的分類處理的技術(shù),具體涉及一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法。
相對于傳統(tǒng)一次性訓練來說,增量訓練技術(shù)是對其在應(yīng)用中的進一步發(fā)展,正逐步受到更廣泛的研究與關(guān)注,增量訓練方法將傳統(tǒng)的一次性集中訓練轉(zhuǎn)化為增量式、漸進式的訓練學習,克服了一次性訓練對內(nèi)存資源占用大、沒有持續(xù)訓練學習能力等缺點,因而,增量訓練學習方法大大擴展了分類模型的能力,提高了訓練的靈活性與適應(yīng)性,以及在實際應(yīng)用中的學習能力。并且,相比于其它機器學習技術(shù),支持向量機方法具有更良好的擴展性,及一般模型所不具備的優(yōu)秀的增量學習的能力,這為支持向量機增量訓練技術(shù)的研究應(yīng)用提供了巨大的前景。1999年,Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI),1999)中采用增量學習方法對兩類支持向量機分類進行了研究,在每次增量時將上一次訓練獲得的支持向量與新增訓練文檔一起進行訓練優(yōu)化,實驗獲得了與非增量訓練基本相近但略低的分類精度,2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning,”(Adv.Neural Information Processing Systems,Cambridge MAMIT Press,Vol.13,2001)從理論上分析了進行增量訓練時支持向量全局優(yōu)化的方法,同年,Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01,Springer,2001)中探討了一種采用徑向基函數(shù)(RBF)為核函數(shù)的支持向量機進行局部增量訓練的優(yōu)化策略,在該研究中僅僅采用新增訓練數(shù)據(jù)周圍數(shù)據(jù)作為工作子集的方法來進行優(yōu)化訓練,避免對全部數(shù)據(jù)參數(shù)的再學習,以上研究的重點都是集中在支持向量重新優(yōu)化的問題上,是基于SVM本身的增量訓練特性的研究。
為達到以上發(fā)明目的,本發(fā)明采用的技術(shù)內(nèi)容是一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法,包括以下步驟第一、類別關(guān)鍵詞的學習與調(diào)整。
將增量訓練學習分為分類關(guān)鍵詞學習與支持向量優(yōu)化訓練兩個方面。在獲得用于增量訓練的文檔后,對它們進行文檔切分、關(guān)鍵詞提取,然后讀取以前的關(guān)鍵詞集合,進行相應(yīng)的關(guān)鍵詞學習與調(diào)整,步驟如下1)若增量訓練文檔中的關(guān)鍵詞tk已存在于原關(guān)鍵詞集合中,則將該關(guān)鍵詞對應(yīng)的所出現(xiàn)的訓練文檔數(shù)nk加1;若為新關(guān)鍵詞,則將該關(guān)鍵詞增加到關(guān)鍵詞集合中,并將其相應(yīng)的所出現(xiàn)的訓練文檔數(shù)置為1。
2)所有用于增量訓練文檔進行步驟1)的關(guān)鍵詞調(diào)整完成后,將新增的訓練文檔數(shù)與原總訓練文檔數(shù)相加,作為新的總訓練文檔數(shù)N。
3)對調(diào)整后的關(guān)鍵詞集合中相應(yīng)的關(guān)鍵詞倒排文檔頻率(idf)進行重新計算。
第二、支持向量的權(quán)重調(diào)整關(guān)鍵詞的學習完畢后,接下來在進行支持向量的優(yōu)化調(diào)整前還需要進行原支持向量的權(quán)重調(diào)整。其原因在于經(jīng)過了關(guān)鍵詞的學習后,關(guān)鍵詞的倒排文檔頻率(idf)已發(fā)生了變化,而支持向量中的關(guān)鍵詞權(quán)重是通過tf*idf方式獲得,因此,也需要進行調(diào)整,具體方法是用新的關(guān)鍵詞idf′替換舊的關(guān)鍵詞idfwj′=wj*idfj′idfj]]>其中,wj代表關(guān)鍵詞tj的權(quán)重。
第三、支持向量機優(yōu)化訓練將新增加的增量訓練文檔向量與調(diào)整后的原支持向量集合中的支持向量進行合并,重新進行SVM的二次規(guī)劃優(yōu)化訓練,以獲得新的分類模型及新的支持向量集合,用于新的分類處理。
上述第一步中,根據(jù)增量訓練文檔及其關(guān)鍵詞調(diào)整分類關(guān)鍵詞及其特征,該特征包括關(guān)鍵詞的倒排文檔頻率、訓練文檔總數(shù),其中,相應(yīng)的關(guān)鍵詞倒排文檔頻率(idf)進行計算的方法可以為idfk=logNnk,]]>也可以采用其它不同形式的倒排文檔頻率計算方法,該計算式中,N為增加了新增量訓練文檔數(shù)的總訓練文檔數(shù),nk為調(diào)整后的關(guān)鍵詞tk的所出現(xiàn)的訓練文檔數(shù)。
該方法還可以通過對分類關(guān)鍵詞進行一定形式的特征詞提取后,用提取后的特征詞進行學習調(diào)整及分類處理。
本發(fā)明的效果在于通過本方法,使增量訓練與一次性訓練在分類關(guān)鍵詞上保持了一致性,因此也就消除了因關(guān)鍵詞的不同或關(guān)鍵詞特性的不一致而造成的分類精度上的差異。根據(jù)采用本方法所進行的實驗也表明本發(fā)明所提出的方法在進行文本分類時,達到了與一次性訓練相一致的分類精度,而優(yōu)于不進行關(guān)鍵詞學習的方法。
具體實施例方式
下面以實施例的方式并結(jié)合附圖對本發(fā)明作進一步的描述如

圖1所示,一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法,包括以下步驟第一、通過計算機及相關(guān)軟件讀入增量訓練文檔,并對文檔進行文檔切分處理。
第二、根據(jù)文檔中的詞頻特性,提取文檔的關(guān)鍵詞。
第三、進行關(guān)鍵詞的學習與調(diào)整,對每篇新的增量訓練文檔,根據(jù)新的增量文檔中的關(guān)鍵詞更新原關(guān)鍵詞集合,步驟如下1)若增量訓練文檔中的關(guān)鍵詞tk已存在于原關(guān)鍵詞集合中,則將該關(guān)鍵詞對應(yīng)的所出現(xiàn)的訓練文檔數(shù)nk加1;若為新關(guān)鍵詞,則將該關(guān)鍵詞增加到關(guān)鍵詞集合中,并將其相應(yīng)的所出現(xiàn)的訓練文檔數(shù)置為1。2)所有用于增量訓練文檔進行步驟1)的關(guān)鍵詞調(diào)整完成后,將新增的訓練文檔數(shù)與原總訓練文檔數(shù)相加,作為新的總訓練文檔數(shù)N。3)對調(diào)整后的關(guān)鍵詞集合中相應(yīng)的關(guān)鍵詞倒排文檔頻率(idf)進行重新計算,本實施例采取的計算形式為idfk=logNnk,]]>其中,N為增加了新增量訓練文檔數(shù)后的總訓練文檔數(shù),nk為調(diào)整后的關(guān)鍵詞tk的所出現(xiàn)的訓練文檔數(shù)。當然,還可以采取其他的計算形式來計算。
第四、據(jù)更新后的新的關(guān)鍵詞集合,生成新的增量訓練文檔向量。
第五、支持向量權(quán)重調(diào)整,從分類模型中讀取原支持向量,并根據(jù)新的關(guān)鍵詞的倒排文檔頻率(idf)進行支持向量權(quán)重的更新。
第六、將增量文檔向量與進行了權(quán)重更新后的支持向量進行合并,作為新的增量訓練文檔向量集。
第七、在多類分類處理時,需要進行多類兩類的轉(zhuǎn)換;第八、進行兩類SVM支持向量優(yōu)化訓練,獲得新的分類訓練模型。本實施例中實驗數(shù)據(jù)的來源為人民網(wǎng)2001年、2002年新聞分類語料,共一萬多篇,分為體育、信息技術(shù)、軍事、文娛、科教、環(huán)保、經(jīng)濟共七大類別,為實驗的充分性,分別從中隨機抽取2800篇和7700篇分別組成實驗數(shù)據(jù)集1和數(shù)據(jù)集2;并且,數(shù)據(jù)在各個類別中均勻分布,通過隨機抽取,每個集合內(nèi)又分為訓練集合與測試集合,同時,為了進行增量訓練的需要,訓練集合部分又隨機分別等分成12和9部分,用于增量訓練,具體劃分情況見表1、表2。
表1實驗數(shù)據(jù)集

表2增量實驗訓練數(shù)據(jù)分配

為了驗證本發(fā)明所提出方法的在實際分類中的效果,分別將本文提出的有關(guān)鍵詞學習的增量訓練學習與無關(guān)鍵詞學習的增量訓練以及非增量的一次性訓練進行實驗比較,為表述方便,將本文提出的具有關(guān)鍵詞學習的增量學習方法記為I-SVM-KL(Incremental SVM with Keyword Learning)方法,而無關(guān)鍵詞學習的增量訓練學習方法,即普通的增量訓練方法記作I-SVM,非增量的一次性訓練方法記作batch-SVM具體實驗數(shù)據(jù)結(jié)果分別見表3、表4,圖2、圖3分別是上述實驗結(jié)果的實驗數(shù)據(jù)曲線,其中分類精度為各個類別精度的平均值。
表3數(shù)據(jù)集1的實驗數(shù)據(jù)結(jié)果


表4數(shù)據(jù)集2的實驗結(jié)果

由以上數(shù)據(jù)可以看出,本發(fā)明的效果在于1、本發(fā)明所提出的融合關(guān)鍵詞學習與調(diào)整的增量學習方法確實進一步提高了增量訓練的性能,大大優(yōu)于不進行關(guān)鍵詞學習而僅僅進行支持向量優(yōu)化選擇的方法。
2、本發(fā)明與以前研究者的研究結(jié)果相一致,即不進行關(guān)鍵詞學習的增量訓練學習方法,則只獲得了略低的性能,并且,隨著增量數(shù)據(jù)集的增加,其局限性逐漸明顯。
3、從實驗可以看出,在多數(shù)實驗數(shù)據(jù)點,本發(fā)明所提出的方法與一次性訓練獲得了完全相同或基本相同的結(jié)果;并且,從二者的實驗數(shù)據(jù)及性能曲線中可以明顯看出,本文提出的改進的增量訓練方法在分類精度上達到了與一次性訓練相一致的效果,實現(xiàn)了一次性訓練的增量式實現(xiàn)。
權(quán)利要求
1.一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法,其特征在于包括以下步驟第一、類別關(guān)鍵詞的學習與調(diào)整將增量訓練學習分為分類關(guān)鍵詞學習與支持向量優(yōu)化訓練兩個方面,在獲得用于增量訓練的文檔后,進行文檔切分、關(guān)鍵詞提取,然后結(jié)合以前的關(guān)鍵詞集合,進行相應(yīng)的關(guān)鍵詞學習與調(diào)整,步驟如下1)若增量訓練文檔中的關(guān)鍵詞tk已存在于原關(guān)鍵詞集合中,則將該關(guān)鍵詞對應(yīng)的所出現(xiàn)的訓練文檔數(shù)nk加1;若為新關(guān)鍵詞,則將該關(guān)鍵詞增加到關(guān)鍵詞集合中,并將其相應(yīng)的所出現(xiàn)的訓練文檔數(shù)置設(shè)為1;2)所有用于增量訓練的文檔進行步驟1)的關(guān)鍵詞調(diào)整完成后,將新增的訓練文檔數(shù)與原總訓練文檔數(shù)相加,作為新的總訓練文檔數(shù)N;3)對調(diào)整后的關(guān)鍵詞集合中相應(yīng)的關(guān)鍵詞倒排文檔頻率(idf)進行重新計算;第二、支持向量的權(quán)重調(diào)整關(guān)鍵詞的學習完畢后,需要對原支持向量進行權(quán)重調(diào)整,具體方法是用新的關(guān)鍵詞idf′替換舊的關(guān)鍵詞idfwj′=wj*idfj′idfj]]>其中,wj代表關(guān)鍵詞tj的權(quán)重;第三、支持向量機優(yōu)化訓練將新增加的增量訓練文檔向量與調(diào)整后的原支持向量集合中的支持向量進行合并,重新進行SVM的二次規(guī)劃優(yōu)化訓練,以獲得新的分類模型及新的支持向量集合,用于新的分類處理。
2.如權(quán)利要求1所述的一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法,其特征在于第一步中,根據(jù)增量訓練文檔及其關(guān)鍵詞調(diào)整分類關(guān)鍵詞及其特征,該特征包括關(guān)鍵詞的倒排文檔頻率、訓練文檔總數(shù),其中,相應(yīng)的關(guān)鍵詞倒排文檔頻率(idf)進行計算的方法可以為idfk=logNnk,]]>也可以采用其它不同形式的倒排文檔頻率計算方法,該計算式中,N為增加了新增量訓練文檔數(shù)的總訓練文檔數(shù),nk為調(diào)整后的關(guān)鍵詞tk的所出現(xiàn)的訓練文檔數(shù)。
3.如權(quán)利要求1、2所述的一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法,其特征在于該方法還可以通過對分類關(guān)鍵詞進行一定形式的特征詞提取后,用提取后的特征詞進行學習調(diào)整及分類處理。
全文摘要
本發(fā)明屬于智能信息處理技術(shù),具體涉及一種融合關(guān)鍵詞學習的支持向量機文本分類增量訓練學習方法?,F(xiàn)有的方法忽略了隨著增量訓練而應(yīng)有的文檔關(guān)鍵詞的學習問題,使得增量訓練效果要低于非增量的一次性訓練。本發(fā)明針對關(guān)鍵詞在訓練中的重要作用,提出了同步考慮關(guān)鍵詞“增量”學習的方法,在增量訓練過程中,同時進行分類關(guān)鍵詞的學習與調(diào)節(jié),從而消除了增量訓練相對于一次性訓練的不足。本發(fā)明所提出的融合關(guān)鍵詞學習的增量訓練方法可獲得與一次性訓練相一致的分類精度,優(yōu)于沒有進行關(guān)鍵詞學習的方法。
文檔編號G06F17/16GK1460947SQ03145419
公開日2003年12月10日 申請日期2003年6月13日 優(yōu)先權(quán)日2003年6月13日
發(fā)明者孫晉文 申請人:北京大學計算機科學技術(shù)研究所, 北京北大方正技術(shù)研究院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1