亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種提取文本模型特征進(jìn)行分類算法

文檔序號(hào):6638430閱讀:1446來(lái)源:國(guó)知局
一種提取文本模型特征進(jìn)行分類算法
【專利摘要】本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法,該算法對(duì)文本模型的訓(xùn)練數(shù)據(jù)通過(guò)計(jì)算第一階段權(quán)值后,將第一階段權(quán)值進(jìn)行計(jì)算在文本模型訓(xùn)練數(shù)據(jù)中獲得特征在新、舊數(shù)據(jù)分布,再次計(jì)算獲得第二階段權(quán)值,最后將第二階段權(quán)值以小到大的順序獲得對(duì)文本模型分類,獲得目標(biāo)特征;該算法對(duì)文本模型提取到的特征既不過(guò)于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù),也不單純從訓(xùn)練數(shù)據(jù)中的少量新數(shù)據(jù)中獲得,能夠取得較好的分類效果。
【專利說(shuō)明】一種提取文本模型特征進(jìn)行分類算法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及對(duì)文本模型特征進(jìn)行二分類算法,尤其涉及一種提取文本模型特征進(jìn) 行分類算法。

【背景技術(shù)】
[0002] 1)文本挖掘
[0003] 隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展,洶涌而來(lái)的信息有時(shí)使人無(wú)所適從,從浩如煙 海的信息海洋中迅速而準(zhǔn)確地獲取自己最需要的信息,變得非常困難。海量信息中,許多是 文本信息。于是產(chǎn)生了一種新的信息處理技術(shù)--文本挖掘。文本挖掘是從大量文本信息 中,抽取出隱含的、有用的知識(shí),這一過(guò)程也稱為文本數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。它涉及到數(shù)據(jù) 庫(kù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、統(tǒng)計(jì)數(shù)據(jù)分析等多個(gè)學(xué)科領(lǐng)域。研宄內(nèi)容包括文本聚類、文本 分類、文本摘要的生成、信息抽取等問(wèn)題。
[0004] 2)文本分類
[0005] 文本分類是文本挖掘研宄中一個(gè)重要的問(wèn)題,它是指在給定的分類體系下,將大 量文本劃分為兩個(gè)或多個(gè)類別。利用計(jì)算機(jī)進(jìn)行文本分類,不僅速度快,而且準(zhǔn)確率相對(duì)較 高。在現(xiàn)實(shí)生活中已經(jīng)有了很多應(yīng)用,例如,對(duì)Web網(wǎng)頁(yè)進(jìn)行分類,將包含相同內(nèi)容的頁(yè)面 歸為一類。文本分類的步驟主要包括獲取訓(xùn)練文檔集、信息的預(yù)處理、特征提取、文本表示、 選擇分類方法和性能評(píng)估六個(gè)步驟。
[0006] 3)迀移學(xué)習(xí)
[0007] 在許多實(shí)際應(yīng)用中,文本信息不僅數(shù)量巨大,所包含的內(nèi)容也在快速的更新變化 之中,例如,Web網(wǎng)頁(yè)的內(nèi)容經(jīng)常變化主題。在傳統(tǒng)的分類學(xué)習(xí)中,一個(gè)基本的假設(shè)就是認(rèn) 為用于訓(xùn)練分類模型的數(shù)據(jù)與目標(biāo)任務(wù)的數(shù)據(jù)服從統(tǒng)一的分布。由于目標(biāo)任務(wù)的數(shù)據(jù)會(huì)經(jīng) 常變化,這樣就導(dǎo)致了當(dāng)把訓(xùn)練好的模型應(yīng)用于目標(biāo)任務(wù)時(shí),模型可能已經(jīng)過(guò)時(shí)。若頻繁地 對(duì)目標(biāo)任務(wù)的數(shù)據(jù)重新進(jìn)行標(biāo)記,代價(jià)昂貴,也做不到及時(shí)。我們可稱目標(biāo)任務(wù)的數(shù)據(jù)為新 數(shù)據(jù),可稱以往積累的、大量的、已分類的數(shù)據(jù)為舊數(shù)據(jù)。如何最大限度地利用舊數(shù)據(jù)的分 類知識(shí),對(duì)新數(shù)據(jù)進(jìn)行分類,成為一個(gè)急需解決的問(wèn)題。迀移學(xué)習(xí)近年來(lái)成為數(shù)據(jù)挖掘領(lǐng)域 的熱門話題,它與傳統(tǒng)機(jī)器學(xué)習(xí)方法的主要區(qū)別是不需要數(shù)據(jù)獨(dú)立同分布的假設(shè)。在迀移 學(xué)習(xí)方法中,需要取出少量新數(shù)據(jù),進(jìn)行人工標(biāo)注,作為訓(xùn)練數(shù)據(jù)的一部分。僅以這些數(shù)據(jù) 用于訓(xùn)練模型,數(shù)量嚴(yán)重不足。所以以大量已分類的舊數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的補(bǔ)充。舊數(shù)據(jù) 與新數(shù)據(jù)可能來(lái)自不同領(lǐng)域,有不同分布。
[0008] 傳統(tǒng)的特征提取算法,沒有考慮新、舊數(shù)據(jù)不同分布的情況,沒有考慮訓(xùn)練數(shù)據(jù)數(shù) 據(jù)偏斜的問(wèn)題。由于新、舊數(shù)據(jù)有不同分布,當(dāng)差異較大時(shí),若用從舊數(shù)據(jù)提取的特征表示 新數(shù)據(jù)時(shí),新數(shù)據(jù)會(huì)出現(xiàn)很多特征權(quán)重為0的現(xiàn)象。由于訓(xùn)練數(shù)據(jù)中新數(shù)據(jù)很少,若單獨(dú)從 中提取特征,提取到的特征不能很好地代表所有新數(shù)據(jù)。如果在這些特征的基礎(chǔ)上,對(duì)訓(xùn)練 數(shù)據(jù)和目標(biāo)任務(wù)的數(shù)據(jù)進(jìn)行表示,并進(jìn)行文本分類,必然不會(huì)取得很好的效果。


【發(fā)明內(nèi)容】

[0009] 針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種提取文本模型特征進(jìn)行分類算法, 該算法對(duì)文本模型提取到的特征既不過(guò)于傾向于訓(xùn)練數(shù)據(jù)中的舊數(shù)據(jù),也不單純從訓(xùn)練數(shù) 據(jù)中的少量新數(shù)據(jù)中獲得,能夠取得較好的分類效果。
[0010] 為解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題,本發(fā)明采用如下技術(shù)方案:
[0011] 1、一種提取文本模型特征進(jìn)行分類算法,包括如下步驟:
[0012] 第一,對(duì)文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算法(IG,Information Gain)獲得特 征的權(quán)值其算法為:

【權(quán)利要求】
1. 一種提取文本模型特征進(jìn)行分類算法,包括如下步驟: 第一,對(duì)文本模型的訓(xùn)練數(shù)據(jù)采用信息增益算 法(IG,InformationGain)獲得特征的權(quán)值其算法為:
公式(1)中,P(Ci)為類別Ci包含文本數(shù)與文本總數(shù)的比值,P(t)為包含特征t的文 本數(shù)與文本總數(shù)的比值,P(CiIt)為出現(xiàn)特征t時(shí)文本屬于(^的概率,P(F)為不含特征t的 文本數(shù)與文本總數(shù)的比值,^((UO為不出現(xiàn)特征t時(shí)文本屬于(^的概率; 第二,將步驟一獲得的權(quán)值IG進(jìn)行排序,提取第一階段α*K個(gè)特征; 第三,將第一階段α*Κ個(gè)特征采用公式(2)和(3)計(jì)算特征t在文本模型的訓(xùn)練數(shù)據(jù) 中新數(shù)據(jù)、舊數(shù)據(jù)的分布情況,獲得: Wsame (t,Csame) =f(t,Csame)*n(t,Csame)/N(Csame) (2)wdif (t,Cdif) =f(t,Cdif)*n(t,Cdif)/N(Cdif) (3) 其中,C_和Cdif分別表示訓(xùn)練數(shù)據(jù)中的新、舊數(shù)據(jù),f(t,CsaJ和f(t,Cdif)分別表示 特征t在新、舊數(shù)據(jù)中出現(xiàn)的次數(shù),n(t,CsaJ和n(t,Cdif)分別表示新、舊數(shù)據(jù)中出現(xiàn)特征 t的文本數(shù),N(Csame)和N(Cdif)分別為新、舊數(shù)據(jù)中的文本總數(shù),ws_ (t,CsaiJ和wdif(t,Cdif) 分別表示特征t在新、舊數(shù)據(jù)中的分布; 第四,將步驟三中特征t在新、舊數(shù)據(jù)中的分布,采用公式(4)計(jì)算特征t的最終的權(quán) 值,提取第二階段α*Κ個(gè)特征: max{wsaae (t,Csame),wdif (t,Cdif)}/min{wsame (t,CsaJ,wdif (t,Cdif)} (4) 第五,依次循環(huán)步驟二到步驟四,不斷提取第二階段α*K個(gè)特征; 第六,對(duì)步驟五獲得第二階段第二階段α*Κ個(gè)特征按權(quán)重從小到達(dá)進(jìn)行排序,選取權(quán) 重最小K個(gè)特征完成文本模型分類。
【文檔編號(hào)】G06F17/30GK104462406SQ201410765214
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】劉江, 李健銓, 李煒 申請(qǐng)人:天津大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1