亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法

文檔序號(hào):6633594閱讀:907來(lái)源:國(guó)知局
一種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法
【專(zhuān)利摘要】本發(fā)明提供一種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,包括如下步驟:對(duì)數(shù)據(jù)集預(yù)處理;把每一個(gè)數(shù)據(jù)對(duì)象轉(zhuǎn)換為特征空間的向量;分別計(jì)算每個(gè)術(shù)語(yǔ)在每個(gè)文本分類(lèi)中的最大術(shù)語(yǔ)頻率和平均術(shù)語(yǔ)頻率;根據(jù)平均術(shù)語(yǔ)頻率計(jì)算術(shù)語(yǔ)在每個(gè)類(lèi)中的分布差異度;將每個(gè)術(shù)語(yǔ)的最大術(shù)語(yǔ)頻率和分布差異度與傳統(tǒng)的卡方統(tǒng)計(jì)公式相結(jié)合,計(jì)算每個(gè)術(shù)語(yǔ)在每個(gè)類(lèi)中的權(quán)重,并取最大值為術(shù)語(yǔ)權(quán)重;將每個(gè)術(shù)語(yǔ)權(quán)重降序排序,選出權(quán)重值最大的前N個(gè)術(shù)語(yǔ)作為特征。本發(fā)明通過(guò)對(duì)傳統(tǒng)的卡方統(tǒng)計(jì)進(jìn)行改進(jìn),使在某類(lèi)出現(xiàn)頻率較高的或類(lèi)內(nèi)分布均勻的特征項(xiàng)對(duì)類(lèi)別區(qū)分的貢獻(xiàn)度得到體現(xiàn),并修正了傳統(tǒng)卡方統(tǒng)計(jì)方法偏向于低頻詞的不足。
【專(zhuān)利說(shuō)明】一種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于文本挖掘與信息檢索領(lǐng)域,具體涉及的是一種基于術(shù)語(yǔ)頻率和卡方統(tǒng) 計(jì)的文本分類(lèi)特征選擇方法。

【背景技術(shù)】
[0002] 文本分類(lèi)(TextClassification或TextCategorization)是預(yù)先設(shè)定的類(lèi)別集 合,根據(jù)文本內(nèi)容確定文本所屬類(lèi)型。在文本分類(lèi)中,通常用向量空間模型作為文本的表示 模型,該模型是應(yīng)用效果最好的文本表示模型之一;文本中的詞或詞組作為特征,但是在大 量的特征中,存在很多冗余特征和噪聲特征,而龐大的特征空間維數(shù)會(huì)降低分類(lèi)器的性能 和泛化能力,產(chǎn)生"過(guò)學(xué)習(xí)"現(xiàn)象。同時(shí),處理高維向量需要極高的時(shí)間復(fù)雜度,進(jìn)而會(huì)產(chǎn)生 "維數(shù)災(zāi)難"。因此,我們需要通過(guò)特征降維,來(lái)提高分類(lèi)器的效率和精度,特征降維分為特 征選擇和特征提取。
[0003] 特征選擇是目前最常用的降維方法,其本質(zhì)是從一個(gè)高維空間根據(jù)某種準(zhǔn)則變換 到一個(gè)較低維的空間,并且使得該低維空間有比較好的類(lèi)別可分性,從而提高分類(lèi)器的分 類(lèi)效率和精度。比較常用的特征選擇方法主要有文檔頻率(documentfrequency,DF)、互 信息(mutualinformation,MI)、期望交叉熵(expectedcrossentropy,ECE)、卡方統(tǒng)計(jì) (Chi-squarestatistic,CHI)、信息增益(informationgain,IG)等;近年來(lái)國(guó)內(nèi)外學(xué)者 還提出了其他的特征選擇方法,例如,張玉芳等人提出了綜合比率(CR)方法,通過(guò)把數(shù)據(jù) 集分成正類(lèi)和負(fù)類(lèi),綜合考慮特征項(xiàng)在正類(lèi)和負(fù)類(lèi)中的分布,結(jié)合四種衡量特征類(lèi)別區(qū)分 能力的指標(biāo),構(gòu)造了CR特征選擇方法來(lái)選擇特征;馮霞等人提出了基于假設(shè)檢驗(yàn)的選擇方 法,利用特征與文檔類(lèi)在term-category四格表中相互獨(dú)立與互不相關(guān)等價(jià)的性質(zhì)來(lái)選擇 特征。美國(guó)卡內(nèi)基梅隆大學(xué)的Yang教授針對(duì)文本分類(lèi)問(wèn)題,在分析比較了DF、MI、IG、CHI 等方法后,得出IG和CHI方法分類(lèi)效果相對(duì)較好的結(jié)論,并且,CHI和IG在多次的實(shí)驗(yàn)中 表現(xiàn)出了良好的準(zhǔn)確性。但是上述這些特征選擇方法都具有缺陷,比如卡方統(tǒng)計(jì)方法對(duì)低 頻詞的倚重大,不能很好地過(guò)濾低頻詞中的噪音詞。


【發(fā)明內(nèi)容】

[0004] 我們通過(guò)分析發(fā)現(xiàn),現(xiàn)有卡方統(tǒng)計(jì)方法只考慮了特征詞的文檔頻率,并沒(méi)有考慮 特征的術(shù)語(yǔ)詞頻,所以夸大了低頻術(shù)語(yǔ)的作用。例如傳統(tǒng)卡方統(tǒng)計(jì)方法只統(tǒng)計(jì)文檔中是否 出現(xiàn)術(shù)語(yǔ)t,并沒(méi)有考慮術(shù)語(yǔ)t在文檔中出現(xiàn)的次數(shù),致使傳統(tǒng)方法更傾向于選擇文檔頻率 高的特征,忽略了文檔頻率較低但是詞頻較高的詞匯的貢獻(xiàn)度,此外,傳統(tǒng)卡方統(tǒng)計(jì)方法沒(méi) 有考慮術(shù)語(yǔ)的分布差異度的問(wèn)題?;谏鲜鰡?wèn)題,本發(fā)明公開(kāi)了一種基于術(shù)語(yǔ)頻率和卡方 統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,利用最大術(shù)語(yǔ)頻率來(lái)修正傳統(tǒng)卡方統(tǒng)計(jì)方法對(duì)術(shù)語(yǔ)頻率低 但文檔頻率高的術(shù)語(yǔ)的偏袒;同時(shí)利用平均術(shù)語(yǔ)頻率和統(tǒng)計(jì)學(xué)上的標(biāo)準(zhǔn)方差的方法,來(lái)修 正傳統(tǒng)卡方統(tǒng)計(jì)方法未考慮分布差異度的缺陷。
[0005] 為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
[0006] -種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,包括如下步驟:
[0007] 步驟(1),對(duì)語(yǔ)料庫(kù)數(shù)據(jù)集進(jìn)行預(yù)處理;
[0008] 步驟(2),對(duì)經(jīng)過(guò)步驟(1)處理得到的數(shù)據(jù)集中的對(duì)象根據(jù)向量空間模型均表示 為向量形式,得到數(shù)據(jù)對(duì)象向量集合D= ,類(lèi)標(biāo)簽集合C= dj表示語(yǔ)料庫(kù)數(shù)據(jù)集中的一個(gè)文檔(Kj<N),ck表示語(yǔ)料庫(kù)數(shù)據(jù)集中的一個(gè)類(lèi);
[0009]步驟(3),計(jì)算術(shù)語(yǔ)&在文本分類(lèi)ck中的最大術(shù)語(yǔ)頻率1

【權(quán)利要求】
1. 一種基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,其特征在于,包括如下步 驟: 步驟(1),對(duì)語(yǔ)料庫(kù)數(shù)據(jù)集進(jìn)行預(yù)處理; 步驟(2),對(duì)經(jīng)過(guò)步驟(1)處理得到的數(shù)據(jù)集中的對(duì)象根據(jù)向量空間模型均表示為向 量形式,得到數(shù)據(jù)對(duì)象向量集合D = {屯,d2, . . . dN},類(lèi)標(biāo)簽集合C = {cp c2, . . . c|e|}, dj表 示語(yǔ)料庫(kù)數(shù)據(jù)集中的一個(gè)文檔(1 < j < N),ck表示語(yǔ)料庫(kù)數(shù)據(jù)集中的一個(gè)類(lèi); 步驟(3),計(jì)算術(shù)語(yǔ)&在文本分類(lèi)ck中的最大術(shù)語(yǔ)頻率和平均術(shù)語(yǔ)頻率$ ; 步驟(4),通過(guò)下式計(jì)算術(shù)語(yǔ)^在^類(lèi)中的分布差異度:
其中,a表示一個(gè)很小的實(shí)數(shù); 步驟(5),利用步驟(3)和步驟(4)得到的最大術(shù)語(yǔ)頻率及分布差異度,通過(guò)下式計(jì)算 該術(shù)語(yǔ)&在ck類(lèi)中的權(quán)重:
步驟(6),計(jì)算得到該術(shù)語(yǔ)^在每個(gè)類(lèi)中的權(quán)重,通過(guò)下式取權(quán)重最大值為術(shù)語(yǔ)&在 語(yǔ)料庫(kù)數(shù)據(jù)集中的權(quán)重:
步驟(7),計(jì)算得到每一個(gè)術(shù)語(yǔ)在語(yǔ)料庫(kù)數(shù)據(jù)集中的權(quán)重,并降序排列,選出值最大的 前N個(gè)術(shù)語(yǔ)作為特征。
2. 根據(jù)權(quán)利要求1所述的基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,其特征 在于:所述步驟(1)對(duì)語(yǔ)料庫(kù)數(shù)據(jù)集進(jìn)行預(yù)處理時(shí)包括去停用詞、中文分詞步驟。
3. 根據(jù)權(quán)利要求2所述的基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,其特征 在于:所述去停用詞步驟采用由百度停用詞列表、哈工大停用詞表和四川大學(xué)機(jī)器智能實(shí) 驗(yàn)室停用詞庫(kù)3個(gè)詞庫(kù)結(jié)合得到的停用表進(jìn)行去停用詞操作。
4. 根據(jù)權(quán)利要求2所述的基于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇方法,其 特征在于:所述中文分詞步驟采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng) ICTCLAS進(jìn)行中文分詞操作。
5. 根據(jù)權(quán)利要求1?3中任意一項(xiàng)所述的于術(shù)語(yǔ)頻率和卡方統(tǒng)計(jì)的文本分類(lèi)特征選擇 方法,其特征在于,所述術(shù)語(yǔ)頻率平均術(shù)語(yǔ)頻率_通過(guò)下式計(jì)算:

其中,tfu為術(shù)語(yǔ)ti在屬于ck類(lèi)的各個(gè)文檔4中的術(shù)語(yǔ)頻率。
【文檔編號(hào)】G06F17/30GK104346459SQ201410629761
【公開(kāi)日】2015年2月11日 申請(qǐng)日期:2014年11月10日 優(yōu)先權(quán)日:2014年11月10日
【發(fā)明者】馬廷淮, 金傳鑫, 侯榮濤, 田偉, 薛羽 申請(qǐng)人:南京信息工程大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1