亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對(duì)不同學(xué)科題目文本分類的方法

文檔序號(hào):9432652閱讀:518來(lái)源:國(guó)知局
一種針對(duì)不同學(xué)科題目文本分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)預(yù)處理技術(shù),尤其設(shè)及一種針對(duì)不同學(xué)科題目文本分類的方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)上文本信息的爆炸式增長(zhǎng),對(duì)文本的處理需求越來(lái)越迫切,同時(shí)要求的 精度和準(zhǔn)確性也越來(lái)越高,尤其是在文檔分類和信息檢索等領(lǐng)域,經(jīng)常需要對(duì)大批量的文 檔進(jìn)行自動(dòng)分類。
[0003] 目前的文本分類方法主要包含=個(gè)環(huán)節(jié),即文本表示、特征提取和文本分類,一般 來(lái)說(shuō)不同的文本分類方法主要區(qū)別在于如何表示文本。在文本表示方面,主要有基于詞典 向量和基于深度學(xué)習(xí)兩種文本分類法,前者直接將文本按照分詞結(jié)果表示為向量,向量的 每個(gè)位表示在文檔中有無(wú)該分詞或者通過(guò)某種加權(quán)方法后得到的值,而后者一般通過(guò)深度 學(xué)習(xí)方法將詞表示成向量,向量中每一位沒有具體的意義,但整個(gè)向量可用來(lái)描述該詞與 其他詞之間的聯(lián)系;在特征提取方面,除了常用的詞頻、逆向文檔頻率等指標(biāo),還有信息增 益W及卡方檢驗(yàn)等統(tǒng)計(jì)學(xué)方法;在文本分類方面,常用的分類法如樸素貝葉斯、k鄰近、支 持向量機(jī)W及神經(jīng)網(wǎng)絡(luò)等方法都可W用于文本分類。
[0004] 目前的文本分類方法在處理特征明顯、類別間相互差異較大的文本時(shí)有較高的正 確率,但在處理有一定相似度的文本時(shí)效果會(huì)降低,W常見的初、高中九口學(xué)科的題目,即 數(shù)、語(yǔ)、外、物、化、生、政、史、地為例,其中理科與文科之間比較容易分類,但理科或者文科 內(nèi)部的各科間都有一定的相似度。在基于詞典向量的方法中,選擇特征詞時(shí)一般都會(huì)使用 統(tǒng)計(jì)學(xué)習(xí)方法,在統(tǒng)計(jì)時(shí)一般只考慮了詞的信息,而詞與詞之間的關(guān)聯(lián)則被忽略;而基于深 度學(xué)習(xí)的方法在把詞表示成向量后,雖然向量中包含了詞與詞之間的關(guān)聯(lián)信息,但在用詞 向量表示整個(gè)文本時(shí),由于不同文本的長(zhǎng)度變化幅度大,難W找到統(tǒng)一的特征輸入分類器, 在一些使用深度學(xué)習(xí)的方案中將文本長(zhǎng)度固定,運(yùn)樣的做法不可避免會(huì)帶來(lái)信息的丟失。

【發(fā)明內(nèi)容】

[0005] 為了解決現(xiàn)有技術(shù)中的問(wèn)題,本發(fā)明提供了一種針對(duì)不同學(xué)科題目文本分類的方 法。
[0006] 本發(fā)明是運(yùn)樣實(shí)現(xiàn)的,一種針對(duì)不同學(xué)科題目文本分類的方法,所述方法包括W 下步驟:
[0007]A、使用卡方檢驗(yàn)對(duì)每口學(xué)科進(jìn)行選詞組成該學(xué)科的特征詞表;
[000引B、利用樸素貝葉斯模型將選好的特征詞進(jìn)行學(xué)科分類;
[0009] C、利用支持向量機(jī)對(duì)樸素貝葉斯模型分類中給出的前兩名概率最大的結(jié)果進(jìn)行 二次分類給出第一名結(jié)果。
[0010] 本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟A中還包括步驟:
[0011]A1、將選出的詞按照該詞與學(xué)科的關(guān)聯(lián)性做排序。
[0012] 本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟A中還包括步驟:
[0013] A2、利用詞頻表對(duì)組成的特征詞進(jìn)行詞頻過(guò)濾生成新的特征詞表。
[0014] 本發(fā)明的進(jìn)一步技術(shù)方案是:所述卡方檢驗(yàn)是統(tǒng)計(jì)樣本的實(shí)際值與理論值之間的 偏離程度,根據(jù)偏離程度大小確定理論值是否正確;其中偏差程度為:E為理 論值,Xi,X2,…義;,…X。為實(shí)際值。
[0015] 本發(fā)明的進(jìn)一步技術(shù)方案是:所述步驟B中計(jì)算文檔d屬于某個(gè)類別。的概率為:
,其中P(d|Ci) =P(Wi|Ci)P(WzICi)…P(Wj|Ci) ????("" |Ci),m 為文檔d分詞的個(gè)數(shù),P(w,ICi)就代表詞匯w,屬于類別C1的概率。
[001引本發(fā)明的進(jìn)一步技術(shù)方案是:對(duì)于P(d|Ci) =P(Wi|Ci)P(W2|Ci) ????(>;忙)…P(Wm|Ci)式中P(Ci)和P(d)在同一文檔中大小值一樣。
[0017] 本發(fā)明的有益效果是:通過(guò)兩次分類,使得分類平均正確率得到提高,本方法實(shí)現(xiàn) 簡(jiǎn)單、操作簡(jiǎn)單、使用方便準(zhǔn)確,對(duì)學(xué)科間的分類更加準(zhǔn)確,有效的提高了鄰近學(xué)科之間分 類的正確率。
【附圖說(shuō)明】
[0018] 圖1是本發(fā)明實(shí)施例提供的針對(duì)不同學(xué)科題目文本分類的方法的流程圖。 圖2是卡方檢驗(yàn)選詞流程圖。
【具體實(shí)施方式】
[0019] 針對(duì)現(xiàn)有方法的不足,本方案設(shè)計(jì)了一個(gè)新的二次分類處理方法,在選擇特征詞 的基礎(chǔ)上根據(jù)不同的階段確定有效的分類策略。為了使詞典中的特征詞盡可能具有代表 性,本方案使用卡方檢驗(yàn)選詞。卡方檢驗(yàn)是統(tǒng)計(jì)學(xué)中一種??谟糜谙嚓P(guān)分析的假設(shè)檢驗(yàn)方 法,其模型中包含了對(duì)相關(guān)文檔頻率的統(tǒng)計(jì),比僅統(tǒng)計(jì)詞頻要更可靠,而且卡方檢驗(yàn)是在 每個(gè)類別中得到一系列特征詞,運(yùn)比使用信息增益在總體上得到的特征詞更有針對(duì)性。
[0020] 在使用卡方檢驗(yàn)得到特征詞后,文檔就可W表示成由運(yùn)些特征詞組成的向量,接 下來(lái)要考慮如何進(jìn)行分類。由于卡方檢驗(yàn)得到的詞表是經(jīng)過(guò)相關(guān)性排序的,利用運(yùn)一點(diǎn),在 每個(gè)類別的特征詞表中依次對(duì)每個(gè)詞賦權(quán)值,然后在分類時(shí),根據(jù)文檔分詞后的匹配情況, 對(duì)每一個(gè)類別都得到一個(gè)權(quán)值之和,最后W該和值大小來(lái)判斷屬于哪個(gè)類別。運(yùn)種方法在 對(duì)特征詞賦予權(quán)值時(shí)使用了自定義的模型來(lái)進(jìn)行量化,得到的量化值與每個(gè)特征詞的重要 性并不一定相符。本方案使用NBM進(jìn)行分類,對(duì)卡方檢驗(yàn)選出來(lái)的特征詞,經(jīng)過(guò)詞頻統(tǒng)計(jì)得 到先驗(yàn)概率,然后在分類時(shí)根據(jù)貝葉斯公式計(jì)算文檔屬于每個(gè)類別的概率。相比于自定義 模型,NBM有理論基礎(chǔ)且應(yīng)用廣泛,而且其中先驗(yàn)概率的計(jì)算考慮了詞在文檔中重復(fù)出現(xiàn)的 個(gè)數(shù),運(yùn)在一定程度上彌補(bǔ)了卡方檢驗(yàn)的不足之處,即僅考慮詞在不同文檔中出現(xiàn)次數(shù)。
[0021] 在上一節(jié)中提到,在文本分類中統(tǒng)計(jì)學(xué)習(xí)方法一般只考慮了單個(gè)詞的信息,詞與 詞之間的關(guān)聯(lián)往往被忽略,運(yùn)個(gè)問(wèn)題對(duì)于卡方檢驗(yàn)和NBM來(lái)說(shuō)都是存在的,再加上NBM需 要假設(shè)文檔中出現(xiàn)的詞與詞之間相互獨(dú)立,而運(yùn)一點(diǎn)在實(shí)際中難W滿足。為了盡可能彌補(bǔ) 運(yùn)些缺陷,本方案在NBM基礎(chǔ)上,添加了SVM進(jìn)行二次分類。SVM是一種尋找最優(yōu)分界面的 模型,其尋找最優(yōu)界面的過(guò)程隱性地包含了尋找不同詞之間的最佳組合,而且SVM并不要 求輸入的特征之間滿足任何相關(guān)性條件。綜上,將SVM用于優(yōu)化分類結(jié)果,是一種合適的選 擇。
[0022] 圖1示出了本發(fā)明提供的一種針對(duì)不同學(xué)科題目文本分類的方法的流程圖,其詳 述如下:
[0023] 步驟S1,使用卡方檢驗(yàn)對(duì)每口學(xué)科進(jìn)行選詞組成該學(xué)科的特征詞表;使用卡方檢 驗(yàn)對(duì)每口學(xué)科進(jìn)行選詞,并且對(duì)選出的詞按照該詞與學(xué)科的關(guān)聯(lián)性做一個(gè)排序,組成該學(xué) 科的特征詞表??ǚ綑z驗(yàn)基本思想是統(tǒng)計(jì)樣本的實(shí)際值與理論值之間的偏離程度,根據(jù)偏 離程度大小確定理論值是否正確。設(shè)理論值為E,實(shí)際值為Xi,X2, ???Xi,…X。,偏差程度的 計(jì)算公式為:
,具體到文本分類中
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1