一種文本精細(xì)分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計算機(jī)自然語言處理或模式識別技術(shù)領(lǐng)域,具體涉及一種文本精細(xì)分類方法,可以提高短文檔的精細(xì)分類準(zhǔn)確率。
【背景技術(shù)】
[0002]文本分類一般包括了文本的表達(dá)、分類器的選擇與訓(xùn)練、分類結(jié)果的評價與反饋等過程,其中文本的表達(dá)又可細(xì)分為文本預(yù)處理、索引和統(tǒng)計、特征抽取等步驟。
[0003]傳統(tǒng)的文本分類方法,通常對類別間區(qū)別較為明顯的長文檔進(jìn)行分類,譬如網(wǎng)頁內(nèi)容分類(體育、新聞、財經(jīng)和軍事等)。然而在某些特定領(lǐng)域,如公安的接警信息自動化分類、微博情感分析等短文檔分類中,類別之間的差距十分細(xì)微,對文本類別精細(xì)程度要求越高,分類的準(zhǔn)確性就變得越低。
[0004]以樸素貝葉斯算法為例,貝葉斯算法關(guān)注的是文檔屬于某類別的概率。文檔屬于某個類別的概率等于文檔中每個詞屬于該類別的概率的綜合表達(dá)式。而每個詞屬于該類別的概率又在一定程度上可以用這個詞在該類別訓(xùn)練文檔中出現(xiàn)的次數(shù)(詞頻信息)來粗略估計,因而使得整個計算過程成為可行的。使用樸素貝葉斯算法時,在訓(xùn)練階段的主要任務(wù)就是估計這些值。但是,在公安接警信息中,類別之間的差距十分細(xì)微,表達(dá)文檔主題的關(guān)鍵詞可能只有I至2個,這樣一來其他噪聲詞匯對分類結(jié)果的干擾就十分明顯。特別是,隨著分類精細(xì)程度的提高,如將盜竊案細(xì)分為撬門入戶盜竊案、溜門入戶盜竊案、插門入戶盜竊案等等,此時,分類的準(zhǔn)確率將急劇下降,遠(yuǎn)遠(yuǎn)無法滿足實際應(yīng)用的需要。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明提供了一種文本精細(xì)分類方法,以解決短文檔精細(xì)類別劃分準(zhǔn)確率低的問題,顯著提高精細(xì)分類的準(zhǔn)確率。
[0006]按照本發(fā)明的一個方面,提供了一種文本精細(xì)分類方法,包括兩級分類器構(gòu)造步驟、詞向量預(yù)處理步驟、敏感詞典構(gòu)建步驟、文本精細(xì)分類步驟和評價與反饋步驟,其中:
[0007](I)兩級分類器構(gòu)造步驟:根據(jù)應(yīng)用需求和原始文檔集數(shù)據(jù)分布,將分類器劃分為M個一級分類器和N個二級分類器,每個一級分類器Ci都至少包含一個以上的二級分類器Cj,每個二級分類器都從屬于某個一級分類器;其中N〉= M ;i = 1,...,M ; j = 1,...,N ;
[0008](2)詞向量預(yù)處理步驟:對分類器的訓(xùn)練樣本進(jìn)行詞向量的預(yù)處理,包括對分類器的訓(xùn)練樣本執(zhí)行中文分詞、去除專用停頓詞和同義詞網(wǎng)映射;
[0009](3)敏感詞典構(gòu)建步驟:通過對預(yù)處理后得到的詞向量進(jìn)行特征選擇和人工標(biāo)注相結(jié)合方式,分別為每一個分類器構(gòu)建獨有的敏感詞典;
[0010](4)文本精細(xì)分類步驟:利用步驟(3)得到各級分類器的敏感詞典,輸入測試文檔,將其與兩級分類器進(jìn)行匹配計算,得到最終的分類結(jié)果;
[0011](5)評價與反饋步驟:對步驟(4)得到的分類結(jié)果進(jìn)行評價,并跳轉(zhuǎn)到步驟(3),根據(jù)反饋的評價對分類器的敏感詞典進(jìn)行動態(tài)優(yōu)化。
[0012]本發(fā)明的一個實施例中,所述步驟⑴構(gòu)建的分類器中,一級分類器CjP二級分類器Cp都包含數(shù)量不等的訓(xùn)練樣本以及自己所獨有的敏感詞典,一級分類器敏感詞典中包含的敏感詞,不會在從屬于它的二級分類器敏感詞典中重復(fù)出現(xiàn)。
[0013]本發(fā)明的一個實施例中,所述步驟(4)中對測試文檔進(jìn)行匹配計算得到最終的分類結(jié)果,具體為:
[0014]采用步驟(2)中的詞向量預(yù)處理方法對測試文檔進(jìn)行詞向量預(yù)處理;采用K最近鄰算法,將預(yù)處理后得到的詞向量Taerm1,termn...)分別與一級分類器CiQ =
I,..., M)的敏感詞典SensWordDicti (i = I,..., M)進(jìn)行匹配計算,得到最相鄰的一級分類器Ct;再次調(diào)用KNN算法進(jìn)行二級分類,將從屬于一級分類器C t的所有二級分類器Cm?Cn,與詞向量T再次進(jìn)行比較,得到最終的二級分類結(jié)果Ck。
[0015]本發(fā)明的一個實施例中,所述步驟(3)中構(gòu)建敏感詞典,具體為:
[0016]對詞向量Termi采用詞頻-逆向文件頻率算法進(jìn)行特征選擇,再通過人工標(biāo)注對其中間結(jié)果進(jìn)行微調(diào)與優(yōu)化,最終得到分類器Ci的敏感詞典SensWordDict i,其中1^1^是數(shù)據(jù)集DiS過預(yù)處理后得到的詞向量,D 1是分類器C 樣本數(shù)據(jù)集。
[0017]本發(fā)明的一個實施例中,所述步驟(2)中的中文分詞處理具體為:
[0018]采用中科院分詞系統(tǒng)ICTCLAS對文本進(jìn)行分詞,根據(jù)詞性剔除對文本分類無用的詞,包括擬聲詞、副詞、介詞和連詞。
[0019]本發(fā)明的一個實施例中,所述步驟(2)中的去除專用停頓詞處理具體為:
[0020]根據(jù)應(yīng)用場景和原始文檔集特點,去除出現(xiàn)頻率非常高但對分類無用的領(lǐng)域?qū)S猛nD詞。
[0021]本發(fā)明的一個實施例中,所述步驟(2)中的同義詞網(wǎng)映射處理具體為:利用Wordnet進(jìn)行同義詞消岐。
[0022]按照本發(fā)明的另一方面,還提供了一種文本精細(xì)分類系統(tǒng),所述系統(tǒng)包括兩級分類器構(gòu)造模塊、詞向量預(yù)處理模塊、敏感詞典構(gòu)建模塊、文本精細(xì)分類模塊和評價與反饋模塊,其中:
[0023]所述兩級分類器構(gòu)造模塊,用于根據(jù)應(yīng)用需求和原始文檔集數(shù)據(jù)分布,將分類器劃分為M個一級分類器和N個二級分類器,每個一級分類器Ci都至少包含一個以上的二級分類器(V每個二級分類器都從屬于某個一級分類器;其中N〉= M ;i ==I N.
[0024]所述詞向量預(yù)處理模塊,用于對分類器的訓(xùn)練樣本進(jìn)行詞向量的預(yù)處理,包括對分類器的訓(xùn)練樣本執(zhí)行中文分詞、去除專用停頓詞和同義詞網(wǎng)映射;
[0025]所述敏感詞典構(gòu)建模塊,用于通過對預(yù)處理后得到的詞向量進(jìn)行特征選擇和人工標(biāo)注相結(jié)合的方式,為每一個分類器構(gòu)建獨有的敏感詞典。
[0026]所述文本精細(xì)分類模塊,用于根據(jù)敏感詞典構(gòu)建模塊得到的各級分類器的敏感詞典,輸入測試文檔,將其與兩級分類器進(jìn)行匹配計算,得到最終的分類結(jié)果;
[0027]所述評價與反饋模塊,用于對文本精細(xì)分類模塊得到的分類結(jié)果進(jìn)行評價,并跳轉(zhuǎn)到敏感詞典構(gòu)建模塊,根據(jù)反饋的評價對分類器的敏感詞典進(jìn)行動態(tài)優(yōu)化。
[0028]本發(fā)明的一個實施例中,所述文本精細(xì)分類模塊具體用于,對經(jīng)過詞向量預(yù)處理的測試文檔,采用K最近鄰算法,將預(yù)處理后得到的詞向量Taerm1,termn...)分別與一級分類器CiQ = I,..., Μ)的敏感詞典SensWordDicti (i = I,..., M)進(jìn)行匹配計算,得到最相鄰的一級分類器Ct;再次調(diào)用KNN算法進(jìn)行二級分類,將從屬于一級分類器C t的所有二級分類器Cm?Cn,與詞向量T再次進(jìn)行比較,得到最終的二級分類結(jié)果Ck。
[0029]本發(fā)明的一個實施例中,所述文敏感詞典構(gòu)建模塊具體用于,對詞向量Termi采用詞頻-逆向文件頻率算法進(jìn)行特征選擇,再通過人工標(biāo)注對其中間結(jié)果進(jìn)行微調(diào)與優(yōu)化,最終得到分類器Ci的敏感詞典SensWordDict,,其中1^1^是數(shù)據(jù)集D i經(jīng)過預(yù)處理后得到的詞向量,01是分類器C ^勺樣本數(shù)據(jù)集。
[0030]本發(fā)明首先根據(jù)已知訓(xùn)練樣本,構(gòu)造兩級分類器,每一級分類器都包含獨立的敏感詞典;其次,對分類器的訓(xùn)練樣本執(zhí)行分詞、去除專用停頓詞、同義詞網(wǎng)映射等操作,實現(xiàn)詞向量的預(yù)處理;再次,根據(jù)詞向量的重要性差異進(jìn)行特征選擇,構(gòu)建分類器的敏感詞典;再次,利用KNN算法計算目標(biāo)文檔的精細(xì)分類結(jié)果;最后,對分類結(jié)果進(jìn)行評價與反饋,動態(tài)優(yōu)化敏感詞典,進(jìn)一步提高分類準(zhǔn)確率。實驗證明,針對短文檔,采用本文的文本精細(xì)分類方法,可以顯著提高精細(xì)分類的準(zhǔn)確率。
【附圖說明】
[0031]圖1為本發(fā)明文本精細(xì)分類方法的流程示意圖;
[0032]圖2為本發(fā)明實施例中兩級分類器的體系架構(gòu)圖;
[0033]圖3為本發(fā)明實施例中詞向量預(yù)處理的流程示意圖;
[0034]圖4為本發(fā)明實施例中精細(xì)分類的流程示意圖。
【具體實施方式】
[0035]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個實施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。
[0036]如圖1所示,本發(fā)明所提供的文本精細(xì)分類方法,包括兩級分