專利名稱:一種針對(duì)主題漂移問題的跨語言文本分類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本分類方法,特別涉及一種針對(duì)主題漂移問題的跨語言文本分類方法,屬于信息檢索技術(shù)領(lǐng)域。
背景技術(shù):
互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了海量的文本信息,網(wǎng)上的信息由多種語言構(gòu)成,而用戶有時(shí)希望對(duì)不同語言構(gòu)成的文檔進(jìn)行統(tǒng)一分類,為解決此問題,跨語言文本分類便應(yīng)運(yùn)而生。由于各國經(jīng)濟(jì)、政治、文化的不同,不同國家人民的關(guān)注也有所不同,從而由不同語言構(gòu)成的網(wǎng)頁的內(nèi)容也會(huì)有所不同,這反映在跨語言文本分類上,就是主題漂移問題。 即對(duì)于同一類別不同語言的文檔,特征提取得到的特征不盡相同。舉個(gè)例子,高爾夫球手 Tiger Woods在美國非常受歡迎,經(jīng)常出現(xiàn)在英文“體育”類別的網(wǎng)頁上,而在中文“體育” 類別的網(wǎng)頁上出現(xiàn)更多的明星是劉翔、姚明,這樣,在特征提取時(shí),可能會(huì)在表征英文體育類的特征中出現(xiàn)Tiger Woods,而在表征中文體育類的特征中出現(xiàn)的是劉翔、姚明。主題漂移問題給跨語言文本分類帶來了一定的困難,普通分類方法一般均忽視了此問題。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的問題,在跨語言文本分類中考慮主題漂移問題, 從而使跨語言文本分類的結(jié)果更加準(zhǔn)確與合理。本發(fā)明的思想是提出了一種基于類相關(guān)性的主題漂移的解決方法。類相關(guān)性是用來度量兩個(gè)類的相關(guān)性的,其值越大,說明這兩個(gè)類越相關(guān)。利用這種類相關(guān)性,對(duì)單語言分類器得到的結(jié)果進(jìn)行校正,提高分類效果。本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的一種針對(duì)主體漂移問題的跨語言文本分類方法,該方法的目的是將待分類C語言文檔歸類到目標(biāo)語言E的類中,包括以下步驟步驟一、訓(xùn)練C語言文本分類器;步驟二、訓(xùn)練E語言文本分類器;步驟三、計(jì)算C語言類和E語言類的相關(guān)性矩陣,相關(guān)性矩陣表示為A = (Bij)mxn, 其元素%表示C語言類CCi和E語言類CE^之間的相關(guān)性,m和η分別為C語言類和E語言類的數(shù)目;步驟四、使用機(jī)器翻譯將待分類C語言文檔翻譯成E語言,計(jì)算翻譯后的文檔屬于 E語言某類的概率;步驟五、使用類相關(guān)性矩陣對(duì)步驟四的結(jié)果進(jìn)行校正;步驟六、將待分類文檔歸入概率最高的E語言類。有益效果
3
本發(fā)明提供的方法使用類相關(guān)性對(duì)分類結(jié)果進(jìn)行校正,符合直觀理解,有較強(qiáng)的可解釋性,解決了跨語言文本分類的主題漂移問題。
圖1是本發(fā)明的基本原理示意圖。
具體實(shí)施例方式下面結(jié)合附圖,詳細(xì)描述本發(fā)明的優(yōu)選實(shí)施方式,以確保對(duì)本發(fā)明實(shí)例的透徹理解。我們假定C語言類有CC1, CC2, . . .,CCm ;E語言類有CE1, CE2, ... , (En。根據(jù)需要, 我們要將C語言文檔分到E語言類中,也可能將E語言文檔分到C語言類中。鑒于這兩種情況所用的方法相同,我們只討論如何將C語言文檔分類到E語言類。如圖1所示,類CCi和類CE^之間的關(guān)聯(lián)性通過來量化表示,待歸類文檔D以概率P(CCiID)被歸類到類CCi,它的翻譯文檔D'以概率p(CE」D')被歸類到類CEp我們的任務(wù)就是把文檔D屬于類CEj的概率表示為P(CCiID), p(CEj|D')和^iij的函數(shù)。具體分類步驟為步驟一、訓(xùn)練C語言分類器。這一步驟又可細(xì)分為語料搜集、文本表示、對(duì)訓(xùn)練集進(jìn)行訓(xùn)練得到分類器等過程,常用的分類算法有樸素貝葉斯算法(NaiveBayes),最近鄰算法(kNN),支持向量機(jī)(Support Vector Machine)等。在本發(fā)明中,C語言分類器的訓(xùn)練并不限于某一種特定的分類算法,上述算法都是適用的。步驟二、訓(xùn)練E語言分類器。與上一步驟類似,這一步也可細(xì)分為語料搜集、文本表示、對(duì)訓(xùn)練集進(jìn)行訓(xùn)練得到分類器等過程,E語言分類器的訓(xùn)練也并不限于某一種特定的分類算法。步驟三、計(jì)算C語言類和E語言類的相關(guān)性矩陣;相關(guān)性矩陣表示為A = (Bij)mxn, 其元素表示中文類CCi和英文類CE^之間的相關(guān)性;相關(guān)性矩陣可以通過多種方法獲得,例如1)人工標(biāo)記的二值矩陣對(duì)于C語言中的每個(gè)類,人工標(biāo)注其與E語言各個(gè)類之間的關(guān)聯(lián)性。一種最簡單的標(biāo)注方式是將該矩陣標(biāo)注成二值矩陣,即相關(guān)取1,不相關(guān)取0。本方法簡單易行,但是在人工標(biāo)注類與類之間的相關(guān)性時(shí)受主觀因素的影響較大。2)最大似然估計(jì)標(biāo)記C語言的背景文檔集,其中的文檔被同時(shí)標(biāo)記為C語言類和E語言類,標(biāo)記文檔集形如χ = ττ, r:. r; ''.Λ..其中Xt是從訓(xùn)練集中提取得到的特征向量;r-是m維向量,它是訓(xùn)練文檔關(guān)于C語言類的標(biāo)記,如果一篇文檔屬于c語言類CCi,則該文檔對(duì)應(yīng)的rf第i個(gè)分量為1,其余分量為0 是η維向量,它是訓(xùn)練文檔關(guān)于E語言類的標(biāo)記,如果一篇文檔屬于E語言類CEj, 則該文檔對(duì)應(yīng)的rl第j個(gè)分量為1,其余分量為0。CN 102411636 A
說明書
3/3頁設(shè)標(biāo)記文檔集χ中被標(biāo)記為C語言類CCi的文檔的數(shù)目為M,而在這M篇文檔中, 被標(biāo)記為E語言類CEj的數(shù)目為M',則U: . .. 二。本方法的優(yōu)點(diǎn)是對(duì)于相關(guān)性矩陣的計(jì)算是比較準(zhǔn)確的,其缺點(diǎn)是工作量較大,需要對(duì)大規(guī)模的背景文檔集進(jìn)行人工標(biāo)注。3)基于聚類的標(biāo)注給定C語言的背景語料,使用聚類算法(如k-means等)對(duì)其進(jìn)行聚類,聚類的粒度大小要保證結(jié)果類的純度;人工標(biāo)注聚類結(jié)果中的每個(gè)小類到E語言類的相關(guān)性;該相關(guān)性是二值的,即相關(guān)取1,不相關(guān)取0,從而得到相關(guān)性矩陣A。本實(shí)施例的優(yōu)點(diǎn)是能夠比較準(zhǔn)確地計(jì)算相關(guān)性矩陣,其不足在于進(jìn)行人工標(biāo)注的工作量較大。步驟四、計(jì)算C語言文檔屬于E語言類的概率。給定一篇C語言文檔D,可以根據(jù) C語言分類器求出后驗(yàn)概率向量α = ( (0^|0),?(02|0),...,?(0;|0)),其中?(0;|0) 表示文檔D屬于類CCi的概率。然后,通過機(jī)器翻譯將文檔D翻譯為E語言文檔D',同樣地,對(duì)于任意類CEj,我們可以求出后驗(yàn)概率向量p(CEj|D'),也就是文檔D'屬于類CEj的概率。步驟五、使用類相關(guān)性矩陣對(duì)步驟四的結(jié)果進(jìn)行校正,將文檔D屬于類CEj的概率表示為 ρ (CCiID)、ρ (CEj ID')和的函數(shù)。修正的方法也可以有多種,用戶可以根據(jù)實(shí)際應(yīng)用定義各部分的權(quán)值,例如;1)將文檔D屬于類CEj的概率定義為=P(CEjID) = Ap(CEj)D ‘ ) + (1_入) maXip (CCi I Dhij,其中0<參數(shù)λ < 1,參數(shù)λ起著調(diào)節(jié)校正力度的作用。定義中 P(CEj)D')表示單語言分類器的分類效果,maXip (CCiID)au是根據(jù)類相關(guān)性對(duì)單語言分類器的校正。2)將文檔 D 屬于類 CEj 的概率定義為:p (CEj | D) = max {ρ (CEj D ‘ ),maxiP (CCi | D) BijI。此方法訓(xùn)練分類器時(shí)不需考慮校正因子λ,但分類效果可能不如實(shí)施例1理想。步驟六、歸類。把文檔D歸類到后驗(yàn)概率p(CE」D)最大的那一類,這樣,我們就完成了對(duì)文檔的跨語言分類。應(yīng)該理解的是,本實(shí)施方式只是本發(fā)明實(shí)施的具體實(shí)例,不應(yīng)該是本發(fā)明保護(hù)范圍的限制。在不脫離本發(fā)明的精神與范圍的情況下,對(duì)上述內(nèi)容進(jìn)行等效的修改或變更均應(yīng)包含在本發(fā)明所要求保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種針對(duì)主體漂移問題的跨語言文本分類方法,該方法的目的是將待分類C語言文檔歸類到目標(biāo)語言E的類中,包括以下步驟步驟一、訓(xùn)練C語言文本分類器;步驟二、訓(xùn)練E語言文本分類器;步驟三、計(jì)算C語言類和E語言類的相關(guān)性矩陣,相關(guān)性矩陣表示為A = (Bij)mxn^7U 素表示C語言類CCi和E語言類CE^之間的相關(guān)性,m和η分別為C語言類和E語言類的數(shù)目;步驟四、使用機(jī)器翻譯將待分類C語言文檔翻譯成E語言,計(jì)算翻譯后的文檔屬于E語言某類的概率;步驟五、使用類相關(guān)性矩陣對(duì)步驟四的結(jié)果進(jìn)行校正;步驟六、將待分類文檔歸入概率最高的E語言類。
2.根據(jù)權(quán)利要求1所述的一種跨語言文本分類方法,其特征在于,步驟三中相關(guān)性矩陣的計(jì)算方法為;對(duì)于C語言中的每個(gè)類,人工標(biāo)注其與E語言各個(gè)類之間的關(guān)聯(lián)性,將該矩陣標(biāo)注成二值矩陣,即相關(guān)取1,不相關(guān)取0。。
3.根據(jù)權(quán)利要求1所述的一種跨語言文本分類方法,其特征在于,在步驟三中使用最大似然估計(jì)法獲得相關(guān)性矩陣,具體方法為標(biāo)記C語言的背景文檔集,其中的文檔被同時(shí)標(biāo)記為C語言類和E語言類,標(biāo)記文檔集形如,τ ·\-.f _ ν -- 1 - -’—> Λ / ; f ■ · ■其中Xt是從訓(xùn)練集中提取得到的特征向量;κ是m維向量,它是訓(xùn)練文檔關(guān)于C語言類的標(biāo)記,如果一篇文檔屬于C語言類CCi,則該文檔對(duì)應(yīng)的第i個(gè)分量為1,其余分量為 0 ;ri.是η維向量,它是訓(xùn)練文檔關(guān)于E語言類的標(biāo)記,如果一篇文檔屬于E語言類CEp則該文檔對(duì)應(yīng)的〔第j個(gè)分量為1,其余分量為0 ;設(shè)標(biāo)記文檔集X中被標(biāo)記為C語言類CCi的文檔的數(shù)目為M,而在這M篇文檔中,被標(biāo)記為E語言類CEj的數(shù)目為M',則 二 .=$。
4.根據(jù)權(quán)利要求1所述的一種跨語言文本分類方法,其特征在于,在步驟三中使用基于聚類的標(biāo)注方法獲得相關(guān)性矩陣,具體方法為給定C語言的背景語料,使用聚類算法(如k-means等)對(duì)其進(jìn)行聚類,聚類的粒度大小要保證結(jié)果類的純度;人工標(biāo)注聚類結(jié)果中的每個(gè)小類到E語言類的相關(guān)性;該相關(guān)性是二值的,即相關(guān)取1,不相關(guān)取0,從而得到相關(guān)性矩陣A。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的一種跨語言文本分類方法,其特征在于,步驟五中所述的校正方法為將文檔D屬于類CEj的概率定義為P (CEj |D) = Ap(CEj|D' ) + (1_λ) maXip (CCi |D)aij,其中0<參數(shù)λ < 1,參數(shù)λ起著調(diào)節(jié)校正力度的作用。
6.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的一種跨語言文本分類方法,其特征在于,步驟五中所述的校正方法為將文檔D屬于類CEj的概率定義為P(CEjID) =max{p(CEJ|D'), HiaxiP (CCi ID) Hij] ο
全文摘要
本發(fā)明涉及一種針對(duì)主體漂移問題的跨語言文本分類方法,該方法的目的是將待分類C語言文檔歸類到目標(biāo)語言E的類中,包括以下步驟訓(xùn)練C語言文本分類器;訓(xùn)練E語言文本分類器;計(jì)算C語言類和E語言類的相關(guān)性矩陣;使用機(jī)器翻譯將待分類C語言文檔翻譯成E語言,計(jì)算翻譯后的文檔屬于E語言某類的概率;使用類相關(guān)性矩陣對(duì)步驟四的結(jié)果進(jìn)行校正;將待分類文檔歸入概率最高的E語言類。本發(fā)明使用類相關(guān)性對(duì)分類結(jié)果進(jìn)行校正,符合直觀理解,有較強(qiáng)的可解釋性,解決了跨語言文本分類的主題漂移問題。
文檔編號(hào)G06F17/30GK102411636SQ20111045323
公開日2012年4月11日 申請(qǐng)日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者孫守成, 戴林 申請(qǐng)人:北京理工大學(xué)