一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法

文檔序號(hào)：6511061閱讀：234來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法
【專利摘要】本發(fā)明公開(kāi)了一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法。包括如下步驟：1）去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表；2）初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣；3）根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量、主題單詞矩陣、主題單詞鑒別度矩陣和回歸系數(shù)矩陣；4）對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量、主題單詞矩陣、主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類。本發(fā)明能夠最大程度地減輕文本分類時(shí)繁雜的預(yù)處理過(guò)程，可以更加準(zhǔn)確地對(duì)測(cè)試文本進(jìn)行分類。本發(fā)明還能挖掘出主題中單詞的鑒別度，以形象化展示文本中單詞的重要性。
【專利說(shuō)明】一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及概率單詞選擇、監(jiān)督主題模型，尤其涉及一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的出現(xiàn)使得人們獲取信息越來(lái)越方便。然而，互聯(lián)網(wǎng)的快速發(fā)展所產(chǎn)生的海量數(shù)據(jù)同樣為人們對(duì)數(shù)據(jù)分析、利用帶來(lái)了巨大的困難。因此，自動(dòng)地組織，管理和挖掘數(shù)據(jù)變得越來(lái)越重要。因?yàn)橹黝}模型的潛在結(jié)構(gòu)的可解釋性，如PLSA(ProbabilisticLatent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等，它們廣泛地用于挖掘文本的低維表達(dá)。主題模型假設(shè)文本中所有的單詞都是從一個(gè)叫做“主題”的多項(xiàng)分布中產(chǎn)生而來(lái)，而文本則是由這些主題混合而成。
[0003]傳統(tǒng)的LDA是基于BOW (Bag Of Words)的無(wú)監(jiān)督模型，不能很好地利用文本常常伴有的監(jiān)督信息，如伴隨新聞文本的類別信息、伴隨電影文本的評(píng)分信息等。為了克服LDA在處理伴隨有監(jiān)督信息的文本時(shí)的不足，人們提出了 LDA的擴(kuò)展模型。例如，Blei等人將文本的監(jiān)督信息看作文本單詞的主題結(jié)構(gòu)上的響應(yīng)，并且以回歸的方式將文本的監(jiān)督信息和文本單詞聯(lián)系了起來(lái)。他們稱之為監(jiān)督LDA。監(jiān)督LDA構(gòu)造了一個(gè)分析伴隨有監(jiān)督信息的文本的框架模型，在分析伴隨有評(píng)分信息的電影文本上取得了成功。之后，Wang等人將監(jiān)督LDA擴(kuò)展到了文本的分類上來(lái)。
[0004]和傳統(tǒng)的LDA—樣，監(jiān)督LDA同樣需要對(duì)文本進(jìn)行大量的繁瑣的預(yù)處理。不進(jìn)行預(yù)處理或者不當(dāng)?shù)念A(yù)處理，都會(huì)使得模型面對(duì)的文本數(shù)據(jù)包含冗余的數(shù)據(jù)，從而影響主題模型的性能。另一方面，忽視主題中單詞相對(duì)于鑒別信息所體現(xiàn)出來(lái)的不一樣的重要性(或可做成鑒別度)同樣會(huì)對(duì)主題模型的性能造成影響。最后，直接基于單詞而非主題結(jié)構(gòu)的監(jiān)督模型則不能利用廣泛存在的單詞多義性。
[0005]針對(duì)這些方法的不足，我們提出了一個(gè)基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，并將其運(yùn)用在了從http://web.1st.utl.Pt/?acardoso/datasets/下載的新聞文本20neWSgroUpS上。該方法首先為主題中的單詞構(gòu)造了各自不同的鑒別度，這個(gè)鑒別度依賴與單詞本身和其對(duì)應(yīng)的主題；其次，當(dāng)每篇文本的單詞產(chǎn)生之后，該方法通過(guò)以文本單詞鑒別度為參數(shù)的伯努利分布來(lái)對(duì)單詞進(jìn)行篩選，篩選后的單詞將會(huì)以兩種不同的權(quán)重中的一種參與到文本監(jiān)督信息的生成；最后，通過(guò)在文本中單詞新的權(quán)重上的回歸產(chǎn)生了文本的類別。通過(guò)在訓(xùn)練文本上的學(xué)習(xí)過(guò)程，該方法能很好地學(xué)習(xí)到單詞的鑒別度并用于分類測(cè)試文本。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是克服現(xiàn)有推薦技術(shù)的不足，提供一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法。
[0007]基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，包括如下步驟:[0008]I)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表;
[0009]2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣；
[0010]3)根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣；
[0011]4)對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類。
[0012]所述的去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表的步驟包括:
[0013]2.1)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，順序掃描訓(xùn)練文本中的所有單詞，每個(gè)不同的單詞保留一個(gè)，最終形成一個(gè)大小為V的詞匯表，順序掃描每個(gè)訓(xùn)練文本的類別，每個(gè)不同的類別保留一個(gè)，最終形成一個(gè)大小為C的文本類別表；
[0014]2.2)統(tǒng)計(jì)訓(xùn)練文本的詞頻信息，加上訓(xùn)練文本所屬的類別信息，得到訓(xùn)練文本TRAIN = {((wd, fd, yd)), d = I,…，DtJ ,其中 Dtr 表示訓(xùn)練文本的數(shù)目，wd = {(Wdm), m =1，-,Md,wdm e {I,…，V}}表示訓(xùn)練文本d的所有不同的單詞，Md表示訓(xùn)練文本d中不同的單詞的個(gè)數(shù)；fd= {(fdn.)? m = I,…，Md, Ifdm e Z+I表示訓(xùn)練文本d中每個(gè)不同的單詞出現(xiàn)的頻數(shù)，Z+表示正整數(shù)；yde {I,…，C}表示訓(xùn)練文本d所屬的類別。
[0015]所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的步驟包括:
[ [0020]所述的根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的方法是:當(dāng)算法沒(méi)有滿足終止條件時(shí)，反復(fù)迭代執(zhí)行以下步驟:
[ [0027]4.2)對(duì)于所有訓(xùn)練文本(wd，fd，yd)，d=l,…，Dfe，進(jìn)行變分推理，并更新有關(guān)統(tǒng)計(jì)變量 Ntv, Stv, Ed 和 Qd；.[0054](5.9)更新A的每個(gè)元素:
[0056](5.10)更新訓(xùn)練文本d的統(tǒng)計(jì)期望edm:
[0058](5.11)更新訓(xùn)練文本d的統(tǒng)計(jì)方差qdm [0060]所述的步驟4.3)具體是:
[0061]6.1)由式子 V得到 β 的每個(gè)
元素；
[0062]6.2)由式子 V 得到 Ψ 的每個(gè)元素；
[0063]6.3)用 Newton-Raphson 算法最大化下式:
[0064] [0065]從而求出α，其中，表示digamma函數(shù)；
[0066]6.4)求取η來(lái)最大化目標(biāo)函數(shù)F( η):
[0067] [0069]其中，最大化F (η)采用共軛梯度下降或者梯度下降的方法。
[0070]所述的根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小于給定參數(shù)學(xué)習(xí)似然變化閾值或者已經(jīng)達(dá)到了參數(shù)學(xué)習(xí)最大迭代次數(shù)；
[0071]所述的對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類的步驟是:
[0072]8.1)對(duì)于測(cè)試文本，去除標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息，得到測(cè)試文本 [0073]8.2)對(duì)于每篇測(cè)試文本(wt，ft)，t=l,…，Dte，進(jìn)行變分推理，并進(jìn)行類別預(yù)測(cè)；
[0074]所述的步驟8.2)具體是:對(duì)于所有測(cè)試文本的(wt,ft),t=l,…，Dte,執(zhí)行下述步驟:
[0075](9.1)初始化主題比例變分參數(shù) [0076](9.2)初始化主題分配變分參數(shù)[0077](9.3)初始化單詞鑒別值變分參數(shù)μ = {(μ m)，m=l，…，Mj ；
[0078](9.4)初始化已完成迭代次數(shù)Uer=O ；
[0079](9.5)對(duì)訓(xùn)練文本t中所有不同的單詞及其詞頻(Wtm，ftm)，m=l,…，Mt，執(zhí)行下述步驟:
[0080](e)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)單μ m:
[0081] [0082](f)刪除舊的ΦΛ對(duì)Y的影響:
[0083] [0084](g)更新
[0085] [0087]其中，Ψ表示digamma函數(shù)；
[0088](h)更新 Y:
[0089]和現(xiàn)有技術(shù)相比，本發(fā)明能夠最大程度地減輕文本分類時(shí)繁雜的預(yù)處理過(guò)程，可以更加準(zhǔn)確地對(duì)測(cè)試文本進(jìn)行分類。除此之外，本發(fā)明還能挖掘出主題中單詞的鑒別度，以形象化展示文本中單詞的重要性。
【專利附圖】

【附圖說(shuō)明】
[0090]圖1是基于概率單詞選擇和監(jiān)督主題模型的文本分類方法流程圖；
[0091]圖2是從20newsgroups學(xué)習(xí)到的4個(gè)主題中單詞的鑒別度與單詞實(shí)際分布的熵比較圖。
【具體實(shí)施方式】
[0092]基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，包括如下步驟:
[0093]I)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表;
[0094]2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣；
[0095]3)根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣；
[0096]4)對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類。
[0097]所述的去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表的步驟包括:
[0098]2.1)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，順序掃描訓(xùn)練文本中的所有單詞，每個(gè)不同的單詞保留一個(gè)，最終形成一個(gè)大小為V的詞匯表，順序掃描每個(gè)訓(xùn)練文本的類別，每個(gè)不同的類別保留一個(gè)，最終形成一個(gè)大小為C的文本類別表；[0099]2.2)統(tǒng)計(jì)訓(xùn)練文本的詞頻信息，加上訓(xùn)練文本所屬的類別信息，得到訓(xùn)練文本TRAIN= {((wd, fd, yd))，d=l,…，DtJ ,其中 Dtr 表示訓(xùn)練文本的數(shù)目，Wd= {(Wdm)，m=l,...,Md,WdfflG {I,…，V}}表示訓(xùn)練文本d的所有不同的單詞，Md表示訓(xùn)練文本d中不同的單詞的個(gè)數(shù)；fd= KfdJ，m=l，…，Md, fdm e Z+}表示訓(xùn)練文本d中每個(gè)不同的單詞出現(xiàn)的頻數(shù)，Z+表示正整數(shù)；yde {I,…，C}表示訓(xùn)練文本d所屬的類別。
[0100]所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的步驟包括:
[0101]3.1)初始化主題比例矢量a={(ak)，k=l，…，K}，其中K表示主題的個(gè)數(shù)；
[0102]3.2)初始化主題單詞矩陣 β ={ ( β kv), k=l,..., K, v=l,..., V}；
[0103]3.3)初始化主題單詞鑒別度矩陣￥ = {(￥kv), k=l,..., K, v=l,..., V}；
[0104]3.4)初始化回歸系數(shù)矩陣 Il = Kncv), c=l，…，C，v=l，…，V}。
[0105]所述的根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的方法是:當(dāng)算法沒(méi)有滿足終止條件時(shí)，反復(fù)迭代執(zhí)行以下步驟:
[0106]4.1)置下述統(tǒng)計(jì)量的所有元素的值為O:
[0107](4.1.1)主題中單詞的個(gè)數(shù)矩陣 N={ (nkv), k=l,..., K, v=l,..., V}；
[0108](4.1.2)主題中顯著性單詞的數(shù)量矩陣S=Kskv)，k=l，-,K, v=l,…，V};
[0109](4.1.3)主題比例累積量 A={(ak)，k=l，…，K}; [0110](4.1.4)訓(xùn)練文本的統(tǒng)計(jì)期望 E={(edm), d=l, Dtrain, m=l,…，Md};
[0111](4.1.5)訓(xùn)練文本的統(tǒng)計(jì)方差 Q=Kqdm), d=l,..., Dtr, m=l,...，Md};
[0112]4.2)對(duì)于所有訓(xùn)練文本(wd，fd，yd)，d=l，…，Dti，進(jìn)行變分推理，并更新有關(guān)統(tǒng)計(jì)變量 Ntv, Stv, Ed 和 Qd；
[0113]4.3)用N，S來(lái)學(xué)習(xí)β和Ψ ;用六來(lái)學(xué)習(xí)α ;用E和Q來(lái)學(xué)習(xí)η。
[0114]所述的步驟4.2)具體是:對(duì)于所有訓(xùn)練文本的(wd, fd, yd), d=l,..., Dta,執(zhí)行下述步驟:
[0115](5.1)初始化主題比例變分參數(shù)Y = {( Y k), k = I,...,K};
[0116](5.2)初始化主題分配變分參數(shù) Φ = {(<i)mk), m = I,...,Md, k= I,...,K};
[0117](5.3)初始化單詞鑒別值變分參數(shù)μ = {( μ m), m = I,..., Md}；
[0118](5.4)初始化已完成迭代次數(shù)iter = O ；
[0119](5.5)對(duì)訓(xùn)練文本d中所有不同的單詞及其詞頻(wdm，fdm)，m = 1，…，Md，執(zhí)行下述步驟:
[0120](a)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)μ m:
]ogT^V~= Σ φνι'κ logI'-^1".....— + 辦,-(￡l —€ο)
1 ^rn1 Wkwdm
[0121]Κ_1

^ml — ^mO

+ "m0(l — "m))
[0122] 其中，e I和e ^分別表示峰鑒別值單詞的權(quán)重和谷鑒別值單詞的權(quán)重，..[0171]實(shí)施例
[0172]從 http: //web, ist.utl.Pt/ ~acardoso/datasets/ 下裁的訓(xùn)練文本20ng-train-alΙ-terms和測(cè)試文本20ng-test-all_terms,去掉出現(xiàn)不超過(guò)3個(gè)單詞的文本，得到Dt,=l 1285篇訓(xùn)練文本和Dt,=8571篇測(cè)試文本。實(shí)驗(yàn)中，主題個(gè)數(shù)K設(shè)置為20，其他實(shí)驗(yàn)參數(shù)選取如表1:
[0173]表1
[0174]
峰鑒別值單詞的權(quán)重E1 參數(shù)學(xué)習(xí)似然變化閾值變分推理似然變化閾值0.9 0.0001 0.001谷鑒別值單詞的權(quán)重eQ 參數(shù)學(xué)習(xí)最大迭代次數(shù)變分推理最大迭代次f_O1I_50_20_
[0175]對(duì)于訓(xùn)練文本，執(zhí)行下列步驟:
[0176]I)去除標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成大小為73712的單詞表和大小為20的類別表；
[0177]2)初始化主題比例矢量α，主題單詞矩陣β，主題單詞鑒別度矩陣Ψ和回歸系數(shù)矩陣Π:
[0178](2.1)對(duì)于 α，ψ 和 η，a k=0.1, Vkv=0.5, ncv=0,k=l,…，K,c=l,…，C,v=l,...,V；
[0179](2.2)對(duì)于 β，先令= ^ + 0.1 X randQ, k=l,…，K，v=l，...，ν，其中 rand函數(shù)隨機(jī)產(chǎn)生O~I之間的數(shù)；然后對(duì)β進(jìn)行歸一化處理:
_] ^kv = ,.^ k = I,..K V = I,…，V,

^vi = I Pkvf
[0181]其中示歸一化前的元素值；
[0182]3)根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新α，β，V和Il:當(dāng)算法沒(méi)有滿足終止條件時(shí)，反復(fù)迭代執(zhí)行以下步驟:
[0183](3.1)置下述統(tǒng)計(jì)量的所有元素的值為O:
[0184](a)主題中單詞的個(gè)數(shù)矩陣 N={ (nkv), k=l,..., K, v=l,..., V}；
[0185](b)主題中顯著性單詞的數(shù)量矩陣S={ (skv), k=l,..., K, v=l,..., V}；
[0186](c)主題比例累積量 A={ (ak), k=l,...,K};
[0187](d)訓(xùn)練文本的統(tǒng)計(jì)期望 E=Kedm), d=l,…，Dtrain, m=l,...，Md};
[0188](e)訓(xùn)練文本的統(tǒng)計(jì)方差 Q=KqJ，d=l，…，Dtr，m=l，...，Md};
[0189](3.2)對(duì)于每篇訓(xùn)練文本(wd, fd，yd)，d=l，…，Dta，進(jìn)行變分推理，并更新有關(guān)統(tǒng)計(jì)變量Ntv, Stv, Ed和Qd,具體是執(zhí)行下述步驟:
[0190](a)初始化主題分配變分參數(shù)Φ:

I
[0191]cPmk = ψ>πι = t …,Md,k = I,…，if;
[0192](b)初始化單詞鑒別值變分參數(shù)μ:
[0193]μ m=0.5, m=l,..., Md ；[0194](c)初始化主題比例變分參數(shù)Y: [0196](d)初始化已完成迭代次數(shù)iter=0 ；
[0197](e)對(duì)訓(xùn)練文本d中所有不同的單詞及其詞頻(wdm，fdm)，m=l,…，Md，執(zhí)行下述步驟:
[0198](el)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)單詞Wdm對(duì)應(yīng)的鑒別值變分參數(shù)μπ:
hm0 = Ic=i 9mc exp(e0^CVVdm/dm),M gmc 由以下方式計(jì)算:
[0202] [0203](e2)刪除舊的ΦΛ對(duì)Y的影響:
[0204]Yk=YkUdni, k=l，…，K
[0205](e3)更新(J)mk, k=l,...,K:
[0206]
[0207]其中，Ψ表示digamma函數(shù)；
[0208](e4)更新 y:
[0209]k=l,…，K
[0210](f)由訓(xùn)練文本d對(duì)應(yīng)的Y，Φ和μ計(jì)算訓(xùn)練文本d的似然概率，如果單文本似然概率的改變量大于給定變分推理似然變化閾值且已完成迭代次數(shù)iter小于變分推理最大迭代次數(shù)，則iter=iter+l，轉(zhuǎn)到步驟(e)繼續(xù)執(zhí)行；
[0211 ] (g)更新N的每個(gè)元素:
ΣΜ?
?mk fdwA (y^dmf , kλ V ~ I,..、V,

m~ I
[0213]其中，δ(a，b)表示 Kronecker delta 函數(shù)，當(dāng) a=b 時(shí)，δ (a，b) =1 ;而 a # b 時(shí)，δ (a，b)=0 ；
[0214](h)更新S的每個(gè)元素:[0234]2)對(duì)于每篇測(cè)試文本(wt，ft)，t=l,…，Dte，進(jìn)行變分推理和類別預(yù)測(cè):
[0235](a)初始化主題比例變分參數(shù)Y = {( Yk), k=l,...,K};
[0236](b)初始化主題分配變分參數(shù) Φ = {( <i)mk), m=l,..., Mt, k=l,...,K};
[0237](c)初始化單詞鑒別值變分參數(shù)μ = {(μ m), m=l,..., Mj ；
[0238](d)初始化已完成迭代次數(shù)iter=0 ；
[0239](e)對(duì)訓(xùn)練文本t中所有不同的單詞及其詞頻(wtm, ftm), m=l,..., Mt,執(zhí)行下述步驟:
[0240](el)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)μ m:
[0241 ][0242](e2)刪除舊的ΦΛ對(duì)Y的影響:
[0246]其中，Ψ表示digamma函數(shù)；
[0247](e4)更新 Y:
[0248]k=l,…，K
[0249](f)由測(cè)試文本t對(duì)應(yīng)的Y，Φ和μ計(jì)算測(cè)試文本t的似然概率，如果單文本似然概率的改變量大于給定變分推理似然變化閾值且已完成迭代次數(shù)iter小于變分推理最大迭代次數(shù)，則iter=iter+l,轉(zhuǎn)到步驟(e)繼續(xù)執(zhí)行；
[0250](g)得到測(cè)試文本t的統(tǒng)計(jì)期望etm:
[0251] [0253]在得到測(cè)試文本的預(yù)測(cè)類別之后，我們將預(yù)測(cè)結(jié)果與測(cè)試文本的真實(shí)類別用Accuracy, MacroAUC, MicroAUC, MacroFl, MicroFl等5個(gè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行比對(duì)，結(jié)果如表2所示。結(jié)果表明了本發(fā)明良好的預(yù)測(cè)能力，在總共20個(gè)類的數(shù)據(jù)上，達(dá)到了 80%的預(yù)測(cè)精確度。
[0254]表2 [0256]另外，我們也學(xué)習(xí)到了主題中單詞的鑒別度。表3展示了學(xué)習(xí)到的4個(gè)主題中的前10個(gè)高鑒別度的單詞。這里，高鑒別度是指鑒別度高于0.9。不難發(fā)現(xiàn)，雖然我們對(duì)文本數(shù)據(jù)只做過(guò)極其簡(jiǎn)單地預(yù)處理，本發(fā)明依然能很好的發(fā)現(xiàn)體現(xiàn)主題的高鑒別度的單詞。例如，就“atheism”(無(wú)神論)而言，本發(fā)明挖掘除了能強(qiáng)烈關(guān)聯(lián)這一意味的“jesus”(耶穌)“church”(教堂)“Christianity”(基督教)，“hell”(地獄)等等。
[0257]表3
[0258]
I前?ο個(gè)高鑒別度的單詞
【權(quán)利要求】
1.一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于包括如下步驟: 1)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表； 2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣； 3)根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣； 4)對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類。
2.根據(jù)權(quán)利要求1所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息及類別信息，并形成單詞表和類別表的步驟包括: 2.1)去除訓(xùn)練文本中的標(biāo)點(diǎn)符號(hào)，順序掃描訓(xùn)練文本中的所有單詞，每個(gè)不同的單詞保留一個(gè)，最終形成一個(gè)大小為V的詞匯表，順序掃描每個(gè)訓(xùn)練文本的類別，每個(gè)不同的類別保留一個(gè)，最終形成一個(gè)大小為C的文本類別表； 2.2)統(tǒng)計(jì)訓(xùn)練文本的詞頻信息，加上訓(xùn)練文本所屬的類別信息，得到訓(xùn)練文本TRAIN= {((wd, fd, yd))，d=l,…，DtJ ,其中 Dtr 表示訓(xùn)練文本的數(shù)目，Wd= {(Wdm)，m=l,...,Md,WdfflG {I,…，V}}表示訓(xùn)練文本d的所有不同的單詞，Md表示訓(xùn)練文本d中不同的單詞的個(gè)數(shù)；fd = KfdmLm=I,…，Md, Ifdm e Z+I表示訓(xùn)練文本d中每個(gè)不同的單詞出現(xiàn)的頻數(shù),Z+表示正整數(shù)；yde {I,…，C}表示訓(xùn)練文本d所屬的類別。
3.根據(jù)權(quán)利要求1所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的步驟包括: 3.1)初始化主題比例矢量a={(ak)，k=l，…，K}，其中K表示主題的個(gè)數(shù)；
3.2)初始化主題單詞矩陣 β ={(β kv), k=l,..., K, v=l,..., V}； 3.3)初始化主題單詞鑒別度矩陣￥= {(￥kv), k=l,..., K, v=l,...,V}； 3.4)初始化回歸系數(shù)矩陣IT= Kncv)，c=l，…，C，v=l，…，V}。
4. 根據(jù)權(quán)利要求1所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣的方法是:當(dāng)算法沒(méi)有滿足終止條件時(shí)，反復(fù)迭代執(zhí)行以下步驟: 4.1)置下述統(tǒng)計(jì)量的所有元素的值為O:
(4.1.1)主題中單詞的個(gè)數(shù)矩陣 N={ (nkv), k=l,..., K, v=l,..., V}; (4.1.2)主題中顯著性單詞的數(shù)量矩陣S=Kskv)，k=l，-,K, v=l,…，V}; (4.1.3)主題比例累積量A=Kak)，k=l，…，K}； (4.1.4)訓(xùn)練文本的統(tǒng)計(jì)期望 E=Kedm), d=l,…，Dtrain, m=l,…，MdI ； (4.1.5)訓(xùn)練文本的統(tǒng)計(jì)方差Q=Kqdm)，d=l，…，Dtr, m=l，…，MdI ； 4.2)對(duì)于所有訓(xùn)練文本(wd，fd，yd)，d=l，…，Dy進(jìn)行變分推理，并更新有關(guān)統(tǒng)計(jì)變量Ntv, Stv, Ed 和 Qd； 4.3)用N，S來(lái)學(xué)習(xí)β和Ψ ;用A來(lái)學(xué)習(xí)α ;用E和Q來(lái)學(xué)習(xí)η。
5.根據(jù)權(quán)利要求4所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的步驟4.2)具體是:對(duì)于所有訓(xùn)練文本的(wd，fd，yd)，d=l,…，Dta，執(zhí)行下述步驟: (5.1)初始化主題比例變分參數(shù)Y = {Uk)，k=l，…，K}；
(5.2)初始化主題分配變分參數(shù) <i) = {(<i)mk), m=l,..., Md, k=l,...,K}; (5.3)初始化單詞鑒別值變分參數(shù)y={(ym),m=l,..., Md}； (5.4)初始化已完成迭代次數(shù)iter=0 ； (5.5)對(duì)訓(xùn)練文本d中所有不同的單詞及其詞頻(Wdn^fdffl)，m=l，…，Md，執(zhí)行下述步驟: (a)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)μπ: 其中，^ ι和e。分別表示峰鑒別值單詞的權(quán)重和谷鑒別值單詞的權(quán)重，"77tl ~ ^jc=I &?nc:9 "mG — Lc=I exp(fo"t7Vi/rfm/cim)，而 Snc由以下方式計(jì)算: (b)刪除舊的ΦΛ對(duì)Y的影響:
Yk=YiTcKkfd^k=I,...，K
(C)更新(J)mk: 其中，ψ表示diga_a函數(shù)； (d)更新Y:
Yk=Yk+cKkfdm, k=l，...，K (5.6)由訓(xùn)練文本d對(duì)應(yīng)的，φ和μ計(jì)算訓(xùn)練文本d的似然概率，如果單文本似然概率的改變量大于給定變分推理似然變化閾值且已完成迭代次數(shù)iter小于變分推理最大迭代次數(shù)，則iter = iter+1,轉(zhuǎn)到步驟(5.5)繼續(xù)執(zhí)行； (5.7)更新N的每個(gè)元素:
其中，δ (a, b)表不 Kronecker delta 函數(shù)，當(dāng) a = b 時(shí)，δ (a, b) = I ;而 a 古 b 時(shí)，δ (a, b) = O ； (5.8)更新S的每個(gè)元素:
6.根據(jù)權(quán)利要求4所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的步驟4.3)具體是: 6.1)由式子/V1 — ^kv/ Σζ>=ι ^kv' > ^ L..Kv= I,…，V 得到 β 的每個(gè)元素； 6.2)由式子 Vkv = skv/nkv, k = I,..., K, ν = I,…，V 得到 Ψ 的每個(gè)元素； 6.3)用Newton-Raphson算法最大化下式:
7.根據(jù)權(quán)利要求4所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的根據(jù)訓(xùn)練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小于給定參數(shù)學(xué)習(xí)似然變化閾值或者已經(jīng)達(dá)到了參數(shù)學(xué)習(xí)最大迭代次數(shù)。
8.根據(jù)權(quán)利要求1所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的對(duì)于測(cè)試文本，統(tǒng)計(jì)詞頻信息，然后利用主題比例矢量，主題單詞矩陣，主題單詞鑒別度矩陣和回歸系數(shù)矩陣進(jìn)行分類的步驟是: ` 8.1)對(duì)于測(cè)試文本，去除標(biāo)點(diǎn)符號(hào)，統(tǒng)計(jì)詞頻信息，得到測(cè)試文本TEST = {((wt,ft)),t=1,…，DteJ ,其中Dte表示測(cè)試文本的數(shù)目，wt = {(wtm)，m = I,…，Mt,wtm e {1，…，V}}表示測(cè)試文本t的所有不同的單詞，Mt表示訓(xùn)練文本t中不同的單詞的個(gè)數(shù)；ft = Kftm)，m = I,..., Mt, ftm e Z+}表示訓(xùn)練文本t中每個(gè)不同的單詞出現(xiàn)的頻數(shù)； `8.2)對(duì)于每篇測(cè)試文本(wt，ft)，t = 1，…，Dte，進(jìn)行變分推理，并進(jìn)行類別預(yù)測(cè)。
9.根據(jù)權(quán)利要求8所述的基于概率單詞選擇和監(jiān)督主題模型的文本分類方法，其特征在于所述的步驟8.2)具體是:對(duì)于所有測(cè)試文本的(wt，ft)，t = 1，…，Dte，執(zhí)行下述步驟: (9.1)初始化主題比例變分參數(shù)Y = {(Yk),k= I,..., K}；(9.2)初始化主題分配變分參數(shù) Φ = {(<i)mk), m = I,..., Mt, k = I,...,K}; (9.3)初始化單詞鑒別值變分參數(shù)μ = {( μ m), m = I,..., Mj ； (9.4)初始化已完成迭代次數(shù)iter = O ； (9.5)對(duì)訓(xùn)練文本t中所有不同的單詞及其詞頻(wtm，ftm)，m = 1，…，Mt，執(zhí)行下述步驟: (e)運(yùn)用固定點(diǎn)迭代的方法學(xué)習(xí)單μπ:
【文檔編號(hào)】G06F17/30GK103473309SQ201310410657
【公開(kāi)日】2013年12月25日申請(qǐng)日期:2013年9月10日優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】莊越挺, 吳飛, 高海東申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：莊越挺;吳飛;高海東
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

概率主題模型相關(guān)技術(shù)

概率圖模型相關(guān)技術(shù)

概率模型相關(guān)技術(shù)

線性概率模型相關(guān)技術(shù)

違約概率模型相關(guān)技術(shù)

概率分布模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于概率單詞選擇和監(jiān)督主題模型的文本分類方法