本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,更進(jìn)一步涉及自然語(yǔ)言處理技術(shù)領(lǐng)域中的一種基于泊松-伽瑪置信網(wǎng)絡(luò)PGBN(Poisson Gamma Belief Network)主題模型的文本分析方法。本發(fā)明可用于對(duì)各類電子類文本進(jìn)行主題提取、分類和新文本的生成。
背景技術(shù):
目前,主題模型在自然語(yǔ)言處理領(lǐng)域受到越來(lái)越多的關(guān)注,同時(shí)被廣泛應(yīng)用于實(shí)際生活中,如對(duì)各類電子類文本進(jìn)行主題提取、分類和新文本的生成等。隨著互聯(lián)網(wǎng)架構(gòu)、存儲(chǔ)科技以及其他有關(guān)技術(shù)的發(fā)展,各種各樣的網(wǎng)絡(luò)數(shù)據(jù)飛速增長(zhǎng),使得高效利用這些大規(guī)模數(shù)據(jù)進(jìn)行文本分析具有很大的挑戰(zhàn)。
和傳統(tǒng)的基于統(tǒng)計(jì)的一些文本歸納方法相比,主題模型在可觀測(cè)的文檔層和單詞層間增加了一個(gè)隱含的主題層,并認(rèn)為文檔包含一個(gè)或若干多個(gè)主題,每個(gè)主題又是不同比例單詞的組合。這一新增加的主題隱含層能表征一篇文檔所蘊(yùn)含的語(yǔ)義內(nèi)容,而且對(duì)海量數(shù)據(jù)通過(guò)主題進(jìn)行表達(dá)而達(dá)到降維效果。
中國(guó)科學(xué)技術(shù)大學(xué)在其申請(qǐng)的專利“文本分類方法”(專利申請(qǐng)?zhí)?00910142286.6,公開號(hào)CN101587493B)中公開了一種基于LDA主題模型對(duì)文本的分類方法。該方法實(shí)現(xiàn)的具體步驟是,首先,根據(jù)類別將初始訓(xùn)練文本集劃分為多個(gè)子集,并從每個(gè)子集中抽去對(duì)應(yīng)的概率主題模型,其中每個(gè)子集包含相同類別的文本;其次,利用對(duì)應(yīng)的概率主題模型生成新的文本來(lái)均衡所述多個(gè)子集的類別;然后,根據(jù)所述多個(gè)子集對(duì)應(yīng)的均衡訓(xùn)練文本集構(gòu)造分類器;最后,利用所述分類器進(jìn)行文本分類。該專利申請(qǐng)所公開的方法,雖然在傳統(tǒng)文本分類方法的基礎(chǔ)上改善了數(shù)據(jù)傾斜的問(wèn)題,提高了文本的分類正確率,但是,該方法仍然存在的不足之處是,由于該方法只能提取單層主題信息,無(wú)法對(duì)多層的主題信息進(jìn)行提取,所以在表達(dá)文本所蘊(yùn)含的語(yǔ)義內(nèi)容方面無(wú)法得到令人滿意的結(jié)果。
賈會(huì)玲、吳晟、李英娜、李萌萌、楊璽、李川在其發(fā)表的論文“基于PLSA模型的觀點(diǎn)句聚類算法研究”(Value Engineering,1006-4311(2015)31-0167-03)提出一種基于PLSA模型針對(duì)互聯(lián)網(wǎng)評(píng)論文本中觀點(diǎn)句聚類的算法。該方法實(shí)現(xiàn)的具體步驟是,首先,對(duì)觀點(diǎn)句集合做分詞和詞性標(biāo)注處理,并過(guò)濾掉與評(píng)價(jià)對(duì)象相關(guān)但不是聚類方面的高頻詞,得到相應(yīng)的詞集;其次,利用所得詞集,建立詞-觀點(diǎn)句矩陣,并利用SVD對(duì)矩陣進(jìn)行降維處理;然后,利用PLSA對(duì)降維后的矩陣進(jìn)行處理,得到觀點(diǎn)句-潛在變量概率矩陣;最后,計(jì)算觀點(diǎn)句相似度,并將相似度最大的歸為一類,輸出觀點(diǎn)句聚類結(jié)果。雖然,PLSA主題模型對(duì)其原始模型進(jìn)行了完善,文本聚類效果得到了顯著提高,但是,該方法仍然存在的不足之處是,如果訓(xùn)練數(shù)據(jù)存在噪音或者訓(xùn)練數(shù)據(jù)太少會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對(duì)上述內(nèi)容所公開的方法的不足,提出基于泊松-伽瑪置信網(wǎng)絡(luò)主題模型的文本分析方法,有效地避開了過(guò)擬合現(xiàn)象,完成文本內(nèi)容多層主題信息的提取,并實(shí)現(xiàn)較高的文本分類正確率。
實(shí)現(xiàn)本發(fā)明目的的具體思路是,本發(fā)明的泊松-伽瑪置信網(wǎng)絡(luò)屬于貝葉斯網(wǎng)絡(luò)中的一種,本發(fā)明采用逐層訓(xùn)練和聯(lián)合訓(xùn)練的方法對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用吉布斯采樣方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行學(xué)習(xí),從而獲得多層字典矩陣,完成對(duì)文本內(nèi)容的多層主題信息的提取。
為實(shí)現(xiàn)本發(fā)明目的的具體步驟包括如下:
(1)建立訓(xùn)練集和測(cè)試集:
(1a)從文本語(yǔ)料庫(kù)中隨機(jī)選取訓(xùn)練文本集和測(cè)試文本集;
(1b)采用詞袋方法,將訓(xùn)練文本集和測(cè)試文本集的格式由文本信息轉(zhuǎn)化為數(shù)字信息的訓(xùn)練集和測(cè)試集;
(2)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)及其參數(shù):
(2a)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容;
(2b)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);
(2c)在{1000,1500}兩個(gè)值中任意選取一個(gè)值作為訓(xùn)練迭代次數(shù);
(2d)將測(cè)試迭代次數(shù)設(shè)置為1500次;
(3)對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行分層:
(3a)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層作為第1個(gè)子網(wǎng)絡(luò);
(3b)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層和第2層,作為第2個(gè)子網(wǎng)絡(luò);
(3c)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層和第3層,作為第3個(gè)子網(wǎng)絡(luò);
(3d)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層和第4層,作為第4個(gè)子網(wǎng)絡(luò);
(3e)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層、第4層和第5層,作為第5個(gè)子網(wǎng)絡(luò);
(4)對(duì)第1個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化;
(4a)按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化;
φa(1)~Dir(η(1),....,η(1))
其中,φa(1)表示第1個(gè)子網(wǎng)絡(luò)第1層初始化后的字典矩陣第a列的所有元素,a的取值范圍是{1,2,....,K1max},K1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,η(1)表示第1個(gè)子網(wǎng)絡(luò)第1層狄利克雷分布的參數(shù);
(4b)按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)參數(shù)和超參數(shù)進(jìn)行初始化;
pi(1)=1-e-1
其中,pi(1)表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù);
rm~Gamma(γ0/K1max,1/c0)
其中,rm表示第1個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,K1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,γ0/K1max表示伽瑪分布的形狀參數(shù),c0=1,表示伽瑪分布尺度參數(shù)的倒數(shù);
(4c)按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化;
其中,θh(1)表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層隱層單元矩陣第h列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,pi(1)表示第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù),h與i的大小相等;
(5)判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為2,若是,則執(zhí)行步驟(6),否則,執(zhí)行步驟(7);
(6)對(duì)第2個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化:
(6a)將第1個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值,作為第2個(gè)子網(wǎng)絡(luò)全局參數(shù)的初始值;
(6b)按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化;
φb(T)~Dir(τ(T),....,τ(T))
其中,φb(T)表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的字典矩陣第b列的所有元素,b的取值范圍是{1,2,....,KT},KT表示第2個(gè)子網(wǎng)絡(luò)頂層的維度值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,τ(T)表示第2個(gè)子網(wǎng)絡(luò)第T層狄利克雷分布參數(shù)的初始值;
(6c)按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化;
pc(2)~Beta(a0,b0)
其中,pc(2)表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),~表示等價(jià)關(guān)系符號(hào),Beta表示貝塔分布,a0表示貝塔分布的參數(shù)1,a0=0.01,b0表示貝塔分布的參數(shù)2,b0=0.01;
cd(2)=(1-pc(2))/pc(2)
其中,cd(2)表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層伽瑪分布尺度參數(shù)的倒數(shù),d表示輸入數(shù)據(jù)中的第d個(gè)樣本,pc(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),d與c的大小相等;
ce(3)~Gamma(e0,1/f0)
其中,ce(3)表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層初始化后的伽瑪分布尺度參數(shù)的倒數(shù)值,e表示輸入數(shù)據(jù)中的第e個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0表示伽瑪分布的形狀參數(shù),e0=1,f0表示伽瑪分布尺度參數(shù)的倒數(shù)值,f0=1;
(6d)按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化;
rm~Gamma(γ0/KT,1/c0)
其中,rm表示第2個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,KT表示頂層的維度值,c0表示伽瑪分布尺度參數(shù)的倒數(shù)值,c0=1;
(6e)按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化;
其中,θg(2)表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第g列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層伽瑪分布的尺度參數(shù),e表示輸入數(shù)據(jù)中的第e個(gè)樣本,g與e的大小相等;
(6f)按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)第1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化;
其中,θh(1)表示第2個(gè)子網(wǎng)絡(luò)第1層初始化后的隱層單元矩陣第h列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(2)θg(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的形狀參數(shù),Φ(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層字典矩陣,θg(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層隱層單元矩陣第g列的所有元素,表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的尺度參數(shù),d表示輸入數(shù)據(jù)中的第d個(gè)樣本,h、g與d的大小相等;
(7)對(duì)當(dāng)前子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化:
(7a)將上一個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值,作為當(dāng)前子網(wǎng)絡(luò)全局參數(shù)的初始值;
(7b)對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化;
φW(T)~Dir(ι(T),....,ι(T))
其中,φW(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的字典矩陣第W列的所有元素,W的取值范圍是{1,2,....,KT},KT表示頂層的維度值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,ι(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的狄利克雷分布參數(shù);
(7c)按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化;
pr(T)=-ln(1-py(T-1))/[cu(T)-ln(1-py(T-1))]
其中,pr(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),ln表示對(duì)數(shù)符號(hào),py(T-1)表示上一個(gè)子網(wǎng)絡(luò)的頂層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù),cu(T)表示當(dāng)前子網(wǎng)絡(luò)頂層伽瑪分布尺度參數(shù)的倒數(shù)值,u表示輸入數(shù)據(jù)中的第u個(gè)樣本,r、y與u的大小相等;
cl(T+1)~Gamma(e0,1/f0)
其中,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的頂層伽瑪分布尺度參數(shù)的倒數(shù)值,l表示輸入數(shù)據(jù)中的第l個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0表示伽瑪分布的形狀參數(shù),e0=1,f0表示伽瑪分布尺度參數(shù)的倒數(shù)值,f0=1;
(7d)按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化;
rm~Gamma(γ0/KT,1/c0)
其中,rm表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,KT表示頂層的維度值,c0表示伽瑪分布尺度參數(shù)的倒數(shù)值,c0=1;
(7e)按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化;
其中,θo(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第o列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,表示第T+1層伽瑪分布的尺度參數(shù),l表示輸入數(shù)據(jù)中的第l個(gè)樣本,o與l的大小相等;
(7f)按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)除頂層以外每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化;
其中,θj(t)表示當(dāng)前子網(wǎng)絡(luò)第t層初始化后的隱層單元矩陣第j列的所有元素,t的取值范圍是{T-1,....,2,1},T表示當(dāng)前子網(wǎng)絡(luò)的層數(shù),~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(t+1)θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布的形狀參數(shù),Φ(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣,θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素,w表示輸入數(shù)據(jù)中的第w個(gè)樣本,表示第t+1層伽瑪分布的尺度參數(shù),x表示輸入數(shù)據(jù)中的第x個(gè)樣本,j、w與x的大小相等;
(8)訓(xùn)練當(dāng)前子網(wǎng)絡(luò):
(8a)按照從底層到頂層的順序,對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新;
(8b)將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層,對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新;
(8c)將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層;
(8d)對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新;
(8e)對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新;
(9)判斷當(dāng)前子網(wǎng)絡(luò)的訓(xùn)練次數(shù)是否等于訓(xùn)練迭代次數(shù),若是,則執(zhí)行步驟(10),否則,執(zhí)行步驟(8);
(10)將訓(xùn)練后的當(dāng)前子網(wǎng)絡(luò)的字典矩陣和生成向量等全局參數(shù)保存在Matlab工作空間中,并作為當(dāng)前子網(wǎng)絡(luò)的全局參數(shù);
(11)測(cè)試當(dāng)前子網(wǎng)絡(luò):
(11a)將帶有標(biāo)號(hào)的訓(xùn)練集和測(cè)試集一起作為當(dāng)前子網(wǎng)絡(luò)的輸入數(shù)據(jù);
(11b)將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新;
(11c)將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層;
(11d)對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新;
(12)判斷當(dāng)前子網(wǎng)絡(luò)的測(cè)試次數(shù)是否等于測(cè)試迭代次數(shù),若是,執(zhí)行步驟(13),否則,執(zhí)行步驟(11);
(13)對(duì)文本進(jìn)行分類;
(13a)利用帶有標(biāo)號(hào)的訓(xùn)練集和更新后的隱層單元矩陣和參數(shù),對(duì)支持向量機(jī)SVM分類器進(jìn)行訓(xùn)練;
(13b)支持向量機(jī)SVM分類器對(duì)測(cè)試集進(jìn)行分類,輸出預(yù)測(cè)的文本類別;
(13c)比較測(cè)試集的預(yù)測(cè)文本類別和標(biāo)準(zhǔn)文本類別,輸出當(dāng)前子網(wǎng)絡(luò)的文本分類正確率;
(14)判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為5,若是,則執(zhí)行步驟(15),否則,將下一個(gè)子網(wǎng)絡(luò)作為當(dāng)前子網(wǎng)絡(luò),執(zhí)行步驟(5);
(15)輸出文本分類正確率和預(yù)測(cè)文本類別:
(15a)從五個(gè)子網(wǎng)絡(luò)的文本分類正確率中選取最大的文本分類正確率;
(15b)輸出最大的文本分類正確率及其與該正確率對(duì)應(yīng)的子網(wǎng)絡(luò)的預(yù)測(cè)文本類別。
本發(fā)明與現(xiàn)有的技術(shù)相比具有以下優(yōu)點(diǎn):
第1,由于本發(fā)明屬于貝葉斯網(wǎng)絡(luò),并且將字典矩陣的先驗(yàn)分布設(shè)置為狄利克雷分布,將隱層單元矩陣的先驗(yàn)分布設(shè)置為伽瑪分布,克服了現(xiàn)有技術(shù)中由于訓(xùn)練樣本存在噪音或者訓(xùn)練樣本太少,無(wú)法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行全面學(xué)習(xí)而造成的過(guò)擬合問(wèn)題,本發(fā)明削弱了網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)對(duì)訓(xùn)練樣本的依賴性,使得參數(shù)學(xué)習(xí)不再受到訓(xùn)練樣本數(shù)量的限制。
第2,由于本發(fā)明是多層主題模型,通過(guò)對(duì)模型進(jìn)行訓(xùn)練,獲得多層字典矩陣,提取到了文本內(nèi)容的多層主題信息,克服了現(xiàn)有技術(shù)中只能對(duì)文本內(nèi)容的單層主題信息進(jìn)行提取的問(wèn)題。本發(fā)明中提取的多層主題信息對(duì)文本所蘊(yùn)含的語(yǔ)義內(nèi)容表達(dá)效果更好,使得文本分類正確率高于其他主題模型,并在以困惑度為評(píng)價(jià)指標(biāo)方面,也具有明顯優(yōu)勢(shì)。
附圖說(shuō)明
圖1是本發(fā)明的流程圖;
圖2是使用本發(fā)明對(duì)20個(gè)新聞組20newsgroups數(shù)據(jù)庫(kù)進(jìn)行文本分類的仿真圖;
圖3是使用本發(fā)明對(duì)非監(jiān)督特征學(xué)習(xí)能力測(cè)評(píng)的仿真圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的描述。
參照附圖1,對(duì)本發(fā)明的具體步驟描述如下。
步驟1,建立訓(xùn)練集和測(cè)試集。
從文本語(yǔ)料庫(kù)中隨機(jī)選取訓(xùn)練文本集和測(cè)試文本集。
采用詞袋方法,將訓(xùn)練文本集和測(cè)試文本集的格式由文本信息轉(zhuǎn)化為數(shù)字信息的訓(xùn)練集和測(cè)試集。
步驟2,設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)及其參數(shù)。
設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容。
所述的泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容設(shè)置如下:總網(wǎng)絡(luò)層數(shù)為5層,輸入層的維度值與文本語(yǔ)料庫(kù)對(duì)應(yīng)的詞表維度值相等,在{50,100,200,400,600,800}六個(gè)值中任意選取一個(gè)值作為所有子網(wǎng)絡(luò)第一層隱層維度的最大值,并且所有子網(wǎng)絡(luò)中第一層隱層維度為其他層隱層維度的上限;輸出層輸出文本分類正確率和預(yù)測(cè)文本類別。
設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。
所述設(shè)置的泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)包括:輸入數(shù)據(jù)、先驗(yàn)分布為狄利克雷分布的全局參數(shù)字典矩陣、先驗(yàn)分布為伽瑪分布的隱層單元矩陣、生成向量、層內(nèi)增廣矩陣和層間增廣矩陣以及涉及到的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)。
在{1000,1500}兩個(gè)值中任意選取一個(gè)值作為訓(xùn)練迭代次數(shù)。
將測(cè)試迭代次數(shù)設(shè)置為1500次。
步驟3,對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行分層。
將泊松-伽瑪置信網(wǎng)絡(luò)的第1層作為第1個(gè)子網(wǎng)絡(luò)。
將泊松-伽瑪置信網(wǎng)絡(luò)的第1層和第2層,作為第2個(gè)子網(wǎng)絡(luò)。
將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層和第3層,作為第3個(gè)子網(wǎng)絡(luò)。
將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層和第4層,作為第4個(gè)子網(wǎng)絡(luò)。
將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層、第4層和第5層,作為第5個(gè)子網(wǎng)絡(luò)。
步驟4,對(duì)第1個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。
按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。
φa(1)~Dir(η(1),....,η(1))
其中,φa(1)表示第1個(gè)子網(wǎng)絡(luò)第1層初始化后的字典矩陣第a列的所有元素,a的取值范圍是{1,2,....,K1max},K1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,η(1)表示第1個(gè)子網(wǎng)絡(luò)第1層狄利克雷分布的參數(shù)。
按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)參數(shù)和超參數(shù)進(jìn)行初始化。
pi(1)=1-e-1
其中,pi(1)表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù)。
rm~Gamma(γ0/K1max,1/c0)
其中,rm表示第1個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,K1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,γ0/K1max表示伽瑪分布的形狀參數(shù),c0=1,表示伽瑪分布尺度參數(shù)的倒數(shù)。
按照下式,對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。
其中,θh(1)表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層隱層單元矩陣第h列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,pi(1)表示第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù),h與i的大小相等。
步驟5,判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為2,若是,則執(zhí)行步驟6,否則,執(zhí)行步驟7。
步驟6,對(duì)第2個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。
將第1個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值,作為第2個(gè)子網(wǎng)絡(luò)全局參數(shù)的初始值。
按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。
φb(T)~Dir(τ(T),....,τ(T))
其中,φb(T)表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的字典矩陣第b列的所有元素,b的取值范圍是{1,2,....,KT},KT表示第2個(gè)子網(wǎng)絡(luò)頂層的維度值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,τ(T)表示第2個(gè)子網(wǎng)絡(luò)第T層狄利克雷分布參數(shù)的初始值。
按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化。
pc(2)~Beta(a0,b0)
其中,pc(2)表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),~表示等價(jià)關(guān)系符號(hào),Beta表示貝塔分布,a0表示貝塔分布的參數(shù)1,a0=0.01,b0表示貝塔分布的參數(shù)2,b0=0.01。
cd(2)=(1-pc(2))/pc(2)
其中,cd(2)表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層伽瑪分布尺度參數(shù)的倒數(shù),d表示輸入數(shù)據(jù)中的第d個(gè)樣本,pc(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),d與c的大小相等。
ce(3)~Gamma(e0,1/f0)
其中,ce(3)表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層初始化后的伽瑪分布尺度參數(shù)的倒數(shù)值,e表示輸入數(shù)據(jù)中的第e個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0表示伽瑪分布的形狀參數(shù),e0=1,f0表示伽瑪分布尺度參數(shù)的倒數(shù)值,f0=1。
按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化。
rm~Gamma(γ0/KT,1/c0)
其中,rm表示第2個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,KT表示頂層的維度值,c0表示伽瑪分布尺度參數(shù)的倒數(shù)值,c0=1。
按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。
其中,θg(2)表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第g列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層伽瑪分布的尺度參數(shù),e表示輸入數(shù)據(jù)中的第e個(gè)樣本,g與e的大小相等。
按照下式,對(duì)第2個(gè)子網(wǎng)絡(luò)第1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。
其中,θh(1)表示第2個(gè)子網(wǎng)絡(luò)第1層初始化后的隱層單元矩陣第h列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(2)θg(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的形狀參數(shù),Φ(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層字典矩陣,θg(2)表示第2個(gè)子網(wǎng)絡(luò)的第2層隱層單元矩陣第g列的所有元素,表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的尺度參數(shù),d表示輸入數(shù)據(jù)中的第d個(gè)樣本,h、g與d的大小相等。
步驟7,對(duì)當(dāng)前子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。
將上一個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值,作為當(dāng)前子網(wǎng)絡(luò)全局參數(shù)的初始值。
對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。
φW(T)~Dir(ι(T),....,ι(T))
其中,φW(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的字典矩陣第W列的所有元素,W的取值范圍是{1,2,....,KT},KT表示頂層的維度值,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,ι(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的狄利克雷分布參數(shù)。
按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化。
pr(T)=-ln(1-py(T-1))/[cu(T)-ln(1-py(T-1))]
其中,pr(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),ln表示對(duì)數(shù)符號(hào),py(T-1)表示上一個(gè)子網(wǎng)絡(luò)的頂層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù),cu(T)表示當(dāng)前子網(wǎng)絡(luò)頂層伽瑪分布尺度參數(shù)的倒數(shù)值,u表示輸入數(shù)據(jù)中的第u個(gè)樣本,r、y與u的大小相等。
cl(T+1)~Gamma(e0,1/f0)
其中,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的頂層伽瑪分布尺度參數(shù)的倒數(shù)值,l表示輸入數(shù)據(jù)中的第l個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0表示伽瑪分布的形狀參數(shù),e0=1,f0表示伽瑪分布尺度參數(shù)的倒數(shù)值,f0=1。
按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化。
rm~Gamma(γ0/KT,1/c0)
其中,rm表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,KT表示頂層的維度值,c0表示伽瑪分布尺度參數(shù)的倒數(shù)值,c0=1。
按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。
其中,θo(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第o列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,表示第T+1層伽瑪分布的尺度參數(shù),l表示輸入數(shù)據(jù)中的第l個(gè)樣本,o與l的大小相等。
按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)除頂層以外每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。
其中,θj(t)表示當(dāng)前子網(wǎng)絡(luò)第t層初始化后的隱層單元矩陣第j列的所有元素,t的取值范圍是{T-1,....,2,1},T表示當(dāng)前子網(wǎng)絡(luò)的層數(shù),~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(t+1)θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布的形狀參數(shù),Φ(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣,θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素,w表示輸入數(shù)據(jù)中的第w個(gè)樣本,表示第t+1層伽瑪分布的尺度參數(shù),x表示輸入數(shù)據(jù)中的第x個(gè)樣本,j、w與x的大小相等。
步驟8,訓(xùn)練當(dāng)前子網(wǎng)絡(luò)。
按照從底層到頂層的順序,對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新。
所述對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新的具體步驟如下。
第1步,將當(dāng)前子網(wǎng)絡(luò)的第一層、第二層直到頂層依次作為當(dāng)前訓(xùn)練層。
第2步,按照下式,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣,針對(duì)當(dāng)前訓(xùn)練層的維度進(jìn)行多項(xiàng)式采樣。
其中,{xvn1(t),xvn2(t),....,xvnKt(t)}表示對(duì)xvn(t)針對(duì)當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的維度進(jìn)行多項(xiàng)式采樣的結(jié)果,每一個(gè)都是維度為V*N的矩陣,V表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層輸入數(shù)據(jù)矩陣的維度值,N表示樣本個(gè)數(shù),v的取值范圍是{1,2,....,Kt-1},Kt-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值,n表示輸入數(shù)據(jù)中的第n個(gè)樣本,Kt表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的維度值,v與n固定時(shí),{xvn1(t),xvn2(t),....,xvnKt(t)}分別對(duì)應(yīng)一個(gè)元素,xvn(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的層內(nèi)增廣矩陣,φs:(t)表示{φs1(t),φs2(t),....,φsKt(t)},s的取值范圍是{1,2,....,Kt-1},{φs1(t),φs2(t),....,φsk(t),....,φsKt(t)}分別表示當(dāng)前訓(xùn)練層字典矩陣第1,2,....,k,....,Kt列的所有元素,θj(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層隱層單元矩陣第j列的所有元素,~表示等價(jià)關(guān)系符號(hào),Mult表示多項(xiàng)式分布,{θ1j(t),θ2j(t),....,θkj(t),....,θKtj(t)}分別表示當(dāng)前訓(xùn)練層隱層單元矩陣第1,2,....,k,....,Kt行的所有元素,v與s的大小相等,n與j的大小相等。
第3步,按照下式,根據(jù)層間增廣矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層間增廣矩陣進(jìn)行更新。
其中,mpf(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系,p的取值范圍是{1,2,....,Kt},Kt表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層的維度值,f表示輸入數(shù)據(jù)中的第f個(gè)樣本,Kt-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值,xvzn(t)表示第2步采樣結(jié)果中對(duì)應(yīng)的元素,p與z的大小相等,f與n的大小相等。
第4步,按照下式,根據(jù)層內(nèi)增廣矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層下一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣進(jìn)行更新。
(xJI(t+1)|mpf(t)(t+1),φS:(t+1),θw(t+1))~CRT(mpf(t)(t+1),φS:(t+1),θw(t+1))
其中,xJI(t+1)表示當(dāng)前子網(wǎng)絡(luò)第t+1層的層內(nèi)增廣矩陣,J的取值范圍是{1,2,....,Kt+1},Kt+1表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層的維度值,I表示輸入數(shù)據(jù)中的第I個(gè)樣本,mpf(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系,p的取值范圍是{1,2,....,Kt},Kt表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層的維度值,f表示第f個(gè)樣本,φS:(t+1)表示{φS1(t+1),φS2(t+1),....,φSKt(t+1)},S的取值范圍是{1,2,....,Kt},{φS1(t+1),φS2(t+1),....,φSKt(t+1)}分別表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣第1,2,....,Kt列的所有元素,θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素,CRT表示中國(guó)餐館過(guò)程中的最大餐桌分布,J、p與S的大小相等,I、f與w的大小相等。
第5步,按照下式,根據(jù)字典矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行更新。
P(φZ(t)|-)~Dir(λ(t)+x1.z(t),λ(t)+x2.z(t),....,λ(t)+xKt-1.z(t))
其中,φZ(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的字典矩陣第Z列的所有元素,~表示等價(jià)關(guān)系符號(hào),Dir表示狄利克雷分布,λ(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層狄利克雷的分布參數(shù),x1nz(t),x2nz(t),....,xKt-1nz(t)分別對(duì)應(yīng)第2步采樣結(jié)果中的元素,Kt-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值,Z與z的大小相等。
將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層,對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新。
所述對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新的具體步驟如下。
第1步,按照下式,根據(jù)層內(nèi)增廣矩陣的后驗(yàn)概率,對(duì)第T+1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣進(jìn)行更新。
(xHG(T+1)|mPF(T)(T+1),r)~CRT(mPF(T)(T+1),r)
其中,xHG(T+1)表示當(dāng)前子網(wǎng)絡(luò)第T+1層的層內(nèi)增廣矩陣,H的取值范圍是{1,2,....,KT+1},KT+1表示當(dāng)前子網(wǎng)絡(luò)的第T+1層隱層的維度值,G表示輸入數(shù)據(jù)中的第G個(gè)樣本,mPF(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系,P的取值范圍是{1,2,....,KT},KT表示頂層的維度值,F表示第F個(gè)樣本,r表示頂層的生成向量,CRT表示中國(guó)餐館過(guò)程中的最大餐桌分布,H與P的大小相等,G與F的大小相等。
第2步,按照下式,根據(jù)生成向量的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行更新。
其中,rm表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的生成向量的第m個(gè)元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,γ0=1,KT表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值,xL.(T+1)表示當(dāng)前子網(wǎng)絡(luò)第T+1層的層內(nèi)增廣矩陣針對(duì)第T+1層隱層維度求和的結(jié)果,L表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值,c0=1,ln表示對(duì)數(shù)符號(hào),pR(T+1)表示第T+1層中服從負(fù)二項(xiàng)式分布的第R個(gè)樣本的參數(shù),m與L的大小相等。
第3步,按照下式,根據(jù)參數(shù)的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)的參數(shù)進(jìn)行更新。
P(cl(T+1)|-)~Gamma(e0+r.,[f0+θ.o(T)]-1)
其中,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值,l表示輸入數(shù)據(jù)中的第l個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0=1,r.表示頂層的生成向量針對(duì)頂層維度求和的結(jié)果,f0=1,KT表示當(dāng)前子網(wǎng)絡(luò)頂層隱層的維度值,θDo(T)表示當(dāng)前子網(wǎng)絡(luò)的頂層隱層單元矩陣的第D行、第o列元素,l與o的大小相等。
其中,pr(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),py(T-1)表示當(dāng)前子網(wǎng)絡(luò)的第T-1層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù),cu(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的伽瑪分布尺度參數(shù)的倒數(shù)值,u表示輸入數(shù)據(jù)中的第u個(gè)樣本,r、y與u的大小相等。
第4步,按照下式,根據(jù)隱層單元矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。
P(θo(T)|-)~Gamma(r+mF(T)(T+1),[cl(T+1)-ln(1-pr(T))]-1)
其中,θo(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的隱層單元矩陣第o列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,mF(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系,F(xiàn)表示輸入數(shù)據(jù)中的第F個(gè)樣本,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層伽瑪分布尺度參數(shù)的倒數(shù)值,l表示第l個(gè)樣本,pr(T)表示當(dāng)前子網(wǎng)絡(luò)的第T層中服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),o、F、l與r的大小相等。
將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層。
對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。
所述對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。
第1步,按照下式,根據(jù)參數(shù)的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層上一層中對(duì)當(dāng)前訓(xùn)練層具有影響的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的參數(shù)進(jìn)行更新。
P(cx(t+1)|-)~Gamma(e0+θ.w(t+1),[f0+θ.j(t)]-1)
其中,cx(t+1)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的上一層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值,x表示輸入數(shù)據(jù)中的第x個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0=1,θ.w(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣針對(duì)第t+1層隱層維度求和的結(jié)果,w表示第w個(gè)樣本,f0=1,θ.j(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層單元矩陣針對(duì)第t層隱層維度求和的結(jié)果,j表示第j個(gè)樣本,x、w與j的大小相等。
第2步,按照下式,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)進(jìn)行更新。
其中,pA(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù),pB(t-1)表示當(dāng)前子網(wǎng)絡(luò)的第t-1層中服從負(fù)二項(xiàng)式分布的第B個(gè)樣本的參數(shù),cE(t)表示當(dāng)前子網(wǎng)絡(luò)的t層伽瑪分布尺度參數(shù)的倒數(shù),E表示輸入數(shù)據(jù)中的第E個(gè)樣本,A、B與E的大小相等。
第3步,按照下式,根據(jù)隱層單元矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。
P(θj(t)|-)~Gamma(Φ(t+1)θw(t+1)+mf(t)(t+1),[cx(t+1)-ln(1-pA(t))]-1)
其中,θj(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的隱層單元矩陣第j列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣,θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素,mf(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系,f表示輸入數(shù)據(jù)中的第f個(gè)樣本,cx(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布尺度參數(shù)的倒數(shù)值,x表示第x個(gè)樣本,pA(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層中服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù),j、w、f、x與A的大小相等。
對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新。
所述對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新的具體步驟如下。
第1步,按照下式,根據(jù)參數(shù)的后驗(yàn)概率,對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新。
(pc(2)|-)~Beta(a0+m.Q(1)(2),b0+θ.g(2))
其中,pc(2)表示當(dāng)前子網(wǎng)絡(luò)第2層更新后的服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),~表示等價(jià)關(guān)系符號(hào),Beta表示貝塔分布,a0表示貝塔分布參數(shù)1的初始值,a0=0.01,Q表示輸入數(shù)據(jù)中的第Q個(gè)樣本,K0表示當(dāng)前子網(wǎng)絡(luò)輸入層的維度值,xUO(1)表示當(dāng)前子網(wǎng)絡(luò)輸入層的層內(nèi)增廣矩陣的第U行、第O列元素,b0表示貝塔分布參數(shù)2的初始值,b0=0.01,θ.g(2)表示當(dāng)前子網(wǎng)絡(luò)的第2層隱層單元矩陣針對(duì)第2層隱層維度求和的結(jié)果,g表示第g個(gè)樣本,c、Q與g的大小相等。
第2步,按照下式,對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)進(jìn)行更新。
cd(2)=(1-pc(2))/pc(2)
其中,cd(2)表示當(dāng)前子網(wǎng)絡(luò)第2層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值,d表示輸入數(shù)據(jù)中的第d個(gè)樣本,pc(2)表示當(dāng)前子網(wǎng)絡(luò)的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù),d與c的大小相等。
步驟9,判斷當(dāng)前子網(wǎng)絡(luò)的訓(xùn)練次數(shù)是否等于訓(xùn)練迭代次數(shù),若是,則執(zhí)行步驟10,否則,執(zhí)行步驟8。
步驟10,將訓(xùn)練后的當(dāng)前子網(wǎng)絡(luò)的字典矩陣和生成向量等全局參數(shù)保存在Matlab工作空間中,并作為當(dāng)前子網(wǎng)絡(luò)的全局參數(shù)。
步驟11,測(cè)試當(dāng)前子網(wǎng)絡(luò)。
將帶有標(biāo)號(hào)的訓(xùn)練集和測(cè)試集一起作為當(dāng)前子網(wǎng)絡(luò)的輸入數(shù)據(jù)。
將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。
對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。
第1步,按照下式,根據(jù)參數(shù)的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)的參數(shù)進(jìn)行更新。
P(cl(T+1)|-)~Gamma(e0+r.,[f0+θ.o(T)]-1)
其中,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值,l表示輸入數(shù)據(jù)中的第l個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0=1,r.表示頂層的生成向量針對(duì)頂層維度求和的結(jié)果,f0=1,KT表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值,θDo(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的隱層單元矩陣的第D行、第o列元素,l與o的大小相等。
其中,pr(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),py(T-1)表示當(dāng)前子網(wǎng)絡(luò)的第T-1層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù),cu(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的伽瑪分布尺度參數(shù)的倒數(shù)值,u表示輸入數(shù)據(jù)中的第u個(gè)樣本,r、y與u的大小相等。
第2步,按照下式,根據(jù)隱層單元矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。
P(θo(T)|-)~Gamma(r+mF(T)(T+1),[cl(T+1)-ln(1-pr(T))]-1)
其中,θo(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的隱層單元矩陣第o列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,r表示頂層的生成向量,mF(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系,F(xiàn)表示輸入數(shù)據(jù)中的第F個(gè)樣本,cl(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層伽瑪分布尺度參數(shù)的倒數(shù)值,l表示第l個(gè)樣本,pr(T)表示當(dāng)前子網(wǎng)絡(luò)頂層中服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù),o、F、l與r的大小相等。
將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層。
對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。
對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。
第1步,按照下式,根據(jù)參數(shù)的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的上一層中對(duì)當(dāng)前訓(xùn)練層具有影響的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的參數(shù)進(jìn)行更新。
P(cx(t+1)|-)~Gamma(e0+θ.w(t+1),[f0+θ.j(t)]-1)
其中,cx(t+1)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的上一層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值,x表示輸入數(shù)據(jù)中的第x個(gè)樣本,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,e0=1,θ.w(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣針對(duì)第t+1層隱層維度求和的結(jié)果,w表示第w個(gè)樣本,f0=1,θ.j(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層單元矩陣針對(duì)第t層隱層維度求和的結(jié)果,j表示第j個(gè)樣本,x、w與j的大小相等。
第2步,按照下式,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)進(jìn)行更新。
其中,pA(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù),pB(t-1)表示當(dāng)前子網(wǎng)絡(luò)的第t-1層中服從負(fù)二項(xiàng)式分布的第B個(gè)樣本的參數(shù),cE(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層伽瑪分布尺度參數(shù)的倒數(shù)值,E表示輸入數(shù)據(jù)中的第E個(gè)樣本,A、B與E的大小相等。
第3步,按照下式,根據(jù)隱層單元矩陣的后驗(yàn)概率,對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。
P(θj(t)|-)~Gamma(Φ(t+1)θw(t+1)+mf(t)(t+1),[cx(t+1)-ln(1-pA(t))]-1)
其中,θj(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的隱層單元矩陣第j列的所有元素,~表示等價(jià)關(guān)系符號(hào),Gamma表示伽瑪分布,Φ(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣,θw(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素,mf(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系,f表示輸入數(shù)據(jù)中的第f個(gè)樣本,cx(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布尺度參數(shù)的倒數(shù)值,x表示第x個(gè)樣本,pA(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層中服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù),j、w、f、x與A的大小相等。
步驟12,判斷當(dāng)前子網(wǎng)絡(luò)的測(cè)試次數(shù)是否等于測(cè)試迭代次數(shù),若是,執(zhí)行步驟13,否則,執(zhí)行步驟11。
步驟13,對(duì)文本進(jìn)行分類。
利用帶有標(biāo)號(hào)的訓(xùn)練集和更新后的隱層單元矩陣和參數(shù),對(duì)支持向量機(jī)SVM分類器進(jìn)行訓(xùn)練。
支持向量機(jī)SVM分類器對(duì)測(cè)試集進(jìn)行分類,輸出預(yù)測(cè)的文本類別。
比較測(cè)試集的預(yù)測(cè)文本類別和標(biāo)準(zhǔn)文本類別,輸出當(dāng)前子網(wǎng)絡(luò)的文本分類正確率。
步驟14,判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為5,若是,則執(zhí)行步驟15,否則,將下一個(gè)子網(wǎng)絡(luò)作為當(dāng)前子網(wǎng)絡(luò),執(zhí)行步驟5。
步驟15,輸出文本分類正確率和預(yù)測(cè)文本類別。
從五個(gè)子網(wǎng)絡(luò)的文本分類正確率中選取最大的文本分類正確率。
輸出最大的文本分類正確率及其與該正確率對(duì)應(yīng)的子網(wǎng)絡(luò)的預(yù)測(cè)文本類別。
下面結(jié)合附圖2,3,對(duì)本發(fā)明的效果做進(jìn)一步說(shuō)明。
1.仿真實(shí)驗(yàn)條件:
仿真實(shí)驗(yàn)1:
采用20個(gè)新聞組數(shù)據(jù)庫(kù)(http://www.qwone.com/~jason/20Newsgroups/),該數(shù)據(jù)庫(kù)共包含18,774篇文檔,涉及20種不同類別的新聞組,對(duì)應(yīng)的詞表大小為61,188,其中11,269篇文檔作為訓(xùn)練文本集,其余7,505篇文檔作為測(cè)試文本集。
預(yù)處理:去除掉20個(gè)新聞組數(shù)據(jù)庫(kù)對(duì)應(yīng)詞表中的停用詞和出現(xiàn)頻率低于5次的詞,則詞表大小變?yōu)?3,420。根據(jù)該詞表信息,采用詞袋方法分別將訓(xùn)練文本集和測(cè)試文本集中的每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息,得到訓(xùn)練集和測(cè)試集。
仿真實(shí)驗(yàn)2:
采用神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)(http://www.cs.nyu.edu/~roweis/data.html),遍歷該數(shù)據(jù)庫(kù),從每一類別中隨機(jī)抽出30%的文檔作為訓(xùn)練文本集,剩下70%的文檔作為測(cè)試文本集。
預(yù)處理:將神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)對(duì)應(yīng)詞表中出現(xiàn)頻率最高的前2000個(gè)詞,作為該數(shù)據(jù)庫(kù)的新詞表,再根據(jù)新詞表信息,采用詞袋方法分別將訓(xùn)練文本集和測(cè)試文本集中的每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息,得到測(cè)試過(guò)程的訓(xùn)練集和測(cè)試集。
2.仿真內(nèi)容及分析:
仿真1,用本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)進(jìn)行分類,具體參數(shù)設(shè)置如表1所示。
表1仿真1的具體參數(shù)設(shè)置一覽表
由于LDA主題模型在文本分析方面的性能相較于其他主題模型具有明顯優(yōu)勢(shì),經(jīng)常被當(dāng)作此領(lǐng)域模型性能的比較基準(zhǔn)。而本發(fā)明的單層網(wǎng)絡(luò)模型等價(jià)于泊松因子分析PFA模型,在文本分析方面的性能近似于LDA主題模型,所以本發(fā)明對(duì)文本的分類正確率只需要和自身的單層網(wǎng)絡(luò)模型相比即可。
圖2表示使用本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)進(jìn)行文本分類,當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)和泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)分類正確率的影響。
圖2(a)表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)對(duì)分類正確率的影響。圖2(a)中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù),縱坐標(biāo)表示文本的分類正確率。以叉形標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是50,以圓圈標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是100,以方塊標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是200,以菱形標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是400,以三角標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是600,以六角星標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是800。
圖2(b)表示泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)分類正確率的影響,圖2(b)中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,縱坐標(biāo)表示文本的分類正確率。以叉形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是1,以圓圈標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是2,以方塊標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是3,以菱形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是4,以三角標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是5。
從圖2可見,本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)的分類正確率相較于現(xiàn)有技術(shù)有所提高。并且當(dāng)當(dāng)前子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定時(shí),文本的分類正確率隨著當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)增加而增加。當(dāng)當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)固定時(shí),文本的分類正確率隨著當(dāng)前子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值的增大而增加。特別地,當(dāng)單層子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定為100時(shí),在此子網(wǎng)絡(luò)的基礎(chǔ)上增加一層或多層泊松-伽瑪置信網(wǎng)絡(luò)所獲得的新的子網(wǎng)絡(luò),基于該子網(wǎng)絡(luò)文本的分類正確率略勝于第一個(gè)隱層的維度最大值固定為200的單層子網(wǎng)絡(luò)。當(dāng)單層子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定為200時(shí),在此子網(wǎng)絡(luò)的基礎(chǔ)上增加一層或多層泊松-伽瑪置信網(wǎng)絡(luò)所獲得的新的子網(wǎng)絡(luò),基于該子網(wǎng)絡(luò)文本的分類正確率明顯高于第一個(gè)隱層的維度最大值固定為800的單層子網(wǎng)絡(luò)。
仿真2,基于神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)對(duì)本發(fā)明關(guān)于非監(jiān)督特征學(xué)習(xí)的能力進(jìn)行測(cè)評(píng)。
困惑度是衡量主題模型性能好壞的一種評(píng)價(jià)指標(biāo),其數(shù)值越小越好。模型具體參數(shù)設(shè)置如表2所示。
表2仿真2的具體參數(shù)設(shè)置一覽表
圖3表示使用本發(fā)明基于神經(jīng)信息處理系統(tǒng)會(huì)議集數(shù)據(jù)庫(kù)對(duì)非監(jiān)督特征學(xué)習(xí)能力進(jìn)行測(cè)評(píng),所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)困惑度的影響。
圖3中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值,縱坐標(biāo)表示該主題模型的困惑度。圖3中以叉形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是1,以圓圈標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是2,以方塊標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是3,以菱形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是4,以三角標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是5。
從圖3可見,本發(fā)明在以困惑度為評(píng)價(jià)指標(biāo)方面,相較于其他主題模型,擁有更好的性能。
綜上所述,本發(fā)明與現(xiàn)有技術(shù)在文本分析方面的性能相比,不僅克服了現(xiàn)有技術(shù)中由于訓(xùn)練樣本存在噪音或者訓(xùn)練樣本太少,無(wú)法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行全面學(xué)習(xí)而造成的過(guò)擬合問(wèn)題,而且通過(guò)對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行訓(xùn)練,獲得多層字典矩陣,從而能夠提取文本內(nèi)容的多層主題信息,更好地表達(dá)文本所蘊(yùn)含的語(yǔ)義內(nèi)容,提高了文本的分類正確率,并且在以困惑度為評(píng)價(jià)指標(biāo)方面,相較于其他主題模型,具有明顯優(yōu)勢(shì)。