基于泊松?伽瑪置信網(wǎng)絡(luò)主題模型的文本分析方法與流程

文檔序號(hào)：12271504閱讀：299來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域，更進(jìn)一步涉及自然語(yǔ)言處理技術(shù)領(lǐng)域中的一種基于泊松-伽瑪置信網(wǎng)絡(luò)PGBN(Poisson Gamma Belief Network)主題模型的文本分析方法。本發(fā)明可用于對(duì)各類電子類文本進(jìn)行主題提取、分類和新文本的生成。

背景技術(shù)：

目前，主題模型在自然語(yǔ)言處理領(lǐng)域受到越來(lái)越多的關(guān)注，同時(shí)被廣泛應(yīng)用于實(shí)際生活中，如對(duì)各類電子類文本進(jìn)行主題提取、分類和新文本的生成等。隨著互聯(lián)網(wǎng)架構(gòu)、存儲(chǔ)科技以及其他有關(guān)技術(shù)的發(fā)展，各種各樣的網(wǎng)絡(luò)數(shù)據(jù)飛速增長(zhǎng)，使得高效利用這些大規(guī)模數(shù)據(jù)進(jìn)行文本分析具有很大的挑戰(zhàn)。

和傳統(tǒng)的基于統(tǒng)計(jì)的一些文本歸納方法相比，主題模型在可觀測(cè)的文檔層和單詞層間增加了一個(gè)隱含的主題層，并認(rèn)為文檔包含一個(gè)或若干多個(gè)主題，每個(gè)主題又是不同比例單詞的組合。這一新增加的主題隱含層能表征一篇文檔所蘊(yùn)含的語(yǔ)義內(nèi)容，而且對(duì)海量數(shù)據(jù)通過(guò)主題進(jìn)行表達(dá)而達(dá)到降維效果。

中國(guó)科學(xué)技術(shù)大學(xué)在其申請(qǐng)的專利“文本分類方法”(專利申請(qǐng)?zhí)?00910142286.6，公開號(hào)CN101587493B)中公開了一種基于LDA主題模型對(duì)文本的分類方法。該方法實(shí)現(xiàn)的具體步驟是，首先，根據(jù)類別將初始訓(xùn)練文本集劃分為多個(gè)子集，并從每個(gè)子集中抽去對(duì)應(yīng)的概率主題模型，其中每個(gè)子集包含相同類別的文本；其次，利用對(duì)應(yīng)的概率主題模型生成新的文本來(lái)均衡所述多個(gè)子集的類別；然后，根據(jù)所述多個(gè)子集對(duì)應(yīng)的均衡訓(xùn)練文本集構(gòu)造分類器；最后，利用所述分類器進(jìn)行文本分類。該專利申請(qǐng)所公開的方法，雖然在傳統(tǒng)文本分類方法的基礎(chǔ)上改善了數(shù)據(jù)傾斜的問(wèn)題，提高了文本的分類正確率，但是，該方法仍然存在的不足之處是，由于該方法只能提取單層主題信息，無(wú)法對(duì)多層的主題信息進(jìn)行提取，所以在表達(dá)文本所蘊(yùn)含的語(yǔ)義內(nèi)容方面無(wú)法得到令人滿意的結(jié)果。

賈會(huì)玲、吳晟、李英娜、李萌萌、楊璽、李川在其發(fā)表的論文“基于PLSA模型的觀點(diǎn)句聚類算法研究”(Value Engineering，1006-4311(2015)31-0167-03)提出一種基于PLSA模型針對(duì)互聯(lián)網(wǎng)評(píng)論文本中觀點(diǎn)句聚類的算法。該方法實(shí)現(xiàn)的具體步驟是，首先，對(duì)觀點(diǎn)句集合做分詞和詞性標(biāo)注處理，并過(guò)濾掉與評(píng)價(jià)對(duì)象相關(guān)但不是聚類方面的高頻詞，得到相應(yīng)的詞集；其次，利用所得詞集，建立詞-觀點(diǎn)句矩陣，并利用SVD對(duì)矩陣進(jìn)行降維處理；然后，利用PLSA對(duì)降維后的矩陣進(jìn)行處理，得到觀點(diǎn)句-潛在變量概率矩陣；最后，計(jì)算觀點(diǎn)句相似度，并將相似度最大的歸為一類，輸出觀點(diǎn)句聚類結(jié)果。雖然，PLSA主題模型對(duì)其原始模型進(jìn)行了完善，文本聚類效果得到了顯著提高，但是，該方法仍然存在的不足之處是，如果訓(xùn)練數(shù)據(jù)存在噪音或者訓(xùn)練數(shù)據(jù)太少會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明針對(duì)上述內(nèi)容所公開的方法的不足，提出基于泊松-伽瑪置信網(wǎng)絡(luò)主題模型的文本分析方法，有效地避開了過(guò)擬合現(xiàn)象，完成文本內(nèi)容多層主題信息的提取，并實(shí)現(xiàn)較高的文本分類正確率。

實(shí)現(xiàn)本發(fā)明目的的具體思路是，本發(fā)明的泊松-伽瑪置信網(wǎng)絡(luò)屬于貝葉斯網(wǎng)絡(luò)中的一種，本發(fā)明采用逐層訓(xùn)練和聯(lián)合訓(xùn)練的方法對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行訓(xùn)練，利用吉布斯采樣方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行學(xué)習(xí)，從而獲得多層字典矩陣，完成對(duì)文本內(nèi)容的多層主題信息的提取。

為實(shí)現(xiàn)本發(fā)明目的的具體步驟包括如下：

(1)建立訓(xùn)練集和測(cè)試集：

(1a)從文本語(yǔ)料庫(kù)中隨機(jī)選取訓(xùn)練文本集和測(cè)試文本集；

(1b)采用詞袋方法，將訓(xùn)練文本集和測(cè)試文本集的格式由文本信息轉(zhuǎn)化為數(shù)字信息的訓(xùn)練集和測(cè)試集；

(2)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)及其參數(shù)：

(2a)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容；

(2b)設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)；

(2c)在{1000,1500}兩個(gè)值中任意選取一個(gè)值作為訓(xùn)練迭代次數(shù)；

(2d)將測(cè)試迭代次數(shù)設(shè)置為1500次；

(3)對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行分層：

(3a)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層作為第1個(gè)子網(wǎng)絡(luò)；

(3b)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層和第2層，作為第2個(gè)子網(wǎng)絡(luò)；

(3c)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層和第3層，作為第3個(gè)子網(wǎng)絡(luò)；

(3d)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層和第4層，作為第4個(gè)子網(wǎng)絡(luò)；

(3e)將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層、第4層和第5層，作為第5個(gè)子網(wǎng)絡(luò)；

(4)對(duì)第1個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化；

(4a)按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化；

φ_a⁽¹⁾～Dir(η⁽¹⁾,....,η⁽¹⁾)

其中，φ_a⁽¹⁾表示第1個(gè)子網(wǎng)絡(luò)第1層初始化后的字典矩陣第a列的所有元素，a的取值范圍是{1,2,....,K_1max}，K_1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值，～表示等價(jià)關(guān)系符號(hào)，Dir表示狄利克雷分布，η⁽¹⁾表示第1個(gè)子網(wǎng)絡(luò)第1層狄利克雷分布的參數(shù)；

(4b)按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)參數(shù)和超參數(shù)進(jìn)行初始化；

p_i⁽¹⁾＝1-e^-1

其中，p_i⁽¹⁾表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù)；

r_m～Gamma(γ₀/K_1max,1/c₀)

其中，r_m表示第1個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_1max表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值，γ₀/K_1max表示伽瑪分布的形狀參數(shù)，c₀＝1，表示伽瑪分布尺度參數(shù)的倒數(shù)；

(4c)按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化；

其中，θ_h⁽¹⁾表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層隱層單元矩陣第h列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，r表示頂層的生成向量，p_i⁽¹⁾表示第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù)，h與i的大小相等；

(5)判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為2，若是，則執(zhí)行步驟(6)，否則，執(zhí)行步驟(7)；

(6)對(duì)第2個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化：

(6a)將第1個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值，作為第2個(gè)子網(wǎng)絡(luò)全局參數(shù)的初始值；

(6b)按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化；

φ_b^(T)～Dir(τ^(T),....,τ^(T))

其中，φ_b^(T)表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的字典矩陣第b列的所有元素，b的取值范圍是{1,2,....,K_T}，K_T表示第2個(gè)子網(wǎng)絡(luò)頂層的維度值，～表示等價(jià)關(guān)系符號(hào)，Dir表示狄利克雷分布，τ^(T)表示第2個(gè)子網(wǎng)絡(luò)第T層狄利克雷分布參數(shù)的初始值；

(6c)按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化；

p_c⁽²⁾～Beta(a₀,b₀)

其中，p_c⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù)，～表示等價(jià)關(guān)系符號(hào)，Beta表示貝塔分布，a₀表示貝塔分布的參數(shù)1，a₀＝0.01，b₀表示貝塔分布的參數(shù)2，b₀＝0.01；

c_d⁽²⁾＝(1-p_c⁽²⁾)/p_c⁽²⁾

其中，c_d⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)初始化后的第2層伽瑪分布尺度參數(shù)的倒數(shù)，d表示輸入數(shù)據(jù)中的第d個(gè)樣本，p_c⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù)，d與c的大小相等；

c_e⁽³⁾～Gamma(e₀,1/f₀)

其中，c_e⁽³⁾表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層初始化后的伽瑪分布尺度參數(shù)的倒數(shù)值，e表示輸入數(shù)據(jù)中的第e個(gè)樣本，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，e₀表示伽瑪分布的形狀參數(shù)，e₀＝1，f₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，f₀＝1；

(6d)按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化；

r_m～Gamma(γ₀/K_T,1/c₀)

其中，r_m表示第2個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_T表示頂層的維度值，c₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，c₀＝1；

(6e)按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化；

其中，θ_g⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第g列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，r表示頂層的生成向量，表示第2個(gè)子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的第3層伽瑪分布的尺度參數(shù)，e表示輸入數(shù)據(jù)中的第e個(gè)樣本，g與e的大小相等；

(6f)按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)第1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化；

其中，θ_h⁽¹⁾表示第2個(gè)子網(wǎng)絡(luò)第1層初始化后的隱層單元矩陣第h列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，Φ⁽²⁾θ_g⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的形狀參數(shù)，Φ⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)的第2層字典矩陣，θ_g⁽²⁾表示第2個(gè)子網(wǎng)絡(luò)的第2層隱層單元矩陣第g列的所有元素，表示第2個(gè)子網(wǎng)絡(luò)的第2層伽瑪分布的尺度參數(shù)，d表示輸入數(shù)據(jù)中的第d個(gè)樣本，h、g與d的大小相等；

(7)對(duì)當(dāng)前子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化：

(7a)將上一個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值，作為當(dāng)前子網(wǎng)絡(luò)全局參數(shù)的初始值；

(7b)對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化；

φ_W^(T)～Dir(ι^(T),....,ι^(T))

其中，φ_W^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的字典矩陣第W列的所有元素，W的取值范圍是{1,2,....,K_T}，K_T表示頂層的維度值,～表示等價(jià)關(guān)系符號(hào)，Dir表示狄利克雷分布，ι^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的狄利克雷分布參數(shù)；

(7c)按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化；

p_r^(T)＝-ln(1-p_y^(T-1))/[c_u^(T)-ln(1-p_y^(T-1))]

其中，p_r^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù)，ln表示對(duì)數(shù)符號(hào)，p_y^(T-1)表示上一個(gè)子網(wǎng)絡(luò)的頂層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù)，c_u^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層伽瑪分布尺度參數(shù)的倒數(shù)值，u表示輸入數(shù)據(jù)中的第u個(gè)樣本，r、y與u的大小相等；

c_l^(T+1)～Gamma(e₀,1/f₀)

其中，c_l^(T+1)表示當(dāng)前子網(wǎng)絡(luò)的下一個(gè)子網(wǎng)絡(luò)的頂層伽瑪分布尺度參數(shù)的倒數(shù)值，l表示輸入數(shù)據(jù)中的第l個(gè)樣本，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，e₀表示伽瑪分布的形狀參數(shù)，e₀＝1，f₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，f₀＝1；

(7d)按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化；

r_m～Gamma(γ₀/K_T,1/c₀)

其中，r_m表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_T表示頂層的維度值，c₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，c₀＝1；

(7e)按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化；

其中，θ_o^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的隱層單元矩陣第o列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，r表示頂層的生成向量，表示第T+1層伽瑪分布的尺度參數(shù)，l表示輸入數(shù)據(jù)中的第l個(gè)樣本，o與l的大小相等；

(7f)按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)除頂層以外每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化；

其中，θ_j^(t)表示當(dāng)前子網(wǎng)絡(luò)第t層初始化后的隱層單元矩陣第j列的所有元素，t的取值范圍是{T-1，....,2,1}，T表示當(dāng)前子網(wǎng)絡(luò)的層數(shù)，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，Φ^(t+1)θ_w^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布的形狀參數(shù)，Φ^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣，θ_w^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素，w表示輸入數(shù)據(jù)中的第w個(gè)樣本,表示第t+1層伽瑪分布的尺度參數(shù)，x表示輸入數(shù)據(jù)中的第x個(gè)樣本,j、w與x的大小相等；

(8)訓(xùn)練當(dāng)前子網(wǎng)絡(luò)：

(8a)按照從底層到頂層的順序，對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新；

(8b)將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層，對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新；

(8c)將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層；

(8d)對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新；

(8e)對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新；

(9)判斷當(dāng)前子網(wǎng)絡(luò)的訓(xùn)練次數(shù)是否等于訓(xùn)練迭代次數(shù)，若是，則執(zhí)行步驟(10)，否則，執(zhí)行步驟(8)；

(10)將訓(xùn)練后的當(dāng)前子網(wǎng)絡(luò)的字典矩陣和生成向量等全局參數(shù)保存在Matlab工作空間中，并作為當(dāng)前子網(wǎng)絡(luò)的全局參數(shù)；

(11)測(cè)試當(dāng)前子網(wǎng)絡(luò)：

(11a)將帶有標(biāo)號(hào)的訓(xùn)練集和測(cè)試集一起作為當(dāng)前子網(wǎng)絡(luò)的輸入數(shù)據(jù)；

(11b)將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新；

(11c)將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層；

(11d)對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新；

(12)判斷當(dāng)前子網(wǎng)絡(luò)的測(cè)試次數(shù)是否等于測(cè)試迭代次數(shù)，若是，執(zhí)行步驟(13)，否則，執(zhí)行步驟(11)；

(13)對(duì)文本進(jìn)行分類；

(13a)利用帶有標(biāo)號(hào)的訓(xùn)練集和更新后的隱層單元矩陣和參數(shù)，對(duì)支持向量機(jī)SVM分類器進(jìn)行訓(xùn)練；

(13b)支持向量機(jī)SVM分類器對(duì)測(cè)試集進(jìn)行分類，輸出預(yù)測(cè)的文本類別；

(13c)比較測(cè)試集的預(yù)測(cè)文本類別和標(biāo)準(zhǔn)文本類別，輸出當(dāng)前子網(wǎng)絡(luò)的文本分類正確率；

(14)判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為5，若是，則執(zhí)行步驟(15)，否則，將下一個(gè)子網(wǎng)絡(luò)作為當(dāng)前子網(wǎng)絡(luò)，執(zhí)行步驟(5)；

(15)輸出文本分類正確率和預(yù)測(cè)文本類別：

(15a)從五個(gè)子網(wǎng)絡(luò)的文本分類正確率中選取最大的文本分類正確率；

(15b)輸出最大的文本分類正確率及其與該正確率對(duì)應(yīng)的子網(wǎng)絡(luò)的預(yù)測(cè)文本類別。

本發(fā)明與現(xiàn)有的技術(shù)相比具有以下優(yōu)點(diǎn)：

第1，由于本發(fā)明屬于貝葉斯網(wǎng)絡(luò)，并且將字典矩陣的先驗(yàn)分布設(shè)置為狄利克雷分布，將隱層單元矩陣的先驗(yàn)分布設(shè)置為伽瑪分布，克服了現(xiàn)有技術(shù)中由于訓(xùn)練樣本存在噪音或者訓(xùn)練樣本太少，無(wú)法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行全面學(xué)習(xí)而造成的過(guò)擬合問(wèn)題，本發(fā)明削弱了網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)對(duì)訓(xùn)練樣本的依賴性，使得參數(shù)學(xué)習(xí)不再受到訓(xùn)練樣本數(shù)量的限制。

第2，由于本發(fā)明是多層主題模型，通過(guò)對(duì)模型進(jìn)行訓(xùn)練，獲得多層字典矩陣，提取到了文本內(nèi)容的多層主題信息，克服了現(xiàn)有技術(shù)中只能對(duì)文本內(nèi)容的單層主題信息進(jìn)行提取的問(wèn)題。本發(fā)明中提取的多層主題信息對(duì)文本所蘊(yùn)含的語(yǔ)義內(nèi)容表達(dá)效果更好，使得文本分類正確率高于其他主題模型，并在以困惑度為評(píng)價(jià)指標(biāo)方面，也具有明顯優(yōu)勢(shì)。

附圖說(shuō)明

圖1是本發(fā)明的流程圖；

圖2是使用本發(fā)明對(duì)20個(gè)新聞組20newsgroups數(shù)據(jù)庫(kù)進(jìn)行文本分類的仿真圖；

圖3是使用本發(fā)明對(duì)非監(jiān)督特征學(xué)習(xí)能力測(cè)評(píng)的仿真圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的描述。

參照附圖1，對(duì)本發(fā)明的具體步驟描述如下。

步驟1，建立訓(xùn)練集和測(cè)試集。

從文本語(yǔ)料庫(kù)中隨機(jī)選取訓(xùn)練文本集和測(cè)試文本集。

采用詞袋方法，將訓(xùn)練文本集和測(cè)試文本集的格式由文本信息轉(zhuǎn)化為數(shù)字信息的訓(xùn)練集和測(cè)試集。

步驟2，設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)及其參數(shù)。

設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容。

所述的泊松-伽瑪置信網(wǎng)絡(luò)的總網(wǎng)絡(luò)層數(shù)、輸入層維度、隱層維度、輸出層內(nèi)容設(shè)置如下：總網(wǎng)絡(luò)層數(shù)為5層，輸入層的維度值與文本語(yǔ)料庫(kù)對(duì)應(yīng)的詞表維度值相等，在{50,100,200,400,600,800}六個(gè)值中任意選取一個(gè)值作為所有子網(wǎng)絡(luò)第一層隱層維度的最大值，并且所有子網(wǎng)絡(luò)中第一層隱層維度為其他層隱層維度的上限；輸出層輸出文本分類正確率和預(yù)測(cè)文本類別。

設(shè)置泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。

所述設(shè)置的泊松-伽瑪置信網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)包括：輸入數(shù)據(jù)、先驗(yàn)分布為狄利克雷分布的全局參數(shù)字典矩陣、先驗(yàn)分布為伽瑪分布的隱層單元矩陣、生成向量、層內(nèi)增廣矩陣和層間增廣矩陣以及涉及到的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)。

在{1000,1500}兩個(gè)值中任意選取一個(gè)值作為訓(xùn)練迭代次數(shù)。

將測(cè)試迭代次數(shù)設(shè)置為1500次。

步驟3，對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行分層。

將泊松-伽瑪置信網(wǎng)絡(luò)的第1層作為第1個(gè)子網(wǎng)絡(luò)。

將泊松-伽瑪置信網(wǎng)絡(luò)的第1層和第2層，作為第2個(gè)子網(wǎng)絡(luò)。

將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層和第3層，作為第3個(gè)子網(wǎng)絡(luò)。

將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層和第4層，作為第4個(gè)子網(wǎng)絡(luò)。

將泊松-伽瑪置信網(wǎng)絡(luò)的第1層、第2層、第3層、第4層和第5層，作為第5個(gè)子網(wǎng)絡(luò)。

步驟4，對(duì)第1個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。

按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。

φ_a⁽¹⁾～Dir(η⁽¹⁾,....,η⁽¹⁾)

按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)參數(shù)和超參數(shù)進(jìn)行初始化。

p_i⁽¹⁾＝1-e^-1

其中，p_i⁽¹⁾表示第1個(gè)子網(wǎng)絡(luò)初始化后的第1層中服從負(fù)二項(xiàng)式分布的第i個(gè)樣本的參數(shù)。

r_m～Gamma(γ₀/K_1max,1/c₀)

按照下式，對(duì)第1個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。

步驟5，判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為2，若是，則執(zhí)行步驟6，否則，執(zhí)行步驟7。

步驟6，對(duì)第2個(gè)子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。

將第1個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值，作為第2個(gè)子網(wǎng)絡(luò)全局參數(shù)的初始值。

按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。

φ_b^(T)～Dir(τ^(T),....,τ^(T))

按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化。

p_c⁽²⁾～Beta(a₀,b₀)

c_d⁽²⁾＝(1-p_c⁽²⁾)/p_c⁽²⁾

c_e⁽³⁾～Gamma(e₀,1/f₀)

按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化。

r_m～Gamma(γ₀/K_T,1/c₀)

其中，r_m表示第2個(gè)子網(wǎng)絡(luò)初始化后的頂層生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_T表示頂層的維度值，c₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，c₀＝1。

按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。

按照下式，對(duì)第2個(gè)子網(wǎng)絡(luò)第1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。

步驟7，對(duì)當(dāng)前子網(wǎng)絡(luò)的參數(shù)進(jìn)行初始化。

將上一個(gè)子網(wǎng)絡(luò)中的全局參數(shù)值，作為當(dāng)前子網(wǎng)絡(luò)全局參數(shù)的初始值。

對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行初始化。

φ_W^(T)～Dir(ι^(T),....,ι^(T))

按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行初始化。

p_r^(T)＝-ln(1-p_y^(T-1))/[c_u^(T)-ln(1-p_y^(T-1))]

c_l^(T+1)～Gamma(e₀,1/f₀)

按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行初始化。

r_m～Gamma(γ₀/K_T,1/c₀)

其中，r_m表示當(dāng)前子網(wǎng)絡(luò)頂層初始化后的生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_T表示頂層的維度值，c₀表示伽瑪分布尺度參數(shù)的倒數(shù)值，c₀＝1。

按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)頂層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。

按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)除頂層以外每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行初始化。

步驟8，訓(xùn)練當(dāng)前子網(wǎng)絡(luò)。

按照從底層到頂層的順序，對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新。

所述對(duì)當(dāng)前子網(wǎng)絡(luò)每一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和全局參數(shù)字典矩陣進(jìn)行更新的具體步驟如下。

第1步，將當(dāng)前子網(wǎng)絡(luò)的第一層、第二層直到頂層依次作為當(dāng)前訓(xùn)練層。

第2步，按照下式，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣，針對(duì)當(dāng)前訓(xùn)練層的維度進(jìn)行多項(xiàng)式采樣。

其中，{x_vn1^(t),x_vn2^(t),....,x_vnKt^(t)}表示對(duì)x_vn^(t)針對(duì)當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的維度進(jìn)行多項(xiàng)式采樣的結(jié)果，每一個(gè)都是維度為V*N的矩陣，V表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層輸入數(shù)據(jù)矩陣的維度值，N表示樣本個(gè)數(shù)，v的取值范圍是{1,2,....,K_t-1}，K_t-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值，n表示輸入數(shù)據(jù)中的第n個(gè)樣本，K_t表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的維度值，v與n固定時(shí)，{x_vn1^(t),x_vn2^(t),....,x_vnKt^(t)}分別對(duì)應(yīng)一個(gè)元素，x_vn^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的層內(nèi)增廣矩陣，φ_s:^(t)表示{φ_s1^(t),φ_s2^(t),....,φ_sKt^(t)}，s的取值范圍是{1,2,....,K_t-1}，{φ_s1^(t),φ_s2^(t),....,φ_sk^(t),....,φ_sKt^(t)}分別表示當(dāng)前訓(xùn)練層字典矩陣第1,2,....,k,....,K_t列的所有元素，θ_j^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層隱層單元矩陣第j列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Mult表示多項(xiàng)式分布，{θ_1j^(t),θ_2j^(t),....,θ_kj^(t),....,θ_Ktj^(t)}分別表示當(dāng)前訓(xùn)練層隱層單元矩陣第1,2,....,k,....,K_t行的所有元素，v與s的大小相等，n與j的大小相等。

第3步，按照下式，根據(jù)層間增廣矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層間增廣矩陣進(jìn)行更新。

其中，m_pf^(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系，p的取值范圍是{1,2,....,K_t}，K_t表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層的維度值，f表示輸入數(shù)據(jù)中的第f個(gè)樣本，K_t-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值，x_vzn^(t)表示第2步采樣結(jié)果中對(duì)應(yīng)的元素，p與z的大小相等，f與n的大小相等。

第4步，按照下式，根據(jù)層內(nèi)增廣矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層下一層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣進(jìn)行更新。

(x_JI^(t+1)|m_pf^(t)(t+1),φ_S:^(t+1),θ_w^(t+1))～CRT(m_pf^(t)(t+1),φ_S:^(t+1),θ_w^(t+1))

其中，x_JI^(t+1)表示當(dāng)前子網(wǎng)絡(luò)第t+1層的層內(nèi)增廣矩陣，J的取值范圍是{1,2,....,K_t+1}，K_t+1表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層的維度值，I表示輸入數(shù)據(jù)中的第I個(gè)樣本，m_pf^(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系，p的取值范圍是{1,2,....,K_t},K_t表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層的維度值,f表示第f個(gè)樣本，φ_S:^(t+1)表示{φ_S1^(t+1),φ_S2^(t+1),....,φ_SKt^(t+1)}，S的取值范圍是{1,2,....,K_t}，{φ_S1^(t+1),φ_S2^(t+1),....,φ_SKt^(t+1)}分別表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣第1,2,....,K_t列的所有元素，θ_w^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素，CRT表示中國(guó)餐館過(guò)程中的最大餐桌分布，J、p與S的大小相等，I、f與w的大小相等。

第5步，按照下式，根據(jù)字典矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的字典矩陣進(jìn)行更新。

P(φ_Z^(t)|-)～Dir(λ^(t)+x_1.z^(t),λ^(t)+x_2.z^(t),....,λ^(t)+x_Kt-1.z^(t))

其中，φ_Z^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的字典矩陣第Z列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Dir表示狄利克雷分布，λ^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層狄利克雷的分布參數(shù)，x_1nz^(t),x_2nz^(t),....,x_Kt-1nz^(t)分別對(duì)應(yīng)第2步采樣結(jié)果中的元素，K_t-1表示當(dāng)前子網(wǎng)絡(luò)的第t-1層隱層的維度值，Z與z的大小相等。

將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層，對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新。

所述對(duì)泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)、全局參數(shù)生成向量和隱層單元矩陣進(jìn)行更新的具體步驟如下。

第1步，按照下式，根據(jù)層內(nèi)增廣矩陣的后驗(yàn)概率，對(duì)第T+1層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的層內(nèi)增廣矩陣進(jìn)行更新。

(x_HG^(T+1)|m_PF^(T)(T+1),r)～CRT(m_PF^(T)(T+1),r)

其中，x_HG^(T+1)表示當(dāng)前子網(wǎng)絡(luò)第T+1層的層內(nèi)增廣矩陣，H的取值范圍是{1,2,....,K_T+1}，K_T+1表示當(dāng)前子網(wǎng)絡(luò)的第T+1層隱層的維度值，G表示輸入數(shù)據(jù)中的第G個(gè)樣本，m_PF^(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系，P的取值范圍是{1,2,....,K_T},K_T表示頂層的維度值,F表示第F個(gè)樣本，r表示頂層的生成向量，CRT表示中國(guó)餐館過(guò)程中的最大餐桌分布，H與P的大小相等，G與F的大小相等。

第2步，按照下式，根據(jù)生成向量的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的生成向量進(jìn)行更新。

其中，r_m表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的生成向量的第m個(gè)元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，γ₀＝1，K_T表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值，x_L.^(T+1)表示當(dāng)前子網(wǎng)絡(luò)第T+1層的層內(nèi)增廣矩陣針對(duì)第T+1層隱層維度求和的結(jié)果，L表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值，c₀＝1，ln表示對(duì)數(shù)符號(hào)，p_R^(T+1)表示第T+1層中服從負(fù)二項(xiàng)式分布的第R個(gè)樣本的參數(shù)，m與L的大小相等。

第3步，按照下式，根據(jù)參數(shù)的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)的參數(shù)進(jìn)行更新。

P(c_l^(T+1)|-)～Gamma(e₀+r_.,[f₀+θ_.o^(T)]^-1)

其中，c_l^(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值，l表示輸入數(shù)據(jù)中的第l個(gè)樣本，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，e₀＝1，r.表示頂層的生成向量針對(duì)頂層維度求和的結(jié)果，f₀＝1，K_T表示當(dāng)前子網(wǎng)絡(luò)頂層隱層的維度值，θ_Do^(T)表示當(dāng)前子網(wǎng)絡(luò)的頂層隱層單元矩陣的第D行、第o列元素，l與o的大小相等。

其中，p_r^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù)，p_y^(T-1)表示當(dāng)前子網(wǎng)絡(luò)的第T-1層中服從負(fù)二項(xiàng)式分布的第y個(gè)樣本的參數(shù)，c_u^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的伽瑪分布尺度參數(shù)的倒數(shù)值，u表示輸入數(shù)據(jù)中的第u個(gè)樣本，r、y與u的大小相等。

第4步，按照下式，根據(jù)隱層單元矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。

P(θ_o^(T)|-)～Gamma(r+m_F^(T)(T+1),[c_l^(T+1)-ln(1-p_r^(T))]^-1)

其中，θ_o^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的隱層單元矩陣第o列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，r表示頂層的生成向量，m_F^(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系，F(xiàn)表示輸入數(shù)據(jù)中的第F個(gè)樣本，c_l^(T⁺¹⁾表示當(dāng)前子網(wǎng)絡(luò)的第T+1層伽瑪分布尺度參數(shù)的倒數(shù)值，l表示第l個(gè)樣本，p_r^(T)表示當(dāng)前子網(wǎng)絡(luò)的第T層中服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù)，o、F、l與r的大小相等。

將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層。

對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。

所述對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。

第1步，按照下式，根據(jù)參數(shù)的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層上一層中對(duì)當(dāng)前訓(xùn)練層具有影響的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的參數(shù)進(jìn)行更新。

P(c_x^(t+1)|-)～Gamma(e₀+θ_.w^(t+1),[f₀+θ_.j^(t)]^-1)

其中，c_x^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層的上一層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值，x表示輸入數(shù)據(jù)中的第x個(gè)樣本，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，e₀＝1，θ_.w^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣針對(duì)第t+1層隱層維度求和的結(jié)果，w表示第w個(gè)樣本，f₀＝1，θ_.j^(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層隱層單元矩陣針對(duì)第t層隱層維度求和的結(jié)果，j表示第j個(gè)樣本，x、w與j的大小相等。

第2步，按照下式，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)進(jìn)行更新。

其中，p_A^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù)，p_B^(t-1)表示當(dāng)前子網(wǎng)絡(luò)的第t-1層中服從負(fù)二項(xiàng)式分布的第B個(gè)樣本的參數(shù)，c_E^(t)表示當(dāng)前子網(wǎng)絡(luò)的t層伽瑪分布尺度參數(shù)的倒數(shù)，E表示輸入數(shù)據(jù)中的第E個(gè)樣本，A、B與E的大小相等。

第3步，按照下式，根據(jù)隱層單元矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。

P(θ_j^(t)|-)～Gamma(Φ^(t+1)θ_w^(t+1)+m_f^(t)(t+1),[c_x^(t+1)-ln(1-p_A^(t))]^-1)

其中，θ_j^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的隱層單元矩陣第j列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，Φ^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層字典矩陣，θ_w^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層隱層單元矩陣第w列的所有元素，m_f^(t)(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t層層內(nèi)增廣矩陣與第t+1層層內(nèi)增廣矩陣之間的關(guān)系，f表示輸入數(shù)據(jù)中的第f個(gè)樣本，c_x^(t+1)表示當(dāng)前子網(wǎng)絡(luò)的第t+1層伽瑪分布尺度參數(shù)的倒數(shù)值，x表示第x個(gè)樣本，p_A^(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層中服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù)，j、w、f、x與A的大小相等。

對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新。

所述對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新的具體步驟如下。

第1步，按照下式，根據(jù)參數(shù)的后驗(yàn)概率，對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)和超參數(shù)進(jìn)行更新。

(p_c⁽²⁾|-)～Beta(a₀+m_.Q⁽¹⁾⁽²⁾,b₀+θ_.g⁽²⁾)

其中，p_c⁽²⁾表示當(dāng)前子網(wǎng)絡(luò)第2層更新后的服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù)，～表示等價(jià)關(guān)系符號(hào)，Beta表示貝塔分布，a₀表示貝塔分布參數(shù)1的初始值，a₀＝0.01，Q表示輸入數(shù)據(jù)中的第Q個(gè)樣本，K₀表示當(dāng)前子網(wǎng)絡(luò)輸入層的維度值，x_UO⁽¹⁾表示當(dāng)前子網(wǎng)絡(luò)輸入層的層內(nèi)增廣矩陣的第U行、第O列元素，b₀表示貝塔分布參數(shù)2的初始值，b₀＝0.01，θ_.g⁽²⁾表示當(dāng)前子網(wǎng)絡(luò)的第2層隱層單元矩陣針對(duì)第2層隱層維度求和的結(jié)果，g表示第g個(gè)樣本，c、Q與g的大小相等。

第2步，按照下式，對(duì)當(dāng)前子網(wǎng)絡(luò)的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的概率分布對(duì)應(yīng)的參數(shù)進(jìn)行更新。

c_d⁽²⁾＝(1-p_c⁽²⁾)/p_c⁽²⁾

其中，c_d⁽²⁾表示當(dāng)前子網(wǎng)絡(luò)第2層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值，d表示輸入數(shù)據(jù)中的第d個(gè)樣本，p_c⁽²⁾表示當(dāng)前子網(wǎng)絡(luò)的第2層中服從負(fù)二項(xiàng)式分布的第c個(gè)樣本的參數(shù)，d與c的大小相等。

步驟9，判斷當(dāng)前子網(wǎng)絡(luò)的訓(xùn)練次數(shù)是否等于訓(xùn)練迭代次數(shù)，若是，則執(zhí)行步驟10，否則，執(zhí)行步驟8。

步驟10，將訓(xùn)練后的當(dāng)前子網(wǎng)絡(luò)的字典矩陣和生成向量等全局參數(shù)保存在Matlab工作空間中，并作為當(dāng)前子網(wǎng)絡(luò)的全局參數(shù)。

步驟11，測(cè)試當(dāng)前子網(wǎng)絡(luò)。

將帶有標(biāo)號(hào)的訓(xùn)練集和測(cè)試集一起作為當(dāng)前子網(wǎng)絡(luò)的輸入數(shù)據(jù)。

將當(dāng)前子網(wǎng)絡(luò)的頂層作為當(dāng)前訓(xùn)練層，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。

對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。

第1步，按照下式，根據(jù)參數(shù)的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)的參數(shù)進(jìn)行更新。

P(c_l^(T+1)|-)～Gamma(e₀+r.,[f₀+θ_.o^(T)]^-1)

其中，c_l^(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T+1層更新后的伽瑪分布尺度參數(shù)的倒數(shù)值，l表示輸入數(shù)據(jù)中的第l個(gè)樣本，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，e₀＝1，r.表示頂層的生成向量針對(duì)頂層維度求和的結(jié)果，f₀＝1，K_T表示當(dāng)前子網(wǎng)絡(luò)頂層的維度值，θ_Do^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層的隱層單元矩陣的第D行、第o列元素，l與o的大小相等。

第2步，按照下式，根據(jù)隱層單元矩陣的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的隱層單元矩陣進(jìn)行更新。

P(θ_o^(T)|-)～Gamma(r+m_F^(T)(T+1),[c_l^(T+1)-ln(1-p_r^(T))]^-1)

其中，θ_o^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層更新后的隱層單元矩陣第o列的所有元素，～表示等價(jià)關(guān)系符號(hào)，Gamma表示伽瑪分布，r表示頂層的生成向量，m_F^(T)(T+1)表示當(dāng)前子網(wǎng)絡(luò)的第T層層內(nèi)增廣矩陣與第T+1層層內(nèi)增廣矩陣之間的關(guān)系，F(xiàn)表示輸入數(shù)據(jù)中的第F個(gè)樣本，c_l^(T⁺¹⁾表示當(dāng)前子網(wǎng)絡(luò)的第T+1層伽瑪分布尺度參數(shù)的倒數(shù)值，l表示第l個(gè)樣本，p_r^(T)表示當(dāng)前子網(wǎng)絡(luò)頂層中服從負(fù)二項(xiàng)式分布的第r個(gè)樣本的參數(shù)，o、F、l與r的大小相等。

將當(dāng)前子網(wǎng)絡(luò)的第T-1層、第T-2層直到第一層依次作為當(dāng)前訓(xùn)練層。

對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新。

對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)和隱層單元矩陣進(jìn)行更新的具體步驟如下。

第1步，按照下式，根據(jù)參數(shù)的后驗(yàn)概率，對(duì)當(dāng)前訓(xùn)練層的上一層中對(duì)當(dāng)前訓(xùn)練層具有影響的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的參數(shù)進(jìn)行更新。

P(c_x^(t+1)|-)～Gamma(e₀+θ_.w^(t+1),[f₀+θ_.j^(t)]^-1)

第2步，按照下式，對(duì)當(dāng)前訓(xùn)練層的泊松-伽瑪置信網(wǎng)絡(luò)參數(shù)中所包含的對(duì)應(yīng)參數(shù)進(jìn)行更新。

其中，p_A^(t)表示當(dāng)前子網(wǎng)絡(luò)的當(dāng)前訓(xùn)練層更新后的服從負(fù)二項(xiàng)式分布的第A個(gè)樣本的參數(shù)，p_B^(t-1)表示當(dāng)前子網(wǎng)絡(luò)的第t-1層中服從負(fù)二項(xiàng)式分布的第B個(gè)樣本的參數(shù)，c_E^(t)表示當(dāng)前子網(wǎng)絡(luò)的第t層伽瑪分布尺度參數(shù)的倒數(shù)值，E表示輸入數(shù)據(jù)中的第E個(gè)樣本，A、B與E的大小相等。

P(θ_j^(t)|-)～Gamma(Φ^(t+1)θ_w^(t+1)+m_f^(t)(t+1),[c_x^(t+1)-ln(1-p_A^(t))]^-1)

步驟12，判斷當(dāng)前子網(wǎng)絡(luò)的測(cè)試次數(shù)是否等于測(cè)試迭代次數(shù)，若是，執(zhí)行步驟13，否則，執(zhí)行步驟11。

步驟13，對(duì)文本進(jìn)行分類。

利用帶有標(biāo)號(hào)的訓(xùn)練集和更新后的隱層單元矩陣和參數(shù)，對(duì)支持向量機(jī)SVM分類器進(jìn)行訓(xùn)練。

支持向量機(jī)SVM分類器對(duì)測(cè)試集進(jìn)行分類，輸出預(yù)測(cè)的文本類別。

比較測(cè)試集的預(yù)測(cè)文本類別和標(biāo)準(zhǔn)文本類別，輸出當(dāng)前子網(wǎng)絡(luò)的文本分類正確率。

步驟14，判斷當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是否為5，若是，則執(zhí)行步驟15，否則，將下一個(gè)子網(wǎng)絡(luò)作為當(dāng)前子網(wǎng)絡(luò)，執(zhí)行步驟5。

步驟15，輸出文本分類正確率和預(yù)測(cè)文本類別。

從五個(gè)子網(wǎng)絡(luò)的文本分類正確率中選取最大的文本分類正確率。

輸出最大的文本分類正確率及其與該正確率對(duì)應(yīng)的子網(wǎng)絡(luò)的預(yù)測(cè)文本類別。

下面結(jié)合附圖2,3，對(duì)本發(fā)明的效果做進(jìn)一步說(shuō)明。

1.仿真實(shí)驗(yàn)條件：

仿真實(shí)驗(yàn)1：

采用20個(gè)新聞組數(shù)據(jù)庫(kù)(http://www.qwone.com/～jason/20Newsgroups/)，該數(shù)據(jù)庫(kù)共包含18,774篇文檔，涉及20種不同類別的新聞組，對(duì)應(yīng)的詞表大小為61,188，其中11,269篇文檔作為訓(xùn)練文本集，其余7,505篇文檔作為測(cè)試文本集。

預(yù)處理：去除掉20個(gè)新聞組數(shù)據(jù)庫(kù)對(duì)應(yīng)詞表中的停用詞和出現(xiàn)頻率低于5次的詞，則詞表大小變?yōu)?3,420。根據(jù)該詞表信息，采用詞袋方法分別將訓(xùn)練文本集和測(cè)試文本集中的每一篇文檔視為一個(gè)詞頻向量，從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息，得到訓(xùn)練集和測(cè)試集。

仿真實(shí)驗(yàn)2：

采用神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)(http://www.cs.nyu.edu/～roweis/data.html)，遍歷該數(shù)據(jù)庫(kù)，從每一類別中隨機(jī)抽出30％的文檔作為訓(xùn)練文本集，剩下70％的文檔作為測(cè)試文本集。

預(yù)處理：將神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)對(duì)應(yīng)詞表中出現(xiàn)頻率最高的前2000個(gè)詞，作為該數(shù)據(jù)庫(kù)的新詞表，再根據(jù)新詞表信息，采用詞袋方法分別將訓(xùn)練文本集和測(cè)試文本集中的每一篇文檔視為一個(gè)詞頻向量，從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息，得到測(cè)試過(guò)程的訓(xùn)練集和測(cè)試集。

2.仿真內(nèi)容及分析：

仿真1，用本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)進(jìn)行分類，具體參數(shù)設(shè)置如表1所示。

表1仿真1的具體參數(shù)設(shè)置一覽表

由于LDA主題模型在文本分析方面的性能相較于其他主題模型具有明顯優(yōu)勢(shì)，經(jīng)常被當(dāng)作此領(lǐng)域模型性能的比較基準(zhǔn)。而本發(fā)明的單層網(wǎng)絡(luò)模型等價(jià)于泊松因子分析PFA模型，在文本分析方面的性能近似于LDA主題模型，所以本發(fā)明對(duì)文本的分類正確率只需要和自身的單層網(wǎng)絡(luò)模型相比即可。

圖2表示使用本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)進(jìn)行文本分類，當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)和泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)分類正確率的影響。

圖2(a)表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)對(duì)分類正確率的影響。圖2(a)中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)，縱坐標(biāo)表示文本的分類正確率。以叉形標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是50，以圓圈標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是100，以方塊標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是200，以菱形標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是400，以三角標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是600，以六角星標(biāo)示的曲線表示所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值是800。

圖2(b)表示泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)分類正確率的影響，圖2(b)中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)的所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值，縱坐標(biāo)表示文本的分類正確率。以叉形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是1，以圓圈標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是2，以方塊標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是3，以菱形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是4，以三角標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是5。

從圖2可見，本發(fā)明對(duì)20個(gè)新聞組數(shù)據(jù)庫(kù)的分類正確率相較于現(xiàn)有技術(shù)有所提高。并且當(dāng)當(dāng)前子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定時(shí)，文本的分類正確率隨著當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)增加而增加。當(dāng)當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)固定時(shí)，文本的分類正確率隨著當(dāng)前子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值的增大而增加。特別地，當(dāng)單層子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定為100時(shí)，在此子網(wǎng)絡(luò)的基礎(chǔ)上增加一層或多層泊松-伽瑪置信網(wǎng)絡(luò)所獲得的新的子網(wǎng)絡(luò)，基于該子網(wǎng)絡(luò)文本的分類正確率略勝于第一個(gè)隱層的維度最大值固定為200的單層子網(wǎng)絡(luò)。當(dāng)單層子網(wǎng)絡(luò)第一個(gè)隱層的維度最大值固定為200時(shí)，在此子網(wǎng)絡(luò)的基礎(chǔ)上增加一層或多層泊松-伽瑪置信網(wǎng)絡(luò)所獲得的新的子網(wǎng)絡(luò)，基于該子網(wǎng)絡(luò)文本的分類正確率明顯高于第一個(gè)隱層的維度最大值固定為800的單層子網(wǎng)絡(luò)。

仿真2，基于神經(jīng)信息處理系統(tǒng)會(huì)議文集數(shù)據(jù)庫(kù)對(duì)本發(fā)明關(guān)于非監(jiān)督特征學(xué)習(xí)的能力進(jìn)行測(cè)評(píng)。

困惑度是衡量主題模型性能好壞的一種評(píng)價(jià)指標(biāo)，其數(shù)值越小越好。模型具體參數(shù)設(shè)置如表2所示。

表2仿真2的具體參數(shù)設(shè)置一覽表

圖3表示使用本發(fā)明基于神經(jīng)信息處理系統(tǒng)會(huì)議集數(shù)據(jù)庫(kù)對(duì)非監(jiān)督特征學(xué)習(xí)能力進(jìn)行測(cè)評(píng)，所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值對(duì)困惑度的影響。

圖3中的橫坐標(biāo)表示泊松-伽瑪置信網(wǎng)絡(luò)所有子網(wǎng)絡(luò)第一個(gè)隱層維度的最大值，縱坐標(biāo)表示該主題模型的困惑度。圖3中以叉形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是1，以圓圈標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是2，以方塊標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是3，以菱形標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是4，以三角標(biāo)示的曲線表示當(dāng)前子網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)是5。

從圖3可見，本發(fā)明在以困惑度為評(píng)價(jià)指標(biāo)方面，相較于其他主題模型，擁有更好的性能。

綜上所述，本發(fā)明與現(xiàn)有技術(shù)在文本分析方面的性能相比，不僅克服了現(xiàn)有技術(shù)中由于訓(xùn)練樣本存在噪音或者訓(xùn)練樣本太少，無(wú)法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行全面學(xué)習(xí)而造成的過(guò)擬合問(wèn)題，而且通過(guò)對(duì)泊松-伽瑪置信網(wǎng)絡(luò)進(jìn)行訓(xùn)練，獲得多層字典矩陣，從而能夠提取文本內(nèi)容的多層主題信息，更好地表達(dá)文本所蘊(yùn)含的語(yǔ)義內(nèi)容，提高了文本的分類正確率，并且在以困惑度為評(píng)價(jià)指標(biāo)方面，相較于其他主題模型，具有明顯優(yōu)勢(shì)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳渤;翟穎;叢玉來(lái);
技術(shù)所有人：西安電子科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

泊松模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于泊松?伽瑪置信網(wǎng)絡(luò)主題模型的文本分析方法與流程