技術(shù)總結(jié)
一種基于泊松?伽瑪置信網(wǎng)絡(luò)主題模型的文本分析方法,主要解決現(xiàn)有技術(shù)中面臨的過擬合問題和只能對(duì)文本內(nèi)容的單層主題信息進(jìn)行提取的問題。主要步驟是:建立訓(xùn)練集和測(cè)試集;設(shè)置泊松?伽瑪置信網(wǎng)絡(luò)及其參數(shù);對(duì)泊松?伽瑪置信網(wǎng)絡(luò)進(jìn)行分層;對(duì)五個(gè)子網(wǎng)絡(luò)的參數(shù)分別進(jìn)行初始化;訓(xùn)練當(dāng)前子網(wǎng)絡(luò);保存訓(xùn)練后的當(dāng)前子網(wǎng)絡(luò)的全局參數(shù);測(cè)試當(dāng)前子網(wǎng)絡(luò);對(duì)文本進(jìn)行分類;輸出文本分類正確率和預(yù)測(cè)文本類別。本發(fā)明屬于貝葉斯網(wǎng)絡(luò)中的一種,采用逐層訓(xùn)練和聯(lián)合訓(xùn)練的方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用吉布斯采樣方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行學(xué)習(xí),從而獲得多層字典矩陣,完成對(duì)文本內(nèi)容的多層主題信息的提取。
技術(shù)研發(fā)人員:陳渤;翟穎;叢玉來
受保護(hù)的技術(shù)使用者:西安電子科技大學(xué)
文檔號(hào)碼:201610828754
技術(shù)研發(fā)日:2016.09.18
技術(shù)公布日:2017.02.22