一種基于lda和vsm的中草藥相似文獻的推薦方法
【專利摘要】本發(fā)明公開了一種基于LDA和VSM的中草藥相似文獻的推薦方法,基于中草藥專業(yè)詞典采用IKAnalyzer對文獻的題目和摘要信息進行切詞,構(gòu)建出向量空間,再對向量空間進行降維,構(gòu)建出語義詞典,對詞典中的每一個詞項按序編號,通過每篇文檔基于該語義詞典進行矢量化,構(gòu)建出每篇文檔的詞向量,利用LDA的Gibbs采樣算法進行訓(xùn)練,得到每篇文檔在主題上的概率分布,再利用KL散度計算出每兩篇文檔之間的相似度值,同時對每篇文檔的詞向量基于詞頻計算余弦相似度,最后對兩種相似度進行聯(lián)合加權(quán),之后進行相似度排序,然后推薦出來。本發(fā)明可以將中草藥文獻中在內(nèi)容和主題上均相似的文獻推薦給用戶,推薦的結(jié)果更加貼近用戶需求。
【專利說明】—種基于LDA和VSM的中草藥相似文獻的推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機相似文獻推薦【技術(shù)領(lǐng)域】,尤其涉及一種基于LDA (LatentDirichlet Allocation,隱含狄利克雷分布)和VSM (Vector Space Model,向量空間模型)的中草藥相似文獻的推薦方法。
【背景技術(shù)】
[0002]用戶在做文獻搜索和詳細信息查看的時候,往往不滿足于一篇文獻所提供的信息,還希望能查看內(nèi)容相近的其他文獻。此時,就需要將與當前文獻在內(nèi)容上相似的文獻并推薦給用戶。
[0003]傳統(tǒng)的文獻相似度推薦方法,大多數(shù)基于字面文本內(nèi)容相似度的計算。例如基于TF-1DF的相似度計算方法是非常常用的方法,但這類算法的擁有一些缺陷,比如僅僅能感知文本的表面含義,無法在文本的隱含語義層面來進步挖掘相似性。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是為克服上述現(xiàn)有方法僅僅能感知文本的表面含義,無法在文本的隱含語義層面來進步挖掘相似性的缺陷,提供一種基于LDA和VSM的中草藥相似文獻的推薦方法。
[0005]本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種基于LDA和VSM的中草藥相似文獻推薦方法,包括以下步驟:
[0006]( I)針對已經(jīng)建立好的中草藥文獻庫,針對每一篇文檔,基于中草藥專用詞典,利用IKAnalyzer對文檔進行切詞,過濾掉停用詞、形容詞、介詞等無用詞項,保留動詞和名詞。切詞完畢后,構(gòu)建出整個中草藥文獻庫的詞向量空間,對已經(jīng)構(gòu)建好的詞向量空間逐詞進行編號處理,獲得映射詞典。
[0007](2)對每篇文獻基于映射詞典進行矢量化處理形成參數(shù)化的詞向量,再整合所有文獻的詞向量,形成“文檔-詞”矩陣。
[0008](3)針對“文檔-詞”矩陣,設(shè)定較優(yōu)的超參數(shù)α和β,利用主題模型LDA進行訓(xùn)練,獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。
[0009](4)對訓(xùn)練后得到的“文檔-主題”矩陣利用KL-Divergence計算任意兩篇文獻在主題上的相似度,構(gòu)建出相似文獻網(wǎng)絡(luò)。
[0010](5)針對前述已經(jīng)獲得的文獻詞向量,利用VSM計算任意兩篇文獻的余弦相似度。
[0011](6)通過對VSM和LDA兩種方法獲得的兩篇文獻的相似度進行加權(quán)處理,獲得最終的相似度值,并以此為依據(jù)進行相似文獻推薦。
[0012]本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果:
[0013]1.該方法能在主題和內(nèi)容上同時感知文獻內(nèi)容的相似性;
[0014]2.能夠應(yīng)對海量文本數(shù)據(jù)的應(yīng)用場景,提供快速高效的相似推薦;
[0015]3.對文本挖掘中的一詞多義具有魯棒性。【具體實施方式】
[0016]本發(fā)明基于LDA和VSM的中草藥相似文獻推薦方法,包括以下步驟:
[0017]1、針對已經(jīng)建立好的中草藥文獻庫,針對每一篇文檔,基于中草藥專用詞典,利用IKAnalyzer對文檔進行切詞,過濾掉停用詞、形容詞、介詞等無用詞項,保留動詞和名詞。切詞完畢后,構(gòu)建出整個中草藥文獻庫的詞向量空間,對已經(jīng)構(gòu)建好的詞向量空間逐詞進行編號處理,獲得映射詞典。
[0018]2、對每篇文獻基于映射詞典進行矢量化處理形成參數(shù)化的詞向量,再整合所有文獻的詞向量,形成“文檔-詞”矩陣。
[0019]3、針對“文檔-詞”矩陣,設(shè)定超參數(shù)α和β,利用主題模型LDA進行訓(xùn)練,獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。
[0020]4、對訓(xùn)練后得到的“文檔-主題”矩陣,利用KL-Divergence計算任意兩篇文獻在主題上的相似度,構(gòu)建出相似文獻網(wǎng)絡(luò)。
[0021]5、針對前述已經(jīng)獲得的文獻詞向量,利用VSM計算任意兩篇文獻的余弦相似度。
[0022]6、通過對VSM和LDA兩種方法獲得的兩篇文獻的相似度進行加權(quán)處理,獲得最終的相似度值,并以此為依據(jù)進行相似文獻推薦。
[0023]所述的步驟3通過以下子步驟來實現(xiàn):
[0024]3.1、針對“文檔-詞”矩陣,利用LDA的Gibbs采樣算法,在超參數(shù)α =0.0484和β =0.02的條件下,通過不斷的迭代訓(xùn)練,度過burn-1n階段,獲得收斂后每篇文獻的主題概率分布。采樣過程中,對每一篇文檔的每一個單詞采樣某主題的概率為:[0025]
【權(quán)利要求】
1.一種基于LDA和VSM的中草藥相似文獻推薦方法,其特征在于,包括以下步驟: (1)針對已經(jīng)建立好的中草藥文獻庫,針對每一篇文檔,基于中草藥專用詞典,利用IKAnalyzer對文檔進行切詞,過濾掉停用詞、形容詞、介詞等無用詞項,保留動詞和名詞。切詞完畢后,構(gòu)建出整個中草藥文獻庫的詞向量空間,對已經(jīng)構(gòu)建好的詞向量空間逐詞進行編號處理,獲得映射詞典。 (2)對每篇文獻基于映射詞典進行矢量化處理形成參數(shù)化的詞向量,再整合所有文獻的詞向量,形成“文檔-詞”矩陣。 (3)針對“文檔-詞”矩陣,設(shè)定較優(yōu)的超參數(shù)α和β,利用主題模型LDA進行訓(xùn)練,獲得訓(xùn)練后的“文檔-主題”矩陣和“主題-詞”矩陣的收斂結(jié)果。 (4)對訓(xùn)練后得到的“文檔-主題”矩陣利用KL-Divergence計算任意兩篇文獻在主題上的相似度,構(gòu)建出相似文獻網(wǎng)絡(luò)。 (5)針對前述已經(jīng)獲得的文獻詞向量,利用VSM計算任意兩篇文獻的余弦相似度。 (6)通過對VSM和LDA兩種方法獲得的兩篇文獻的相似度進行加權(quán)處理,獲得最終的相似度值,并以此為依據(jù)進行相似文獻推薦。
2.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻推薦方法,其特征在于,所述的步驟(3)包括: (3.1)針對“文檔-詞”矩陣,利用LDA的Gibbs采樣算法,在超參數(shù)α =0.0484和β =0.02的條件下,通過不斷的迭代訓(xùn)練,度過burn-1n階段,獲得收斂后每篇文獻的主題概率分布。采樣過程中,對每一篇文檔的每一個單詞采樣某主題的概率為:
3.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻推薦方法,其特征在于,所述的步驟(4)包括:利用KL-Divergence來計算任意兩篇文獻之間的主題分布相似度,KL-Divergence的公式如下:
4.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻推薦方法,其特征在于,所述的步驟(5)包括:利用VSM計算任意兩篇文獻的余弦相似度,其中文獻詞向量的每一維的權(quán)值采用TF-1DF算法來度量。TF采用如下公式計算:
5.根據(jù)權(quán)利要求1所述的一種基于LDA和VSM的中草藥相似文獻推薦方法,其特征在于,所述的步驟(6)包括:最終任意兩篇文檔i,j之間的相似度計算公式如下:
Similarity(i, j) = (1-LDASimilarity(i, j)) * a +VSMSimilarity(i, j)* β
依據(jù)相似度計算公式,對相似文獻計算結(jié)果排序,推薦給用戶。
【文檔編號】G06F17/30GK103823848SQ201410046769
【公開日】2014年5月28日 申請日期:2014年2月11日 優(yōu)先權(quán)日:2014年2月11日
【發(fā)明者】張引, 魏寶剛, 莊越挺, 凌超, 申晨, 張月嬌 申請人:浙江大學(xué)