1.一種Biterm主題模型的采樣加速方法,其特征在于,包括以下步驟:
S1:基于Alias method方法,為每個(gè)詞語創(chuàng)建alias table,并選取一個(gè)Biterm主題模型;
S2:從corpus proposal中,為所述Biterm主題模型采樣一個(gè)新的主題,并計(jì)算該主題的接受概率;
S3:判斷該接受概率是否大于隨機(jī)獲取的隨機(jī)數(shù)r,其中,r大于0且小于1;
S4:如果是,則更新所述Biterm主題模型,否則,不更新所述Biterm主題模型;
S5:從word proposal中,為所述Biterm主題模型采樣另一個(gè)新的主題,并計(jì)算該主題的接受概率;
S6:判斷該接受概率是否大于所述隨機(jī)數(shù)r;
S7:如果是,則更新所述Biterm主題模型,否則,不更新所述Biterm主題模型。
2.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,還包括:在連續(xù)使用K次alias table后,更新所述alias table。
3.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,根據(jù)主題的采樣推斷的條件概率得到所述corpus proposal和word proposal。
4.根據(jù)權(quán)利要求3所述的Biterm主題模型的采樣加速方法,其特征在于,所述條件概率為:
其中,所述(nz+α)為所述corpus proposal,所述和為所述word proposal。
5.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,構(gòu)造所述alias table的時(shí)間復(fù)雜度為O(K),其中,K為設(shè)定的主題數(shù)目。
6.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,在O(1)時(shí)間內(nèi)為所述Biterm主題模型采樣新的主題。
7.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,從所述corpus proposal中采樣的一個(gè)新的主題的接受概率為:
8.根據(jù)權(quán)利要求1所述的Biterm主題模型的采樣加速方法,其特征在于,從所述word proposal中采樣的另一個(gè)新的主題的接受概率為: