技術(shù)總結(jié)
本發(fā)明提出一種Biterm主題模型的采樣加速方法,包括:為每個(gè)詞語(yǔ)創(chuàng)建alias?table,選取一個(gè)Biterm主題模型;從corpus?proposal中,為Biterm采樣一個(gè)新的主題,計(jì)接受概率;判斷該接受概率是否大于r;如果是,則更新Biterm,否則,不更新;從word?proposal中,為Biterm主題模型采樣另一個(gè)新的主題,計(jì)算接受概率;判斷該接受概率是否大于r;如果是,則更新Biterm主題模型,否則,不更新。本發(fā)明能夠優(yōu)化BTM的采樣時(shí)間復(fù)雜度,大幅度提高BTM的收斂速度,并且不影響最終的主題聚類質(zhì)量,不僅可以優(yōu)化短文主題挖掘的時(shí)間,同時(shí)也可以優(yōu)化長(zhǎng)文本主題挖掘的時(shí)間。
技術(shù)研發(fā)人員:徐華;賀星偉;鄧俊輝;孫曉民
受保護(hù)的技術(shù)使用者:清華大學(xué)
文檔號(hào)碼:201710039835
技術(shù)研發(fā)日:2017.01.19
技術(shù)公布日:2017.05.31