一種基于混合距離依賴中餐館過程的層次化主題建模方法
【專利摘要】本發(fā)明公開了一種基于混合距離依賴中餐館過程的層次化主題建模方法,包括如下步驟:首先用自然語言處理(NLP)工具從新聞文檔中提取出事件要素;然后利用這些要素和文檔內(nèi)容作為產(chǎn)生文檔之間鏈接的依據(jù);在模型的估計(jì)過程中這些鏈接和他們相連的點(diǎn)(即文檔)構(gòu)成一個(gè)有向無環(huán)圖(DAG),亦即事件發(fā)展結(jié)構(gòu)圖;最后將類似的事件聚集到一起,形成主題。本發(fā)明具有的有益效果有:能夠在保證模型簡(jiǎn)單靈活的前提下涵蓋多個(gè)事件要素;模型的輸出既是層級(jí)的又是結(jié)構(gòu)化的,這保證了既能找出事件,又能夠發(fā)掘出其主題;對(duì)于一個(gè)特定的事件,可以描述出它的發(fā)展過程;具有良好的可擴(kuò)展性,可作為多種應(yīng)用的算法基礎(chǔ)。
【專利說明】一種基于混合距離依賴中餐館過程的層次化主題建模方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及主題模型,尤其涉及一種基于混合距離依賴中餐館過程的層次化主題 建模方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了海量的關(guān)系錯(cuò)綜復(fù)雜的文本數(shù)據(jù),這讓將這 些文本以有意義的方式組織并展現(xiàn)出來成為了巨大的挑戰(zhàn)。在很多應(yīng)用領(lǐng)域,如新聞文本 分析,為了提取出關(guān)鍵事件并生成相關(guān)專題,往往需要通過人工的閱讀、篩選、排序和組合 等費(fèi)時(shí)費(fèi)力的工作。
[0003] 很多研宄人員都嘗試通過開發(fā)一些自動(dòng)文本分析算法,用機(jī)器去發(fā)掘關(guān)鍵事件和 隱藏的主題,以此來優(yōu)化上述過程。其中,一些如LDA(LatentDirichletAllocation,隱狄 利克雷分布)這樣的統(tǒng)計(jì)主題模型以及它們的一些變體都是比較有效的一些方法。它們都 基于詞袋(bag-of-words)假設(shè),而且認(rèn)為"文本一主題"、"主題一詞"服從"狄利克雷一多 項(xiàng)式"共軛先驗(yàn)分布,這也就意味著每篇文本之間是條件獨(dú)立的。
[0004] 上述假設(shè)完全忽視了文本之間在時(shí)間和空間上的相互依賴關(guān)系,這就導(dǎo)致這些方 法無法生成關(guān)鍵事件序列。同時(shí)LDA無法區(qū)分不同粒度的主題。因此,人們陸續(xù)提出了一 些層次主題建模方法,如hLDA、nDP、TSSB等模型來解決主題粒度的問題,這些模型采用nDP 先驗(yàn)或nCRP先驗(yàn),可以產(chǎn)生層次化的多粒度的主題。
[0005] 在應(yīng)用主題模型處理新聞文本的過程中,往往很難將算法得到的主題與現(xiàn)實(shí)世界 中的話題或事件對(duì)應(yīng)起來。例如,一個(gè)真實(shí)的編輯在整理一個(gè)事件材料的時(shí)候,他需要將包 含事件要素(如時(shí)間、地點(diǎn)、人物等)的文本組織在一起。然而很多主題模型產(chǎn)生的主題往 往不能覆蓋全部要素。為了能夠更加適用于實(shí)際應(yīng)用場(chǎng)景,一些主題模型甚至又引入了如 時(shí)間戳、作者、地理信息等元數(shù)據(jù)信息。但它們的副作用也很快就顯現(xiàn)出來了 :1)監(jiān)督信息 并不總是可以得到的;2)向模型中引入過多的因子會(huì)導(dǎo)致建模變得非常復(fù)雜,求解困難, 很難真正實(shí)施應(yīng)用。
[0006] 總而言之,針對(duì)新聞文本建模,目前沒有一個(gè)統(tǒng)一的主題模型可以同時(shí)解決以下 幾個(gè)問題:1)在保證模型簡(jiǎn)單靈活的前提下涵蓋多個(gè)新聞事件要素。2)既找出關(guān)鍵事件又 能同時(shí)發(fā)掘他們對(duì)應(yīng)的主題。3)給定一個(gè)特定事件,模型能夠描述出它的發(fā)展過程。4)自 動(dòng)估計(jì)關(guān)鍵事件的數(shù)量以及他們主題的數(shù)目。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于混合距離依賴中餐館過程的 層次化主題建模方法。
[0008] 基于混合距離依賴中餐館過程的層次化主題建模方法包括如下步驟:
[0009] 1)對(duì)新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理,提取事件要素實(shí)體詞,包括時(shí)間、地點(diǎn)、人物;
[0010] 2)根據(jù)實(shí)體詞和文檔內(nèi)容計(jì)算出每?jī)蓚€(gè)文檔之間的相似度,根據(jù)基于相對(duì)熵的方 法計(jì)算出每?jī)蓚€(gè)事件之間的相似度,事件是指屬于同一個(gè)類的所有文檔;
[0011] 3)利用以上兩種相似度,結(jié)合混合距離依賴的中餐館過程先驗(yàn),通過坍縮吉布斯 采樣,對(duì)每個(gè)文檔選擇與其最相似的文檔并連接,即得到每個(gè)文檔的鏈接,如果選擇的文檔 是自己則進(jìn)一步選擇與該文檔最相似的一個(gè)主題;
[0012] 4)重復(fù)步驟3)迭代地確定所有鏈接和主題;
[0013] 5)根據(jù)鏈接和主題的最終分配結(jié)果得到事件的發(fā)展結(jié)構(gòu)圖及其所屬的主題。
[0014] 所述的步驟1)包括:
[0015] (1)采用自然語言處理工具對(duì)文檔進(jìn)行分詞,以得到文檔中出現(xiàn)過的詞;
[0016] (2)去除其中的停詞以及頻數(shù)過低的生僻詞,組成詞匯表;
[0017] (3)根據(jù)詞匯表將文本文檔轉(zhuǎn)化成向量;
[0018] (4)采用命名實(shí)體提取工具提取出文檔中出現(xiàn)的實(shí)體及其相關(guān)屬性。
[0019] 所述的步驟2)包括:
[0020] (1)定義文檔X和y的相似度為^4〃)= | # + #,其中exy表示在文檔X和文 檔y中出現(xiàn)過的共有實(shí)體的數(shù)量,IXL表示文檔X中出現(xiàn)過的所有實(shí)體的數(shù)量;
[0021] ⑵定義dSx,y為文檔X和y基于共現(xiàn)實(shí)體的距離,且滿足哫,v 4f5 (:M/);
[0022] (3)用一個(gè)帶權(quán)重的窗口衰減方程作為距離dSx;y上的衰減方程:
[0023] Fs(x,y,dSx,y) =l[0〈tx-ty〈a]dSx,y,其中 1 □是一個(gè)示性函數(shù),tx是文檔X的時(shí)間 戳,a是時(shí)間窗口大??;
[0024] (4)文檔的集合構(gòu)成了事件Si,將它定義為一個(gè)平滑多項(xiàng)式分布,用相對(duì)熵的方法 來度量它們之間的相似度,定義吖為它們之間的距離,其中fT(Si,Sj)是基于對(duì) 稱相對(duì)熵的距離函數(shù),如對(duì)稱KL距離KL(H) +I唯4)° 2
[0025] 所述的步驟3)包括:
[0026] (1)對(duì)于文檔集合中的每一個(gè)文檔xd,從事件層距離依賴中餐館過程ddCRP(ns; a) (ns= {Fs,dS})中采樣得到指向該文檔最相關(guān)文檔的鏈接cd,如果cd指向文檔xd自己, 則繼續(xù)從主題層距離依賴中餐館過程CMCRP(IIw3I)(nT= {FT,dT})中采樣得到文檔&的 主題4(以'否則其主題指向義⑴以),其中方程f;(l)返回鏈接1所指向的文檔所在類 的編號(hào),fs (c)返回事件類c中指向自己的那個(gè)鏈接的編號(hào);
[0027] (2)在事件層和主題層的相似度變量S= {S1:M}和T= {Τ1:κ}都是隱變量,且都是 多項(xiàng)式分布,它們都能被積分消除,因此只需要采樣文檔鏈接c= }和事件的主題ζ= {z1:M};
[0028] (3)設(shè)xd是文檔集合中的文檔d,cd是文檔X,與其最相近文檔之間的鏈接,y是通 過鏈接Cd與文檔Xd相連的文檔,X。是一組以多項(xiàng)式分布C分布的數(shù)據(jù)集合,α表示事件層 和主題層的聚類集中程度參數(shù),控制事件的個(gè)數(shù),那么對(duì)于文檔集合中的每一個(gè)文檔xd,能 根據(jù)以下公式采樣得到鏈接cd:
[0029;
【權(quán)利要求】
1. 一種基于混合距離依賴中餐館過程的層次化主題建模方法,其特征在于包括如下步 驟: 1) 對(duì)新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理,提取事件要素實(shí)體詞,包括時(shí)間、地點(diǎn)、人物; 2) 根據(jù)實(shí)體詞和文檔內(nèi)容計(jì)算出每?jī)蓚€(gè)文檔之間的相似度,根據(jù)基于相對(duì)熵的方法計(jì) 算出每?jī)蓚€(gè)事件之間的相似度,事件是指屬于同一個(gè)類的所有文檔; 3) 利用以上兩種相似度,結(jié)合混合距離依賴的中餐館過程先驗(yàn),通過坍縮吉布斯采樣, 對(duì)每個(gè)文檔選擇與其最相似的文檔并連接,即得到每個(gè)文檔的鏈接,如果選擇的文檔是自 己則進(jìn)一步選擇與該文檔最相似的一個(gè)主題; 4) 重復(fù)步驟3)迭代地確定所有鏈接和主題; 5) 根據(jù)鏈接和主題的最終分配結(jié)果得到事件的發(fā)展結(jié)構(gòu)圖及其所屬的主題。
2. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟1)包括: (1) 采用自然語言處理工具對(duì)文檔進(jìn)行分詞,以得到文檔中出現(xiàn)過的詞; (2) 去除其中的停詞以及頻數(shù)過低的生僻詞,組成詞匯表; (3) 根據(jù)詞匯表將文本文檔轉(zhuǎn)化成向量; (4) 采用命名實(shí)體提取工具提取出文檔中出現(xiàn)的實(shí)體及其相關(guān)屬性。
3. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟2)包括:
4. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟3)包括: (1)對(duì)于文檔集合中的每一個(gè)文檔xd,從事件層距離依賴中餐館過程ddCRP(ns;a) 中采樣得到指向該文檔最相關(guān)文檔的鏈接cd,如果(^指向文檔xd自己,則繼續(xù)從主題層距 離依賴中餐館過程ddCRP(nT; )中采樣得到文檔xd的主題:J'否則其主題%d指向 4(/九))'其中ns= {Fs,dS},nT= {FT,dT},方程f。⑴返回鏈接1所指向的文檔所在類的 編號(hào),fs(c)返回事件類c中指向自己的那個(gè)鏈接的編號(hào),a是控制事件層聚類集中程度的 超參數(shù),是控制主題層聚類集中程度的超參數(shù); (2)S= {S1:M}和T= {T1:K}分別是表示事件和主題的多項(xiàng)式分布,它們都是隱變量,它 們都能被積分消除,因此只需要采樣文檔鏈接c= }和事件的主題z= {z1:M},其中Nd 是數(shù)據(jù)集中所有文檔的個(gè)數(shù); (3) 設(shè)xd是文檔集合中的文檔d,cd是文檔x,與其最相近文檔之間的鏈接,y是通過鏈 接^與文檔xd相連的文檔,X。是一組以多項(xiàng)式分布。分布的數(shù)據(jù)集合,a是控制事件層聚 類集中程度的超參數(shù),控制事件的個(gè)數(shù),0 = 那么對(duì)于文檔集合中的每一個(gè)文檔 xd,能根據(jù)以下公式采樣得到鏈接cd:
(4) 設(shè)zm是事件Sm的主題,dT表示基于相關(guān)度熵的距離,31是控制主題層聚類集中程 度的超參數(shù),控制主題的個(gè)數(shù),取值范圍是[〇, 1],0是狄利克雷平滑參數(shù),i和j是主題的 編號(hào),類似地,能根據(jù)以下公式采樣得到文檔的主題z:
5. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟4)包括: (1) 完成上一步采樣和更新過程后檢查算法是否滿足收斂條件或是否到達(dá)最大迭代次 數(shù),未滿足則返回步驟3); (2) 算法滿足收斂條件或達(dá)到最大迭代次數(shù)后,輸出所有的文檔鏈接c以及文檔的主 題z〇
6. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟5)包括: (1) 將通過鏈接直接相連的文檔提取出來,即構(gòu)成了包括發(fā)生發(fā)展過程的事件; (2) 將聚集到一起的所有事件提取出來作為主題;
【文檔編號(hào)】G06F17/30GK104484346SQ201410706246
【公開日】2015年4月1日 申請(qǐng)日期:2014年11月28日 優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】湯斯亮, 吳飛, 李斯, 魯偉明, 邵健, 莊越挺 申請(qǐng)人:浙江大學(xué)