一種基于混合距離依賴中餐館過程的層次化主題建模方法

文檔序號(hào)：6636347閱讀：617來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于混合距離依賴中餐館過程的層次化主題建模方法
【專利摘要】本發(fā)明公開了一種基于混合距離依賴中餐館過程的層次化主題建模方法，包括如下步驟：首先用自然語言處理（NLP）工具從新聞文檔中提取出事件要素；然后利用這些要素和文檔內(nèi)容作為產(chǎn)生文檔之間鏈接的依據(jù)；在模型的估計(jì)過程中這些鏈接和他們相連的點(diǎn)（即文檔）構(gòu)成一個(gè)有向無環(huán)圖（DAG），亦即事件發(fā)展結(jié)構(gòu)圖；最后將類似的事件聚集到一起，形成主題。本發(fā)明具有的有益效果有：能夠在保證模型簡(jiǎn)單靈活的前提下涵蓋多個(gè)事件要素；模型的輸出既是層級(jí)的又是結(jié)構(gòu)化的，這保證了既能找出事件，又能夠發(fā)掘出其主題；對(duì)于一個(gè)特定的事件，可以描述出它的發(fā)展過程；具有良好的可擴(kuò)展性，可作為多種應(yīng)用的算法基礎(chǔ)。
【專利說明】一種基于混合距離依賴中餐館過程的層次化主題建模方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及主題模型，尤其涉及一種基于混合距離依賴中餐館過程的層次化主題建模方法。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，產(chǎn)生了海量的關(guān)系錯(cuò)綜復(fù)雜的文本數(shù)據(jù)，這讓將這些文本以有意義的方式組織并展現(xiàn)出來成為了巨大的挑戰(zhàn)。在很多應(yīng)用領(lǐng)域，如新聞文本分析，為了提取出關(guān)鍵事件并生成相關(guān)專題，往往需要通過人工的閱讀、篩選、排序和組合等費(fèi)時(shí)費(fèi)力的工作。
[0003] 很多研宄人員都嘗試通過開發(fā)一些自動(dòng)文本分析算法，用機(jī)器去發(fā)掘關(guān)鍵事件和隱藏的主題，以此來優(yōu)化上述過程。其中，一些如LDA(LatentDirichletAllocation，隱狄利克雷分布）這樣的統(tǒng)計(jì)主題模型以及它們的一些變體都是比較有效的一些方法。它們都基于詞袋（bag-of-words)假設(shè)，而且認(rèn)為"文本一主題"、"主題一詞"服從"狄利克雷一多項(xiàng)式"共軛先驗(yàn)分布，這也就意味著每篇文本之間是條件獨(dú)立的。
[0004] 上述假設(shè)完全忽視了文本之間在時(shí)間和空間上的相互依賴關(guān)系，這就導(dǎo)致這些方法無法生成關(guān)鍵事件序列。同時(shí)LDA無法區(qū)分不同粒度的主題。因此，人們陸續(xù)提出了一些層次主題建模方法，如hLDA、nDP、TSSB等模型來解決主題粒度的問題，這些模型采用nDP 先驗(yàn)或nCRP先驗(yàn)，可以產(chǎn)生層次化的多粒度的主題。
[0005] 在應(yīng)用主題模型處理新聞文本的過程中，往往很難將算法得到的主題與現(xiàn)實(shí)世界中的話題或事件對(duì)應(yīng)起來。例如，一個(gè)真實(shí)的編輯在整理一個(gè)事件材料的時(shí)候，他需要將包含事件要素（如時(shí)間、地點(diǎn)、人物等）的文本組織在一起。然而很多主題模型產(chǎn)生的主題往往不能覆蓋全部要素。為了能夠更加適用于實(shí)際應(yīng)用場(chǎng)景，一些主題模型甚至又引入了如時(shí)間戳、作者、地理信息等元數(shù)據(jù)信息。但它們的副作用也很快就顯現(xiàn)出來了：1)監(jiān)督信息并不總是可以得到的；2)向模型中引入過多的因子會(huì)導(dǎo)致建模變得非常復(fù)雜，求解困難，很難真正實(shí)施應(yīng)用。
[0006] 總而言之，針對(duì)新聞文本建模，目前沒有一個(gè)統(tǒng)一的主題模型可以同時(shí)解決以下幾個(gè)問題：1)在保證模型簡(jiǎn)單靈活的前提下涵蓋多個(gè)新聞事件要素。2)既找出關(guān)鍵事件又能同時(shí)發(fā)掘他們對(duì)應(yīng)的主題。3)給定一個(gè)特定事件，模型能夠描述出它的發(fā)展過程。4)自動(dòng)估計(jì)關(guān)鍵事件的數(shù)量以及他們主題的數(shù)目。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足，提供一種基于混合距離依賴中餐館過程的層次化主題建模方法。
[0008] 基于混合距離依賴中餐館過程的層次化主題建模方法包括如下步驟：
[0009] 1)對(duì)新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理，提取事件要素實(shí)體詞，包括時(shí)間、地點(diǎn)、人物；
[0010] 2)根據(jù)實(shí)體詞和文檔內(nèi)容計(jì)算出每?jī)蓚€(gè)文檔之間的相似度，根據(jù)基于相對(duì)熵的方法計(jì)算出每?jī)蓚€(gè)事件之間的相似度，事件是指屬于同一個(gè)類的所有文檔；
[0011] 3)利用以上兩種相似度，結(jié)合混合距離依賴的中餐館過程先驗(yàn)，通過坍縮吉布斯采樣，對(duì)每個(gè)文檔選擇與其最相似的文檔并連接，即得到每個(gè)文檔的鏈接，如果選擇的文檔是自己則進(jìn)一步選擇與該文檔最相似的一個(gè)主題；
[0012] 4)重復(fù)步驟3)迭代地確定所有鏈接和主題；
[0013] 5)根據(jù)鏈接和主題的最終分配結(jié)果得到事件的發(fā)展結(jié)構(gòu)圖及其所屬的主題。
[0014] 所述的步驟1)包括：
[0015] (1)采用自然語言處理工具對(duì)文檔進(jìn)行分詞，以得到文檔中出現(xiàn)過的詞；
[0016] (2)去除其中的停詞以及頻數(shù)過低的生僻詞，組成詞匯表；
[0017] (3)根據(jù)詞匯表將文本文檔轉(zhuǎn)化成向量；
[0018] (4)采用命名實(shí)體提取工具提取出文檔中出現(xiàn)的實(shí)體及其相關(guān)屬性。
[0019] 所述的步驟2)包括：
[0020] (1)定義文檔X和y的相似度為^4〃）= | # + #，其中exy表示在文檔X和文檔y中出現(xiàn)過的共有實(shí)體的數(shù)量，IXL表示文檔X中出現(xiàn)過的所有實(shí)體的數(shù)量；
[0021] ⑵定義dSx,y為文檔X和y基于共現(xiàn)實(shí)體的距離，且滿足哫,v 4f5 (:M/);
[0022] (3)用一個(gè)帶權(quán)重的窗口衰減方程作為距離dSx;y上的衰減方程：
[0023] Fs(x,y,dSx，y) =l[0〈tx-ty〈a]dSx，y，其中 1 □是一個(gè)示性函數(shù)，tx是文檔X的時(shí)間戳，a是時(shí)間窗口大??；
[0024] (4)文檔的集合構(gòu)成了事件Si，將它定義為一個(gè)平滑多項(xiàng)式分布，用相對(duì)熵的方法來度量它們之間的相似度，定義吖為它們之間的距離，其中fT(Si,Sj)是基于對(duì) 稱相對(duì)熵的距離函數(shù)，如對(duì)稱KL距離KL(H) +I唯4)° 2
[0025] 所述的步驟3)包括：
[0026] (1)對(duì)于文檔集合中的每一個(gè)文檔xd，從事件層距離依賴中餐館過程ddCRP(ns; a) (ns= {Fs,dS})中采樣得到指向該文檔最相關(guān)文檔的鏈接cd，如果cd指向文檔xd自己，則繼續(xù)從主題層距離依賴中餐館過程CMCRP(IIw3I)(nT= {FT，dT})中采樣得到文檔&的主題4(以'否則其主題指向義⑴以)，其中方程f；(l)返回鏈接1所指向的文檔所在類的編號(hào)，fs (c)返回事件類c中指向自己的那個(gè)鏈接的編號(hào)；
[0027] (2)在事件層和主題層的相似度變量S= {S1:M}和T= {Τ1:κ}都是隱變量，且都是多項(xiàng)式分布，它們都能被積分消除，因此只需要采樣文檔鏈接c= }和事件的主題ζ= {z1:M};
[0028] (3)設(shè)xd是文檔集合中的文檔d，cd是文檔X,與其最相近文檔之間的鏈接，y是通過鏈接Cd與文檔Xd相連的文檔，X。是一組以多項(xiàng)式分布C分布的數(shù)據(jù)集合，α表示事件層和主題層的聚類集中程度參數(shù)，控制事件的個(gè)數(shù)，那么對(duì)于文檔集合中的每一個(gè)文檔xd，能根據(jù)以下公式采樣得到鏈接cd:
[0029；

【權(quán)利要求】
1. 一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于包括如下步驟： 1) 對(duì)新聞文檔數(shù)據(jù)進(jìn)行預(yù)處理，提取事件要素實(shí)體詞，包括時(shí)間、地點(diǎn)、人物； 2) 根據(jù)實(shí)體詞和文檔內(nèi)容計(jì)算出每?jī)蓚€(gè)文檔之間的相似度，根據(jù)基于相對(duì)熵的方法計(jì) 算出每?jī)蓚€(gè)事件之間的相似度，事件是指屬于同一個(gè)類的所有文檔； 3) 利用以上兩種相似度，結(jié)合混合距離依賴的中餐館過程先驗(yàn)，通過坍縮吉布斯采樣，對(duì)每個(gè)文檔選擇與其最相似的文檔并連接，即得到每個(gè)文檔的鏈接，如果選擇的文檔是自己則進(jìn)一步選擇與該文檔最相似的一個(gè)主題； 4) 重復(fù)步驟3)迭代地確定所有鏈接和主題； 5) 根據(jù)鏈接和主題的最終分配結(jié)果得到事件的發(fā)展結(jié)構(gòu)圖及其所屬的主題。
2. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于所述的步驟1)包括： (1) 采用自然語言處理工具對(duì)文檔進(jìn)行分詞，以得到文檔中出現(xiàn)過的詞； (2) 去除其中的停詞以及頻數(shù)過低的生僻詞，組成詞匯表； (3) 根據(jù)詞匯表將文本文檔轉(zhuǎn)化成向量； (4) 采用命名實(shí)體提取工具提取出文檔中出現(xiàn)的實(shí)體及其相關(guān)屬性。
3. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于所述的步驟2)包括：
4. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于所述的步驟3)包括： (1)對(duì)于文檔集合中的每一個(gè)文檔xd，從事件層距離依賴中餐館過程ddCRP(ns;a) 中采樣得到指向該文檔最相關(guān)文檔的鏈接cd，如果(^指向文檔xd自己，則繼續(xù)從主題層距離依賴中餐館過程ddCRP(nT; )中采樣得到文檔xd的主題：J'否則其主題％d指向 4(/九)）'其中ns= {Fs，dS}，nT= {FT，dT}，方程f。⑴返回鏈接1所指向的文檔所在類的編號(hào)，fs(c)返回事件類c中指向自己的那個(gè)鏈接的編號(hào)，a是控制事件層聚類集中程度的超參數(shù)，是控制主題層聚類集中程度的超參數(shù)； (2)S= {S1:M}和T= {T1:K}分別是表示事件和主題的多項(xiàng)式分布，它們都是隱變量，它們都能被積分消除，因此只需要采樣文檔鏈接c= }和事件的主題z= {z1:M}，其中Nd 是數(shù)據(jù)集中所有文檔的個(gè)數(shù)； (3) 設(shè)xd是文檔集合中的文檔d，cd是文檔x,與其最相近文檔之間的鏈接，y是通過鏈接^與文檔xd相連的文檔，X。是一組以多項(xiàng)式分布。分布的數(shù)據(jù)集合，a是控制事件層聚類集中程度的超參數(shù)，控制事件的個(gè)數(shù)，0 = 那么對(duì)于文檔集合中的每一個(gè)文檔 xd，能根據(jù)以下公式采樣得到鏈接cd:
(4) 設(shè)zm是事件Sm的主題，dT表示基于相關(guān)度熵的距離，31是控制主題層聚類集中程度的超參數(shù)，控制主題的個(gè)數(shù)，取值范圍是[〇, 1]，0是狄利克雷平滑參數(shù)，i和j是主題的編號(hào)，類似地，能根據(jù)以下公式采樣得到文檔的主題z:

5. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于所述的步驟4)包括： (1) 完成上一步采樣和更新過程后檢查算法是否滿足收斂條件或是否到達(dá)最大迭代次數(shù)，未滿足則返回步驟3); (2) 算法滿足收斂條件或達(dá)到最大迭代次數(shù)后，輸出所有的文檔鏈接c以及文檔的主題z〇
6. 根據(jù)權(quán)利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法，其特征在于所述的步驟5)包括： (1) 將通過鏈接直接相連的文檔提取出來，即構(gòu)成了包括發(fā)生發(fā)展過程的事件； (2) 將聚集到一起的所有事件提取出來作為主題；
【文檔編號(hào)】G06F17/30GK104484346SQ201410706246
【公開日】2015年4月1日申請(qǐng)日期:2014年11月28日優(yōu)先權(quán)日:2014年11月28日
【發(fā)明者】湯斯亮, 吳飛, 李斯, 魯偉明, 邵健, 莊越挺申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：湯斯亮;吳飛;李斯;魯偉明;邵健;莊越挺;
技術(shù)所有人：浙江大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于混合距離依賴中餐館過程的層次化主題建模方法