主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法
【專利摘要】本發(fā)明涉及主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,屬于計算機應(yīng)用技術(shù)領(lǐng)域。本發(fā)明包括預(yù)處理、LDA建模及上下文分析和標(biāo)簽提取。所述預(yù)處理包括去掉低頻詞、去掉停止詞及去掉標(biāo)記信息所述停止詞是幾乎不攜帶任何信息的助詞、反映句子語法結(jié)構(gòu)的詞語和所有虛詞以及標(biāo)點符號;LDA建模過程為:文件經(jīng)過LDA模型處理后,得到兩個矩陣:一個是N×K的“文檔?主題”矩陣,矩陣的每個元素對應(yīng)的是每個文檔的隱含主題分布;另一個是K×M“主題?詞”矩陣,矩陣的每個元素對應(yīng)的是每個主題的詞分布;相比目前的基于統(tǒng)計的方法,本發(fā)明不僅考慮了文檔中詞和詞的關(guān)聯(lián),也充分利用了上下文信息中一些關(guān)鍵特征,最終得到文檔的標(biāo)簽信息。
【專利說明】
主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,屬于計算機應(yīng) 用技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 在DT(data technology)時代,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長,各種各樣的文本數(shù)據(jù) 層出不窮,如多樣化的新聞、海量的自媒體原創(chuàng)文章。面對如此豐富多樣的信息,人們迫切 需要一些自動化工具來幫助他們從浩瀚的信息汪洋中準(zhǔn)確、快速地找到自己需要的關(guān)鍵信 息,標(biāo)簽抽取正是在這種背景下產(chǎn)生。標(biāo)簽是快速獲取文本關(guān)鍵信息、把握主題的重要方 式,在信息檢索、自然語言處理、智能推薦等領(lǐng)域中均有重要應(yīng)用。許多網(wǎng)站向用戶提供了 為感興趣的對象(如圖片、視頻、書籍和電影等)進行標(biāo)注標(biāo)簽的功能,便于用戶分享、管理、 收藏和檢索對象。如圖1(a)和圖1(b)所示為豆瓣上對于書籍和電影的標(biāo)簽。
[0003] LDA(Latent Dirichlet Allocation)模型是一種文檔主題生成模型,其是目前應(yīng) 用最廣泛的一種概率主題模型,它具有比其他模型更全面的文本生成假設(shè)。LDA模型在PLSA 的基礎(chǔ)上,使用服從Dirichlet分布的K維隱含隨機變量表示文檔的主題混合比例,以此來 模擬文檔的產(chǎn)生過程。使用LDA獲取的文檔表示和隱含語義結(jié)構(gòu)已經(jīng)非常成功地應(yīng)用到很 多文本處理的相關(guān)領(lǐng)域。LDA模型是一個多層的生成式概率模型,包含文檔、主題、詞三層結(jié) 構(gòu)。主題到詞服從多項式分布,文檔到主題則服從Dirichlet分布。LDA對主題的混合權(quán)重0 進行Dirichlet先驗,用一個超參數(shù)a來產(chǎn)生參數(shù)0,即參數(shù)的參數(shù)。LDA是一種非監(jiān)督機器學(xué) 習(xí)技術(shù),可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。它采用了詞袋的方法,這 種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。 每一個主題又代表了很多單詞所構(gòu)成的一個概率分布,而每一篇文檔代表了一些主題所構(gòu) 成的一個概率分布。
[0004] 目前的標(biāo)簽抽取方法主要有以下兩種及存在的缺點:
[0005] 1.基于文本詞匯的統(tǒng)計信息來生成標(biāo)簽,如TF_IDF(term frequency-inverse document frequency)、互信息(mutual informat ion)等,然后對它們排序,選取最高的若 干個作為關(guān)鍵詞,因此也被稱為無監(jiān)督的方法。此方法優(yōu)點是簡單快捷,也不需要人工標(biāo) 注。但是,這種方法無法有效綜合利用多種信息對候選關(guān)鍵詞排序。另外,沒有考慮詞和詞 之間的相關(guān)性,也就是一篇文檔實際上是由一些潛在主題構(gòu)成的,每個主題是由一些詞構(gòu) 成的。
[0006] 2.基于機器學(xué)習(xí)的方法來生成標(biāo)簽。也被稱為有監(jiān)督的方法,主要思想是將標(biāo)簽 抽取問題轉(zhuǎn)換為判斷每個候選關(guān)鍵詞是否為標(biāo)簽的二分類問題。首先需要對文檔集進行標(biāo) 簽標(biāo)注,然后拆分成訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),用于生成分類模型。這種方法可以通過訓(xùn)練學(xué)習(xí) 來調(diào)節(jié)多種維度的信息對于判斷關(guān)鍵詞的影響程度,所以效果也更好。但是,對于訓(xùn)練集合 的標(biāo)注則非常費時費力,而且文檔主題往往隨著時間變化劇烈,隨時進行訓(xùn)練集合的標(biāo)注 也不現(xiàn)實。
【發(fā)明內(nèi)容】
[0007] 為了克服上述的不足,本發(fā)明提供主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽 取方法。
[0008] 本發(fā)明采取的技術(shù)方案如下:
[0009] 主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,包括如下步驟:
[0010] 第一步:預(yù)處理;
[0011]第二步:LDA建模及上下文分析;
[0012] 第三步:標(biāo)簽提取。
[0013]其中,第一步的預(yù)處理的方式為:如果出現(xiàn)低頻詞、停止詞和標(biāo)記信息,所述預(yù)處 理包括去掉低頻詞、去掉停止詞及去掉標(biāo)記信息;所述低頻詞只在一到兩個文本中出現(xiàn)過, 所述停止詞是幾乎不攜帶任何信息的助詞、反映句子語法結(jié)構(gòu)的詞語和所有虛詞以及標(biāo)點 符號,所述標(biāo)記信息是網(wǎng)頁文本或其他的標(biāo)記語言文本信息;其他的標(biāo)記語言文本信息包 括html和css;
[0014]第二步的LDA建模過程為:文件經(jīng)過LDA模型處理后,得到兩個矩陣:一個是N X K的 "文檔-主題"矩陣,矩陣的每個元素對應(yīng)的是每個文檔的隱含主題分布;另一個是KXM"主 題-詞"矩陣,矩陣的每個元素對應(yīng)的是每個主題的詞分布;
[0015] 上下文分析包括以下幾個維度:
[0016] (1)詞頻次,
[0017] ⑵文檔頻次,
[0018] (3)詞性,
[0019] (4)詞位置,
[0020] (5)TF-IDF;
[0021] 上下文分析的方法包括如下步驟,
[0022] ①根據(jù)文本的html標(biāo)簽信息,獲取各段文本所在的位置信息;
[0023]②對文本進行分詞處理和詞性標(biāo)記,得到各個獨立的詞及詞性信息;
[0024]③使用業(yè)界公知的方法計算詞頻次、文檔頻次和TF-IDF;
[0025]經(jīng)過第一步的預(yù)處理后,每個文檔都形成了一個特征向量,形成了特征向量的方 法為:假定有N篇文檔,M個詞,K個主題,LDA建模過程為:文件經(jīng)過LDA模型處理后,得到兩個 矩陣:一個是NX K的"文檔-主題"矩陣,矩陣的每個元素對應(yīng)的是每個文檔的隱含主題分 布;另一個是KXM "主題-詞"矩陣,矩陣的每個元素對應(yīng)的是每個主題的詞分布。
[0026]第三步的標(biāo)簽提取的方法如下:
[0027] 結(jié)合LDA模型的結(jié)果和詞上下文分析得到的特征量,得到文本d詞w的權(quán)重為:
[0028] Weigh | t(d,w) =a | SorceLDA(d,w)+01 Sorcew〇rd(d,w),
[0029] 其中,Score (d,w)表示詞w在文檔d中的LDA計算得分,表示詞w在文檔d中的上下文 分析后的得分,a和0代表LDA算法和上下文分析方法的權(quán)重,
[0031] K表示LDA模型設(shè)置的主題數(shù),Topic(t,d)表示"文檔-主題"矩陣中文檔d的第t個 主題的概率值,W〇rd(w,t)表示"主題-詞"矩陣中主題t的詞w的概率值,
[0032] Scorew〇rd(d,w) =p | Tfldf (w,d)+y | f (w,d)+|, | g(w,d)+ii | p(w,d)+〇 | y (w);
[0033] Tf Idf (w,d)表示文檔d中詞w的TF-IDF值,f (w,d)表示詞w在文檔d中詞頻次的權(quán) 重,g(w,d)表示詞w在文檔d中文檔頻次的權(quán)重,p(w,d)表示詞的位置的權(quán)重,y (w)表示詞 的詞性權(quán)重,P、Y分別表示TF-IDF、詞頻次、文檔頻次、詞位置和詞性在詞上下文分 析算法中的權(quán)重,為常數(shù),
[0035]汽《,(1)4(?,(1)、0(?,(1)和丫(《)都是離散函數(shù),分別映射到不同的區(qū)間,經(jīng)過上面 的計算,得到文檔d中的每個詞w的Weigh 11 (d,w),按照太小從高到低排序,取最大的若干個 詞或者短語作為文檔的標(biāo)簽。
[0036]本發(fā)明有益效果:
[0037]相比目前的基于統(tǒng)計的方法,本發(fā)明不僅考慮了文檔中詞和詞的關(guān)聯(lián),也充分利 用了上下文信息中一些關(guān)鍵特征,最終得到文檔的標(biāo)簽信息。
【附圖說明】
[0038] 圖1(a)示例性地示出了豆瓣上對于書籍和電影的標(biāo)簽一;
[0039] 圖1(b)示例性地示出了豆瓣上對于書籍和電影的標(biāo)簽二;
[0040] 圖2示例性地示出了本發(fā)明的流程示意圖;
[0041 ] 圖3示例性地示出了 LDA模型處理流程圖。
【具體實施方式】
[0042]下面結(jié)合附圖對本發(fā)明做進一步說明:
[0043]如圖2所示:主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,包括如下步 驟:
[0044] 第一步:預(yù)處理;
[0045]第二步:LDA建模及上下文分析;
[0046] 第三步:標(biāo)簽提取。
[0047] 第一步的預(yù)處理的方式為:如果出現(xiàn)低頻詞、停止詞和標(biāo)記信息,所述預(yù)處理包括 去掉低頻詞、去掉停止詞及去掉標(biāo)記信息;所述低頻詞只在一到兩個文本中出現(xiàn)過,所述停 止詞是幾乎不攜帶任何信息的助詞、反映句子語法結(jié)構(gòu)的詞語和所有虛詞以及標(biāo)點符號, 所述標(biāo)記信息是網(wǎng)頁文本或其他的標(biāo)記語言文本信息;其他的標(biāo)記語言文本信息包括html 和 css;
[0048] 第二步涉及到的LDA建模過程為:經(jīng)過第一步得預(yù)處理后,每個文檔都形成了一個 特征向量,形成了特征向量的方法為:假定有N篇文檔,M個詞,K個主題;如圖3所示,LDA建模 過程為:文件經(jīng)過LDA模型處理后,得到兩個矩陣:一個是NXK的"文檔-主題"矩陣,矩陣的 每個元素對應(yīng)的是每個文檔的隱含主題分布;另一個是KXM"主題-詞"矩陣,矩陣的每個元 素對應(yīng)的是每個主題的詞分布。
[0049] 所述上下文分析包括以下幾個維度:
[0050] (1)詞頻次,即一個文檔中詞的出現(xiàn)次數(shù)。
[0051 ] (2)文檔頻次,即在所有文檔集中,有多少文檔包含該詞;
[0052] (3)詞性,名詞及名詞性短語表征語義要強一些,權(quán)重也會高一些;
[0053] (4)詞位置,即該詞所處的位置,在標(biāo)題、摘要和結(jié)論、正文等文章的不停位置,權(quán) 重是不同的。
[0054] (5)TF-IDF,TF-IDF是一種統(tǒng)計方法,主要思想是當(dāng)一個詞在一篇文檔中出現(xiàn)的頻 率越高,同時在其他文檔中出現(xiàn)的次數(shù)越少,則表明該詞對于表示這篇文檔的區(qū)分能力越 強,所以其權(quán)重值就應(yīng)該越大。
[0055]第二步涉及到的上下文分析的方法包括如下步驟,
[0056]①根據(jù)文本的html標(biāo)簽信息,獲取各段文本所在的位置信息,如標(biāo)題、正文、加粗、 字號等;
[0057]②對文本進行分詞處理和詞性標(biāo)記,得到各個獨立的詞及詞性信息;
[0058]③使用業(yè)界公知的方法計算詞頻次、文檔頻次和TF-IDF;
[0059]第二步的標(biāo)簽提取方法為:
[0060]結(jié)合LDA模型的結(jié)果和詞上下文分析得到的特征量,得到文本d,詞W的權(quán)重為:
[0061 ] Weigh | t(d,w) =a | SorceLDA(d,w)+01 Sorcew〇rd(d,w),
[0062] 其中Score (d,w)表示詞w在文檔d中的LDA計算得分,表示詞w在文檔d中的上下文 分析后的得分,a和0代表LDA算法和上下文分析方法的權(quán)重,
[0064] K表示LDA模型設(shè)置的主題數(shù),Topic(t,d)表示"文檔-主題"矩陣中文檔d的第t個 主題的概率值,W〇rd(w,t)表示"主題-詞"矩陣中主題t的詞w的概率值,
[0065] Scorew〇rd(d,w) =p | Tfldf (w,d)+y | f (w,d)+|, | g(w,d)+ii | p(w,d)+〇 | y (w);
[0066] Tf Idf (w,d)表示文檔d中詞w的TF-IDF值,f (w,d)表示詞w在文檔d中詞頻次的權(quán) 重,g(w,d)表示詞w在文檔d中文檔頻次的權(quán)重,p(w,d)表示詞的位置的權(quán)重,y (w)表示詞 的詞性權(quán)重,P、Y分別表示TF-IDF、詞頻次、文檔頻次、詞位置和詞性在詞上下文分 析算法中的權(quán)重,為常數(shù),
[0068]汽《,(1)4(?,(1)、0(?,(1)和丫(《)都是離散函數(shù),分別映射到不同的區(qū)間,經(jīng)過上面 的計算,得到文檔d中的每個詞w的Weigh 11 (d,w),按照太小從高到低排序,取最大的若干個 詞或者短語作為文檔的標(biāo)簽。
[0069]相比目前的基于統(tǒng)計的方法,本發(fā)明不僅考慮了文檔中詞和詞的關(guān)聯(lián),也充分利 用了上下文信息中一些關(guān)鍵特征,最終得到文檔的標(biāo)簽信息。
[0070]對于本領(lǐng)域的普通技術(shù)人員而言,具體實施例只是對本發(fā)明進行了示例性描述, 顯然本發(fā)明具體實現(xiàn)并不受上述方式的限制,只要采用了本發(fā)明的方法構(gòu)思和技術(shù)方案進 行的各種非實質(zhì)性的改進,或未經(jīng)改進將本發(fā)明的構(gòu)思和技術(shù)方案直接應(yīng)用于其它場合 的,均在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,其特征在于:包括如下步驟: 第一步:預(yù)處理,如果出現(xiàn)低頻詞、停止詞和標(biāo)記信息,所述預(yù)處理包括去掉低頻詞、去 掉停止詞及去掉標(biāo)記信息;所述低頻詞只在一到兩個文本中出現(xiàn)過,所述停止詞是幾乎不 攜帶任何信息的助詞、反映句子語法結(jié)構(gòu)的詞語和所有虛詞以及標(biāo)點符號,所述標(biāo)記信息 是網(wǎng)頁文本或其他的標(biāo)記語言文本信息;其他的標(biāo)記語言文本信息包括html和css; 第二步:LDA建模及上下文分析;LDA建模過程為:文件經(jīng)過LDA模型處理后,得到兩個矩 陣:一個是NXK的"文檔-主題"矩陣,矩陣的每個元素對應(yīng)的是每個文檔的隱含主題分布; 另一個是KXM "主題-詞"矩陣,矩陣的每個元素對應(yīng)的是每個主題的詞分布; 上下文分析包括以下幾個維度: (1) 詞頻次, (2) 文檔頻次, (3) 詞性, (4) 詞位置, (5) TF-IDF; 上下文分析的方法包括如下步驟, ① 根據(jù)文本的html標(biāo)簽信息,獲取各段文本所在的位置信息; ② 對文本進行分詞處理和詞性標(biāo)記,得到各個獨立的詞及詞性信息; ③ 使用業(yè)界公知的方法計算詞頻次、文檔頻次和TF-IDF; 第二步:標(biāo)簽提取。2. 根據(jù)權(quán)利要求1所述的主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,其特 征在于:所述第二步中,經(jīng)過預(yù)處理后,每個文檔都形成了 一個特征向量,假定有N篇文檔,M 個詞,K個主題,LDA建模的過程為:文件經(jīng)過LDA模型處理后,得到兩個矩陣:一個是N X K的 "文檔-主題"矩陣,矩陣的每個元素對應(yīng)的是每個文檔的隱含主題分布;另一個是KXM"主 題-詞"矩陣,矩陣的每個元素對應(yīng)的是每個主題的詞分布。3. 根據(jù)權(quán)利要求1所述的主題模型和語義分析相結(jié)合的文本標(biāo)簽自動抽取方法,其特 征在于:所述第三步中,標(biāo)簽提取的方法如下, 結(jié)合LDA模型的結(jié)果和詞上下文分析得到的特征量,得到文本d詞w的權(quán)重為: Weigh | t(d,w) =a | SorceLDA(d,w)+01 Sorcew〇rd(d,w), 其中Score (d,w)表示詞w在文檔d中的LDA計算得分,表示詞w在文檔d中的上下文分析 后的得分,a和0代表LDA算法和上下文分析方法的權(quán)重,K表示LDA模型設(shè)置的主題數(shù),Topic(t,d)表示"文檔-主題"矩陣中文檔d的第t個主題 的概率值,W〇rd(w,t)表示"主題-詞"矩陣中主題t的詞w的概率值, Scorew〇rd(d,w) =p | Tf Idf (w,d)+ y | f (w,d)+C | g(w,d)+ii | p(w,d)+〇 | y (w); Tfldf (w,d)表示文檔d中詞w的TF-IDF值,f (w,d)表示詞w在文檔d中詞頻次的權(quán)重,g (w,d)表示詞w在文檔d中文檔頻次的權(quán)重,p (w,d)表示詞的位置的權(quán)重,y (w)表示詞的詞 性權(quán)重,P、y、l、y、〇分別表示TF-IDF、詞頻次、文檔頻次、詞位置和詞性在詞上下文分析算 法中的權(quán)重,為常數(shù),汽《,(1)4(?,(1)、0(?,(1)和^(?)都是離散函數(shù),分別映射到不同的區(qū)間,經(jīng)過上面的計 算,得到文檔d中的每個詞w的Weigh | t(d,w),按照太小從高到低排序,取最大的若干個詞或 者短語作為文檔的標(biāo)簽。
【文檔編號】G06F17/27GK106055538SQ201610361639
【公開日】2016年10月26日
【申請日】2016年5月26日
【發(fā)明人】于敬
【申請人】達(dá)而觀信息科技(上海)有限公司