專利名稱:一種基于詞匯鏈的關(guān)鍵短語抽取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種關(guān)鍵短語抽取方法。
技術(shù)背景
隨著網(wǎng)絡(luò)的普及,人們每天接觸的信息與日俱增,因此如何快速并準(zhǔn)確的掌握大 量信息所描述的內(nèi)容在人們的日常生活中變得越來越重要。關(guān)鍵詞標(biāo)注技術(shù)是上述問題的 一個(gè)很好的解決方案,好的關(guān)鍵詞能夠使讀者快速掌握文章的主要內(nèi)容,同時(shí)加深讀者對 文章的理解。
關(guān)鍵詞抽取一直是文本挖掘領(lǐng)域的主要研究問題,同時(shí)該技術(shù)還可以應(yīng)用于其它 領(lǐng)域,例如大量的圖書館系統(tǒng)和信息檢索系統(tǒng)使用關(guān)鍵詞抽取技術(shù)構(gòu)造文件索引;許多文 本挖掘系統(tǒng)以關(guān)鍵詞所在的句子作為文摘句;很多聚類和分類算法也使用關(guān)鍵詞算法構(gòu)造 文章的特征向量以提高算法的準(zhǔn)確度同時(shí)降低特征空間的維度。
目前多數(shù)關(guān)鍵詞抽取算法是利用詞的統(tǒng)計(jì)信息判斷詞的重要性,并選取超過一定 閾值的詞作為文章的關(guān)鍵詞?;谶@種方法提出了多個(gè)關(guān)鍵詞衡量函數(shù),包括TF/IDF、熵函 數(shù)、分布系數(shù)等。許多機(jī)器學(xué)習(xí)算法也應(yīng)用于關(guān)鍵詞抽取中,例如樸素貝葉斯算法、C4. 5、決 策樹和最大熵算法。上述算法通過訓(xùn)練語料獲得抽取函數(shù),然后選取能夠使抽取函數(shù)得到 最大值的詞作為關(guān)鍵詞,然而由于中文文檔包含信息的多樣性,使得現(xiàn)實(shí)應(yīng)用中很難獲得 一個(gè)通用的抽取函數(shù)或模型用于關(guān)鍵詞抽取,使得關(guān)鍵詞無法確切的反映文章敘述的主題 信息。也有算法考慮了相似詞在文中的分布情況,通過統(tǒng)計(jì)的方法抽取具有大量相似含義 詞的特征詞作為關(guān)鍵詞,但是統(tǒng)計(jì)方法的計(jì)算量過大,并且需要大量的統(tǒng)計(jì)語料。現(xiàn)有的基 于詞匯鏈的關(guān)鍵短語抽取方法雖然能有效解決上述問題,但是關(guān)鍵短語抽取的準(zhǔn)確性及對 文檔主題信息的覆蓋性較低。發(fā)明內(nèi)容
本發(fā)明是為了解決現(xiàn)有的關(guān)鍵詞抽取方法無法確切反映文章敘述的主題信息,現(xiàn) 有的基于詞匯鏈的關(guān)鍵短語抽取方法中關(guān)鍵短語抽取的準(zhǔn)確性及對文檔主題信息的覆蓋 性較低的問題,提供一種基于詞匯鏈的關(guān)鍵短語抽取方法。本發(fā)明的方法是基于計(jì)算機(jī)實(shí) 現(xiàn)的,該計(jì)算機(jī)中裝有《知網(wǎng)》詞典,該方法的具體步驟為
步驟一將待處理文章的文檔作為抽取對象,在該文檔中獲取詞義;
步驟二 使用詞典《知網(wǎng)》對詞語進(jìn)行消歧,過濾掉《知網(wǎng)》中的抽象義原;
步驟三對消歧后的詞語構(gòu)建詞匯鏈,獲得詞匯鏈集合L,并獲得多個(gè)強(qiáng)鏈;
步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞,以這些中心詞構(gòu)成文檔的中心詞集合;
步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率,選擇同現(xiàn)率大于用戶設(shè)定的 抽取閾值的中心詞作為關(guān)鍵短語。
步驟一所述的獲取詞義的步驟為
步驟A 對文檔進(jìn)行分詞和停用詞過濾,得到文檔的詞空間Wordkt ;
步驟B 順序掃描詞空間WorcKet,逐一獲取該詞空間WorcKet中的每一個(gè)詞的詞 義,獲取每個(gè)詞的詞義的過程為
步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4,其中M為當(dāng)前待確定詞義的詞, M1、M2、M3、M4為M的上下文信息;
步驟B2 尋找一條從Ml開始到M4結(jié)束的連通分量,該連通分量的邊的權(quán)值之和 最大,然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
步驟三所述的步驟三所述的獲得強(qiáng)鏈的方法為
首先計(jì)算詞空間WordSet中的每個(gè)詞Mq與詞匯鏈集合L中的每條鏈Lp的相似度, 如果最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中,否則新建一條包含Mtl 的鏈,并將新建的鏈插入到詞匯鏈集合L中;
其中Mtl為詞空間WorcKet中的第q個(gè)詞,Lp為詞匯鏈集合L中的第ρ條詞匯鏈;
然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重,取大于平均權(quán)重的詞匯鏈作為強(qiáng) 鏈。
步驟四所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的方法為
以文檔的平均詞頻為閾值,取大于平均詞頻的詞作為文檔的候選中心詞,計(jì)算每 個(gè)候選中心詞的權(quán)值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci為第i個(gè)候選中心詞,該詞對應(yīng)的詞類為CW(Ci),則ICW(Ci) I為候選中心 詞Ci對應(yīng)的詞類CW(Ci)所包含的詞數(shù)。Weight(Word1)為CW(Ci)包含的第1個(gè)詞的權(quán)值;
然后選取大于平均權(quán)值的候選中心詞構(gòu)造文檔的中心詞集合,以每條強(qiáng)鏈的候選 中心詞集合中的每個(gè)候選中心詞作為聚類中心在文檔內(nèi)進(jìn)行詞聚類,以獲得與候選中心詞 相似的詞語在詞匯鏈內(nèi)的分布情況,計(jì)算每個(gè)候選中心詞對應(yīng)的詞類的詞數(shù),然后從每條 強(qiáng)鏈中選擇一個(gè)對應(yīng)的詞類包含的詞數(shù)最多的候選中心詞作為該鏈的中心詞。
本發(fā)明通過構(gòu)造詞匯鏈對文章主題進(jìn)行分析,構(gòu)造的多條鏈能夠反映文章的多條 敘事線索,分析文中包含的多條主題線索,在此基礎(chǔ)上選取能夠充分代表這些主題線索且 富含更多信息的短語作為關(guān)鍵短語,使得生成的關(guān)鍵短語能夠確切反映文章敘述的主題信 肩、ο
本發(fā)明的方法能夠根據(jù)文章的主題分布動(dòng)態(tài)確定輸出短語的數(shù)目,使短語能夠全 面覆蓋文章描述的多個(gè)主題線索,并且不同短語描述不同的主題信息,可以有效避免特征 之間的冗余性,并能在一定程度上降低特征空間的維度,提升聚類的準(zhǔn)確度。
本發(fā)明通過計(jì)算詞語之間的相似度與相關(guān)度構(gòu)造了多條詞匯鏈,每條詞匯鏈不僅 凝聚了含有相似信息的詞語,并且也可將相關(guān)信息的詞語凝聚到一起,這種詞匯鏈構(gòu)造方 法能夠有效的反應(yīng)文檔的主題信息,提高關(guān)鍵短語抽取的準(zhǔn)確性,僅需要少量的關(guān)鍵短語 就可以有效覆蓋文檔的主題信息,提高了關(guān)鍵短語抽取的速度,減少了對計(jì)算機(jī)資源的占 用時(shí)間。
圖1為具體實(shí)施方式
一所述的基于詞匯鏈的關(guān)鍵短語抽取方法流程圖;圖2為具體實(shí)施方式
二所述的詞的義類關(guān)系圖。
具體實(shí)施方式
具體實(shí)施方式
一結(jié)合圖1說明本實(shí)施方式,一種基于詞匯鏈的關(guān)鍵短語抽取方 法,是基于計(jì)算機(jī)實(shí)現(xiàn)的,該計(jì)算機(jī)中裝有《知網(wǎng)》詞典,方法的具體步驟為
步驟一將待處理文章的文檔作為抽取對象,在該文檔中獲取詞義;
步驟二 使用詞典《知網(wǎng)》對詞語進(jìn)行消歧,過濾掉《知網(wǎng)》中的抽象義原;
步驟三對消歧后的詞語構(gòu)建詞匯鏈,獲得詞匯鏈集合L,并獲得多個(gè)強(qiáng)鏈;
步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞,以這些中心詞構(gòu)成文檔的中心詞集合;
步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率,選擇同現(xiàn)率大于用戶設(shè)定的 抽取閾值的中心詞作為關(guān)鍵短語。
本實(shí)施方式所述的文檔是指待處理文章所包含的文字信息。
本實(shí)施方式步驟二所述的抽象義原為“屬性”、“事件”和“實(shí)體”。
具體實(shí)施方式
二本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵 短語抽取方法中的步驟一做進(jìn)一步的說明,步驟一所述的獲取詞義的步驟為
步驟A 對文檔進(jìn)行分詞和停用詞過濾,得到文檔的詞空間Wordkt ;
步驟B 順序掃描詞空間WorcKet,逐一獲取該詞空間WorcKet中的每一個(gè)詞的詞 義,獲取每個(gè)詞的詞義的過程為
步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4,其中M為當(dāng)前待確定詞義的詞, M1、M2、M3、M4為M的上下文信息,如圖2所示,圖2中的頂點(diǎn)代表每個(gè)詞對應(yīng)的義類,頂點(diǎn) 間的邊為義類間的關(guān)聯(lián)度;
步驟B2 從圖2中尋找一條從Ml開始到M4結(jié)束的連通分量,該連通分量的邊的 權(quán)值之和最大,然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
本實(shí)施方式的詞義獲取以《知網(wǎng)》作為語義詞典,將《知網(wǎng)》中基本義原相同的一 個(gè)DEF集合視為詞條的一個(gè)義類。
具體實(shí)施方式
三本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵 短語抽取方法中的步驟二做進(jìn)一步的說明,步驟二所述的詞典《知網(wǎng)》是一個(gè)詞語數(shù)據(jù)庫, 存儲在計(jì)算機(jī)硬盤中。
具體實(shí)施方式
四本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵 短語抽取方法中的步驟三做進(jìn)一步的說明,步驟三所述的獲得強(qiáng)鏈的方法為
首先計(jì)算詞空間WordSet中的每個(gè)詞Mq與詞匯鏈集合L中的每條鏈Lp的相似度, 如果最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中,否則新建一條包含Mtl 的鏈,并將新建的鏈插入到詞匯鏈集合L中;
其中Mtl為詞空間WorcKet中的第q個(gè)詞,Lp為詞匯鏈集合L中的第ρ條詞匯鏈;
然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重,取大于平均權(quán)重的詞匯鏈作為強(qiáng) 鏈。
具體實(shí)施方式
五本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵 短語抽取方法中的步驟四做進(jìn)一步的說明,步驟四所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的 方法為5
以文檔的平均詞頻為閾值,取大于平均詞頻的詞作為文檔的候選中心詞,計(jì)算每 個(gè)候選中心詞的權(quán)值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci為第i個(gè)候選中心詞,該詞對應(yīng)的詞類為CW(Ci),則ICW(Ci)I為候選中心 詞Ci對應(yīng)的詞類CW(Ci)所包含的詞數(shù)。Weight(Word1)為CW(Ci)包含的第1個(gè)詞的權(quán)值;
然后選取大于平均權(quán)值的候選中心詞構(gòu)造文檔的中心詞集合,以每條強(qiáng)鏈的候選 中心詞集合中的每個(gè)候選中心詞作為聚類中心在文檔內(nèi)進(jìn)行詞聚類,以獲得與候選中心詞 相似的詞語在詞匯鏈內(nèi)的分布情況,計(jì)算每個(gè)候選中心詞對應(yīng)的詞類的詞數(shù),然后從每條 強(qiáng)鏈中選擇一個(gè)對應(yīng)的詞類包含的詞數(shù)最多的候選中心詞作為該鏈的中心詞。
權(quán)利要求
1.一種基于詞匯鏈的關(guān)鍵短語抽取方法,是基于計(jì)算機(jī)實(shí)現(xiàn)的,該計(jì)算機(jī)中裝有《知 網(wǎng)》詞典,其特征是,它的具體步驟為步驟一將待處理文章的文檔作為抽取對象,在該文檔中獲取詞義; 步驟二 使用詞典《知網(wǎng)》對詞語進(jìn)行消歧,過濾掉《知網(wǎng)》中的抽象義原; 步驟三對消歧后的詞語構(gòu)建詞匯鏈,獲得詞匯鏈集合L,并獲得多個(gè)強(qiáng)鏈; 步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞,以這些中心詞構(gòu)成文檔的中心詞集合; 步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率,選擇同現(xiàn)率大于用戶設(shè)定的抽取 閾值的中心詞作為關(guān)鍵短語。
2.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法,其特征在于,步驟一 所述的獲取詞義的步驟為步驟A 對文檔進(jìn)行分詞和停用詞過濾,得到文檔的詞空間WorcKet ; 步驟B 順序掃描詞空間WorcKet,逐一獲取該詞空間WordSet中的每一個(gè)詞的詞義,獲 取每個(gè)詞的詞義的過程為步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4,其中M為當(dāng)前待確定詞義的詞,Ml、 M2、M3、M4為M的上下文信息;步驟B2 尋找一條從Ml開始到M4結(jié)束的連通分量,該連通分量的邊的權(quán)值之和最大, 然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
3.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法,其特征在于,步驟二 所述的詞典《知網(wǎng)》是一個(gè)詞語數(shù)據(jù)庫,存儲在計(jì)算機(jī)硬盤中。
4.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法,其特征在于,步驟三 所述的獲得強(qiáng)鏈的方法為首先計(jì)算詞空間WordSet中的每個(gè)詞Mtl與詞匯鏈集合L中的每條鏈Lp的相似度,如果 最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中,否則新建一條包含Mtl的 鏈,并將新建的鏈插入到詞匯鏈集合L中;其中Mtl為詞空間WorcKet中的第q個(gè)詞,Lp為詞匯鏈集合L中的第ρ條詞匯鏈; 然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重,取大于平均權(quán)重的詞匯鏈作為強(qiáng)鏈。
5.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法,其特征在于,步驟四 所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的方法為以文檔的平均詞頻為閾值,取大于平均詞頻的詞作為文檔的候選中心詞,計(jì)算每個(gè)候 選中心詞的權(quán)值Weight (Ci)
全文摘要
一種基于詞匯鏈的關(guān)鍵短語抽取方法,涉及一種關(guān)鍵短語抽取方法。本發(fā)明為了解決現(xiàn)有的關(guān)鍵詞抽取方法無法確切反映文章敘述的主題信息,現(xiàn)有的基于詞匯鏈的關(guān)鍵短語抽取方法中關(guān)鍵短語抽取的準(zhǔn)確性及對文檔主題信息的覆蓋性較低的問題。具體步驟一、獲取詞義;二、使用詞典《知網(wǎng)》對詞語進(jìn)行消歧;三、對消歧后的詞語構(gòu)建詞匯鏈,并獲得多個(gè)強(qiáng)鏈;四、從多個(gè)強(qiáng)鏈中選擇中心詞,構(gòu)成中心詞集合;五、計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率,選擇同現(xiàn)率大于用戶設(shè)定的抽取閾值的中心詞作為關(guān)鍵短語。本發(fā)明能夠有效的反應(yīng)文檔的主題信息,提高關(guān)鍵短語抽取的準(zhǔn)確性,僅需要少量的關(guān)鍵短語就可以有效覆蓋文檔的主題信息。應(yīng)用于關(guān)鍵詞抽取領(lǐng)域。
文檔編號G06F17/30GK102033922SQ20101058734
公開日2011年4月27日 申請日期2010年12月14日 優(yōu)先權(quán)日2010年12月14日
發(fā)明者劉秉權(quán), 劉遠(yuǎn)超, 劉銘, 單麗莉, 孫承杰, 林磊, 王曉龍 申請人:哈爾濱工業(yè)大學(xué)