一種基于詞匯鏈的關(guān)鍵短語抽取方法

文檔序號：6338597閱讀：218來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于詞匯鏈的關(guān)鍵短語抽取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種關(guān)鍵短語抽取方法。
技術(shù)背景
隨著網(wǎng)絡(luò)的普及，人們每天接觸的信息與日俱增，因此如何快速并準(zhǔn)確的掌握大量信息所描述的內(nèi)容在人們的日常生活中變得越來越重要。關(guān)鍵詞標(biāo)注技術(shù)是上述問題的一個(gè)很好的解決方案，好的關(guān)鍵詞能夠使讀者快速掌握文章的主要內(nèi)容，同時(shí)加深讀者對文章的理解。
關(guān)鍵詞抽取一直是文本挖掘領(lǐng)域的主要研究問題，同時(shí)該技術(shù)還可以應(yīng)用于其它領(lǐng)域，例如大量的圖書館系統(tǒng)和信息檢索系統(tǒng)使用關(guān)鍵詞抽取技術(shù)構(gòu)造文件索引；許多文本挖掘系統(tǒng)以關(guān)鍵詞所在的句子作為文摘句；很多聚類和分類算法也使用關(guān)鍵詞算法構(gòu)造文章的特征向量以提高算法的準(zhǔn)確度同時(shí)降低特征空間的維度。
目前多數(shù)關(guān)鍵詞抽取算法是利用詞的統(tǒng)計(jì)信息判斷詞的重要性，并選取超過一定閾值的詞作為文章的關(guān)鍵詞?；谶@種方法提出了多個(gè)關(guān)鍵詞衡量函數(shù)，包括TF/IDF、熵函數(shù)、分布系數(shù)等。許多機(jī)器學(xué)習(xí)算法也應(yīng)用于關(guān)鍵詞抽取中，例如樸素貝葉斯算法、C4. 5、決策樹和最大熵算法。上述算法通過訓(xùn)練語料獲得抽取函數(shù)，然后選取能夠使抽取函數(shù)得到最大值的詞作為關(guān)鍵詞，然而由于中文文檔包含信息的多樣性，使得現(xiàn)實(shí)應(yīng)用中很難獲得一個(gè)通用的抽取函數(shù)或模型用于關(guān)鍵詞抽取，使得關(guān)鍵詞無法確切的反映文章敘述的主題信息。也有算法考慮了相似詞在文中的分布情況，通過統(tǒng)計(jì)的方法抽取具有大量相似含義詞的特征詞作為關(guān)鍵詞，但是統(tǒng)計(jì)方法的計(jì)算量過大，并且需要大量的統(tǒng)計(jì)語料。現(xiàn)有的基于詞匯鏈的關(guān)鍵短語抽取方法雖然能有效解決上述問題，但是關(guān)鍵短語抽取的準(zhǔn)確性及對文檔主題信息的覆蓋性較低。發(fā)明內(nèi)容
本發(fā)明是為了解決現(xiàn)有的關(guān)鍵詞抽取方法無法確切反映文章敘述的主題信息，現(xiàn) 有的基于詞匯鏈的關(guān)鍵短語抽取方法中關(guān)鍵短語抽取的準(zhǔn)確性及對文檔主題信息的覆蓋性較低的問題，提供一種基于詞匯鏈的關(guān)鍵短語抽取方法。本發(fā)明的方法是基于計(jì)算機(jī)實(shí) 現(xiàn)的，該計(jì)算機(jī)中裝有《知網(wǎng)》詞典，該方法的具體步驟為
步驟一將待處理文章的文檔作為抽取對象，在該文檔中獲取詞義；
步驟二使用詞典《知網(wǎng)》對詞語進(jìn)行消歧，過濾掉《知網(wǎng)》中的抽象義原；
步驟三對消歧后的詞語構(gòu)建詞匯鏈，獲得詞匯鏈集合L，并獲得多個(gè)強(qiáng)鏈；
步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞，以這些中心詞構(gòu)成文檔的中心詞集合；
步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率，選擇同現(xiàn)率大于用戶設(shè)定的抽取閾值的中心詞作為關(guān)鍵短語。
步驟一所述的獲取詞義的步驟為
步驟A 對文檔進(jìn)行分詞和停用詞過濾，得到文檔的詞空間Wordkt ；
步驟B 順序掃描詞空間WorcKet，逐一獲取該詞空間WorcKet中的每一個(gè)詞的詞義，獲取每個(gè)詞的詞義的過程為
步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4，其中M為當(dāng)前待確定詞義的詞， M1、M2、M3、M4為M的上下文信息；
步驟B2 尋找一條從Ml開始到M4結(jié)束的連通分量，該連通分量的邊的權(quán)值之和最大，然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
步驟三所述的步驟三所述的獲得強(qiáng)鏈的方法為
首先計(jì)算詞空間WordSet中的每個(gè)詞Mq與詞匯鏈集合L中的每條鏈Lp的相似度，如果最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中，否則新建一條包含Mtl 的鏈，并將新建的鏈插入到詞匯鏈集合L中；
其中Mtl為詞空間WorcKet中的第q個(gè)詞，Lp為詞匯鏈集合L中的第ρ條詞匯鏈；
然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重，取大于平均權(quán)重的詞匯鏈作為強(qiáng) 鏈。
步驟四所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的方法為
以文檔的平均詞頻為閾值，取大于平均詞頻的詞作為文檔的候選中心詞，計(jì)算每個(gè)候選中心詞的權(quán)值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci為第i個(gè)候選中心詞，該詞對應(yīng)的詞類為CW(Ci)，則ICW(Ci) I為候選中心詞Ci對應(yīng)的詞類CW(Ci)所包含的詞數(shù)。Weight(Word1)為CW(Ci)包含的第1個(gè)詞的權(quán)值；
然后選取大于平均權(quán)值的候選中心詞構(gòu)造文檔的中心詞集合，以每條強(qiáng)鏈的候選中心詞集合中的每個(gè)候選中心詞作為聚類中心在文檔內(nèi)進(jìn)行詞聚類，以獲得與候選中心詞相似的詞語在詞匯鏈內(nèi)的分布情況，計(jì)算每個(gè)候選中心詞對應(yīng)的詞類的詞數(shù)，然后從每條強(qiáng)鏈中選擇一個(gè)對應(yīng)的詞類包含的詞數(shù)最多的候選中心詞作為該鏈的中心詞。
本發(fā)明通過構(gòu)造詞匯鏈對文章主題進(jìn)行分析，構(gòu)造的多條鏈能夠反映文章的多條敘事線索，分析文中包含的多條主題線索，在此基礎(chǔ)上選取能夠充分代表這些主題線索且富含更多信息的短語作為關(guān)鍵短語，使得生成的關(guān)鍵短語能夠確切反映文章敘述的主題信肩、ο
本發(fā)明的方法能夠根據(jù)文章的主題分布動(dòng)態(tài)確定輸出短語的數(shù)目，使短語能夠全面覆蓋文章描述的多個(gè)主題線索，并且不同短語描述不同的主題信息，可以有效避免特征之間的冗余性，并能在一定程度上降低特征空間的維度，提升聚類的準(zhǔn)確度。
本發(fā)明通過計(jì)算詞語之間的相似度與相關(guān)度構(gòu)造了多條詞匯鏈，每條詞匯鏈不僅凝聚了含有相似信息的詞語，并且也可將相關(guān)信息的詞語凝聚到一起，這種詞匯鏈構(gòu)造方法能夠有效的反應(yīng)文檔的主題信息，提高關(guān)鍵短語抽取的準(zhǔn)確性，僅需要少量的關(guān)鍵短語就可以有效覆蓋文檔的主題信息，提高了關(guān)鍵短語抽取的速度，減少了對計(jì)算機(jī)資源的占用時(shí)間。

圖1為具體實(shí)施方式
一所述的基于詞匯鏈的關(guān)鍵短語抽取方法流程圖；圖2為具體實(shí)施方式
二所述的詞的義類關(guān)系圖。
具體實(shí)施方式
具體實(shí)施方式
一結(jié)合圖1說明本實(shí)施方式，一種基于詞匯鏈的關(guān)鍵短語抽取方法，是基于計(jì)算機(jī)實(shí)現(xiàn)的，該計(jì)算機(jī)中裝有《知網(wǎng)》詞典，方法的具體步驟為
步驟一將待處理文章的文檔作為抽取對象，在該文檔中獲取詞義；
步驟二使用詞典《知網(wǎng)》對詞語進(jìn)行消歧，過濾掉《知網(wǎng)》中的抽象義原；
步驟三對消歧后的詞語構(gòu)建詞匯鏈，獲得詞匯鏈集合L，并獲得多個(gè)強(qiáng)鏈；
步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞，以這些中心詞構(gòu)成文檔的中心詞集合；
步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率，選擇同現(xiàn)率大于用戶設(shè)定的抽取閾值的中心詞作為關(guān)鍵短語。
本實(shí)施方式所述的文檔是指待處理文章所包含的文字信息。
本實(shí)施方式步驟二所述的抽象義原為“屬性”、“事件”和“實(shí)體”。
具體實(shí)施方式
二本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法中的步驟一做進(jìn)一步的說明，步驟一所述的獲取詞義的步驟為
步驟A 對文檔進(jìn)行分詞和停用詞過濾，得到文檔的詞空間Wordkt ；
步驟B 順序掃描詞空間WorcKet，逐一獲取該詞空間WorcKet中的每一個(gè)詞的詞義，獲取每個(gè)詞的詞義的過程為
步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4，其中M為當(dāng)前待確定詞義的詞， M1、M2、M3、M4為M的上下文信息，如圖2所示，圖2中的頂點(diǎn)代表每個(gè)詞對應(yīng)的義類，頂點(diǎn) 間的邊為義類間的關(guān)聯(lián)度；
步驟B2 從圖2中尋找一條從Ml開始到M4結(jié)束的連通分量，該連通分量的邊的權(quán)值之和最大，然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
本實(shí)施方式的詞義獲取以《知網(wǎng)》作為語義詞典，將《知網(wǎng)》中基本義原相同的一個(gè)DEF集合視為詞條的一個(gè)義類。
具體實(shí)施方式
三本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法中的步驟二做進(jìn)一步的說明，步驟二所述的詞典《知網(wǎng)》是一個(gè)詞語數(shù)據(jù)庫，存儲在計(jì)算機(jī)硬盤中。
具體實(shí)施方式
四本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法中的步驟三做進(jìn)一步的說明，步驟三所述的獲得強(qiáng)鏈的方法為
首先計(jì)算詞空間WordSet中的每個(gè)詞Mq與詞匯鏈集合L中的每條鏈Lp的相似度，如果最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中，否則新建一條包含Mtl 的鏈，并將新建的鏈插入到詞匯鏈集合L中；
其中Mtl為詞空間WorcKet中的第q個(gè)詞，Lp為詞匯鏈集合L中的第ρ條詞匯鏈；
然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重，取大于平均權(quán)重的詞匯鏈作為強(qiáng) 鏈。
具體實(shí)施方式
五本實(shí)施方式是對具體實(shí)施方式
一所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法中的步驟四做進(jìn)一步的說明，步驟四所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的方法為5
以文檔的平均詞頻為閾值，取大于平均詞頻的詞作為文檔的候選中心詞，計(jì)算每個(gè)候選中心詞的權(quán)值Weight (Ci)ICW(Ci)I
Weight(G) = J] Weight(Wordi)x\og(\ CW(G) |)I=I
其中Ci為第i個(gè)候選中心詞，該詞對應(yīng)的詞類為CW(Ci),則ICW(Ci)I為候選中心詞Ci對應(yīng)的詞類CW(Ci)所包含的詞數(shù)。Weight(Word1)為CW(Ci)包含的第1個(gè)詞的權(quán)值；
然后選取大于平均權(quán)值的候選中心詞構(gòu)造文檔的中心詞集合，以每條強(qiáng)鏈的候選中心詞集合中的每個(gè)候選中心詞作為聚類中心在文檔內(nèi)進(jìn)行詞聚類，以獲得與候選中心詞相似的詞語在詞匯鏈內(nèi)的分布情況，計(jì)算每個(gè)候選中心詞對應(yīng)的詞類的詞數(shù)，然后從每條強(qiáng)鏈中選擇一個(gè)對應(yīng)的詞類包含的詞數(shù)最多的候選中心詞作為該鏈的中心詞。
權(quán)利要求
1.一種基于詞匯鏈的關(guān)鍵短語抽取方法，是基于計(jì)算機(jī)實(shí)現(xiàn)的，該計(jì)算機(jī)中裝有《知網(wǎng)》詞典，其特征是，它的具體步驟為步驟一將待處理文章的文檔作為抽取對象，在該文檔中獲取詞義；步驟二使用詞典《知網(wǎng)》對詞語進(jìn)行消歧，過濾掉《知網(wǎng)》中的抽象義原；步驟三對消歧后的詞語構(gòu)建詞匯鏈，獲得詞匯鏈集合L，并獲得多個(gè)強(qiáng)鏈；步驟四從每條強(qiáng)鏈中選擇一個(gè)中心詞，以這些中心詞構(gòu)成文檔的中心詞集合；步驟五計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率，選擇同現(xiàn)率大于用戶設(shè)定的抽取閾值的中心詞作為關(guān)鍵短語。
2.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法，其特征在于，步驟一所述的獲取詞義的步驟為步驟A 對文檔進(jìn)行分詞和停用詞過濾，得到文檔的詞空間WorcKet ；步驟B 順序掃描詞空間WorcKet，逐一獲取該詞空間WordSet中的每一個(gè)詞的詞義，獲取每個(gè)詞的詞義的過程為步驟Bl 設(shè)文檔中的詞序列為M1、M2、M、M3、M4，其中M為當(dāng)前待確定詞義的詞，Ml、 M2、M3、M4為M的上下文信息；步驟B2 尋找一條從Ml開始到M4結(jié)束的連通分量，該連通分量的邊的權(quán)值之和最大，然后以此最大連通分量經(jīng)過的M的義類作為M在此上下文中的詞義。
3.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法，其特征在于，步驟二所述的詞典《知網(wǎng)》是一個(gè)詞語數(shù)據(jù)庫，存儲在計(jì)算機(jī)硬盤中。
4.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法，其特征在于，步驟三所述的獲得強(qiáng)鏈的方法為首先計(jì)算詞空間WordSet中的每個(gè)詞Mtl與詞匯鏈集合L中的每條鏈Lp的相似度，如果最大相似度超過閾值則將Mtl插入到與Mtl具有最大相似度的鏈中，否則新建一條包含Mtl的鏈，并將新建的鏈插入到詞匯鏈集合L中；其中Mtl為詞空間WorcKet中的第q個(gè)詞，Lp為詞匯鏈集合L中的第ρ條詞匯鏈；然后計(jì)算詞匯鏈集合L中每條詞匯鏈的權(quán)重，取大于平均權(quán)重的詞匯鏈作為強(qiáng)鏈。
5.根據(jù)權(quán)利要求1所述的一種基于詞匯鏈的關(guān)鍵短語抽取方法，其特征在于，步驟四所述的從每條強(qiáng)鏈中選擇一個(gè)中心詞的方法為以文檔的平均詞頻為閾值，取大于平均詞頻的詞作為文檔的候選中心詞，計(jì)算每個(gè)候選中心詞的權(quán)值Weight (Ci)
全文摘要
一種基于詞匯鏈的關(guān)鍵短語抽取方法，涉及一種關(guān)鍵短語抽取方法。本發(fā)明為了解決現(xiàn)有的關(guān)鍵詞抽取方法無法確切反映文章敘述的主題信息，現(xiàn)有的基于詞匯鏈的關(guān)鍵短語抽取方法中關(guān)鍵短語抽取的準(zhǔn)確性及對文檔主題信息的覆蓋性較低的問題。具體步驟一、獲取詞義；二、使用詞典《知網(wǎng)》對詞語進(jìn)行消歧；三、對消歧后的詞語構(gòu)建詞匯鏈，并獲得多個(gè)強(qiáng)鏈；四、從多個(gè)強(qiáng)鏈中選擇中心詞，構(gòu)成中心詞集合；五、計(jì)算中心詞集合中不同中心詞間的同現(xiàn)率，選擇同現(xiàn)率大于用戶設(shè)定的抽取閾值的中心詞作為關(guān)鍵短語。本發(fā)明能夠有效的反應(yīng)文檔的主題信息，提高關(guān)鍵短語抽取的準(zhǔn)確性，僅需要少量的關(guān)鍵短語就可以有效覆蓋文檔的主題信息。應(yīng)用于關(guān)鍵詞抽取領(lǐng)域。
文檔編號G06F17/30GK102033922SQ20101058734
公開日2011年4月27日申請日期2010年12月14日優(yōu)先權(quán)日2010年12月14日
發(fā)明者劉秉權(quán), 劉遠(yuǎn)超, 劉銘, 單麗莉, 孫承杰, 林磊, 王曉龍申請人:哈爾濱工業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉銘;劉遠(yuǎn)超;王曉龍;劉秉權(quán);林磊;單麗莉;孫承杰
技術(shù)所有人：哈爾濱工業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞匯鏈的關(guān)鍵短語抽取方法