一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法

文檔序號：6629807閱讀：427來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法
【專利摘要】本發(fā)明公開了一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，首先對領(lǐng)域文獻(xiàn)的文本進(jìn)行預(yù)處理，將文本切分成詞序列；然后基于DFAV統(tǒng)計量提取關(guān)鍵詞候選短語，再構(gòu)建短語網(wǎng)絡(luò)；利用圖排序算法對短語網(wǎng)絡(luò)中的關(guān)鍵詞候選短語進(jìn)行排序，排名靠前的短語作為結(jié)果關(guān)鍵詞。
【專利說明】一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提供了一種領(lǐng)域關(guān)鍵詞抽取方法，具體涉及一種通過DFAV統(tǒng)計量提取關(guān) 鍵詞候選短語及基于短語網(wǎng)絡(luò)的圖排序來提取關(guān)鍵詞的方法，屬于自然語言處理、信息檢索領(lǐng)域。

【背景技術(shù)】
[0002] 關(guān)鍵詞是對文檔內(nèi)容和主題的濃縮，通常由幾個詞或者短語構(gòu)成。關(guān)鍵詞在信息檢索、文本分類、知識挖掘等領(lǐng)域有著廣泛應(yīng)用。在當(dāng)今信息爆炸式增長的時代，海量的文檔已經(jīng)超出人力在特定時間內(nèi)所能瀏覽的范圍。為了快速準(zhǔn)確地獲取所需信息，關(guān)鍵詞就成為快速閱讀海量數(shù)據(jù)的重要形式。
[0003] 雖然很多專業(yè)文獻(xiàn)（如論文）都有關(guān)鍵詞，但仍然有大量的文獻(xiàn)沒有關(guān)鍵詞。文獻(xiàn)的關(guān)鍵詞通常需要具有相關(guān)領(lǐng)域知識的人去標(biāo)引，以保證關(guān)鍵詞能夠準(zhǔn)確地反映文檔的內(nèi)容和主題。然而，隨著各類文獻(xiàn)的大量涌現(xiàn)，單純依靠人工獲取關(guān)鍵詞已經(jīng)十分困難；而且，人工提取的關(guān)鍵詞標(biāo)準(zhǔn)難以統(tǒng)一，可能存在不規(guī)范或不能準(zhǔn)確反映文本內(nèi)容的現(xiàn)象。這就迫切需要一種自動提取文獻(xiàn)關(guān)鍵詞的技術(shù)。

【發(fā)明內(nèi)容】

[0004] 為了便于說明，首先約定下列概念：
[0005] 關(guān)鍵詞：能夠表達(dá)文檔主題思想的詞或詞組成的短語，一個文檔的關(guān)鍵詞通常不止一個。
[0006] 關(guān)鍵詞候選短語：可能作為文檔關(guān)鍵詞的詞或短語。
[0007] DF(phr):詞（或短語）phr的文檔頻率。即phr在文檔集合的多少個文檔中出現(xiàn)，出現(xiàn)過的文檔數(shù)稱為文檔頻率。
[0005] DFAV (phr):指在一個詞（或短語）phr左側(cè)（或右側(cè)）出現(xiàn)過的所有詞語的文檔頻率之和（或者頻率的對數(shù)之和）。例如，若計算詞（或短語）phr左邊的DFAV (phr)(表示為DFAVL&hr)),先假定Se (phr)是phr在文檔集合中左邊的詞的集合（類似地，可以用 SR (phr)表示phr右邊的詞集合），按取頻率的對數(shù)計算，則：
[0009]

【權(quán)利要求】
1. 一種領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，包括以下步驟： 1) 通過DFAV統(tǒng)計量提取領(lǐng)域文獻(xiàn)中的關(guān)鍵詞候選短語； 2) 基于候選短語及它們之間的關(guān)系，構(gòu)建短語網(wǎng)絡(luò)； 3) 依據(jù)圖排序算法，對短語網(wǎng)絡(luò)中的每個短語計算一個表示重要程度的得分； 4) 按短語得分進(jìn)行排序，將得分高的短語輸出，即為所提取的關(guān)鍵詞。
2. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，所述步驟1)包括如下操作： A1.分別統(tǒng)計各短語在領(lǐng)域文獻(xiàn)中所有出現(xiàn)位置左側(cè)和右側(cè)的詞語集合； A2.利用大規(guī)模語料，統(tǒng)計詞語的文檔頻率，即DF值； A3.依據(jù)領(lǐng)域內(nèi)已知關(guān)鍵詞的統(tǒng)計特性，剔除部分短語； A4.對于剩余的每個候選短語，求出它左側(cè)出現(xiàn)過的詞語的DF值或其對數(shù)之和，及它右側(cè)出現(xiàn)過的詞語的DF值或其對數(shù)之和，將兩個和相乘作為該短語的DFAV得分； A5.依據(jù)DFAV得分從高到低對短語排序，得分高于某一閾值的短語即為關(guān)鍵詞候選短語。
3. 如權(quán)利要求2所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，步驟A2所述大規(guī)模語料是中文Gigaword語料。
4. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，在提取關(guān)鍵詞候選短語前對文本進(jìn)行預(yù)處理，將文本切分成詞序列。
5. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，步驟2)中兩個候選短語之間的關(guān)系是指一定窗口大小內(nèi)兩者的共現(xiàn)關(guān)系，構(gòu)建短語網(wǎng)絡(luò)的步驟是： 2-1)基于候選短語構(gòu)建短語連通圖：在兩個相鄰候選短語之間連接一條邊，邊的方向是由出現(xiàn)在前的短語指向出現(xiàn)在后的短語； 2-2)基于短語連通圖建立短語網(wǎng)絡(luò)：在短語聯(lián)通圖的基礎(chǔ)上，以短語表示節(jié)點，邊表示節(jié)點之間的關(guān)系，假如窗口大小為n，如果兩個節(jié)點之間存在一條長度小于η的有向路徑，那么就在兩個節(jié)點間添加一個連接邊，部分重疊的兩個短語節(jié)點間沒有鏈接，其中η為自然數(shù)，節(jié)點I到節(jié)點 '的有向路徑長度是指按照有向邊的方向從節(jié)點Vi到節(jié)點 '所經(jīng) 過的邊的條數(shù)； 2-3)簡化短語網(wǎng)絡(luò)：將共現(xiàn)程度高的相鄰詞語進(jìn)行合并。
6. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，步驟3)首先對于短語網(wǎng)絡(luò)中的每一條邊，根據(jù)對應(yīng)的兩個短語的特定屬性，計算該邊的權(quán)重；然后依據(jù)圖排序算法，對每個短語計算一個表示重要程度的得分。
7. 如權(quán)利要求6所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，邊的權(quán)重是節(jié)點間距離權(quán)重和頭節(jié)點短語長度權(quán)重的乘積，即=wdist(i，j) Xwlm(Vj);其中節(jié)點間距離權(quán)重 wciisl. (i，j) = 〇·5 + ^，dish為節(jié)點Vi和節(jié)點Vj在短語網(wǎng)絡(luò)中的最短路徑長度；頭節(jié)點 0.5xNien fy.·^ 短語長度權(quán)重w^CVj) = 0.5+ Ν ，其中1θη(νρ表示頭節(jié)點V」的短語長度，Nlm(vp ^ Max 表示在領(lǐng)域已知關(guān)鍵詞集合中長度與len(vp相同的關(guān)鍵詞頻數(shù)，NMax是該關(guān)鍵詞集合中各長度中頻數(shù)最高的值。
8. 如權(quán)利要求7所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，所述圖排序算法是 TextRank算法，定義有向圖G= (V，E)為所述短語網(wǎng)絡(luò)，V為節(jié)點集合，E為有向邊的集合；對節(jié)點定義In (VJ為有邊指向Vi的節(jié)點集合，Out (Vj)為Vj指向的節(jié)點集合，則節(jié)點Vi 的得分WS(Vi)由如下公式計算：
其中，d取值0?1之間。
9. 如權(quán)利要求8所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法，其特征在于，依據(jù)領(lǐng)域內(nèi)已知關(guān)鍵詞的頻率對短語得分進(jìn)行調(diào)整：假設(shè)phr在已知關(guān)鍵詞中出現(xiàn)的次數(shù)為fr eq(phr)，則權(quán)重
對短語phr的TextRank得分乘上wf得到短語的最終得分。
【文檔編號】G06F17/27GK104298746SQ201410532681
【公開日】2015年1月21日申請日期:2014年10月10日優(yōu)先權(quán)日:2014年10月10日
【發(fā)明者】王厚峰, 李廣一申請人:北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王厚峰;李廣一
技術(shù)所有人：北京大學(xué)
我是此專利的發(fā)明人

上一篇：信息管理系統(tǒng)及信息管理方法
上一篇：一種帶條碼商品的條碼標(biāo)記檢測方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法