一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法
【專利摘要】本發(fā)明公開了一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,首先對領(lǐng)域文獻(xiàn)的文本進(jìn)行預(yù)處理,將文本切分成詞序列;然后基于DFAV統(tǒng)計量提取關(guān)鍵詞候選短語,再構(gòu)建短語網(wǎng)絡(luò);利用圖排序算法對短語網(wǎng)絡(luò)中的關(guān)鍵詞候選短語進(jìn)行排序,排名靠前的短語作為結(jié)果關(guān)鍵詞。
【專利說明】一種基于短語網(wǎng)絡(luò)圖排序的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提供了一種領(lǐng)域關(guān)鍵詞抽取方法,具體涉及一種通過DFAV統(tǒng)計量提取關(guān) 鍵詞候選短語及基于短語網(wǎng)絡(luò)的圖排序來提取關(guān)鍵詞的方法,屬于自然語言處理、信息檢 索領(lǐng)域。
【背景技術(shù)】
[0002] 關(guān)鍵詞是對文檔內(nèi)容和主題的濃縮,通常由幾個詞或者短語構(gòu)成。關(guān)鍵詞在信息 檢索、文本分類、知識挖掘等領(lǐng)域有著廣泛應(yīng)用。在當(dāng)今信息爆炸式增長的時代,海量的文 檔已經(jīng)超出人力在特定時間內(nèi)所能瀏覽的范圍。為了快速準(zhǔn)確地獲取所需信息,關(guān)鍵詞就 成為快速閱讀海量數(shù)據(jù)的重要形式。
[0003] 雖然很多專業(yè)文獻(xiàn)(如論文)都有關(guān)鍵詞,但仍然有大量的文獻(xiàn)沒有關(guān)鍵詞。文 獻(xiàn)的關(guān)鍵詞通常需要具有相關(guān)領(lǐng)域知識的人去標(biāo)引,以保證關(guān)鍵詞能夠準(zhǔn)確地反映文檔的 內(nèi)容和主題。然而,隨著各類文獻(xiàn)的大量涌現(xiàn),單純依靠人工獲取關(guān)鍵詞已經(jīng)十分困難;而 且,人工提取的關(guān)鍵詞標(biāo)準(zhǔn)難以統(tǒng)一,可能存在不規(guī)范或不能準(zhǔn)確反映文本內(nèi)容的現(xiàn)象。這 就迫切需要一種自動提取文獻(xiàn)關(guān)鍵詞的技術(shù)。
【發(fā)明內(nèi)容】
[0004] 為了便于說明,首先約定下列概念:
[0005] 關(guān)鍵詞:能夠表達(dá)文檔主題思想的詞或詞組成的短語,一個文檔的關(guān)鍵詞通常不 止一個。
[0006] 關(guān)鍵詞候選短語:可能作為文檔關(guān)鍵詞的詞或短語。
[0007] DF(phr):詞(或短語)phr的文檔頻率。即phr在文檔集合的多少個文檔中出現(xiàn), 出現(xiàn)過的文檔數(shù)稱為文檔頻率。
[0005] DFAV (phr):指在一個詞(或短語)phr左側(cè)(或右側(cè))出現(xiàn)過的所有詞語的文檔 頻率之和(或者頻率的對數(shù)之和)。例如,若計算詞(或短語)phr左邊的DFAV (phr)(表 示為DFAVL&hr)),先假定Se (phr)是phr在文檔集合中左邊的詞的集合(類似地,可以用 SR (phr)表示phr右邊的詞集合),按取頻率的對數(shù)計算,則:
[0009]
【權(quán)利要求】
1. 一種領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,包括以下步驟: 1) 通過DFAV統(tǒng)計量提取領(lǐng)域文獻(xiàn)中的關(guān)鍵詞候選短語; 2) 基于候選短語及它們之間的關(guān)系,構(gòu)建短語網(wǎng)絡(luò); 3) 依據(jù)圖排序算法,對短語網(wǎng)絡(luò)中的每個短語計算一個表示重要程度的得分; 4) 按短語得分進(jìn)行排序,將得分高的短語輸出,即為所提取的關(guān)鍵詞。
2. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,所述步驟1)包括如下 操作: A1.分別統(tǒng)計各短語在領(lǐng)域文獻(xiàn)中所有出現(xiàn)位置左側(cè)和右側(cè)的詞語集合; A2.利用大規(guī)模語料,統(tǒng)計詞語的文檔頻率,即DF值; A3.依據(jù)領(lǐng)域內(nèi)已知關(guān)鍵詞的統(tǒng)計特性,剔除部分短語; A4.對于剩余的每個候選短語,求出它左側(cè)出現(xiàn)過的詞語的DF值或其對數(shù)之和,及它 右側(cè)出現(xiàn)過的詞語的DF值或其對數(shù)之和,將兩個和相乘作為該短語的DFAV得分; A5.依據(jù)DFAV得分從高到低對短語排序,得分高于某一閾值的短語即為關(guān)鍵詞候選短 語。
3. 如權(quán)利要求2所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,步驟A2所述大規(guī)模語 料是中文Gigaword語料。
4. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,在提取關(guān)鍵詞候選短 語前對文本進(jìn)行預(yù)處理,將文本切分成詞序列。
5. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,步驟2)中兩個候選短 語之間的關(guān)系是指一定窗口大小內(nèi)兩者的共現(xiàn)關(guān)系,構(gòu)建短語網(wǎng)絡(luò)的步驟是: 2-1)基于候選短語構(gòu)建短語連通圖:在兩個相鄰候選短語之間連接一條邊,邊的方向 是由出現(xiàn)在前的短語指向出現(xiàn)在后的短語; 2-2)基于短語連通圖建立短語網(wǎng)絡(luò):在短語聯(lián)通圖的基礎(chǔ)上,以短語表示節(jié)點,邊表 示節(jié)點之間的關(guān)系,假如窗口大小為n,如果兩個節(jié)點之間存在一條長度小于η的有向路 徑,那么就在兩個節(jié)點間添加一個連接邊,部分重疊的兩個短語節(jié)點間沒有鏈接,其中η為 自然數(shù),節(jié)點I到節(jié)點 '的有向路徑長度是指按照有向邊的方向從節(jié)點Vi到節(jié)點 '所經(jīng) 過的邊的條數(shù); 2-3)簡化短語網(wǎng)絡(luò):將共現(xiàn)程度高的相鄰詞語進(jìn)行合并。
6. 如權(quán)利要求1所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,步驟3)首先對于短語 網(wǎng)絡(luò)中的每一條邊,根據(jù)對應(yīng)的兩個短語的特定屬性,計算該邊的權(quán)重;然后依據(jù)圖排序算 法,對每個短語計算一個表示重要程度的得分。
7. 如權(quán)利要求6所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,邊的權(quán)重是節(jié)點間距 離權(quán)重和頭節(jié)點短語長度權(quán)重的乘積,即=wdist(i,j) Xwlm(Vj);其中節(jié)點間距離權(quán)重 wciisl. (i,j) = 〇·5 + ^,dish為節(jié)點Vi和節(jié)點Vj在短語網(wǎng)絡(luò)中的最短路徑長度;頭節(jié)點 0.5xNien fy.·^ 短語長度權(quán)重w^CVj) = 0.5+ Ν ,其中1θη(νρ表示頭節(jié)點V」的短語長度,Nlm(vp ^ Max 表示在領(lǐng)域已知關(guān)鍵詞集合中長度與len(vp相同的關(guān)鍵詞頻數(shù),NMax是該關(guān)鍵詞集合中各 長度中頻數(shù)最高的值。
8. 如權(quán)利要求7所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,所述圖排序算法是 TextRank算法,定義有向圖G= (V,E)為所述短語網(wǎng)絡(luò),V為節(jié)點集合,E為有向邊的集合; 對節(jié)點定義In (VJ為有邊指向Vi的節(jié)點集合,Out (Vj)為Vj指向的節(jié)點集合,則節(jié)點Vi 的得分WS(Vi)由如下公式計算:
其中,d取值0?1之間。
9. 如權(quán)利要求8所述的領(lǐng)域文獻(xiàn)關(guān)鍵詞提取方法,其特征在于,依據(jù)領(lǐng)域內(nèi)已知關(guān)鍵 詞的頻率對短語得分進(jìn)行調(diào)整:假設(shè)phr在已知關(guān)鍵詞中出現(xiàn)的次數(shù)為fr eq(phr),則權(quán)重
對短語phr的TextRank得分乘上wf得到短語的最終得分。
【文檔編號】G06F17/27GK104298746SQ201410532681
【公開日】2015年1月21日 申請日期:2014年10月10日 優(yōu)先權(quán)日:2014年10月10日
【發(fā)明者】王厚峰, 李廣一 申請人:北京大學(xué)