在文本中抽取關(guān)鍵詞的裝置和方法
【專利摘要】公開了一種在文本中抽取關(guān)鍵詞的裝置和方法。所述方法包括:對文本進(jìn)行預(yù)處理,包括根據(jù)標(biāo)點(diǎn)符號將原始文本切分為段的集合;統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù);根據(jù)統(tǒng)計(jì)結(jié)果,選擇詞語頻率大于或等于2的詞語構(gòu)成候選關(guān)鍵詞的集合;結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn)行評分;根據(jù)評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序,返回排序在前的預(yù)定數(shù)量的候選關(guān)鍵詞作為文本的關(guān)鍵詞。
【專利說明】在文本中抽取關(guān)鍵詞的裝置和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種在文本中抽取關(guān)鍵詞的裝置和方法,更具體地說,涉及一種通過 共現(xiàn)次數(shù)和規(guī)范化的點(diǎn)互信息計(jì)算候選關(guān)鍵詞與文本內(nèi)容的相關(guān)性,來抽取相關(guān)性高的預(yù) 定數(shù)量的詞語作為關(guān)鍵詞的裝置和方法。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化的文件正以驚人的速度在瘋狂增長。人們 每天要花費(fèi)大量的時間和精力去閱讀和查找文件。為了節(jié)省時間和提高人們工作的效率, 原始文檔的各種簡潔表示(例如摘要和關(guān)鍵詞等形式)應(yīng)運(yùn)而生。
[0003] 關(guān)鍵詞被定義成壓縮表示了原始文本重要信息和核心內(nèi)容的詞語。人們可以通過 它快速了解文本的大致內(nèi)容,而不需要通讀全文。在信息檢索中,關(guān)鍵詞常被我們用來查找 內(nèi)容相關(guān)的文檔。此外,在話題探測和跟蹤、文本分類和聚類等任務(wù)中都有重要的應(yīng)用。目 前,除了形式規(guī)范的科技論文提供了關(guān)鍵詞外,大部分文檔都沒有作者或讀者分配的關(guān)鍵 詞。傳統(tǒng)依靠人工去閱讀文本,然后抽取關(guān)鍵詞的方法在文檔數(shù)量劇增的今天越來越不能 滿足實(shí)際應(yīng)用的需求。因此,如何自動抽取關(guān)鍵詞成了時下文本處理領(lǐng)域的一個研究熱點(diǎn)。
[0004] 從人工選擇關(guān)鍵詞的過程可以知道,關(guān)鍵詞可以是預(yù)定義好的類別,也可以是從 文本中抽取的反映核心內(nèi)容和重要信息的詞語。第一種方法可以看成是一個文本分類的問 題,它將現(xiàn)成的文本分配到預(yù)定義好的一個或幾個類別中。從而可以采用文本分類的思路 和技術(shù)進(jìn)行關(guān)鍵詞的抽取。第二種方法就是本發(fā)明所采用的方法,它從原始文本中抽取反 映文檔主要內(nèi)容的詞語,而不需要預(yù)先建立一個相關(guān)領(lǐng)域的類別體系。目前關(guān)鍵詞自動抽 取的技術(shù)可以分為簡單統(tǒng)計(jì)的方法、語言分析的方法和機(jī)器學(xué)習(xí)的方法。語言分析的方法 采用自然語言處理中詞法、句法及語義分析等技術(shù),在對文檔進(jìn)行深入理解的基礎(chǔ)上抽取 文檔中反映其主要內(nèi)容的詞語。雖然該類方法在提高抽取的關(guān)鍵詞的質(zhì)量方面具有很大的 潛力,但是目前自然語言處理技術(shù)還在發(fā)展過程中,暫時還沒有成熟到可以有效應(yīng)用到關(guān) 鍵詞抽取的各種場合。基于機(jī)器學(xué)習(xí)的方法需要提供大規(guī)模特定的樣例進(jìn)行學(xué)習(xí)。不同 領(lǐng)域的應(yīng)用需要采用相應(yīng)領(lǐng)域的樣例。而且訓(xùn)練模型需要花費(fèi)大量的時間。該類方法對 authoring及網(wǎng)頁等不確定領(lǐng)域環(huán)境中關(guān)鍵詞抽取的應(yīng)用,效果較差。簡單統(tǒng)計(jì)的方法不 依賴于特定語言和特定領(lǐng)域,僅通過對文本中各種語言單元進(jìn)行統(tǒng)計(jì)分析以自動產(chǎn)生關(guān)鍵 詞。這種方法簡單、快速、幾乎可以應(yīng)用于所有需要關(guān)鍵詞的任務(wù)中。
[0005] 在簡單統(tǒng)計(jì)的方法中,詞頻(即,詞語頻率)和詞語共現(xiàn)關(guān)系等常被用于關(guān)鍵詞的 抽取。統(tǒng)計(jì)方法tfXidf中的tf表示詞頻,詞頻是詞語在文本中總共出現(xiàn)的次數(shù),常用于 評估特定詞語對一個文檔集或語料庫中某個文檔的重要性,idf反映了詞語對文本或類別 的區(qū)分能力。Yukio Ohsawa等人在1998年提出的Key Graph方法利用文檔中詞語間的共 現(xiàn)關(guān)系構(gòu)造詞共現(xiàn)圖,其中每個節(jié)點(diǎn)表示一個詞項(xiàng)。Key Graph方法將詞共現(xiàn)圖切割成多個 涵蓋了作者觀點(diǎn)的互相連通的最大子圖(簇),然后統(tǒng)計(jì)詞項(xiàng)和這些簇的關(guān)系并將排名靠 前的若干個詞語返回做關(guān)鍵詞。Text Rank是Rada Mihalcea和Paul Tarau在2004年提 出的又一個基于圖的關(guān)鍵詞抽取算法。該算法利用長度為η的窗口中詞項(xiàng)的共現(xiàn)關(guān)系構(gòu)建 詞共現(xiàn)圖,然后通過節(jié)點(diǎn)的出度、入度及邊的權(quán)重計(jì)算詞項(xiàng)的重要性,并選取最重要的若干 個詞作為文檔的關(guān)鍵詞。2004年,Yutaka Matsuo等人采用X2計(jì)算單文本中詞項(xiàng)的共現(xiàn) 分布對高頻詞集的偏置程度來決定詞語的重要性。該方法還通過對共現(xiàn)矩陣中高頻列的聚 類來改善算法的準(zhǔn)確性。Stuart Rose等人在2010年提出的RAKE算法利用詞度對詞頻的 比例從文本摘要中抽取關(guān)鍵詞,其中詞度為詞頻和該詞的所有共現(xiàn)次數(shù)之和。
[0006] 互信息(Mutual Informational)是衡量兩個隨機(jī)變量間信息重疊程度的一種統(tǒng) 計(jì)方法。它表示在知道了一個隨機(jī)變量的值之后,我們對另一個隨機(jī)變量不確定性的減少, 即一個隨機(jī)變量揭示了多少關(guān)于另一個隨機(jī)變量的信息量。給定兩個隨機(jī)變量X和Y,假設(shè) 它們的先驗(yàn)概率和聯(lián)合概率分別為P (X),P (y)和P (X,y),那么隨機(jī)變量X和Y的互信息可 以表示成:
【權(quán)利要求】
1. 一種在文本中抽取關(guān)鍵詞的方法,所述方法包括: 對文本進(jìn)行預(yù)處理,包括根據(jù)標(biāo)點(diǎn)符號將原始文本切分為段的集合; 統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù); 根據(jù)統(tǒng)計(jì)結(jié)果,選擇詞語頻率大于或等于2的詞語構(gòu)成候選關(guān)鍵詞的集合; 結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn)行評分; 根據(jù)評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序,返回排序在前的預(yù)定數(shù)量的候選關(guān)鍵 詞作為文本的關(guān)鍵詞。
2. 如權(quán)利要求1所述的方法,其中,詞語頻率為詞語在文本中總共出現(xiàn)的次數(shù)。
3. 如權(quán)利要求1所述的方法,其中,對文本進(jìn)行預(yù)處理的步驟還包括:去除文本中的停 用詞和/或明顯不是關(guān)鍵詞的字符串。
4. 如權(quán)利要求1所述的方法,其中,對文本進(jìn)行預(yù)處理的步驟還包括:對沒有間隔符的 語言的文本進(jìn)行分詞處理。
5. 如權(quán)利要求1所述的方法,其中,對文本進(jìn)行預(yù)處理的步驟還包括:針對具有間隔符 的語言的文本,去除文本中的長度小于3的詞語。
6. 如權(quán)利要求1所述的方法,其中,對候選關(guān)鍵詞進(jìn)行評分的步驟包括:通過結(jié)合詞對 的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息計(jì)算候選關(guān)鍵詞和文本中所有其他詞語的相關(guān)性評 分的和,來衡量候選關(guān)鍵詞和文本內(nèi)容的相關(guān)性。
7. 如權(quán)利要求1所述的方法,其中,基于段的詞對的共現(xiàn)次數(shù)的計(jì)算公式為:
其中,c(wl,w2)為詞對(wl,w2)在文本中的共現(xiàn)次數(shù),seg為根據(jù)標(biāo)點(diǎn)符號切分后的 段,len(wl,w2)為詞語wl和詞語w2在段seg中出現(xiàn)的位序之差的絕對值。
8. 如權(quán)利要求7所述的方法,其中,詞對間規(guī)范化點(diǎn)互信息的計(jì)算公式為:
其中,Ν為文本總詞數(shù);c(wl,w2)為詞對(wl,w2)在文本中的共現(xiàn)次數(shù);c(wl)為詞語 wl在文本中出現(xiàn)的次數(shù);c(w2)為詞語w2在文本中出現(xiàn)的次數(shù)。
9. 如權(quán)利要求8所述的方法,其中,候選關(guān)鍵詞和文本中其他詞語的相關(guān)性評分的計(jì) 算公式為:
其中,c(wl,w2)為詞對(wl,w2)在文本中的共現(xiàn)次數(shù),npmi (wl,w2)為詞對(wl,w2) 的詞對間規(guī)范化點(diǎn)互信息。
10. -種在文本中抽取關(guān)鍵詞的裝置,所述裝置包括: 預(yù)處理單元,被配置為對文本進(jìn)行預(yù)處理,其中,預(yù)處理單元根據(jù)標(biāo)點(diǎn)符號將原始文本 切分為段的集合; 統(tǒng)計(jì)單元,被配置為統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù); 選擇單元,被配置為根據(jù)統(tǒng)計(jì)單元的統(tǒng)計(jì)結(jié)果,選擇詞語頻率大于或等于2的詞語構(gòu) 成候選關(guān)鍵詞的集合; 評分單元,被配置為結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn) 行評分; 排序單元,被配置為根據(jù)評分單元的評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序,返回 排序在前的預(yù)定數(shù)量的候選關(guān)鍵詞作為文本的關(guān)鍵詞。
11. 如權(quán)利要求10所述的裝置,其中,詞語頻率為詞語在文本中總共出現(xiàn)的次數(shù)。
12. 如權(quán)利要求10所述的裝置,其中,預(yù)處理單元還被配置為去除文本中的停用詞和/ 或明顯不是關(guān)鍵詞的字符串。
13. 如權(quán)利要求10所述的裝置,其中,預(yù)處理單元還被配置為對沒有間隔符的語言的 文本進(jìn)行分詞處理。
14. 如權(quán)利要求10所述的裝置,其中,預(yù)處理單元還被配置為針對具有間隔符的語言 的文本,去除文本中的長度小于3的詞語。
15. 如權(quán)利要求10所述的裝置,其中,評分單元還被配置為:通過結(jié)合詞對的共現(xiàn)次數(shù) 和詞對間規(guī)范化點(diǎn)互信息計(jì)算候選關(guān)鍵詞和文本中所有其他詞語的相關(guān)性評分的和,來衡 量候選關(guān)鍵詞和文本內(nèi)容的相關(guān)性。 w加切采丨面金m W試的ft置,其中,基于段的詞對的共現(xiàn)次數(shù)的計(jì)算公式為:
其中,c(wl,w2)為詞對(wl,w2)在文本中的共現(xiàn)次數(shù),seg為根據(jù)標(biāo)點(diǎn)符號切分后的 段,len(wl,w2)為詞語wl和詞語w2在段seg中出現(xiàn)的位序之差的絕對值。
17. 如權(quán)利要求16所述的裝置,其中,詞對間規(guī)范化點(diǎn)互信息的計(jì)算公式為:
其中,Ν為文本總詞數(shù);c(wl,w2)為詞對(wl,w2)在文本中的共現(xiàn)次數(shù);c(wl)為詞語 wl在文本中出現(xiàn)的次數(shù);c(w2)為詞語w2在文本中出現(xiàn)的次數(shù)。
18. 如權(quán)利要求17所述的裝置,其中,候選關(guān)鍵詞和文本中其他詞語的相關(guān)性評分的 計(jì)算公式為: score{w\, w2) = c(wl, w2)xnpmi(wl, w2)
其中,c(wl,w2)為詞對(wl, w2)在文本中的共現(xiàn)次數(shù),npmi (wl, w2)為詞對(wl, w2) 的詞對間規(guī)范化點(diǎn)互信息。
【文檔編號】G06F17/30GK104063387SQ201310089672
【公開日】2014年9月24日 申請日期:2013年3月19日 優(yōu)先權(quán)日:2013年3月19日
【發(fā)明者】周進(jìn)華, 李雄鋒, 呂光華, 張濤, 葉青 申請人:三星電子(中國)研發(fā)中心, 三星電子株式會社