在文本中抽取關(guān)鍵詞的裝置和方法

文檔序號：6500910閱讀：170來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

在文本中抽取關(guān)鍵詞的裝置和方法
【專利摘要】公開了一種在文本中抽取關(guān)鍵詞的裝置和方法。所述方法包括：對文本進(jìn)行預(yù)處理，包括根據(jù)標(biāo)點(diǎn)符號將原始文本切分為段的集合；統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù)；根據(jù)統(tǒng)計(jì)結(jié)果，選擇詞語頻率大于或等于2的詞語構(gòu)成候選關(guān)鍵詞的集合；結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn)行評分；根據(jù)評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序，返回排序在前的預(yù)定數(shù)量的候選關(guān)鍵詞作為文本的關(guān)鍵詞。
【專利說明】在文本中抽取關(guān)鍵詞的裝置和方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種在文本中抽取關(guān)鍵詞的裝置和方法，更具體地說，涉及一種通過共現(xiàn)次數(shù)和規(guī)范化的點(diǎn)互信息計(jì)算候選關(guān)鍵詞與文本內(nèi)容的相關(guān)性，來抽取相關(guān)性高的預(yù) 定數(shù)量的詞語作為關(guān)鍵詞的裝置和方法。

【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展，數(shù)字化的文件正以驚人的速度在瘋狂增長。人們每天要花費(fèi)大量的時間和精力去閱讀和查找文件。為了節(jié)省時間和提高人們工作的效率，原始文檔的各種簡潔表示（例如摘要和關(guān)鍵詞等形式）應(yīng)運(yùn)而生。
[0003] 關(guān)鍵詞被定義成壓縮表示了原始文本重要信息和核心內(nèi)容的詞語。人們可以通過它快速了解文本的大致內(nèi)容，而不需要通讀全文。在信息檢索中，關(guān)鍵詞常被我們用來查找內(nèi)容相關(guān)的文檔。此外，在話題探測和跟蹤、文本分類和聚類等任務(wù)中都有重要的應(yīng)用。目前，除了形式規(guī)范的科技論文提供了關(guān)鍵詞外，大部分文檔都沒有作者或讀者分配的關(guān)鍵詞。傳統(tǒng)依靠人工去閱讀文本，然后抽取關(guān)鍵詞的方法在文檔數(shù)量劇增的今天越來越不能滿足實(shí)際應(yīng)用的需求。因此，如何自動抽取關(guān)鍵詞成了時下文本處理領(lǐng)域的一個研究熱點(diǎn)。
[0004] 從人工選擇關(guān)鍵詞的過程可以知道，關(guān)鍵詞可以是預(yù)定義好的類別，也可以是從文本中抽取的反映核心內(nèi)容和重要信息的詞語。第一種方法可以看成是一個文本分類的問題，它將現(xiàn)成的文本分配到預(yù)定義好的一個或幾個類別中。從而可以采用文本分類的思路和技術(shù)進(jìn)行關(guān)鍵詞的抽取。第二種方法就是本發(fā)明所采用的方法，它從原始文本中抽取反映文檔主要內(nèi)容的詞語，而不需要預(yù)先建立一個相關(guān)領(lǐng)域的類別體系。目前關(guān)鍵詞自動抽取的技術(shù)可以分為簡單統(tǒng)計(jì)的方法、語言分析的方法和機(jī)器學(xué)習(xí)的方法。語言分析的方法采用自然語言處理中詞法、句法及語義分析等技術(shù)，在對文檔進(jìn)行深入理解的基礎(chǔ)上抽取文檔中反映其主要內(nèi)容的詞語。雖然該類方法在提高抽取的關(guān)鍵詞的質(zhì)量方面具有很大的潛力，但是目前自然語言處理技術(shù)還在發(fā)展過程中，暫時還沒有成熟到可以有效應(yīng)用到關(guān) 鍵詞抽取的各種場合。基于機(jī)器學(xué)習(xí)的方法需要提供大規(guī)模特定的樣例進(jìn)行學(xué)習(xí)。不同領(lǐng)域的應(yīng)用需要采用相應(yīng)領(lǐng)域的樣例。而且訓(xùn)練模型需要花費(fèi)大量的時間。該類方法對 authoring及網(wǎng)頁等不確定領(lǐng)域環(huán)境中關(guān)鍵詞抽取的應(yīng)用，效果較差。簡單統(tǒng)計(jì)的方法不依賴于特定語言和特定領(lǐng)域，僅通過對文本中各種語言單元進(jìn)行統(tǒng)計(jì)分析以自動產(chǎn)生關(guān)鍵詞。這種方法簡單、快速、幾乎可以應(yīng)用于所有需要關(guān)鍵詞的任務(wù)中。
[0005] 在簡單統(tǒng)計(jì)的方法中，詞頻（即，詞語頻率）和詞語共現(xiàn)關(guān)系等常被用于關(guān)鍵詞的抽取。統(tǒng)計(jì)方法tfXidf中的tf表示詞頻，詞頻是詞語在文本中總共出現(xiàn)的次數(shù)，常用于評估特定詞語對一個文檔集或語料庫中某個文檔的重要性，idf反映了詞語對文本或類別的區(qū)分能力。Yukio Ohsawa等人在1998年提出的Key Graph方法利用文檔中詞語間的共現(xiàn)關(guān)系構(gòu)造詞共現(xiàn)圖，其中每個節(jié)點(diǎn)表示一個詞項(xiàng)。Key Graph方法將詞共現(xiàn)圖切割成多個涵蓋了作者觀點(diǎn)的互相連通的最大子圖（簇），然后統(tǒng)計(jì)詞項(xiàng)和這些簇的關(guān)系并將排名靠前的若干個詞語返回做關(guān)鍵詞。Text Rank是Rada Mihalcea和Paul Tarau在2004年提出的又一個基于圖的關(guān)鍵詞抽取算法。該算法利用長度為η的窗口中詞項(xiàng)的共現(xiàn)關(guān)系構(gòu)建詞共現(xiàn)圖，然后通過節(jié)點(diǎn)的出度、入度及邊的權(quán)重計(jì)算詞項(xiàng)的重要性，并選取最重要的若干個詞作為文檔的關(guān)鍵詞。2004年，Yutaka Matsuo等人采用X2計(jì)算單文本中詞項(xiàng)的共現(xiàn) 分布對高頻詞集的偏置程度來決定詞語的重要性。該方法還通過對共現(xiàn)矩陣中高頻列的聚類來改善算法的準(zhǔn)確性。Stuart Rose等人在2010年提出的RAKE算法利用詞度對詞頻的比例從文本摘要中抽取關(guān)鍵詞，其中詞度為詞頻和該詞的所有共現(xiàn)次數(shù)之和。
[0006] 互信息（Mutual Informational)是衡量兩個隨機(jī)變量間信息重疊程度的一種統(tǒng) 計(jì)方法。它表示在知道了一個隨機(jī)變量的值之后，我們對另一個隨機(jī)變量不確定性的減少，即一個隨機(jī)變量揭示了多少關(guān)于另一個隨機(jī)變量的信息量。給定兩個隨機(jī)變量X和Y，假設(shè) 它們的先驗(yàn)概率和聯(lián)合概率分別為P (X)，P (y)和P (X，y)，那么隨機(jī)變量X和Y的互信息可以表示成：

【權(quán)利要求】
1. 一種在文本中抽取關(guān)鍵詞的方法，所述方法包括：對文本進(jìn)行預(yù)處理，包括根據(jù)標(biāo)點(diǎn)符號將原始文本切分為段的集合；統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù)；根據(jù)統(tǒng)計(jì)結(jié)果，選擇詞語頻率大于或等于2的詞語構(gòu)成候選關(guān)鍵詞的集合；結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn)行評分；根據(jù)評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序，返回排序在前的預(yù)定數(shù)量的候選關(guān)鍵詞作為文本的關(guān)鍵詞。
2. 如權(quán)利要求1所述的方法，其中，詞語頻率為詞語在文本中總共出現(xiàn)的次數(shù)。
3. 如權(quán)利要求1所述的方法，其中，對文本進(jìn)行預(yù)處理的步驟還包括：去除文本中的停用詞和/或明顯不是關(guān)鍵詞的字符串。
4. 如權(quán)利要求1所述的方法，其中，對文本進(jìn)行預(yù)處理的步驟還包括：對沒有間隔符的語言的文本進(jìn)行分詞處理。
5. 如權(quán)利要求1所述的方法，其中，對文本進(jìn)行預(yù)處理的步驟還包括：針對具有間隔符的語言的文本，去除文本中的長度小于3的詞語。
6. 如權(quán)利要求1所述的方法，其中，對候選關(guān)鍵詞進(jìn)行評分的步驟包括：通過結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息計(jì)算候選關(guān)鍵詞和文本中所有其他詞語的相關(guān)性評分的和，來衡量候選關(guān)鍵詞和文本內(nèi)容的相關(guān)性。
7. 如權(quán)利要求1所述的方法，其中，基于段的詞對的共現(xiàn)次數(shù)的計(jì)算公式為：
其中，c(wl，w2)為詞對（wl，w2)在文本中的共現(xiàn)次數(shù)，seg為根據(jù)標(biāo)點(diǎn)符號切分后的段，len(wl，w2)為詞語wl和詞語w2在段seg中出現(xiàn)的位序之差的絕對值。
8. 如權(quán)利要求7所述的方法，其中，詞對間規(guī)范化點(diǎn)互信息的計(jì)算公式為：
其中，Ν為文本總詞數(shù)；c(wl，w2)為詞對（wl，w2)在文本中的共現(xiàn)次數(shù)；c(wl)為詞語 wl在文本中出現(xiàn)的次數(shù)；c(w2)為詞語w2在文本中出現(xiàn)的次數(shù)。
9. 如權(quán)利要求8所述的方法，其中，候選關(guān)鍵詞和文本中其他詞語的相關(guān)性評分的計(jì) 算公式為：
其中，c(wl，w2)為詞對（wl，w2)在文本中的共現(xiàn)次數(shù)，npmi (wl，w2)為詞對（wl，w2) 的詞對間規(guī)范化點(diǎn)互信息。
10. -種在文本中抽取關(guān)鍵詞的裝置，所述裝置包括：預(yù)處理單元，被配置為對文本進(jìn)行預(yù)處理，其中，預(yù)處理單元根據(jù)標(biāo)點(diǎn)符號將原始文本切分為段的集合；統(tǒng)計(jì)單元，被配置為統(tǒng)計(jì)預(yù)處理后的文本的詞語頻率和基于段的詞對的共現(xiàn)次數(shù)；選擇單元，被配置為根據(jù)統(tǒng)計(jì)單元的統(tǒng)計(jì)結(jié)果，選擇詞語頻率大于或等于2的詞語構(gòu) 成候選關(guān)鍵詞的集合；評分單元，被配置為結(jié)合詞對的共現(xiàn)次數(shù)和詞對間規(guī)范化點(diǎn)互信息來對候選關(guān)鍵詞進(jìn) 行評分；排序單元，被配置為根據(jù)評分單元的評分結(jié)果從高到低對候選關(guān)鍵詞進(jìn)行排序，返回排序在前的預(yù)定數(shù)量的候選關(guān)鍵詞作為文本的關(guān)鍵詞。
11. 如權(quán)利要求10所述的裝置，其中，詞語頻率為詞語在文本中總共出現(xiàn)的次數(shù)。
12. 如權(quán)利要求10所述的裝置，其中，預(yù)處理單元還被配置為去除文本中的停用詞和/ 或明顯不是關(guān)鍵詞的字符串。
13. 如權(quán)利要求10所述的裝置，其中，預(yù)處理單元還被配置為對沒有間隔符的語言的文本進(jìn)行分詞處理。
14. 如權(quán)利要求10所述的裝置，其中，預(yù)處理單元還被配置為針對具有間隔符的語言的文本，去除文本中的長度小于3的詞語。
15. 如權(quán)利要求10所述的裝置，其中，評分單元還被配置為：通過結(jié)合詞對的共現(xiàn)次數(shù) 和詞對間規(guī)范化點(diǎn)互信息計(jì)算候選關(guān)鍵詞和文本中所有其他詞語的相關(guān)性評分的和，來衡量候選關(guān)鍵詞和文本內(nèi)容的相關(guān)性。 w加切采丨面金m W試的ft置，其中，基于段的詞對的共現(xiàn)次數(shù)的計(jì)算公式為：
其中，c(wl，w2)為詞對（wl，w2)在文本中的共現(xiàn)次數(shù)，seg為根據(jù)標(biāo)點(diǎn)符號切分后的段，len(wl，w2)為詞語wl和詞語w2在段seg中出現(xiàn)的位序之差的絕對值。
17. 如權(quán)利要求16所述的裝置，其中，詞對間規(guī)范化點(diǎn)互信息的計(jì)算公式為：
其中，Ν為文本總詞數(shù)；c(wl，w2)為詞對（wl，w2)在文本中的共現(xiàn)次數(shù)；c(wl)為詞語 wl在文本中出現(xiàn)的次數(shù)；c(w2)為詞語w2在文本中出現(xiàn)的次數(shù)。
18. 如權(quán)利要求17所述的裝置，其中，候選關(guān)鍵詞和文本中其他詞語的相關(guān)性評分的計(jì)算公式為： score{w\, w2) = c(wl, w2)xnpmi(wl, w2)
其中，c(wl，w2)為詞對（wl, w2)在文本中的共現(xiàn)次數(shù)，npmi (wl, w2)為詞對（wl, w2) 的詞對間規(guī)范化點(diǎn)互信息。
【文檔編號】G06F17/30GK104063387SQ201310089672
【公開日】2014年9月24日申請日期:2013年3月19日優(yōu)先權(quán)日:2013年3月19日
【發(fā)明者】周進(jìn)華, 李雄鋒, 呂光華, 張濤, 葉青申請人:三星電子（中國）研發(fā)中心, 三星電子株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周進(jìn)華;李雄鋒;呂光華;張濤;葉青
技術(shù)所有人：三星電子（中國）研發(fā)中心;三星電子株式會社
我是此專利的發(fā)明人

上一篇：處理對象的方法及裝置制造方法
上一篇：通過鍵盤開機(jī)的電腦的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本關(guān)鍵詞提取相關(guān)技術(shù)

python文本關(guān)鍵詞提取相關(guān)技術(shù)

文本關(guān)鍵詞提取工具相關(guān)技術(shù)

文本關(guān)鍵詞提取算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在文本中抽取關(guān)鍵詞的裝置和方法