專利名稱:一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘以及人工智能領(lǐng)域,尤其涉及一種采用人工智能技術(shù)自動(dòng)提
取關(guān)鍵字的方法。
背景技術(shù):
已經(jīng)大量的工作來(lái)進(jìn)行關(guān)鍵字的提取工作。1987年Term-weightinga卯roaches in automatic text retrieval文章介紹了一種簡(jiǎn)單的基于單詞在文章中出現(xiàn)頻率的方 法來(lái)進(jìn)行關(guān)鍵字提取。2004年P(guān)roceedings ofEMNLP-04雜志(文章標(biāo)題"Textrank : bringing order into texts")介紹了使用單詞的頻率,關(guān)鍵詞組的頻率以及距離來(lái)提取 關(guān)鍵字。2006年P(guān)roceedings ofWAIM(文章標(biāo)題"Keywordextraction using support vector machine")介紹單詞頻率,單詞位置,單詞詞性,單詞間聯(lián)系來(lái)提取關(guān)鍵字。2007 年Information Processing and Management雜志(文章標(biāo)題"Using lexical chains for keyword extraction")介紹了使用語(yǔ)義鏈特征進(jìn)行關(guān)鍵字提取。最近維基百科的知 識(shí)被用于關(guān)鍵字提取工作中。2007年P(guān)roceedings ofCIKM(文章標(biāo)題"Wikify ! :linking documents to encyclopedic knowledge")介紹使用維基百科的鏈接結(jié)構(gòu)定義新的單詞特 征進(jìn)行關(guān)鍵字提取。2009年P(guān)roceedingsof麗(文章標(biāo)題"Extracting key terms from noisy and multitheme documents")介紹使用維基百科的標(biāo)題集合和鏈接結(jié)構(gòu)進(jìn)行關(guān)鍵 字提取。 還有大量的工作關(guān)于使用來(lái)自第三方的知識(shí)庫(kù)。2007年P(guān)roceedings ofEMNLP-CoNLL(文章標(biāo)題"Enhancing single-document summarization bycombining ranket and third-party sources")提出使用第三方的知識(shí)庫(kù)可以提高在自然語(yǔ)言處理 中的算法的性會(huì)g。 2005年P(guān)roceedings of IJCAI (文章標(biāo)題"Featurege證ation for text categoriza-tion using world knowledge")介紹使用來(lái)自O(shè)penDirectory Project 的知識(shí)產(chǎn)生新的單詞特征提高原來(lái)的文本分類性能。2006年Document Understanding Conference雜志(文章標(biāo)題"Query independent sentencescoring approach to due 2006")提出利用來(lái)自物聯(lián)網(wǎng)的知識(shí)來(lái)進(jìn)行文章的總結(jié)。 總而言之,我們觀察到的相關(guān)工作,一些專注于利用外部知識(shí)產(chǎn)生新的單詞特征, 一些外部知識(shí)的來(lái)源。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵 字的方法。
采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法包括以下步驟 1)通過(guò)搜索維基百科獲得與文本相關(guān)的背景知識(shí),對(duì)于給定的文本,利用一個(gè)圖 像算法檢測(cè)文本中重要的句子,然后對(duì)獲得的句子除去無(wú)意義的單詞,并且把剩下的詞返 回原始形態(tài),最后的結(jié)果就是與文本對(duì)應(yīng)的查詢,它包含了文本中的重要信息,一個(gè)全文檢索引擎利用該查詢搜索維基百科,返回的結(jié)果能提供該文本的背景知識(shí); 2)分析返回的維基百科文章的結(jié)構(gòu),對(duì)于每一個(gè)返回的維基百科文章,分析它的
結(jié)構(gòu),提取導(dǎo)入鏈接,導(dǎo)出鏈接,種類和infobox四種不同的結(jié)構(gòu)信息,并且組成相應(yīng)的集合. 3)通過(guò)使用維基百科的背景知識(shí)產(chǎn)生單詞的特征,根據(jù)文章的體裁信息產(chǎn)生單詞
的特征,利用文章本身的信息來(lái)產(chǎn)生單詞的特征,共同組成一個(gè)特征空間; 4)對(duì)產(chǎn)生的單詞特征空間進(jìn)行機(jī)器學(xué)習(xí),使用支持向量機(jī)算法對(duì)上面的特征空間
進(jìn)行機(jī)器學(xué)習(xí),通過(guò)訓(xùn)練得到一個(gè)模型,并利用這個(gè)模型進(jìn)行關(guān)鍵字的自動(dòng)提取。 所述的步驟l): a)把文本中的句子構(gòu)建一個(gè)圖,圖中的點(diǎn)代表句子,連接點(diǎn)的邊代表句子間的聯(lián)
系,邊的權(quán)重由兩個(gè)句子的相似程度決定,利用這個(gè)圖檢測(cè)文本中的重要句子; b)通過(guò)計(jì)算出的每一個(gè)關(guān)鍵節(jié)點(diǎn)都代表一個(gè)關(guān)鍵句,根據(jù)無(wú)意義單詞列表除去句
子中的無(wú)意義單詞; c)把處理完的單詞返回原始形態(tài),然后利用剩下的單詞組成對(duì)應(yīng)于文章的查詢;
d)把產(chǎn)生的查詢輸入到一個(gè)全文檢索引擎Zettair,該引擎在維基百科上運(yùn)行, 根據(jù)與查詢的相關(guān)程度返回維基百科中的文章,并按照相關(guān)程度排序,獲得一個(gè)維基百科 中的相關(guān)文章組成的集合。
所述的步驟2)為 e)對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)入鏈接,產(chǎn)生一個(gè)導(dǎo)入鏈接集合,導(dǎo) 入鏈接把維基百科其它位置的文章鏈接到當(dāng)前文章,利用MediaWikiAPI獲得某個(gè)文章的 所有導(dǎo)入鏈接集合。 f)對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)出鏈接,并組成一個(gè)導(dǎo)出鏈接集合, 導(dǎo)出鏈接把當(dāng)前文章指向維基百科其它位置,導(dǎo)出鏈接在文章的文本中以超鏈接的形式存 在,通過(guò)提取文章中所有的超鏈接獲得該文章的導(dǎo)出鏈接集合;
g)對(duì)每一個(gè)文章提取它的種類信息,并組成一個(gè)種類集合; h)維基百科文章中的infobox是文章中重要信息的一個(gè)總結(jié),對(duì)每一個(gè)含 有infobox的文章提取infobox中的參數(shù)值,組成一個(gè)infobox參數(shù)值集合,同時(shí)扔掉 infobox種的參數(shù)名信息。
所述的步驟3)為 i)對(duì)于維基百科文章的導(dǎo)入鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候 選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo) 入鏈接特征; j)對(duì)于維基百科文章的導(dǎo)出鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候 選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo) 出鏈接特征; k)對(duì)于維基百科文章的種類集合的每一個(gè)元素,利用維基百科的種類圖來(lái)計(jì)算它 與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選單 詞的種類特征; 1)對(duì)于維基百科文章的infobox參數(shù)值集合中的每一個(gè)元素,利用WordNet計(jì)算其與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選 單詞的infobox特征; m)提取包括外表特征,字符特征,結(jié)構(gòu)特征在內(nèi)的文章體裁特征,然后測(cè)量?jī)蓚€(gè)文 章的題材相似程度; n)使用一個(gè)包含很多體裁文章的文章集合,給定一個(gè)文章,從集合中找出體裁相 似程度最近的300個(gè)文章,提取它們的標(biāo)題,除去其中無(wú)意義的單詞,對(duì)每一個(gè)這樣的單 詞,計(jì)算單詞的出現(xiàn)次數(shù),并且計(jì)算單詞與文章的題材相似程度; o)同時(shí)使用一些廣泛使用的單詞的特征,單詞在文章中出現(xiàn)的頻率,單詞在文章 中的位置,單詞是否指代特殊的人名或地名,單詞長(zhǎng)度以及單詞是否出現(xiàn)在總結(jié)的句子中。
所述的步驟4)為 p)使用支持向量機(jī)算法在上面產(chǎn)生的文本特征空間上運(yùn)行,把候選單詞分為關(guān)鍵 詞和非關(guān)鍵詞; q)在使用支持向量機(jī)算法進(jìn)行訓(xùn)練時(shí),出現(xiàn)在標(biāo)題中的單詞作為正面的例子, 其它的單詞作為反面的例子,然后訓(xùn)練一個(gè)支持向量模型,利用這個(gè)模型進(jìn)行關(guān)鍵字的提 ??; r)根據(jù)在機(jī)器學(xué)習(xí)中的決定值的大小,利用一個(gè)參數(shù)靠控制提取關(guān)鍵詞的數(shù)量,
對(duì)提取出的關(guān)鍵字進(jìn)行排序,排序高的候選單詞成為關(guān)鍵字的可能性越高。 本發(fā)明與現(xiàn)有技術(shù)相比具有的有益效果 (1)充分利用維基百科的各種結(jié)構(gòu)信息; (2)提出一種文章到查詢的轉(zhuǎn)換方法; (3)利用文章的體裁信息定義單詞的特征。
圖1是采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法軟件流程圖;
圖2是本發(fā)明的一個(gè)infobox的例子及其相應(yīng)的代碼示意圖;
圖3從維基百科中獲取背景知識(shí)的流程圖;
圖4是本發(fā)明的自動(dòng)提取并顯示關(guān)鍵字的例子的示意圖。
具體實(shí)施例方式采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的計(jì)算機(jī)方法包括以下步驟 1)通過(guò)搜索維基百科獲得與文本相關(guān)的背景知識(shí),對(duì)于給定的文本,利用一個(gè)圖
像算法檢測(cè)文本中重要的句子,然后對(duì)獲得的句子除去無(wú)意義的單詞,并且把剩下的詞返
回原始形態(tài),最后的結(jié)果就是與文本對(duì)應(yīng)的查詢,它包含了文本中的重要信息,一個(gè)全文檢
索引擎利用該查詢搜索維基百科,返回的結(jié)果能提供該文本的背景知識(shí); 2)分析返回的維基百科文章的結(jié)構(gòu),對(duì)于每一個(gè)返回的維基百科文章,分析它的
結(jié)構(gòu),提取導(dǎo)入鏈接,導(dǎo)出鏈接,種類和infobox四種不同的結(jié)構(gòu)信息,并且組成相應(yīng)的集合. 3)通過(guò)使用維基百科的背景知識(shí)產(chǎn)生單詞的特征,根據(jù)文章的體裁信息產(chǎn)生單詞 的特征,利用文章本身的信息來(lái)產(chǎn)生單詞的特征,共同組成一個(gè)特征空間;
4)對(duì)產(chǎn)生的單詞特征空間進(jìn)行機(jī)器學(xué)習(xí),使用支持向量機(jī)算法對(duì)上面的特征空間
進(jìn)行機(jī)器學(xué)習(xí),通過(guò)訓(xùn)練得到一個(gè)模型,并利用這個(gè)模型進(jìn)行關(guān)鍵字的自動(dòng)提取。 所述的步驟1): a)把文本中的句子構(gòu)建一個(gè)圖,圖中的點(diǎn)代表句子,連接點(diǎn)的邊代表句子間的聯(lián)
系,邊的權(quán)重由兩個(gè)句子的相似程度決定,利用這個(gè)圖檢測(cè)文本中的重要句子; b)通過(guò)計(jì)算出的每一個(gè)關(guān)鍵節(jié)點(diǎn)都代表一個(gè)關(guān)鍵句,根據(jù)無(wú)意義單詞列表除去句
子中的無(wú)意義單詞; c)把處理完的單詞返回原始形態(tài),然后利用剩下的單詞組成對(duì)應(yīng)于文章的查詢;
d)把產(chǎn)生的查詢輸入到一個(gè)全文檢索引擎Zettair,該引擎在維基百科上運(yùn)行, 根據(jù)與查詢的相關(guān)程度返回維基百科中的文章,并按照相關(guān)程度排序,獲得一個(gè)維基百科 中的相關(guān)文章組成的集合。
所述的步驟2)為 e)對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)入鏈接,產(chǎn)生一個(gè)導(dǎo)入鏈接集合,導(dǎo) 入鏈接把維基百科其它位置的文章鏈接到當(dāng)前文章,利用MediaWikiAPI獲得某個(gè)文章的 所有導(dǎo)入鏈接集合。 f)對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)出鏈接,并組成一個(gè)導(dǎo)出鏈接集合, 導(dǎo)出鏈接把當(dāng)前文章指向維基百科其它位置,導(dǎo)出鏈接在文章的文本中以超鏈接的形式存 在,通過(guò)提取文章中所有的超鏈接獲得該文章的導(dǎo)出鏈接集合;
g)對(duì)每一個(gè)文章提取它的種類信息,并組成一個(gè)種類集合; h)維基百科文章中的infobox是文章中重要信息的一個(gè)總結(jié),對(duì)每一個(gè)含 有infobox的文章提取infobox中的參數(shù)值,組成一個(gè)infobox參數(shù)值集合,同時(shí)扔掉 infobox種的參數(shù)名信息。
所述的步驟3)為 i)對(duì)于維基百科文章的導(dǎo)入鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候 選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo) 入鏈接特征; j)對(duì)于維基百科文章的導(dǎo)出鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候 選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo) 出鏈接特征; k)對(duì)于維基百科文章的種類集合的每一個(gè)元素,利用維基百科的種類圖來(lái)計(jì)算它 與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選單 詞的種類特征; 1)對(duì)于維基百科文章的infobox參數(shù)值集合中的每一個(gè)元素,利用WordNet計(jì)算 其與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選 單詞的infobox特征; m)提取包括外表特征,字符特征,結(jié)構(gòu)特征在內(nèi)的文章體裁特征,然后測(cè)量?jī)蓚€(gè)文 章的題材相似程度; n)使用一個(gè)包含很多體裁文章的文章集合,給定一個(gè)文章,從集合中找出體裁相 似程度最近的300個(gè)文章,提取它們的標(biāo)題,除去其中無(wú)意義的單詞,對(duì)每一個(gè)這樣的單詞,計(jì)算單詞的出現(xiàn)次數(shù),并且計(jì)算單詞與文章的題材相似程度; o)同時(shí)使用一些廣泛使用的單詞的特征,單詞在文章中出現(xiàn)的頻率,單詞在文章 中的位置,單詞是否指代特殊的人名或地名,單詞長(zhǎng)度以及單詞是否出現(xiàn)在總結(jié)的句子中。
所述的步驟4)為 p)使用支持向量機(jī)算法在上面產(chǎn)生的文本特征空間上運(yùn)行,把候選單詞分為關(guān)鍵 詞和非關(guān)鍵詞; q)在使用支持向量機(jī)算法進(jìn)行訓(xùn)練時(shí),出現(xiàn)在標(biāo)題中的單詞作為正面的例子, 其它的單詞作為反面的例子,然后訓(xùn)練一個(gè)支持向量模型,利用這個(gè)模型進(jìn)行關(guān)鍵字的提 ?。?r)根據(jù)在機(jī)器學(xué)習(xí)中的決定值的大小,利用一個(gè)參數(shù)靠控制提取關(guān)鍵詞的數(shù)量,
對(duì)提取出的關(guān)鍵字進(jìn)行排序,排序高的候選單詞成為關(guān)鍵字的可能性越高。
實(shí)施例 如圖1所示,本發(fā)明所述的實(shí)施系統(tǒng)的流程包括文章相關(guān)背景知識(shí)獲取IOI,分析 返回維基百科文章結(jié)構(gòu)102,利用維基百科結(jié)構(gòu)和體裁定義新的單詞特征103,通過(guò)機(jī)器學(xué) 習(xí)實(shí)現(xiàn)自動(dòng)關(guān)鍵字提取104。 文章相關(guān)背景知識(shí)獲取101 :在本示例中,該部分包括以下步驟
(A)檢測(cè)文章中的關(guān)鍵句子,其步驟詳述如下 1)把文章中的句子看成圖中的點(diǎn),從而為一個(gè)文章產(chǎn)生一個(gè)圖,本方法采用 了 Proceedings of EMNLP雜志在2004年所公布的一個(gè)檢測(cè)關(guān)鍵句算法("TextRank : Bringing order into texts,,, 233_242, 2004)。 2)這個(gè)算法基于句子構(gòu)建一個(gè)由一個(gè)圖,圖中的點(diǎn)代表句子,連接點(diǎn)的邊代表句
子間的聯(lián)系,邊的權(quán)重由兩個(gè)句子的相似程度決定,句子間的相似程度計(jì)算方法基于兩個(gè) 句子中的單詞,并且利用WordNet考慮到單詞間的相似程度,從而得出句子之間的相似程
度,計(jì)算兩個(gè)句子間相似程度的函數(shù)如下定義 <formula>formula see original document page 8</formula> 其中S表示句子,W表示句子中的單詞,I I符號(hào)代表句子中包含的單詞數(shù)目, o JWp, Wq)利用WordNet測(cè)量?jī)蓚€(gè)單詞之間的相似程度。 3)利用WordNet測(cè)量單詞之間的相似程度,本方法應(yīng)用了 Proceedings ofAAAI 雜志于2004年公布的一篇文章("Wodnet: : Similarity-measuring therelatedness of conc印ts,,, Proceedings of the Nineteenth National Conference onArtificial Intelligence, 2004)所提出的一種基于WordNet的單詞間相似程度計(jì)算方法。
(B)對(duì)步驟(A)中檢測(cè)的關(guān)鍵句進(jìn)行處理,得到相應(yīng)的查詢,其步驟詳述如下
1)對(duì)關(guān)鍵句子除去無(wú)意義的單詞,本方法應(yīng)用了 ACM Forum雜志在1989年所公 布的一個(gè)無(wú)意義單詞表("A stop list for general text", ACM Forum, 24 (1-2) :19-21, 1989)除去句子中無(wú)意義的詞。 2)對(duì)剩下的單詞返回其原始形態(tài),利用處理后的結(jié)果組成對(duì)應(yīng)于文章的查詢。
(C)利用產(chǎn)生的查詢對(duì)維基百科進(jìn)行檢索,其步驟詳述如下 1)利用產(chǎn)生的查詢對(duì)維基百科進(jìn)行全文檢索,本方法應(yīng)用了 ProceedingsText Retrieval Conference雜志于2004年公布的一篇文章("RMIT University atTREC 2004", Proceedings Text Retrieval Conference)所提出的一個(gè)全文搜索引擎Zettair對(duì)維基百 科進(jìn)行全文檢索,返回一系列相關(guān)的文章標(biāo)題。 2)按照與查詢的相關(guān)程度對(duì)返回的結(jié)果文章進(jìn)行排序,并取前N個(gè)文章,這樣我 們獲得一個(gè)維基百科中的相關(guān)文章組成的集合,N的值可以調(diào)節(jié)。分析返回維基百科文章 結(jié)構(gòu)102 :在本示例中,該部分包括以下步驟 (D)從維基百科文章中提取鏈接結(jié)構(gòu),包括導(dǎo)入鏈接和導(dǎo)出鏈接,其步驟詳述如 下 1)導(dǎo)入鏈接把維基百科其它位置的文章鏈接到當(dāng)前文章,本方法應(yīng)用了 Proceedings of ISWC雜志于2006年公布的一篇文章("Semantic MediaWiki", Proceedings of 5th International Semantic Web Conference, 935-942, 2006)所提出的 MediaWiki API獲得某個(gè)文章的所有導(dǎo)入鏈接集合。 2)導(dǎo)出鏈接把當(dāng)前文章指向維基百科其它位置,導(dǎo)出鏈接在文章的文本中以超鏈
接的形式存在,通過(guò)提取文章中所有的超鏈接獲得該文章的導(dǎo)出鏈接集合。 (E)從維基百科文章中提取種類信息和infobox參數(shù)值信息,其步驟詳述如下 1)種類結(jié)構(gòu)是維基百科的重要特征,它把關(guān)聯(lián)的文章放在一起,方便用戶閱讀,我
們對(duì)一步對(duì)每一個(gè)文章提取它的種類信息,并組成一個(gè)種類集合。 2)維基百科文章中的infobox是文章中重要信息的一個(gè)總結(jié),對(duì)每一個(gè)含 有infobox的文章提取infobox中的參數(shù)值,組成一個(gè)infobox參數(shù)值集合,同時(shí)扔掉 infobox種的參數(shù)名信息。 利用維基百科結(jié)構(gòu)和體裁定義新的單詞特征103 :在本示例中,該部分包括以下 步驟 (F)利用維基百科文章的結(jié)構(gòu)信息定義新的單詞特征,其步驟詳述如下
1)對(duì)于維基百科文章的導(dǎo)入鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候 選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo) 入鏈接特征。特征值由以下函數(shù)計(jì)算 其中n表示前面獲得維基百科文章集合,Xi表示一個(gè)候選單詞,Pr表示n中的一
個(gè)文章,z (p》表示全文檢索引擎Zettair返回的相關(guān)程度得分,o工利用WordNet測(cè)量?jī)?br>
個(gè)單詞間的相似程度,I I表示集合中的元素?cái)?shù)量,IT表示導(dǎo)入鏈接集合。 2)對(duì)于維基百科文章的導(dǎo)出鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候
選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo)出鏈接特征' 其中表示OT到處鏈接集合,其它符號(hào)的定義在i)中已經(jīng)給出。 3)對(duì)于維基百科文章的種類集合的每一個(gè)元素,利用維基百科的種類圖來(lái)計(jì)算它
與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選單
詞的種類特征。<formula>formula see original document page 10</formula>n 其中C表示一個(gè)維基百科文章對(duì)應(yīng)的種類集合,o 2利用維基百科種類圖計(jì)算兩個(gè) 單詞之間的相似程度。其它符號(hào)的定義在i)中已經(jīng)給出。 4)對(duì)于維基百科文章的infobox參數(shù)值集合中的每一個(gè)元素,利用WordNet計(jì)算 它與候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選 單詞的infobox特征。
<formula>formula see original document page 10</formula>
其中IV代表一個(gè)維基百科文章的infobox參數(shù)值集合,其它符號(hào)的定義已經(jīng)在i)
(G)利用文章的體裁信息定義新的單詞特征,其步驟詳述如下 1)提取文章的體裁特征確定文章的體裁,本方法應(yīng)用了 Proceedings ofHuman Language Technology and Knowledge Management雜志于2001年公布的一篇文章("The form is the substance -classification of genres in text,,, Proceedingsof the workshop on Human Language Technology and Knowledge Management, 1-8, 2001)所提出 的一種利用文章包括結(jié)構(gòu)特征,字符特征,外表特征在內(nèi)的多項(xiàng)特征確定文章的體裁。
2)測(cè)量?jī)蓚€(gè)文章的體裁相似度,本方法應(yīng)用了 J. G. Stewart于2008年的一篇博士 論文("Genre Oriented Summarization")所提出的一種方法測(cè)量文章間的體裁相似度。
3)根據(jù)單詞在文章標(biāo)題中出現(xiàn)次數(shù)來(lái)定義單詞與文章的題材適應(yīng)度,本方法使用 一個(gè)包含很多體裁文章的文章集合,給定一個(gè)文章,從集合中找出體裁相似程度最近的300個(gè)文章,提取標(biāo)題,除去標(biāo)題中無(wú)意義的單詞,對(duì)每一個(gè)這樣的單詞,計(jì)算單詞的出現(xiàn)次數(shù), 并且計(jì)算單詞與文章的題材相似程度,定義基于體裁的單詞權(quán)重函數(shù)<formula>formula see original document page 11</formula> 其中e是2)提出的測(cè)量?jī)蓚€(gè)文章的題材相似程度的函數(shù),dj,k是與dj體裁相似 度最近的300個(gè)文章。 4)基于3)的結(jié)果進(jìn)一步提出基于體裁的單詞頻率函數(shù)<formula>formula see original document page 11</formula>其中m是在300文章中的標(biāo)題中出現(xiàn)的所有單詞數(shù)目,基于上面兩個(gè)公式,接下來(lái)
定義單詞的文章體裁適應(yīng)性特征,該函數(shù)如下定義
<formula>formula see original document page 11</formula> (H)使用一些廣泛使用的單詞特征,其步驟詳述如下 1)利用單詞在文章中出現(xiàn)的頻率計(jì)算單詞的頻率特征,采用標(biāo)準(zhǔn)化的tf. idf 去測(cè)量單詞的頻率,本方法應(yīng)用了 Technical R印ort雜志于1987年公布的一篇文章 ("Term-weighting approaches in automatic text retrieval", Technical r印ort, 1987)所提出的方法計(jì)算tf. idf的值。 2)利用單詞在文章中出現(xiàn)的位置和次數(shù)定義單詞的首次出現(xiàn)特征,平均特征和最 后一次出現(xiàn)特征;指代特殊人名或者地名的單詞也被用來(lái)定義特征;此外單詞的相對(duì)長(zhǎng)度 也被用來(lái)刻畫(huà)單詞的特征;最后與總結(jié)性的單詞,如"insummary","in conclusion"出現(xiàn) 在一起的單詞,其總結(jié)特征被定義為l,否則為0。通過(guò)機(jī)器學(xué)習(xí)實(shí)現(xiàn)自動(dòng)關(guān)鍵字提取104 : 使用支持向量機(jī)算法在上面產(chǎn)生的文本特征空間上運(yùn)行,把候選單詞分為關(guān)鍵詞和非關(guān)鍵 詞,在使用支持向量機(jī)算法進(jìn)行訓(xùn)練時(shí),出現(xiàn)在標(biāo)題中的單詞作為正面的例子,其它的單詞 反面的例子,訓(xùn)練集中的數(shù)據(jù)形式為(F(Wl) ,y》, . . , (F(wn,yn)),其中F(Wj)指代第j個(gè)單 詞的特征向量,yj是對(duì)應(yīng)于單詞的類標(biāo)簽,其取值為1或-1, 1代表關(guān)鍵字,-1代表非關(guān)鍵 字,然后訓(xùn)練一個(gè)支持向量模型,利用這個(gè)模型進(jìn)行關(guān)鍵字的提取,根據(jù)在機(jī)器學(xué)習(xí)中的決 定值的大小,對(duì)提取出的關(guān)鍵字進(jìn)行排序,排序高的候選單詞成為關(guān)鍵字的可能性越高,提 取關(guān)鍵詞的數(shù)量通過(guò)參數(shù)M控制。
權(quán)利要求
一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法,其過(guò)程在于包括以下步驟1)通過(guò)搜索維基百科獲得與文本相關(guān)的背景知識(shí),對(duì)于給定的文本,利用一個(gè)圖像算法檢測(cè)文本中重要的句子,然后對(duì)獲得的句子除去無(wú)意義的單詞,并且把剩下的詞返回原始形態(tài),最后的結(jié)果就是與文本對(duì)應(yīng)的查詢,它包含了文本中的重要信息,一個(gè)全文檢索引擎利用該查詢搜索維基百科,返回的結(jié)果能提供該文本的背景知識(shí);2)分析返回的維基百科文章的結(jié)構(gòu),對(duì)于每一個(gè)返回的維基百科文章,分析它的結(jié)構(gòu),提取導(dǎo)入鏈接,導(dǎo)出鏈接,種類和infobox四種不同的結(jié)構(gòu)信息,并且組成相應(yīng)的集合;3)通過(guò)使用維基百科的背景知識(shí)產(chǎn)生單詞的特征,根據(jù)文章的體裁信息產(chǎn)生單詞的特征,利用文章本身的信息來(lái)產(chǎn)生單詞的特征,共同組成一個(gè)特征空間;4)對(duì)產(chǎn)生的單詞特征空間進(jìn)行機(jī)器學(xué)習(xí),使用支持向量機(jī)算法對(duì)上面的特征空間進(jìn)行機(jī)器學(xué)習(xí),通過(guò)訓(xùn)練得到一個(gè)模型,并利用這個(gè)模型進(jìn)行關(guān)鍵字的自動(dòng)提取。
2. 根據(jù)權(quán)利要求1所述的一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法,其特征在于 所述的步驟1):a) 把文本中的句子構(gòu)建一個(gè)圖,圖中的點(diǎn)代表句子,連接點(diǎn)的邊代表句子間的聯(lián)系,邊 的權(quán)重由兩個(gè)句子的相似程度決定,利用這個(gè)圖檢測(cè)文本中的重要句子;b) 通過(guò)計(jì)算出的每一個(gè)關(guān)鍵節(jié)點(diǎn)都代表一個(gè)關(guān)鍵句,根據(jù)無(wú)意義單詞列表除去句子中 的無(wú)意義單詞;c) 把處理完的單詞返回原始形態(tài),然后利用剩下的單詞組成對(duì)應(yīng)于文章的查詢;d) 把產(chǎn)生的查詢輸入到一個(gè)全文檢索引擎Zettair,該引擎在維基百科上運(yùn)行,根據(jù) 與查詢的相關(guān)程度返回維基百科中的文章,并按照相關(guān)程度排序,獲得一個(gè)維基百科中的 相關(guān)文章組成的集合。
3. 根據(jù)權(quán)利要求1所述的一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法,其特征在于 所述的步驟2)為e) 對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)入鏈接,產(chǎn)生一個(gè)導(dǎo)入鏈接集合,導(dǎo)入鏈 接把維基百科其它位置的文章鏈接到當(dāng)前文章,利用MediaWikiAPI獲得某個(gè)文章的所有 導(dǎo)入鏈接集合。f) 對(duì)于集合中的每一個(gè)文章,提取出其中的導(dǎo)出鏈接,并組成一個(gè)導(dǎo)出鏈接集合,導(dǎo)出 鏈接把當(dāng)前文章指向維基百科其它位置,導(dǎo)出鏈接在文章的文本中以超鏈接的形式存在, 通過(guò)提取文章中所有的超鏈接獲得該文章的導(dǎo)出鏈接集合;g) 對(duì)每一個(gè)文章提取它的種類信息,并組成一個(gè)種類集合;h) 維基百科文章中的infobox是文章中重要信息的一個(gè)總結(jié),對(duì)每一個(gè)含有infobox 的文章提取infobox中的參數(shù)值,組成一個(gè)infobox參數(shù)值集合,同時(shí)扔掉infobox種的參 數(shù)名信息。
4. 根據(jù)權(quán)利要求1所述的一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法,其特征在于 所述的步驟3)為i) 對(duì)于維基百科文章的導(dǎo)入鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候選單 詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo)入鏈 接特征;j)對(duì)于維基百科文章的導(dǎo)出鏈接結(jié)構(gòu)中的每一個(gè)鏈接,利用WordNet比較它與候選單詞的相似程度,同時(shí)考慮文章在全文檢索引擎的返回得分,計(jì)算出這個(gè)候選單詞的導(dǎo)出鏈 接特征;k)對(duì)于維基百科文章的種類集合的每一個(gè)元素,利用維基百科的種類圖來(lái)計(jì)算它與候 選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選單詞的 種類特征;1)對(duì)于維基百科文章的infobox參數(shù)值集合中的每一個(gè)元素,利用WordNet計(jì)算其與 候選單詞之間的相似程度,同時(shí)考慮到該文章在全文檢索引擎的得分,計(jì)算出該候選單詞 的infobox特征;m)提取包括外表特征,字符特征,結(jié)構(gòu)特征在內(nèi)的文章體裁特征,然后測(cè)量?jī)蓚€(gè)文章的 題材相似程度;n)使用一個(gè)包含很多體裁文章的文章集合,給定一個(gè)文章,從集合中找出體裁相似程 度最近的300個(gè)文章,提取它們的標(biāo)題,除去其中無(wú)意義的單詞,對(duì)每一個(gè)這樣的單詞,計(jì) 算單詞的出現(xiàn)次數(shù),并且計(jì)算單詞與文章的題材相似程度;o)同時(shí)使用一些廣泛使用的單詞的特征,單詞在文章中出現(xiàn)的頻率,單詞在文章中的 位置,單詞是否指代特殊的人名或地名,單詞長(zhǎng)度以及單詞是否出現(xiàn)在總結(jié)的句子中。
5.根據(jù)權(quán)利要求1所述的一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法,其特征在于 所述的步驟4)為P)使用支持向量機(jī)算法在上面產(chǎn)生的文本特征空間上運(yùn)行,把候選單詞分為關(guān)鍵詞和 非關(guān)鍵詞;q)在使用支持向量機(jī)算法進(jìn)行訓(xùn)練時(shí),出現(xiàn)在標(biāo)題中的單詞作為正面的例子,其它的 單詞作為反面的例子,然后訓(xùn)練一個(gè)支持向量模型,利用這個(gè)模型進(jìn)行關(guān)鍵字的提?。籸)根據(jù)在機(jī)器學(xué)習(xí)中的決定值的大小,利用一個(gè)參數(shù)靠控制提取關(guān)鍵詞的數(shù)量,對(duì)提 取出的關(guān)鍵字進(jìn)行排序,排序高的候選單詞成為關(guān)鍵字的可能性越高。
全文摘要
本發(fā)明公開(kāi)了一種采用人工智能技術(shù)自動(dòng)提取關(guān)鍵字的方法。方法基于從文本相關(guān)的背景知識(shí)中產(chǎn)生的單詞特征進(jìn)行機(jī)器學(xué)習(xí)而得。首先產(chǎn)生一個(gè)由文本中重要信息組成的查詢,然后利用產(chǎn)生的查詢對(duì)維基百科進(jìn)行全文檢索,通過(guò)分析獲得的維基百科的文章結(jié)構(gòu)去定義新的單詞特征,接下來(lái)文章體裁也被利用進(jìn)行定義單詞的特征,最后利用機(jī)器學(xué)習(xí)方法在這些產(chǎn)生的特征上運(yùn)行,從而提取關(guān)鍵字。本發(fā)明充分利用維基百科的各種結(jié)構(gòu)信息;提出一種文章到查詢的轉(zhuǎn)換方法;利用文章的體裁信息定義單詞的特征。可以由計(jì)算機(jī)自動(dòng)提取關(guān)鍵字。
文檔編號(hào)G06F17/30GK101719129SQ20091015701
公開(kāi)日2010年6月2日 申請(qǐng)日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者劉智滿, 徐頌華, 楊少輝 申請(qǐng)人:浙江大學(xué)