一種從單個中文文本中提取多主題詞的方法
【專利摘要】本發(fā)明提供了一種從單個中文文本中自動提取多主題詞的方法,包含以下步驟:首先使用傳統(tǒng)方法對文檔進行預(yù)處理后初步得到由特征詞組成的向量;其次利用《知網(wǎng)》詞義與概念間的對應(yīng)關(guān)系對同義詞進行歸并,根據(jù)語義類與上下文語境的相關(guān)性對多義詞進行排歧,構(gòu)造概念向量模型表示該文檔;再利用《知網(wǎng)》中概念的相關(guān)語義信息計算概念相似度,通過“預(yù)設(shè)種子”的方法改進K-means算法對概念進行聚類,形成多個主題概念簇;最后根據(jù)概念和詞的對應(yīng)關(guān)系,得到多個子主題詞集。該方法考慮了語義信息,克服K-means算法對初始中心的敏感性和時空開銷不穩(wěn)定等缺陷,提高了提取主題的質(zhì)量。
【專利說明】一種從單個中文文本中提取多主題詞的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息提取【技術(shù)領(lǐng)域】,特別是涉及一種從單個中文文本中提取多主題詞的方法。
【背景技術(shù)】
[0002]自人類社會進入信息時代以來,各種電子文本大量涌現(xiàn),這些海量文本中存在著大量多主題文本,包含著多方面豐富的主題信息,例如:一篇關(guān)于李克強總理訪問歐洲的報道,既屬于政治類新聞,又屬于經(jīng)濟類新聞。隨著科學(xué)技術(shù)的發(fā)展,學(xué)科之間融合度越來越高,大多數(shù)研究都跨越多個學(xué)科領(lǐng)域,許多科技文本內(nèi)容都從不同側(cè)面包含了多個主題,如一篇關(guān)于生物基因信息挖掘的文本,既包含計算機科學(xué)方面的主題又包含生物醫(yī)學(xué)領(lǐng)域主題。因此,現(xiàn)實世界中存在大量多主題文本,如何從這些文本中提取有價值的反映不同方面的多個子主題信息,在信息檢索、圖書情報和信息安全等領(lǐng)域有著非常廣泛的應(yīng)用。
[0003]國外對文本主題提取研究起于上世紀(jì)50年代,目前比較成熟的主題提取方法是基于統(tǒng)計模型的方法,該方法主要是利用詞頻統(tǒng)計信息提取主題,后來研究人員加入了對標(biāo)題、位置、句法結(jié)構(gòu)和線索詞等要素的考慮,能夠從英文文本中提取高質(zhì)量的主題。國內(nèi)對主題提取的研究起于上世紀(jì)80年代后期,然而,由于漢語言的復(fù)雜性,許多成功的英文主題提取方法不適用于中文。
[0004]目前,國內(nèi)應(yīng)用廣泛的還是基于統(tǒng)計的方法,該方法在向量空間模型(VSM)下,前提假設(shè)是向量之間兩兩正交,即構(gòu)成文本的詞匯之間毫無聯(lián)系,這顯然與文本中詞匯語義與上下文相關(guān)的現(xiàn)實不符,又由于中文詞匯量很大,在VSM下,必然存在向量高維、稀疏、忽略詞匯語義及上下文背景等問題,同時提取過程受到同義詞和多義詞的干擾,因而在質(zhì)量和效率上表現(xiàn)欠佳。目前關(guān)于主題提取的研究熱點集中在如何增加語義信息上,雖然有很多學(xué)者提出了各種基于語義的主題提取方法,但仍然沒有達到應(yīng)用級別的突破性進展。另夕卜,提取多主題和單主題提取在算法上有很大差別,從一篇文本中識別多個子主題詞,僅使用傳統(tǒng)基于詞頻統(tǒng)計的方法無法實現(xiàn)。廖濤等人提出的復(fù)雜網(wǎng)絡(luò)中的社區(qū)劃分算法能夠提取多主題,但未涉及詞的語義信息,是一個純粹的統(tǒng)計方法,提取的多主題質(zhì)量不高。
[0005]因此,針對現(xiàn)有的以詞頻統(tǒng)計為依據(jù)的傳統(tǒng)文本處理技術(shù),一篇文本只能提出單個主題的問題,同時考慮了傳統(tǒng)文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,需要提供一種從單個中文文本中提取多主題詞的方法。
【發(fā)明內(nèi)容】
[0006]本發(fā)明要解決的技術(shù)問題是,為了解決傳統(tǒng)文本處理技術(shù)以詞頻統(tǒng)計為依據(jù),一篇文本只能提出單個主題的問題,同時考慮了傳統(tǒng)文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,提供了一種從單個中文文本中提取多主題詞的方法,該方法利用《知網(wǎng)》語義知識庫,對表示文本的特征詞進行一一映射,把該文本表示成概念模型,并且在映射過程中同義詞自動歸并到了同一概念中,實現(xiàn)了向量降維;根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進行排歧。
[0007]本發(fā)明的目的在于提供一種從單個中文文本中提取多主題詞的方法,包括以下步驟:
[0008]Stepl:向量模型表示:對文本進行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量;
[0009]Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識庫,利用詞義與所述概念之間的對應(yīng)關(guān)系對所述預(yù)處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型;
[0010]Step3:多主題詞提取:使用改進的K-means算法對所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據(jù)形成的多個主題概念簇,利用概念和原文本特征詞對應(yīng)關(guān)系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題詞。
[0011]進一步地,所述步驟Stepl可以包括如下步驟:
[0012]Stepl-1:使用分詞系統(tǒng)對待處理文本T進行分詞,接著,進行去停、去噪,之后,得到所述文本的初級向量空間模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η個由特征詞組成的向量,所述 去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實際意義的詞匯;
[0013]Stepl-2:從初級向量空間模型中進一步提取特征向量,以得到該文本的高級向量空間模型 T = IC1, C2,..., Cj ,其中 m〈 = η。
[0014]進一步地,所述步驟Step2可以包括如下步驟:
[0015]文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞;
[0016]概念映射過程通過查詢所述語義知識庫實現(xiàn),其中:
[0017]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是單義詞時,直接得到其唯一對應(yīng)的概念;
[0018]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是同義詞時,直接得到其唯一對應(yīng)的概念,在這個過程中,通過將該文本中出現(xiàn)的同義詞自動歸并到同一個概念中,以實現(xiàn)向量降維;
[0019]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時,該多義詞對應(yīng)多個概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中的信息量計算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧。
[0020]進一步地,所述查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時,該多義詞對應(yīng)多個概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中信息量計算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧,包括如下步驟:[0021]在所述語義知識庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關(guān)的詞來描述,描述某概念基本義原集的詞構(gòu)成了一個語義類;
[0022]判斷多義詞對應(yīng)多個概念,計算所述概念對應(yīng)語義類的所有成員詞在所述處理文本中的信息量,加權(quán)計算得到每一個語義類的權(quán)值;
[0023] 選擇權(quán)值最大的語義類對應(yīng)的概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧。
[0024]進一步地,所述步驟Step2可以包括如下步驟:
[0025]St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進行概念映射;
[0026]St印2-1-1:查詢知識庫,若T的特征詞Cm對應(yīng)唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉(zhuǎn)至步驟Setp2-2 ;
[0027]Step2-1-2:查詢知識庫,若T的特征詞(;對應(yīng)多個概念,則特征詞Cm為多義詞,則需對多義詞Cm進行詞義排歧,選擇出適合該文上下文語境的概念;
[0028]St印2-2:得到文本 T 對應(yīng)概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};
[0029]St印2-3:進一步按照概念進行整理輸出文本T對應(yīng)概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,(;)為概念 Gq 在文中對應(yīng)出現(xiàn)的詞。
[0030]進一步地,所述步驟Step2_l_2可以包括如下步驟:
[0031]Step2-1-2-l:查詢知識庫,多義詞Cm對應(yīng)多個概念,描述概念語義的基本義原集夠成了一個語義類,因而多義詞Cm對應(yīng)多個語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關(guān)的詞組;
[0032]Step2-1-2-2:計算多義詞Cm每一個語義類成員詞在該文中的信息量,所述成員詞Wi在該文中所含的信息量H(Wi)計算公式如下:
[0033]H(Wi) = -TF (Wi, ST) X log [p (Wi)],
[0034]其中,TF (Wi, ST)表示詞Wi在文本中出現(xiàn)的頻率,ST表示文本,P(Wi)為詞Wi的概率分布;
[0035]St印2-1-2-3:計算多義詞Cm每一個語義類的權(quán)值,它的第i個語義類Li權(quán)值為:
【權(quán)利要求】
1.一種從單個中文文本中提取多主題詞的方法,其特征在于,包括以下步驟: Stepl:向量模型表示:對文本進行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量; Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識庫,利用詞義與所述概念之間的對應(yīng)關(guān)系對所述預(yù)處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型; Step3:多主題詞提取:使用改進的K-means算法對所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據(jù)形成的多個主題概念簇,利用概念和原文本特征詞對應(yīng)關(guān)系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題
2.根據(jù)權(quán)利要求1所述的從單個中文文本中提取多主題詞的方法,其特征在于,所述步驟Stepl進一步包括如下步驟: Stepl-1:使用分詞系統(tǒng)對待處理文本T進行分詞,接著,進行去停、去噪,之后,得到所述文本的初級向量空間模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η個由特征詞組成的向量,所述去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實際意義的詞匯; Stepl-2:從初級向量空間模型中進一步提取特征向量,以得到該文本的高級向量空間模型 T =IC1, C2,..., Cj ,其中 m〈 = η。
3.根據(jù)權(quán)利要求1所述的從單個中文文本中提取多主題詞的方法,其特征在于,所述步驟Step2進一步包括如下步驟: 文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞; 概念映射過程通過查詢所述語義知識庫實現(xiàn),其中: 查詢知識庫,判斷當(dāng)文本中所包含的詞匯是單義詞時,直接得到其唯一對應(yīng)的概念; 查詢知識庫,判斷當(dāng)文本中所包含的詞匯是同義詞時,直接得到其唯一對應(yīng)的概念,在這個過程中,通過將該文本中出現(xiàn)的同義詞自動歸并到同一個概念中,以實現(xiàn)向量降維; 查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時,該多義詞對應(yīng)多個概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中的信息量計算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧。
4.根據(jù)權(quán)利要求3所述的從單個中文文本中提取多主題詞的方法,其特征在于,所述查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時,該多義詞對應(yīng)多個概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中信息量計算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧,進一步包括如下步驟: 在所述語義知識庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關(guān)的詞來描述,描述某概念基本義原集的詞構(gòu)成了一個語義類; 判斷多義詞對應(yīng)多個概念,計算所述概念對應(yīng)語義類的所有成員詞在所述處理文本中的信息量,加權(quán)計算得 到每一個語義類的權(quán)值;選擇權(quán)值最大的語義類對應(yīng)的概念作為所述多義詞適合本文上下文語境的概念,從而實現(xiàn)多義詞排歧。
5.根據(jù)權(quán)利要求1所述的從單個中文文本中提取多主題詞的方法,其特征在于,所述改進的K-means算法進一步包括如下步驟: 通過對待處理文本中的向量概念進行聚類,形成多個主題概念簇; 選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進行改進。
6.根據(jù)權(quán)利要求1所述的從單個中文文本中提取多主題詞的方法,其特征在于,所述選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進行改進,進一步包括如下步驟: 根據(jù)統(tǒng)計的主題提取思想方法,檢測到文本中的某個主題由一組同義詞圍繞而產(chǎn)生同義詞共現(xiàn)語言現(xiàn)象; 基于檢測到的同義詞共現(xiàn)語言現(xiàn)象,判斷文本中的同義詞所圍繞的同一個主題,同義詞在概念向量模型中表現(xiàn)為同一個概念; 在所述概念向量映射過程中,同義詞歸并到同一個概念中,一個概念可能對應(yīng)屬于該文本的多個詞匯,在多主題詞提取過程中,選取包含待處理文本詞個數(shù)最多的前K個概念作為K-means聚類的初始中心的預(yù)設(shè)種子。
7.根據(jù)權(quán)利要求1所述的 從單個中文文本中提取多主題詞的方法,其特征在于,所述計算概念與概念之間的相似度和計算概念與概念集之間的相似度,進一步包括如下步驟: 所述語義知識庫通過多個義原來描述概念,并且義原根據(jù)上下位關(guān)系構(gòu)成了一個樹狀的義原層次體系; 通過計算義原在樹狀層次體系中的距離得到義原之間的相似度; 概念的語義由一組義原描述,由義原的相似度可計算概念之間的相似度; 通過計算某概念與概念集中所有概念的相似度,選取和該概念相似度最大的值,作為該概念與概念集的相似度。
【文檔編號】G06F17/27GK103970730SQ201410179275
【公開日】2014年8月6日 申請日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】馬甲林, 王志堅 申請人:河海大學(xué)