專利名稱:一種文本特征線及其提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬文本分析領(lǐng)域。涉及文本話題分析方法,具體涉及一種提取文本特征線的方法。
背景技術(shù):
互聯(lián)網(wǎng)上每天都會產(chǎn)生大量的文本信息,如各種新聞報(bào)道、博客日志等等。此外, 許多海量信息庫,如專利信息庫、科技論文文獻(xiàn)庫等,這些數(shù)據(jù)庫中同樣都包含了大量的文本信息。對這些文本進(jìn)行各種自動化分析是目前及今后許多應(yīng)用的主要需求之一,例如從文本中提取話題,從文本中發(fā)現(xiàn)作者的興趣,從一系列的相關(guān)文本集中發(fā)現(xiàn)話題變化趨勢,寸寸。由于文本是一種非結(jié)構(gòu)化數(shù)據(jù),在進(jìn)行自動化分析之前,從文本中提取特征是必須的步驟?,F(xiàn)有的文本特征主要是基于關(guān)鍵詞分析,主要可以歸納為以下幾類一是以詞頻為基石出,如詞步頁特征、TF-IDF (termfrequency-inverse document frequency) [1] ;二是,以詞語的詞性為基礎(chǔ),如基于文本中的實(shí)體名詞、動詞等為特征詞的方法[3];三是,以簡單語義為基礎(chǔ),例如以文本中時(shí)間、地點(diǎn)、人物及事件過程的關(guān)鍵詞為特征[2]。因此,相應(yīng)的特征提取方法,首先是對中文文本進(jìn)行分詞及詞性標(biāo)注,在必要時(shí)運(yùn)用實(shí)體識別技術(shù)進(jìn)行實(shí)體提取,然后結(jié)合不同特征,計(jì)算相應(yīng)的統(tǒng)計(jì)量,或構(gòu)造語義結(jié)構(gòu)。上述特征在文本話題的自動提取分析及文本內(nèi)容的自動理解等方面,起了關(guān)鍵作用。隨著文本話題分析需求的深入發(fā)展,人們需要一種方法能夠刻畫文本作者描述話題的動態(tài)過程,從而通過現(xiàn)有特征分析獲得的作者興趣的基礎(chǔ)上,能更進(jìn)一步地分析作者的一些話題描述方式。而現(xiàn)有的各種特征無法為這個(gè)需求提供支持,如1.現(xiàn)有以詞頻為基礎(chǔ)的各種特征是基于詞包假設(shè),不考慮詞之間的相關(guān)性,也不考慮詞在文本中的位置,因此, 這類特征無法體現(xiàn)文本中話題描述過程中所體現(xiàn)出來的話題動態(tài)特性。2.基于語義及詞性為基礎(chǔ)的特征,雖然考慮了詞的相關(guān)性,但是它們主要還是用于文本話題的理解,而目的不是在于文本話題描述過程的動態(tài)特征。由此可見,為了刻畫作者描述話題過程的動態(tài)特征,需要引入一種新的文本特征, 才能實(shí)現(xiàn)自動化分析。與本發(fā)明相關(guān)的現(xiàn)有技術(shù)有[l]Salton, G. . , &McGill, Μ. (1983). Introduction to ModernInformation Retrieval. New York :McGraw_Hill. [2]Makkonen, J. , Ahonen-myka, H. , & Salmenkivi, M. (2004). Simple Semantics in TopicDetection and tracking. Information Retrieval, 7, 347-368. [3]佟曉筠,宋國龍,劉強(qiáng),張俐,姜偉.中文分詞及詞性標(biāo)注一體化模型研究.計(jì)算機(jī)科學(xué),2007,34 (9) :174-175+212. [4]馬光志,李專.基于特征詞的自動分詞研究.華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,31C3) :60-62.
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有技術(shù)中各種文本特征在刻畫話題描述過程動態(tài)性方面的不足,提出一種新的文本特征。具體涉及一種文本特征線及其提取方法。本發(fā)明是基于數(shù)據(jù)分析方法從文本中提取的特征描述。與現(xiàn)有的用于文本話題分析的各種特征不同, 該特征在一定程度上體現(xiàn)了文本中新話題出現(xiàn)的速度,具體而言,本發(fā)明提供的文本特征線,其特征在于,所述的文本特征線體現(xiàn)為二維坐標(biāo)系中的不規(guī)則曲線,該坐標(biāo)系的橫軸表示詞,按照詞在文本中出現(xiàn)的順序排列,該坐標(biāo)系的縱坐標(biāo)表示文本中的段落,按照段落位置先后順序排列;坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞,所有這些點(diǎn)則構(gòu)成一條反映文本話題描述過程動態(tài)性的特征線-文本特征線。本發(fā)明的文本特征線,通過下述步驟提取(1)對文本進(jìn)行預(yù)處理,包括分詞、詞性標(biāo)注以及停用詞過濾等;(2)自動識別處理后的文本中的段落,一般以回車換行符號作為一個(gè)段落的結(jié)束標(biāo)志;(3)設(shè)置一個(gè)空列表,并對每個(gè)段落進(jìn)行如下處理提取段落中的詞,判斷這個(gè)詞是否存在于列表中,如果不存在,則將該詞及段落標(biāo)識插入列表中;(4)根據(jù)所產(chǎn)生的列表在二維坐標(biāo)系中標(biāo)注特征點(diǎn),由這些點(diǎn)所構(gòu)成的線即為相應(yīng)的文本特征線。本發(fā)明的文本特征線在總體上通常表現(xiàn)為一條遞減曲線,在某個(gè)點(diǎn)或區(qū)域內(nèi)的斜率則反映了遞減的速度,而這個(gè)遞減速度與作者描述新話題的傾向有關(guān)。本發(fā)明提出了新的文本特征線的概念,并作為文本話題描述動態(tài)性的一種特征, 為文本分析任務(wù)提供了一種新的可選特征。本發(fā)明具有如下優(yōu)點(diǎn)(1)通過判斷段落中是否出現(xiàn)新詞,構(gòu)造文本特征線,為文本話題分析提供了一種描述動態(tài)特性方面的特征;( 文本特征線為現(xiàn)有的文本分析任務(wù)提供了一種新的可選特征,如按照文本特征線的相似性進(jìn)行文本歸類分析,按照文本特征線斜率變化進(jìn)行文本作者興趣分析等;(3)文本特征線的提出,使得文本分析可以突破簡單內(nèi)容分析的局限性,為文本話題分析的手段和方法提供了一種簡單而有效的思路。為了便于理解,以下將通過具體的附圖和實(shí)施例對本發(fā)明的進(jìn)行詳細(xì)地描述。需要特別指出的是,具體實(shí)例和附圖僅是為了說明,顯然本領(lǐng)域的普通技術(shù)人員可以根據(jù)本文說明,在本發(fā)明的范圍內(nèi)對本發(fā)明做出各種各樣的修正和改變,這些修正和改變也納入本發(fā)明的范圍內(nèi)。
圖1為文本特征提取總體流程圖。圖2為文本特征線示意圖。
具體實(shí)施例方式實(shí)施例1文本特征提取(1)對文本進(jìn)行預(yù)處理運(yùn)用現(xiàn)有的方法,對文本進(jìn)行分詞及詞性標(biāo)注,去除一些常見的停用詞[如現(xiàn)有技術(shù)3,4中所描述],得到一個(gè)標(biāo)注后的文本;(2)文本段落識別識別文本中的回車換行符號,將文本分割為若干個(gè)獨(dú)立的段落,假設(shè)得到的段落數(shù)為K;(3)設(shè)置一個(gè)列表T= {(p,w)},表中的每個(gè)記錄,即特征點(diǎn),包含了段落標(biāo)識ρ及詞語標(biāo)識w,開始T置為空,對于每個(gè)段落p,進(jìn)行如下處理按順序提取段落ρ中的每個(gè)詞語W,如果w不存在于T中,則生成記錄(p,w)并插入到列表T中。否則繼續(xù)處理下一個(gè)詞語;(4)根據(jù)T構(gòu)造文本特征線設(shè)置一個(gè)二維坐標(biāo)系,橫坐標(biāo)表示詞語標(biāo)識,從左到右與T中的詞語順序?qū)?yīng);縱坐標(biāo)表示段落標(biāo)識,從上到下與T中的段落對應(yīng),取出T中的每個(gè)記錄(P,W),對應(yīng)于坐標(biāo)系中的一個(gè)點(diǎn)。因此,本發(fā)明中,橫坐標(biāo)的表示范圍為1到N(N 為文本中不同詞的個(gè)數(shù)),縱坐標(biāo)的表示范圍為1到K。由上述所得的各個(gè)點(diǎn)所構(gòu)成的線即為文本特征線。由于本發(fā)明采用了段落與詞語的坐標(biāo)系,文本特征線在總體上通常表現(xiàn)為一條遞減曲線,在某個(gè)點(diǎn)或區(qū)域內(nèi)的斜率則反映了遞減的速度,而這個(gè)遞減速度與作者描述新話題的傾向有關(guān)。從上述提取過程可以看出,本發(fā)明在由段落及詞語構(gòu)成的二維平面中構(gòu)造文本特征線,能反映文本中各個(gè)段落在描述話題時(shí)引入新詞語的速度,能在一定程度上反映文本中話題描述的動態(tài)性,和反映文本及作者興趣的特征。本發(fā)明所提出文本特征線可為各種文本話題分析任務(wù)提供新的特征選擇方法及分析思路。實(shí)施例2示例性的文本特征提取結(jié)果如圖2所示選擇一篇關(guān)于文本話題方面的綜述論文,經(jīng)過文本的預(yù)處理,段落分析,生成列表τ。T中共包含101個(gè)段落,585個(gè)不同的詞語, 即K = ioi,N-585。將T中的(p,w)映射到二維坐標(biāo)系中,得到如圖2所示的文本特征線。
權(quán)利要求
1.一種文本特征線,其特征在于,所述的文本特征線體為二維坐標(biāo)系中的不規(guī)則曲線, 該坐標(biāo)系的橫軸表示詞,該坐標(biāo)系的縱坐標(biāo)表示文本中的段落,坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞。
2.按權(quán)利要求1所述的文本特征線,其特征在于,所述的橫軸表示的詞,按該詞在文本中出現(xiàn)的順序排列;所述的縱坐標(biāo)中的段落,按該段落位置先后順序排列;所述的坐標(biāo)系中的點(diǎn)構(gòu)成描述過程動態(tài)性的特征線。
3.權(quán)利要求1所述的文本特征線提取方法,其特征在于,通過下述步驟(1)對文本進(jìn)行預(yù)處理,包括分詞、詞性標(biāo)注以及停用詞過濾;(2)自動識別處理后的文本中的段落,以回車換行符號作為一個(gè)段落的結(jié)束標(biāo)志;(3)設(shè)置空列表,并對每個(gè)段落進(jìn)行如下處理提取段落中的詞,判斷該詞是否存在于列表中,如果不存在,則將該詞及段落標(biāo)識插入列表中;(4)根據(jù)所產(chǎn)生的列表在二維坐標(biāo)系中標(biāo)注特征點(diǎn),所述特征點(diǎn)構(gòu)成相應(yīng)的文本特征線。
4.按權(quán)利要求1所述的文本特征線,其特征在于,所述的文本特征線為一條遞減曲線。
全文摘要
本發(fā)明屬文本分析領(lǐng)域。具體涉及一種文本特征線及其提取方法。所述的文本特征線體為二維坐標(biāo)系中的不規(guī)則曲線,該坐標(biāo)系的橫軸表示詞,按該詞在文本中出現(xiàn)的順序排列;縱坐標(biāo)表示文本中的段落,按該段落位置先后順序排列;坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞,所述點(diǎn)構(gòu)成描述過程動態(tài)性的特征線。本發(fā)明能反映文本中各個(gè)段落在描述話題時(shí)引入新詞語的速度,反映文本中話題描述的動態(tài)性,和反映文本及作者興趣的特征。本發(fā)明所提出文本特征線可為各種文本話題分析任務(wù)提供新的特征選擇方法及分析思路。
文檔編號G06F17/27GK102193910SQ201010125010
公開日2011年9月21日 申請日期2010年3月12日 優(yōu)先權(quán)日2010年3月12日
發(fā)明者吳承榮, 曾劍平 申請人:復(fù)旦大學(xué)