一種文本特征線及其提取方法

文檔序號：6599239閱讀：288來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文本特征線及其提取方法
技術(shù)領(lǐng)域：
本發(fā)明屬文本分析領(lǐng)域。涉及文本話題分析方法，具體涉及一種提取文本特征線的方法。
背景技術(shù)：
互聯(lián)網(wǎng)上每天都會產(chǎn)生大量的文本信息，如各種新聞報(bào)道、博客日志等等。此外，許多海量信息庫，如專利信息庫、科技論文文獻(xiàn)庫等，這些數(shù)據(jù)庫中同樣都包含了大量的文本信息。對這些文本進(jìn)行各種自動化分析是目前及今后許多應(yīng)用的主要需求之一，例如從文本中提取話題，從文本中發(fā)現(xiàn)作者的興趣，從一系列的相關(guān)文本集中發(fā)現(xiàn)話題變化趨勢，寸寸。由于文本是一種非結(jié)構(gòu)化數(shù)據(jù)，在進(jìn)行自動化分析之前，從文本中提取特征是必須的步驟?，F(xiàn)有的文本特征主要是基于關(guān)鍵詞分析，主要可以歸納為以下幾類一是以詞頻為基石出，如詞步頁特征、TF-IDF (termfrequency-inverse document frequency) [1] ；二是，以詞語的詞性為基礎(chǔ)，如基于文本中的實(shí)體名詞、動詞等為特征詞的方法[3]；三是，以簡單語義為基礎(chǔ)，例如以文本中時(shí)間、地點(diǎn)、人物及事件過程的關(guān)鍵詞為特征[2]。因此，相應(yīng)的特征提取方法，首先是對中文文本進(jìn)行分詞及詞性標(biāo)注，在必要時(shí)運(yùn)用實(shí)體識別技術(shù)進(jìn)行實(shí)體提取，然后結(jié)合不同特征，計(jì)算相應(yīng)的統(tǒng)計(jì)量，或構(gòu)造語義結(jié)構(gòu)。上述特征在文本話題的自動提取分析及文本內(nèi)容的自動理解等方面，起了關(guān)鍵作用。隨著文本話題分析需求的深入發(fā)展，人們需要一種方法能夠刻畫文本作者描述話題的動態(tài)過程，從而通過現(xiàn)有特征分析獲得的作者興趣的基礎(chǔ)上，能更進(jìn)一步地分析作者的一些話題描述方式。而現(xiàn)有的各種特征無法為這個(gè)需求提供支持，如1.現(xiàn)有以詞頻為基礎(chǔ)的各種特征是基于詞包假設(shè)，不考慮詞之間的相關(guān)性，也不考慮詞在文本中的位置，因此，這類特征無法體現(xiàn)文本中話題描述過程中所體現(xiàn)出來的話題動態(tài)特性。2.基于語義及詞性為基礎(chǔ)的特征，雖然考慮了詞的相關(guān)性，但是它們主要還是用于文本話題的理解，而目的不是在于文本話題描述過程的動態(tài)特征。由此可見，為了刻畫作者描述話題過程的動態(tài)特征，需要引入一種新的文本特征，才能實(shí)現(xiàn)自動化分析。與本發(fā)明相關(guān)的現(xiàn)有技術(shù)有[l]Salton, G. . ， &McGill, Μ. (1983). Introduction to ModernInformation Retrieval. New York :McGraw_Hill. [2]Makkonen, J. , Ahonen-myka, H. , & Salmenkivi, M. (2004). Simple Semantics in TopicDetection and tracking. Information Retrieval, 7, 347-368. [3]佟曉筠，宋國龍，劉強(qiáng)，張俐，姜偉.中文分詞及詞性標(biāo)注一體化模型研究.計(jì)算機(jī)科學(xué)，2007，34 (9) :174-175+212. [4]馬光志，李專.基于特征詞的自動分詞研究.華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版)，2003，31C3) :60-62.
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有技術(shù)中各種文本特征在刻畫話題描述過程動態(tài)性方面的不足，提出一種新的文本特征。具體涉及一種文本特征線及其提取方法。本發(fā)明是基于數(shù)據(jù)分析方法從文本中提取的特征描述。與現(xiàn)有的用于文本話題分析的各種特征不同，該特征在一定程度上體現(xiàn)了文本中新話題出現(xiàn)的速度，具體而言，本發(fā)明提供的文本特征線，其特征在于，所述的文本特征線體現(xiàn)為二維坐標(biāo)系中的不規(guī)則曲線，該坐標(biāo)系的橫軸表示詞，按照詞在文本中出現(xiàn)的順序排列，該坐標(biāo)系的縱坐標(biāo)表示文本中的段落，按照段落位置先后順序排列；坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞，所有這些點(diǎn)則構(gòu)成一條反映文本話題描述過程動態(tài)性的特征線-文本特征線。本發(fā)明的文本特征線，通過下述步驟提取(1)對文本進(jìn)行預(yù)處理，包括分詞、詞性標(biāo)注以及停用詞過濾等；(2)自動識別處理后的文本中的段落，一般以回車換行符號作為一個(gè)段落的結(jié)束標(biāo)志；(3)設(shè)置一個(gè)空列表，并對每個(gè)段落進(jìn)行如下處理提取段落中的詞，判斷這個(gè)詞是否存在于列表中，如果不存在，則將該詞及段落標(biāo)識插入列表中；(4)根據(jù)所產(chǎn)生的列表在二維坐標(biāo)系中標(biāo)注特征點(diǎn)，由這些點(diǎn)所構(gòu)成的線即為相應(yīng)的文本特征線。本發(fā)明的文本特征線在總體上通常表現(xiàn)為一條遞減曲線，在某個(gè)點(diǎn)或區(qū)域內(nèi)的斜率則反映了遞減的速度，而這個(gè)遞減速度與作者描述新話題的傾向有關(guān)。本發(fā)明提出了新的文本特征線的概念，并作為文本話題描述動態(tài)性的一種特征，為文本分析任務(wù)提供了一種新的可選特征。本發(fā)明具有如下優(yōu)點(diǎn)(1)通過判斷段落中是否出現(xiàn)新詞，構(gòu)造文本特征線，為文本話題分析提供了一種描述動態(tài)特性方面的特征；( 文本特征線為現(xiàn)有的文本分析任務(wù)提供了一種新的可選特征，如按照文本特征線的相似性進(jìn)行文本歸類分析，按照文本特征線斜率變化進(jìn)行文本作者興趣分析等；(3)文本特征線的提出，使得文本分析可以突破簡單內(nèi)容分析的局限性，為文本話題分析的手段和方法提供了一種簡單而有效的思路。為了便于理解，以下將通過具體的附圖和實(shí)施例對本發(fā)明的進(jìn)行詳細(xì)地描述。需要特別指出的是，具體實(shí)例和附圖僅是為了說明，顯然本領(lǐng)域的普通技術(shù)人員可以根據(jù)本文說明，在本發(fā)明的范圍內(nèi)對本發(fā)明做出各種各樣的修正和改變，這些修正和改變也納入本發(fā)明的范圍內(nèi)。

圖1為文本特征提取總體流程圖。圖2為文本特征線示意圖。
具體實(shí)施例方式實(shí)施例1文本特征提取(1)對文本進(jìn)行預(yù)處理運(yùn)用現(xiàn)有的方法，對文本進(jìn)行分詞及詞性標(biāo)注，去除一些常見的停用詞[如現(xiàn)有技術(shù)3，4中所描述]，得到一個(gè)標(biāo)注后的文本；(2)文本段落識別識別文本中的回車換行符號，將文本分割為若干個(gè)獨(dú)立的段落，假設(shè)得到的段落數(shù)為K;(3)設(shè)置一個(gè)列表T= {(p，w)}，表中的每個(gè)記錄，即特征點(diǎn)，包含了段落標(biāo)識ρ及詞語標(biāo)識w，開始T置為空，對于每個(gè)段落p，進(jìn)行如下處理按順序提取段落ρ中的每個(gè)詞語W，如果w不存在于T中，則生成記錄(p，w)并插入到列表T中。否則繼續(xù)處理下一個(gè)詞語；(4)根據(jù)T構(gòu)造文本特征線設(shè)置一個(gè)二維坐標(biāo)系，橫坐標(biāo)表示詞語標(biāo)識，從左到右與T中的詞語順序?qū)?yīng)；縱坐標(biāo)表示段落標(biāo)識，從上到下與T中的段落對應(yīng)，取出T中的每個(gè)記錄(P，W)，對應(yīng)于坐標(biāo)系中的一個(gè)點(diǎn)。因此，本發(fā)明中，橫坐標(biāo)的表示范圍為1到N(N 為文本中不同詞的個(gè)數(shù))，縱坐標(biāo)的表示范圍為1到K。由上述所得的各個(gè)點(diǎn)所構(gòu)成的線即為文本特征線。由于本發(fā)明采用了段落與詞語的坐標(biāo)系，文本特征線在總體上通常表現(xiàn)為一條遞減曲線，在某個(gè)點(diǎn)或區(qū)域內(nèi)的斜率則反映了遞減的速度，而這個(gè)遞減速度與作者描述新話題的傾向有關(guān)。從上述提取過程可以看出，本發(fā)明在由段落及詞語構(gòu)成的二維平面中構(gòu)造文本特征線，能反映文本中各個(gè)段落在描述話題時(shí)引入新詞語的速度，能在一定程度上反映文本中話題描述的動態(tài)性，和反映文本及作者興趣的特征。本發(fā)明所提出文本特征線可為各種文本話題分析任務(wù)提供新的特征選擇方法及分析思路。實(shí)施例2示例性的文本特征提取結(jié)果如圖2所示選擇一篇關(guān)于文本話題方面的綜述論文，經(jīng)過文本的預(yù)處理，段落分析，生成列表τ。T中共包含101個(gè)段落，585個(gè)不同的詞語，即K = ioi，N-585。將T中的(p，w)映射到二維坐標(biāo)系中，得到如圖2所示的文本特征線。
權(quán)利要求
1.一種文本特征線，其特征在于，所述的文本特征線體為二維坐標(biāo)系中的不規(guī)則曲線，該坐標(biāo)系的橫軸表示詞，該坐標(biāo)系的縱坐標(biāo)表示文本中的段落，坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞。
2.按權(quán)利要求1所述的文本特征線，其特征在于，所述的橫軸表示的詞，按該詞在文本中出現(xiàn)的順序排列；所述的縱坐標(biāo)中的段落，按該段落位置先后順序排列；所述的坐標(biāo)系中的點(diǎn)構(gòu)成描述過程動態(tài)性的特征線。
3.權(quán)利要求1所述的文本特征線提取方法，其特征在于，通過下述步驟(1)對文本進(jìn)行預(yù)處理，包括分詞、詞性標(biāo)注以及停用詞過濾；(2)自動識別處理后的文本中的段落，以回車換行符號作為一個(gè)段落的結(jié)束標(biāo)志；(3)設(shè)置空列表，并對每個(gè)段落進(jìn)行如下處理提取段落中的詞，判斷該詞是否存在于列表中，如果不存在，則將該詞及段落標(biāo)識插入列表中；(4)根據(jù)所產(chǎn)生的列表在二維坐標(biāo)系中標(biāo)注特征點(diǎn)，所述特征點(diǎn)構(gòu)成相應(yīng)的文本特征線。
4.按權(quán)利要求1所述的文本特征線，其特征在于，所述的文本特征線為一條遞減曲線。
全文摘要
本發(fā)明屬文本分析領(lǐng)域。具體涉及一種文本特征線及其提取方法。所述的文本特征線體為二維坐標(biāo)系中的不規(guī)則曲線，該坐標(biāo)系的橫軸表示詞，按該詞在文本中出現(xiàn)的順序排列；縱坐標(biāo)表示文本中的段落，按該段落位置先后順序排列；坐標(biāo)系中的一個(gè)點(diǎn)表示相應(yīng)的段落中出現(xiàn)了某個(gè)詞，所述點(diǎn)構(gòu)成描述過程動態(tài)性的特征線。本發(fā)明能反映文本中各個(gè)段落在描述話題時(shí)引入新詞語的速度，反映文本中話題描述的動態(tài)性，和反映文本及作者興趣的特征。本發(fā)明所提出文本特征線可為各種文本話題分析任務(wù)提供新的特征選擇方法及分析思路。
文檔編號G06F17/27GK102193910SQ201010125010
公開日2011年9月21日申請日期2010年3月12日優(yōu)先權(quán)日2010年3月12日
發(fā)明者吳承榮, 曾劍平申請人:復(fù)旦大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾劍平;吳承榮
技術(shù)所有人：復(fù)旦大學(xué)
我是此專利的發(fā)明人

上一篇：一種建立層次化的映射/歸約并行編程模型的方法
上一篇：關(guān)聯(lián)內(nèi)容顯示裝置和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本特征提取方法相關(guān)技術(shù)

文本特征提取方法研究相關(guān)技術(shù)

文本特征提取相關(guān)技術(shù)

文本特征提取算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本特征線及其提取方法