基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法

文檔序號：6576113閱讀：301來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法
技術(shù)領(lǐng)域：
本發(fā)明涉及的是一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，屬于信息技術(shù)領(lǐng)域。
背景技術(shù)：
國家標(biāo)準GB/T15237. 1-2000《術(shù)語工作詞匯》的定義，術(shù)語是特定專業(yè)領(lǐng)域中一般概念的詞語指稱，是在一個學(xué)科領(lǐng)域內(nèi)使用、表示該學(xué)科領(lǐng)域內(nèi)的概念或關(guān)系的詞或詞組。術(shù)語可以分為日常生活中使用的一般性術(shù)語和特定領(lǐng)域中使用的領(lǐng)域術(shù)語。一般性術(shù)語多是按人們的生活和工作習(xí)慣形成的，不要求它在概念的表達上嚴格準確，其含義往往比較模糊；領(lǐng)域術(shù)語是對一個專業(yè)概念的系統(tǒng)性、概括性的描述，不允許模棱兩可，每一個專業(yè)術(shù)語表達的概念都必須準確無誤，不能因使用人的不同而不同。領(lǐng)域術(shù)語識別是指從特定的科學(xué)或技術(shù)領(lǐng)域的語料庫中抽出專業(yè)領(lǐng)域術(shù)語。領(lǐng)域術(shù)語自動識別作為信息抽取的重要內(nèi)容，在自然語言處理領(lǐng)域有著廣泛的應(yīng)用，對于提高領(lǐng)域文本索引與檢索、文本挖掘、本體構(gòu)建、文本分類和聚類、潛在語義分析等的處理精度有著重要的意義。現(xiàn)有的中文文本信息中的領(lǐng)域術(shù)語識別方法主要有
(I)基于統(tǒng)計方法的中文領(lǐng)域術(shù)語識別方法，主要思想是利用領(lǐng)域術(shù)語內(nèi)部各組成成分之間較高的關(guān)聯(lián)程度以及術(shù)語的領(lǐng)域特征信息來抽取領(lǐng)域術(shù)語?；诮y(tǒng)計的方法一般流程是首先利用統(tǒng)計學(xué)或信息論中的方法，建立起各種統(tǒng)計信息，并根據(jù)統(tǒng)計結(jié)果，確定比較準確的種子詞；然后在此基礎(chǔ)上不斷擴展，獲取最終的領(lǐng)域術(shù)語。詞語頻率、均值和方差是比較常用的統(tǒng)計方法，更多的學(xué)者使用假設(shè)檢驗的方法，主要有T檢驗、卡方檢驗、對數(shù)似然比、點互信息等。用統(tǒng)計方法識別領(lǐng)域術(shù)語，不需要句法、語義上的信息，不局限于某一專門領(lǐng)域，也不依賴任何資源，通用性較強。其中，基于統(tǒng)計的互信息算法應(yīng)用最為廣泛。例如有文章報道，其題目為“基于互信息的中文術(shù)語抽取系統(tǒng)”(該文作者是張鋒許云侯艷樊孝忠，發(fā)表于2005年出版的《計算機應(yīng)用研究》第22卷第5期第72-73，77頁)，該文公開了一種中文術(shù)語自動抽取系統(tǒng)，該系統(tǒng)首先基于互信息計算字串的內(nèi)部結(jié)合強度，從而得到術(shù)語候選集；接著從術(shù)語候選集中去除基本詞，并利用普通詞語搭配前綴、后綴信息進一步過濾；最后對術(shù)語候選進行詞法分析，利用術(shù)語的詞性構(gòu)成規(guī)則進行判別，得到最終的術(shù)語抽取結(jié)果。實驗結(jié)果表明，利用互信息算法對術(shù)語抽取的準確率為72. 19%，召回率為77. 98%，F(xiàn)測量值為74.97%。例如有文獻報道，“C值和互信息相結(jié)合的術(shù)語抽取”(作者是梁穎紅張文靜張有承，發(fā)表于2010年出版的《計算機應(yīng)用與軟件》第27卷第4期第108-110頁)，該文公開了一種將C值和互信息相結(jié)合的術(shù)語抽取方法，該方法提出綜合C-value參數(shù)在長術(shù)語抽取方面具有優(yōu)勢，實驗結(jié)果表明，該方法對長術(shù)語抽取的準確率為75. 7%，召回率為68.4%，F(xiàn)測量值為71. 9%，高于相同語料下的其他方法。但是該算法性能直接依賴于語料庫的規(guī)模和候選領(lǐng)域術(shù)語的詞頻，針對有些低頻率候選術(shù)語也可能是合法術(shù)語的數(shù)據(jù)稀疏問題難以解決，所以單純利用互信息算法對領(lǐng)域術(shù)語進行識別，識別的準確率、召回率以及F測量值均難以達到80%以上，很難獲得理想的識別效果；
(2)基于機器學(xué)習(xí)的中文領(lǐng)域術(shù)語識別方法的主要步驟為采用手工或半自動方式構(gòu)建訓(xùn)練語料，根據(jù)某種機器學(xué)習(xí)算法對訓(xùn)練語料學(xué)習(xí)生成模型，然后再利用模型對測試語料進行領(lǐng)域術(shù)語抽取實驗，以驗證本算法的有效性。目前已用于中文領(lǐng)域術(shù)語識別的機器學(xué)習(xí)理論主要包括決策樹、支持向量機、隱馬爾科夫模型、最大熵模型、最大熵馬爾科夫模型和條件隨機場算法等。基于機器學(xué)習(xí)的術(shù)語識別方法無需專家的領(lǐng)域知識和語言知識，實現(xiàn)可行性大，在考慮多種術(shù)語特征的情況下可以得到較好的識別或抽取效果。目前，基于機器學(xué)習(xí)的中文領(lǐng)域術(shù)語識別方法中條件隨機場模型應(yīng)用最為廣泛。例如有文獻報道，“一種中醫(yī)名詞術(shù)語自動抽取方法”(作者是張五輩白宇王裴巖張桂平，發(fā)表于2011年出版的《沈陽航空航天大學(xué)學(xué)報》第28卷第I期第72-75頁)，該文公開了一種針對中醫(yī)領(lǐng)域的基于條件隨機場的術(shù)語抽取方法，該方法將中醫(yī)領(lǐng)域術(shù)語抽取看作一個序列標(biāo)注問題，將中醫(yī)領(lǐng)域術(shù)語分布的特征量化作為訓(xùn)練的特征，利用CRF工具包訓(xùn)練出一個領(lǐng)域術(shù)語模型，然后利用該模型進行術(shù)語抽取。選擇《名醫(yī)類案》作為中醫(yī)領(lǐng)域文本進行術(shù)語抽取實驗，準確率達到83. 11%，召回率達到81.04%，F(xiàn)測量值達到82. 06%。以及文章“采用CRF技術(shù)的軍事情報術(shù)語自動抽取研究”(作者是賈美英楊炳儒鄭德權(quán)楊靖，發(fā)表于2009年出版的《計算機工程與應(yīng)用》第45卷第32期第126-129頁)，該文公開了一種針對軍事情報領(lǐng)域的基于條件隨機場的術(shù)語抽取方法，該方法將領(lǐng)域術(shù)語識別看作一個序列標(biāo)注問題，將領(lǐng)域術(shù)語分布的特征量化作為訓(xùn)練的特征，利用CRF工具包訓(xùn)練出一個領(lǐng)域術(shù)語特征模板，然后利用該模板進行領(lǐng)域術(shù)語抽取。實驗表明，該方法對軍事情報領(lǐng)域術(shù)語的識別結(jié)果良好，準確率可達到73. 24%，召回率達到69. 57%，F(xiàn)測量值達到71. 36%。利用條件隨機場算法進行領(lǐng)域術(shù)語識別時，訓(xùn)練語料基本上都為手動和半自動標(biāo)注的，人為參與度都高，工作量大，導(dǎo)致普遍識別量不大，制約了該算法的識別精度和應(yīng)用。同時，需要先利用通用的分詞工具對語料進行分詞，然后再對分詞后的語料進行條件隨機場訓(xùn)練和測試，最終才能實現(xiàn)術(shù)語的識別。所以利用條件隨機場算法進行領(lǐng)域術(shù)語識別的前提是，假設(shè)現(xiàn)有的通用分詞工具可以對該領(lǐng)域的詞匯進行準確地分詞，并認為領(lǐng)域術(shù)語比分詞工具所分的詞粒度大。但是，由于專業(yè)領(lǐng)域術(shù)語與普通詞匯存在差距，用一般性分詞工具很難實現(xiàn)對專業(yè)領(lǐng)域語料的準確分詞。因此，目前互信息和條件隨機場方法在領(lǐng)域術(shù)語識別過程中自動識別程度較低，且識別精度不高。

發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問題，本發(fā)明的目的是提供一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，該方法在術(shù)語識別時，不僅能克服合法術(shù)語的數(shù)據(jù)稀疏，降低了條件隨機場算法的運算量，而且能夠提高中文領(lǐng)域術(shù)語識別精度。為了達到上述目的，本發(fā)明采用下述技術(shù)方案
本發(fā)明的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，具體步驟如下
(I )、收集領(lǐng)域文本語料，對語料中所有的標(biāo)點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標(biāo)記；
(2)、設(shè)置字串F，計算字串τ的互信息值；(3)、計算字串Ir左右信息熵；
(4)、定義字串W評價函數(shù)，設(shè)置評價函數(shù)閾值，計算各字串的評價函數(shù)值，確定字串"力詞，依次比較該字串〖F中前一字，的評價函數(shù)值與后一字Ip1評價函數(shù)值相比較，得到各字串Ir中對應(yīng)的比值，其比值再與評價函數(shù)閾值比較，逐一對字義字串w分詞；
(5)、以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征，利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型，用該模型對進行領(lǐng)域術(shù)語識別。上述步驟(2)中所述的(2)設(shè)置字串Ir，計算字串Ir的互信息值，其計算公式如下
假設(shè)一個領(lǐng)域術(shù)語是由η個字組成，如果字串Ir為一個領(lǐng)域術(shù)語，那么字串,由巧、X2、巧… 個字組成，字串W的互信息值計算公式如下
權(quán)利要求
1.一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，具體步驟如下 (I )、收集領(lǐng)域文本語料，對語料中所有的標(biāo)點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標(biāo)記； (2)、設(shè)置字串W，計算字串T的互信息值； (3)、計算字串JT左右信息熵； (4)、定義字串W評價函數(shù)，設(shè)置評價函數(shù)《料,)閾值，計算各字串的評價函數(shù)值，確定字串IT力詞，依次比較該字串W中前一字的評價函數(shù)值與后一字評價函數(shù)值相比較，得到各字串『中對應(yīng)的比值，其比值再與評價函數(shù)-4,)閾值比較，逐一對字義字串,分詞； (5)、以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征，利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型，用該模型對進行領(lǐng)域術(shù)語識別。
2.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，其特征在于，上述步驟(2)中所述的設(shè)置字串『，計算字串JT的互信息值，其計算公式如下假設(shè)一個領(lǐng)域術(shù)語是由n個字組成，如果字串T力一個領(lǐng)域術(shù)語，那么字串fT由珥、&、A......A個字組成，字串W的互信息值計算公式如下
3.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，其特征在于，上述步驟(3)中所述的計算左右信息熵，其計算公式如下
4.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，其特征在于，上述步驟(4)中所述的定義字串W評價函數(shù)，并利用評價函數(shù)對語料進行分詞，是指利用步驟(2)和步驟(3)計算得到的互信息和左右信息熵值，對語料中的字串n力詞的可信度進行評價，判斷該字串是否為詞，其中，字串W評價函數(shù)計算公式如下
5.根據(jù)權(quán)利要求1所述的基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，其特征在于，上述步驟(5)中所述的以詞、詞性、詞的出現(xiàn)頻率的隨機場的訓(xùn)練特征，利用條件隨機場方法訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型，利用該模型對進行領(lǐng)域術(shù)語識別，其操作步驟如下 (51 )、以詞本身、詞性、詞的出現(xiàn)頻率在語料中進行標(biāo)注； (52)、利用CRF++0. 53工具包對已標(biāo)注的特征序列訓(xùn)練，獲取條件隨機場參數(shù)，該條件隨機場參數(shù)為該領(lǐng)域術(shù)語識別的條件隨機場模型； (53)、用領(lǐng)域術(shù)語識別的的條件隨機場模型對測試已標(biāo)注的特征序列的領(lǐng)域術(shù)語識別。
全文摘要
本發(fā)明公開了一種基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法，其步驟如下(1)收集領(lǐng)域文本語料，對語料中所有的標(biāo)點符號、空格、數(shù)字、ASCII字符以及漢字以外字符進行標(biāo)記；(2)設(shè)置字串，計算字串的互信息值；(3)計算字串左右信息熵；(4)定義字串評價函數(shù)，設(shè)置評價函數(shù)閾值，計算各字串的評價函數(shù)值，確定字串為詞，依次比較該字串中前一字的評價函數(shù)值與后一字評價函數(shù)值相比較，逐一對字義字串分詞；(5)利用條件隨機場訓(xùn)練出一個領(lǐng)域術(shù)語條件隨機場模型，用該模型對進行領(lǐng)域術(shù)語識別。該方法在術(shù)語識別時，不僅能克服合法術(shù)語的數(shù)據(jù)稀疏，降低了條件隨機場算法的運算量，而且能夠提高中文領(lǐng)域術(shù)語識別精度。
文檔編號G06F17/30GK103049501SQ20121052873
公開日2013年4月17日申請日期2012年12月11日優(yōu)先權(quán)日2012年12月11日
發(fā)明者彭琳, 劉宗田, 楊林楠, 張立敏申請人:上海大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭琳;劉宗田;楊林楠;張立敏
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

上一篇：一種簡單快速的皮膚構(gòu)造技術(shù)的制作方法
上一篇：磁共振快速成像的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于互信息和條件隨機場模型的中文領(lǐng)域術(shù)語識別方法