亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種漢語新動詞識別系統(tǒng)和方法與流程

文檔序號:12596088閱讀:450來源:國知局
一種漢語新動詞識別系統(tǒng)和方法與流程

本發(fā)明涉及漢語自然語言處理、漢語動詞自動識別領域,特別是涉及一種漢語新動詞自動識別系統(tǒng)和方法。



背景技術:

隨著互聯(lián)網(wǎng)的發(fā)展,尤其是移動互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民在使用漢語時常常不滿足于傳統(tǒng)的漢語詞典,而是自己發(fā)明一些新的詞語。這給漢語方面的應用系統(tǒng)的開發(fā)帶來新的挑戰(zhàn)。

另一方面,幾乎所有的漢語應用系統(tǒng)都涉及動詞,即動詞是語言應用中的關鍵。事實上,自從格文法(case grammar)提出以來,以動詞為中心的各種方法和系統(tǒng)不斷涌現(xiàn)。例如,我國的中文樹庫的研制、美國的UPenn樹庫的研制,均離不開動詞的識別。同時,在漢語詞典增補過程中,經(jīng)常會手工收集新的詞語,包括新的動詞。如果有好的新詞語收集工具,那么無疑會對漢語詞典修訂具有很大的益處。

張春霞等人已經(jīng)對主動詞(main verb)進行了研究,但是在現(xiàn)有的動詞基礎上展開的,不涉及新的動詞識別問題。周丹等人也研究了從Web漢語語料中獲取新的動詞。但是,他們方法基于純粹的統(tǒng)計計算,因此識別精度和召回率都不能支撐實際的應用。



技術實現(xiàn)要素:

本發(fā)明所要解決的技術問題:通過對大語料處理和分析,快速而又準確地從中識別出新的動詞,為漢語應用系統(tǒng)、漢語詞典修訂增補等任務提供重要支撐。其中的關鍵問題是從大量的可能的新動詞中,通過嚴格的驗證計算過程,挑選出準確性高的新動詞。

為了解決以上問題,本發(fā)明采用了如下技術方案:

一種漢語新動詞識別系統(tǒng),其特征在于:包括對原始訓練語料庫CNCorpus進行分詞,形成分詞語料庫TCNCorpus的模塊A;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結果集合Tmp_Verb的模塊B;驗證集合Tmp_Verb中的新動詞,形成結果集合VerbResult的模塊C;輸出新動詞集合VerbResult的模塊D.

一種漢語新動詞識別系統(tǒng)和方法,其特征在于:包括以下步驟:

步驟A,對原始訓練語料庫CNCorpus進行分詞,形成分詞語料庫TCNCorpus:

對CNCorpus中的每篇輸入文本D進行分詞,分詞的工具采用開源的ICTCLAS系統(tǒng);為了便于處理,分詞后,將每篇文本按照句子標點符號進行分拆,形成不含有句子標點符號的簡單句;因此,TCNCorpus每個句子的形式為Si=“W1/pos1 W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、阿拉伯數(shù)字、英文單詞或字母;posi是其對應的詞性;

步驟B,識別分詞語料庫TCNCorpus中的可能的新動詞,形成結果集合Tmp_Verb:

對TCNCorpus中的每條語句Si,對Si中的情形分別按照以下子步驟處理:

步驟B1:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,即posi,4不是v、f、a或d任何之一,那么將“Wi,2/v Wi,3/v”放入Tmp_Verb中;所述“Wi,2/v Wi,3/v”,表示將來自于Si的“Wi,2Wi,3”視著一個可能的新動詞;

步驟B2:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么將“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中;

步驟C:驗證集合Tmp_Verb中的新動詞,形成結果集合VerbResult。

步驟B輸出的新動詞集合Tmp_Verb中的動詞具有一定的正確性,但是仍然需要進一步地驗證。為了確保所獲取的新動詞是準確的,我們將種子詞典規(guī)定為由多個二元對<詞語,詞性組>構成的資源,其中詞性組是多個詞性符號的序列,也即一個詞語可以有多個詞性;

為了便于下文描述,我們將Tmp_Verb中的元素統(tǒng)一地表示為“Wi,2/v Wi,3/posi,3”,其中posi,3∈{v,f,a,d};這種形式概括步驟B1和步驟B2的輸出結果;

驗證的方式為:要確認“Wi,2/v Wi,3/posi,3”構成的新動詞“Wi,2Wi,3”是一個正確的新動詞,首先針對Wi,2進行確認,即在漢語種子詞典中確認兩個條件:(1)Wi,2是否具有動詞的詞性?(2)是否有以Wi,2做詞頭的詞語;如果上述條件的答案是肯定的;在針對Wi,3采用類似的方式進行分析,即在漢語種子詞典中確認兩個條件:(1)Wi,3是否具有posi,3的詞性?(2)是否有以Wi,3做詞尾的詞語;如果上述條件的答案是肯定的,將驗證過的新動詞放置在集合VerbResult中;

步驟D:輸出新動詞集合VerbResult。

所述的步驟C具體包括以下內(nèi)容:

步驟C1:VerbResult={};

步驟C2:Tmp_Verb為空,則驗證結束,并且調(diào)用模塊D,輸出VerbResult。否則,從Tmp_Verb中任意取出一個元素“Wi,2/v Wi,3/posi,3”;

步驟C3:W2Support=0;

步驟C4:如果在漢語種子詞典中Wi,2具有動詞的詞性,那么W2Support=在漢語種子詞典中存在以Wi,2做詞頭的詞語的個數(shù);

步驟C5:W3Support=0;

步驟C6:如果在漢語種子詞典中Wi,3具有posi,3的詞性,那么W3Support=在漢語種子詞典中存在以Wi,3做詞尾的詞語的個數(shù);

步驟C7:如果W2Support=0或者W3Support=0,則轉步驟C2;

所述條件“W2Support=0或者W3Support=0”表明,在漢語種子詞典中沒有找到“Wi,2Wi,3”是正確的新動詞的證據(jù),從而放棄“Wi,2Wi,3”;

步驟C8:計算

步驟C9:如果Score(Wi,2Wi,3)≥4,則將“Wi,2Wi,3”放入VerbResult中。

有益效果:

本發(fā)明提出了一種利用漢語種子詞典中的詞語的信息,對從漢語語料中獲得新動詞進行識別。漢語種子詞典中的詞語的信息包括詞性、詞頭、詞尾、統(tǒng)計信息等。在經(jīng)過160GB的純文本語料的測試驗證后,本發(fā)明的系統(tǒng)獲得了41012個新的漢語動詞。經(jīng)過準確性分析,結果顯示96.9%的新動詞為正確的漢語動詞。因此,本發(fā)明的系統(tǒng)取得了優(yōu)異的識別性能,解決了漢語新動詞識別問題,并為其它的漢語應用系統(tǒng)的開發(fā)提供了基礎。

附圖說明

圖1是一種漢語新動詞識別系統(tǒng)和方法工作流程圖。

圖2是新動詞識別系統(tǒng)和方法中的步驟B1的示例。

圖3是新動詞識別系統(tǒng)和方法中的步驟B2的示例之一。

圖4是新動詞識別系統(tǒng)和方法中的步驟B2的示例之二。

具體實施方式

為了能夠更清楚的說明本發(fā)明,以下定義并解釋如下的術語:

(1)ICTCLAS系統(tǒng):一個免費的、開源的分詞系統(tǒng),本發(fā)明采用的是2012年版本的ICTCLAS。ICTCLAS系統(tǒng)以文本為輸入,輸出為該文本的分詞序列。ICTCLAS系統(tǒng)下載網(wǎng)址為:http://ictclas.nlpir.org。分詞后,每個分詞標有詞性,其中a表示形容詞、b表示區(qū)別詞、c表示連詞、d表示副詞、h表示前綴詞、j表示簡稱詞、k表示后綴詞、m表示數(shù)詞、n表示名詞、p表示介詞、q表示量詞、r表示代詞、u表示助詞、z表示狀態(tài)詞,等等。

(2)漢語種子詞典:由一組人們?nèi)粘I钍褂玫脑~語構成的詞典。例如,《新華詞典》、金山詞霸就是很好的例子。為了便于下面的描述,我們將種子詞典規(guī)定為由多個二元對<詞語,詞性組>構成的資源,其中詞性組是多個詞性符號的序列。

例如,下面給出的例子可以視為漢語種子詞典的一部分:

...

愛上v

創(chuàng)下v

竄v

竄犯v

竄改v

竄擾v

竄逃v

倒下v

登上v

端d v

端量v

端平v

端正v

端坐v

發(fā)紅v

分紅v

掛紅v

紅a

換上v

記下v

考上v

撂下v

上f v

下f v

寫v

寫入v

寫生v

寫實v

寫作v

走紅v

...

盡管漢語種子詞典中的詞語不全,但是其中的詞語含有有用的信息,為準確地驗證獲得新的動詞具有輔助作用。

(3)詞頭、詞尾:對一個含有2個漢字(或2個以上漢字)的漢語詞語(如“倒下”),該詞的第一個字稱為該詞的詞頭,最后一個字稱為該詞的詞尾。例如,“倒下”的詞頭和詞尾分別為“倒”和“下”。

下面結合附圖和具體實施方式對本發(fā)明作進一步詳細地說明。一種漢語新動詞識別系統(tǒng)和方法分為四個模塊:

模塊A:對原始訓練語料庫CNCorpus進行分詞,形成分詞語料庫TCNCorpus。

模塊B:識別分詞語料庫TCNCorpus中的可能的新動詞,形成結果集合Tmp_Verb。

模塊C:驗證集合Tmp_Verb中的新動詞,形成結果集合VerbResult。

模塊D:輸出新動詞集合VerbResult。

下面詳細解釋各個模塊的工作流程或方法。

模塊A:對原始訓練語料庫CNCorpus進行分詞,形成分詞語料庫TCNCorpus。

所述模塊A對CNCorpus中的每篇輸入文本D進行分詞,分詞的工具采用開源的ICTCLAS系統(tǒng)。為了便于處理,分詞后,將每篇文本按照句子標點符號(即句號、分號、逗號、問號、感嘆號、省略號)進行分拆,形成不含有句子標點符號的簡單句。因此,TCNCorpus每個句子的形式為Si=“W1/pos1 W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、阿拉伯數(shù)字、英文單詞或字母;posi是其對應的詞性,posi可以是a(表示形容詞)、b(表示區(qū)別詞)、c(表示連詞)、d(表示副詞)、h(表示前綴詞)、j(表示簡稱詞)、m(表示數(shù)詞)、n(表示名詞)、p(表示介詞)、q(表示量詞)、r(表示代詞)、u(表示助詞)、w(表示標點符號)、z(表示狀態(tài)詞)等。

例如,假設文本D中的內(nèi)容為“我們大家共同努力,終于砸開歐洲市場。”,它是CNCorpus中的一篇文本。經(jīng)過模塊A的處理,D被分為兩個語句,它們的分詞結果分別為:“我們/r 大 家/n 共同/d 努力/v”、“終于/d 砸/v 開/v 歐洲/n 市場/n”。這兩條語句都不含句子標點符號。

模塊B:識別分詞語料庫TCNCorpus中的可能的新動詞,形成結果集合Tmp_Verb。

對TCNCorpus中的每條語句Si,對Si中的情形分別按照以下子步驟處理:

步驟B1:如果Si中出現(xiàn)“Wi,1/posi,1 Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,(即posi,4不是v、f、a或d任何之一),那么將“Wi,2/v Wi,3/v”放入Tmp_Verb中。

所述“Wi,2/v Wi,3/v”,表示將來自于Si的“Wi,2Wi,3”視著一個可能的新動詞,由模塊C進行驗證,以下子步驟類似。步驟B1產(chǎn)生的結果對應著圖2。

如圖2所示,例如,假設語句Si內(nèi)容為“仆人/n 端/v 上/v 的/u 咖啡/n”,“仆人”的詞性n≠v,“咖啡”的詞性為“端上”又不屬于詞典中已知的動詞,那么將“端/v 上/v”放入Tmp_Verb中。

步驟B2:如果Si中出現(xiàn)“Wi,1/posi,1 Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d}(即posi,3是f、a或者d之一),那么將“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中。

步驟B2產(chǎn)生的結果對應著圖3的例子1和圖4的例子2。

如圖3所示,例如,假設語句Si內(nèi)容為“兒子/n 寫/v 下/f”,“兒子”的詞性為n≠v,“下”的詞性屬于f,a,d中的f,“寫下”又不屬于詞典中已知的動詞,那么將“寫/v下/f”放入Tmp_Verb中。

如圖4所示,例如,假設語句Si內(nèi)容為“在/p 竄/v 紅/a”,“在”的詞性為p≠,“紅”的詞性屬于f,a,d中的a,“竄紅”又不屬于詞典中已知的動詞,那么將“竄/v 紅/a”放入Tmp_Verb中。

下面先給出四個具體的文本(采用空格將詞分開,并且標注了它們的詞性):

原始訓練語料庫CNCorpus的文本D1:“我們/r 大家/n 共同/d 努力/v,/w終于/d砸/v 開/v 歐洲/n 市場/n。/w”

原始訓練語料庫CNCorpus的文本D2:“這些/r 韓國/n 明星/n 在/p 中國/n 很/d快/a 竄/v 紅/a。/w”

原始訓練語料庫CNCorpus的文本D3:“仆人/n 端/v 上/v 的/u 咖啡/n 或/c 紅/a 酒/n,/w亦/d 是/v 自己/r 與/p 在座/v 的/u 女士/n 們/k 先/d享用/v。/w”

原始訓練語料庫CNCorpus的文本D4:“二/n 兒子/n 北村/n 孝/n 紘/v 將/p 自己/r 在/p 監(jiān)獄/n 里/f 寫/v 下/f 的/u 手記/n 賣/v 給/v 了/u 鈴木智彥/n,/w以/p《/w我們/r 一/m 家/q 都/d 是/v 死刑犯/n》/w為/p 題/n 出版/v。/w”

例如,將步驟B1應用于D3、D4,可以獲得“端/v 上/v”、“賣/v 給/v”作為一個新的動詞;將步驟B2應用于D2和D4可以獲得“竄/v 紅/a”、“寫/v 下/f”作為兩個新的動詞。

模塊C:驗證集合Tmp_Verb中的新動詞,形成結果集合VerbResult。

模塊B輸出的新動詞集合Tmp_Verb中的動詞具有一定的正確性,但是仍然需要進一步地驗證。為了確保所獲取的新動詞是準確的,本發(fā)明利用漢語種子詞典的思路。漢語種子詞典由一組人們?nèi)粘I钍褂玫脑~語構成的詞典。例如,目前流行的新華詞典、金山詞霸就是很好的例子。為了便于下面的描述,我們將種子詞典規(guī)定為由多個二元對<詞語,詞性組>構成的資源,其中詞性組是多個詞性符號的序列,也即一個詞語可以有多個詞性。

為了便于下文描述,我們將Tmp_Verb中的元素統(tǒng)一地表示為“Wi,2/v Wi,3/posi,3”,其中posi,3∈{v,f,a,d}。這種形式概括步驟B1和步驟B2的輸出結果。

驗證的基本思路是:要確認“Wi,2/v Wi,3/posi,3”構成的新動詞“Wi,2Wi,3”是一個正確的新動詞,首先針對Wi,2進行確認,即在漢語種子詞典中確認兩個條件:(1)Wi,2是否具有動詞的詞性?(2)是否有以Wi,2做詞頭的詞語。如果上述條件的答案是肯定的,那么從詞頭角度看,“Wi,2Wi,3”是正確的新動詞的可能性會增加。然后針對Wi,3采用類似的方式進行分析,即在漢語種子詞典中確認兩個條件:(1)Wi,3是否具有posi,3的詞性?(2)是否有以Wi,3做詞尾的詞語。如果上述條件的答案是肯定的,那么從詞尾角度看,“Wi,2Wi,3”是正確的新動詞的可能性會增加。圖2給出了驗證由“端/v 上/v”構成的新動詞“端上”是正確的新動詞的思路。圖3給出了驗證由“寫/v 下/f”構成的新動詞“寫下”是正確的新動詞的思路。圖4給出了驗證由“竄/v 紅/a”構成的新動詞“竄紅”是正確的新動詞的思路。

根據(jù)上述思路,下面給出具體的計算步驟。在下面步驟中,驗證過的新動詞將放置在集合VerbResult中。

步驟C1:VerbResult={}。

步驟C2:Tmp_Verb為空,則驗證結束,并且調(diào)用模塊D,輸出VerbResult。否則,從Tmp_Verb中任意取出一個元素“Wi,2/v Wi,3/posi,3”。

步驟C3:W2Support=0。

步驟C4:如果在漢語種子詞典中Wi,2具有動詞的詞性,那么W2Support=在漢語種子詞典中存在以Wi,2做詞頭的詞語的個數(shù)。

步驟C5:W3Support=0。

步驟C6:如果在漢語種子詞典中Wi,3具有posi,3的詞性,那么W3Support=在漢語種子詞典中存在以Wi,3做詞尾的詞語的個數(shù)。

步驟C7:如果W2Support=0或者W3Support=0,則轉步驟C2。

所述條件“W2Support=0或者W3Support=0”表明,在漢語種子詞典中沒有找到“Wi,2Wi,3”是正確的新動詞的證據(jù),從而放棄“Wi,2Wi,3”。

步驟C8:計算

步驟C9:如果Score(Wi,2Wi,3)≥4,則將“Wi,2Wi,3”放入VerbResult中。

步驟D:輸出新動詞集合VerbResult。

實驗效果

在經(jīng)過160GB的純文本語料的測試驗證后,本發(fā)明的系統(tǒng)獲得了41012個新的漢語動詞。經(jīng)過準確性分析,結果顯示96.9%的新動詞為正確的漢語動詞。因此,本發(fā)明的系統(tǒng)取得了優(yōu)異的識別性能,解決了漢語新動詞識別問題,并為其它的漢語應用系統(tǒng)的開發(fā)提供了基礎。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1