1.一種漢語新動詞識別系統(tǒng),其特征在于:包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus的模塊A;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb的模塊B;驗(yàn)證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult的模塊C;輸出新動詞集合VerbResult的模塊D。
2.一種漢語新動詞識別系統(tǒng)和方法,其特征在于:包括以下步驟
步驟A,對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus:
對CNCorpus中的每篇輸入文本D進(jìn)行分詞,分詞的工具采用開源的ICTCLAS系統(tǒng);為了便于處理,分詞后,將每篇文本按照句子標(biāo)點(diǎn)符號進(jìn)行分拆,形成不含有句子標(biāo)點(diǎn)符號的簡單句;因此,TCNCorpus每個句子的形式為Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、阿拉伯?dāng)?shù)字、英文單詞或字母;posi是其對應(yīng)的詞性;
步驟B,識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb:
對TCNCorpus中的每條語句Si,對Si中的情形分別按照以下子步驟處理:
步驟B1:如果Si中出現(xiàn)“Wi,1/posi,1 Wi,2/v Wi,3/v Wi,4/posi,4”的子串,并且posi,1≠v,即posi,4不是v、f、a或d任何之一,那么將“Wi,2/v Wi,3/v”放入Tmp_Verb中;所述“Wi,2/v Wi,3/v”,表示將來自于Si的“Wi,2Wi,3”視著一個可能的新動詞;
步驟B2:如果Si中出現(xiàn)“Wi,1/posi,1 Wi,2/v Wi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么將“Wi,2/v Wi,3/posi,3”放入Tmp_Verb中;
步驟C:驗(yàn)證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult。
步驟B輸出的新動詞集合Tmp_Verb中的動詞具有一定的正確性,但是仍然需要進(jìn)一步地驗(yàn)證。為了確保所獲取的新動詞是準(zhǔn)確的,我們將種子詞典規(guī)定為由多個二元對<詞語,詞性組>構(gòu)成的資源,其中詞性組是多個詞性符號的序列,也即一個詞語可以有多個詞性;
為了便于下文描述,我們將Tmp_Verb中的元素統(tǒng)一地表示為“Wi,2/v Wi,3/posi,3”,其中posi,3∈{v,f,a,d};這種形式概括步驟B1和步驟B2的輸出結(jié)果;
驗(yàn)證的方式為:要確認(rèn)“Wi,2/v Wi,3/posi,3”構(gòu)成的新動詞“Wi,2Wi,3”是一個正確的新動詞,首先針對Wi,2進(jìn)行確認(rèn),即在漢語種子詞典中確認(rèn)兩個條件:(1)Wi,2是否具有動詞的詞性?(2)是否有以Wi,2做詞頭的詞語;如果上述條件的答案是肯定的;在針對Wi,3采用類似的方式進(jìn)行分析,即在漢語種子詞典中確認(rèn)兩個條件:(1)Wi,3是否具有posi,3的詞性?(2)是否有以Wi,3做詞尾的詞語;如果上述條件的答案是肯定的,將驗(yàn)證過的新動詞放置在集合 VerbResult中;
步驟D:輸出新動詞集合VerbResult。
3.根據(jù)權(quán)利要求1所示的一種漢語新動詞識別系統(tǒng)和方法,其特征在于:所述的步驟C具體包括以下步驟:
步驟C1:VerbResult={};
步驟C2:Tmp_Verb為空,則驗(yàn)證結(jié)束,并且調(diào)用模塊D,輸出VerbResult。否則,從Tmp_Verb中任意取出一個元素“Wi,2/v Wi,3/posi,3”;
步驟C3:W2Support=0;
步驟C4:如果在漢語種子詞典中Wi,2具有動詞的詞性,那么W2Support=在漢語種子詞典中存在以Wi,2做詞頭的詞語的個數(shù);
步驟C5:W3Support=0;
步驟C6:如果在漢語種子詞典中Wi,3具有posi,3的詞性,那么W3Support=在漢語種子詞典中存在以Wi,3做詞尾的詞語的個數(shù);
步驟C7:如果W2Support=0或者W3Support=0,則轉(zhuǎn)步驟C2;
所述條件“W2Support=0或者W3Support=0”表明,在漢語種子詞典中沒有找到“Wi,2Wi,3”是正確的新動詞的證據(jù),從而放棄“Wi,2Wi,3”;
步驟C8:計(jì)算
步驟C9:如果Score(Wi,2Wi,3)≥4,則將“Wi,2Wi,3”放入VerbResult中。