1.一種漢語兼語結(jié)構(gòu)獲取系統(tǒng),其特征在于:包括對原始訓練語料庫Corpus進行分詞,形成分詞語料庫TCorpus的模塊A;識別分詞語料庫TCorpus中的每條語句Si中動詞的模塊B;應用兼語模式對TCorpus中的語句進行分析,對滿足兼語模式的語句形成候選兼語結(jié)構(gòu),并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中的模塊C;驗證候選兼語結(jié)構(gòu)庫SOBase,并輸出最終結(jié)果SOBaseResult的模塊D;
上面所述模塊中,模塊A采用一個開源的ICTCLAS系統(tǒng)對RCorpus中的每篇輸入文本進行分詞,并且將每篇文本按照句子的自然分割進行分拆,形成不含有句子標點符號的簡單句;因此,TCorpus每個句子的形式為Si=“W1/posl W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、標點符號、阿拉伯數(shù)字、英文單詞或字母,posi是其對應的詞性;模塊A產(chǎn)生分詞后的結(jié)果將傳給模塊B,模塊B識別分詞語料庫TCorpus中的每條語句Si中的動詞或動詞詞組;模塊B對TCorpus中的每條語句Si進行動詞合并處理,即出現(xiàn)“W1/v W2/v”時,則按照“W1W2/v”進行合并處理,即將兩個或兩個以上的動詞,合并為一個動詞,稱此過程為動詞合并處理;在上述處理后,對修飾動詞的副詞進行消除處理,即將動詞前的所有修飾副詞全部刪除;模塊B完成動詞識別、副詞處理后,將結(jié)果傳給模塊C;模塊C應用兼語模式對TCorpus中的語句進行分析,對滿足兼語模式的語句形成候選兼語結(jié)構(gòu),并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中;模塊C完成兼語模式分析后,將結(jié)果傳給模塊D以便驗證兼語結(jié)構(gòu)的正確性;模塊D對候選兼語結(jié)構(gòu)庫SOBase中的每條記錄<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>進行兼語搭配常見性驗證、兼語搭配多樣性驗證。
2.一種漢語兼語結(jié)構(gòu)獲取方法,其特征在于:包括以下步驟:
第一步:對原始訓練語料庫Corpus進行分詞,形成分詞語料庫TCorpus;
采用一個開源的ICTCLAS系統(tǒng)對Corpus中的每篇輸入文本D進行分詞,并且將每篇文本按照句子的自然分割進行分拆,形成不含有句子標點符號的簡單句;因此,TCorpus每個句子的形式為Si=“W1/pos1W2/pos2…Wi/pos1…Wn/posn”,其中每個Wi是一個漢語詞、漢字、標點符號、阿拉伯數(shù)字、英文單詞或字母,posi是其對應的詞性;
在分詞算法中,詞性的標記已經(jīng)在計算機界通行;通常的詞性有a表示形容詞、b表示區(qū)別詞、c表示連詞、d表示副詞、h表示前綴詞、j表示簡稱詞、k表示后綴詞、m表示數(shù)詞、n表示名詞、p表示介詞、q表示量詞、r表示代詞、u表示助詞、z表示狀態(tài)詞;
第二步:識別分詞語料庫TCorpus中的每條語句Si中的動詞或動詞詞組;
當出現(xiàn)“W1/v W2/v”,則按照“W1W2/v”進行合并處理,即將兩個或兩個以上的動詞,合并為一個動詞,稱此過程為動詞合并處理;在上述處理后,對修飾動詞的副詞進行消除處理,即將動詞前的所有修飾副詞全部刪除;將處理后的語句仍放入TCorpus中;
第三步:應用兼語模式對TCorpus中的語句進行分析,對滿足兼語模式的語句形成候選兼語結(jié)構(gòu),并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中;
所述應用兼語模式對TCorpus中的語句進行分析,是指采用5種兼語模式,將TCorpus中的符合兼語模式之一的語句挑選出來,置入待驗證的兼語結(jié)構(gòu)庫SOBase中;
具體而言,對TCorpus中任一語句SOi,當它含有超過2的動詞,或者僅含有1個動詞,則放棄該句;否則,設(shè)SOi的形式為“Ni,1Vi,1Ni,2Vi,2Ni,3”,這里,下標i代表第i個語句意思;下面的主要任務(wù)是檢查Ni,2是否滿足5種兼語模式之一;如果滿足5種兼語模式之一,則將二元對<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>放入SOBase中;否則,放棄SOi;
所述的5種兼語模式:設(shè)兼語句的一般形式為“N1V1N2V2N3”,其中N2即為兼語;在獲取兼語結(jié)構(gòu)時,僅考慮兼語N2滿足以下模式的兼語語句,也就是,當語料庫足夠大時,兼語是其它形式的兼語句的兼語結(jié)構(gòu)也能從兼語滿足以下5種模式的兼語句中獲得:
模式1:數(shù)詞+名詞;
模式2:數(shù)詞+量詞+名詞;
模式3:{這,這場,這次,這個,這位,這種,這些,那,那場,那次,那個,那位,那種,那些,它,它們},該集合中的元素為常見代詞,通常用于指代非生命的物體或者動物,其中的任何一個元素本身都是一個模式;
模式4:{這,這場,這次,這個,這位,這種,這些,那,那場,那次,那個,那位,那種,那些}+名詞,這是一個由代詞與名稱構(gòu)成的兼語模式;
模式5:{他,他們,我,我們,她,她們},該集合中的元素為常見代詞,通常用于指代人物,其中的任何一個元素本身都是一個模式;
第四步:驗證候選兼語結(jié)構(gòu)庫SOBase,并輸出最終結(jié)果SOBaseResult;
對候選兼語結(jié)構(gòu)庫SOBase中的每條記錄<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>,采用兩種驗證技術(shù):兼語搭配常見性驗證、兼語搭配多樣性,它們都是確保兼語結(jié)構(gòu)正確的必要條件;
所述兼語搭配常見性驗證,是指當SOi=“Ni,1Vi,1Ni,2Vi,2Ni,3”是一個正確的兼語句,則兼語結(jié)構(gòu)“Vi,1…Vi,2”在TCorpus中的其他語句中出現(xiàn),而不是僅僅出現(xiàn)在兼語句SOi中;
所述兼語搭配多樣性驗證,是指如果SOi=“Ni,1Vi,1Ni,2Vi,2Ni,3”是一個正確的兼語句,那么形如SO′i=“N′i,1Vi,1N′i,2Vi,2N′i,3”、SO″i=“N″i,1Vi,1N″i,2Vi,2N″i,3”的兼語句在TCorpus也應該多次出現(xiàn)。
3.根據(jù)權(quán)利要求2所述的一種漢語兼語結(jié)構(gòu)獲取方法,其特征在于:所述第四步的具體實施步驟為:
首先引入兩個非負的閾值a和b,其中a∈(0,1],b∈(0,1]
步驟D1:設(shè)置SOBaseResult為空,用以保存驗證過的、正確的兼語結(jié)構(gòu)的結(jié)果;
步驟D2:如果SOBase空,則轉(zhuǎn)步驟D6;
步驟D3:對SOBase中的任一一個記錄<“Vi,1…Vi,2”,“Ni,1Vi,1Ni,2Vi,2Ni,3”>,將<“Vi,1…Vi,2”,“Ni,,1Vi,1Ni,2Vi,2Ni,3”>從SOBase中取出;
步驟D4:如果cof(“Vi,1…Vi,2”)>a,那么將“Vi,1…Vi,2”放入集合SOBaseResult中,轉(zhuǎn)步驟D2;
所述cof(“Vi,1…Vi,2”)反映了兼語結(jié)構(gòu)“Vi,1…Vi,2”的常見性,它的計算如下:cof(“Vi,1…Vi,2”)=TCorpus含有“Vi,1…Vi,2”結(jié)構(gòu)語句條數(shù)/TCorpus中的語句數(shù);當cof(Vi,1…Vi,2)>a時,將“Vi,1…Vi,2”視為一個正確的兼語結(jié)構(gòu);
步驟D5:如果muf(“Vi,1…Vi,2”)>b,那么將“Vi,1…Vi,2”放入集合SOBaseResult中;
所述muf(“Vi,1…Vi,2”)是一個刻畫兼語搭配多樣性的數(shù)學方法,它的計算子步驟如下:開始時,設(shè)置V*,1和V*,2為空集合;
步驟D51:在SOBase中,如果存在<“Vx…Vi,2”,“Ni,1VxNi,2Vi,2Ni,3”>,那么將Vx放入集合V*,1中;
步驟D52:在SOBase中,如果存在<“Vi,1…Vy”,“Ni,1Vi,1Ni,2VyNi,3”>,那么將Vy放入集合V*,2中;
步驟D53:計算muf(“Vi,1…Vi,2”):計算公式如下:
步驟D6:輸出最終兼語結(jié)構(gòu)結(jié)果SOBaseResult。