1.一種漢語句子功能成分分析方法,其特征在于:一種漢語句子功能成分分析方法具體過程為:
步驟一、對訓(xùn)練語料進行處理,其中訓(xùn)練語料采用CTB5.0,通過正則匹配的方式對CTB5.0進行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,對帶有功能成分標(biāo)簽形式的句子進行修正,得到修正后的語料;將進行修正后的語料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)A;
CTB5.0為漢語賓州樹庫;
步驟二、將整個功能成分分析過程考慮成一系列狀態(tài)轉(zhuǎn)移的過程,得到句法功能成分分析器,將訓(xùn)練數(shù)據(jù)A輸入句法功能成分分析器進行訓(xùn)練得到漢語句子功能成分分析模型C;
步驟三、根據(jù)漢語句子功能成分分析模型C對純漢語文本數(shù)據(jù)進行處理,得到帶有功能成分標(biāo)簽的句子,對帶有功能成分標(biāo)簽的句子進行修正,得到修正后的語料;將進行修正后的語料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)B,將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相結(jié)合作為最終的訓(xùn)練數(shù)據(jù);
步驟四、將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進行訓(xùn)練得到漢語句子功能成分分析模型D,采用漢語句子功能成分分析模型D對待測試漢語句子進行測試,得到測試結(jié)果。
2.根據(jù)權(quán)利要求1所述一種漢語句子功能成分分析方法,其特征在于:所述步驟一中對訓(xùn)練語料進行處理,其中訓(xùn)練語料采用CTB5.0,通過正則匹配的方式對CTB5.0進行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,對帶有功能成分標(biāo)簽形式的句子進行修正,得到修正后的語料;將進行修正后的語料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)A;具體過程為:
對訓(xùn)練語料進行處理,其中訓(xùn)練語料采用CTB5.0,通過正則匹配的方式對CTB5.0進行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,功能成分標(biāo)簽包括句子的主語、謂語、賓語、狀語、定語、補語、中心語功能成分;對帶有功能成分標(biāo)簽形式的句子中功能成分標(biāo)簽標(biāo)錯或漏標(biāo)的進行修正,得到修正后的語料;
將修正后的語料內(nèi)部漢字之間添加方向信息,生成漢字粒度的句法樹,作為訓(xùn)練數(shù)據(jù)A。
3.根據(jù)權(quán)利要求2所述一種漢語句子功能成分分析方法,其特征在于:所述步驟二中句法功能成分分析器的分析過程為;
每個狀態(tài)由一個棧和一個隊列組成,棧中保存著已經(jīng)生成的句法功能成分樹片段,隊列中保存著尚未處理的漢字;
初始狀態(tài)下,棧為空,隊列中元素的個數(shù)與句子中漢字的個數(shù)相同;
每個狀態(tài)轉(zhuǎn)移的動作根據(jù)平均感知器在預(yù)先定義好的動作集合中選擇,
定義好的動作集合為移進-分裂、移進-附著、歸約-一元、歸約-二元、歸約-單詞、歸約-子單詞、停頓、終結(jié),平均感知器通過計算當(dāng)前狀態(tài)下每個動作的得分,采用柱搜索策略進行選擇;
平均感知器通過計算當(dāng)前狀態(tài)下每個動作的得分為特征向量與平均感知器的權(quán)值向量的點積,特征向量為根據(jù)定義好的特征模板對待檢測漢語句子進行特征向量提取得到的;
終止?fàn)顟B(tài)下,隊列為空,棧中只有唯一的IP,IP為句法功能成分樹的根節(jié)點,在訓(xùn)練終止后得到漢語句子功能成分分析模型C,解碼終止后得到一棵完整的句法功能成分樹。
4.根據(jù)權(quán)利要求3所述一種漢語句子功能成分分析方法,其特征在于:所述步驟三中根據(jù)漢語句子功能成分分析模型C對純漢語文本數(shù)據(jù)進行功能成分分析,得到帶有功能成分標(biāo)簽的句子,對帶有功能成分標(biāo)簽的句子進行修正,得到修正后的語料;將修正后的語料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)B,將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相結(jié)合作為最終的訓(xùn)練數(shù)據(jù);具體過程為:
根據(jù)漢語句子功能成分分析模型C對數(shù)據(jù)純漢語文本進行功能成分分析,得到帶有功能成分標(biāo)簽的句子,功能成分標(biāo)簽包括句子的主語、謂語、賓語、狀語、定語、補語、中心語功能成分;對功能成分標(biāo)簽中功能成分標(biāo)錯或漏標(biāo)的進行修正,得到修正后的語料;將修正后的語料內(nèi)部漢字之間添加方向信息,生成漢字粒度的句法樹,作為訓(xùn)練數(shù)據(jù)B;將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相加作為最終的訓(xùn)練數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述一種漢語句子功能成分分析方法,其特征在于:所述步驟四中將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進行訓(xùn)練得到漢語句子功能成分分析模型D,采用漢語句子功能成分分析模型D對待測試漢語句子進行測試,得到測試結(jié)果;具體過程為:
將整個功能成分分析過程考慮成一系列狀態(tài)轉(zhuǎn)移的過程,得到句法功能成分分析器,將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進行訓(xùn)練的具體為:
每個狀態(tài)由一個棧和一個隊列組成,棧中保存著已經(jīng)生成的句法功能成分樹片段,隊列中保存著尚未處理的漢字;
初始狀態(tài)下,棧為空,隊列中元素的個數(shù)與句子中漢字的個數(shù)相同;
每個狀態(tài)轉(zhuǎn)移的動作根據(jù)平均感知器在預(yù)先定義好的動作集合中選擇,定義好的動作集合為移進-分裂、移進-附著、歸約一元、歸約-二元、歸約-單詞、歸約-子單詞、停頓、終結(jié),平均感知器通過計算當(dāng)前狀態(tài)下每個動作的得分,采用柱搜索策略進行選擇;
終止?fàn)顟B(tài)下,隊列為空,棧中只有唯一的IP,IP為句法功能成分樹的根節(jié)點,在訓(xùn)練終止后得到漢語句子功能成分分析模型D,解碼終止后得到一棵完整的句法功能成分樹。