亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種漢語(yǔ)句子功能成分分析方法與流程

文檔序號(hào):12666051閱讀:617來(lái)源:國(guó)知局
一種漢語(yǔ)句子功能成分分析方法與流程

本發(fā)明涉及漢語(yǔ)句子功能成分分析方法,涉及機(jī)器翻譯技術(shù)領(lǐng)域。



背景技術(shù):

句法分析是自然語(yǔ)言處理的一個(gè)關(guān)鍵問(wèn)題,目前達(dá)到的效果不盡如人意,處在一個(gè)瓶頸的狀態(tài)下。在現(xiàn)在的研究中句法分析仍然是一個(gè)熱點(diǎn)話題,原因在于句法分析處于整個(gè)自然語(yǔ)言處理任務(wù)中的過(guò)渡位置,很多其他自然語(yǔ)言處理任務(wù)都可以使用該結(jié)果,有很多研究都利用到了這部分分析內(nèi)容,而且不管是上層結(jié)構(gòu)還是下層結(jié)構(gòu)都是可以應(yīng)用該結(jié)果的,主要的句法分析方法可以分為兩類,一類是淺層句法分析,也就是語(yǔ)塊分析,不再以詞為單元處理,而是以語(yǔ)塊為基本單元進(jìn)行處理,在這類分析中分為直接產(chǎn)生一個(gè)新型層序結(jié)果的分析方法,也有將不同語(yǔ)塊再次進(jìn)行分析的方法,以語(yǔ)塊為單元進(jìn)行句法分析,而忽略語(yǔ)塊內(nèi)結(jié)構(gòu)的信息,產(chǎn)生出的結(jié)果仍然是一棵部分句法分析樹(shù);另一類是完全句法分析,在這里的處理單元?jiǎng)t是句子中的每個(gè)詞,產(chǎn)生的是一棵完全句法樹(shù),而這種句法分析任務(wù)也可以被劃分為短語(yǔ)結(jié)構(gòu)的句法樹(shù)分析和依存結(jié)構(gòu)句法樹(shù)分析,在短語(yǔ)結(jié)構(gòu)句法分析中,將基本句子單元詞通過(guò)其在短語(yǔ)中的形式和關(guān)系,逐漸分層次建立的一棵完整的具有短語(yǔ)層次結(jié)構(gòu)的句法樹(shù),類似的,在有依存句法分析中,根據(jù)依存語(yǔ)法的定義,通過(guò)模型建立出的是將詞語(yǔ)之間依存關(guān)系建立出來(lái)的一棵具有依存關(guān)系的完整句法樹(shù)。

但是,這些研究中都沒(méi)有將句子中具有的功能信息考慮到其中,短語(yǔ)結(jié)構(gòu)句法分析考慮的是短語(yǔ)層次的信息,而依存句法分析中考慮的是詞語(yǔ)之間的依存關(guān)系,這些都沒(méi)有體現(xiàn)詞或詞集合在句子中呈現(xiàn)出的作用(比如主謂賓等),清華大學(xué)的周強(qiáng)等人第一次提出了相類似的概念,他們把功能成分提取任務(wù)轉(zhuǎn)化為一種語(yǔ)塊分析任務(wù),與之前短語(yǔ)語(yǔ)塊不同的是標(biāo)簽為句子的功能成分,并且在CIPS-2009的任務(wù)中發(fā)布了相關(guān)任務(wù),然而在之后的幾年里,相關(guān)的研究基本處于停滯階段,只有在2011年有一篇和該任務(wù)相關(guān)的文章發(fā)表在中文信息學(xué)報(bào)中。

句子功能成分在許多實(shí)際問(wèn)題中都有很重要的意義,例如在機(jī)器翻譯的詞對(duì)齊任務(wù)中,利用句子功能成分信息,我們可以加快詞對(duì)齊速度和準(zhǔn)確率,即讓相同成分的詞進(jìn)行相對(duì)應(yīng),這樣的方法既簡(jiǎn)便,又符合語(yǔ)言學(xué)上的規(guī)則;類似地,在依存句法分析中,我們可以利用句子功能成分信息作為限定條件在柱搜索的過(guò)程中將不合法的路徑直接刪掉,從而提高搜索的速度,同樣地,這樣的規(guī)則也具有簡(jiǎn)便易行的優(yōu)點(diǎn);在語(yǔ)義分析上的研究。更為重要的是在整個(gè)自然語(yǔ)言處理任務(wù)中,它可以作為句法分析和語(yǔ)義分析的一個(gè)過(guò)渡任務(wù),從粒度上看,它高于句法分析而低于語(yǔ)義分析,該任務(wù)獲得較好的效果會(huì)對(duì)這兩個(gè)任務(wù)都會(huì)有提高作用,從之前的介紹可以看出這種研究有很重要的應(yīng)用前景,值得對(duì)這一方向進(jìn)行關(guān)注。

但是現(xiàn)有的相關(guān)研究還是處于十分初級(jí)的階段,并沒(méi)有很多的工作可以借鑒,主要的分析方法還是周強(qiáng)等人的功能語(yǔ)塊分析,然而這些方法還有很多缺陷。首先,漢語(yǔ)功能樹(shù)庫(kù)的數(shù)據(jù)量并不是十分多,同時(shí)有人工利用規(guī)則轉(zhuǎn)換成的成分樹(shù)庫(kù)存在一定的準(zhǔn)確性問(wèn)題,而且之后并沒(méi)有數(shù)據(jù)的更新;其次,不論是周強(qiáng)等人還是陳億的研究都僅僅針對(duì)漢語(yǔ)句子標(biāo)注出其功能語(yǔ)塊,產(chǎn)生一個(gè)單層線性結(jié)構(gòu)的結(jié)果而并非是一個(gè)層次結(jié)構(gòu),目的是為了服務(wù)于句法分析樹(shù)的構(gòu)建;另外,從具體研究任務(wù)上來(lái)說(shuō),目前還沒(méi)有專門對(duì)漢語(yǔ)句子的功能成分有相關(guān)研究的開(kāi)展。因此,我們提出漢語(yǔ)功能成分分析基線模型以及基于移進(jìn)歸約動(dòng)作轉(zhuǎn)移的分析方法。從上述的工作貢獻(xiàn)和工作意義上看,我們的工作是有很好的背景意義的。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是為了解決現(xiàn)有技術(shù)沒(méi)有考慮漢語(yǔ)句子的功能成分的問(wèn)題,而提出一種漢語(yǔ)句子功能成分分析方法。

一種漢語(yǔ)句子功能成分分析方法具體過(guò)程為:

步驟一、對(duì)訓(xùn)練語(yǔ)料進(jìn)行處理,其中訓(xùn)練語(yǔ)料采用CTB5.0,通過(guò)正則匹配的方式對(duì)CTB5.0進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,對(duì)帶有功能成分標(biāo)簽形式的句子進(jìn)行修正,得到修正后的語(yǔ)料;將進(jìn)行修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)A;

CTB5.0為漢語(yǔ)賓州樹(shù)庫(kù);

步驟二、將整個(gè)功能成分分析過(guò)程考慮成一系列狀態(tài)轉(zhuǎn)移的過(guò)程,得到句法功能成分分析器,將訓(xùn)練數(shù)據(jù)A輸入句法功能成分分析器進(jìn)行訓(xùn)練得到漢語(yǔ)句子功能成分分析模型C;

步驟三、根據(jù)漢語(yǔ)句子功能成分分析模型C對(duì)純漢語(yǔ)文本數(shù)據(jù)進(jìn)行處理,得到帶有功能成分標(biāo)簽的句子,對(duì)帶有功能成分標(biāo)簽的句子進(jìn)行修正,得到修正后的語(yǔ)料;將進(jìn)行修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)B,將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相結(jié)合作為最終的訓(xùn)練數(shù)據(jù);

步驟四、將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進(jìn)行訓(xùn)練得到漢語(yǔ)句子功能成分分析模型D,采用漢語(yǔ)句子功能成分分析模型D對(duì)待測(cè)試漢語(yǔ)句子進(jìn)行測(cè)試,得到測(cè)試結(jié)果。

本發(fā)明的有益效果為:

本發(fā)明采用一種漢語(yǔ)句子功能成分分析方法,將整個(gè)功能成分分析過(guò)程考慮成一系列狀態(tài)轉(zhuǎn)移的過(guò)程,得到句法功能成分分析器,訓(xùn)練語(yǔ)料一部分采用CTB5.0(漢語(yǔ)賓州樹(shù)庫(kù)),另外一部分采用純漢語(yǔ)文本數(shù)據(jù)進(jìn)行一系列處理后的結(jié)果,使用句法功能成分分析器對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到功能成分分析模型,采用漢語(yǔ)句子功能成分分析模型對(duì)待測(cè)試漢語(yǔ)句子(500個(gè)句子)進(jìn)行測(cè)試,得到較高的精確率、召回率、F值。

如表1所示本發(fā)明在對(duì)500句漢語(yǔ)句子進(jìn)行測(cè)試時(shí)整個(gè)句法功能成分樹(shù)的精確率為97.38%,召回率為97.79%,F(xiàn)值為90.90%。

附圖說(shuō)明

圖1為整個(gè)句法功能成分分析的方法框架圖;

圖2為以樹(shù)狀圖展示了對(duì)一個(gè)漢語(yǔ)句子進(jìn)行功能成分分析的結(jié)果圖,其中,[SBJ]為主語(yǔ),[PRE]為謂語(yǔ),[OBJ]為賓語(yǔ),[ADV]為狀語(yǔ),[ADJ]為修飾語(yǔ),[HEAD]為中心語(yǔ),IP為句子,NP為名詞性短語(yǔ),VP為動(dòng)詞性短語(yǔ),ADVP為副詞短語(yǔ),PP為介詞短語(yǔ),CP為補(bǔ)充短語(yǔ),ADJP為修飾短語(yǔ),QP為數(shù)量短語(yǔ),PN為代詞,AD為副詞,VV為動(dòng)作性動(dòng)詞,VA為形容詞性動(dòng)詞,JJ為形容詞,NN為名詞,AS為助動(dòng)詞,P為介詞,CD為數(shù)量詞,OD為帶有順序的數(shù)量詞,DEC為的,CC為連詞,PU為標(biāo)點(diǎn)符號(hào)。

具體實(shí)施方式

具體實(shí)施方式一:本實(shí)施方式的一種漢語(yǔ)句子功能成分分析方法具體過(guò)程為:

步驟一、對(duì)訓(xùn)練語(yǔ)料進(jìn)行處理,其中訓(xùn)練語(yǔ)料采用CTB5.0(漢語(yǔ)賓州樹(shù)庫(kù)),CTB5.0語(yǔ)料本身是句法分析的結(jié)果通過(guò)正則匹配的方式對(duì)CTB5.0進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,對(duì)帶有功能成分標(biāo)簽形式的句子進(jìn)行修正,得到修正后的語(yǔ)料;將進(jìn)行修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)A;

步驟二、將基于轉(zhuǎn)移的句法分析方法()應(yīng)用到功能成分分析中,將整個(gè)功能成分分析過(guò)程考慮成一系列狀態(tài)轉(zhuǎn)移的過(guò)程,得到句法功能成分分析器,將訓(xùn)練數(shù)據(jù)A輸入句法功能成分分析器進(jìn)行訓(xùn)練得到漢語(yǔ)句子功能成分分析模型C;如圖1;

步驟三、根據(jù)漢語(yǔ)句子功能成分分析模型C對(duì)純漢語(yǔ)文本數(shù)據(jù)(不包括字母、英文)(人民網(wǎng)獲取的關(guān)于新聞、社論的10000句)進(jìn)行處理,得到帶有功能成分標(biāo)簽的句子,對(duì)普遍存在的錯(cuò)誤進(jìn)行修正,對(duì)帶有功能成分標(biāo)簽的句子進(jìn)行修正,得到修正后的語(yǔ)料;將進(jìn)行修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)B,將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相結(jié)合作為最終的訓(xùn)練數(shù)據(jù);

步驟四、將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進(jìn)行訓(xùn)練得到漢語(yǔ)句子功能成分分析模型D,采用漢語(yǔ)句子功能成分分析模型D對(duì)待測(cè)試漢語(yǔ)句子(500個(gè)句子)進(jìn)行測(cè)試,得到測(cè)試結(jié)果。

具體實(shí)施方式二:本實(shí)施方式與具體實(shí)施方式一不同的是:所述步驟一中對(duì)訓(xùn)練語(yǔ)料進(jìn)行處理,其中訓(xùn)練語(yǔ)料采用CTB5.0(漢語(yǔ)賓州樹(shù)庫(kù)),CTB5.0語(yǔ)料本身是句法分析的結(jié)果,通過(guò)正則匹配的方式對(duì)CTB5.0進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,對(duì)帶有功能成分標(biāo)簽形式的句子進(jìn)行修正,得到修正后的語(yǔ)料;將進(jìn)行修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)A;具體過(guò)程為:

對(duì)訓(xùn)練語(yǔ)料進(jìn)行處理,其中訓(xùn)練語(yǔ)料采用CTB5.0(漢語(yǔ)賓州樹(shù)庫(kù)),CTB5.0語(yǔ)料本身是句法分析的結(jié)果,通過(guò)正則匹配的方式對(duì)CTB5.0進(jìn)行轉(zhuǎn)化,轉(zhuǎn)化成帶有功能成分標(biāo)簽的形式,功能成分標(biāo)簽包括句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、狀語(yǔ)、定語(yǔ)、補(bǔ)語(yǔ)、中心語(yǔ)功能成分,以及句子的從屬結(jié)構(gòu);對(duì)帶有功能成分標(biāo)簽形式的句子中功能成分標(biāo)簽標(biāo)錯(cuò)或漏標(biāo)的進(jìn)行修正,得到修正后的語(yǔ)料;

將修正后的語(yǔ)料內(nèi)部漢字之間添加方向信息,生成漢字粒度的句法樹(shù),即為句法樹(shù)中每個(gè)結(jié)點(diǎn)增加方向信息,作為訓(xùn)練數(shù)據(jù)A。

方向有三種:左(l)、右(r)、并列(c),分別表示兩個(gè)子結(jié)點(diǎn)中表示核心語(yǔ)義的結(jié)點(diǎn)為左子結(jié)點(diǎn)、右子結(jié)點(diǎn)、以及兩個(gè)子結(jié)點(diǎn)的地位相同的情形。比如,單詞:科學(xué),左子結(jié)點(diǎn)是科,右結(jié)點(diǎn)是學(xué),他們是并列關(guān)系,這里的標(biāo)注的是單純內(nèi)補(bǔ),這種關(guān)系,不是句子;

即使用單詞內(nèi)部漢字之間的結(jié)構(gòu)信息指導(dǎo)句法分析以及生成漢字粒度的句法樹(shù),我們對(duì)單詞內(nèi)部漢字之間的關(guān)系進(jìn)行標(biāo)注,為每個(gè)結(jié)點(diǎn)增加了“方向”信息。

其它步驟及參數(shù)與具體實(shí)施方式一相同。

具體實(shí)施方式三:本實(shí)施方式與具體實(shí)施方式一或二不同的是:所述步驟二中句法功能成分分析器的分析過(guò)程為;

數(shù)據(jù)A里面的每一個(gè)句子一次進(jìn)入隊(duì)列,將整個(gè)功能成分分析過(guò)程考慮成一系列狀態(tài)轉(zhuǎn)移的過(guò)程,每個(gè)狀態(tài)由一個(gè)棧和一個(gè)隊(duì)列組成,棧中保存著已經(jīng)生成的句法功能成分樹(shù)片段(一個(gè)句法功能成分樹(shù)中的一部分),隊(duì)列中保存著尚未處理的漢字;

初始狀態(tài)下,棧為空,隊(duì)列中元素的個(gè)數(shù)與句子中漢字的個(gè)數(shù)相同;

每個(gè)狀態(tài)轉(zhuǎn)移的動(dòng)作根據(jù)平均感知器在預(yù)先定義好的動(dòng)作集合中選擇,

定義好的動(dòng)作集合為移進(jìn)-分裂、移進(jìn)-附著、歸約-一元、歸約-二元、歸約-單詞、歸約-子單詞、停頓、終結(jié),平均感知器通過(guò)計(jì)算當(dāng)前狀態(tài)下每個(gè)動(dòng)作的得分,采用柱搜索策略進(jìn)行選擇;

平均感知器通過(guò)計(jì)算當(dāng)前狀態(tài)下每個(gè)動(dòng)作的得分為特征向量與平均感知器的權(quán)值向量的點(diǎn)積,特征向量為根據(jù)定義好的特征模板對(duì)待檢測(cè)漢語(yǔ)句子進(jìn)行特征向量提取得到的,通用的結(jié)構(gòu)特征模板如下:

與漢字相關(guān)的結(jié)構(gòu)特征模板如下:

句法功能成分分析器執(zhí)行移進(jìn)-分裂動(dòng)作時(shí)使用的字符串特征如下

句法功能成分分析器執(zhí)行移進(jìn)-附著動(dòng)作時(shí)使用的字符串特征如下

z-1.z0 z-1.z0.t-1 z0.y-1 start(ω-1).z0.t-1

句法功能成分分析器執(zhí)行歸約-單詞動(dòng)作時(shí)使用的字符串特征如下

終止?fàn)顟B(tài)下,隊(duì)列為空,棧中只有唯一的IP,IP為句法功能成分樹(shù)的根節(jié)點(diǎn),在訓(xùn)練終止后得到漢語(yǔ)句子功能成分分析模型C,解碼終止后得到一棵完整的句法功能成分樹(shù),如圖2。

整個(gè)漢語(yǔ)句子功能成分分析過(guò)程主要包括訓(xùn)練語(yǔ)料庫(kù)的處理、訓(xùn)練程序的編寫、訓(xùn)練模型的參數(shù)選擇。訓(xùn)練語(yǔ)料庫(kù)的處理即糾正語(yǔ)料庫(kù)中本身存在的分析標(biāo)注錯(cuò)誤以及將語(yǔ)料庫(kù)轉(zhuǎn)化成基于字粒度信息的形式。訓(xùn)練程序的關(guān)鍵部分是特征提取以及平均感知器實(shí)現(xiàn)。訓(xùn)練模型的參數(shù)選擇主要包括迭代輪數(shù)。

平均感知器即在某一狀態(tài)下對(duì)動(dòng)作的決策分類,采用的是平均感知器原理,平均感知器策略在一定程度上可以避免過(guò)擬合的發(fā)生。設(shè)迭代總輪數(shù)為T,每輪迭代的索引為t,其中0<t<T+1,語(yǔ)料庫(kù)中的句子總數(shù)為N,句子的索引為n,其中0<n<N+1。設(shè)第t輪迭代時(shí),處理了第n句之后,模型的權(quán)值為wt,n,則傳統(tǒng)的平均感知器算法訓(xùn)練得到的模型的權(quán)值為wT,N。

此權(quán)值可以使得模型在訓(xùn)練集上取得較高的預(yù)測(cè)精度,但是容易造成過(guò)擬合現(xiàn)象,使得模型在測(cè)試集上的預(yù)測(cè)精度不高。平均感知器策略為了防止過(guò)擬合,并不使用wT,N作為最終權(quán)值,而是使用作為模型的權(quán)值。平均感知器算法如下所示

其它步驟及參數(shù)與具體實(shí)施方式一或二相同。

具體實(shí)施方式四:本實(shí)施方式與具體實(shí)施方式一至三之一不同的是:所述步驟三中根據(jù)漢語(yǔ)句子功能成分分析模型C對(duì)數(shù)據(jù)(純漢語(yǔ)文本)(人民網(wǎng)獲取的關(guān)于新聞、社論的10000句)進(jìn)行功能成分分析,得到帶有功能成分標(biāo)簽的句子,對(duì)普遍存在的錯(cuò)誤進(jìn)行修正,對(duì)帶有功能成分標(biāo)簽的句子進(jìn)行修正,得到修正后的語(yǔ)料;將修正后的語(yǔ)料轉(zhuǎn)化成基于字粒度的形式,作為訓(xùn)練數(shù)據(jù)B,將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相結(jié)合作為最終的訓(xùn)練數(shù)據(jù);具體過(guò)程為:

根據(jù)漢語(yǔ)句子功能成分分析模型C對(duì)數(shù)據(jù)(純漢語(yǔ)文本)(人民網(wǎng)獲取的關(guān)于新聞、社論的10000句)進(jìn)行功能成分分析,得到帶有功能成分標(biāo)簽的句子,對(duì)普遍存在的錯(cuò)誤進(jìn)行修正,功能成分標(biāo)簽包括句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ)、狀語(yǔ)、定語(yǔ)、補(bǔ)語(yǔ)、中心語(yǔ)功能成分,以及句子的從屬結(jié)構(gòu);對(duì)功能成分標(biāo)簽中功能成分標(biāo)錯(cuò)或漏標(biāo)的進(jìn)行修正,得到修正后的語(yǔ)料;

將修正后的語(yǔ)料內(nèi)部漢字之間添加方向信息,生成漢字粒度的句法樹(shù),即為句法樹(shù)中每個(gè)結(jié)點(diǎn)增加方向信息,作為訓(xùn)練數(shù)據(jù)B;

方向有三種:左(l)、右(r)、并列(c),分別表示兩個(gè)子結(jié)點(diǎn)中表示核心語(yǔ)義的結(jié)點(diǎn)為左子結(jié)點(diǎn)、右子結(jié)點(diǎn)、以及兩個(gè)子結(jié)點(diǎn)的地位相同的情形。

即使用單詞內(nèi)部漢字之間的結(jié)構(gòu)信息指導(dǎo)句法分析以及生成漢字粒度的句法樹(shù),我們對(duì)單詞內(nèi)部漢字之間的關(guān)系進(jìn)行標(biāo)注,為每個(gè)結(jié)點(diǎn)增加了“方向”信息。

將訓(xùn)練數(shù)據(jù)A與訓(xùn)練數(shù)據(jù)B相加作為最終的訓(xùn)練數(shù)據(jù)。

其它步驟及參數(shù)與具體實(shí)施方式一至三之一相同。

具體實(shí)施方式五:本實(shí)施方式與具體實(shí)施方式一至四之一不同的是:所述步驟四中將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進(jìn)行訓(xùn)練得到漢語(yǔ)句子功能成分分析模型D,采用漢語(yǔ)句子功能成分分析模型D對(duì)待測(cè)試漢語(yǔ)句子(500個(gè)句子)進(jìn)行測(cè)試,得到測(cè)試結(jié)果;具體過(guò)程為:

將整個(gè)功能成分分析過(guò)程考慮成一系列狀態(tài)轉(zhuǎn)移的過(guò)程,得到句法功能成分分析器,將最終的訓(xùn)練數(shù)據(jù)輸入句法功能成分分析器進(jìn)行訓(xùn)練的具體為:

每個(gè)狀態(tài)由一個(gè)棧和一個(gè)隊(duì)列組成,棧中保存著已經(jīng)生成的句法功能成分樹(shù)片段(一個(gè)句法功能成分樹(shù)中的一部分),隊(duì)列中保存著尚未處理的漢字;

初始狀態(tài)下,棧為空,隊(duì)列中元素的個(gè)數(shù)與句子中漢字的個(gè)數(shù)相同;

每個(gè)狀態(tài)轉(zhuǎn)移的動(dòng)作根據(jù)平均感知器在預(yù)先定義好的動(dòng)作集合中選擇,定義好的動(dòng)作集合為移進(jìn)-分裂、移進(jìn)-附著、歸約一元、歸約-二元、歸約-單詞、歸約-子單詞、停頓、終結(jié),平均感知器通過(guò)計(jì)算當(dāng)前狀態(tài)下每個(gè)動(dòng)作的得分,采用柱搜索策略進(jìn)行選擇;

終止?fàn)顟B(tài)下,隊(duì)列為空,棧中只有唯一的IP,IP為句法功能成分樹(shù)的根節(jié)點(diǎn),在訓(xùn)練終止后得到漢語(yǔ)句子功能成分分析模型D,解碼終止后得到一棵完整的句法功能成分樹(shù)。

其它步驟及參數(shù)與具體實(shí)施方式一至四之一相同。

采用以下實(shí)施例驗(yàn)證本發(fā)明的有益效果:

實(shí)施例一:

本實(shí)施例一種漢語(yǔ)句子功能成分分析方法具體是按照以下步驟制備的:

(1)訓(xùn)練語(yǔ)料

CTB(賓州樹(shù)庫(kù))13000余句以及人民網(wǎng)獲取的關(guān)于新聞、社論的10000句;將其處理成字粒度的形式。

(2)訓(xùn)練過(guò)程

使用CTB語(yǔ)料訓(xùn)練出初始模型1;使用初始模型1對(duì)10000條新句進(jìn)行parse,得到句法功能成分結(jié)果,也作為訓(xùn)練語(yǔ)料;結(jié)合兩部分訓(xùn)練語(yǔ)料,再次訓(xùn)練模型2。

(3)測(cè)試集

隨機(jī)抽取不同于訓(xùn)練語(yǔ)料的500個(gè)句子,經(jīng)過(guò)訓(xùn)練好的模型parse后,進(jìn)行人工校對(duì),保證測(cè)試集的準(zhǔn)確性。

在校正后的500句測(cè)試集上的實(shí)驗(yàn)結(jié)果如下表所示:

F=2P*Q/(P+Q)。

本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,本領(lǐng)域技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1