亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法與流程

文檔序號(hào):11950214閱讀:228來(lái)源:國(guó)知局
本發(fā)明涉及基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,屬于自然語(yǔ)言處理
技術(shù)領(lǐng)域
。
背景技術(shù)
:短語(yǔ)樹(shù)庫(kù)的分析與構(gòu)建對(duì)于語(yǔ)言學(xué)的研究有著非常重要的作用,例如句法模式的抽取以及語(yǔ)言現(xiàn)象的調(diào)查等;同時(shí)它通常被用來(lái)訓(xùn)練分詞工具、句法分析器和語(yǔ)義角色標(biāo)注器等體系,這些體系又是信息抽取、機(jī)器翻譯、問(wèn)答系統(tǒng)以及文本分類(lèi)等應(yīng)用的基礎(chǔ)。近年來(lái),隨著機(jī)器學(xué)習(xí)方法和人工智能的快速發(fā)展,短語(yǔ)樹(shù)庫(kù)的自動(dòng)構(gòu)建變得越來(lái)越重要。短語(yǔ)句法分析是根據(jù)給定的語(yǔ)法體系,自動(dòng)推導(dǎo)出句子的語(yǔ)法結(jié)構(gòu),分析句子所包含的語(yǔ)法單元和這些語(yǔ)法單元之間的關(guān)系(Allen1995),將句子轉(zhuǎn)化為一棵結(jié)構(gòu)化的語(yǔ)法樹(shù)。短語(yǔ)樹(shù)由終結(jié)符、非終結(jié)符以及短語(yǔ)標(biāo)記這三種符號(hào)按照特定的語(yǔ)法規(guī)則構(gòu)成。根據(jù)語(yǔ)法規(guī)則,若干終結(jié)符構(gòu)成一個(gè)短語(yǔ),作為非終結(jié)符參與下一次歸約,直至將整個(gè)句子歸約為根節(jié)點(diǎn)。針對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的研究很少。目前針對(duì)越南語(yǔ)的研究主要包含有:NguyenCT,NguyenTK(2006)等人利用CRF與SVM構(gòu)建越南語(yǔ)分詞模型,完成了越南語(yǔ)的分詞工作;LeHP,NguyenTMH,RomaryL(2006)等人提出針對(duì)越南的詞匯化鏈接文法,但并沒(méi)有講這個(gè)文法利用在短語(yǔ)樹(shù)的構(gòu)建上;NguyenPT,VuXL,NguyenTMH(2009)等人簡(jiǎn)單介紹了一下構(gòu)建越南語(yǔ)句法樹(shù)的研究思路,但并沒(méi)有給出構(gòu)建結(jié)果;DinhDien,ThuyNgan,XuanQuang(2009)等人通過(guò)構(gòu)建英語(yǔ)-越南語(yǔ)平行句法樹(shù)進(jìn)行雙語(yǔ)機(jī)器翻譯,在這個(gè)過(guò)程中所構(gòu)建的越南語(yǔ)句法樹(shù)也存在許多問(wèn)題,例如英語(yǔ)與越南語(yǔ)不能一一對(duì)應(yīng),導(dǎo)致越南語(yǔ)句法樹(shù)準(zhǔn)確率非常低。針對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的缺乏以及構(gòu)建困難的問(wèn)題,本發(fā)明提供了一種新的基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法。該法能自動(dòng)分析出越南語(yǔ)的短語(yǔ)結(jié)構(gòu)樹(shù),解決了越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建問(wèn)題。本發(fā)明構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽取等上層應(yīng)用能提供有力支撐。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,以用于解決人工標(biāo)注越南語(yǔ)短語(yǔ)樹(shù)庫(kù)比較困難的問(wèn)題,構(gòu)建規(guī)模較大的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)不便的問(wèn)題,以及傳統(tǒng)構(gòu)建越南語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率低、耗時(shí)長(zhǎng)的問(wèn)題。本發(fā)明提出的構(gòu)建短語(yǔ)樹(shù)的方法相比采用上下文無(wú)關(guān)文法構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高。同時(shí)本發(fā)明構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽取等上層應(yīng)用能提供有力支撐。本發(fā)明的技術(shù)方案是:基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,所述基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法的具體步驟如下:Step1、首先對(duì)越南語(yǔ)短語(yǔ)樹(shù)標(biāo)注集進(jìn)行上層組塊和基層組塊標(biāo)注,將標(biāo)注得到的短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料;利用這種方法所獲取的訓(xùn)練語(yǔ)料的準(zhǔn)確率比較高,從而使的利用該訓(xùn)練語(yǔ)料獲取的特征集更加準(zhǔn)確;Step2、選取上層組塊和基層組塊的特征集,依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型,利用改進(jìn)后的CRF模型構(gòu)建上層組塊和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;采用改進(jìn)后的CRF模型所構(gòu)建出越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型,針對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建效果更好,質(zhì)量更高;Step3、利用組塊分析工具對(duì)分詞后的越南語(yǔ)句子進(jìn)行組塊分析,從而獲取組塊語(yǔ)料,對(duì)所獲取的語(yǔ)料進(jìn)行基層組塊和上層組塊分析,得到基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù);采用基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型進(jìn)行越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建相比采用上下文無(wú)關(guān)文法構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高;Step4、利用短語(yǔ)樹(shù)庫(kù)校正器對(duì)基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到校正后的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。對(duì)初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行進(jìn)一步的校正保證獲取的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的質(zhì)量,能夠?yàn)闄C(jī)器翻譯,信息抽取等上層應(yīng)用提供語(yǔ)料支撐。作為本發(fā)明的優(yōu)選方案,所述步驟Step1中,對(duì)人工標(biāo)注得到的越南語(yǔ)短語(yǔ)樹(shù)進(jìn)行上層組塊和基層組塊標(biāo)注的具體步驟如下:Step1.1、根據(jù)越南語(yǔ)的語(yǔ)言特征同時(shí)結(jié)合CTB,即中文賓州樹(shù)庫(kù)的標(biāo)注體系,制定越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集;Step1.2、結(jié)合上層組塊和基層組塊標(biāo)的定義完成對(duì)越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集的上層組塊和基層組塊標(biāo)注;Step1.3、將標(biāo)注得到的有上層組塊和基層組塊組成的越南語(yǔ)短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料。作為本發(fā)明的優(yōu)選方案,所述步驟Step2的具體步驟如下:Step2.1、依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型;Step2.2、選取設(shè)定上層組塊和基層組塊的特征集;Step2.3、利用選取設(shè)定上層組塊和基層組塊的特征集以及改進(jìn)后的CRF模型構(gòu)建上層組塊模型和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;作為本發(fā)明的優(yōu)選方案,所述步驟Step3的具體步驟如下:Step3.1、對(duì)分詞后的越南語(yǔ)句子進(jìn)行組塊分析,獲取越南語(yǔ)組塊語(yǔ)料;Step3.2、利用獲取的上層組塊模型和基層組塊模型對(duì)組塊語(yǔ)料進(jìn)行基層組塊和上層組塊分析,最終得到基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。本發(fā)明的有益效果是:1、本發(fā)明提出的構(gòu)建短語(yǔ)樹(shù)的方法相比采用上下文無(wú)關(guān)文法構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高。同時(shí)本發(fā)明構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)對(duì)越南語(yǔ)的句法分析、機(jī)器翻譯、信息抽取等上層應(yīng)用能提供有力支撐;2、構(gòu)建了規(guī)模相對(duì)較大的越南語(yǔ)短語(yǔ)樹(shù)語(yǔ)料庫(kù);3、本發(fā)明提出的構(gòu)建短語(yǔ)樹(shù)的方法省略了人工標(biāo)注越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的過(guò)程,大大的節(jié)省了人力和構(gòu)建樹(shù)庫(kù)的時(shí)間。附圖說(shuō)明圖1為本發(fā)明中的流程圖。具體實(shí)施方式實(shí)施例1:如圖1所示,基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,所述基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法的具體步驟如下:Step1、首先對(duì)越南語(yǔ)短語(yǔ)樹(shù)標(biāo)注集進(jìn)行上層組塊和基層組塊標(biāo)注,將標(biāo)注得到的短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料;利用這種方法所獲取的訓(xùn)練語(yǔ)料的準(zhǔn)確率比較高,從而使的利用該訓(xùn)練語(yǔ)料獲取的特征集更加準(zhǔn)確;Step2、選取上層組塊和基層組塊的特征集,依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型,利用改進(jìn)后的CRF模型構(gòu)建上層組塊和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;采用改進(jìn)后的CRF模型所構(gòu)建出越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型,針對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建效果更好,質(zhì)量更高;Step3、利用組塊分析工具對(duì)分詞后的越南語(yǔ)句子進(jìn)行組塊分析,從而獲取組塊語(yǔ)料,對(duì)所獲取的語(yǔ)料進(jìn)行基層組塊和上層組塊分析,得到基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù);采用基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型進(jìn)行越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建相比采用上下文無(wú)關(guān)文法構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高;Step4、利用短語(yǔ)樹(shù)庫(kù)校正器對(duì)基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到校正后的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。對(duì)初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行進(jìn)一步的校正保證獲取的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的質(zhì)量,能夠?yàn)闄C(jī)器翻譯,信息抽取等上層應(yīng)用提供語(yǔ)料支撐。實(shí)施例2:如圖1所示,基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,本實(shí)施例與實(shí)施例1相同,其中,作為本發(fā)明的優(yōu)選方案,所述步驟Step1中,對(duì)人工標(biāo)注得到的越南語(yǔ)短語(yǔ)樹(shù)進(jìn)行上層組塊和基層組塊標(biāo)注的具體步驟如下:Step1.1、根據(jù)越南語(yǔ)的語(yǔ)言特征同時(shí)結(jié)合CTB,即中文賓州樹(shù)庫(kù)的標(biāo)注體系,制定越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集;Step1.2、結(jié)合上層組塊和基層組塊標(biāo)的定義完成對(duì)越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集的上層組塊和基層組塊標(biāo)注;Step1.3、將標(biāo)注得到的有上層組塊和基層組塊組成的越南語(yǔ)短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料。實(shí)施例3:如圖1所示,基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,本實(shí)施例與實(shí)施例2相同,其中,作為本發(fā)明的優(yōu)選方案,所述步驟Step2的具體步驟如下:Step2.1、依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型;Step2.2、選取設(shè)定上層組塊和基層組塊的特征集;Step2.3、利用選取設(shè)定上層組塊和基層組塊的特征集以及改進(jìn)后的CRF模型構(gòu)建上層組塊模型和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;實(shí)施例4:如圖1所示,基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,本實(shí)施例與實(shí)施例3相同,其中,作為本發(fā)明的優(yōu)選方案,所述步驟Step3的具體步驟如下:Step3.1、對(duì)分詞后的越南語(yǔ)句子進(jìn)行組塊分析,獲取越南語(yǔ)組塊語(yǔ)料;Step3.2、利用獲取的上層組塊模型和基層組塊模型對(duì)組塊語(yǔ)料進(jìn)行基層組塊和上層組塊分析,最終得到基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。實(shí)施例5:如圖1所示,基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法,所述基于組塊的越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建方法的具體步驟如下:Step1、首先對(duì)越南語(yǔ)短語(yǔ)樹(shù)標(biāo)注集進(jìn)行上層組塊和基層組塊標(biāo)注,將標(biāo)注得到的短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料;利用這種方法所獲取的訓(xùn)練語(yǔ)料的準(zhǔn)確率比較高,從而使的利用該訓(xùn)練語(yǔ)料獲取的特征集更加準(zhǔn)確;Step2、選取上層組塊和基層組塊的特征集,依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型,利用改進(jìn)后的CRF模型構(gòu)建上層組塊和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;采用改進(jìn)后的CRF模型所構(gòu)建出越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型,針對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建效果更好,質(zhì)量更高;Step3、利用組塊分析工具對(duì)分詞后的2.7萬(wàn)句越南語(yǔ)句子進(jìn)行組塊分析,從而獲取組塊語(yǔ)料,對(duì)所獲取的語(yǔ)料進(jìn)行基層組塊和上層組塊分析,得到2.7萬(wàn)句基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù);采用基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型進(jìn)行越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的構(gòu)建相比采用上下文無(wú)關(guān)文法構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高;Step4、利用短語(yǔ)樹(shù)庫(kù)校正器對(duì)基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到校正后的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。對(duì)初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行進(jìn)一步的校正保證獲取的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)的質(zhì)量,能夠?yàn)闄C(jī)器翻譯,信息抽取等上層應(yīng)用提供語(yǔ)料支撐。其中,具體的,所述步驟Step1中首先對(duì)人工標(biāo)注的5000句越南語(yǔ)短語(yǔ)樹(shù)進(jìn)行上層組塊和基層組塊標(biāo)注,將標(biāo)注得到的短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料;構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)語(yǔ)料是進(jìn)行越南語(yǔ)短語(yǔ)樹(shù)構(gòu)建的基礎(chǔ)。只有建設(shè)出高質(zhì)量的語(yǔ)料,才能以之為基礎(chǔ)進(jìn)行信息化開(kāi)發(fā)工作。短語(yǔ)樹(shù)庫(kù)語(yǔ)料也是進(jìn)行基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建研究不可缺少的一個(gè)組成部分。構(gòu)建短語(yǔ)樹(shù)庫(kù)語(yǔ)料具體步驟如下:1)、根據(jù)越南語(yǔ)的語(yǔ)言特征同時(shí)結(jié)合CTB,即中文賓州樹(shù)庫(kù)的標(biāo)注體系,制定越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集;越南語(yǔ)屬于南亞語(yǔ)系,它是越南國(guó)家的母語(yǔ)。每一種語(yǔ)言都有自己的語(yǔ)序,越南語(yǔ)主要依靠成分的順序去傳達(dá)重要的語(yǔ)法信息。盡管越南語(yǔ)文本的書(shū)寫(xiě)來(lái)源于拉丁字母表的變種,越南語(yǔ)有三個(gè)明顯的特點(diǎn)區(qū)別去西方語(yǔ)言。對(duì)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建有極其重要影響的一些越南語(yǔ)特征如下:首先,越南語(yǔ)的最小組成單元是音節(jié)。單詞只能是由一個(gè)(美麗的)或者多個(gè)(gái女孩)音節(jié)構(gòu)成。像許多亞洲語(yǔ)言一樣(如漢語(yǔ)、日語(yǔ)和泰語(yǔ)),越南語(yǔ)沒(méi)有文字分隔符??臻g分隔只是一個(gè)一個(gè)音節(jié)的分隔符,沒(méi)有一個(gè)字的分隔符,所以越南語(yǔ)句子往往可以有很多種分割方法。然后,越南語(yǔ)是一種孤立語(yǔ),在這一語(yǔ)言中,單詞可以不改變形式而根據(jù)在句子中語(yǔ)序確定它的語(yǔ)法功能。也就是說(shuō),詞序排列是越南語(yǔ)語(yǔ)法中最重要的表義手段。詞序的改變會(huì)導(dǎo)致語(yǔ)義的改變。例如còn表示兒子,còn卻表示人類(lèi)。并且越語(yǔ)句子中的詞序大體上是一種具體性逐漸增強(qiáng)的詞序,即詞義越是概括性強(qiáng)的詞匯在句中的位置就越是靠前,相反,詞義越是具體的詞匯在句中的位置越是靠后。例如:Anhmua(他買(mǎi)了)táo(一個(gè)蘋(píng)果)。最后,越南語(yǔ)是一種相當(dāng)固定語(yǔ)序的語(yǔ)言,由固定的語(yǔ)序構(gòu)成主謂賓(SVO)。也就是說(shuō),他們一般的語(yǔ)序?yàn)椋褐髡Z(yǔ)+謂語(yǔ)+賓語(yǔ)。例如:Kia(那)là(是)(一些)(座)nhà(房子)vách(土墻)。通過(guò)分析越南語(yǔ)的語(yǔ)法特征,會(huì)發(fā)現(xiàn)越南語(yǔ)有著比較明顯的定語(yǔ)后置,狀語(yǔ)后置的特點(diǎn)。例如:(我常常吃飯)quán(在食堂)。針對(duì)越南語(yǔ)的上述特征以及CTB(中文賓州樹(shù)庫(kù))的標(biāo)注體系,制定越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集,部分越南語(yǔ)短語(yǔ)樹(shù)標(biāo)注集如表1所示。表1部分越南語(yǔ)短語(yǔ)樹(shù)標(biāo)注集短語(yǔ)類(lèi)型標(biāo)注短語(yǔ)類(lèi)型說(shuō)明NP名詞短語(yǔ)VP動(dòng)詞短語(yǔ)PP介詞短語(yǔ)AP形容詞短語(yǔ)2)、結(jié)合上層組塊和基層組塊標(biāo)的定義完成對(duì)5000句越南語(yǔ)短語(yǔ)樹(shù)的標(biāo)注集的上層組塊和基層組塊標(biāo)注;為了分別訓(xùn)練基層組塊分析模型和上層組塊分析模型,首先需要將一棵句法樹(shù)中的所有組塊分為兩個(gè)部分:基層組塊集和上層組塊集。為了使基層組塊和上層組塊有明確的定義,本文首先對(duì)句法樹(shù)中的每個(gè)節(jié)點(diǎn)的高度給出描述性定義:令句法樹(shù)中每個(gè)終結(jié)符節(jié)點(diǎn)(詞)的高度為零,其他的非終結(jié)符節(jié)點(diǎn)的高度是這個(gè)非終極符的孩子節(jié)點(diǎn)的高度的最大值加上一個(gè)固定的高度值1。其次,對(duì)PeenTreebank格式的句法的層次有如下描述性定義:本文認(rèn)為一棵完整的PeenTreebank格式的句法樹(shù)可以分為若干層次,句法樹(shù)的層數(shù)就是句法樹(shù)的根節(jié)點(diǎn)的高度,每個(gè)層次都由一組有序子樹(shù)集合構(gòu)成。令終結(jié)符節(jié)點(diǎn)構(gòu)成的子樹(shù)集合為第0層;第n層子樹(shù)集合由那些高度小于等于n的子樹(shù)所構(gòu)成的集合,如果該層子樹(shù)集合含有被大子樹(shù)包含的子樹(shù)則那么只取大子樹(shù),舍去被包含小子樹(shù)。根據(jù)本文所實(shí)現(xiàn)的句法分析樹(shù)模型的需要,將第2層有序子樹(shù)集合所對(duì)應(yīng)的組塊集稱(chēng)為基層組塊集合,而將第2層以上的所有的子樹(shù)集合所對(duì)應(yīng)的組塊集合稱(chēng)為上層組塊集合。依據(jù)以上定義的上層組塊和基層組塊標(biāo),由人工完成對(duì)5000句越南語(yǔ)短語(yǔ)樹(shù)的上層組塊和基層組塊標(biāo)注。3)、將標(biāo)注得到的有上層組塊和基層組塊組成的越南語(yǔ)短語(yǔ)樹(shù)作為訓(xùn)練語(yǔ)料;由人工完成對(duì)5000句越南語(yǔ)短語(yǔ)樹(shù)的上層組塊和基層組塊標(biāo)注的結(jié)果,將作為訓(xùn)練上層組塊和基層組塊模型的訓(xùn)練語(yǔ)料。其中,所述Step2中選取上層組塊和基層組塊的特征集,依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型,利用改進(jìn)后的CRF模型構(gòu)建上層組塊和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;基于前面構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)語(yǔ)料,這里使用改進(jìn)的CRF模型訓(xùn)練得到上層組塊和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型。1)、依據(jù)訓(xùn)練語(yǔ)料對(duì)CRF模型進(jìn)行調(diào)整,訓(xùn)練出改進(jìn)后的CRF模型;序列標(biāo)注任務(wù)是包括生物信息學(xué)(bioinformatics)、計(jì)算語(yǔ)言學(xué)(computationallinguistics)以及語(yǔ)音識(shí)別(speechrecognition)等領(lǐng)域中的一個(gè)重要的任務(wù)。在自然語(yǔ)言處理領(lǐng)域詞性標(biāo)注和組塊分析都是典型的序列標(biāo)注任務(wù),對(duì)以觀察到的序列進(jìn)行標(biāo)記。例如在組塊分析任務(wù)中,通過(guò)使用序列標(biāo)注模型來(lái)對(duì)輸入的句子進(jìn)行標(biāo)記將能夠組成一個(gè)新的組塊的子序列賦予相同的標(biāo)記。對(duì)于序列標(biāo)注任務(wù),人們最先想到的是隱馬爾科夫模型(HiddenMarkovModels)。隱馬爾科夫模型是一個(gè)生成模型,它是對(duì)觀察序列隨機(jī)變量X以及與之相對(duì)應(yīng)的標(biāo)記隨機(jī)變量Y進(jìn)行建模,并計(jì)算它們之間的聯(lián)合分布概率PBXY。但是聯(lián)合分布概率模型的有個(gè)很?chē)?yán)重的問(wèn)題是要枚舉所有的觀察序列,而這個(gè)任務(wù)在很多的領(lǐng)域中是不可解的。所以需要一個(gè)能夠?qū)?wèn)題化為可解問(wèn)題的模型,而條件概率模型就是這樣一種模型。條件概率模型計(jì)算觀察隨機(jī)變量X和對(duì)應(yīng)的標(biāo)記隨機(jī)變量Y的條件分布概率P而不是聯(lián)合P(XY),這樣就可以將復(fù)雜的問(wèn)題大大的簡(jiǎn)化。條件隨機(jī)場(chǎng)模型就是一種使用條件分布概率的概率框架,也是典型的判別模型。相比較其他的序列標(biāo)注模型,條件隨機(jī)場(chǎng)模型有很多的自身優(yōu)勢(shì)。首先對(duì)比隱馬爾科夫模型,條件隨機(jī)場(chǎng)模型的依存假設(shè)需求相對(duì)松弛;其次對(duì)比最大熵馬爾科夫模型CMaximumEntropyMarkovModels)和其他的基于有向圖的條件馬爾科夫模型,條件隨機(jī)場(chǎng)模型能夠避免標(biāo)記偏置問(wèn)題。因此在很多現(xiàn)實(shí)的任務(wù)中條件隨機(jī)場(chǎng)模型的性能表現(xiàn)都較好。Lafferty在他的文章中將給定的觀察序列二的對(duì)應(yīng)的標(biāo)記序列v的概率定義如公式1所示。exp(∑jλjtj(yj-1,yj,x,i)+∑kλktk(yi,x,i))(1)其中tj(yj-1,yj,x,i)是整個(gè)觀察序列和標(biāo)記序列在i和i-1位置的轉(zhuǎn)移特征函數(shù);而tk(yj,x,i)是標(biāo)記和觀察序列在位置的狀態(tài)特征函數(shù);否和#、是這兩個(gè)函數(shù)的參數(shù),需要從訓(xùn)練數(shù)據(jù)中估計(jì)。在定義特征函數(shù)時(shí)需要構(gòu)建一個(gè)觀察序列的實(shí)值函數(shù)。e(x,i)用這個(gè)實(shí)值函數(shù)來(lái)描述訓(xùn)練數(shù)據(jù)的一些分布特性。如下是在組塊分析中一個(gè)關(guān)于e(x,i)|的具體例子公式2。為了表達(dá)的簡(jiǎn)化本文將用如下標(biāo)記進(jìn)行描述如公式3所示。S(yj,x,i)=S(yj-1,yj,x,i)(3)并且有對(duì)于給定的觀察序列x和標(biāo)記序列夕的條件隨機(jī)場(chǎng)模型的全局特征函數(shù)定義為公式4。F(y,x)=Σi=1nfj(yj-1,yj,x,i)---(4)]]>在上面的式子中函數(shù)fj(yj-1,yj,x,i)既可以是狀態(tài)特征函數(shù)S(yj-1,yj,x,i)也可以是轉(zhuǎn)移特征函數(shù)tj(yj-1,yj,x,i)。這樣對(duì)于給定的觀察序列x,它的標(biāo)記序列y的概率分布就可以寫(xiě)成公式5形式。p(y|x,λ)=1z(x)exp(ΣjλjFj(y,x))---(5)]]>其中Z(x)是歸一化因子。2)、選取設(shè)定上層組塊和基層組塊的特征集;基于組塊的完全句法分析的相關(guān)概念以及基于組塊的句法分析的分析過(guò)程。通過(guò)上面的介紹可知,該句法分析系統(tǒng)是基于組塊分析的,因此組塊分析的性能能夠直接制約整體句法分析的性能。如果組塊分析模塊能夠完全準(zhǔn)確的分析出那些詞組可以構(gòu)成新的組塊,那么通過(guò)正確的組塊組裝成的句法樹(shù)也是正確的。而本文使用的組塊分析模型是基于序列標(biāo)注模型的,也就是條件隨機(jī)場(chǎng)模型(CRFs)。因此,組塊分析模型的性能很大程度上取決于該組塊分析模型的特征的選取,一組較好的特征能夠使模型具有很強(qiáng)的判別能力,提高分析的準(zhǔn)確性。本節(jié)將介紹本文的基于組塊分析的句法分析模型的Baseline系統(tǒng)所使用的一些特征,而這些特征根據(jù)應(yīng)用的需要主要分為兩大類(lèi):用于基層組塊分析的特征和用于上層組塊分析的特征?;鶎咏M塊分析相當(dāng)于使用條件隨機(jī)場(chǎng)模型(CRFs)來(lái)進(jìn)行淺層句法分析,因此在這一層總所用到的特征和淺層句法分析所使用的特征類(lèi)似。表2給出了Baseline系統(tǒng)中基層組塊分析模塊所使用的一些特征模板,這些特征模板主要來(lái)自于ShaandPereira和YoshimasaTsuruokat等人的工作。從表2中可以看出,基層組塊分析只使用到了詞性和詞的相關(guān)特征。這是因?yàn)榛鶎咏M塊分析是對(duì)輸入的數(shù)據(jù)的第一層分析,而輸入的測(cè)試句子只是帶有詞性標(biāo)記的詞序列,因此只能夠使用這兩種特征。表2基準(zhǔn)系統(tǒng)基層組塊分析所使用的特征特征類(lèi)別特征表示特征描述POSUnigramPi·i∈{-2,-1,0,1,2}單元詞性特征POSBigramPiPi+1·i∈{-2,-1,0,1}相鄰的二元詞性特征POSTrigramPi-1PiPi+1·i∈{-2,-1,0,1,2}相鄰的三元詞性特征WordUnigramwi·i∈{-2,-1,0,1,2}單元詞組特征WordBigramwiwi+1·i∈{-2,-1,0,1}相鄰的二元詞組特征WordTrigramwi-1wiwi+1·i∈{0}相鄰的三元詞組特征在本文介紹的基于組塊的句法分析過(guò)程中,基層之上的層次組塊分析都可以稱(chēng)為上層分析?;鶎咏M塊分析是基于詞和詞性的組塊分析,而上層的組塊分析時(shí)基于組塊的分析,而且在本文介紹的句法分析的系統(tǒng)里每一個(gè)組塊都對(duì)應(yīng)這一棵子樹(shù),因此上層分析可以使用一些基于句法結(jié)構(gòu)的特征。例如,可以使用非終極符句法標(biāo)記特征,子樹(shù)的中心詞以及中心詞的詞性,子樹(shù)的邊界節(jié)點(diǎn)信息等。表3列出了基準(zhǔn)系統(tǒng)中上層組塊分析所使用的特征模板,而其中的部分特征模板來(lái)自于YoshimasaTsuruoka等人的工作。由表3可知,基準(zhǔn)系統(tǒng)總共使用類(lèi)三大類(lèi)特征:非終結(jié)符標(biāo)記特征、中心詞特征和中心詞詞性特征,通過(guò)使用這三種特征就可以是本文介紹的基于組塊的句法分析系統(tǒng)達(dá)到較高的性能。但是,僅僅這些特征顯然沒(méi)有充分利用下層組塊(每個(gè)組塊對(duì)應(yīng)于一棵句法子樹(shù))所提供的信息,這也是本文的基準(zhǔn)系統(tǒng)受限的原因。為此,本文將在后面的章節(jié)中介紹更多的改進(jìn)基準(zhǔn)系統(tǒng)性能的特征以及相應(yīng)的方法。表3為基準(zhǔn)系統(tǒng)上層組塊分析使用的特征模板3)、利用選取設(shè)定上層組塊和基層組塊的特征集以及改進(jìn)后的CRF模型構(gòu)建上層組塊模型和基層組塊模型,將上層組塊和基層組塊模型組合后轉(zhuǎn)換成基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建模型;在進(jìn)行組塊分析時(shí)可以將組塊分析問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,將詳細(xì)介紹如何將完全句法分析問(wèn)題轉(zhuǎn)換為組塊分析問(wèn)題。YoshimasaTsuruoka等人在他們的論文中提到采用兩個(gè)階段的方法來(lái)進(jìn)行句法分析。他們將第一階段分析稱(chēng)為基層組塊分析(base-levelchunking)和上層組塊分析(up-levelchunking)。采用兩個(gè)階段的分析方法的原因是基層組塊分析和上層組塊分析所使用的特征不同?;鶎咏M塊分析的輸入一個(gè)當(dāng)個(gè)句子,句子中只包含詞和對(duì)應(yīng)詞性,所以基層組塊分析所能使用的特征只有詞和詞性。而基層組塊分析的輸出是組塊序列,又由于每個(gè)組塊都可以表示成一棵子樹(shù),所以這些組塊序列可以表示子樹(shù)序列。基層組塊分析的結(jié)果(子樹(shù)序列)傳遞給上層組塊分析,因此上層組塊分析可以使用更加豐富的特征。除了基本的詞和詞性特征之外,上層組塊分析還可以使用子樹(shù)的句法信息。為了更好的使用條件隨機(jī)場(chǎng)模型和利用更多的特征,本文將基于組塊分析的完全句法分析模型分為兩個(gè)部分:基層組塊分析模型和上層組塊分析模型。在訓(xùn)練基于組塊的句法分析模型時(shí)也需要分別訓(xùn)練兩個(gè)模型。具體的做法是:使用訓(xùn)練樹(shù)庫(kù)中的基層組塊來(lái)訓(xùn)練基層組塊模型;使用訓(xùn)練樹(shù)庫(kù)中的上層組塊來(lái)訓(xùn)練上層組塊模型。為了分別訓(xùn)練基層組塊分析模型和上層組塊分析模型,首先需要將一棵句法樹(shù)中的所有組塊分為兩個(gè)部分:基層組塊集和上層組塊集。為了使基層組塊和上層組塊有明確的定義,首先對(duì)句法樹(shù)中的每個(gè)節(jié)點(diǎn)的高度給出描述性定義:令句法樹(shù)中每個(gè)終結(jié)符節(jié)點(diǎn)(詞)的高度為零,其他的非終結(jié)符節(jié)點(diǎn)的高度是這個(gè)非終極符的孩子節(jié)點(diǎn)的高度的最大值加上一個(gè)固定的高度值1。其次,對(duì)PeenTreebank格式的句法的層次有如下描述性定義:本文認(rèn)為一棵完整的PeenTreebank格式的句法樹(shù)可以分為若干層次,句法樹(shù)的層數(shù)就是句法樹(shù)的根節(jié)點(diǎn)的高度,每個(gè)層次都由一組有序子樹(shù)集合構(gòu)成。令終結(jié)符節(jié)點(diǎn)構(gòu)成的子樹(shù)集合為第0層;第n層子樹(shù)集合由那些高度小于等于n的子樹(shù)所構(gòu)成的集合,如果該層子樹(shù)集合含有被大子樹(shù)包含的子樹(shù)則那么只取大子樹(shù),舍去被包含小子樹(shù)。根據(jù)本文所實(shí)現(xiàn)的句法分析樹(shù)模型的需要,將第2層有序子樹(shù)集合所對(duì)應(yīng)的組塊集稱(chēng)為基層組塊集合,而將第2層以上的所有的子樹(shù)集合所對(duì)應(yīng)的組塊集合稱(chēng)為上層組塊集合。其中,所述步驟Step3中利用組塊分析工具對(duì)分詞后的2.7萬(wàn)句越南語(yǔ)句子進(jìn)行組塊分析,從而獲取組塊語(yǔ)料,對(duì)所獲取的語(yǔ)料進(jìn)行基層組塊和上層組塊分析,得到2.7萬(wàn)句基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù);1)、對(duì)分詞后的2.7萬(wàn)句越南語(yǔ)句子進(jìn)行組塊分析,獲取2.7萬(wàn)句越南語(yǔ)組塊語(yǔ)料;首先利用分詞工具對(duì)獲取的2.7萬(wàn)句越南語(yǔ)句子進(jìn)行分詞,然后利用組塊分析工具對(duì)2.7萬(wàn)句分詞后的句子進(jìn)行組塊分析。2)、利用獲取的上層組塊模型和基層組塊模型對(duì)組塊語(yǔ)料進(jìn)行基層組塊和上層組塊分析,最終得到2.7萬(wàn)句基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。利用Step2.3中獲取的上層組塊模型和基層組塊模型對(duì)組塊語(yǔ)料進(jìn)行基層組塊和上層組塊分析,最終得到2.7萬(wàn)句越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。其中,所述步驟Step4中利用短語(yǔ)樹(shù)庫(kù)校正器對(duì)基于組塊構(gòu)建的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到校正后的終級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。由于Step3中得到的初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)在質(zhì)量上存在一些問(wèn)題,主要是由于所得到的到Step2中得到的越南語(yǔ)組塊語(yǔ)料的準(zhǔn)確率不夠高所造成的,針對(duì)這一問(wèn)題,利用短語(yǔ)樹(shù)校正器對(duì)初級(jí)越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到質(zhì)量較高的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。本發(fā)明首先將人工標(biāo)注的5000句越南語(yǔ)短語(yǔ)樹(shù)進(jìn)行子樹(shù)層、基層組塊集合和上層組塊集合標(biāo)注作為訓(xùn)練樹(shù)庫(kù);然后選取上層組塊和基層組塊的特征集,利用CRF構(gòu)建上層組塊和基層組塊模型,將組塊分析的結(jié)果轉(zhuǎn)換成越南語(yǔ)短樹(shù);接著,利用組塊分析工具對(duì)分詞后2.7萬(wàn)句越南語(yǔ)句子進(jìn)行組塊分析,從而獲取組塊語(yǔ)料,對(duì)所獲取的語(yǔ)料完成基層組塊和上層組塊分析,得到2.7萬(wàn)句越南語(yǔ)短語(yǔ)樹(shù)庫(kù);再利用短語(yǔ)樹(shù)庫(kù)校正器對(duì)新生成的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)進(jìn)行校正,最后得到最終的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)。實(shí)驗(yàn)結(jié)果如表4所示。表4中可以看出,采用基于組塊的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)構(gòu)建方法所生成的越南語(yǔ)短語(yǔ)樹(shù)庫(kù),準(zhǔn)確率相比采用PCFG構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)和最大熵構(gòu)建越南語(yǔ)短語(yǔ)樹(shù)庫(kù)方法準(zhǔn)確率明顯提高;其中,采用PARSEVAL句法分析評(píng)價(jià)體系,它是一種國(guó)際上通用的評(píng)測(cè)標(biāo)準(zhǔn)。主要由準(zhǔn)確率(LP)、召回率(LR)和F值三個(gè)指標(biāo),F(xiàn)值綜合考慮了準(zhǔn)確率和召回率。其定義如下:表4其他方法和本發(fā)明方法的比較方法LR%LP%F值%PCFG構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)81.3680.6481.00最大熵構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)79.8378.6979.26新的基于組塊構(gòu)建的越南語(yǔ)短語(yǔ)樹(shù)庫(kù)86.3283.4585.66上面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作了詳細(xì)說(shuō)明,但是本發(fā)明并不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1