一種面向機(jī)器翻譯的日語(yǔ)動(dòng)詞識(shí)別方法
【專利摘要】本發(fā)明公開了一種面向機(jī)器翻譯的日語(yǔ)動(dòng)詞識(shí)別方法,屬于自然語(yǔ)言處理領(lǐng)域。本發(fā)明通過(guò)分析日語(yǔ)動(dòng)詞的活用形規(guī)律,實(shí)現(xiàn)了一種基于規(guī)則和詞典相結(jié)合的日語(yǔ)動(dòng)詞識(shí)別方法,可將文本中的動(dòng)詞完整地識(shí)別出來(lái),并通過(guò)形態(tài)還原操作得到其基本型。本發(fā)明的日語(yǔ)動(dòng)詞識(shí)別方法利用一般的通用詞典即可,具有較強(qiáng)的適用性和魯棒性。該方法有效地提高了機(jī)器翻譯中詞法分析的準(zhǔn)確性和雙語(yǔ)詞對(duì)齊效果,整體上提高了機(jī)器翻譯的譯文質(zhì)量。
【專利說(shuō)明】一種面向機(jī)器翻譯的日語(yǔ)動(dòng)詞識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,涉及一種日語(yǔ)動(dòng)詞的自動(dòng)識(shí)別方法,具體涉及一種基于規(guī)則和詞典相結(jié)合的面向機(jī)器翻譯的日語(yǔ)動(dòng)詞識(shí)別方法。
【背景技術(shù)】
[0002]隨著中日之間科技和文化交流的日益頻繁,突破語(yǔ)言間的理解和轉(zhuǎn)換障礙成為關(guān)鍵要素之一,及時(shí)準(zhǔn)確地將日文信息翻譯轉(zhuǎn)換成可讀可理解的漢語(yǔ)信息,不僅具有理論上的價(jià)值,更具有現(xiàn)實(shí)上的必要性和緊迫性?,F(xiàn)有的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中,在對(duì)平行語(yǔ)料進(jìn)行機(jī)器訓(xùn)練之前需要進(jìn)行分詞預(yù)處理操作,其質(zhì)量好壞將直接影響翻譯質(zhì)量。由于日語(yǔ)動(dòng)詞存在大量活用形及詞典收錄不全等因素,基于詞典的日語(yǔ)動(dòng)詞切分一直很難達(dá)到理想的效果。如何對(duì)動(dòng)詞進(jìn)行正確的切分和識(shí)別,提高詞對(duì)齊的效果,進(jìn)而提升整體機(jī)器翻譯質(zhì)量,是目前亟待解決的問(wèn)題之一。
[0003]日本的工藤拓在2006年開發(fā)了開源MeCab形態(tài)素解析工具,該形態(tài)素解析工具以詞典為基準(zhǔn),可將詞典收錄的日語(yǔ)動(dòng)詞(基本形詞條)正確地識(shí)別出,但是,在解析詞典未收錄的日語(yǔ)動(dòng)詞活用形詞條時(shí)會(huì)將其切分為兩個(gè)甚至多個(gè)詞,然后對(duì)各個(gè)詞進(jìn)行詞性標(biāo)注。這種識(shí)別方法,未能將一個(gè)完整的動(dòng)詞切分出,如用于統(tǒng)計(jì)機(jī)器翻譯中的分詞預(yù)處理操作,會(huì)降低雙語(yǔ)詞對(duì)齊效果,不利于翻譯模型概率的計(jì)算,影響翻譯質(zhì)量。
[0004]國(guó)內(nèi)的金春實(shí)在中文核心期刊《微計(jì)算機(jī)信息》2006年第22卷第1_3期中的《基于詞素的日文分詞方法及其在O C R系統(tǒng)中的應(yīng)用》一文中提出了一種基于詞素的日文分詞方法,其主要思想是根據(jù)日語(yǔ)動(dòng)詞特點(diǎn)和活用規(guī)律將動(dòng)詞拆分為詞素和詞尾兩部分,分別存儲(chǔ)在兩部不同的詞典內(nèi),再對(duì)日語(yǔ)動(dòng)詞進(jìn)行識(shí)別。該方法的初衷是用于OCR識(shí)別,目的是提高OCR正確識(shí)別率,識(shí)別后不需要對(duì)其進(jìn)行翻譯或是其它處理,其不足之處在于也是未能將一個(gè)變形的詞完整地切分出來(lái),此外還需要分別對(duì)兩部詞典進(jìn)行處理,提取詞素信息既耗時(shí)又耗力。
【發(fā)明內(nèi)容】
[0005]本方法主要根據(jù)日語(yǔ)句子中動(dòng)詞的出現(xiàn)位置和動(dòng)詞的結(jié)尾標(biāo)志來(lái)查找候選動(dòng)詞,在找到候選動(dòng)詞之后對(duì)其進(jìn)行還原,還原后再通過(guò)查詞典的形式驗(yàn)證其正確與否。如果還原后的新詞條信息在詞典內(nèi)查到有其對(duì)應(yīng)的詞條,則說(shuō)明還原成功,進(jìn)而會(huì)對(duì)該詞進(jìn)行詞性標(biāo)注;如果按還原規(guī)則還原后的新的詞條信息未在詞典內(nèi)找到相同的詞條,則對(duì)候選動(dòng)詞進(jìn)行再次切分和還原處理,處理后,如果其仍未在詞典內(nèi)查到其對(duì)應(yīng)的詞條,則詞條保持原樣,不做處理。
[0006]日語(yǔ)動(dòng)詞特征:
日語(yǔ)動(dòng)詞主要出現(xiàn)在助詞、組合助詞以及連詞之后,
日語(yǔ)動(dòng)詞結(jié)尾標(biāo)志字符有限,
日語(yǔ)動(dòng)詞活用形存在一定的規(guī)律,基于前述日語(yǔ)動(dòng)詞的特點(diǎn),本發(fā)明提出了一種基于規(guī)則和詞典相結(jié)合的日語(yǔ)動(dòng)詞識(shí)別方法。該方法包括以下步驟:
步驟A,檢索并標(biāo)注包含左鄰接標(biāo)志(字符或字符串)和結(jié)尾標(biāo)志(字符)的特殊詞匯,不參與后續(xù)的動(dòng)詞識(shí)別。
[0007]所述特殊詞匯包括特殊動(dòng)詞和特殊非動(dòng)詞兩類詞,所述特殊動(dòng)詞是指包含該特殊日語(yǔ)動(dòng)詞的字符包含進(jìn)行查找時(shí)的左鄰接標(biāo)志(字符或字符串)的詞;所述特殊非動(dòng)詞是指包含動(dòng)詞結(jié)尾標(biāo)志字符的非動(dòng)詞。
[0008]步驟B,在檢索出特殊詞匯之后,開始查找候選動(dòng)詞。
[0009]步驟C,對(duì)查找到的候選動(dòng)詞進(jìn)行還原,并通過(guò)查詞典的方式驗(yàn)證其是否正確。
[0010]步驟D,針對(duì)還原成功且在詞典內(nèi)查到相應(yīng)詞條的候選動(dòng)詞,對(duì)其進(jìn)行詞性標(biāo)注。
[0011]其中,所述步驟B中進(jìn)一步包括以下步驟:
步驟BI,檢索出候選動(dòng)詞查找的左鄰接標(biāo)志(字符或字符串)。
[0012]所述候選動(dòng)詞查找左鄰接標(biāo)志(字符或字符串)包括:助詞、組合助詞、連詞。
[0013]所述動(dòng)詞查找結(jié)尾標(biāo)志(字符)包括:五段動(dòng)詞結(jié)尾標(biāo)志、一段動(dòng)詞結(jié)尾標(biāo)志、動(dòng)詞活用形結(jié)尾標(biāo)志。
[0014]步驟B2,在左鄰接標(biāo)志(字符或字符串)后的相應(yīng)范圍內(nèi)查找候選動(dòng)詞結(jié)尾標(biāo)志(字符)。
·[0015]步驟B3,將左鄰接標(biāo)志(字符或字符串)的下一個(gè)字符至候選動(dòng)詞結(jié)尾標(biāo)志(字符)的部分切分出來(lái)作為待還原候選動(dòng)詞。
[0016]綜上,我們假設(shè)StT= W1W2-Wi…Wn為輸入的文本字符串,;為
動(dòng)詞左鄰接標(biāo)志(字符或字符串)組成的集合,ffD為結(jié)尾標(biāo)志字符組成的集合。則對(duì)于任意一個(gè)輸入文本,其字符串中包含動(dòng)詞的可能情況均為如下形式:
【權(quán)利要求】
1.一種面向機(jī)器翻譯的日語(yǔ)動(dòng)詞識(shí)別方法,其特征在于,包括以下步驟: 步驟A,檢索并標(biāo)注包含候選動(dòng)詞查找時(shí)的左鄰接標(biāo)志和結(jié)尾標(biāo)志的特殊詞匯,不參與后續(xù)的動(dòng)詞識(shí)別,其中,左鄰接標(biāo)志為子符或子符串,結(jié)尾標(biāo)志為子符; 步驟B,檢索左鄰接標(biāo)志和候選動(dòng)詞結(jié)尾標(biāo)志,查找候選動(dòng)詞; 步驟C,對(duì)查找到的候選動(dòng)詞進(jìn)行還原,并通過(guò)查詞典的方式驗(yàn)證其是否正確; 步驟D,針對(duì)還原后且能夠在詞典內(nèi)查到對(duì)應(yīng)詞條的候選動(dòng)詞,對(duì)其進(jìn)行詞性標(biāo)注; 其中,所述步驟B中進(jìn)一步包括以下步驟: 步驟BI,檢索出候選動(dòng)詞的左鄰接標(biāo)志; 步驟B2,在左鄰接標(biāo)志后的指定范圍內(nèi)查找候選動(dòng)詞的結(jié)尾標(biāo)志字符; 步驟B3,將左鄰接標(biāo)志的下一個(gè)字符至候選動(dòng)詞結(jié)尾標(biāo)志字符的部分切分出來(lái)作為待還原候選動(dòng)詞; 所述步驟C進(jìn)一步包含以下步驟: Cl,針對(duì)查找到的候選動(dòng)詞采用字符串前向最大匹配算法,檢索出待還原候選動(dòng)詞的后綴; C2,對(duì)檢索出的候選動(dòng)詞的后綴,按其對(duì)應(yīng)的還原規(guī)則進(jìn)行還原處理; C3,將還原后的詞條信息與詞典中的對(duì)應(yīng)詞條信息進(jìn)行比對(duì),驗(yàn)證識(shí)別的正確與否;C4,若還原后的詞條信息未在詞典內(nèi)查找到對(duì)應(yīng)的詞條信息時(shí),對(duì)候選動(dòng)詞進(jìn)行再次切分和還原處理,此時(shí),若能夠還原成功且在詞典內(nèi)查到還原后的詞條,說(shuō)明還原成功,否則不再對(duì)其進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟A中的所述特殊詞匯包括特殊動(dòng)詞和特殊非動(dòng)詞。
3.根據(jù)權(quán)利要求2所述的方法,所述特殊動(dòng)詞是指日語(yǔ)動(dòng)詞中包含進(jìn)行查找時(shí)的左鄰接標(biāo)志的動(dòng)詞;所述特殊非動(dòng)詞是指包含動(dòng)詞結(jié)尾標(biāo)志字符的非動(dòng)詞。
4.根據(jù)權(quán)利要求1所述的方法,所述步驟BI中的左鄰接標(biāo)志為日語(yǔ)句子中預(yù)示動(dòng)詞即將出現(xiàn)的助詞、助詞組合或者連詞。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟B2中的結(jié)尾標(biāo)志字符為日語(yǔ)動(dòng)詞的基本形和所有活用形詞條的最后一個(gè)字符。
6.根據(jù)權(quán)利要求1所述的方法,所述步驟B2中的指定范圍為根據(jù)日文動(dòng)詞的活用形規(guī)律,總結(jié)出的各種結(jié)尾標(biāo)志最可能出現(xiàn)的范圍。
7.根據(jù)權(quán)利要求1所述的方法,所述步驟Cl中的待還原候選動(dòng)詞的后綴為日語(yǔ)動(dòng)詞的活用形部分。
8.根據(jù)權(quán)利要求1所述的方法,所述步驟C4中的所述二次切分和二次還原處理是:根據(jù)日語(yǔ)動(dòng)詞連用規(guī)律以及日語(yǔ)動(dòng)詞連用標(biāo)志字符對(duì)其進(jìn)行二次切分,將其切分為單個(gè)的詞,然后再通過(guò)還原規(guī)則對(duì)其進(jìn)行還原。
9.根據(jù)權(quán)利要求1所述的方法,若還原后的候選動(dòng)詞在詞典內(nèi)查到對(duì)應(yīng)的詞條,則對(duì)其進(jìn)行詞性標(biāo)注。
10.根據(jù)權(quán)利要求9所述的方法,副詞、形容詞、名詞、動(dòng)詞、代詞、連詞的詞性標(biāo)注符號(hào)分另1J為 adv、adj 、η、V、pron、col。
【文檔編號(hào)】G06F17/28GK103714053SQ201310569693
【公開日】2014年4月9日 申請(qǐng)日期:2013年11月13日 優(yōu)先權(quán)日:2013年11月13日
【發(fā)明者】張孝飛, 胡月卿, 馬偉, 金善花, 孟翔, 李彥剛, 王強(qiáng) 申請(qǐng)人:北京中獻(xiàn)電子技術(shù)開發(fā)中心