語(yǔ)言實(shí)體關(guān)系分析方法和一種機(jī)器翻譯裝置和方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種語(yǔ)言實(shí)體關(guān)系分析方法,涉及自然語(yǔ)言處理領(lǐng)域,該方法對(duì)輸入的語(yǔ)串進(jìn)行全解一體化計(jì)算,選出最優(yōu)語(yǔ)義樹(shù)。本發(fā)明還提供了一種基于此語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯裝置和方法,該翻譯裝置包括語(yǔ)義知識(shí)庫(kù)模塊、語(yǔ)言實(shí)體關(guān)系分析器、目標(biāo)語(yǔ)言生成器。本發(fā)明提供一種全新的語(yǔ)言處理模型,在程序中,把握自然語(yǔ)言的全部邏輯,充分利用“組合爆炸”,建立完善的語(yǔ)言邏輯框架,基本上解決了語(yǔ)言的“組合爆炸”這個(gè)核心問(wèn)題,能顯著提高準(zhǔn)確度和翻譯速度。本系統(tǒng)沒(méi)有規(guī)則體系的大量產(chǎn)生式規(guī)則,也沒(méi)有統(tǒng)計(jì)體系的海量對(duì)齊語(yǔ)料和相應(yīng)深加工資源,在工程上有明顯優(yōu)勢(shì)。本發(fā)明還可為自然語(yǔ)言各種應(yīng)用提供一個(gè)可靠基礎(chǔ)。
【專(zhuān)利說(shuō)明】語(yǔ)言實(shí)體關(guān)系分析方法和一種機(jī)器翻譯裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,更具體涉及語(yǔ)言實(shí)體關(guān)系分析方法和一種機(jī)器翻譯裝置和方法,用于自然語(yǔ)言處理以及機(jī)器翻譯系統(tǒng)。
【背景技術(shù)】
[0002]對(duì)諸如互聯(lián)網(wǎng)數(shù)據(jù)的開(kāi)放數(shù)據(jù)源進(jìn)行高質(zhì)量的處理,以及人們對(duì)不同語(yǔ)言文明的迫切的了解需求,使得自然語(yǔ)言處理以及機(jī)器翻譯幾十年來(lái)一直處于語(yǔ)言智能研究的核心。
[0003]目前,規(guī)則體系和統(tǒng)計(jì)體系是自然語(yǔ)言處理和機(jī)器翻譯的主流技術(shù)方案。
[0004]規(guī)則體系中的規(guī)則有I萬(wàn)-10萬(wàn)多條;模板性規(guī)則幾萬(wàn)或者幾十萬(wàn)條。解析執(zhí)行體系的步驟相對(duì)簡(jiǎn)單。采用1-best, 7-best, 30-best等折中方案;無(wú)法得到全部解;規(guī)則調(diào)度中出現(xiàn)“現(xiàn)場(chǎng)過(guò)早收斂”,后續(xù)規(guī)則不響應(yīng);很難書(shū)寫(xiě)和維護(hù)具有復(fù)雜上下文的規(guī)則;系統(tǒng)在分詞階段、句法分析等階段都存在誤差,累積誤差比較嚴(yán)重;在后期,添加新的規(guī)則變得異常困難。語(yǔ)言整體覆蓋率不高,但某些領(lǐng)域中可以暫時(shí)實(shí)用;規(guī)則體系試圖通過(guò)海量的規(guī)則以及模板來(lái)解決"組合爆炸"問(wèn)題,但工程難度大,以及系統(tǒng)架構(gòu)自身的問(wèn)題,很難有較高性能的表現(xiàn)。
[0005]統(tǒng)計(jì)體系中,語(yǔ)料對(duì)齊本質(zhì)上可以抽象為規(guī)則調(diào)度。如果統(tǒng)一歸納后,實(shí)際中人工調(diào)整的規(guī)則調(diào)度總數(shù)量是比較少的;對(duì)復(fù)雜語(yǔ)料,比如專(zhuān)利語(yǔ)料,無(wú)法提供有效解決方案;容易陷入詞匯相關(guān)的問(wèn)題,語(yǔ)料橫向擴(kuò)展嚴(yán)重,語(yǔ)料有效性降低。一些基于類(lèi)似短語(yǔ)片段以及短語(yǔ)碎片的對(duì)齊,完全打亂了句子的結(jié)構(gòu);語(yǔ)料數(shù)目上升到一定層次后,因?yàn)樗旧淼恼{(diào)度邏輯有限,系統(tǒng)性能就會(huì)長(zhǎng)期處于一定水平的徘徊狀態(tài)。語(yǔ)料數(shù)目超過(guò)千萬(wàn)后,語(yǔ)料自身的誤差已經(jīng)開(kāi)始影響系統(tǒng)的后續(xù)發(fā)展。統(tǒng)計(jì)體系試圖通過(guò)統(tǒng)計(jì)海量對(duì)齊語(yǔ)料來(lái)覆蓋"組合爆炸"的語(yǔ)言現(xiàn)象,需要的語(yǔ)料極其龐大;然而,人工語(yǔ)料對(duì)齊的邏輯調(diào)度能力有限,使得對(duì)語(yǔ)言邏輯的覆蓋率不高,所以,目前性能較低。
[0006]早期語(yǔ)義體系,雖然體會(huì)到規(guī)則體系和統(tǒng)計(jì)體系的較明顯的問(wèn)題,但早期設(shè)計(jì)的語(yǔ)義層次其實(shí)也并沒(méi)抓住〃組合爆炸〃這個(gè)核心問(wèn)題;一般而言,這類(lèi)體系,一般都采取一個(gè)“選擇主動(dòng)詞”階段,而這個(gè)階段的誤差也是影響很大的;其中,有些此類(lèi)方案將“產(chǎn)生式規(guī)則”模擬性地寫(xiě)在程序模塊中,也并沒(méi)在整體上如何規(guī)劃解決“組合爆炸”問(wèn)題;另外,這個(gè)體系,往往設(shè)計(jì)非常復(fù)雜的知識(shí)體系,對(duì)知識(shí)的客觀(guān)性和可計(jì)算性缺乏整體性的考慮,從而容易受到知識(shí)庫(kù)復(fù)雜性的困擾。
[0007]在上面這些系統(tǒng)中,也都有自己的語(yǔ)言邏輯架構(gòu),而這些語(yǔ)言邏輯架構(gòu)是通過(guò)海量規(guī)則或者海量語(yǔ)料被動(dòng)體現(xiàn)出來(lái)的,并非主動(dòng)去建立,最終得到的效果都是整體語(yǔ)言邏輯框架的一個(gè)子集。同時(shí)因?yàn)橛?jì)算的復(fù)雜性,無(wú)法獲得全解,所以都沒(méi)有解決語(yǔ)言的核心問(wèn)題,即“組合爆炸”問(wèn)題。
【發(fā)明內(nèi)容】
[0008]由于規(guī)則體系、統(tǒng)計(jì)體系或者早期語(yǔ)義體系,都沒(méi)有重點(diǎn)解決語(yǔ)言的核心問(wèn)題,gp“組合爆炸”問(wèn)題,反而長(zhǎng)期深深受“組合爆炸”的困擾,使得語(yǔ)言處理效果一直無(wú)法提高。本發(fā)明提出的語(yǔ)言實(shí)體關(guān)系分析方法,在程序中,把握全部的“語(yǔ)言邏輯點(diǎn)”,充分利用“組合爆炸”,建立起完善的“語(yǔ)言邏輯框架”,也建立了完備的權(quán)值體系,基本上解決了語(yǔ)言的核心問(wèn)題。
[0009]一種語(yǔ)言實(shí)體關(guān)系分析方法,其特征在于包括以下步驟:
(1):對(duì)輸入的語(yǔ)句進(jìn)行篇章、段落、大句分割,進(jìn)行步驟(2);然后,在段落、大句范圍內(nèi),進(jìn)行缺省指代等知識(shí)計(jì)算;
(2):對(duì)大句分割成小句,進(jìn)行步驟(3);
(3):小句中的內(nèi)嵌處理調(diào)用步驟(2);內(nèi)嵌處理完,進(jìn)行步驟(4);
內(nèi)嵌說(shuō)明,如語(yǔ)句:“我知道這個(gè)方法(采用A方案解決問(wèn)題);”語(yǔ)串“(采用A方案解決問(wèn)題)”就是小句中的內(nèi)嵌,內(nèi)嵌可以包含多個(gè)大句或者小句;
(4):對(duì)小句進(jìn)行分詞,如果有歧義,那么形成有限數(shù)目的子句,并對(duì)每個(gè)子句計(jì)算分詞歧義權(quán)值,對(duì)每個(gè)子句進(jìn)行預(yù)處理(數(shù)字,數(shù)量短語(yǔ),特殊組合短語(yǔ),時(shí)間短語(yǔ),超長(zhǎng)子句處理),對(duì)每個(gè)子句進(jìn)行步驟(5);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)小句;
(5):對(duì)子句讀取語(yǔ)義知識(shí)庫(kù)信息,對(duì)動(dòng)詞、可作模擬動(dòng)詞處理的形容詞和數(shù)量短語(yǔ)、介詞、可帶子句的連詞等建立分析啟動(dòng)結(jié)構(gòu);進(jìn)行步驟(6);
(6):對(duì)子句語(yǔ)串進(jìn)行單句,并聯(lián)句,形容詞句,數(shù)量短語(yǔ)句,連動(dòng)句,單實(shí)體句等分析;對(duì)于那些具有句子模式的句子,都能將其分解成為單句、多個(gè)單句,進(jìn)行步驟(7);對(duì)于單實(shí)體句,進(jìn)行步驟(10);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)分析結(jié)果;
(7):單句多動(dòng)詞處理,對(duì)子句中的多個(gè)動(dòng)詞,計(jì)算優(yōu)先權(quán)值,進(jìn)行步驟(8);多個(gè)動(dòng)詞處理完,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)核心動(dòng)詞;
(8):動(dòng)詞多義處理,對(duì)于動(dòng)詞的多種意義,分別進(jìn)行步驟(9);動(dòng)詞多義處理完后,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)動(dòng)詞單義;
(9):動(dòng)詞多種關(guān)系模式處理,每個(gè)動(dòng)詞除有自己的基本句子關(guān)系模式外,還有變形句子關(guān)系模式,變形句子關(guān)系模式可以由程序按照基本句子關(guān)系模式自動(dòng)生成;按照每個(gè)模式的語(yǔ)言實(shí)體情況,對(duì)每個(gè)語(yǔ)言實(shí)體部分,進(jìn)行步驟(10),每個(gè)模式處理完,計(jì)算出這個(gè)模式的權(quán)值,這包括這個(gè)模式的多個(gè)語(yǔ)言實(shí)體的關(guān)聯(lián)和這個(gè)模式的上下文方面的權(quán)值,以及一些特殊模式自身的權(quán)值計(jì)算;多種可能的模式處理完后,選出最優(yōu)動(dòng)詞關(guān)系模式;
(10):語(yǔ)言實(shí)體處理分別有:純語(yǔ)言實(shí)體分析,空語(yǔ)言實(shí)體分析(可以有副詞串),句子語(yǔ)言實(shí)體分析;如果是句子語(yǔ)言實(shí)體分析,填充上下文,調(diào)用步驟(6);如果是空語(yǔ)言實(shí)體分析,那么進(jìn)行步驟(11),步驟(12)后,進(jìn)行全副詞串分析,并計(jì)算權(quán)值;如果是純語(yǔ)言實(shí)體分析,調(diào)用步驟(11),步驟(12),步驟(13),步驟(17),步驟(18),進(jìn)行本語(yǔ)言實(shí)體的權(quán)值計(jì)算;
(11):命名實(shí)體組合,進(jìn)行特殊名詞組合串、人名識(shí)別、地點(diǎn)識(shí)別、機(jī)構(gòu)識(shí)別、特殊副詞串識(shí)別、特殊形容詞串識(shí)別、復(fù)雜組合結(jié)構(gòu)等識(shí)別;得到多個(gè)組合串,對(duì)每個(gè)組合串進(jìn)行步驟(12)處理;
(12):介詞組合結(jié)構(gòu)處理:對(duì)多個(gè)介詞,從右向左進(jìn)行遞歸組合處理,介詞類(lèi)似動(dòng)詞模式,可以帶語(yǔ)言實(shí)體,可以帶句子,并且分別都可以帶后邊界;如果是帶語(yǔ)言實(shí)體,那么調(diào)用步驟(13);如果是句子調(diào)用步驟(6);介詞的模式檢驗(yàn)在動(dòng)詞模式上下文下進(jìn)行時(shí),需要填充“需要進(jìn)行的額外語(yǔ)言實(shí)體計(jì)算”的上下文;
(13):多語(yǔ)言實(shí)體分析,對(duì)語(yǔ)串片段按照特殊關(guān)聯(lián)詞(如漢語(yǔ)“的,和,或,”等,英語(yǔ)“that從句”等)進(jìn)行劃分,得到單個(gè)語(yǔ)言實(shí)體、多個(gè)語(yǔ)言實(shí)體、形容詞修飾串、句子修飾串;對(duì)于單個(gè)實(shí)體、多個(gè)語(yǔ)言實(shí)體進(jìn)行步驟(14)處理,對(duì)于形容詞修飾串進(jìn)行步驟(15);對(duì)句子修飾串進(jìn)行步驟(16)處理;
(14):語(yǔ)言實(shí)體分割,對(duì)此時(shí)語(yǔ)串按照上下文進(jìn)行多語(yǔ)言實(shí)體分割,并對(duì)每個(gè)語(yǔ)言實(shí)體計(jì)算權(quán)值(根據(jù)語(yǔ)言實(shí)體內(nèi)形容詞、副詞、核心部分等來(lái)設(shè)計(jì)權(quán)值,并且當(dāng)形容詞部分含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí),進(jìn)行相應(yīng)的權(quán)值計(jì)算),并且計(jì)算這個(gè)多語(yǔ)言實(shí)體組合的權(quán)值;如果有并聯(lián)關(guān)系,那么建立語(yǔ)言實(shí)體并聯(lián)描述結(jié)構(gòu),并計(jì)算相應(yīng)的權(quán)值;
(15):形容詞修飾串的分析
對(duì)形容詞修飾串,配合上下文進(jìn)行分割檢驗(yàn),并建立形容詞修飾描述結(jié)構(gòu),如果有并聯(lián),建立形容詞修飾串并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;此處權(quán)值計(jì)算需要根據(jù)形容詞串包含詞類(lèi)情況,特別是當(dāng)形容詞修飾串含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí);根據(jù)形容詞修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算形容詞修飾串并聯(lián)情況時(shí),(比如:“我和我的父親”,“我父親和小明的父親”),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算;
(16):句子修飾串的分析
對(duì)句子修飾串,配合上下文進(jìn)行檢驗(yàn),調(diào)用步驟出);并建立句子修飾描述結(jié)構(gòu),如果有并聯(lián),建立句子修飾并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;根據(jù)句子修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算句子修飾串并聯(lián)情況時(shí),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算;
(17):多語(yǔ)言實(shí)體和它們的修飾部分的整理
對(duì)分析后的多語(yǔ)言實(shí)體,形容詞修飾串,句子修飾串,以及相應(yīng)的并聯(lián)描述結(jié)構(gòu),進(jìn)行整理,對(duì)每個(gè)語(yǔ)言實(shí)體,建立起一個(gè)單個(gè)語(yǔ)言實(shí)體描述結(jié)構(gòu),此結(jié)構(gòu)包括此語(yǔ)言實(shí)體本身以及修飾這個(gè)語(yǔ)言實(shí)體的形容詞修飾部分和句子修飾部分以及并聯(lián)描述;并且在這個(gè)層次,對(duì)語(yǔ)言實(shí)體進(jìn)行權(quán)值計(jì)算;并且選擇最優(yōu)的多語(yǔ)言實(shí)體組合;此處的語(yǔ)言實(shí)體,根據(jù)形容詞修飾串、句子修飾串以及并聯(lián)結(jié)構(gòu),進(jìn)行權(quán)值計(jì)算;多個(gè)語(yǔ)言實(shí)體并排時(shí),也計(jì)算相應(yīng)的權(quán)值;
(18):將此語(yǔ)言實(shí)體分析結(jié)果進(jìn)行填充,并進(jìn)行問(wèn)句和特殊句子中的問(wèn)詞點(diǎn)和特殊檢驗(yàn)點(diǎn)的定位;并且,上傳上下文語(yǔ)言實(shí)體分析結(jié)果;
(19):句子模式轉(zhuǎn)換以及歸一化處理
按照句子類(lèi)型以及所包含的單句類(lèi)型進(jìn)行模式轉(zhuǎn)換和歸一化;
(20):最優(yōu)語(yǔ)義樹(shù)的輸出
對(duì)最優(yōu)的句子類(lèi)型,進(jìn)行最優(yōu)語(yǔ)義樹(shù)輸出;對(duì)于機(jī)器翻譯系統(tǒng),直接使用系統(tǒng)內(nèi)存中的最優(yōu)語(yǔ)義樹(shù)。
[0010]本發(fā)明還提出一種基于語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯方法,其步驟包括:
(I)創(chuàng)建語(yǔ)義知識(shí)庫(kù),其中,包含源語(yǔ)言單詞和短語(yǔ)以及相應(yīng)的語(yǔ)義知識(shí)和相應(yīng)的目標(biāo)語(yǔ)言譯文; (2)分析源語(yǔ)言串,得到最優(yōu)語(yǔ)義樹(shù);
(3)對(duì)所得最優(yōu)語(yǔ)義樹(shù),根據(jù)此語(yǔ)義樹(shù)本身的句子類(lèi)型和動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,得到最終譯文。
[0011]上述機(jī)器翻譯方法中,所述步驟(I)中,所述語(yǔ)義知識(shí)庫(kù)中存儲(chǔ)的詞條按照翻譯系統(tǒng)的要求進(jìn)行標(biāo)注,注明相關(guān)的語(yǔ)義信息。
[0012]上述機(jī)器翻譯方法中,所述步驟(2)中,通過(guò)語(yǔ)言實(shí)體關(guān)系分析器對(duì)源語(yǔ)言進(jìn)行分析,所述語(yǔ)言實(shí)體關(guān)系分析器是根據(jù)權(quán)利要求1中所述的方法建造的。
[0013]本發(fā)明還提出一種基于語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯裝置,其特征在于,包括:
語(yǔ)義知識(shí)庫(kù)模塊:用于存儲(chǔ)源語(yǔ)言單詞和短語(yǔ)以及相應(yīng)的語(yǔ)義知識(shí)和相應(yīng)的目標(biāo)語(yǔ)言譯文;
語(yǔ)言實(shí)體關(guān)系分析器:連接語(yǔ)義知識(shí)模塊,用于按照語(yǔ)言實(shí)體關(guān)系分析方法對(duì)原文進(jìn)行分析,得到最優(yōu)語(yǔ)義樹(shù);
目標(biāo)語(yǔ)言生成器:連接語(yǔ)義實(shí)體關(guān)系分析器,用于根據(jù)上述得到的最優(yōu)語(yǔ)義樹(shù)本身的句子類(lèi)型以及動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,最終得到譯文;譯文的質(zhì)量?jī)?yōu)化,采用動(dòng)賓短語(yǔ)搭配譯文優(yōu)化,定中短語(yǔ)譯文優(yōu)化等優(yōu)化,以及利用詞庫(kù)中已經(jīng)存在的組合詞組對(duì)遠(yuǎn)距離動(dòng)賓結(jié)構(gòu)等進(jìn)行譯文優(yōu)化,這些優(yōu)化措施將會(huì)大幅提高譯文的流利度。
[0014]對(duì)語(yǔ)言現(xiàn)象的重新認(rèn)識(shí):
對(duì)應(yīng)程序的具體實(shí)現(xiàn),歸納出語(yǔ)言的五方面主要特性:(I)分層性;(2)分裂性;(3)遞歸性;(4)組合復(fù)雜性;(5)歧義的局部可約束性;
1):分層性:語(yǔ)言的問(wèn)題可分解到多個(gè)層次,依次處理。在本發(fā)明中,從“篇章”到“形容詞修飾串分析和句子修飾串分析”,大概有15層以上,這種完全基于計(jì)算的劃分,基本上超出了其他理論設(shè)計(jì)的粒度;所以,在復(fù)雜語(yǔ)言領(lǐng)域,比如專(zhuān)利領(lǐng)域,就能表現(xiàn)出很明顯的效果;
2):分裂性:屬于同層中不同類(lèi)型的子現(xiàn)象,需要并行處理,如:動(dòng)詞的“普通模式”和“把、被”模式等;
3):遞歸性:動(dòng)詞或者介詞都可帶子句,而子句本身又可同樣遞歸;這就是語(yǔ)言復(fù)雜的一個(gè)重要因素。比如:專(zhuān)利語(yǔ)料中的遞歸次數(shù)一般都是3-4次;
4):組合復(fù)雜性:
每個(gè)層約5個(gè)左右分裂,經(jīng)過(guò)約12層(語(yǔ)言邏輯主要層次)排列組合,就得到上億語(yǔ)言現(xiàn)象(5~12約等2.4億)。經(jīng)過(guò)2次-3次遞歸,就產(chǎn)生海量語(yǔ)言現(xiàn)象,即人們常說(shuō)的語(yǔ)言的〃組合爆炸〃現(xiàn)象;
5):歧義的局部可約束性:
在每層的各分裂局部,根據(jù)豐富的上下文,就可用權(quán)值來(lái)準(zhǔn)確體現(xiàn)一個(gè)語(yǔ)串的各歧義的局部差別;這個(gè)權(quán)值跟語(yǔ)言邏輯是很相關(guān)的,比其他系統(tǒng)的權(quán)值更客觀(guān),經(jīng)排列組合,能將歧義很明顯地區(qū)分開(kāi)來(lái)。
[0015]下面介紹一些定義:
I)語(yǔ)言實(shí)體關(guān)系”
(1)“語(yǔ)言實(shí)體”(a)可以是表示人的詞,表示物體的詞,無(wú)意義語(yǔ)串,或者完整句子(句子語(yǔ)言實(shí)體)等;
如:“我吃蘋(píng)果”中的“我”,“石頭吃人”中的“石頭”都可以是動(dòng)詞“吃”這個(gè)動(dòng)作的主體。這種抽象主要是為了避免語(yǔ)法和語(yǔ)義的爭(zhēng)論;
(2) “關(guān)系”(R)是指“語(yǔ)言實(shí)體”之間的關(guān)系模式
如:“我吃飯”這種“ara”模式,”我告訴你一件事情”這種“adaa”模式,實(shí)際中的關(guān)系模式也是有限的;
2): “語(yǔ)言邏輯框架”
(1)“分層、分裂、遞歸”的條件跟實(shí)際語(yǔ)言現(xiàn)象都是對(duì)應(yīng)的,我們稱(chēng)這些條件為“語(yǔ)言邏輯點(diǎn)”,約為200多個(gè),共同形成一個(gè)“語(yǔ)言邏輯框架”;
(2)可以在計(jì)算機(jī)程序中很自然地實(shí)現(xiàn)“語(yǔ)言邏輯框架”,并且,分析樹(shù)都存在內(nèi)存中,就有了豐富且準(zhǔn)確的上下文來(lái)把握語(yǔ)言細(xì)節(jié),而“規(guī)則系統(tǒng)”和“統(tǒng)計(jì)系統(tǒng)”都是“上下文不完備”的。
[0016]本發(fā)明詞語(yǔ)的概念分類(lèi):
1):以系統(tǒng)應(yīng)用為目的,避免語(yǔ)法和語(yǔ)義的爭(zhēng)論,本發(fā)明將自然語(yǔ)言中的詞語(yǔ)進(jìn)行概念分類(lèi),大概如下:
方位詞(O),時(shí)間⑴,空間(L),數(shù)⑷,量綱(U),名詞(η),形容詞(adj),副詞(f),助詞(h),標(biāo)點(diǎn)符號(hào)(P),動(dòng)詞(V),,判斷詞(j),代詞(r),介詞(i),動(dòng)作情況描述詞(s);
2):對(duì)于每一類(lèi),還會(huì)有子類(lèi),用“+ ”和英文字母擴(kuò)展來(lái)表示,詳細(xì)見(jiàn)圖5。
[0017]詞語(yǔ)概念的歸一化:
(1)為了方便填寫(xiě)動(dòng)詞的主謂賓的概念限制,需要將詞語(yǔ)的概念類(lèi)別進(jìn)行歸一化。在程序中也會(huì)存在一個(gè)相應(yīng)轉(zhuǎn)換模塊;
(2)歸一化語(yǔ)義概念:
大致為:人(P)、有生物(b)、無(wú)生物(d) 、組織(O) 、抽象物(a)、
活動(dòng)(h)、空間(L) 、時(shí)間⑴、名詞實(shí)體(η)、句子(s)
(3)這些語(yǔ)義概念用來(lái)限制動(dòng)詞的主謂賓的可選概念;但不是絕對(duì)限制,實(shí)際系統(tǒng)中,會(huì)采用模糊匹配;
例如:動(dòng)詞“收到”有動(dòng)詞關(guān)系模式“<v_r>[n:p] [r] [η:da] ;〈/v_r>”,
其中,主語(yǔ)概念限制“ [n:P] ”,表明主語(yǔ)可以是“人”;賓語(yǔ)概念限制“ [n:da] ”,表明賓語(yǔ)可以是“無(wú)生物、抽象物”。
[0018]動(dòng)詞關(guān)系模式舉例說(shuō)明:
I)動(dòng)詞的關(guān)系模式表明了可能的“語(yǔ)言實(shí)體”的關(guān)系模式,系統(tǒng)中根據(jù)這個(gè)關(guān)系模式來(lái)進(jìn)行分析測(cè)試;如:
(I)普通關(guān)系模式(C)
我喜歡蘋(píng)果;
動(dòng)詞“喜歡”有動(dòng)詞關(guān)系模式:“<v_r>[n:p] [r] [n:pbdoah] ;〈/v_r>”
(2)雙賓語(yǔ)關(guān)系模式(d)
我送她蘋(píng)果;
動(dòng)詞“送”有動(dòng)詞關(guān)系模式:“<v_r> [n:pod] [d] [n:pbo] [n: d] ;〈/v_r>”
(3)使動(dòng)關(guān)系模式(m)他強(qiáng)迫大家吃飯;
動(dòng)詞“強(qiáng)迫”有動(dòng)詞關(guān)系模式:“<v_r>[n:pdoh] [m] ;〈/v_r>”
2)動(dòng)詞關(guān)系模式詳細(xì)見(jiàn)圖6。
[0019]分析啟動(dòng)項(xiàng)說(shuō)明:
對(duì)于類(lèi)似動(dòng)詞(如 “<v_r> [n:p] [r] [n:pbdoah] ;〈/v_r>”)、
介詞(如“<i_r>[n:dotl] [n:kjx] ; [s] [n:kjx] ;〈/i_r>”)等有可以用來(lái)啟動(dòng)分析的語(yǔ)義項(xiàng);一些詞也有特殊的功能詞塊,也是為了啟動(dòng)特殊的語(yǔ)言分析。
[0020]動(dòng)詞關(guān)系模式的變種:
在某種動(dòng)詞關(guān)系模式下,可能存在不同變種,這些變種都是在程序內(nèi)用不同的程序模塊來(lái)自動(dòng)啟動(dòng)測(cè)試的;
例如:
(1)普通關(guān)系模式(C)
基本模式:我吃了蘋(píng)果;
賓語(yǔ)提前模式: 蘋(píng)果我吃了;
主動(dòng)模式:我把蘋(píng)果吃;·
(2)使動(dòng)關(guān)系模式(m)
基本模式:我?guī)ьI(lǐng)他完成這項(xiàng)任務(wù);
主動(dòng)模式:我把他帶領(lǐng)完成這項(xiàng)任務(wù);。
[0021]介詞的說(shuō)明:
介詞是退化的動(dòng)詞,它也有類(lèi)似“動(dòng)詞模式”的“介詞模式”,這些〃介詞模式〃指導(dǎo)著介詞的分析,得到介詞短語(yǔ);
介詞短語(yǔ)的組合結(jié)構(gòu)是:
(DI+IK+IB
⑵ I+IK
(3)IK+IB
(4)I+S+IB
(5)I+S
(6)S+IB
其中"I"表示介詞,〃IK"表示介詞核心,"IB"表示特殊的介詞對(duì)應(yīng)邊界(如:〃時(shí)〃,〃上,下,之下〃等等),〃S〃表示完整的句子。
[0022]一些特殊“關(guān)系”的形式:
(1)"的〃字之前的修飾部分也是可以跟后面的〃語(yǔ)言實(shí)體〃形成〃關(guān)系〃的,這個(gè)分析是很有必要的;
比如:“我喜歡你發(fā)明的機(jī)器”,“你發(fā)明”跟“機(jī)器”是有作用關(guān)系的,復(fù)原后就是〃你發(fā)明機(jī)器";
(2)類(lèi)似的模式也有好幾種:語(yǔ)句分析過(guò)程中,主要關(guān)注“語(yǔ)言實(shí)體”和“關(guān)系”,在“語(yǔ)言邏輯框架”的流程循環(huán)中,在“語(yǔ)言邏輯點(diǎn)”的引導(dǎo)下,逐漸劃清“語(yǔ)言實(shí)體”邊界,分解“語(yǔ)言實(shí)體”之間的“關(guān)系”,從而實(shí)現(xiàn)了語(yǔ)句的分析。
[0023]核心問(wèn)題說(shuō)明: 傳統(tǒng)規(guī)則體系和統(tǒng)計(jì)體系基本上都是以“自下而上”的“歸約”形式為主要操作方式的;而本發(fā)明是采用“自上而下”的方式進(jìn)行操作的,那么會(huì)產(chǎn)生不同的處理難點(diǎn);如下:
1):“語(yǔ)言實(shí)體”分割
(1){〈我>}吃蘋(píng)果;
(2){〈蘋(píng)果 >〈我>}吃了 ;
(3)我告訴{〈他X我>}吃蘋(píng)果;
(4)我告訴{〈他X蘋(píng)果X我>}吃了;
說(shuō)明:
〈I〉:在分析{”和之間的語(yǔ)串時(shí),我們想得到的東西都是預(yù)設(shè)的,
比如:〃吃〃有動(dòng)詞模式〃ara〃,那么碰到〃吃〃,我們有預(yù)期〃ara〃的可能性,用這個(gè)可能性,語(yǔ)串“我吃蘋(píng)果”,就能分析了 ;通常"ara"有"aar"變種,那么碰到〃吃",我們?cè)谟蓄A(yù)期"ara"的可能性的同時(shí),也有"aar"的預(yù)期,關(guān)系“吃”的前面的語(yǔ)串部分,就預(yù)期兩個(gè)實(shí)體〃 aa〃出現(xiàn),那么〃蘋(píng)果我吃了〃,就能分析了;同樣,〃告訴〃有〃ars"模式,〃s〃又可以繼續(xù)向下演化,從而進(jìn)行遞歸分析;所以,在例子(4)中你就看到了三個(gè)實(shí)體并排的預(yù)期;
<2>: “動(dòng)詞”和“介詞”的模式都會(huì)引起多個(gè)語(yǔ)言實(shí)體并排;
2):權(quán)值體系
在幾百個(gè)“語(yǔ)言邏輯點(diǎn)”處,進(jìn)行權(quán)值設(shè)計(jì)和計(jì)算,最終選出最優(yōu)結(jié)果;
(1)例子:
我送他和你蘋(píng)果;
(2)上面例子的兩個(gè)可能結(jié)果 〈1>我送{〈他〉和〈你蘋(píng)果>};
<2>我送{他和你} {蘋(píng)果};
(3)結(jié)果“<1>”中,語(yǔ)言實(shí)體“〈他〉”和蘋(píng)果〉”并聯(lián),概念屬性不太一致,在相應(yīng)的“權(quán)值計(jì)算點(diǎn)”,就會(huì)扣分,最后結(jié)果“<2>”被選擇出來(lái);
(4)類(lèi)似的“權(quán)值計(jì)算點(diǎn)”目前有1000多個(gè),它們來(lái)源于人們的語(yǔ)言邏輯和語(yǔ)言習(xí)慣,以及上下文約束,是分布在整個(gè)“語(yǔ)言邏輯框架”中的,跟分析同步計(jì)算的。
[0024]本發(fā)明的優(yōu)勢(shì):
本發(fā)明在程序中,把握全部的語(yǔ)言邏輯點(diǎn),充分利用“組合爆炸”,建立起完善的語(yǔ)言邏輯框架,能夠進(jìn)行全解和語(yǔ)言現(xiàn)象一體化計(jì)算,基本上解決了語(yǔ)言的“組合爆炸”這個(gè)核心問(wèn)題,能夠顯著地提高準(zhǔn)確度。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0025]圖1為實(shí)施例中漢英機(jī)器翻譯裝置的結(jié)構(gòu)組成示意圖。
[0026]圖2為實(shí)施例中漢英機(jī)器翻譯方法的流程示意圖。
[0027]圖3為本發(fā)明提供的語(yǔ)言實(shí)體關(guān)系分析方法總體技術(shù)方案的實(shí)現(xiàn)流程圖。
[0028]圖4為實(shí)施例中得到的語(yǔ)義分析樹(shù)示意圖。
[0029]圖5 (包括5a和5b)為實(shí)施例中的詞匯概念分類(lèi)表。
[0030]圖6為實(shí)施例中的動(dòng)詞關(guān)系模式分類(lèi)表?!揪唧w實(shí)施方式】
[0031 ] 下面將配合附圖,通過(guò)具體實(shí)施例,來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0032]如圖3所示,本發(fā)明提供的語(yǔ)言實(shí)體關(guān)系分析方法總體技術(shù)方案的實(shí)現(xiàn)流程圖,該方法包括以下步驟:
(1):對(duì)輸入的語(yǔ)句進(jìn)行篇章、段落、大句分割,進(jìn)行步驟(2);然后,在段落、大句范圍內(nèi),進(jìn)行缺省指代等知識(shí)計(jì)算;
(2):對(duì)大句分割成小句,進(jìn)行步驟(3);
(3):小句中的內(nèi)嵌處理調(diào)用步驟(2);內(nèi)嵌處理完,進(jìn)行步驟(4);
內(nèi)嵌說(shuō)明,如語(yǔ)句:“我知道這個(gè)方法(采用A方案解決問(wèn)題);”語(yǔ)串“(采用A方案解決問(wèn)題)”就是小句中的內(nèi)嵌,內(nèi)嵌可以包含多個(gè)大句或者小句;
(4):對(duì)小句進(jìn)行分詞,如果有歧義,那么形成有限數(shù)目的子句,并對(duì)每個(gè)子句計(jì)算分詞歧義權(quán)值,對(duì)每個(gè)子句進(jìn)行預(yù)處理(數(shù)字,數(shù)量短語(yǔ),特殊組合短語(yǔ),時(shí)間短語(yǔ),超長(zhǎng)子句處理),對(duì)每個(gè)子句進(jìn)行步驟(5);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)小句;
(5):對(duì)子句讀取語(yǔ)義知識(shí)庫(kù)信息,對(duì)動(dòng)詞、可作模擬動(dòng)詞處理的形容詞和數(shù)量短語(yǔ)、介詞、可帶子句的連詞等建立分析啟動(dòng)結(jié)構(gòu);進(jìn)行步驟(6);
(6):對(duì)子句語(yǔ)串進(jìn)行單句,并聯(lián)句,形容詞句,數(shù)量短語(yǔ)句,連動(dòng)句,單實(shí)體句等分析;對(duì)于那些具有句子模式的句子,都能將其分解成為單句、多個(gè)單句,進(jìn)行步驟(7);對(duì)于單實(shí)體句,進(jìn)行步驟(10);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)分析結(jié)果;
(7):單句多動(dòng)詞處理,對(duì)子句中的多個(gè)動(dòng)詞,計(jì)算優(yōu)先權(quán)值,進(jìn)行步驟(8);多個(gè)動(dòng)詞處理完,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)核心動(dòng)詞;
(8):動(dòng)詞多義處理,對(duì)于動(dòng)詞的多種意義,分別進(jìn)行步驟(9);動(dòng)詞多義處理完后,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)動(dòng)詞單義;
(9):動(dòng)詞多種關(guān)系模式處理,每個(gè)動(dòng)詞除有自己的基本句子關(guān)系模式外,還有變形句子關(guān)系模式,變形句子關(guān)系模式可以由程序按照基本句子關(guān)系模式自動(dòng)生成;按照每個(gè)模式的語(yǔ)言實(shí)體情況,對(duì)每個(gè)語(yǔ)言實(shí)體部分,進(jìn)行步驟(10),每個(gè)模式處理完,計(jì)算出這個(gè)模式的權(quán)值,這包括這個(gè)模式的多個(gè)語(yǔ)言實(shí)體的關(guān)聯(lián)和這個(gè)模式的上下文方面的權(quán)值,以及一些特殊模式自身的權(quán)值計(jì)算;多種可能的模式處理完后,選出最優(yōu)動(dòng)詞關(guān)系模式;
(10):語(yǔ)言實(shí)體處理分別有:純語(yǔ)言實(shí)體分析,空語(yǔ)言實(shí)體分析(可以有副詞串),句子語(yǔ)言實(shí)體分析;如果是句子語(yǔ)言實(shí)體分析,填充上下文,調(diào)用步驟(6);如果是空語(yǔ)言實(shí)體分析,那么進(jìn)行步驟(11),步驟(12)后,進(jìn)行全副詞串分析,并計(jì)算權(quán)值;如果是純語(yǔ)言實(shí)體分析,調(diào)用步驟(11),步驟(12),步驟(13),步驟(17),步驟(18),進(jìn)行本語(yǔ)言實(shí)體的權(quán)值計(jì)算;
(11):命名實(shí)體組合,進(jìn)行特殊名詞組合串、人名識(shí)別、地點(diǎn)識(shí)別、機(jī)構(gòu)識(shí)別、特殊副詞串識(shí)別、特殊形容詞串識(shí)別、復(fù)雜組合結(jié)構(gòu)等識(shí)別;得到多個(gè)組合串,對(duì)每個(gè)組合串進(jìn)行步驟(12)處理;
(12):介詞組合結(jié)構(gòu)處理:對(duì)多個(gè)介詞,從右向左進(jìn)行遞歸組合處理,介詞類(lèi)似動(dòng)詞模式,可以帶語(yǔ)言實(shí)體,可以帶句子,并且分別都可以帶后邊界;如果是帶語(yǔ)言實(shí)體,那么調(diào)用步驟(13);如果是句子調(diào)用步驟(6);介詞的模式檢驗(yàn)在動(dòng)詞模式上下文下進(jìn)行時(shí),需要填充“需要進(jìn)行的額外語(yǔ)言實(shí)體計(jì)算”的上下文;
(13):多語(yǔ)言實(shí)體分析,對(duì)語(yǔ)串片段按照特殊關(guān)聯(lián)詞(如漢語(yǔ)“的,和,或,”等,英語(yǔ)“that從句”等)進(jìn)行劃分,得到單個(gè)語(yǔ)言實(shí)體、多個(gè)語(yǔ)言實(shí)體、形容詞修飾串、句子修飾串;對(duì)于單個(gè)實(shí)體、多個(gè)語(yǔ)言實(shí)體進(jìn)行步驟(14)處理,對(duì)于形容詞修飾串進(jìn)行步驟(15);對(duì)句子修飾串進(jìn)行步驟(16)處理;
(14):語(yǔ)言實(shí)體分割,對(duì)此時(shí)語(yǔ)串按照上下文進(jìn)行多語(yǔ)言實(shí)體分割,并對(duì)每個(gè)語(yǔ)言實(shí)體計(jì)算權(quán)值(根據(jù)語(yǔ)言實(shí)體內(nèi)形容詞、副詞、核心部分等來(lái)設(shè)計(jì)權(quán)值,并且當(dāng)形容詞部分含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí),進(jìn)行相應(yīng)的權(quán)值計(jì)算),并且計(jì)算這個(gè)多語(yǔ)言實(shí)體組合的權(quán)值;如果有并聯(lián)關(guān)系,那么建立語(yǔ)言實(shí)體并聯(lián)描述結(jié)構(gòu),并計(jì)算相應(yīng)的權(quán)值;
(15):形容詞修飾串的分析
對(duì)形容詞修飾串,配合上下文進(jìn)行分割檢驗(yàn),并建立形容詞修飾描述結(jié)構(gòu),如果有并聯(lián),建立形容詞修飾串并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;此處權(quán)值計(jì)算需要根據(jù)形容詞串包含詞類(lèi)情況,特別是當(dāng)形容詞修飾串含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí);根據(jù)形容詞修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算形容詞修飾串并聯(lián)情況時(shí),(比如:“我和我的父親”,“我父親和小明的父親”),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算;
(16):句子修飾串的分析
對(duì)句子修飾串,配合上下文進(jìn)行檢驗(yàn),調(diào)用步驟出);并建立句子修飾描述結(jié)構(gòu),如果有并聯(lián),建立句子修飾并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;根據(jù)句子修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算句子修飾串并聯(lián)情況時(shí),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算;
(17):多語(yǔ)言實(shí)體和它們的修飾部分的整理
對(duì)分析后的多語(yǔ)言實(shí)體,形容詞修飾串,句子修飾串,以及相應(yīng)的并聯(lián)描述結(jié)構(gòu),進(jìn)行整理,對(duì)每個(gè)語(yǔ)言實(shí)體,建立起一個(gè)單個(gè)語(yǔ)言實(shí)體描述結(jié)構(gòu),此結(jié)構(gòu)包括此語(yǔ)言實(shí)體本身以及修飾這個(gè)語(yǔ)言實(shí)體的形容詞修飾部分和句子修飾部分以及并聯(lián)描述;并且在這個(gè)層次,對(duì)語(yǔ)言實(shí)體進(jìn)行權(quán)值計(jì)算;并且選擇最優(yōu)的多語(yǔ)言實(shí)體組合;此處的語(yǔ)言實(shí)體,根據(jù)形容詞修飾串、句子修飾串以及并聯(lián)結(jié)構(gòu),進(jìn)行權(quán)值計(jì)算;多個(gè)語(yǔ)言實(shí)體并排時(shí),也計(jì)算相應(yīng)的權(quán)值;
(18):將此語(yǔ)言實(shí)體分析結(jié)果進(jìn)行填充,并進(jìn)行問(wèn)句和特殊句子中的問(wèn)詞點(diǎn)和特殊檢驗(yàn)點(diǎn)的定位;并且,上傳上下文語(yǔ)言實(shí)體分析結(jié)果;
(19):句子模式轉(zhuǎn)換以及歸一化處理
按照句子類(lèi)型以及所包含的單句類(lèi)型進(jìn)行模式轉(zhuǎn)換和歸一化;
(20):最優(yōu)語(yǔ)義樹(shù)的輸出
對(duì)最優(yōu)的句子類(lèi)型,進(jìn)行最優(yōu)語(yǔ)義樹(shù)輸出;對(duì)于機(jī)器翻譯系統(tǒng),直接使用系統(tǒng)內(nèi)存中的最優(yōu)語(yǔ)義樹(shù)。
[0033]圖1為基于語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯裝置100的結(jié)構(gòu)組成示意圖;圖2為利用該裝置進(jìn)行機(jī)器翻譯的實(shí)現(xiàn)流程圖。
[0034]請(qǐng)參考圖1,裝置100包括:語(yǔ)義知識(shí)庫(kù)模塊110,用于存儲(chǔ)源語(yǔ)言單詞和短語(yǔ)以及相應(yīng)的語(yǔ)義知識(shí)和相應(yīng)的目標(biāo)語(yǔ)言譯文;語(yǔ)言實(shí)體關(guān)系分析器120,用于按照語(yǔ)言實(shí)體關(guān)系分析方法對(duì)原文進(jìn)行分析,得到最優(yōu)語(yǔ)義樹(shù);目標(biāo)語(yǔ)言生成器130:連接語(yǔ)義實(shí)體關(guān)系分析器,用于根據(jù)上述得到的語(yǔ)義樹(shù)本身的句子類(lèi)型以及動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,最終得到譯文。
[0035]下面結(jié)合圖1和圖2,以源語(yǔ)言為漢語(yǔ)、目標(biāo)語(yǔ)言為英文為例,來(lái)說(shuō)明具體的翻譯過(guò)程,主要包括如下步驟:
1)使用語(yǔ)言實(shí)體關(guān)系分析器對(duì)輸入的源語(yǔ)言串進(jìn)行分析,得到最優(yōu)語(yǔ)義樹(shù);
2)對(duì)上述最優(yōu)語(yǔ)義樹(shù),根據(jù)此語(yǔ)義樹(shù)本身的句子類(lèi)型以及動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,得到最終譯文;
3)在動(dòng)詞關(guān)系模式翻譯中,考慮到不同的上下文翻譯需求以及疑問(wèn)句特殊翻譯需求等,這都在程序中進(jìn)行實(shí)現(xiàn);
4)對(duì)于語(yǔ)言實(shí)體本身翻譯,考慮到單復(fù)數(shù)、人稱(chēng)等,都用特殊的描述數(shù)據(jù)結(jié)構(gòu)進(jìn)行標(biāo)示,然后在程序中進(jìn)行實(shí)現(xiàn)以及譯文轉(zhuǎn)換;
5)對(duì)于語(yǔ)言實(shí)體的形容詞部分、形容詞修飾串部分、句子修飾串部分、介詞短語(yǔ)、特殊組合結(jié)構(gòu)翻譯等,都在程序中分別實(shí)現(xiàn)翻譯策略;
6)譯文的質(zhì)量?jī)?yōu)化,采用動(dòng)賓短語(yǔ)搭配譯文優(yōu)化,定中短語(yǔ)譯文優(yōu)化等優(yōu)化,以及利用詞庫(kù)中已經(jīng)存在的組合詞組對(duì)遠(yuǎn)距離動(dòng)賓結(jié)構(gòu)等進(jìn)行譯文優(yōu)化,這些優(yōu)化方案將會(huì)大大提高譯文的流利度。
[0036]所述語(yǔ)義知識(shí)庫(kù)中保存的詞條按機(jī)器翻譯系統(tǒng)的要求進(jìn)行了標(biāo)注,注明了相關(guān)的語(yǔ)義屬性,如下:
<rs><rk> 橘子〈/rk>〈mean>〈en>tangerine〈/en>〈ssetXcat>n+a+s+c+d〈/cat>〈/sset>
</mean></rs>`
<rs><rk> 誰(shuí) </rk><mean><en>who</en>〈sset>〈cat>r+a〈/cat><ask>k</ask><rw_z>who〈/rw_z>〈rw—b>whom〈/rw—b>〈rw_a>whose〈/rw_a>〈rw_n>whose〈/rw_n>〈/sset></mean></rs>
<rs><rk> 告訴 </rk><mean><en>tel I; </en><sset><cat>v</cat>
<v_r> [n:po][d][n:po][s];[n:po][d][n:po][n:n];</v_r></sset></mean></rs>
<rs><rk> 收到 </rk><mean><en>receive; </en><sset><cat>v</cat>
<v_r>[n:p][r][n:da];</v_r></sset></mean></rs>
<rs><rk> 在 </rk><mean><en>in;</en><sset><cat>i+d+z</cat>
<i_r> [n: dotl] [n:kjx] ; [s] [n:kjx] ;〈/i—r>〈i_s>d〈/i_sX/sset>〈/meanX/rs>0
[0037]所述機(jī)器翻譯系統(tǒng)的要求指的是語(yǔ)義知識(shí)庫(kù)規(guī)范,是分析系統(tǒng)開(kāi)發(fā)者定義的,一般標(biāo)注了詞條的基本語(yǔ)義屬性、功能屬性,是根據(jù)本發(fā)明的語(yǔ)言模型制定的。
[0038]下面提供一個(gè)具體實(shí)例,來(lái)說(shuō)明具體的語(yǔ)義樹(shù)分析過(guò)程和翻譯過(guò)程,該實(shí)例需要翻譯的句子為:
“已經(jīng)離開(kāi)北京的朋友告訴誰(shuí)在明天你們會(huì)收到他們家鄉(xiāng)的橘子? ”。
[0039]下面介紹語(yǔ)義樹(shù)分析過(guò)程和翻譯過(guò)程的具體步驟:
(I):輸入的語(yǔ)句被分割為一個(gè)篇章、一個(gè)段落、一個(gè)大句,進(jìn)行步驟(2);然后,在段落、大句范圍內(nèi),進(jìn)行缺省指代等知識(shí)計(jì)算;(2):此大句分割成一個(gè)小句,進(jìn)行步驟(3);
(3):此小句中沒(méi)有內(nèi)嵌,進(jìn)行步驟⑷;
(4):對(duì)小句進(jìn)行分詞,如果有歧義,那么形成有限數(shù)目的子句,并對(duì)每個(gè)子句計(jì)算分詞歧義權(quán)值,對(duì)每個(gè)子句進(jìn)行預(yù)處理(數(shù)字,數(shù)量短語(yǔ),特殊組合短語(yǔ),時(shí)間短語(yǔ),超長(zhǎng)子句處理),對(duì)每個(gè)子句進(jìn)行步驟(5);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)小句;
(5):對(duì)子句讀取語(yǔ)義知識(shí)庫(kù)信息,對(duì)動(dòng)詞、可做模擬動(dòng)詞處理的形容詞和數(shù)量短語(yǔ)、介詞、可帶子句的連詞等建立分析啟動(dòng)結(jié)構(gòu)。進(jìn)行步驟(6);
(6):對(duì)子句語(yǔ)串進(jìn)行單句,并聯(lián)句,形容詞句,數(shù)量短語(yǔ)句,連動(dòng)句,單實(shí)體句等分析。單句分析,進(jìn)行步驟(7),得到最優(yōu)子句權(quán)值為-10;連動(dòng)句分析,并聯(lián)句分析,均失敗;未啟動(dòng)形容詞句分析和數(shù)量短語(yǔ)句;單實(shí)體句分析,進(jìn)行步驟(10),得到權(quán)值為-113;所以最終選擇單句分析的最優(yōu)結(jié)果;
(7):單句多動(dòng)詞處理,此子句有動(dòng)詞“離開(kāi)”、“告訴”、“會(huì)”、“收到”,分別進(jìn)行步驟⑶;動(dòng)詞“離開(kāi)”的分析權(quán)值是-50 ;動(dòng)詞“告訴”的分析權(quán)值是-10 ;動(dòng)詞“收到”的分析權(quán)值是-245 ;動(dòng)詞“會(huì)”的分析失敗。所以選擇最優(yōu)動(dòng)詞“告訴”;
(8):動(dòng)詞多義處理,以動(dòng)詞“告訴”為例,對(duì)于動(dòng)詞的多種意義,分別進(jìn)行步驟(9);單義“ [n:po] [d] [n:po] [s]; ” 的分析權(quán)值是-10 ;單義“ [n:po] [d] [n:po] [n:n]; ” 的分析權(quán)值是-60 ;所以選出最優(yōu)單義“ [n:po] [d] [n:po] [s]; ” ;
(9):動(dòng)詞多種關(guān)系模式處理,以動(dòng)詞“告訴”的單義“[n:po] [d] [n:po] [s]; ”為例;動(dòng)詞模式“adas”分析權(quán)值是-10 ;這種單義下,只有一種關(guān)系模式,即動(dòng)詞模式“adas”,所以最優(yōu)動(dòng)詞模式為“adas” ;下面介紹此動(dòng)詞模式的分析步驟:` <1>動(dòng)詞“告訴”的左邊語(yǔ)串“已經(jīng)離開(kāi)北京的朋友”(簡(jiǎn)稱(chēng)“語(yǔ)串A”),因?yàn)槟壳皠?dòng)詞“告訴”是主句動(dòng)詞,沒(méi)有上下文,所以只進(jìn)行單語(yǔ)言實(shí)體分析上下文填充,要得到一個(gè)純語(yǔ)言實(shí)體(簡(jiǎn)稱(chēng)“語(yǔ)言實(shí)體TA1”),進(jìn)行步驟(10),(簡(jiǎn)稱(chēng)“分析FA1”),分析權(quán)值為-15;
<2>動(dòng)詞“告訴”的右邊語(yǔ)串“誰(shuí)在明天你們會(huì)收到他們家鄉(xiāng)的橘子;”(簡(jiǎn)稱(chēng)“語(yǔ)串B”),預(yù)期要得到一個(gè)純語(yǔ)言實(shí)體(簡(jiǎn)稱(chēng)“語(yǔ)言實(shí)體TB3”)和一個(gè)句子語(yǔ)言實(shí)體(簡(jiǎn)稱(chēng)“語(yǔ)言實(shí)體TB4”),系統(tǒng)設(shè)計(jì)為:進(jìn)行一個(gè)句子語(yǔ)言實(shí)體分析,并且?guī)в幸粋€(gè)“需要分析出一個(gè)左邊語(yǔ)言實(shí)體”的上下文,進(jìn)行步驟(10),(簡(jiǎn)稱(chēng)“分析FBI”),分析權(quán)值為15 ;
<3>對(duì)此動(dòng)詞模式,進(jìn)行整體的多實(shí)體關(guān)聯(lián)權(quán)值計(jì)算,得到權(quán)值為-10 ;
(10):語(yǔ)言實(shí)體處理分別有:純語(yǔ)言實(shí)體分析,空語(yǔ)言實(shí)體分析(可以有副詞串),句子語(yǔ)言實(shí)體分析。下面以上述的“分析FBI”中的情況為例子:
<1>此分析中,當(dāng)分析動(dòng)詞“收到”時(shí),有動(dòng)詞單義“ [n:p] [r] [n:da]; ”,在動(dòng)詞模式“m0:ara”中,動(dòng)詞“收至『的左邊語(yǔ)串“誰(shuí)在明天你們會(huì)”(簡(jiǎn)稱(chēng)“語(yǔ)串C”),
〈2>對(duì)“語(yǔ)串C”,除了動(dòng)詞“收到”的本身左邊語(yǔ)言實(shí)體(簡(jiǎn)稱(chēng)“語(yǔ)言實(shí)體TC1”)的分析,還需要根據(jù)上邊傳下來(lái)的上下文,同時(shí)分析另外一個(gè)語(yǔ)言實(shí)體(即前面提到的“語(yǔ)言實(shí)體TB3”),所以這個(gè)分析即涉及2個(gè)語(yǔ)言實(shí)體的分析,(簡(jiǎn)稱(chēng)“分析FC1”),調(diào)用步驟(11),步驟(12),步驟(13),步驟(17),步驟(18);進(jìn)行本語(yǔ)言實(shí)體的權(quán)值計(jì)算;
(11):對(duì)“語(yǔ)串C”進(jìn)行命名實(shí)體組合,得到一個(gè)
組合串“誰(shuí)在明天你們會(huì)”(簡(jiǎn)稱(chēng)“組合串Z1”),對(duì)“組合串Z1”進(jìn)行步驟(12)處理;
(12):介詞組合結(jié)構(gòu)處理:對(duì)“組合串Z1”,存在介詞“在”,進(jìn)行介詞分析;分析步驟: 〈1>對(duì)介詞“在”,
右邊語(yǔ)串“明天你們會(huì)”(簡(jiǎn)稱(chēng)“語(yǔ)串D”)
<2>對(duì)于介詞“在”的介詞模式“ [n: dotl] [n:kjx]; ”,
此模式下,對(duì)“語(yǔ)串D”,進(jìn)行介詞邊界“ [n:kjx];”查找,不存在介詞邊界,下面進(jìn)行介詞的語(yǔ)言實(shí)體分析,即對(duì)“語(yǔ)串D”進(jìn)行概念類(lèi)別為“ [n:dotl] ”的語(yǔ)言實(shí)體分析,采用近似遍歷方式,會(huì)有3個(gè)備選答案(“明天”、“你們”、“會(huì)”),對(duì)每個(gè)備選進(jìn)行步驟(13),得到相應(yīng)的組合串;
<3>對(duì)于介詞“在”的介詞模式“ [s] [n:kjx]; ”,
此模式下,對(duì)“語(yǔ)串D”,進(jìn)行介詞邊界“ [n: kjx]; ”查找,不存在介詞邊界,下面進(jìn)行介詞的句子類(lèi)型語(yǔ)言實(shí)體分析,即對(duì)“語(yǔ)串D”進(jìn)行步驟(6),得到相應(yīng)的組合串;
〈4>這樣,遞歸調(diào)用進(jìn)行介詞組合,得到多個(gè)組合串;對(duì)于“語(yǔ)串D”的多個(gè)組合串,有一個(gè)組合串“誰(shuí)[在明天]你們會(huì)”,(簡(jiǎn)稱(chēng)“組合串II”,下面的步驟將使用這個(gè)組合串做例子);
(13):多語(yǔ)言實(shí)體分析,對(duì)“組合串II”按照特殊關(guān)聯(lián)詞進(jìn)行劃分,此例子中結(jié)果仍為“組合串II”,進(jìn)行步驟(14)處理;
(14):語(yǔ)言實(shí)體分割,按照“分析FC1”,需對(duì)“組合串II”,進(jìn)行2個(gè)語(yǔ)言實(shí)體分割。分割步驟:
〈1>對(duì)“組合串II”,進(jìn)行2個(gè)語(yǔ)言實(shí)體分割,會(huì)有幾種分割情況;
〈2>權(quán)值比較后,
分割結(jié)果“ {誰(shuí)} I I [在明天]{你們}會(huì)”為最優(yōu)分割結(jié)果。(“語(yǔ)言實(shí)體TB3”為“ {誰(shuí)} ” ;“語(yǔ)言實(shí)體TC1”為“[在明天]{你們}會(huì)”,核心部分為“ {你們} ”);
(15):形容詞修飾串的分析,
“分析FBI”中的情況為例子:
<1>此分析中,當(dāng)分析動(dòng)詞“收到”時(shí),動(dòng)詞“收到”的右邊語(yǔ)串“他們家鄉(xiāng)的橘子”(簡(jiǎn)稱(chēng)“語(yǔ)串J”),
〈2>對(duì)“語(yǔ)串J”,按照動(dòng)詞“收到”的動(dòng)詞單義“ [n:p] [r] [n: da]; ”,動(dòng)詞“收到”右邊需要獲得一個(gè)語(yǔ)言實(shí)體;
<3> “語(yǔ)串J”中,“的”的后面語(yǔ)串“橘子”(簡(jiǎn)稱(chēng)“語(yǔ)串K”)被選為語(yǔ)言實(shí)體核心部分,“的”的前面“他們家鄉(xiāng)”(簡(jiǎn)稱(chēng)“語(yǔ)串L”),就是修飾串部分,需要進(jìn)行形容詞修飾串的分析,并計(jì)算權(quán)值。并建立形容詞修飾串描述結(jié)構(gòu);
(16):句子修飾串的分析,
“分析FA1”中的情況為例子:
<1> “語(yǔ)串A”中,“的”的后面語(yǔ)串“朋友”(簡(jiǎn)稱(chēng)“語(yǔ)串M”)被選為語(yǔ)言實(shí)體核心部分,“的”的前面“已經(jīng)離開(kāi)北京”(簡(jiǎn)稱(chēng)“語(yǔ)串N”),就是句子修飾串部分,需要進(jìn)行句子修飾串的分析,進(jìn)行步驟(6),并計(jì)算權(quán)值。(此串也會(huì)進(jìn)行形容詞修飾串的分析);
〈2> “語(yǔ)串N”的句子分析結(jié)果為一個(gè)句子語(yǔ)義樹(shù);
“語(yǔ)串M”的語(yǔ)言實(shí)體核心部分,可以跟“語(yǔ)串N”的句子分析結(jié)果的空缺語(yǔ)言實(shí)體位置建立句子修飾串描述結(jié)構(gòu);
<3>與“形容詞修飾串的分析”的分析權(quán)值比較后,“句子修飾串的分析”的分析權(quán)值最大,所以,“語(yǔ)串N”的分析結(jié)果選“句子修飾串的分析結(jié)果”;
(17):多語(yǔ)言實(shí)體和它們的修飾部分的整理
對(duì)分析后的多語(yǔ)言實(shí)體,形容詞修飾串,句子修飾串,以及相應(yīng)的并聯(lián)描述結(jié)構(gòu),進(jìn)行整理,對(duì)每個(gè)語(yǔ)言實(shí)體,建立起一個(gè)單個(gè)語(yǔ)言實(shí)體描述結(jié)構(gòu),此結(jié)構(gòu)包括此語(yǔ)言實(shí)體本身以及修飾這個(gè)語(yǔ)言實(shí)體的形容詞修飾部分和句子修飾部分以及并聯(lián)描述;并且在這個(gè)層次,對(duì)語(yǔ)言實(shí)體進(jìn)行權(quán)值計(jì)算;并且選擇最優(yōu)的多語(yǔ)言實(shí)體組合;此處的語(yǔ)言實(shí)體,根據(jù)形容詞修飾串、句子修飾串以及并聯(lián)結(jié)構(gòu),進(jìn)行權(quán)值計(jì)算;多個(gè)語(yǔ)言實(shí)體并排時(shí),也計(jì)算相應(yīng)的權(quán)值;
(18):將此語(yǔ)言實(shí)體分析結(jié)果進(jìn)行填充,問(wèn)句和特殊句子中的問(wèn)詞點(diǎn)和特殊檢驗(yàn)點(diǎn)的定位。并且,上傳上下文語(yǔ)言實(shí)體結(jié)果;
如:動(dòng)詞“告訴”分析完后,“語(yǔ)言實(shí)體TB3 ”中語(yǔ)串“誰(shuí)”為問(wèn)詞,所以需要進(jìn)行問(wèn)詞標(biāo)
記;
(19):句子模式轉(zhuǎn)換以及歸一化處理
按照句子類(lèi)型,以及包含單句類(lèi)型進(jìn)行模式轉(zhuǎn)換和歸一化;
如:上述動(dòng)詞“告訴”的動(dòng)詞模式“adas”直接進(jìn)行“一對(duì)一”對(duì)應(yīng)轉(zhuǎn)換,動(dòng)詞模式不變;
(20):最優(yōu)語(yǔ)義樹(shù)的輸出
對(duì)最優(yōu)的句子類(lèi)型,進(jìn)行最優(yōu)語(yǔ)義樹(shù)輸出。對(duì)于機(jī)器翻譯系統(tǒng),直接使用內(nèi)存的語(yǔ)義樹(shù)。本實(shí)施例的最優(yōu)語(yǔ)義樹(shù)為圖4所示;
(21):翻譯輸出
在目標(biāo)語(yǔ)言生成器中,從篇章到小句進(jìn)行翻譯,本實(shí)例只有一個(gè)小句;根據(jù)動(dòng)詞“告訴”的動(dòng)詞模式“adas”設(shè)計(jì)翻譯結(jié)果的格式,同時(shí)考慮到動(dòng)詞“告訴”的第三個(gè)語(yǔ)言實(shí)體為問(wèn)詞,并且此句子為問(wèn)句,所以,整體進(jìn)行特殊問(wèn)詞的提前;
最終譯文為:
“Whom does friend that has left Beijing tell that you can receive tangerineof their hometown in tomorrow ? ”;
(22):權(quán)值體系的說(shuō)明
本實(shí)施例的權(quán)值計(jì)算點(diǎn)目前有1000多個(gè),它們來(lái)源于人們的語(yǔ)言邏輯和語(yǔ)言習(xí)慣,以及上下文約束,是分布在整個(gè)“語(yǔ)言邏輯框架”中的,跟分析同步計(jì)算的;
本實(shí)施例的一些權(quán)值計(jì)算舉例如下:
<1>對(duì)“組合串Z1”中的介詞“在”進(jìn)行分析時(shí),對(duì)“語(yǔ)串D”進(jìn)行概念類(lèi)別為“ [n:dotl] ”的語(yǔ)言實(shí)體分析,當(dāng)選“昨天”為結(jié)果時(shí),因?yàn)椤霸凇笨梢詭r(shí)間邊界,且“昨天”前為空,那么加分20分;· 〈2>在“分析FC1”中,對(duì)“組合串II”,進(jìn)行2個(gè)語(yǔ)言實(shí)體分害I],會(huì)有分割結(jié)果“ {誰(shuí)} I I [在明天]你們{會(huì)} ”。其中“語(yǔ)言實(shí)體TB3”為“ {誰(shuí)} ” ;“語(yǔ)言實(shí)體TC1”為“[在明天]你們{會(huì)} ”,核心部分為“ {會(huì)} ” ;對(duì)于“語(yǔ)言實(shí)體TCl ”,核心部分“ {會(huì)} ”為情態(tài)詞,并且這個(gè)語(yǔ)言實(shí)體是動(dòng)詞的左邊部分,那么扣分100分;
〈3>在步驟(7)中,檢驗(yàn)核心動(dòng)詞“會(huì)”的時(shí)候,左邊語(yǔ)言實(shí)體分析,會(huì)有分割結(jié)果
“已經(jīng)離開(kāi)北京的朋友告訴誰(shuí)[在明天]{你們} ”,核心部分為“你們”,因?yàn)楹诵牟糠帧澳銈儭睘槿朔Q(chēng)代詞,并且不是指代組合(如“這人”),也不是反身代詞(如“本人”),這個(gè)時(shí)候,會(huì)發(fā)現(xiàn),修飾部分“已經(jīng)離開(kāi)北京的朋友告訴誰(shuí)[在明天]”存在代詞“誰(shuí)”,那么扣分100 分;
<4> “權(quán)值計(jì)算點(diǎn)”的添加,以及“權(quán)值計(jì)算點(diǎn)”處的權(quán)值調(diào)整,都是根據(jù)較全面的測(cè)試語(yǔ)句的語(yǔ)言邏輯進(jìn)行設(shè)計(jì)的。這些“權(quán)值計(jì)算點(diǎn)”形成一個(gè)完整的體系,跟自然語(yǔ)言整體邏輯相對(duì)應(yīng)。
[0040] 申請(qǐng)人:在實(shí)用的專(zhuān)利領(lǐng)域以及公共領(lǐng)域的漢英機(jī)器翻譯系統(tǒng)上對(duì)本發(fā)明“語(yǔ)言實(shí)體關(guān)系分析方法和一種機(jī)器翻譯裝置和方法”進(jìn)行了實(shí)驗(yàn)和實(shí)際應(yīng)用開(kāi)發(fā)。本系統(tǒng)既無(wú)需外在的大量的產(chǎn)生式規(guī)則,也無(wú)需海量的對(duì)齊語(yǔ)料和相應(yīng)的深加工計(jì)算資源,通過(guò)7000多句段復(fù)雜語(yǔ)料,“語(yǔ)言邏輯框架”已基本成熟,系統(tǒng)也基本可用,各方面都有明顯的優(yōu)勢(shì),特別在專(zhuān)利領(lǐng)域則更突出。系統(tǒng)代碼量近40萬(wàn)行,語(yǔ)義知識(shí)庫(kù)已經(jīng)可用,系統(tǒng)運(yùn)行速度是傳統(tǒng)系統(tǒng)的30-100倍,并且還有很大的潛力;這樣,一個(gè)高性能的語(yǔ)言分析平臺(tái)基本建立;這個(gè)方案在系統(tǒng)性能和工程實(shí)施上都有十分顯著的優(yōu)勢(shì)。
[0041 ] 最后所應(yīng)說(shuō)明的是,以上通過(guò)本發(fā)明的具體實(shí)施例對(duì)本發(fā)明的理論原理和技術(shù)方案以及有益效果進(jìn)行了詳細(xì)的說(shuō)明。本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換或者改進(jìn),均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種語(yǔ)言實(shí)體關(guān)系分析方法,其特征在于包括以下步驟: (1):對(duì)輸入的語(yǔ)句進(jìn)行篇章、段落、大句分割,進(jìn)行步驟(2);然后,在段落、大句范圍內(nèi),進(jìn)行缺省指代等知識(shí)計(jì)算; (2):對(duì)大句分割成小句,進(jìn)行步驟(3); (3):小句中的內(nèi)嵌處理調(diào)用步驟(2);內(nèi)嵌處理完,進(jìn)行步驟(4); (4):對(duì)小句進(jìn)行分詞,如果有歧義,那么形成有限數(shù)目的子句,并對(duì)每個(gè)子句計(jì)算分詞歧義權(quán)值,對(duì)每個(gè)子句進(jìn)行預(yù)處理(數(shù)字,數(shù)量短語(yǔ),特殊組合短語(yǔ),時(shí)間短語(yǔ),超長(zhǎng)子句處理),對(duì)每個(gè)子句進(jìn)行步驟(5);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)小句; (5):對(duì)子句讀取語(yǔ)義知識(shí)庫(kù)信息,對(duì)動(dòng)詞、可作模擬動(dòng)詞處理的形容詞和數(shù)量短語(yǔ)、介詞、可帶子句的連詞等建立分析啟動(dòng)結(jié)構(gòu);進(jìn)行步驟(6); (6):對(duì)子句語(yǔ)串進(jìn)行單句,并聯(lián)句,形容詞句,數(shù)量短語(yǔ)句,連動(dòng)句,單實(shí)體句等分析;對(duì)于那些具有句子模式的句子,都能將其分解成為單句、多個(gè)單句,進(jìn)行步驟(7);對(duì)于單實(shí)體句,進(jìn)行步驟(10);在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)分析結(jié)果; (7):單句多動(dòng)詞處理,對(duì)子句中的多個(gè)動(dòng)詞,計(jì)算優(yōu)先權(quán)值,進(jìn)行步驟(8);多個(gè)動(dòng)詞處理完,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)核心動(dòng)詞; (8):動(dòng)詞多義處理,對(duì)于動(dòng)詞的多種意義,分別進(jìn)行步驟(9);動(dòng)詞多義處理完后,在此層次進(jìn)行相應(yīng)的權(quán)值計(jì)算,選出最優(yōu)動(dòng)詞單義; (9):動(dòng)詞多種關(guān)系模式處理,每個(gè)動(dòng)詞除有自己的基本句子關(guān)系模式外,還有變形句子關(guān)系模式,變形句子關(guān)系模式可以由程序按照基本句子關(guān)系模式自動(dòng)生成;按照每個(gè)模式的語(yǔ)言實(shí)體情況,對(duì)每個(gè)語(yǔ)言實(shí)體部分,進(jìn)行步驟(10),每個(gè)模式處理完,計(jì)算出這個(gè)模式的權(quán)值,這包括這個(gè)模式的多個(gè)語(yǔ)言實(shí)體的關(guān)聯(lián)和這個(gè)模式的上下文方面的權(quán)值,以及一些特殊模式自身的權(quán)值計(jì)算;多種可能的模式處理完后,選出最優(yōu)動(dòng)詞關(guān)系模式; (10):語(yǔ)言實(shí)體處理分別有:純語(yǔ)言實(shí)體分析,空語(yǔ)言實(shí)體分析(可以有副詞串),句子語(yǔ)言實(shí)體分析;如果是句子語(yǔ)言實(shí)體分析,填充上下文,調(diào)用步驟(6);如果是空語(yǔ)言實(shí)體分析,那么進(jìn)行步驟(11),步驟(12)后,進(jìn)行全副詞串分析,并計(jì)算權(quán)值;如果是純語(yǔ)言實(shí)體分析,調(diào)用步驟(11),步驟(12),步驟(13),步驟(17),步驟(18),進(jìn)行本語(yǔ)言實(shí)體的權(quán)值計(jì)算; (11):命名實(shí)體組合,進(jìn)行特殊名詞組合串、人名識(shí)別、地點(diǎn)識(shí)別、機(jī)構(gòu)識(shí)別、特殊副詞串識(shí)別、特殊形容詞串識(shí)別、復(fù)雜組合結(jié)構(gòu)等識(shí)別;得到多個(gè)組合串,對(duì)每個(gè)組合串進(jìn)行步驟(12)處理; (12):介詞組合結(jié)構(gòu)處理:對(duì)多個(gè)介詞,從右向左進(jìn)行遞歸組合處理,介詞類(lèi)似動(dòng)詞模式,可以帶語(yǔ)言實(shí)體,可以帶句子,并且分別都可以帶后邊界;如果是帶語(yǔ)言實(shí)體,那么調(diào)用步驟(13);如果是句子調(diào)用步驟(6);介詞的模式檢驗(yàn)在動(dòng)詞模式上下文下進(jìn)行時(shí),需要填充“需要進(jìn)行的額外語(yǔ)言實(shí)體計(jì)算”的上下文; (13):多語(yǔ)言實(shí)體分析,對(duì)語(yǔ)串片段按照特殊關(guān)聯(lián)詞(如漢語(yǔ)“的,和,或,”等,英語(yǔ)“that從句”等)進(jìn)行劃分,得到單個(gè)語(yǔ)言實(shí)體、多個(gè)語(yǔ)言實(shí)體、形容詞修飾串、句子修飾串;對(duì)于單個(gè)實(shí)體、多個(gè)語(yǔ)言實(shí)體進(jìn)行步驟(14)處理,對(duì)于形容詞修飾串進(jìn)行步驟(15);對(duì)句子修飾串進(jìn)行步驟(16)處理; (14):語(yǔ)言實(shí)體分割,對(duì)此時(shí)語(yǔ)串按照上下文進(jìn)行多語(yǔ)言實(shí)體分割,并對(duì)每個(gè)語(yǔ)言實(shí)體計(jì)算權(quán)值(根據(jù)語(yǔ)言實(shí)體內(nèi)形容詞、副詞、核心部分等來(lái)設(shè)計(jì)權(quán)值,并且當(dāng)形容詞部分含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí),進(jìn)行相應(yīng)的權(quán)值計(jì)算),并且計(jì)算這個(gè)多語(yǔ)言實(shí)體組合的權(quán)值;如果有并聯(lián)關(guān)系,那么建立語(yǔ)言實(shí)體并聯(lián)描述結(jié)構(gòu),并計(jì)算相應(yīng)的權(quán)值; (15):形容詞修飾串的分析 對(duì)形容詞修飾串,配合上下文進(jìn)行分割檢驗(yàn),并建立形容詞修飾描述結(jié)構(gòu),如果有并聯(lián),建立形容詞修飾串并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;此處權(quán)值計(jì)算需要根據(jù)形容詞串包含詞類(lèi)情況,特別是當(dāng)形容詞修飾串含有一般動(dòng)詞、特殊動(dòng)詞、特殊動(dòng)詞搭配、非形容詞詞類(lèi)時(shí);根據(jù)形容詞修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算形容詞修飾串并聯(lián)情況時(shí),(比如:“我和我的父親”,“我父親和小明的父親”),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算; (16):句子修飾串的分析 對(duì)句子修飾串,配合上下文進(jìn)行檢驗(yàn),調(diào)用步驟出);并建立句子修飾描述結(jié)構(gòu),如果有并聯(lián),建立句子修飾并聯(lián)描述結(jié)構(gòu),并計(jì)算權(quán)值;根據(jù)句子修飾串跟所修飾的語(yǔ)言實(shí)體,計(jì)算相應(yīng)的權(quán)值;當(dāng)需要計(jì)算句子修飾串并聯(lián)情況時(shí),需要進(jìn)行相應(yīng)的權(quán)值計(jì)算; (17):多語(yǔ)言實(shí)體和它們的修飾部分的整理 對(duì)分析后的多語(yǔ)言實(shí)體,形容詞修飾串,句子修飾串,以及相應(yīng)的并聯(lián)描述結(jié)構(gòu),進(jìn)行整理,對(duì)每個(gè)語(yǔ)言實(shí)體,建立起一個(gè)單個(gè)語(yǔ)言實(shí)體描述結(jié)構(gòu),此結(jié)構(gòu)包括此語(yǔ)言實(shí)體本身以及修飾這個(gè)語(yǔ)言實(shí)體的形容詞修飾部分和句子修飾部分以及并聯(lián)描述;并且在這個(gè)層次,對(duì)語(yǔ)言實(shí)體進(jìn)行權(quán)值計(jì)算;并且選擇最優(yōu)的多語(yǔ)言實(shí)體組合;此處的語(yǔ)言實(shí)體,根據(jù)形容詞修飾串、句子修飾 串以及并聯(lián)結(jié)構(gòu),進(jìn)行權(quán)值計(jì)算;多個(gè)語(yǔ)言實(shí)體并排時(shí),也計(jì)算相應(yīng)的權(quán)值; (18):將此語(yǔ)言實(shí)體分析結(jié)果進(jìn)行填充,并進(jìn)行問(wèn)句和特殊句子中的問(wèn)詞點(diǎn)和特殊檢驗(yàn)點(diǎn)的定位;并且,上傳上下文語(yǔ)言實(shí)體分析結(jié)果; (19):句子模式轉(zhuǎn)換以及歸一化處理 按照句子類(lèi)型以及所包含的單句類(lèi)型進(jìn)行模式轉(zhuǎn)換和歸一化; (20):最優(yōu)語(yǔ)義樹(shù)的輸出 對(duì)最優(yōu)的句子類(lèi)型,進(jìn)行最優(yōu)語(yǔ)義樹(shù)輸出;對(duì)于機(jī)器翻譯系統(tǒng),直接使用系統(tǒng)內(nèi)存中的最優(yōu)語(yǔ)義樹(shù)。
2.一種基于語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯方法,其步驟包括: (1)創(chuàng)建語(yǔ)義知識(shí)庫(kù),其中,包含源語(yǔ)言單詞和短語(yǔ)以及相應(yīng)的語(yǔ)義知識(shí)和相應(yīng)的目標(biāo)語(yǔ)言譯文; (2)分析源語(yǔ)言串,得到最優(yōu)語(yǔ)義樹(shù); (3)對(duì)所得最優(yōu)語(yǔ)義樹(shù),根據(jù)此語(yǔ)義樹(shù)本身的句子類(lèi)型和動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,得到最終譯文。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟(1)中,所述語(yǔ)義知識(shí)庫(kù)中存儲(chǔ)的詞條按照翻譯系統(tǒng)的要求進(jìn)行標(biāo)注,注明相關(guān)的語(yǔ)義信息。
4.如權(quán)利要求2所述的方法,其特征在于,所述步驟(2)中,通過(guò)語(yǔ)言實(shí)體關(guān)系分析器對(duì)源語(yǔ)言進(jìn)行分析,所述語(yǔ)言實(shí)體關(guān)系分析器是根據(jù)權(quán)利要求1中所述的方法建造的。
5.一種基于語(yǔ)言實(shí)體關(guān)系分析方法的機(jī)器翻譯裝置,其特征在于,包括: 語(yǔ)義知識(shí)庫(kù)模塊:用于存儲(chǔ)源語(yǔ)言單詞和短語(yǔ)以及相應(yīng)的語(yǔ)義知識(shí)和相應(yīng)的目標(biāo)語(yǔ)言譯文; 語(yǔ)言實(shí)體關(guān)系分析器:連接語(yǔ)義知識(shí)模塊,用于按照語(yǔ)言實(shí)體關(guān)系分析方法對(duì)原文進(jìn)行分析,得到最優(yōu)語(yǔ)義樹(shù); 目標(biāo)語(yǔ)言生成器:連接語(yǔ)義實(shí)體關(guān)系分析器,用于根據(jù)上述得到的最優(yōu)語(yǔ)義樹(shù)本身的句子類(lèi)型以及動(dòng)詞關(guān)系模式類(lèi)型進(jìn)行譯文生成,最終得到譯文;譯文的質(zhì)量?jī)?yōu)化,采用動(dòng)賓短語(yǔ)搭配譯文優(yōu)化,定中短語(yǔ)譯文優(yōu)化等優(yōu)化,以及利用詞庫(kù)中已經(jīng)存在的組合詞組對(duì)遠(yuǎn)距離動(dòng)賓結(jié)構(gòu)等進(jìn)行譯文優(yōu)化,這些`優(yōu)化措施將會(huì)大幅提高譯文的流利度。
【文檔編號(hào)】G06F17/27GK103631770SQ201310649137
【公開(kāi)日】2014年3月12日 申請(qǐng)日期:2013年12月6日 優(yōu)先權(quán)日:2013年12月6日
【發(fā)明者】劉建勇, 董亦農(nóng), 尹德春 申請(qǐng)人:劉建勇, 董亦農(nóng), 尹德春