專利名稱:復雜上下文相關處理技術的制作方法
技術領域:
本發(fā)明涉及機器翻譯中的復雜上下文相關處理技術,屬于機器翻譯技術領域。
復雜上下文相關處理是解決機器翻譯中多義問題的主要手段。目前,絕大多數(shù)機譯系統(tǒng)都回避了復雜上下文相關處理問題,而涉及上下文相關處理的一些理論,基本上也是無法實現(xiàn)的。
同樣,在基于規(guī)則的機器翻譯系統(tǒng)中,也很難處理復雜上下文相關問題。大多數(shù)機譯系統(tǒng)只處理復雜相關問題中的最簡單的情況,還有一些系統(tǒng)采用了程序包的方法,通過滾雪球的辦法不斷增加子程序來解決上下文相關問題。但從根本上說,它們并不能滿足復雜上下文相關問題的處理,原因是效率太低,而且就事論事,遇到一種情況就加入一個子程序,給程序維護增加很大難度。另外,在子程序太多時,很難區(qū)分不同情況,帶來了程序應用方面的模糊性。
因此,如何實現(xiàn)復雜上下文相關處理,便成為當前國內(nèi)外機譯研究的重要課題。
本發(fā)明的目的旨在提供一種復雜上下文相關處理技術,該技術可將全局問題局部化處理,既提高了區(qū)分多義的處理能力,又簡化了復雜上下文相關的處理。
下面首先給出復雜上下文相關定義復雜上下文相關可定義為一個結構成分(或意段)的特征的選擇與其左部和/或右部某一位置的結構成分(和/或意段)的特性有關,具體可分為以下幾種情況(1)Property(A)<-context(L,B) & Property(B)成分A的特性與左部特定位置L的成分B的特性相關。
(2)Property(A)<-context(XL,B) & Property(B)成分A的特性與左部任意位置XL的成分B的特性相關。
(3)Property(A)<-context(R,B) & Property(B)成分A的特性與右部特定位置R的成分B的特性相關。
(4)Property(A)<-context(XR,B) & Property(B)成分A的特性與右部任意位置XR的成分B的特性相關。
上述情況中,B的特性只是臨時用來決定A在句子中應表現(xiàn)的特性,而不決定B本身在句子中出現(xiàn)的特性。
本發(fā)明是通過如下方法實現(xiàn)的(一)把上述與規(guī)則頭部模式和詞條有關的上下文相關信息以函數(shù)的形式分別定義在規(guī)則和詞條中。
(1)在規(guī)則中建立上下文相關函數(shù),規(guī)則的形式為<頭部>-><上下文相關函數(shù)>,<右部>,<轉(zhuǎn)換體>
其中<頭部>為被歸約成分,<右部>為當前歸約結果,<轉(zhuǎn)換體>對應于該次歸約的轉(zhuǎn)換體,<上下文相關函數(shù)>為若干個上下文相關函數(shù)。
(2)在字典中建立上下文相關函數(shù),字典中每個單詞的形式為入口單詞 特征集合1 上下文相關函數(shù)11 譯文11特征集合1 上下文相關函數(shù)12 譯文12特征集合2 上下文相關函數(shù)21 譯文21(二)上下文相關函數(shù)既定義了上下文相關信息,同時它也是嵌入規(guī)則和詞條數(shù)據(jù)中的一種操作。其中,上下文相關信息包含了當前頭部模式(或詞條)在當前歸約結果下與其相關的成分特性及其位置。
在規(guī)則中定義了上下文相關信息后,復雜上下文相關問題即可通過在不同規(guī)則中調(diào)用上下文相關函數(shù)來解決。由于不同規(guī)則應用時頭部模式不同,而且調(diào)用上下文相關函數(shù)的參數(shù)也不同,因而上下文相關函數(shù)在不同時刻執(zhí)行的效果也就不同,自然就區(qū)別了不同情況。
上下文相關函數(shù)被執(zhí)行時,根據(jù)調(diào)用參數(shù)的要求在當前歸約模式中查找所需成分及其特性;若查找范圍還未歸約,則先調(diào)用系統(tǒng)翻譯處理機制本身對當前模式中相應內(nèi)容進行歸約,然后再查找所需成分及其特性,上下文相關條件成立,才對規(guī)則頭部進行歸約。
(三)詞條中的上下文相關處理與規(guī)則類似。
本發(fā)明采用數(shù)據(jù)與操作一體化的技術,在規(guī)則和字典嵌入上下文相關信息及上下文相關操作,使上下文相關處理情況的判定只局限于其所對應的當前模式有關的情況,從而減少了操作的模糊性。這樣就實現(xiàn)了全局問題局部化處理,既提高了區(qū)分多義的處理能力,又簡化了復雜上下文相關的處理,有效地解決了復雜上下文相關處理這一難題。
以下結合附圖和發(fā)明實例對本發(fā)明作詳細描述。
圖1是本發(fā)明的算法流程圖;圖2和圖3均為歸約過程中生成的結構樹。
本發(fā)明是使用普通計算機實現(xiàn)的,其步驟為一.在規(guī)則和字典中嵌入上下文相關信息及上下文相關操作1.在規(guī)則中建立上下文相關函數(shù)規(guī)則的形式為<頭部>-><上下文相關函數(shù)>,<右部>,<轉(zhuǎn)換體>.
其中<頭部>為被歸約成分,<右部>為當前歸約結果,<轉(zhuǎn)換體>對應于該次歸約的轉(zhuǎn)換體。<上下文相關函數(shù)>為若干個函數(shù),函數(shù)具體形式如下SEARCH(DIRECTION,RANGE,COMPONENT)其中,SEARCH表示查找相應成分,DIRECTION為L或R,分別表示向左或向右搜索,RANGE為左部或右部的某一特定范圍,表示搜索范圍,COMPONENT為相關成分及其所應具備的特性。
2.在字典中建立上下文相關函數(shù)字典中每個單詞的形式為入口單詞 特征集合1 上下文相關函數(shù)11譯文11特征集合1 上下文相關函數(shù)1n譯文1n特征集合2 上下文相關函數(shù)21譯文21單詞可具有不同的特征集合。在具有相同特征集但不同的上下文情況下,可能有不同的譯文。
詞條中的上下文相關函數(shù)和規(guī)則中的上下文相關函數(shù)形式完全一樣。
二.對每一條規(guī)則,首先進行頭部匹配,若匹配成功,則執(zhí)行下述算法流程(參見圖1)(1)置當前SEARCH函數(shù)下標為0。
(2)當前SEARCH函數(shù)下標加1。若該下標對應SEARCH為空,則本次匹配成功結束。否則,轉(zhuǎn)步驟(3)。
(3)若該SEARCH函數(shù)規(guī)定的查找范圍已歸約成功,則在此范圍內(nèi)判定規(guī)定的查找成分是否存在;否則執(zhí)行(4)。
若規(guī)定的查找成分存在,則轉(zhuǎn)(2);否則,本次匹配失敗結束。
(4)若該SEARCH函數(shù)規(guī)定的查找范圍還未歸約成功,則調(diào)用翻譯處理機制對該段進行超前分析,即對該段提前進行歸約。
(5)在超前分析的結果內(nèi),判定規(guī)定的查找成分是否存在。若該條件測試成功,則轉(zhuǎn)(2);若該條件測試不成功,本次匹配失敗結束。
三.詞條中的上下文相關處理與規(guī)則類似。
下面舉例說明本發(fā)明算法的執(zhí)行過程。
將句子“We know this computer.”和“We call this computer.”翻譯成中文。這兩句中均出現(xiàn)單詞this,但其用法不同。假設現(xiàn)有字典詞條1weNP “我們”詞條2know VP(V1) “知道”詞條3call VP(V2) “稱...為”詞條4this Q “這”詞條5computer NP(臺) “計算機”
現(xiàn)有規(guī)則規(guī)則1Q NP(臺)->Search(L,(1,1),VP(V1)),NP,Q臺NP規(guī)則2Q->Search(L,(1,1),VP(V2)),NP,Q.
規(guī)則3NP VP(V1) NP->,S,NP VP NP.
規(guī)則4NP VP(V2) NP NP->,S,NP VP NP NP其中,V1表示單賓語動詞,V2表示雙賓語動詞,NP表示名詞短語,VP表示動詞短語,Q表示限定詞,S表示句子。
對第一個句子進行如下歸約(1)使用詞條1、2、4、5將句子歸約為NP VP(V1)Q NP(臺).
(2)對于意段Q NP(臺),其左邊為VP(V1),規(guī)則1的上下文條件可滿足,因而使用規(guī)則1將Q NP(臺)歸約為NP。得到句子歸約結果為NP VP(V1)NP。
(3)使用規(guī)則3將NP VP(V1)NP歸約為S。
歸約過程中生成的結構樹如圖2所示。
根據(jù)規(guī)則1和3以及詞條1、2、4、5,該句的譯文為“我們知道這臺計算機”。
對第二個句子進行如下歸約(1)使用詞條1、3、4、5將句子歸約為NP VP(V2)Q NP(臺).
(2)對于意段Q,其左邊為VP(V2),規(guī)則2的上下文條件可滿足,因而使用規(guī)則2將Q歸約為NP。得到句子歸約結果為NP VP(V2)NP NP(臺)。
(3)使用規(guī)則4將NP VP(V2)NP NP(臺)歸約為S。
歸約過程中生成的結構樹如圖3所示。
根據(jù)規(guī)則2和4以及詞條1、3、4、5,該句的譯文為“我們稱這為計算機”。
由此可以看出this在不同的上下文環(huán)境下其用法也不相同。
權利要求
1.一種使用計算機進行的復雜上下文相關處理技術,其步驟為(一)把與規(guī)則頭部模式和詞條有關的上下文相關信息以函數(shù)的形式分別定義在規(guī)則和詞條中(1)在規(guī)則中建立上下文相關函數(shù)規(guī)則的形式為<頭部>-><上下文相關函數(shù)>,<右部>,<轉(zhuǎn)換體>其中<頭部>為被歸約成分,<右部>為當前歸約結果,<轉(zhuǎn)換體>對應于該次歸約的轉(zhuǎn)換體,<上下文相關函數(shù)>為若干個上下文相關函數(shù),(2)在字典中建立上下文相關函數(shù)字典中每個單詞的形式為入口單詞 特征集合1 上下文相關函數(shù)11 譯文11特征集合1 上下文相關函數(shù)12 譯文12特征集合2 上下文相關函數(shù)21 譯文21(二)對每一條規(guī)則,首先進行頭部匹配,若匹配成功,則執(zhí)行句中上下文相關函數(shù),根據(jù)上下文相關函數(shù)中調(diào)用參數(shù)的要求在當前歸約模式中查找所需成分及其特性,若查找范圍還未歸約,則先調(diào)用系統(tǒng)翻譯處理機制本身對當前模式中相應內(nèi)容進行歸約,然后再查找所需成分及其特性,上下文相關條件成立,才對規(guī)則頭部進行歸約;(三)詞條中的上下文相關處理與規(guī)則類似。
全文摘要
本發(fā)明技術的步驟為:1.在規(guī)則和字典中嵌入上下文相關信息及上下文相關操作,規(guī)則的形式為:<頭部>→<上下文相關函數(shù)>,<右部>,<轉(zhuǎn)換體>;字典中每個單詞的形式為:入口單詞,特征集合,上下文相關函數(shù),譯文;2.對每一條規(guī)則,首先進行頭部匹配,若匹配成功,則執(zhí)行規(guī)則中的上下文相關函數(shù),以判定當前頭部模式的上下文相關條件是否成立,若成立才對當前模式中內(nèi)容進行歸約;3.與規(guī)則類似,進行詞條中的上下文相關處理。本發(fā)明采用數(shù)據(jù)與操作一體化的技術,有效地解決了復雜上下文相關處理這一難題。
文檔編號G06F17/28GK1180203SQ9711194
公開日1998年4月29日 申請日期1997年7月2日 優(yōu)先權日1997年7月2日
發(fā)明者陳肇雄 申請人:陳肇雄