專利名稱:翻譯裝置及信息處理方法
技術領域:
本發(fā)明涉及翻譯裝置及信息處理方法。 技術領域
為了提高翻譯效率,目前已經存在一種搜索與要翻譯的原始句子相
似的句子的相似句子搜索裝置(例如,參見日本未審專利公報No.2005-107597)。
這種相似句子搜索裝置的特征在于包括用于存儲例句的存儲器、
用于接收要翻譯的句子的接收單元,以及基于該接收單元接收到的句子
與存儲在該存儲器中的每個句子之間的相似度來輸出存儲在該存儲器中 的其中一個例句的輸出單元。
相似度用這樣的值來表示,該值是通過用存在于要翻譯的句子中并
出現在存儲于該存儲器中的每個例句中的單詞(word)的數量除以要翻
譯的句子中的單詞的數量而獲得的。
目前還存在一種自動翻譯裝置,該自動翻譯裝置搜索語義結構與要 翻譯的原始句子的詞素之間的語義結構相似的例句,并基于檢測到的例
句來翻譯原始句子(例如,參見日本未審專利公報No.06-83864)。
這種自動翻譯裝置的特征在于包括用于輸入要翻譯的原始句子的 輸入單元、用于選擇語義結構與該原始句子的詞素之間的語義結構相似 的例句的選擇單元、用于根據所選的例句來翻譯該原始句子的翻譯單元, 以及用于顯示該翻譯單元執(zhí)行的翻譯結果的顯示器。
此外,目前還存在一種利用翻譯句子模式來執(zhí)行翻譯操作的翻譯裝 置,該翻譯句子模式是根據日語句子和從日語句子翻譯過來的句子之間 的公共特征而形成的(例如,參見日本未審專利公報No.08-87506)。
這種翻譯裝置的特征在于包括模式翻譯單元,用于利用包括固定部分和自由部分的翻譯句子模式來翻譯句子,該固定部分是輸入句子的
字符串,而該自由部分是該固定部分以外的字符串;以及模式鏈接單元, 用于將該翻譯句子模式與具有與該翻譯句子模式相同的固定部分的任意 句子相關聯(lián),即使該句子沒有自由部分,從而該模式翻譯單元可以利用 單個翻譯句子模式來翻譯一個以上的句子。
因此,本發(fā)明的目的是提供一種可以用少量計算來進行準確翻譯的 翻譯裝置及信息處理方法。
發(fā)明內容
本發(fā)明的第一方面提供了一種翻譯裝置,該翻譯裝置包括存儲器,
用于存儲形成例句模式的字符串和形成從該例句模式翻譯過來的翻譯例 句模式的字符串,其中基于形成句子的字符串將例句歸類在該例句模式 下,形成該例句模式的字符串與形成該翻譯例句模式的字符串基于字符
串的含義而關聯(lián);轉換單元,用于利用表示形成要翻譯的輸入句子的字 符串與形成存儲在該存儲器中的該例句模式的字符串之間的含義差異度 的第一指標將該輸入句子轉換成這樣的句子,該句子包括與由歸類在該 例句模式下的例句共享的公共字符串相對應的公共部分和不是該公共部 分的非公共部分;計算單元,用于根據使經該轉換單元轉換后的句子的 非公共部分與該例句模式的公共字符串以外的非公共字符串相關聯(lián)的規(guī) 則,并根據表示這些非公共部分與這些非公共字符串之間差異的第一指 標,來計算表示該輸入句子與該例句模式之間的差異度的第二指標;提 取單元,用于根據該計算單元計算出的第二指標來提取該輸入句子被歸 類到的例句模式,并使經該轉換單元轉換后的句子的非公共部分與該提 取單元所提取的例句模式的非公共字符串相關聯(lián);以及翻譯單元,用于 根據使該輸入句子的非公共部分與形成該翻譯例句模式的字符串相關聯(lián) 的映射來翻譯該輸入句子,形成該翻譯例句模式的該字符串存儲在該存 儲器中并與該提取單元所提取的例句模式的非公共字符串相關聯(lián)。
根據本發(fā)明的第一方面,基于一種映射來翻譯輸入句子,該映射不 僅使翻譯例句模式的字符串與例句模式的字符串相關聯(lián),而且使該輸入句子的非公共部分與該輸入句子被歸類到的例句模式的非公共字符串相 關聯(lián)。因此,可以用少量的計算來進行準確的翻譯。
根據本發(fā)明的第二方面,該翻譯裝置可以被配置成,該計算單元根 據以下規(guī)則中的一個或更多個來計算第二指標將該例句模式的一個或 更多個公共字符串和非公共字符串映射為經該轉換單元轉換后的句子的 一個或更多個公共部分和非公共部分,并用這些公共部分以一對一無交
叉(crisscross)對應方式來替換這些公共字符串的規(guī)則;將該例句模式 的一個或更多個公共字符串和非公共字符串映射為經該轉換單元轉換后 的句子的一個或更多個公共部分和非公共部分,并用這些非公共部分以 一對一無交叉方式來替換這些非公共字符串的規(guī)則;將該例句模式的一 個或更多個公共字符串和非公共字符串映射為經該轉換單元轉換后的句 子的一個或更多個公共部分和非公共部分,并刪除一個或更多個公共字 符串和非公共字符串的規(guī)則;以及將該例句模式的一個或更多個公共字 符串和非公共字符串映射為經該轉換單元轉換后的句子的一個或更多個 公共部分和非公共部分,并插入一個或更多個非公共字符串和非公共部 分的規(guī)則。
根據本發(fā)明的第二方面,根據將該例句模式的該字符串映射為該輸 入句子的字符串的規(guī)則來計算要用于提取該輸入句子被歸類到的例句模 式的第二指標。因此,可以非常準確地將輸入句子定量地歸類到例句模式。
根據本發(fā)明的第三方面,該翻譯裝置可以被配置成,與該輸入句子 的字符串是該例句模式的公共字符串的同義詞的情況相比,在該輸入句 子的字符串與該例句模式的公共字符串不相同并且不是該公共字符串的
同義詞的情況下,第一指標表示更高的差異度。
根據本發(fā)明的第三方面,與互為同義詞的兩個字符串之間的含義的 差異度相比,在互不相同并相互不為同義詞的兩個字符串的含義之間, 第一指標表示更高的含義差異度。因此,可以非常準確地表示含義上的 差異。
根據本發(fā)明的第四方面,該翻譯裝置還可以包括搜索單元,該搜索 單元用于檢測包括在該輸入句子中使用的單詞的例句模式,其中該提取單元從該搜索單元檢測到的例句模式中提取該輸入句子被歸類到的例句 模式。
根據本發(fā)明的第四方面,將每個輸入句子都歸類到包括與該輸入句子 中相同的單詞的例句模式下。因此,可以用少量計算來進行準確的翻譯。
根據本發(fā)明的第五方面,該翻譯裝置可以被配置成,該提取單元根 據公共字符串與非公共字符串在該例句模式中的使用順序以及公共部分 與非公共部分在該輸入句子中的使用順序,使非公共字符串與非公共部 分相關聯(lián)。
根據本發(fā)明的第五方面,根據非公共字符串在例句模式中的使用順 序和非公共部分在輸入句子中的使用順序,使非公共字符串與非公共部 分相關聯(lián)。因此,可以非常準確地使非公共字符串與非公共部分相關聯(lián)。
本發(fā)明的第六方面提供了一種使計算機執(zhí)行用于進行翻譯操作的處 理的信息處理方法,該處理包括以下步驟存儲形成例句模式的字符串 和形成從該例句模式翻譯過來的翻譯例句模式的字符串,其中基于形成 句子的字符串將例句歸類在該例句模式下,形成該例句模式的字符串與 形成該翻譯例句模式的字符串基于字符串的含義而關聯(lián);利用表示形成 要翻譯的輸入句子的字符串與形成所存儲的例句模式的字符串之間的含 義差異度的第一指標將該輸入句子轉換成這樣的句子,該句子包括與由 歸類在該例句模式下的例句共享的公共字符串相對應的公共部分和不是 該公共部分的非公共部分;根據使轉換后的句子的非公共部分與該例句 模式的公共字符串以外的非公共字符串相關聯(lián)的規(guī)則,并根據表示這些 非公共部分與這些非公共字符串之間差異的第一指標,來計算表示該輸 入句子與該例句模式之間的差異度的第二指標;根據第二指標來提取該 輸入句子被歸類到的例句模式,并使轉換后的句子的非公共部分與所提 取的例句模式的非公共字符串相關聯(lián);以及根據使該輸入句子的非公共 部分與形成該翻譯例句模式的字符串相關聯(lián)的映射來翻譯該輸入句子, 形成該翻譯例句模式的字符串被存儲并與所提取的例句模式的非公共字 符串被相關聯(lián)。
根據本發(fā)明的第六方面,基于一種映射來翻譯輸入句子,該映射不僅使翻譯例句模式的字符串與例句模式的字符串相關聯(lián),而且使該輸入 句子的非公共部分與該輸入句子被歸類到的例句模式的非公共字符串相 關聯(lián)。因此,可以用少量的計算來進行準確的翻譯。
下面將基于以下圖來詳細描述本發(fā)明的示范實施方式,附圖中 圖1例示了包括本發(fā)明的翻譯裝置的翻譯系統(tǒng)的一個示范實施方式 的結構;
圖2例示了本發(fā)明的翻譯裝置的示例性結構;
圖3例示了用于實現軟件控制的翻譯裝置的硬件的示例性結構;
圖4示出了例句模式;
圖5例示了存儲在存儲器中的雙語(bilingual)例句模式字典的示例 性結構;
圖6示出了存儲在存儲器中的搜索樹的例子; 圖7是示出搜索單元的示例性結構的功能框圖8示出了形成要被轉換單元轉換的輸入句子的字符串,以及轉換 后的字符串;
圖9是示出了轉換單元要進行的轉換操作的一部分的流程圖; 圖IO是示出了轉換單元要進行的轉換操作的剩余部分的流程圖; 圖ll是示出了轉換單元要進行的用來計算權重的權重計算操作的一 部分的流程圖12是示出了轉換單元要進行的用來計算權重的權重計算操作的 剩余部分的流程圖13是示出了計算單元要進行的距離計算操作的一部分的流程圖; 圖14是示出了計算單元要進行的距離計算操作的另一部分的流程
圖15是示出了計算單元要進行的距離計算操作的再一部分的流程
圖16是示出了計算單元要進行的距離計算操作的剩余部分的流程圖17是示出了提取單元的示例性結構的功能框圖18例示了關系鑒別單元要進行的關系鑒別操作的例子;
圖19是示出了關系鑒別單元要進行的關系鑒別操作的一部分的流
程圖20是示出了關系鑒別單元要進行的關系鑒別操作的另一部分的 流程圖21是示出了關系鑒別單元要進行的關系鑒別操作的再一部分的 流程圖22是示出了關系鑒別單元要進行的關系鑒別操作的剩余部分的 流程圖23是示出了關系選擇單元要進行的關系選擇操作的一部分的流
程圖24是示出了關系選擇單元要進行的關系選擇操作的剩余部分的 流程圖25例示了翻譯單元用來進行翻譯的映射;而
圖26是示出了本發(fā)明第二示范實施方式中單詞搜索單元要進行的 哈希(hashing)操作的流程圖。
具體實施例方式
以下是參照附圖對本發(fā)明的示范實施方式的描述。 [第一示范實施方式]
圖1例示了包括本發(fā)明的翻譯裝置的翻譯系統(tǒng)的示范實施方式的結構。
圖1中示出的翻譯系統(tǒng)IO包括翻譯裝置1000、顯示裝置2000以及 輸入裝置3000。
例如,翻譯裝置IOOO可以是個人計算機,并且連接到顯示裝置2000 和輸入裝置3000。
翻譯裝置1000從輸入裝置3000獲取第一語言的句子,并將該句子翻譯成第二語言。然后,翻譯裝置1000使顯示裝置2000顯示翻譯出的 句子。
在該示范實施方式中,語言不僅包括諸如漢語、日語以及英語的自 然語言,而且包括諸如世界語的人造語言。
在該示范實施方式中,第一語言為日語,第二語言為漢語。然而, 本發(fā)明并不限于這種語言組合,只要第一語言和第二語言是不同的語言 即可。例如,第一語言可以為漢語,而第二語言可以為日語。
現在參照圖2來描述翻譯裝置1000的結構。圖2示出了翻譯裝置 1000的示例性結構。
圖2中示出的翻譯裝置1000包括存儲器1100、分析單元1200、搜 索單元1300、轉換單元1400、計算單元1500、提取單元1600以及翻譯 單元1700。
可以通過翻譯裝置1000所執(zhí)行的軟件控制來實現分析單元1200、 搜索單元1300、轉換單元1400、計算單元1500、提取單元1600以及翻 譯單元1700的功能。
現在參照圖3來描述執(zhí)行軟件控制的翻譯裝置1000的硬件結構。圖 3示出了執(zhí)行軟件控制的翻譯裝置1000的示例性硬件結構。
翻譯裝置1000可以被形成為具有諸如CPU (中央處理單元)的操作 單元、諸如EPROM (可擦除可編程只讀存儲器)或EEPROM (電可擦 除可編程只讀存儲器)的ROM (只讀存儲器)1002、作為諸如DRAM (動 態(tài)RAM)或SRAM (靜態(tài)RAM)的易失性存儲器或者作為諸如NVRAM (非易失性RAM)的非易失性存儲器的RAM (隨機存取存儲器)1003, 以及諸如硬盤的外部存儲器1004。操作單元1001、 ROM 1002、 RAM 1003 以及外部存儲器1004通過總線彼此連接。
在軟件控制操作中,通過操作單元1001讀取作為存儲在ROM 1002 或外部存儲器1004中的程序的應用并根據該應用來執(zhí)行操作,而實現上 述組件的功能。與操作結果有關的數據被寫入RAM 1003,更具體來講, 當關閉電源時需要備份的數據被存儲在NVRAM中。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構進行說明。例如,存儲器1100可以被形成為具有RAM 1003或外部存儲器1004, 并且被連接到搜索單元1300和翻譯單元1700。存儲器1100存儲有基于 形成句子的字符串而將例句歸類成的例句模式。
現在參照圖4來描述例句模式。圖4示出了例句模式。例句SE1到 SE4被歸類在圖4所示的例句模式PE下。
例句模式PE被形成為具有固定部分PF和可變部分PV,固定部分 PF是例句中的公共單詞或從句,可變部分PV是與固定部分PF不同類型 的單詞或從句,是例句中的公共單詞類的單詞或從句。在可變部分PV處, 用諸如VI和V2的符號來表示公共單詞類的單詞或從句。
因此,例句模式PE包括被歸類在例句模式PE下的例句當中公共的 字符串(以下簡稱為公共字符串),并且用表示這些例句中不公共的字符 串(以下簡稱為非公共字符串)的符號來標記可變部分PV。非公共字符 串是例句模式PE中除公共字符串以外的字符串。
從語法上來講,從句是以從屬連詞或關系詞(relative)開始的句子, 并且通過與主語和謂語相組合而形成完整的句子。然而,在該示范實施 方式中,從句是通過組合諸如動詞、形容詞或形容動詞的單詞和諸如可 以補充該單詞的助詞、助動詞或輔助動詞的另一個單詞而形成的。在該 示范實施方式中,可以形成動詞從句、形容詞從句以及形容動詞從句。因 此,從句可以歸類為動詞從句、形容詞從句以及形容動詞從句這些從句。
更具體來講,如圖4中所示,例句模式PE包括從句SC1到SC4, 它們是"watashi-te-kudasai";單詞PC,它們是動詞"watasu"、連接助詞 "te"以及助動詞"kudsaru"。
從句SC1到SC4和包括動詞"watasu"與補充動詞"watasu"的單 詞"te"及"kudasaru"的單詞PC的從句類是動詞從句類。
每個固定部分PF都不僅包括例句當中公共的單詞或從句,還包括表 示同義詞的FIX內容信息、表示主語部分是可變部分還是固定部分的 TYPE信息、表示組成主語固定部分的每個單詞的類的類信息,以及表示 組成主語固定部分的單詞所屬的詞匯系統(tǒng)的名稱的信息。
每個可變部分PV都包括表示公共類的變量名信息、表示主語部分是可變部分還是固定部分的TYPE信息,以及表示可變部分所屬的詞匯 系統(tǒng)的名稱的信息。
在該示范實施方式中,變量名信息包括表示公共單詞類為名詞類的 名詞短語、表示公共單詞類為形容詞類的形容詞短語,以及表示公共單 詞類為動詞類的動詞短語。
在該示范實施方式中,每個可變部分PV都是具有例句當中公共的 類的單詞或從句。然而,本發(fā)明并不限于這種安排,可變部分PV可以是 表示公共屬性的內容的單詞或從句。例如,表示公共屬性的內容的單詞 或從句可以是表示時間、數量、地名或人名的單詞或從句。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
存儲器1100存儲有與翻譯例句模式相關聯(lián)的第一語言例句模式,該 翻譯例句模式是通過將第一語言例句模式翻譯成第二語言所形成的例句 模式。
存儲器1100還存儲有作為組成第一語言例句模式的單詞、從句以及 符號(以下簡稱為單詞等)的字符串。在存儲器1100中,基于各個字符 串的含義,將這些字符串與作為組成翻譯例句模式的單詞等的字符串關 聯(lián)起來,該翻譯例句模式是從第一語言例句模式翻譯過來的。
把例句模式與翻譯例句模式關聯(lián)起來的信息被稱為雙語例句模式字 典。搜索單元1300和翻譯單元1700對雙語例句模式字典進行查閱。
現在參照圖5來描述存儲在存儲器1100中的雙語例句模式字典。圖 5例示了存儲在存儲器1100中的雙語例句模式字典的示例性結構。
圖5中示出的雙語例句模式字典1110包括記錄1到n。記錄1到n 中的每一個都存儲有第一語言的例句模式A、作為通過將例句模式A翻 譯成第二語言而形成的例句模式的翻譯例句模式B、用于標識成對的例 句模式A和翻譯例句模式B (以下簡稱為翻譯模式對)的ID,以及表示 包括形成例句模式A和B的單詞的字符串之間的對應關系的對應關系信 息F2。在記錄1到n的每一個中,例句模式A與B、 ID以及對應關系信 息F2都彼此關聯(lián)。記錄1到n中沒有兩個記錄存儲了相同的翻譯模式對。
仍然參照圖5來描述記錄1到n的每一個中所存儲的對應關系信息F2。這里,例句模式A包括諸如單詞的五個字符串al到a5,而翻譯例 句模式B包括諸如單詞的六個字符串bl到b6。
對應關系信息F2利用字符串出現在例句模式A和翻譯例句模式B 中的順序來表示這些字符串之間的對應關系。
更具體來講,在例句模式A中第n個出現的字符串an具有和翻譯例 句模式B中第m個出現的字符串bm相同的含義的情況下,對應關系被 表達為"(n:m)"。
在例句模式A中第n個出現的字符串an具有和翻譯例句模式B中 第m個和第m+l個出現的兩個字符串相同的含義的情況下,對應關系被 表達為"(n:m,m+l)"。
在例句模式A中第n個和第n+1個出現的兩個字符串an和an+1具 有和翻譯例句模式B中第m個出現的字符串bm相同的含義的情況下, 對應關系被表達為"(n,n+l:m)"。
同樣,在例句模式A中第n個和第n+1個出現的兩個字符串an和 an+1具有和翻譯例句模式B中第m個和第m+1個出現的兩個字符串相 同的含義的情況下,對應關系被表達為"(n,n+l:m,m+l)"。
在該示范實施方式中,存在這么幾種情況例句模式A中使用的一 個字符串具有和翻譯例句模式中使用的一個字符串相同的含義、 一個字 符串具有和兩個字符串相同的含義、兩個字符串具有和一個字符串相同 的含義,以及兩個字符串具有和兩個字符串相同的含義。然而,本發(fā)明 并不限于這些情況。
例如,在j (j〉=l)個字符串具有和k (k>=l)個字符串相同的含義 的情況下,對應關系可以被表達為"(n,n+l,...,n+j:m,m+l,...,m+k)"。
此外,在翻譯例句模式B中并未使用具有和第n個出現在例句模式 A中的字符串an相同含義的字符串的情況下,對應關系被表達為"(n:O)"。 在例句模式A中并未使用具有和第m個出現在翻譯例句模式B中的字符 串bm相同含義的字符串的情況下,對應關系被表達為"(O:m)"。
現在參照圖6來描述對應關系信息F2(A,B)為"(1:1)、(2:3)、(3:4,5)、 (5: 6)、 (4:0)、 (0:2)"的示例性情況。對應關系信息F2 (A,B)表示了以下對應關系在例句模式A中第一個出現的字符串al具有和在翻譯 例句模式B中第一個出現的字符串bl相同的含義;在例句模式A中第 二個出現的字符串a2具有和在翻譯例句模式B中第三個出現的字符串b3 相同的含義;在例句模式A中第三個出現的字符串a3具有和在翻譯例句 模式B中第四個及第五個出現的字符串b4及b5相同的含義;在例句模 式A中第五個出現的字符串a5具有和在翻譯例句模式B中第六個出現的 字符串b6相同的含義;翻譯例句模式B中并未出現具有和例句模式A 中第四個出現的字符串a4相同含義的字符串;以及例句模式A中并未出 現具有和翻譯例句模式B中第二個出現的字符串b2相同含義的字符串。
存儲器1100還存儲有用于基于形成例句模式的單詞來搜索例句模式 的樹(以下簡稱為搜索樹)。搜索樹具有使組成例句模式的單詞與用于標 識該例句模式的標識信息關聯(lián)起來的特里(TRIE)結構。
在語言信息處理領域中,具有特里結構的樹被稱為通過組合具有公 共搜索關鍵字的字符串而形成的樹結構。如上所述,搜索單元1300對搜 索樹進行查閱。
現在參照圖6來描述存儲在存儲器1100中的搜索樹。圖6示出了存 儲在存儲器1100中的搜索樹的例子。
圖6中示出的搜索樹1120包括各表示一個字符的多個節(jié)點N,和將 這些節(jié)點帶有方向性地彼此連接起來的鏈路L。
搜索樹1120是通過三個搜索關鍵字"ai"、 "aisai"和"aisatsu"而 獲得的樹。
更具體來講,搜索關鍵字"ai"、 "aisai"和"aisatsu"當中公共的字 符串"ai"是通過組合表示字符"a"的節(jié)點NOO、表示字符"i"的節(jié)點 N01以及將節(jié)點NOO連接到節(jié)點N01的鏈路LOl而表示的。
同樣,搜索關鍵字"aisai"和"aisatsu"之間公共的字符串"aisa" 是通過組合表示字符"a"的節(jié)點NOO、表示字符"i"的節(jié)點NOl、表示 字符"sa"的節(jié)點Nll、將節(jié)點NOO連接到節(jié)點N01的鏈路LOl以及將 節(jié)點NOl連接到節(jié)點Nll的鏈路Lll而表示的。
節(jié)點N00被稱為根。因此,每個搜索關鍵字都是通過從根節(jié)點N00開始經過鏈路L所表示的路線(mute)來排列節(jié)點N所代表的字符,直 到到達具有稍后描述的單詞標志的節(jié)點N而形成的字符串。
例如,在搜索關鍵字"aisai"的情況下,該搜索關鍵字是通過從根 N00開始經過鏈路LOl、 Lll和L12所表示的路線來排列節(jié)點NOO、 NOl、 Nil和N12所代表的字符,直到到達具有單詞標志的節(jié)點N12而形成的 字符串。
在搜索樹1120中,位于主語節(jié)點N上一等級并具有延伸到該主語節(jié) 點N的鏈路L的節(jié)點N是相對于主語節(jié)點N的父節(jié)點。位于主語節(jié)點N 下一等級并具有延伸到其的鏈路L的節(jié)點N是相對于主語節(jié)點N的子節(jié) 點。位于和主語節(jié)點N相同等級并具有延伸到其的鏈路L的節(jié)點N是右 側兄弟節(jié)點。
例如,在節(jié)點Nll的情況下,對于節(jié)點Nll來講,節(jié)點NOl是父節(jié) 點,節(jié)點N21是子節(jié)點,而節(jié)點N12是右側兄弟節(jié)點。
接下來描述存儲在存儲器1100中并表示搜索樹1120的信息。
表示搜索樹1120的信息包括表示搜索樹1120的節(jié)點N的信息。表 示節(jié)點N的信息包括作為用于標識節(jié)點N的信息的節(jié)點ID;表示節(jié)點 N所代表的字符的字符信息;表示搜索關鍵字的最后一個字符的單詞標 志;表示節(jié)點N的子節(jié)點的節(jié)點ID的子節(jié)點ID;表示節(jié)點N的父節(jié)點 的節(jié)點ID的父節(jié)點ID;表示節(jié)點N的右側兄弟節(jié)點的節(jié)點ID的右側兄 弟節(jié)點ID;以及記錄ID。表示節(jié)點N的信息中的記錄ID是用于標識作 為索引矩陣中的元素的記錄的信息。
存儲器1100還存儲有索引矩陣1130。如稍后所述,搜索單元1300 對索引矩陣1130進行査閱。
在索引矩陣1130中的每個記錄內,用于標識包括相同單詞(相同搜 索關鍵字)的例句模式的信息(翻譯模式對的ID)與其中存儲了用于標 識包括該相同單詞的例句模式的其他信息的記錄的ID相關聯(lián)。這樣就形 成了列表(list)結構。
因此,表示節(jié)點N的信息中的記錄ID是與存儲了用于標識例句模 式的信息的記錄有關的標識信息,該例句模式包括由從根NOO開始到節(jié)點N的節(jié)點所代表的字符形成的搜索關鍵字。
更具體來講,如圖6中所示,表示節(jié)點N12的信息IN12中的記錄 ID是與存儲了用于標識例句模式的信息的記錄2有關的標識信息,該例 句模式包括由從根NOO開始到節(jié)點N12的節(jié)點所代表的字符形成的搜索 關鍵字"aisatsu"。
作為具體實施例,在作為索引矩陣1130的元素的記錄2中,用于標 識包括相同單詞"aisatsu"的例句模式的翻譯模式對ID與存儲了用于標 識包括相同單詞"aisatsu"的例句模式的其他信息的記錄7的記錄ID相 關聯(lián)。在記錄7中,用于標識包括單詞"aisatsu"的例句模式的翻譯模式 對ID與存儲了用于標識包括相同單詞"aisatsu"的例句模式的其他信息 的記錄12的記錄ID相關聯(lián)。這樣就形成了列表結構。
在該示范實施方式中,每個節(jié)點N都代表搜索關鍵字中的一個字符。 然而,本發(fā)明并不限于此,在用一個字節(jié)來代表搜索關鍵字中的一個字 符的情況下,可以采用這樣的結構,即每個節(jié)點N都表示搜索關鍵字中 的字符是高字節(jié)字符還是低字節(jié)字符。
存儲器1100還存儲有其中第一語言的單詞基于單詞的含義與第二語 言的單詞相關聯(lián)的詞典,和其中第一語言的從句或句子基于從句或句子 的含義與第二語言的從句或句子相關聯(lián)的雙語例句詞典。如稍后所述, 翻譯單元1700對該詞典和該雙語例句詞典進行查閱。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
分析單元1200連接到搜索單元1300和輸入裝置3000。分析單元 1200執(zhí)行稍后描述的分析操作,來對從輸入裝置3000輸入的作為要翻譯 的句子的輸入句子進行形態(tài)(morphologic)分析。這樣,分析單元1200 就獲得了輸入句子中的語素(morpheme)。
現在來描述分析單元1200要進行的分析操作的例子。
首先,分析單元1200從輸入裝置3000獲取第一語言的輸入句子。 然后,分析單元1200對輸入句子進行形態(tài)分析,并獲得語素。
分析單元1200將作為動詞、形容詞和形容動詞的語素和補充該動 詞、形容詞和形容動詞的助詞、助動詞以及輔助動詞結合在一起。這樣就形成了一個從句。
分析單元1200將用所獲得的語素形成的單詞和從句輸出給搜索單 元1300。然后,分析單元1200結束該分析操作。
因為該示范實施方式中要由分析單元1200來分析的每個句子都以 日語作為第一語言,所以在分析單元1200要進行的形態(tài)分析中可以使用 奈良先端科學技術大學院大學的"Chasen"。
在第一語言為漢語的情況下,可以在形態(tài)分析中使用清華大學的Seg & 03工具和東北大學(中國)的CiPosSDK。
搜索單元1300連接到存儲器1100、分析單元1200以及轉換單元 1400。搜索單元1300執(zhí)行稍后描述的搜索操作,以搜索用輸入句子中所 包括的單詞形成的例句模式。
現在參照圖7來描述搜索單元1300的結構。圖7是示出搜索單元 1300的示例性結構的功能框圖。
圖7中示出的搜索單元1300包括單詞搜索單元1310和例句模式搜 索單元1320。
單詞搜索單元1310連接到存儲器1100、分析單元1200以及例句模 式搜索單元1320。單詞搜索單元1310執(zhí)行稍后描述的單詞搜索操作,以 獲得用于標識作為索引矩陣的元素的記錄的記錄ID。由單詞搜索單元 1310檢測到的記錄ID所標識的記錄存儲有用于標識用輸入句子中所包 括的單詞形成的例句模式的標識信息。
現在來描述單詞搜索單元1310要進行的單詞搜索操作的例子。
首先,單詞搜索單元1310從分析單元1200獲取包括在輸入句子中 的單詞和從句。單詞搜索單元1310從所獲取的單詞和從句中提取包括在 輸入句子中的單詞。
之后,單詞搜索單元1310在存儲于存儲器1100中的搜索樹中搜索 與所提取的單詞相匹配的搜索關鍵字。然后,單詞搜索單元1310標識代 表檢測到的搜索關鍵字中的最后一個字符的節(jié)點。
單詞搜索單元1310獲得表示所標識的節(jié)點的信息,還從索引矩陣 1130獲得記錄ID。單詞搜索單元1310將獲得的記錄ID輸出到例句模式搜索單元1320。
單詞搜索單元1310還將從分析單元1200獲得的單詞和句子輸出到 例句模式搜索單元1320。之后,單詞搜索單元1310結束單詞搜索操作。
例句模式搜索單元1320連接到存儲器1100、單詞搜索單元1310以 及轉換單元1400。例句模式搜索單元1320執(zhí)行稍后描述的例句模式搜索 操作,以搜索包括輸入句子中所包括的單詞的例句模式。
現在來描述例句模式搜索單元1320要進行的例句模式搜索操作的 例子。
首先,例句模式搜索單元1320從單詞搜索單元1310獲得記錄ID。 例句模式搜索單元1320還獲得輸入句子的單詞和從句。
然后,例句模式搜索單元1320基于該記錄ID來搜索作為存儲在存 儲器1100中的索引矩陣的元素的記錄。
之后,例句模式搜索單元1320獲得用于標識存儲在檢測到的記錄中 的例句模式的標識信息(翻譯例句模式對的ID),和用于標識另一記錄的 記錄ID。然后,例句模式搜索單元1320基于所獲得的標識信息來搜索成 對的例句模式和翻譯例句模式以及對應關系信息F2。
之后,例句模式搜索單元1320確定檢測到的記錄是否存儲了用于標 識另一記錄的記錄ID。如果檢測到的記錄存儲了用于標識另一記錄的ID, 則例句模式搜索單元1320對于該另一記錄ID重復上述操作。如果檢測到 的記錄未存儲用于標識另一記錄的ID,則例句模式搜索單元1320將檢測 到的例句模式、翻譯例句模式以及對應關系信息F2輸出到轉換單元1400。
例句模式搜索單元1320還輸出所獲取的輸入句子以及該輸入句子 的單詞和從句。然后,例句模式搜索單元1320結束例句模式搜索操作。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
轉換單元1400連接到搜索單元1300和計算單元1500。轉換單元 1400執(zhí)行稍后描述的轉換操作,以將輸入句子轉換成由公共部分和該公 共部分以外的非公共部分形成的句子,該公共部分對應于被歸類在主語 例句模式下的例句當中公共的公共字符串。利用形成輸入句子的字符串 與形成存儲在存儲器中的例句的字符串之間的含義差異度的第一指標來執(zhí)行該轉換操作。之后,轉換單元1400將轉換后的輸入句子輸出到計算 單元1500。
現在參照圖8來描述由形成要經轉換單元1400轉換的輸入句子的單 詞和從句形成的字符串和形成轉換后的輸入句子的字符串。圖8示出了 形成要由轉換單元1400轉換的輸入句子的字符串和轉換后的字符串。
圖8例示了由要經轉換單元1400轉換的字符串sl到s9形成的輸入 句子S,和由轉換后的字符串s'l至l」s'5形成的轉換后的輸入句子S',以 及由與形成輸入句子S的單詞相同的單詞形成的例句模式A。
轉換后的輸入句子S'包括通過基于例句模式A執(zhí)行轉換操作的轉 換單元1400的轉換對輸入句子S的單詞sl和s2進行組合而形成的單詞 s'l、通過對單詞s4到s7進行組合而形成的單詞s'3、未經過組合操作的 單詞s'2與s'4,以及從句s'5。單詞s'2與s'4以及從句s'5分別與單詞 s3、 s8以及從句s9相同。
基于由例句模式A的固定部分a2、 a4以及a5組成的組中所包括的 單詞s3,轉換單元1400對單詞sl和s2進行組合,并基于單詞s8對單詞 s4到s7進行組合。
在此轉換操作中,轉換單元1400將輸入句子S轉換成由公共部分和 非公共部分形成的句子,公共部分是與形成固定部分的公共字符串a2、 a4以及a5相對應的字符串s'2、 s'4以及s'5,而非公共部分是公共部分 以外的字符串s'l和s'3。
現在參照圖9和10來描述轉換單元1400要進行的轉換操作。圖9 和IO是示出轉換單元1400要進行的轉換操作的例子的流程圖。
首先,轉換單元1400從搜索單元1300獲得例句模式A和諸如形成 例句模式A的單詞的字符串(步驟STOOOl)。例句模式A是由字符串al 到an形成的,且字符串ai是例句模式A中第i個出現的字符串。
然后,轉換單元1400從搜索單元1300獲得輸入句子S和作為形成 輸入句子S的單詞和從句的字符串(步驟ST0002)。輸入句子S是由字 符串sl到sm形成的,且字符串sj是輸入句子S中第j個出現的字符串。
盡管在流程圖中未示出,但是轉換單元1400還從搜索單元1300獲得翻譯例句模式和與例句模式A相關聯(lián)的對應關系信息F2。
之后,轉換單元1400向計數器i輸入合適的任意值,使得字符串ai
成為可變部分(步驟ST0003)。
然后,轉換單元1400通過將值"1"賦予計數器j來初始化計數器j (步驟ST0004),該計數器j表示了形成輸入句子S的字符串在句子中的
使用順序。
之后,轉換單元1400確定計數器j是否小于等于值m(步驟ST0005 )。 如果計數器j小于等于值m,則轉換單元1400進行步驟ST0006的過程。 如果計數器j大于值m,則轉換單元1400結束轉換操作。
如果在步驟ST0005中確定為計數器j小于等于值m,則轉換單元 1400清空臨時緩沖器(步驟ST0006)。
然后,轉換單元1400確定在例句模式A中第i個出現的字符串ai 和在輸入句子S中第j個出現的字符串sj的第一指標(后文中,第一指 標將被簡稱為權重)是否為"0",以及變量j是否小于等于值"m"(步 驟ST0007)。
這里,權重是表示作為要翻譯的主體而輸入的輸入句子S的字符串 sj與存儲在存儲器1100中的例句模式A的字符串ai之間的含義差異度的 指標。稍后將描述如何計算權重。
如果字符串ai和字符串sj的權重(后文中也稱為w(ai,sj))被確定為 是"0",并且變量j被確定為小于等于值"m",則轉換單元1400進行步 驟ST0008的過程。如果權重被確定為不是"0",并且變量j被確定為不 小于等于值"m",則轉換單元1400進行步驟ST0010的過程。
如果在步驟ST0007中字符串ai和字符串sj的權重被確定為是"O", 并且變量j被確定為小于等于值"m",則轉換單元1400將作為單詞或從 句的字符串sj添加到存儲在臨時緩沖器中的字符串中(步驟ST0008)。
然后,轉換單元1400使變量j遞增"1"(步驟ST0009)。之后,轉 換單元1400返回步驟ST0007重復上述過程。
如果在步驟ST0007中字符串ai和字符串sj的權重被確定為不是 "0",并且變量j被確定為大于值"m",則轉換單元1400確定臨時緩沖器是否為空(步驟ST0010)。如果臨時緩沖器為空,則轉換單元1400進 行步驟STOOll的過程。如果臨時緩沖器不為空,則轉換單元1400進行 步驟ST0013的過程。
如果在步驟ST0010中轉換單元1400確定出臨時緩沖器為空,則轉 換單元1400將字符串sj輸出為作為公共部分或非公共部分的字符串(步 驟STOOll)。然后,轉換單元1400使變量j遞增"1"(步驟ST0012)。 之后,轉換單元1400返回步驟ST0005,并重復上述過程。
如果在步驟ST0010中轉換單元1400確定出臨時緩沖器不為空,則 轉換單元1400將存儲在臨時緩沖器中的字符串輸出為作為公共部分或非 公共部分的字符串(步驟ST0013)。然后,轉換單元1400返回步驟ST0005, 并重復上述過程。
盡管在流程圖中未示出,但是轉換單元1400將轉換后的輸入句子、 例句模式A、翻譯例句模式以及對應關系信息F2輸出到計算單元1500。
現在參照表1來描述計算的實例,該計算被執(zhí)行用來確定例句模式 A中使用的字符串ai和輸入句子S中使用的字符串sj的權重。表1示出 了要計算的權重值以及計算這些值的條件的例子。
w的值條件ai的類型sj的類型其他
0可變單詞或從句sj未包含在例句模式的固定部分集中
p可變單詞或從句sj包含在例句模式的固定部分集中
0固定單詞或從句ai和sj相同
0固定單詞或從句sj是固定部分的同義詞
p固定單詞或從句ai和sj相同,并且sj不是固定部分的同義詞
如表1中所示,在例句模式A的字符串ai是可變部分、字符串sj 是單詞或從句,并且字符串sj未包含在將例句模式A的固定部分包含為 它的元素的組中的情況下,轉換單元1400確定權重值為"0"。
在字符串ai是可變部分、字符串sj是單詞或從句,并且字符串sj 包含在將例句模式A的固定部分包含為它的元素的組中的情況下,轉換 單元1400確定權重值為"p"。這里,值"p"是正的常數。盡管在該示 范實施方式中值"p"為"1.5",但是并不限于此值。在字符串ai是固定部分、字符串sj是單詞或從句,并且字符串ai 和sj彼此相同的情況下,轉換單元1400確定權重值為"0"。
在字符串ai是固定部分、字符串sj是單詞或從句,并且字符串sj 是固定部分的同義詞的情況下,轉換單元1400確定權重值為"0"。
在該示范實施方式中,轉換單元1400基于參照圖4描述的形成固定 部分PF的FIX內容來確定單詞sj是否為該固定部分的同義詞。然而, 本發(fā)明并不限于這種安排。例如,存儲器1100可以存儲具有與單詞的同 義詞相關聯(lián)的單詞的同義詞典。轉換單元1400可以查閱存儲在存儲器 IIOO中的該詞典,以確定單詞sj是否為固定部分的同義詞。
此外,在字符串ai是固定部分、字符串sj是單詞或從句、字符串ai 和sj彼此不相等,并且字符串sj不是固定部分的同義詞的情況下,轉換 單元1400確定權重值為值"p"。
現在參照表2和圖11與12來描述計算動詞從句ai和從句sj的權重 的方法的另一實例。表2示出了要計算的權重值的其他實例,和用于計 算這些權重值的條件的其他實例。圖11是示出轉換單元1400要進行的 用于計算權重的權重計算操作的一部分的流程圖。圖12是示出轉換單元 1400要進行的用于計算權重的權重計算操作的剩余部分的流程圖。
w的值條件ai的類型sj的類型其他
0固定動詞從句ai和sj相同
0固定動詞從句固定部分的詞素單詞串=動詞從句的詞素單詞串
如表2中所示,在例句模式的字符串ai是固定部分、字符串sj是動 詞從句,并且字符串ai和sj彼此相等的情況下,轉換單元1400確定權 重值為"0"。
在例句模式的字符串ai是固定部分、字符串sj是動詞從句,并且形 成字符串ai的所有詞素單詞都等于形成字符串sj的所有詞素單詞的情況 下,轉換單元1400確定權重值為"0"。這里,如果形成從句的詞素單詞 或詞素中存在單詞"masu",則消除單詞"masu",然后進行權重計算。 下面描述轉換單元1400要進行的用于計算表2中示出的權重的操作。 首先,轉換單元1400獲得固定部分的詞素單詞串ai(步驟STOIOI)。固定部分的詞素單詞串ai是由詞素單詞ul到uk形成的,并且詞素單詞 uh是在詞素單詞串ai中第h個出現的詞素單詞。
然后,轉換單元1400獲得動詞從句的詞素單詞串sj (步驟ST0102)。 動詞從句的詞素單詞串sj是由詞素單詞vl到vl形成的,并且詞素單詞 vh是在詞素詞串sj中第h個出現的詞素單詞。
之后,轉換單元1400確定固定部分ai中的詞素單詞數k與動詞從句 sj中的詞素單詞數1是否相等(步驟ST0103)。如果轉換單元1400確定 出數k和數l彼此相等,則轉換單元1400進行步驟ST0104的過程。如 果數k和數1不相等,則轉換單元1400進行步驟ST0109的過程。
如果在步驟ST0103中轉換單元1400確定出數k和數1相等,則轉 換單元1400通過將值"1"賦予計數器h來初始化計數器h,該計數器h 表示詞素單詞在詞素單詞串中的使用順序(步驟ST0104)。
然后,轉換單元1400確定計數器變量h的值是否小于等于固定部分 ai中的詞素單詞數k (步驟ST0105)。如果轉換單元1400確定出變量h 小于等于數k,則轉換單元1400進行步驟ST0106的過程。如果轉換單元 1400確定出變量h大于數k,則轉換單元1400進行步驟ST0110的過程。
如果在步驟ST0105中轉換單元1400確定出變量h的值小于等于數 k,則轉換單元1400確定在從句ai中第h個出現的詞素單詞uh是否等于 在從句sj中第h個出現的詞素單詞vh(步驟ST0106)。如果轉換單元1400 確定出詞素單詞uh與詞素單詞vh相同,則轉換單元1400進行步驟 ST0108的過程。如果轉換單元1400確定出詞素單詞uh與詞素單詞vh 不相同,則轉換單元1400進行步驟ST0107的過程。
如果在步驟ST0106中轉換單元1400確定出詞素單詞uh與詞素單詞 vh不相同,則轉換單元1400確定詞素單詞uh是否為詞素單詞vh的同義 詞(步驟ST0107)。如果轉換單元1400確定出詞素單詞uh是詞素單詞 vh的同義詞,則轉換單元1400進行步驟ST0108的過程。如果轉換單元 1400確定出詞素單詞uh不是詞素單詞vh的同義詞,則轉換單元1400進 行步驟ST0109的過程。
如果在步驟ST0106中轉換單元1400確定出詞素單詞uh與詞素單詞vh相同,或者如果在步驟ST0107中轉換單元1400確定出詞素單詞uh 是詞素單詞Vh的同義詞,則轉換單元1400使循環(huán)變量h遞增"1"(步 驟ST0108)。之后,轉換單元1400返回步驟ST0105,并重復上述過程。
如果在步驟ST0103中轉換單元1400確定出數k和數1不相等,或 者如果在步驟ST0107中轉換單元1400確定出詞素單詞uh不是詞素單詞 vh的同義詞,則轉換單元1400確定出從句ai和從句sj的權重為"p"(步 驟ST0109)。這里,p是正的常數。之后,轉換單元1400結束轉換操作。
如果在步驟ST0105中轉換單元1400確定出變量h的值大于數k, 則轉換單元1400確定出從句ai和sj的權重為"O"(步驟STOllO)。之后, 轉換單元1400結束轉換操作。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
計算單元1500連接到轉換單元1400和提取單元1600。計算單元 1500執(zhí)行稍后描述的計算操作,以基于借以將轉換單元1400轉換過的句 子的非公共部分與例句模式A的非公共字符串關聯(lián)起來的規(guī)則和表示非 公共部分與非公共字符串之間的差異度的第一指標(或權重)來計算第 二指標(后文中簡稱為距離),該第二指標表示了輸入句子S與例句模式 A之間的差異度。
計算單元1500要進行的計算操作是根據以下規(guī)則中的一個或更多 個來計算第二指標適用于將該例句模式的一個或更多個公共字符串和 非公共字符串映射為經轉換單元1400轉換后的句子的一個或更多個公共
部分和非公共部分,并用這些公共部分以一對一無交叉對應方式來替換 這些公共字符串的情況的規(guī)則;適用于將該例句模式的一個或更多個公
共字符串和非公共字符串映射為經轉換單元1400轉換后的句子的一個或 更多個公共部分和非公共部分,并用這些非公共部分以一對一無交叉方 式來替換這些非公共字符串的情況的規(guī)則;適用于將該例句模式的一個 或更多個公共字符串和非公共字符串映射為經轉換單元1400轉換后的句
子的一個或更多個公共部分和非公共部分,并刪除一個或更多個公共字 符串和非公共字符串的情況的規(guī)則;以及適用于將該例句模式的一個或 更多個公共字符串和非公共字符串映射為經轉換單元1400轉換后的句子的一個或更多個公共部分和非公共部分,并插入一個或更多個公共部分 和非公共部分的情況的規(guī)則。
現在參照圖13到16來描述計算單元1500要進行的距離計算操作。 圖13是示出計算單元1500要進行的距離計算操作的例子的一部分的流 程圖。圖14到16是示出計算單元1500要進行的距離計算操作的例子的 剩余部分的流程圖。
首先,計算單元1500從轉換單元1400獲得例句模式A (步驟 ST0201)。例句模式A是由作為單詞等的字符串al到an形成的。
然后,計算單元1500從轉換單元1400獲得轉換后的輸入句子S'(步 驟ST0202)。轉換后的輸入句子S'是由作為轉換后的單詞或從句的字符 串s'l到s'm'形成的。
之后,計算單元1500通過將值"0"賦予變量d(0,0)來初始化變量 d(O,O)(步驟ST0203)。
盡管在流程圖中未示出,但是計算單元1500還從轉換單元1400獲 得翻譯例句模式和與例句模式A相關聯(lián)的對應關系信息F2。
這里,變量d(i,j)是表示字符串ala2…ai和字符串s'ls,2…s,j之間的 差異度的第二指標(或距離),前者是通過按照在例句模式A中出現的順 序來排列例句模式A的字符串al到ai而形成的,后者是通過按照在輸 入句子S'中出現的順序來排列輸入句子S'的轉換后的單詞或從句s'l到 s'j而形成的。
具體來講,變量d(O,O)是表示沒有字符串(空字符串)的輸入句子和 沒有諸如單詞的字符串的例句模式之間的差異度的第二指標。
然后,計算單元1500通過將值"1"賦予變量i來初始化變量i (步 驟ST0204),變量i表示字符串在例句模式A中的出現順序。之后,計 算單元1500確定變量i是否小于等于形成例句模式的字符串數"n"(步 驟ST0205)。如果計算單元1500確定出變量i小于等于"n",則計算單 元1500進行步驟ST0206的過程。如果計算單元1500確定出變量i大于 "n",則計算單元1500進行步驟ST0209的過程。
如果在步驟ST0205中計算單元1500確定出變量i小于等于"n",則計算單元1500將d(i,0)的值設置為"d(i-l,0)+r"(步驟ST0206)。
然后,計算單元1500將變量PathFlag(i,0)的值設置為"(1,0,0)"(步
驟ST0207)。之后,計算單元1500使變量i遞增1 (步驟ST0208)。之后,
計算單元1500返回步驟ST0205,并重復上述過程。
現在來說明變量PathFlag(i,O)與距離d(i,j)之間的關系。
例句模式A的ala2…ai和轉換后的輸入句子S'的s'ls'2…s'j之間的
距離d(i,j)是基于將形成例句模式ala2…ai的字符串al到ai與形成轉換
后的輸入句子S's'l s'2…s'j的字符串s'l到s'j關聯(lián)起來的映射而確定的。
定義了距離《^)的映射可以是通過對使例句模式&132..^的字符串
al到ai-l與轉換后的輸入句子s,ls'2…s'j的字符串s'l到s'j以一對一無 交叉對應方式關聯(lián)起來的映射和定義了在例句模式A的字符串ai未映射 到輸入句子S'的字符串的情況下從例句模式A刪除字符串ai的規(guī)則的映 射進行組合而形成的映射。
定義了距離d(i,j)的映射還可以是通過對使字符串al到ai與字符串 s'l到s'j-1以一對一無交叉對應方式關聯(lián)起來的映射和定義了在例句模 式A的字符串ai未映射到輸入句子S'的字符串的情況下插入輸入句子S' 的字符串sj的規(guī)則的映射進行組合而形成的映射。
定義了距離d(i,j)的映射還可以是通過對使字符串al到ai與字符串 s'l到s'j-1以一對一無交叉對應方式關聯(lián)起來的映射和定義了用輸入句 子S'的字符串sj來替換例句模式A的字符串ai的規(guī)則的映射進行組合而 形成的映射。
因此,在刪除字符串ai的映射所定義的距離為r的情況下,距離d(i,j) 被計算為"d(i,j)= d(i-l,j)+r"。在此計算中,距離d(i,j)是利用刪除字符串 ai的映射,在表示計算距離d(i,j)的方法的標志變量PathFlag(i,j)的值為 "(1,0,0)"的情況下計算出的。
并且,在插入字符串s'j的映射所定義的距離為q的情況下,距離 d(i力被計算為"d(i,j)=d(i,j-l)+q"。在此計算中,距離d(i,j)是利用插入字 符串s'j的映射,在標志變量PathFlag(ij)的值為"(0,1,0)"的情況下計算 出的。此外,在通過用字符串s'j以一對一無交叉對應方式來替換字符串ai 的映射而定義的距離被設置為w(ai,s'j)的情況下,距離d(i,j)被計算為 "d(i,j)=d(i-1,j畫l)+w(ai,s,j)"。在此計算中,距離d(i,j)是利用用字符串s,j 來替換字符串ai的映射,在標志變量PathFlag(i,j)的值為"(0,0,1)"的情
況下計算出的。
距離w(ai,s,j)是反映字符串ai和s'j所定義的值的函數,并且是參照 圖9描述的第一指標。
在該示范實施方式中,是以"q=r=l, p=1.5"進行說明的。然而, 這些值并不限于此,可以使用通過實驗和邏輯推理而確定的其他合適值。
返回參照圖13,繼續(xù)對計算單元1500要進行的距離計算操作的例 子的說明。
如果在步驟ST0205中計算單元1500確定出變量i大于"n",則計 算單元1500通過將值"1"賦予變量j來初始化變量j (步驟ST0209), 變量j表示轉換后的字符串在輸入句子S'中的出現順序。
然后,計算單元1500確定變量j是否小于等于形成輸入句子S'的轉 換后的字符串數"m'"(步驟ST0210)。如果計算單元1500確定出變量j 小于等于"m,",則計算單元1500進行步驟ST0211的過程。如果計算單 元1500確定出變量j不小于等于"m'",則計算單元1500進行步驟ST0214 的過程。
如果在步驟ST0210中計算單元1500確定出變量j小于等于"m'", 則計算單元1500將d(0,j)的值設置為"d(0,j-l)+q"(步驟ST0211)。
然后,計算單元1500將變量PathFlag(0,j)的值設置為"(0,1,0)"(步 驟ST0212)。之后,計算單元1500使變量j遞增1 (步驟ST0213)。然后, 計算單元1500返回步驟ST0210,并重復上述過程。
如果在步驟ST0210中計算單元1500確定出變量j大于"m'",則計 算單元1500將值"1"賦予變量i (步驟ST0214)。然后,計算單元1500 確定變量i是否小于等于"n"(步驟ST0215)。如果計算單元1500確定 出變量i小于等于"n",則計算單元1500進行步驟ST0216的過程。如 果計算單元1500確定出變量i不小于等于"n",則計算單元1500進行步驟ST0228的過程。
如果在步驟ST0215中計算單元1500確定出變量i小于等于"n", 則計算單元1500將值"1"賦予變量j (步驟ST0216)。然后,計算單元 1500確定變量j是否小于等于"m'"(步驟ST0217)。如果計算單元1500 確定出變量j小于等于"m,",則計算單元1500進行步驟ST0218的過程。 如果計算單元1500確定出變量j不小于等于"m'",則計算單元1500進 行步驟ST0227的過程。
如果在步驟ST0217中計算單元1500確定出變量j小于等于"m'", 則計算單元1500將d(i,j)的值設置為"d(i-l,j-l)+w(ai, s,j)"(步驟ST0218)。 然后,計算單元1500將變量PathFlag(i,j)的值設置為"(0,0,1)"(步驟 ST0219)。
之后,計算單元1500確定基于插入字符串s,i的映射而計算出的距 離d(i,j-l)+q是否小于步驟ST0218中基于用單詞或從句s'j來替換單詞或 從句ai的映射而計算出的距離d(i,j)(步驟ST0220)。如果計算單元1500 確定出距離d(i,j-l)+q小于距離d(i,j),則計算單元1500進行步驟ST0221 的過程。如果計算單元1500確定出距離d(i,j-l)+q不小于距離d(i,j),則 計算單元1500進行步驟ST0223的過程。
如果在步驟ST0220中計算單元1500確定出距離d(i,j-l)+q小于距離 d(i,j),則計算單元1500將距離d(i,j)設置為"d(i,j畫l)+q"(步驟ST0221)。
然后,計算單元1500將變量PathFlag(ij)設置為通過在PathFlag(i,j) 的各個當前坐標值與值"(0,1,0)"的坐標值之間進行"或"操作而獲得 的值(步驟ST0222)。
如果在步驟ST0220中計算單元1500確定出距離d(i,j-l)+q大于等于 距離d(i,j),或者在進行了步驟ST0222的過程之后,計算單元1500確定 基于刪除字符串ai的映射而計算出的距離d(i-l,j)+r是否小于在步驟 ST(m8或STOn中計算出的距離d(ij)(步驟ST0223)。如果計算單元 1500確定出距離d(i-l,j)+r小于距離d(i,j),則計算單元1500進行步驟 ST0224的過程。如果計算單元1500確定出距離d(i-l,j)+r不小于距離 d(i,j),則計算單元1500進行步驟ST0226的過程。如果在步驟ST0223中計算單元1500確定出距離d(i-l j)+r小于距離 d(i,j),則計算單元1500將距離d(i,j)設置為"d(i-lj)+r"(步驟ST0224)。
然后,計算單元1500將變量PathFlag(ij)設置為通過在PathFlag(i,j) 的各個當前坐標值與值"(1,0,0)"的坐標值之間進行"或"操作而獲得 的值(步驟ST0225)。
如果在步驟ST0223中計算單元1500確定出距離d(i-l,j)+r大于等于 距離d(i,j),或者在進行了步驟ST0225的過程之后,計算單元1500使變 量j遞增l (步驟ST0226)。之后,計算單元1500返回步驟ST0217,并 重復上述過程。
如果在步驟ST0217中計算單元1500確定出變量j大于"m'",則計 算單元1500使變量i遞增1 (步驟ST0227)。之后,計算單元1500返回 步驟ST0215,并重復上述過程。
如果在步驟ST0215中計算單元1500確定出變量i大于"n",則計 算單元1500將例句A與輸入句子S'之間的距離設置為值為d(n,m')的 Distance(A,S ,)(步驟ST0228 )。
盡管在流程圖中未示出,但是計算單元1500將計算出的例句模式A 與輸入句子S,之間的距離(A,S,)、其他距離d(i,j)(l<=i<=n, l<=j<=m,)、 例句模式A、翻譯例句模式、對應關系信息F2以及輸入句子S'輸出到提 取單元1600。之后,計算單元1500結束指標計算操作。
現在參照表3來描述計算單元1500計算出的第二指標。表3示出了 計算單元1500計算出的第二指標的例子。 [表3]
\^輸入句子s'FX nowatashi-te-kud
空字符串Tanaka-sanikanarazuasai [watashi te
例句模式A^^iikudasa]
空字符串o(o,o,o)1(0,1,0)2(0,1,0)3(0,1,0)5(0,1,0)
kanarazu1(1,0,0)1.5(0,0,1)2.5(0,1,1)2(0,0,1)3(0,1,0)
VI2(1,0,0)1(0,0,1)2(0,1,0)3(1,1,0)3.5(0,0,1)
wo3(1,0,0)2(1,0,0)2.5(0,0,1)3.5(0,1,1)4.5(0,1,1)
V24(1,0,0)3(1,0,1)3.5(0,1,1)4(0,0,1)5(0,1,1)
ni5(1,0,0)4(1,0,0)3(0,0,1)4(0,1,0)5(0,1,0)
watashi匿te-kudasai [ watashi te kudasa]6(1,0,0)5(1,0,0)4(1,0,0)4.5(0,0,1)4(0,0,1)表3中的列表示空字符串和形成轉換后的輸入句子S'的字符串。表 3中的行表示空字符串和形成例句模式A的字符串。
表3中的每個元素都表示了通過一種映射而定義的距離,該映射使 空字符串或由存儲元素的列表示的字符串以及空字符串或由示出該元素 的列的左側的(多個)列表示的(多個)字符串,與空字符串或由存儲 元素的行表示的字符串以及空字符串或由示出元素的列上方的(多個) 行表示的(多個)字符串相關聯(lián)。表3中的每個元素還表示PathFlag。
更具體來講,第三行第二列上的元素"1(0,0,1)"表示通過映射而定 義的距離的值為"1",該映射使第二列上的字符串"FX no Tanaka-san" 和由第二列的左邊的列表示的空字符串,與第三行所表示的符號"VI" 和空字符串以及由第三行上方的行表示的字符串"kanarazu"相關聯(lián)。第 三行第二列上的元素"1(0,0,1)"還表示PathFlag(2,l)的值為"(0,0,1)"。
因此,表3中第七行第五列上的元素表示,轉換后的輸入句子S,與 例句模式A之間的距離被計算單元1500計算為"4"。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
提取單元1600連接到計算單元1500和翻譯單元1700。提取單元 1600提取基于計算單元1500計算出的第二指標要將輸入句子歸類到的例 句模式。提取單元1600還使經轉換單元1400轉換后的句子的非公共部 分與所提取的例句模式的非公共字符串相關聯(lián)。
現在參照圖17來描述提取單元1600的結構。圖17是例示了提取單 元1600的示例性結構的功能框圖。
提取單元1600包括實際提取單元1610、關系鑒別單元1620以及關 系選擇單元1630。
實際提取單元1610連接到計算單元1500和關系鑒別單元1620。實 際提取單元1610執(zhí)行稍后描述的實際提取操作,以從搜索單元1300檢 測到的例句模式中提取一種模式。
現在描述實際提取單元1610要進行的實際提取操作的例子。
首先,實際提取單元1610獲得計算單元1500計算出的第二指標(距 離)。然后,實際提取單元1610從計算單元1500獲得搜索單元1300檢測到的例句模式A。
之后,實際提取單元1610提取輸入句子與例句模式之間的距離(計
算單元1500計算出的第二指標)最小的例句模式。然后,實際提取單元 1610將作為對輸入句子進行歸類的模式而提取的例句模式輸出到關系鑒 別單元1620。
實際提取單元1610還從計算單元1500獲得計算與所選例句模式的 距離時產生的PathFlag變量、轉換后的輸入句子S'、與所提取的例句模 式A相關聯(lián)的翻譯例句模式以及對應關系信息F2。然后,實際提取單元 1610將獲得的輸入句子S'、 PathFlag變量、翻譯例句模式以及對應關系 信息F2輸出到關系鑒別單元1620。之后,實際提取單元1610結束實際 提取操作。
關系鑒別單元1620連接到實際提取單元1610和關系選擇單元1630。 關系鑒別單元1620執(zhí)行稍后描述的關系鑒別操作,以鑒別輸入句子S' 的轉換后的字符串與輸入句子S歸類到的例句模式A的字符串之間的對
應關系。
現在參照圖18來簡要描述關系鑒別單元1620要進行的關系鑒別操 作。圖18例示了關系鑒別單元1620要進行的關系鑒別操作的例子。
首先,關系鑒別單元1620獲得第七行第五列上的表示輸入句子S, 與例句模式A之間的距離的元素,以及PathFlag變量的值。因為變量 PathFlag(6,4)的值為"(0,0,1)",所以關系鑒別單元1620確定第七行第五 列上的元素所表示的距離是通過一種映射而定義的,該映射是通過組合 以下映射而形成的使輸入句子S'的第二到第四列所表示的字符串與例 句模式A的第二到第六行所表示的字符串相關聯(lián)的映射;和定義了用輸 入句子S,的第五列所表示的字符串來替換例句模式A的第七行所表示的 字符串的規(guī)則的映射。
因此,關系鑒別單元1620確定出第七行所表示的字符串a6與第五 列所表示的字符串s4之間的對應關系為替換關系,并將值"(6:4)"添加 到對應關系信息F1中。
然后,關系鑒別單元1620獲得第六行第四列上表示PathFlag(5,3)的元素。
之后,因為PathFlag(5,3)的值為"(0,1,0)",所以關系鑒別單元1620 確定出第六行第四列上的元素所表示的距離是通過一種映射而定義的, 該映射是通過組合以下映射而形成的使輸入句子S,的第二和第三列所 表示的字符串與例句模式A的第二到第五行所表示的字符串相關聯(lián)的映 射;和定義了將輸入句子S'的第四行所表示的字符串插入到例句模式A 中的規(guī)則的映射。
因此,關系鑒別單元1620確定出要將第四列所表示的字符串s3插 入到例句模式A中,并將值"(0:3)"添加到對應關系信息F1中。
通過重復上述過程,關系鑒別單元1620鑒別出輸入句子S,的字符串 與例句模式A的字符串之間的對應關系。
現在作為特例來描述關系鑒別單元1620要對第五行第二列上的元 素進行的操作。
因為PathFlag(4,l)的值為"(1,0,1)",所以關系鑒別單元1620確定出 第五行第二列上的元素所表示的距離是通過一種映射而定義的,該映射 是通過組合以下映射而形成的使輸入句子S'的第一列所表示的空字符 串與例句模式A的第二到第四行所表示的字符串相關聯(lián)的映射;和定義 了用輸入句子S'的第二列所表示的字符串來替換例句模式A的第五行所 表示的字符串的規(guī)則的映射,或定義了刪除例句模式A的第五行所表示 的字符串的規(guī)則的映射。
因此,如果關系鑒別單元1620確定出第五行所表示的字符串a4與 第二列所表示的字符串sl之間的對應關系為替換關系,則關系鑒別單元 1620添加值"(4:1)",從而生成對應關系信息Fll。如果關系鑒別單元 1620確定出要從例句模式A中刪除第五行所表示的字符串a4,則關系鑒 別單元1620添加值"(4:0)",從而生成對應關系信息F12。
例如,可以將由一條或更多條對應關系信息F1形成的集合稱為對應 關系集SF。屬于對應關系集SF的對應關系信息Fll和F12的特性和對 應關系信息F2的特性相同,因此,這里省略對它們的說明。
現在參照圖19到22來描述關系鑒別單元1620要進行的關系鑒別操作。圖19是示出關系鑒別單元1620要進行的關系鑒別操作的例子的一 部分的流程圖。圖20到22是示出關系鑒別單元1620要進行的關系鑒別 操作的例子的剩余部分的流程圖。
首先,關系鑒別單元1620通過將對應關系集SF變?yōu)榭占瘉沓跏蓟?對應關系集SF (步驟ST0301)。
然后,關系鑒別單元1620通過將值"0"賦予計數器變量h來初始 化計數器變量h (步驟ST0302)。之后,關系鑒別單元1620確定計數器 變量h是否為值"-100"(步驟ST0303)。如果計數器變量h為值"-100", 則關系鑒別單元1620結束關系鑒別操作。如果計數器變量h不為值
"-100",則關系鑒別單元1620進行步驟ST0304的過程。
如果在步驟ST0304中關系鑒別單元1620確定出計數器變量h不為 值"-100",則關系鑒別單元1620通過將例句模式A的字符串數"n"賦 予表示例句模式A的字符串在句子中的使用順序的計數器變量i來初始 化計數器變量i,還通過將輸入句子S'的字符串數"m'"賦予表示輸入句 子S'的字符串在句子中的使用順序的計數器變量j來初始化計數器變量j
(步驟ST0304)。
然后,關系鑒別單元1620將變量h設置為形成例句模式A的字符串 數n或者形成輸入句子S'的字符串數m'中更大的那個(步驟ST0305)。
之后,關系鑒別單元1620確定變量h是否大于等于值"1"(步驟 ST0306)。如果關系鑒別單元1620確定出變量h大于等于值"1",則關 系鑒別單元1620進行步驟ST0307的過程。如果關系鑒別單元1620確定 出變量h不大于等于值"1",則關系鑒別單元1620進行步驟ST0321的 過程。
如果在步驟ST0306中關系鑒別單元1620確定出變量h大于等于值 "1 ",則關系鑒別單元1620確定PathFlag(i,j)的z坐標值應該大于等于值 "1"、應該大于等于x坐標值并且應該大于等于y坐標值的條件(后文 中簡稱為"第一條件")是否得到了滿足(步驟ST0307)。如果關系鑒別 單元1620確定出第一條件得到了滿足,則關系鑒別單元1620進行步驟 ST0308的過程。如果關系鑒別單元1620確定出第一條件未得到滿足,則關系鑒別單元1620進行步驟ST0311的過程。
如果在步驟ST0307中關系鑒別單元1620確定出第一條件得到了滿 足,則關系鑒別單元1620將值"(i-l,j-l)"賦予作為二維矩陣的變量Path(i,j) (步驟ST0308)。 Path變量是表示字符串之間的對應關系的二維矩陣。
然后,關系鑒別單元1620使變量PathFlag(i,j)的z坐標遞增1 (步驟 ST0309)。之后,關系鑒別單元1620使變量i和j遞減l (步驟ST0310)。 然后,關系鑒別單元1620進行步驟ST0320的過程。
如果在步驟ST0307中關系鑒別單元1620確定出第一條件未得到滿 足,則關系鑒別單元1620確定y坐標值應該大于等于值"1"、應該大于 等于x坐標值并且應該大于等于z坐標值的條件(后文中簡稱為"第二 條件")是否得到了滿足(步驟ST0311)。如果關系鑒別單元1620確定 出第二條件得到了滿足,則關系鑒別單元1620進行步驟ST0312的過程。 如果關系鑒別單元1620確定出第二條件未得到滿足,則關系鑒別單元 1620進行步驟ST0315的過程。
如果在步驟ST0311中關系鑒別單元1620確定出第二條件得到了滿 足,則關系鑒別單元1620將值"(i,j-l )"賦予作為二維矩陣的變量Path(i,j) (步驟ST0312)。用x-y坐標來表示Path(i,j)的值。
然后,關系鑒別單元1620使變量PathFlag(i,j)的y坐標遞增1 (步驟 ST0313)。之后,關系鑒別單元1620使變量j遞減l (步驟ST0314)。然 后,關系鑒別單元1620進行步驟ST0320的過程。
如果在步驟ST0311中關系鑒別單元1620確定出第二條件未得到滿 足,則關系鑒別單元1620確定x坐標值應該大于等于值"l"、應該大于 等于y坐標值并且應該大于等于z坐標值的條件(后文中簡稱為"第三 條件")是否得到了滿足(步驟ST0315)。如果關系鑒別單元1620確定 出第三條件得到了滿足,則關系鑒別單元1620進行步驟ST0316的過程。 如果關系鑒別單元1620確定出第三條件未得到滿足,則關系鑒別單元 1620進行步驟ST0319的過程。
如果在步驟ST0315中關系鑒別單元1620確定出第三條件得到了滿 足,則關系鑒別單元1620將值"(i-l,j)"賦予作為二維矩陣的變量Path(i,j)(步驟ST0316)。
然后,關系鑒別單元1620使變量Path(i,j)的x坐標遞增1 (步驟 ST0317)。之后,關系鑒別單元1620使變量i遞減1 (步驟ST0318)。然 后,關系鑒別單元1620進行步驟ST0320的過程。
如果在步驟ST0315中關系鑒別單元1620確定出第三條件未得到滿 足,則關系鑒別單元1620將變量h的值設置為"-100"(步驟ST0319)。 之后,關系鑒別單元1620進行步驟ST0320的過程。
進行了步驟ST0310、步驟ST0314、步驟ST0318或步驟ST0319之 后,關系鑒別單元1620使變量h遞減1 (步驟ST0320)。之后,關系鑒 別單元1620返回步驟ST0306,并重復上述過程。
如果在步驟ST0306中關系鑒別單元1620確定出變量h小于值"l", 則關系鑒別單元1620對存儲著對應關系信息的變量Fl進行初始化(步 驟ST0321)。然后,關系鑒別單元1620通過將值"0"賦予計數器變量h 來初始化計數器變量h (步驟ST0322)。
然后,關系鑒別單元1620通過將例句模式A的字符串數"n"賦予 表示例句模式A的字符串在句子中的使用順序的計數器變量i來初始化 計數器變量i,還通過將輸入句子S,的字符串數"m,"賦予表示輸入句子 S'的字符串在句子中的使用順序的計數器變量j來初始化計數器變量j(步 驟ST0323)。
然后,關系鑒別單元1620將變量h設置為形成例句模式A的字符串 數n或者形成輸入句子S,的單詞和從句數m'中更大的那一個(步驟 ST0324)。
之后,關系鑒別單元1620確定變量h是否大于等于值"1"(步驟 ST0325)。如果關系鑒別單元1620確定出變量h大于等于值"1",則關 系鑒別單元1620進行步驟ST0326的過程。如果關系鑒別單元1620確定 出變量h不大于等于值"1",則關系鑒別單元1620進行步驟ST0334的 過程。
如果在步驟ST0325中關系鑒別單元1620確定出變量h大于等于值 "1",則關系鑒別單元1620確定變量Path(i,j)的值是否為"(i-lj-l)"(步驟ST0326)。如果關系鑒別單元1620確定出變量Path(g)的值為 "(i-l,j-l)",則關系鑒別單元1620進行步驟ST0327的過程。如果關系 鑒別單元1620確定出變量Path(i,j)的值不為"(i-l,j-l)",則關系鑒別單 元1620進行步驟ST0328的過程。
如果在步驟ST0326中關系鑒別單元1620確定出變量Path(i,j)的值為 "(i誦l,j-l)",則關系鑒別單元1620將"(i:j)"添加到對應關系信息Fl 的左側(后文中,對應關系信息F1將被簡單表示為"Fl=(i:j)UFl")(步 驟ST0327)。之后,關系鑒別單元1620進行步驟ST0332的過程。
如果在步驟ST0326中關系鑒別單元1620確定出變量Path(i,j)的值不 為"(i-l,j-l)",則關系鑒別單元1620確定變量Path(i,j)的值是否為"(i,j-l)" (步驟ST0328)。如果關系鑒別單元1620確定出變量Path(i,j)的值為 "(ij-l)",則關系鑒別單元1620進行步驟ST0329的過程。如果關系鑒 別單元1620確定出變量Path(i,j)的值不為"(i,j-l)",則關系鑒別單元1620 進行步驟ST0330的過程。
如果在步驟ST0328中關系鑒別單元1620確定出變量Path(i,j)的值為 "(i,j-l)",則關系鑒別單元1620將"(0:j)"添加到對應關系信息F1的 左側(后文中,對應關系信息F1將被簡單表示為"Fl=(0:j)UFl")(步 驟ST0329)。之后,關系鑒別單元1620進行步驟ST0332的過程。
如果在步驟ST0328中關系鑒別單元1620確定出變量Path(ij)的值不 為"(i,j-l)",則關系鑒別單元1620確定變量Path(i,j)的值是否為"(i-l,j)" (步驟ST0330)。如果關系鑒別單元1620確定出變量Path(i,j)的值為 "(i-l,j)",則關系鑒別單元1620進行步驟ST0331的過程。如果關系鑒 別單元1620確定出變量Path(i,j)的值不為"(i-l,j)",則關系鑒別單元1620 進行步驟ST0332的過程。
如果在步驟ST0330中關系鑒別單元1620確定出變量Path(ij)的值為 "(i-l,j)",則關系鑒別單元1620將"(i:0)"添加到對應關系信息F1中 (后文中,對應關系信息Fl將被簡單表示為"Fl-(i:O) U Fl")(步驟 ST0331)。之后,關系鑒別單元1620進行步驟ST0332的過程。
如果在步驟ST0330中關系鑒別單元1620確定出變量Path(i,j)的值不為"(i-l,j)"或者進行了步驟ST0327、步驟ST0329或步驟ST0331之后, 關系鑒別單元1620將變量i的值設置為變量Path的x坐標值,并將變量 j的值設置為變量Path的y坐標值(步驟ST0332)。
然后,關系鑒別單元1620使變量h遞減l (步驟ST0333)。之后, 關系鑒別單元1620返回步驟ST0325,并重復上述過程。
如果在步驟ST0325中關系鑒別單元1620確定出變量h的值小于值 "1",則關系鑒別單元1620確定變量Fl攜帶的對應關系信息是否屬于 變量SF所表示的對應關系集(步驟ST0334)。如果關系鑒別單元1620 確定出變量Fl攜帶的對應關系信息屬于變量SF所表示的對應關系集, 則關系鑒別單元1620進行步驟ST0336的過程。如果關系鑒別單元1620 確定出變量Fl攜帶的對應關系信息不屬于變量SF所表示的對應關系集, 則關系鑒別單元1620進行步驟ST0335的過程。
如果在步驟ST0334中關系鑒別單元1620確定出變量F1攜帶的對應 關系信息不屬于變量SF所表示的對應關系集,則關系鑒別單元1620將 變量Fl攜帶的對應關系信息作為元素添加到變量SF所表示的對應關系 集中(步驟ST0335)。之后,關系鑒別單元1620返回步驟ST0303,并重 復上述過程。
如果在步驟ST0334中關系鑒別單元1620確定出變量F1攜帶的對應 關系信息屬于變量SF所表示的對應關系集,則關系鑒別單元1620將變 量h的值設置為值"-100"(步驟ST0336)。之后,關系鑒別單元1620返 回步驟ST0303,并重復上述過程。
盡管在流程圖中未示出,但是關系鑒別單元1620將包括多條作為表 示所鑒別的對應關系的元素的對應關系信息的對應關系集SF輸出到關系 選擇單元1630。
關系鑒別單元1620還將轉換后的輸入句子S'、所提取的例句模式A、 翻譯例句模式以及對應關系信息F2輸出到關系選擇單元1630。 返回參照圖17,繼續(xù)對提取單元1600的結構的說明。 關系選擇單元1630連接到關系鑒別單元1620和翻譯單元1700。關 系選擇單元1630執(zhí)行稍后描述的關系選擇操作,以基于非公共字符串在由公共字符串和非公共字符串組成的例句模式A中的使用順序和非公共 部分在由公共部分和非公共部分組成的輸入句子中的使用順序,從關系 鑒別單元1620所鑒別的多個對應關系中選擇一種將非公共字符串與非公 共部分關聯(lián)起來的對應關系。
再次參照圖18來簡要描述關系選擇單元1630要進行的關系選擇操 作的例子。
在例句模式A由彼此相鄰的固定部分(或公共字符串)和可變部分 (或非公共字符串)形成的情況下,關系選擇單元1630從對應關系集(或 對應關系信息Fll和F12)的元素中選擇使彼此相鄰的公共部分和非公共 部分與固定部分和可變部分相關聯(lián)的對應關系信息F1。
在該示范實施方式中,關系選擇單元1630進行關系選擇操作,以從 對應關系集SF的元素中選擇一條對應關系信息Fl。然而,本發(fā)明并不 限于此。例如,可以預先確定規(guī)則中的優(yōu)先級,使得進行替換的規(guī)則位 于進行刪除的規(guī)則之前。根據具有這種優(yōu)先級的規(guī)則,可以選擇對應關 系信息F1。
在該示范實施方式中,例句模式A是由彼此相鄰的固定部分和可變 部分形成的。然而,本發(fā)明并不限于這種安排。例如,在例句模式包括 彼此間隔預定數量的字符、單詞或從句而形成的固定部分和可變部分的 情況下,可以通過和上面相同的操作來選擇對應關系信息。
在進行關系鑒別操作的關系鑒別單元1620鑒別的對應關系信息Fl 所表示的對應關系(n:m)中,基于字符串在例句模式A中的使用順序, 至少以升序存儲這些字符串。
現在參照圖23和24來描述關系選擇單元1630要進行的關系選擇操 作。圖23是示出關系選擇單元1630要進行的關系選擇操作的例子的一 部分的流程圖。圖24是示出關系選擇單元1630要進行的關系選擇操作 的例子的剩余部分的流程圖。
盡管在流程圖中未示出,但是首先,關系選擇單元1630要從關系鑒 別單元1620獲得對應關系集SF。關系選擇單元1630還從關系鑒別單元 1620獲得轉換后的輸入句子、例句模式、翻譯例句模式以及對應關系信息F2。
然后,關系選擇單元1630確定所獲得的集合SF中是否存在未經過 步驟ST0402到ST0411中的任何處理的對應關系信息Fl (后文中簡稱為 未處理對應關系信息)(步驟ST0401)。如果關系選擇單元1630確定出 集合SF中存在未處理對應關系信息,則關系選擇單元1630進行步驟 ST0402的過程。如果關系選擇單元1630確定出集合SF中不存在未處理 對應關系信息,則關系選擇單元1630進行步驟ST0412的過程。
如果在步驟ST0401中關系選擇單元1630確定出集合SF中存在未 處理對應關系信息,則關系選擇單元1630將未處理對應關系信息Fl設 置為處理信息FT (步驟ST0402)。
然后,關系選擇單元1630通過將值"0"設置為要分配給處理信息 FT的分數(score)來進行初始化(步驟ST0403)。
之后,關系選擇單元1630確定處理信息FT中是否存在未經過步驟 ST0405到ST0411中的處理的對應關系(i"(后文中簡稱為未處理對應 關系)(步驟ST0404)。如果關系選擇單元1630確定出處理信息FT中存 在一個或更多個未處理對應關系(ij),則關系選擇單元1630進行步驟 ST0405的過程。如果關系選擇單元1630確定出處理信息FT中不存在未 處理對應關系(i,j),則關系選擇單元1630返回步驟ST0401,并重復上 述過程。這里,參考字符"i"表示相關字符串在轉換后的輸入句子S,中 的使用順序。參考字符"j"表示相關字符串在例句模式A中的使用順序。
如果在步驟ST0404中關系選擇單元1630確定出處理信息FT中存 在未處理對應關系(i,j),則關系選擇單元1630將最右側的一個未處理對 應關系設置為處理對應關系(il,jl)(步驟ST0405)。這里,參考字符"il" 表示處理對應關系中所指明的相關字符串在轉換后的輸入句子S,中的使 用順序。參考字符表示處理對應關系中所指明的相關字符串在例句 模式A中的使用順序。
然后,關系選擇單元1630確定參考字符所表示的并在例句模 式A中的字符串ajl是否為固定部分(步驟ST0406)。如果關系選擇單元 1630確定出字符串ajl為固定部分,則關系選擇單元1630進行步驟ST0407的過程。如果關系選擇單元1630確定字符串ajl不為固定部分, 則關系選擇單元1630返回步驟ST0404,并重復上述過程。
如果在步驟ST0406中關系選擇單元1630確定出字符串ajl為固定 部分,則關系選擇單元1630確定是否存在未處理對應關系(i,j)(步驟 ST0407)。如果關系選擇單元1630確定出存在未處理對應關系(i,j),則 關系選擇單元1630進行步驟ST0408的過程。如果關系選擇單元1630確 定出不存在未處理對應關系(i,j),則關系選擇單元1630返回步驟ST0401 , 并重復上述過程。
如果在步驟ST0407中關系選擇單元1630確定出存在未處理對應關 系(i,j),則關系選擇單元1630將最右側的一個未處理對應關系設置為處 理對應關系(i2,j2)(步驟ST0408)。參考字符"i2"和"j2"與參考字符 和相同,所以這里省略對它們的說明。
然后,關系選擇單元1630確定參考字符"j2"所表示的并且在例句 模式A中的字符串aj2是否為可變部分(步驟ST0409)。如果關系選擇單 元1630確定出字符串aj2為可變部分,則關系選擇單元1630進行步驟 ST0410的過程。如果關系選擇單元1630確定出字符串aj2不為可變部分, 則關系選擇單元1630返回步驟ST0404,并重復上述過程。
如果在步驟ST0409中關系選擇單元1630確定出字符串aj2為可變 部分,則關系選擇單元1630確定"i2"的值應該是將的值加"1" 所獲得的值、"j2"的值應該是將的值加"1"所獲得的值的條件(后 文中簡稱為"第四條件")是否得到滿足(步驟ST0410)。
更具體來講,在例句模式A中第"jl"個出現的字符串ajl等同于在 輸入句子S'中第個出現的字符串s'il,并且在例句模式A中第"j2" 個出現的字符串aj2等同于在輸入句子S'中第"i2"個出現的字符串s,i2 的情況下,關系選擇單元1630確定在例句模式A中第個出現的字 符串是否位于第"j2"個出現的字符串的緊鄰右側,在輸入句子S'中第 個出現的字符串是否位于第"i2"個出現的字符串的緊鄰右側。
如果關系選擇單元1630確定出第四條件得到了滿足,則關系選擇單 元1630進行步驟ST0411的過程。如果關系選擇單元1630確定出第四條
41件未得到滿足,則關系選擇單元1630返回步驟ST0404,并重復上述過程。
如果在步驟ST0410中關系選擇單元1630確定出第四條件得到了滿 足,則關系選擇單元1630使分配給處理信息FT的分數遞增"1"(步驟 ST0411)。之后,關系選擇單元1630返回步驟ST0404,并重復上述過程。
如果在步驟ST0401中關系選擇單元1630確定出不存在未處理對應 關系信息Fl,則關系選擇單元1630選擇被分配了最大分數的對應關系信 息F1 (步驟ST0412)。
盡管在流程圖中未示出,但是之后,關系選擇單元1630將所選對應 關系信息Fl輸出到翻譯單元1700。關系選擇單元1630還將轉換后的輸 入句子、所提取的例句模式、翻譯例句模式以及對應關系信息F2輸出到 翻譯單元1700。然后,關系選擇單元1630結束關系選擇操作。
返回參照圖2,繼續(xù)對翻譯裝置1000的結構的說明。
翻譯單元1700連接到存儲器1100、提取單元1600以及顯示裝置 2000。翻譯單元1700執(zhí)行稍后描述的翻譯操作,以根據一種映射來翻譯 輸入句子,該映射使包括輸入句子的非公共部分在內的字符串與翻譯例 句模式的字符串相關聯(lián),該翻譯例句模式存儲在存儲器1100中并且與包 括提取單元1600所提取的例句模式的非公共字符串在內的字符串相關 聯(lián)。
現在參照圖25來描述翻譯單元1700進行的翻譯操作中要使用的映 射。圖25例示了翻譯單元1700進行的翻譯操作中要使用的映射。
如圖25中所示,翻譯單元1700進行的翻譯操作中要使用的映射 F(S,B)是一種通過組合映射F1(S,A)和映射F2(A,B)而形成的復合映射,映 射F1(S,A)定義了形成從輸入句子S轉換來的句子S'的字符串與形成輸入 句子S被歸類到的例句模式A的字符串之間的對應關系,映射F2(A,B) 定義了形成例句模式A的字符串與形成從例句模式A翻譯過來的翻譯例 句模式B的字符串之間的對應關系。映射F1(S,A)和映射F2(A,B)分別定 義了對應關系信息F1和F2所表示的對應關系。
現在來描述翻譯單元1700要進行的翻譯操作的例子。首先,翻譯單元1700從提取單元1600獲得轉換后的輸入句子S,和 提取單元1600針對例句模式A而提取的對應關系信息Fl 。翻譯單元1700 鑒別獲得的信息所表示的映射F1(S,A)。
然后,翻譯單元1700獲得存儲在存儲器1100中的例句模式A和針 對翻譯例句模式B的對應關系信息F2,或者從提取單元1600獲得信息 F2。翻譯單元1700鑒別獲得的信息所表示的映射F2(A,B)。
翻譯單元1700還從存儲器1100或提取單元1600獲得與例句模式A 相關聯(lián)的翻譯例句模式。
之后,翻譯單元1700對映射F1(S,A)和映射F2(A,B)進行組合,并 利用復合映射F(S,B)和翻譯例句模式來翻譯輸入句子S。然后,翻譯單元 1700控制顯示裝置2000來顯示翻譯后的句子。之后,翻譯單元1700結 束翻譯操作。
翻譯單元1700利用存儲在存儲器1100中的詞典或例句詞典,對形 成輸入句子S'的與例句模式A和翻譯例句模式B的可變部分相對應的轉 換后的字符串進行翻譯。
返回參照圖1,繼續(xù)對翻譯系統(tǒng)10的結構的說明。
顯示裝置2000例如可以是CRT (陰極射線管)、液晶顯示器或等離 子顯示器,并且連接到翻譯裝置1000。
在翻譯裝置1000的控制下,顯示裝置2000顯示第一語言的輸入句 子。然后,顯示裝置2000顯示經翻譯裝置1000翻譯的句子。
輸入裝置3000例如可以是鍵盤、定點裝置(或鼠標)或觸摸板,并 且連接到翻譯裝置1000。翻譯裝置1000的用戶對輸入裝置3000進行操 作以輸入第一語言的句子。
在該示范實施方式中,存儲器IIOO等同于權利要求書中的存儲器、 搜索單元1300等同于權利要求書中的搜索單元、轉換單元1400等同于 權利要求書中的轉換單元、計算單元1500等同于權利要求書中的計算單 元、提取單元1600等同于權利要求書中的歸類單元,而翻譯單元1700 等同于權利要求書中的翻譯單元。
下面來描述本發(fā)明的第二示范實施方式。[第二示范實施方式]
在第二示范實施方式中,翻譯裝置的單詞搜索單元利用哈希函數來 搜索例句模式。該單詞搜索單元與第一實施方式的利用具有特里結構的 樹來進行搜索的單詞搜索單元不同。
第二示范實施方式的翻譯系統(tǒng)的翻譯裝置、顯示裝置以及輸入裝置
的連接、結構以及功能與第一示范實施方式的翻譯裝置1000、顯示裝置 2000以及輸入裝置3000的連接、結構以及功能相同。因此,下面將僅描 述兩種示范實施方式之間的差異。為了便于說明,在第一和第二示范實 施方式中對相同的組件和部件使用了相同的標號。
現在來描述第二示范實施方式中的單詞搜索單元1310要進行的單 詞搜索操作的例子。
首先,單詞搜索單元1310從分析單元1200獲得形成輸入句子的詞 素。然后,單詞搜索單元1310從獲得的詞素中提取形成輸入句子的單詞。
之后,基于所提取的單詞,單詞搜索單元1310進行哈希操作以計算 出哈希值。然后,單詞搜索單元1310獲得索引矩陣1130的記錄ID,索 引矩陣1130與計算出的哈希值相關聯(lián)并存儲在存儲器1100中。
存儲器1100存儲單詞搜索單元1310計算出的哈希值并將其與用于 標識記錄的記錄ID相關聯(lián),該記錄是存儲有與包括借以計算哈希值的單 詞在內的例句模式有關的標識信息的索引矩陣的元素。
然后,單詞搜索單元1310將獲得的記錄ID輸出到例句模式搜索單 元1320。單詞搜索單元1310還將從分析單元1200獲得的單詞和從句輸 出到例句模式搜索單元1320。之后,單詞搜索單元1310結束單詞搜索操 作。
現在參照圖26來描述第二示范實施方式中的單詞搜索單元1310要 進行的哈希操作。圖26是示出第二示范實施方式中的單詞搜索單元1310 要進行的哈希操作的例子的流程圖。
首先,單詞搜索單元1310對存儲有哈希值的變量H進行初始化(步 驟ST0501)。然后,單詞搜索單元1310獲得要計算哈希值的單詞W (步 驟ST0502)。這里,單詞W由字符wl到wL形成。之后,單詞搜索單元1310通過將值"1"賦予計數器變量i來初始 化計數器變量i (步驟ST0503)。然后,單詞搜索單元1310確定計數器 變量i的值是否小于等于字符數L(步驟ST0504)。如果單詞搜索單元1310 確定出計數器變量i的值小于等于字符數L,則單詞搜索單元1310進行 步驟ST0505的過程。如果單詞搜索單元1310確定出計數器變量i的值 不小于等于字符數L,則單詞搜索單元1310結束哈希操作。
如果在步驟ST0504中單詞搜索單元1310確定出計數器變量i的值 小于等于字符數L,則單詞搜索單元1310將根據表達式"H I (wi << (I & 0 x 0F))"而獲得的值賦予變量H (步驟ST0505)。這里,符號"&"、"<<" 以及"I"表示"與"運算符、左移運算符以及"或"操作符。
然后,單詞搜索單元1310將根據表達式"H = H % L"而獲得的值 賦予變量H (步驟ST0506)。這里,符號"%"表示取模運算符。之后, 單詞搜索單元1310返回步驟ST0504,并重復上述過程。
翻譯裝置1000是通過操作單元1001運行存儲在ROM 1002、 RAM 1003以及外部存儲器1004中的至少一個中的程序而實現的。該程序還可 以存儲在諸如磁盤、光盤或半導體存儲器的一些其他類型的記錄介質中, 并且例如可以通過網絡而發(fā)布。
上述示范實施方式僅為本發(fā)明的示范實施方式的例子。然而,本發(fā) 明并不限于此,可以在不偏離本發(fā)明的范圍的情況下做出各種改變和修 改。
盡管在上述示范實施方式中,外部存儲器裝置為硬盤,但是本發(fā)明 并不限于這種安排。例如,外部存儲器裝置可以是軟盤、CD ROM (致 密盤只讀存儲器)、DVD-ROM (數字通用盤只讀存儲器)、DVD-RAM (數 字通用盤隨機存取存儲器)、MO (磁光(盤))或閃存。
應該注意,本發(fā)明并不限于這些示范實施方式,而是可以在不偏離 本發(fā)明的范圍的情況下對它們做出各種修改。
權利要求
1、一種翻譯裝置,該翻譯裝置包括存儲器,用于存儲形成例句模式的字符串和形成從該例句模式翻譯過來的翻譯例句模式的字符串,其中基于形成句子的字符串將例句歸類在該例句模式下,形成該例句模式的字符串與形成該翻譯例句模式的字符串基于字符串的含義而關聯(lián);轉換單元,用于利用表示形成要翻譯的輸入句子的字符串與形成存儲在該存儲器中的該例句模式的字符串之間的含義差異度的第一指標將該輸入句子轉換成這樣的句子,該句子包括與由歸類在該例句模式下的例句共享的公共字符串相對應的公共部分和不是這些公共部分的非公共部分;計算單元,用于根據使經該轉換單元轉換后的句子的非公共部分與該例句模式的公共字符串以外的非公共字符串相關聯(lián)的規(guī)則,并根據表示這些非公共部分與這些非公共字符串之間差異的第一指標,來計算表示該輸入句子與該例句模式之間的差異度的第二指標;提取單元,用于根據該計算單元計算出的第二指標來提取該輸入句子被歸類到的例句模式,并使經該轉換單元轉換后的句子的非公共部分與該提取單元所提取的例句模式的非公共字符串相關聯(lián);以及翻譯單元,用于根據使該輸入句子的非公共部分與形成該翻譯例句模式的字符串相關聯(lián)的映射來翻譯該輸入句子,形成該翻譯例句模式的該字符串存儲在該存儲器中并與該提取單元所提取的例句模式的非公共字符串相關聯(lián)。
2、 根據權利要求1所述的翻譯裝置,其中該計算單元根據以下規(guī)則中的一個或更多個來計算第二指標將該例句模式的一個或更多個公共字符串和非公共字符串映射為經該轉換單元轉換后的句子的一個或更多個公共部分和非公共部分,并用這些公共部分以一對一無交叉對應方式 來替換這些公共字符串的規(guī)則;將該例句模式的一個或更多個公共字符串和非公共字符串映射為經該轉換單元轉換后的句子的一個或更多個公共部分和非公共部分,并用這些非公共部分以一對一無交叉方式來替換 這些非公共字符串的規(guī)則;將該例句模式的一個或更多個公共字符串和 非公共字符串映射為經該轉換單元轉換后的句子的一個或更多個公共部 分和非公共部分,并刪除一個或更多個公共字符串和非公共字符串的規(guī) 則;以及將該例句模式的一個或更多個公共字符串和非公共字符串映射 為經該轉換單元轉換后的句子的一個或更多個公共部分和非公共部分, 并插入一個或更多個非公共字符串和非公共部分的規(guī)則。
3、 根據權利要求1或2所述的翻譯裝置,其中與該輸入句子的字符 串是該例句模式的公共字符串的同義詞的情況相比,在該輸入句子的字 符串與該例句模式的公共字符串不相同并且不是該公共字符串的同義詞 的情況下,第一指標表示更高的差異度。
4、 根據權利要求1或2所述的翻譯裝置,該翻譯裝置還包括 搜索單元,用于檢測包括在該輸入句子中使用的單詞的例句模式, 其中該提取單元從該搜索單元檢測到的例句模式中提取該輸入句子被歸類到的例句模式。
5、 根據權利要求1或2所述的翻譯裝置,其中該提取單元根據這些 公共字符串與這些非公共字符串在該例句模式中的使用順序以及這些公 共部分與這些非公共部分在該輸入句子中的使用順序,使這些非公共字 符串與這些非公共部分相關聯(lián)。
6、 一種使計算機執(zhí)行用于進行翻譯操作的處理的信息處理方法,該 處理包括以下步驟存儲形成例句模式的字符串和形成從該例句模式翻譯過來的翻譯例 句模式的字符串,其中基于形成句子的字符串將例句歸類在該例句模式 下,形成該例句模式的字符串與形成該翻譯例句模式的字符串基于字符 串的含義而關聯(lián);利用表示形成要翻譯的輸入句子的字符串與形成所存儲的例句模式 的字符串之間的含義差異度的第一指標將該輸入句子轉換成這樣的句 子,該句子包括與由歸類在該例句模式下的例句共享的公共字符串相對 應的公共部分和不是這些公共部分的非公共部分;根據使轉換后的句子的非公共部分與該例句模式的公共字符串以外 的非公共字符串相關聯(lián)的規(guī)則,并根據表示這些非公共部分與這些非公 共字符串之間差異的第一指標,來計算表示該輸入句子與該例句模式之 間的差異度的第二指標;根據第二指標來提取該輸入句子被歸類到的例句模式,并使轉換后 的句子的非公共部分與所提取的例句模式的非公共字符串相關聯(lián);以及根據使該輸入句子的非公共部分與形成該翻譯例句模式的字符串相 關聯(lián)的映射來翻譯該輸入句子,形成該翻譯例句模式的字符串被存儲并 與所提取的例句模式的非公共字符串相關聯(lián)。
全文摘要
一種翻譯裝置,該翻譯裝置包括存儲器,用于存儲形成例句模式的字符串和形成從該例句模式翻譯過來的翻譯例句模式的字符串,其中基于形成句子的字符串將例句歸類在該例句模式下,形成該例句模式的字符串與形成該翻譯例句模式的字符串基于字符串的含義而關聯(lián);轉換單元,用于將該輸入句子轉換成這樣的句子,該句子包括與由例句共享的公共字符串相對應的公共部分和非公共部分;以及翻譯單元,用于根據說明了與形成該翻譯例句模式的字符串之間的關聯(lián)的映射來翻譯該輸入句子,形成該翻譯例句模式的該字符串存儲在該存儲器中并與對應于轉換后的句子的非公共字符部分相關聯(lián)。
文檔編號G06F17/28GK101441623SQ20081013395
公開日2009年5月27日 申請日期2008年7月18日 優(yōu)先權日2007年11月20日
發(fā)明者劉紹明 申請人:富士施樂株式會社