專(zhuān)利名稱(chēng):從雙語(yǔ)詞語(yǔ)對(duì)齊高效提取短語(yǔ)對(duì)的制作方法
從雙語(yǔ)詞語(yǔ)對(duì)齊高效提取短語(yǔ)對(duì)
背景
使用翻譯模型將源語(yǔ)言的句子翻譯成目標(biāo)語(yǔ)言的句子。例如,可使用翻譯 模型將英語(yǔ)句子翻譯成其法語(yǔ)的等價(jià)物。
開(kāi)發(fā)了依賴(lài)于一對(duì)多翻譯(被稱(chēng)為詞語(yǔ)翻譯)和多對(duì)多翻譯(被稱(chēng)為短語(yǔ) 翻譯)兩者的翻譯模型。在一對(duì)多翻譯中,源語(yǔ)言中的一個(gè)詞語(yǔ)被翻譯成目標(biāo) 語(yǔ)言中的一個(gè)或多個(gè)詞語(yǔ)。在多對(duì)多翻譯中,源語(yǔ)言中的多個(gè)相鄰詞語(yǔ)被翻譯 成目標(biāo)語(yǔ)言中的多個(gè)相鄰詞語(yǔ)。
為了構(gòu)造翻譯模型,使用由與第二語(yǔ)言的目標(biāo)句子對(duì)齊的第一語(yǔ)言的源句 子組成的雙語(yǔ)語(yǔ)料庫(kù)來(lái)標(biāo)識(shí)可能的詞語(yǔ)翻譯和短語(yǔ)翻譯。通常使用基于包括雙 語(yǔ)語(yǔ)料庫(kù)中對(duì)齊的句子中源詞語(yǔ)和目標(biāo)詞語(yǔ)的共同出現(xiàn)率在內(nèi)的多種因素標(biāo) 識(shí)源句子中的詞語(yǔ)與目標(biāo)句子中的詞語(yǔ)之間的對(duì)齊的統(tǒng)計(jì)詞語(yǔ)對(duì)齊器來(lái)標(biāo)識(shí) 詞語(yǔ)翻譯。
使用類(lèi)似的統(tǒng)計(jì)技術(shù)從句子對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中直接提取短語(yǔ)對(duì)齊。在以 往的其他系統(tǒng)中,通過(guò)首先提取詞語(yǔ)對(duì)齊然后使用詞語(yǔ)對(duì)齊標(biāo)識(shí)短語(yǔ)來(lái)提取短 語(yǔ)對(duì)齊。在這樣的系統(tǒng)中,當(dāng)源短語(yǔ)中的詞語(yǔ)沒(méi)有一個(gè)與目標(biāo)句子中目標(biāo)短語(yǔ) 外的詞語(yǔ)對(duì)齊且目標(biāo)短語(yǔ)中的詞語(yǔ)沒(méi)有一個(gè)與源句子中源短語(yǔ)之外的詞語(yǔ)對(duì) 齊,且源短語(yǔ)中至少有一個(gè)詞語(yǔ)與目標(biāo)短語(yǔ)中的詞語(yǔ)對(duì)齊時(shí),將源短語(yǔ)和目標(biāo) 短語(yǔ)稱(chēng)為對(duì)齊。
將每一可能的源短語(yǔ)與每一可能的目標(biāo)短語(yǔ)獨(dú)立比較的樸素算法將具有
至少0(Pm"的復(fù)雜度,其中l(wèi)和m分別是源和目標(biāo)句子的長(zhǎng)度。
提供以上討論僅用作一般的背景信息,并不旨在幫助確定所要求保護(hù)的主
題的范圍。 概述
提供用于標(biāo)識(shí)源句子和目標(biāo)句子之間的短語(yǔ)對(duì)齊對(duì)的方法。通過(guò)要求源詞 語(yǔ)與目標(biāo)句子中的至少一個(gè)目標(biāo)詞語(yǔ)對(duì)齊以形成源短語(yǔ)的邊界來(lái)標(biāo)識(shí)短語(yǔ)在源句子中的邊界。基于源短語(yǔ)中的詞語(yǔ)與目標(biāo)句子中的詞語(yǔ)之間的對(duì)齊標(biāo)識(shí)短 語(yǔ)在目標(biāo)句子中的邊界。檢查目標(biāo)短語(yǔ)中的詞語(yǔ)以確定是否有任何詞語(yǔ)與源短 語(yǔ)外的源詞語(yǔ)對(duì)齊。如果它們不與源短語(yǔ)外的源詞語(yǔ)對(duì)齊,則確定源短語(yǔ)和目 標(biāo)短語(yǔ)形成對(duì)齊對(duì),且被存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。
提供本概述以便以簡(jiǎn)化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的一 些概念。該概述不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨 在用于幫助確定所要求保護(hù)的主題的范圍。所要求保護(hù)的主題不限于解決在背 景中提及的任何或所有缺點(diǎn)的實(shí)現(xiàn)。.
附圖簡(jiǎn)述
圖1是用于訓(xùn)練翻譯模型的系統(tǒng)的框圖。
圖2是源句子與對(duì)齊的目標(biāo)句子之間的詞語(yǔ)對(duì)齊的示例。
圖3是提取對(duì)齊的短語(yǔ)對(duì)的方法的流程圖。
圖4是用于基于源短語(yǔ)邊界結(jié)尾的改變擴(kuò)展目標(biāo)短語(yǔ)邊界的流程圖。
圖5是用于標(biāo)識(shí)可通過(guò)向目標(biāo)和源短語(yǔ)添加未鏈接的詞語(yǔ)來(lái)形成的附加
短語(yǔ)對(duì)的流程圖。
圖6是用于標(biāo)識(shí)對(duì)齊的短語(yǔ)對(duì)的替換方法的流程圖。 圖7是翻譯系統(tǒng)的框圖。
圖8是可在其中實(shí)現(xiàn)各實(shí)施例的一般計(jì)算環(huán)境的框圖。 詳細(xì)描述
圖1是用于利用從雙語(yǔ)語(yǔ)料庫(kù)中提取的短語(yǔ)對(duì)齊來(lái)構(gòu)造翻譯模型的系統(tǒng) 的大體框圖。在圖1中,向詞語(yǔ)對(duì)齊模型102提供雙語(yǔ)語(yǔ)料庫(kù)100。雙語(yǔ)語(yǔ)料 庫(kù)100由與第二語(yǔ)言的目標(biāo)句子對(duì)齊的第一語(yǔ)言的源句子組成。這樣的雙語(yǔ)語(yǔ) 料庫(kù)的示例有加拿大議會(huì)議事錄(Canadian Hansards Parliamentary Proceedings),它使用諸如美國(guó)專(zhuān)利公幵2004-0044530A1中所述的技術(shù)等已 知的句子級(jí)對(duì)齊技術(shù)來(lái)對(duì)齊以提供英法雙語(yǔ)詞語(yǔ)對(duì)。
詞語(yǔ)對(duì)齊模型102使用雙語(yǔ)語(yǔ)料庫(kù)100來(lái)標(biāo)識(shí)詞語(yǔ)對(duì)齊104。詞語(yǔ)對(duì)齊模 型102可釆用標(biāo)識(shí)源句子中詞語(yǔ)與目標(biāo)句子中詞語(yǔ)之間的一對(duì)多對(duì)齊的任何統(tǒng) 計(jì)詞語(yǔ)對(duì)齊模型的形式。統(tǒng)計(jì)詞語(yǔ)對(duì)齊模型的示例包括IBM模型1-5,這在本領(lǐng)域中是已知的。
在詞語(yǔ)對(duì)齊104中,每一源詞語(yǔ)被標(biāo)識(shí)為或者不鏈接到目標(biāo)句子中的詞 語(yǔ)、鏈接到目標(biāo)句子中的一個(gè)詞語(yǔ)或目標(biāo)句子中的多個(gè)相鄰詞語(yǔ)。類(lèi)似地,目 標(biāo)句子中的每一目標(biāo)詞語(yǔ)被表示為不與源句子中的詞語(yǔ)對(duì)齊、與源句子中的一 個(gè)詞語(yǔ)對(duì)齊或與源句子中的多個(gè)相鄰詞語(yǔ)對(duì)齊。與至少一個(gè)詞語(yǔ)對(duì)齊的源詞語(yǔ) 和目標(biāo)詞語(yǔ)被稱(chēng)為鏈接的。不與詞語(yǔ)對(duì)齊的源詞語(yǔ)和目標(biāo)詞語(yǔ)被稱(chēng)為未鏈接 的。
圖2提供在雙語(yǔ)語(yǔ)料庫(kù)中對(duì)齊的源句子200和目標(biāo)句子202的詞語(yǔ)對(duì)齊的 圖形示例。源句子200由源詞語(yǔ)SW1、 SW2、 SW3、 SW4、 SW5、 SW6、 SW7 和SW8組成。目標(biāo)句子202由目標(biāo)詞語(yǔ)TW1、 TW2、 TW3、 TW4、 TW5和 TW6組成。詞語(yǔ)之間的對(duì)齊被示為將源詞語(yǔ)連接到目標(biāo)詞語(yǔ)的線。在圖2的 詞語(yǔ)對(duì)齊中,目標(biāo)詞語(yǔ)TW2與三個(gè)源詞語(yǔ)SW2、 SW3和SW4對(duì)齊,源詞語(yǔ) SW4與兩個(gè)目標(biāo)詞語(yǔ)TW2和TW3對(duì)齊,目標(biāo)詞語(yǔ)TW3與兩個(gè)源詞語(yǔ)SW4 和SW6對(duì)齊,而目標(biāo)詞語(yǔ)TW6與源詞語(yǔ)SW8對(duì)齊。源詞語(yǔ)SW1、 SW5和 SW7以及目標(biāo)詞語(yǔ)TW1、 TW4和TW5不與任何詞語(yǔ)對(duì)齊,且被認(rèn)為是未鏈 接的。
短語(yǔ)提取106使用詞語(yǔ)對(duì)齊104來(lái)標(biāo)識(shí)雙語(yǔ)語(yǔ)料庫(kù)100中的短語(yǔ)對(duì)齊對(duì) 108。短語(yǔ)對(duì)齊對(duì)108中的每一短語(yǔ)對(duì)齊對(duì)由源短語(yǔ)和目標(biāo)短語(yǔ)組成,源短語(yǔ) 由源句子中的詞語(yǔ)的相鄰序列形成,目標(biāo)短語(yǔ)由目標(biāo)句子中詞語(yǔ)的相鄰序列形 成。短語(yǔ)對(duì)表示其中源短語(yǔ)中沒(méi)有詞語(yǔ)與目標(biāo)句子中目標(biāo)短語(yǔ)外的詞語(yǔ)對(duì)齊且 目標(biāo)短語(yǔ)中沒(méi)有詞語(yǔ)與源句子中源短語(yǔ)外的詞語(yǔ)對(duì)齊且源短語(yǔ)中至少有一個(gè) 詞語(yǔ)與目標(biāo)短語(yǔ)中的詞語(yǔ)對(duì)齊的多對(duì)多關(guān)系。源短語(yǔ)和目標(biāo)短語(yǔ)由短語(yǔ)邊界限 定,起始邊界為短語(yǔ)中的第一個(gè)詞語(yǔ),而結(jié)束邊界為短語(yǔ)中的最后一個(gè)詞語(yǔ)。
使用詞語(yǔ)對(duì)齊104和短語(yǔ)對(duì)齊對(duì)108,翻譯模型訓(xùn)練器110開(kāi)發(fā)了對(duì)齊的 詞語(yǔ)和對(duì)齊的短語(yǔ)的出現(xiàn)的統(tǒng)計(jì)。然后使用這些統(tǒng)計(jì)來(lái)構(gòu)造翻譯模型112,該 模型提供了給定源詞語(yǔ)和源短語(yǔ)時(shí)目標(biāo)詞語(yǔ)和目標(biāo)短語(yǔ)的概率以及給定目標(biāo) 詞語(yǔ)和目標(biāo)短語(yǔ)時(shí)源詞語(yǔ)和源短語(yǔ)的概率。
圖3提供了一個(gè)實(shí)施例中短語(yǔ)提取的一種方法的流程圖。在圖3的步驟 300中,從詞語(yǔ)對(duì)齊104檢索目標(biāo)句子和源句子的詞語(yǔ)對(duì)齊邊界。在一個(gè)實(shí)施例中,源詞語(yǔ)的詞語(yǔ)對(duì)齊提供與該源詞語(yǔ)對(duì)齊的目標(biāo)短語(yǔ)的最小詞語(yǔ)位置和最 大詞語(yǔ)位置。類(lèi)似地,目標(biāo)詞語(yǔ)的詞語(yǔ)對(duì)齊提供與該目標(biāo)詞語(yǔ)對(duì)齊的源短語(yǔ)的 最小詞語(yǔ)位置和最大詞語(yǔ)位置。不檢索關(guān)于目標(biāo)詞語(yǔ)與最小源詞語(yǔ)和最大源詞 語(yǔ)之間的詞語(yǔ)的對(duì)齊的信息或源詞語(yǔ)與最小目標(biāo)詞語(yǔ)和最大目標(biāo)詞語(yǔ)之間的 詞語(yǔ)的對(duì)齊的信息。例如,對(duì)圖2的對(duì)齊,目標(biāo)詞語(yǔ)TW3的對(duì)齊信息可包括
作為最小源詞語(yǔ)的SW4以及作為最大源詞語(yǔ)的SW6,而不引用源詞語(yǔ)SW5。 這簡(jiǎn)化了在圖3的過(guò)程期間存儲(chǔ)詞語(yǔ)對(duì)齊所需的數(shù)據(jù)結(jié)構(gòu)。在其他實(shí)施例中, 在步驟300檢索關(guān)于源詞語(yǔ)和目標(biāo)詞語(yǔ)之間的每一對(duì)齊的信息。
在步驟302,使用源句子中源詞語(yǔ)的詞語(yǔ)對(duì)齊,并在源句子起始處開(kāi)始, 該方法找到與至少一個(gè)目標(biāo)詞語(yǔ)對(duì)齊的下一源詞語(yǔ),并對(duì)該詞語(yǔ)設(shè)置可能的源 短語(yǔ)的開(kāi)頭和結(jié)尾。注意,在步驟302不與目標(biāo)詞語(yǔ)對(duì)齊的源詞語(yǔ)不被認(rèn)為是 源短語(yǔ)的開(kāi)頭。例如,在圖2的詞語(yǔ)對(duì)齊中,源詞語(yǔ)SW5將在步驟302期間 跳過(guò)。
使用與步驟302所選的源詞語(yǔ)相關(guān)聯(lián)的最小目標(biāo)詞語(yǔ)位置和最大目標(biāo)詞 語(yǔ)位置,短語(yǔ)提取過(guò)程在步驟304設(shè)置目標(biāo)短語(yǔ)的邊界。具體地,目標(biāo)短語(yǔ)的 開(kāi)始被設(shè)置為源詞語(yǔ)的最小目標(biāo)詞語(yǔ)位置,而目標(biāo)短語(yǔ)的結(jié)尾被設(shè)置為源詞語(yǔ) 的最大目標(biāo)詞語(yǔ)位置。例如,在圖2中,如果源短語(yǔ)的開(kāi)頭和結(jié)尾位于源詞語(yǔ) SW4,則目標(biāo)短語(yǔ)的開(kāi)始將被設(shè)置為T(mén)W2,而目標(biāo)短語(yǔ)的結(jié)尾將被設(shè)置為 丁W3。
在步驟306,選擇目標(biāo)短語(yǔ)邊界中未檢查其詞語(yǔ)對(duì)齊的詞語(yǔ)。^步驟308, 檢查所選目標(biāo)詞語(yǔ)的詞語(yǔ)對(duì)齊,以確定目標(biāo)詞語(yǔ)是否與源句子中當(dāng)前源短語(yǔ)之 前的詞語(yǔ)對(duì)齊。如果目標(biāo)詞語(yǔ)與源短語(yǔ)之前的詞語(yǔ)對(duì)齊,則過(guò)程返回到步驟302 以通過(guò)從當(dāng)前源詞語(yǔ)朝源句子結(jié)尾移動(dòng)來(lái)找到與目標(biāo)詞語(yǔ)對(duì)齊的下一源詞語(yǔ)。 新的源短語(yǔ)的開(kāi)頭和結(jié)尾然后被設(shè)置為該下一源詞語(yǔ)。然后對(duì)新的源短語(yǔ)執(zhí)行 步驟304、 306和308。
如果在步驟308目標(biāo)詞語(yǔ)不與源短語(yǔ)之前的詞語(yǔ)對(duì)齊,則過(guò)程繼續(xù)至步驟 310,在那里作出目標(biāo)詞語(yǔ)是否與源短語(yǔ)之后的源詞語(yǔ)對(duì)齊的判斷。如果目標(biāo) 詞語(yǔ)與源短語(yǔ)之后的詞語(yǔ)對(duì)齊,則在步驟312源短語(yǔ)的結(jié)尾移至與目標(biāo)詞語(yǔ)對(duì) 齊的最大源詞語(yǔ)位置。步驟308和302的組合以及步驟310和312的組合允許將源詞語(yǔ)的跨度排 除在形成翻譯對(duì)的部分的考慮之外而不必標(biāo)識(shí)該跨度的相應(yīng)目標(biāo)短語(yǔ)。這是通 過(guò)在到達(dá)步驟308和310之前首先標(biāo)識(shí)可能的源短語(yǔ)和相應(yīng)的可能目標(biāo)短語(yǔ)的 邊界來(lái)完成的。在步驟308和310,作出可能的目標(biāo)短語(yǔ)是否包括鏈接至源短 語(yǔ)外的源詞語(yǔ)的目標(biāo)詞語(yǔ)的判斷。在步驟308,這涉及確定該外部源詞語(yǔ)是否 在源短語(yǔ)之前,而在步驟310,這涉及確定該外部詞語(yǔ)是否在源短語(yǔ)之后。
步驟308和302的組合通過(guò)排除與當(dāng)前源短語(yǔ)共享邊界(當(dāng)前源短語(yǔ)的開(kāi) 頭)、不包括外部源詞語(yǔ)、且包括源短語(yǔ)的所有詞語(yǔ)的源詞語(yǔ)的跨度,排除了 源詞語(yǔ)的跨度,而不必標(biāo)識(shí)相應(yīng)的目標(biāo)短語(yǔ)。例如,如果當(dāng)前源短語(yǔ)被設(shè)置為 SW4-SW6且相應(yīng)的目標(biāo)短語(yǔ)被設(shè)置為T(mén)W2-TW3,則步驟308和302將源詞語(yǔ) SW2標(biāo)識(shí)為外部源詞語(yǔ),且將排除以開(kāi)頭邊界SW4開(kāi)始且不包括源詞語(yǔ)SW2 且包括當(dāng)前源短語(yǔ)SW4-SW6的所有詞語(yǔ)的源詞語(yǔ)的跨度。因此,步驟308和 302排除了跨度SW4-SW7以及SW4-SW8而不必標(biāo)識(shí)這些跨度相應(yīng)的目標(biāo)短 語(yǔ)。這可根據(jù)在步驟302,當(dāng)前短語(yǔ)的開(kāi)頭直接移至SW6而沒(méi)有對(duì)跨度 SW4-SW7和SW4-SW8執(zhí)行任何處理來(lái)看出。
步驟310和312的組合通過(guò)排除與當(dāng)前源短語(yǔ)共享邊界(當(dāng)前源短語(yǔ)的開(kāi) 頭)、不包括外部源詞語(yǔ)、且包括源短語(yǔ)的所有詞語(yǔ)的源詞語(yǔ)的跨度,排除了 源詞語(yǔ)的跨度,而不必標(biāo)識(shí)相應(yīng)的目標(biāo)短語(yǔ)。例如,如果當(dāng)前源短語(yǔ)被設(shè)置為 SW2-SW4且相應(yīng)的目標(biāo)短語(yǔ)被設(shè)置為T(mén)W2-TW3,則步驟310和312將源詞語(yǔ) SW6標(biāo)識(shí)為外部源詞語(yǔ),且將排除以開(kāi)頭邊界SW2開(kāi)始且不包括源詞語(yǔ)SW6 且包括當(dāng)前源短語(yǔ)SW2-SW4的所有詞語(yǔ)的源詞語(yǔ)的跨度。因此,步驟310和 312排除跨度SW2-SW5而不必標(biāo)識(shí)該跨度的相應(yīng)目標(biāo)短語(yǔ)。這可根據(jù)在步驟 312,當(dāng)前短語(yǔ)的結(jié)尾直接移至SW6而沒(méi)有對(duì)跨度SW2-SW5執(zhí)行任何處理來(lái) 看出。
在步驟312移動(dòng)源短語(yǔ)的結(jié)尾之后,在步驟314基于源短語(yǔ)的結(jié)尾的移動(dòng) 改變目標(biāo)短語(yǔ)的邊界。
圖4提供了在圖3的步驟314執(zhí)行的步驟的流程圖。在步驟400,選擇前 一源短語(yǔ)結(jié)尾之后下一鏈接的源詞語(yǔ)。例如,在圖2中,如果前一源短語(yǔ)在詞 語(yǔ)SW2開(kāi)始并結(jié)束,則步驟400將選擇源詞語(yǔ)SW3。在步驟402,如果源詞
11語(yǔ)鏈接至當(dāng)前目標(biāo)短語(yǔ)開(kāi)頭之前的目標(biāo)詞語(yǔ),則目標(biāo)短語(yǔ)的開(kāi)頭被改為該源詞 語(yǔ)的最小鏈接目標(biāo)詞語(yǔ)位置。在步驟404,如果源詞語(yǔ)鏈接至目標(biāo)短語(yǔ)結(jié)尾之 后的目標(biāo)詞語(yǔ),則目標(biāo)短語(yǔ)的結(jié)尾被改為該源詞語(yǔ)的最大鏈接目標(biāo)詞語(yǔ)位置。
例如,如果在步驟400,當(dāng)目標(biāo)短語(yǔ)在目標(biāo)詞語(yǔ)TW2開(kāi)始并結(jié)束時(shí)選擇源詞 語(yǔ)SW4,步驟404將使得目標(biāo)短語(yǔ)的結(jié)尾被移動(dòng)至目標(biāo)詞語(yǔ)TW3,因?yàn)檫@是 源詞語(yǔ)SW4的最大鏈接目標(biāo)詞語(yǔ)位置。
在步驟406,圖4的過(guò)程確定源短語(yǔ)中是否還有其他未被檢查的鏈接源詞 語(yǔ)。如果還有鏈接源詞語(yǔ),則在步驟407選擇下一鏈接源詞語(yǔ),并重復(fù)步驟402、 404和406。當(dāng)在步驟406在源短語(yǔ)中不再有其他鏈接源詞語(yǔ)時(shí),該過(guò)程在步 驟408結(jié)束。
回到圖3,在其中基于源短語(yǔ)邊界結(jié)尾的改變而改變目標(biāo)短語(yǔ)邊界的步驟 314之后,該過(guò)程返回至步驟306以選擇目標(biāo)短語(yǔ)邊界中未檢查的下一詞語(yǔ)。 然后為新選擇的目標(biāo)詞語(yǔ)執(zhí)行步驟308和310。
當(dāng)如步驟308和310所確定的,所選目標(biāo)詞語(yǔ)不與源短語(yǔ)之前或源短語(yǔ)之 后的詞語(yǔ)對(duì)齊時(shí),該過(guò)程在步驟316確定在目標(biāo)短語(yǔ)中是否還有其他未檢查的 詞語(yǔ)。如果還有未檢查的目標(biāo)詞語(yǔ),則在步驟305選擇目標(biāo)短語(yǔ)中下一未檢査 的目標(biāo)詞語(yǔ),并為新選擇的目標(biāo)詞語(yǔ)執(zhí)行步驟308和310。
當(dāng)在步驟316中在目標(biāo)短語(yǔ)中不再有其他未檢查的目標(biāo)詞語(yǔ)時(shí),該過(guò)程繼 續(xù)至步驟318,在那里可從當(dāng)前源短語(yǔ)和當(dāng)前目標(biāo)短語(yǔ)通過(guò)添加O個(gè)或多個(gè)相 鄰未鏈接詞語(yǔ)形成的所有源短語(yǔ)和目標(biāo)短語(yǔ)被存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。在圖5的流 程圖中更詳細(xì)示出存儲(chǔ)這樣的短語(yǔ)對(duì)齊對(duì)的過(guò)程。
以下參考圖2的對(duì)齊雙語(yǔ)句子來(lái)描述圖5的流程圖。具體地,以上使用為 SW2-SW6的當(dāng)前源短語(yǔ)和為T(mén)W2-TW3的當(dāng)前目標(biāo)短語(yǔ)進(jìn)入圖5的過(guò)程的示 例討論該流程圖。
在圖5的步驟500中,在進(jìn)入圖3的步驟318之前標(biāo)識(shí)的當(dāng)前源短語(yǔ)和當(dāng) 前目標(biāo)短語(yǔ)被存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)108中的短語(yǔ)對(duì)齊對(duì)。作為來(lái)自圖2的示例, 在步驟500將源短語(yǔ)SW2-SW6和目標(biāo)短語(yǔ)TW2-TW3存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。注 意到,源短語(yǔ)中沒(méi)有一個(gè)源詞語(yǔ)與目標(biāo)短語(yǔ)外的目標(biāo)詞語(yǔ)對(duì)齊,且目標(biāo)短語(yǔ)中 沒(méi)有一個(gè)目標(biāo)詞語(yǔ)與源短語(yǔ)外的目標(biāo)詞語(yǔ)對(duì)齊。
12在步驟502,該過(guò)程確定在目標(biāo)短語(yǔ)之前是否緊接有未鏈接詞語(yǔ)。如果在
目標(biāo)短語(yǔ)之前緊接有未鏈接詞語(yǔ),則在步驟504將該未鏈接詞語(yǔ)添加到目標(biāo)短 語(yǔ)以形成新的目標(biāo)短語(yǔ)。對(duì)圖2的示例,這可涉及將目標(biāo)詞語(yǔ)TW1添加到目 標(biāo)短語(yǔ)以形成由詞語(yǔ)TW1-TW3組成的新目標(biāo)短語(yǔ)。該過(guò)程然后返回至步驟 500以將新的目標(biāo)短語(yǔ)和源短語(yǔ)存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。對(duì)圖.2的示例,這涉^:存 儲(chǔ)由詞語(yǔ)TW1-TW3組成的目標(biāo)短語(yǔ)以及由源詞語(yǔ)SW2-SW6組成的源短語(yǔ)。
該過(guò)程然后返回至步驟502以確定在目標(biāo)短語(yǔ)之前是否緊接有其他未鏈 接詞語(yǔ)。當(dāng)在目標(biāo)短語(yǔ)之前沒(méi)有緊接有其他未鏈接詞語(yǔ)時(shí),過(guò)程繼續(xù)至步驟 506,在那里將目標(biāo)短語(yǔ)的開(kāi)頭復(fù)位到目標(biāo)短語(yǔ)的原始開(kāi)頭。在圖2的示例中, 這涉及將目標(biāo)短語(yǔ)的開(kāi)頭復(fù)位到目標(biāo)詞語(yǔ)TW2。
在復(fù)位目標(biāo)短語(yǔ)的開(kāi)頭之后,該過(guò)程繼續(xù)至步驟508,在那里確定在目標(biāo) 短語(yǔ)之后是否緊接有未鏈接詞語(yǔ)。如果在目標(biāo)短語(yǔ)之后緊接有未鏈接詞語(yǔ),則 在步驟504將該未鏈接詞語(yǔ)添加到目標(biāo)短語(yǔ),且新的目標(biāo)短語(yǔ)和源短語(yǔ)被存儲(chǔ) 為短語(yǔ)對(duì)齊對(duì)。在圖2的示例中,這涉及將目標(biāo)詞語(yǔ)TW4添加到目標(biāo)短語(yǔ)以 形成由詞語(yǔ)TW2-TW4組成的新目標(biāo)短語(yǔ)。該目標(biāo)短語(yǔ)然后在步驟500與由詞 語(yǔ)SW2-SW6組成的源短語(yǔ)一起存儲(chǔ)。
該過(guò)程然后返回至步驟502以確定在目標(biāo)短語(yǔ)之前是否緊接有其他未鏈 接詞語(yǔ)。在圖2的示例中,TW1是緊接在目標(biāo)短語(yǔ)之前的未鏈接詞語(yǔ)。因此, 在步驟504,將該未鏈接詞語(yǔ)添加到目標(biāo)短語(yǔ)以形成由目標(biāo)詞語(yǔ)TW1-TW4組 成的新目標(biāo)短語(yǔ)。該新目標(biāo)短語(yǔ)然后在步驟500與源短語(yǔ)SW2-SW6 —起存儲(chǔ), 作為短語(yǔ)對(duì)齊對(duì)。
該過(guò)程返回至步驟502,并確定在目標(biāo)短語(yǔ)開(kāi)頭之前沒(méi)有緊接有其他未鏈 接詞語(yǔ)。因此,在步驟506目標(biāo)短語(yǔ)的開(kāi)頭被復(fù)位到目標(biāo)短語(yǔ)的原始開(kāi)頭,且 該過(guò)程在步驟508確定在目標(biāo)短語(yǔ)之后是否有任何未鏈接詞語(yǔ)。在圖2的示例 中,在當(dāng)前目標(biāo)短語(yǔ)之后緊接有未鏈接詞語(yǔ)TW5。因此,該過(guò)程返回到步驟 504以將TW5添加到目標(biāo)短語(yǔ),且將目標(biāo)短語(yǔ)TW2-TW5和源短語(yǔ)SW2-SW6 存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。
該過(guò)程然后返回至步驟502以確定在目標(biāo)短語(yǔ)之前是否緊接有其他未鏈 接詞語(yǔ)。在圖2的示例中,TW1是緊接在目標(biāo)短語(yǔ)之前的未鏈接詞語(yǔ)。因此,在步驟504,將該未鏈接詞語(yǔ)添加到目標(biāo)短語(yǔ)以形成由目標(biāo)詞語(yǔ)TW1-TW5組 成的新目標(biāo)短語(yǔ)。該新目標(biāo)短語(yǔ)然后在步驟500與源短語(yǔ)SW2-SW6 —起存儲(chǔ), 作為短語(yǔ)對(duì)齊對(duì)。
該過(guò)程返回至步驟502,并確定在目標(biāo)短語(yǔ)開(kāi)頭之前沒(méi)有緊接有其他未鏈 接詞語(yǔ)。因此,在步驟506目標(biāo)短語(yǔ)的開(kāi)頭被復(fù)位到目標(biāo)短語(yǔ)的原始開(kāi)頭,且 該過(guò)程在步驟508確定在目標(biāo)短語(yǔ)之后是否緊接有任何未鏈接詞語(yǔ)。由于當(dāng)前 目標(biāo)短語(yǔ)之后的下一詞語(yǔ)為T(mén)W6,它鏈接至源詞語(yǔ)SW8,因此在步驟508, 在目標(biāo)短語(yǔ)之后不再有緊接有其他未鏈接詞語(yǔ)。.因此,過(guò)程繼續(xù)至步驟510, 在那里目標(biāo)短語(yǔ)的結(jié)尾被復(fù)位到其在目標(biāo)詞語(yǔ)TW3的原始位置。
在步驟512,該過(guò)程確定在源短語(yǔ)之前是否緊接有未鏈接詞語(yǔ)。在圖2的 示例中,源詞語(yǔ)SW1未鏈接,且因此在步驟514添加到源短語(yǔ)以形成新源短 語(yǔ)SW1-SW6。該過(guò)程然后返回至步驟500以將新的源短語(yǔ)SW1-SW6和原始 目標(biāo)短語(yǔ)TW2-TW3存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。
然后執(zhí)行步驟502和504以向目標(biāo)短語(yǔ)添加緊接在目標(biāo)短語(yǔ)之前的未鏈接 詞語(yǔ),得到由目標(biāo)詞語(yǔ)TW1-TW3組成的新目標(biāo)短語(yǔ)。該新目標(biāo)短語(yǔ)TW1-TW3 然后與源短語(yǔ)SW1-SW6—起存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。注意到,盡管向源短語(yǔ)和目 標(biāo)短語(yǔ)兩者添加了未鏈接詞語(yǔ),但源短語(yǔ)中沒(méi)有一個(gè)詞語(yǔ)與目標(biāo)短語(yǔ)外的目標(biāo) 詞語(yǔ)對(duì)齊,且目標(biāo)短語(yǔ)中沒(méi)有一個(gè)詞語(yǔ)與源短語(yǔ)外的源詞語(yǔ)對(duì)齊。
然后執(zhí)行步驟506、 508、 504和500以添加目標(biāo)短語(yǔ)TW2-TW4和源短語(yǔ) SW1-SW6作為短語(yǔ)對(duì)齊對(duì)。然后執(zhí)行步驟502、 504和500以添加目標(biāo)短語(yǔ) TW1-TW4和源短語(yǔ)SW1-SW6作為短語(yǔ)對(duì)齊對(duì)。然后執(zhí)行步驟506、 508、 504 和500以添加目標(biāo)短語(yǔ)TW2-TW5和源短語(yǔ)SW1-SW6作為短語(yǔ)對(duì)齊對(duì)。然后 執(zhí)行步驟502、504和500以添加目標(biāo)短語(yǔ)TW1-TW5和源短語(yǔ)SW1-SW6作為 短語(yǔ)對(duì)齊對(duì)。
然后在步驟510復(fù)位目標(biāo)短語(yǔ)的結(jié)尾,且該過(guò)程繼續(xù)至步驟512以確定在 當(dāng)前源短語(yǔ)之前是否緊接有未鏈接詞語(yǔ)。由于在源短語(yǔ)之前沒(méi)有緊接有未鏈接 詞語(yǔ),因此源短語(yǔ)的開(kāi)頭在步驟516被復(fù)位到原始源短語(yǔ)的開(kāi)頭。因此,在圖 2的示例中,源短語(yǔ)的開(kāi)頭被復(fù)位到SW2。
在步驟518,該過(guò)程確定在源短語(yǔ)之后是否緊接有未鏈接詞語(yǔ)。如果有任
14何未鏈接詞語(yǔ),則該過(guò)程返回到步驟514以添加未鏈接詞語(yǔ),諸如未鏈接源詞
語(yǔ)SW7以形成新的源短語(yǔ)SW2-SW7。然后在步驟500,存儲(chǔ)該新的源短語(yǔ)與 原始目標(biāo)短語(yǔ)以形成由源短語(yǔ)SW2-SW7和目標(biāo)短語(yǔ)TW2-TW3組成的短語(yǔ)對(duì) 齊對(duì)。然后使用上述步驟500、 502、 504、 506和508形成可通過(guò)添加鄰近未 鏈接目標(biāo)詞語(yǔ)形成的所有可能的目標(biāo)短語(yǔ)。所形成的每一目標(biāo)短語(yǔ)與源短語(yǔ)的 當(dāng)前形式一起存儲(chǔ),作為短語(yǔ)對(duì)齊對(duì)。
此外,使用步驟512和514形成可用源短語(yǔ)的當(dāng)前結(jié)尾通過(guò)向源短語(yǔ)的開(kāi) 頭添加鄰近未鏈接源詞語(yǔ)形成的所有源短語(yǔ)。對(duì)這些源短語(yǔ)中的每一個(gè),形成 可通過(guò)添加鄰近未鏈接詞語(yǔ)形成的每個(gè)可能的目標(biāo)短語(yǔ),且添加目標(biāo)短語(yǔ)和源 短語(yǔ)作為對(duì)齊對(duì)。
當(dāng)在步驟518中在源短語(yǔ)之后沒(méi)有其他鏈接源詞語(yǔ)時(shí),該過(guò)程在步驟520 結(jié)束。通過(guò)圖5的過(guò)程,可標(biāo)識(shí)以下源短語(yǔ)和目標(biāo)短語(yǔ)對(duì)齊對(duì) SW2陽(yáng)SW6 / TW2-TW3 SW2-SW6/TW1-TW3 SW2-SW6 / TW2-TW4 SW2-SW6/TW1-TW4 SW2-SW6 / TW2-TW5 ,SW2陽(yáng)SW6/TW1-TW5
SW1-SW6/TW2-TW3 SW1陽(yáng)SW6/TW1-TW3 SW1-SW6/TW2-TW4 SW1-SW6/TW1-TW4 SW1-SW6/TW2-TW5 SW1-SW6/TW1-TW5
SW2-SW7 / TW2-TW3 SW2-SW7/TW1-TW3 SW2-SW7 / TW2-TW4SW2-SW7/TW1-TW4 SW2-SW7 / TW2-TW5 SW2-SW7/TW1陽(yáng)TW5
SW1-SW7/TW2-TW3 SW1-SW7/TW1-TW3 SW1-SW7/TW2-TW4 SW1-SW7/TW1-TW4 'SW1-SW7/TW2-TW5 SW1-SW7/TW1-TW5
回到圖3,在步驟318通過(guò)添加鄰接未鏈接詞語(yǔ)從目標(biāo)和源短語(yǔ)形成短語(yǔ) 對(duì)之后,該過(guò)程繼續(xù)至步驟320,在那里該方法確定在當(dāng)前源短語(yǔ)的結(jié)尾之后 是否還有鏈接的源詞語(yǔ)。如果在當(dāng)前源短語(yǔ)之后還有鏈接的源詞語(yǔ),則在步驟 322將源短語(yǔ)的結(jié)尾移至當(dāng)前源短語(yǔ)之后的下一鏈接源詞語(yǔ)。例如,如果當(dāng)前 源短語(yǔ)的結(jié)尾是圖2中的源詞語(yǔ)SW6,則步驟322將涉及將源短語(yǔ)的結(jié)尾移動(dòng) 至源詞語(yǔ)SW8。
在步驟322之后,該過(guò)程返回至步驟314,并基于源短語(yǔ)的新的結(jié)尾改變 目標(biāo)短語(yǔ)邊界。例如,在圖2中,目標(biāo)短語(yǔ)邊界的結(jié)尾將由于源短語(yǔ)的結(jié)尾從 源詞語(yǔ)SW6改為SW8而從TW4改為T(mén)W6。該過(guò)程然后繼續(xù)至步驟306,在 那里選擇目標(biāo)短語(yǔ)邊界中尚未檢查的目標(biāo)詞語(yǔ)。在以上給出的示例中,這將是 目標(biāo)詞語(yǔ)TW5。然后對(duì)新的源和目標(biāo)短語(yǔ)邊界執(zhí)行步驟308、 310、 316、 312 和318。
如果在步驟320中在當(dāng)前源短語(yǔ)之后不再有鏈接的源詞語(yǔ),則該過(guò)程返回 至步驟302,在那里將源短語(yǔ)的開(kāi)頭和結(jié)尾復(fù)位到當(dāng)前源短語(yǔ)的開(kāi)頭之后的下 一鏈接源詞語(yǔ)。如果在當(dāng)前源短語(yǔ)開(kāi)頭之后沒(méi)有其他鏈接的源詞語(yǔ),則該過(guò)程 在步驟302結(jié)束,并形成了所有源短語(yǔ)。例如,在圖2中,如果當(dāng)前源短語(yǔ)為 SW4-SW8,則步驟302涉及將源短語(yǔ)的開(kāi)頭和結(jié)尾設(shè)為源詞語(yǔ)SW6。而且, 如果當(dāng)前源短語(yǔ)為SW8.,則該過(guò)程當(dāng)返回至步驟302時(shí)將結(jié)束,因?yàn)樵谠丛~語(yǔ) SW8之后沒(méi)有其他鏈接的源詞語(yǔ)。圖3的過(guò)程提供了基于詞語(yǔ)對(duì)齊從雙語(yǔ)語(yǔ)料庫(kù)中提取短語(yǔ)對(duì)的高效手段。 具體地,通過(guò)一開(kāi)始僅考慮以鏈接詞語(yǔ)開(kāi)始和結(jié)束的源和目標(biāo)短語(yǔ)來(lái)實(shí)現(xiàn)效 率。 一旦標(biāo)識(shí)了這樣的短語(yǔ),即可向核心源和目標(biāo)短語(yǔ)添加鄰近未鏈接詞語(yǔ)以
容易地形成其他源和目標(biāo)短語(yǔ)。此外,如上所述,步驟308、 302、 310和312 允許源詞語(yǔ)的跨度被排除在形成對(duì)齊對(duì)的一部分的考慮之外而無(wú)需標(biāo)識(shí)該跨 度可能的目標(biāo)短語(yǔ)。
在某些實(shí)施例中,對(duì)通過(guò)圖3的過(guò)程提取的短語(yǔ)對(duì)施加附加限制。具體地, 在某些實(shí)施例中,限制目標(biāo)和/或源短語(yǔ)中詞語(yǔ)的數(shù)目。而且,在某些實(shí)施例中, 添加到核心源或目標(biāo)短語(yǔ)的鄰近未鏈接詞語(yǔ)的數(shù)目受到限制。
圖6提供了用于在短語(yǔ)提取106中標(biāo)識(shí)短語(yǔ)對(duì)的替換方法。在圖6的步驟 600,選擇以鏈接詞語(yǔ)開(kāi)始和結(jié)束的源詞語(yǔ)的跨度。確定鏈接至源詞語(yǔ)的跨度 中一詞語(yǔ)的每一目標(biāo)詞語(yǔ),以確定鏈接至源跨度中任何詞語(yǔ)的目標(biāo)詞語(yǔ)的最大 和最小位置。在步驟602對(duì)源跨度存儲(chǔ)這些最大和最小目標(biāo)位置。在步驟604, 該方法確定是否還有以鏈接源詞語(yǔ)開(kāi)始和結(jié)束的源跨度。如果還有其他源跨 度,則該過(guò)程返回至步驟600,并選擇下一源詞語(yǔ)跨度。重復(fù)步驟600、 602 和604,直到不再有其他以鏈接詞語(yǔ)開(kāi)始和結(jié)束的源詞語(yǔ)跨度。
當(dāng)不再有其他源跨度時(shí),該過(guò)程繼續(xù)至步驟606,在那里選擇以鏈接詞語(yǔ) 開(kāi)始和結(jié)束的目標(biāo)詞語(yǔ)的跨度。在步驟608檢查目標(biāo)詞語(yǔ)跨度中每一目標(biāo)詞語(yǔ) 之間的對(duì)齊以標(biāo)識(shí)源句子中鏈接至目標(biāo)跨度中任何目標(biāo)詞語(yǔ)的最大和最小位 置。
在步驟610,將在步驟606確定的目標(biāo)跨度邊界同與由步驟608中確定的 源最大和最小所定義的跨度相關(guān)聯(lián)的目標(biāo)最大和最小位置進(jìn)行比較。使用圖2 的示例,如果步驟606中所選的當(dāng)前目標(biāo)跨度為T(mén)W3-TW6,則與目標(biāo)跨度相 關(guān)聯(lián)的源最大和最小跨度為SW4-SW8。該源跨度因而具有目標(biāo)最大和最小 TW2-TW6。因此,在步驟610中,將目標(biāo)跨度邊界TW3-TW6與目標(biāo)最大和 最小值TW2-TW6進(jìn)行比較,并確定跨度不匹配。作為第二個(gè)示例,如果步驟 606中所選的目標(biāo)跨度邊界為T(mén)W2-TW3,步驟608中相應(yīng)的源最大和最小將 為SW2-SW6。與該源跨度相關(guān)聯(lián)的目標(biāo)最大和最小將為T(mén)W2-TW3,這匹配在 步驟606所選的目標(biāo)跨度的目標(biāo)跨度邊界。因此,在步驟610,目標(biāo)最大和最小將匹配目標(biāo)跨度邊界。
如果在步驟610目標(biāo)最大和最小匹配目標(biāo)跨度邊界,則在步驟612將可通 過(guò)添加鄰近未鏈接詞語(yǔ)從目標(biāo)跨度和源最大和最小上的跨度形成的所有短語(yǔ)
對(duì)存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。生成這樣的短語(yǔ)對(duì)齊對(duì)的過(guò)程如上結(jié)合圖3的步驟318 所述在圖5中示出。
當(dāng)存儲(chǔ)了短語(yǔ)對(duì)齊對(duì)之后,或如果在步驟610目標(biāo)最大和最小不匹配目標(biāo) 跨度邊界,則該過(guò)程在步驟614確定是否還有其他目標(biāo)跨度。如果還有其他目 標(biāo)跨度,則該過(guò)程返回至步驟606以選擇以鏈接詞語(yǔ)開(kāi)始和結(jié)束的下一目標(biāo)詞 語(yǔ)跨度。如果在步驟614不再有以鏈接詞語(yǔ)開(kāi)始和結(jié)束的其他目標(biāo)跨度,則該 過(guò)程在步驟616結(jié)束。
圖7提供了其中可使用圖1的翻譯模型112的翻譯系統(tǒng)的框圖。在圖7 中,向翻譯器702提供源句子700,翻譯器702使用翻譯模型112來(lái)確定源句 子700中各個(gè)詞語(yǔ)和短語(yǔ)可能的翻譯以產(chǎn)生目標(biāo)句子704。
圖8示出了可在其上實(shí)現(xiàn)各實(shí)施例的合適的計(jì)算系統(tǒng)環(huán)境800的示例。計(jì) 算系統(tǒng)800僅為合適的計(jì)算環(huán)境的一個(gè)示例,并非旨在對(duì)所要求保護(hù)的主題的 使用范圍或功能提出任何局限。也不應(yīng)該把計(jì)算環(huán)境800解釋為對(duì)示例性操作 環(huán)境800中示出的任一組件或其組合有任何依賴(lài)性或要求。
各實(shí)施例可用于各種其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置。適合在各實(shí)施 例中使用的公知的計(jì)算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于,個(gè)人計(jì)算 機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、 機(jī)頂盒、可編程消費(fèi)者電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、電話系統(tǒng)、包 含上述系統(tǒng)或設(shè)備中的任一個(gè)的分布式計(jì)算環(huán)境等。
各實(shí)施例可在諸如程序模塊等由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的通用 上下文中描述。 一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi) 型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等。 一些實(shí)施例被設(shè)計(jì)為在分布式計(jì) 算環(huán)境中實(shí)施,在分布式計(jì)算環(huán)境中任務(wù)是由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè) 備來(lái)執(zhí)行的。在分布式計(jì)算環(huán)境中,程序模塊位于包括存儲(chǔ)器存儲(chǔ)設(shè)備的本地 和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
參考圖8,用于實(shí)現(xiàn)一些實(shí)施例的示例性系統(tǒng)包括計(jì)算機(jī)810形式的通用計(jì)算設(shè)備。計(jì)算機(jī)810的組件可以包括,但不限于,處理單元820、系統(tǒng)存儲(chǔ) 器830和將包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合至處理單元820的系統(tǒng)總 線821。系統(tǒng)總線821可以是若干類(lèi)型的總線結(jié)構(gòu)中的任一種。
計(jì)算機(jī)810通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是能由計(jì) 算機(jī)810訪問(wèn)的任何可用介質(zhì),而且包含易失性、非易失性介質(zhì)以及可移動(dòng)和 不可移動(dòng)介質(zhì)。作為示例而非局限,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì) 和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、 程序模塊或其它數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移 動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,RAM、 ROM、 EEPROM、 閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(pán)(DVD)或其它光盤(pán)存儲(chǔ)、 磁帶盒、磁帶、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)設(shè)備、或能用于存儲(chǔ)所需信息且可以 由計(jì)算機(jī)810訪問(wèn)的任何其它介質(zhì)。通信介質(zhì)通常以諸如載波或其它傳輸機(jī)制 等已調(diào)制數(shù)據(jù)信號(hào)來(lái)體現(xiàn)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù), 并包括任意信息傳送介質(zhì)。術(shù)語(yǔ)"已調(diào)制數(shù)據(jù)信號(hào)"指的是其一個(gè)或多個(gè)特征以 在信號(hào)中編碼信息的方式被設(shè)定或更改的信號(hào)。作為示例而非限制,通信介質(zhì) 包括有線介質(zhì),諸如有線網(wǎng)絡(luò)或直接線連接,以及無(wú)線介質(zhì),諸如聲學(xué)、RF、 紅外線和其它無(wú)線介質(zhì)。以上的任何組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍 內(nèi)。
系統(tǒng)存儲(chǔ)器830包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì), 如只讀存儲(chǔ)器(ROM) 831和隨機(jī)存取存儲(chǔ)器(RAM) 832?;据斎?輸出系 統(tǒng)833 (BIOS)包括如在啟動(dòng)時(shí)幫助在計(jì)算機(jī)810內(nèi)的元件之間傳輸信息的基 本例程,它通常儲(chǔ)存在ROM831中。RAM 832通常包含處理單元820可以立 即訪問(wèn)和/或目前正在其上操作'的數(shù)據(jù)和/或程序模塊。作為示例而非局限,圖 8示出了操作系統(tǒng)834、應(yīng)用程序835、其它程序模塊836和程序數(shù)據(jù)837。
計(jì)算機(jī)810還可以包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存 儲(chǔ)介質(zhì)。僅作為示例,圖8示出了從不可移動(dòng)、非易失性磁介質(zhì)中讀取或向其 寫(xiě)入的硬盤(pán)驅(qū)動(dòng)器841,從可移動(dòng)、非易失性磁盤(pán)852中讀取或向其寫(xiě)入的磁 盤(pán)驅(qū)動(dòng)器851,以及從諸如CDROM或其它光學(xué)介質(zhì)等可移動(dòng)、非易失性光盤(pán) 856中讀取或向其寫(xiě)入的光盤(pán)驅(qū)動(dòng)器855。硬盤(pán)驅(qū)動(dòng)器841通常由不可移動(dòng)存儲(chǔ)器接口,諸如接口 840連接至系統(tǒng)總線821,磁盤(pán)驅(qū)動(dòng)器851和光盤(pán)驅(qū)動(dòng)器 855通常由可移動(dòng)存儲(chǔ)器接口,諸如接口 850連接至系統(tǒng)總線821。
上文討論并在圖8中示出的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算 機(jī)810提供了計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。在圖 8中,例如,硬盤(pán)驅(qū)動(dòng)器841被示為存儲(chǔ)操作系統(tǒng)844、應(yīng)用程序845、其它程 序模塊846和程序數(shù)據(jù)847。注意,這些組件可以與操作系統(tǒng)834、應(yīng)用程序 835、其它程序模塊836和程序數(shù)據(jù)837相同,也可以與它們不同。操作系統(tǒng) 844、應(yīng)用程序845、其它程序模塊846和程序數(shù)據(jù)847在這里被標(biāo)注了不同的 標(biāo)號(hào)是為了說(shuō)明至少它們是不同的副本。
用戶可以通過(guò)諸如鍵盤(pán)862、話筒863和定點(diǎn)設(shè)備861等輸入設(shè)備將命令 和信息輸入至計(jì)算機(jī)810中,定點(diǎn)設(shè)備161諸如是鼠標(biāo)、軌跡球或觸摸墊。這 些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口 860連接至處理單元 820,但也可以由其它接口或總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行 總線(USB)連接。監(jiān)視器891或其它類(lèi)型的顯示設(shè)備也經(jīng)由接口,諸如視頻 接口 890連接至系統(tǒng)總線821。除監(jiān)視器以外,計(jì)算機(jī)也可以包括其它外圍輸 出設(shè)備,諸如揚(yáng)聲器897和打印機(jī)896,它們可以通過(guò)輸出外圍接口 895連接。
計(jì)算機(jī)810使用到諸如遠(yuǎn)程計(jì)算機(jī)880的一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)的邏輯連 接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)880可以是個(gè)人計(jì)算機(jī)、手持設(shè)備、服務(wù) 器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它常見(jiàn)的網(wǎng)絡(luò)節(jié)點(diǎn),且一般包括以上關(guān) 于計(jì)算機(jī)810描述的許多或所有的元件。圖8中所示的邏輯連接包括局域網(wǎng) (LAN) 871和廣域網(wǎng)(WAN) 873,但也可以包括其它網(wǎng)絡(luò)。
當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)810通過(guò)網(wǎng)絡(luò)接口或適配器871連 接至LAN 870。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)810通常包括調(diào)制解調(diào) 器872或用于通過(guò)諸如因特網(wǎng)等WAN 873建立通信的其它裝置。調(diào)制解調(diào)器 872可以是內(nèi)置或外置的,它可以通過(guò)用戶輸入接口 860或其它適當(dāng)?shù)臋C(jī)制連 接至系統(tǒng)總線821。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)810所描述的程序模塊或 其部分可被儲(chǔ)存在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例,而非限制,圖8示出了 遠(yuǎn)程應(yīng)用程序885駐留在遠(yuǎn)程計(jì)算機(jī)880上。
盡管用對(duì)結(jié)構(gòu)特征和/或方法動(dòng)作專(zhuān)用的語(yǔ)言描述了本主題,但可以理解,
20所附權(quán)利要求書(shū)中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體 特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式公開(kāi)的。
權(quán)利要求
1. 一種方法,包括通過(guò)要求源詞語(yǔ)與目標(biāo)句子中的至少一個(gè)目標(biāo)詞語(yǔ)對(duì)齊以形成源短語(yǔ)的邊界來(lái)標(biāo)識(shí)(302、312、322)一短語(yǔ)在源句子中的邊界;基于所述源短語(yǔ)中的詞語(yǔ)與所述目標(biāo)句子中的詞語(yǔ)之間的對(duì)齊來(lái)標(biāo)識(shí)(304、314)一短語(yǔ)在所述目標(biāo)句子中的邊界;通過(guò)確定所述目標(biāo)短語(yǔ)中是否有任何詞語(yǔ)與所述源短語(yǔ)外的源詞語(yǔ)對(duì)齊來(lái)確定(308、310)所述源短語(yǔ)和目標(biāo)短語(yǔ)是否形成短語(yǔ)對(duì)齊對(duì);以及如果所述源短語(yǔ)和所述目標(biāo)短語(yǔ)形成短語(yǔ)對(duì)齊對(duì),則存儲(chǔ)(318、500)所述源短語(yǔ)和所述目標(biāo)短語(yǔ)。
2. 如權(quán)利要求1所述的方法,其特征在于,還包括移動(dòng)(514)所述源短語(yǔ)的至少一個(gè)邊界以包括不與所述目標(biāo)句子的任 何詞語(yǔ)對(duì)齊的附加源詞語(yǔ)以形成擴(kuò)展的源短語(yǔ);以及存儲(chǔ)(500)所述擴(kuò)展的源短語(yǔ)和所述目標(biāo)短語(yǔ)作為第二短語(yǔ)對(duì)齊對(duì)。
3. 如權(quán)利要求2所述的方法,其特征在于,還包括移動(dòng)(504)所述目標(biāo)短語(yǔ)的至少一個(gè)邊界以包括不與所述源句子的任 何詞語(yǔ)對(duì)齊的附加目標(biāo)詞語(yǔ)以形成擴(kuò)展的目標(biāo)短語(yǔ);以及存儲(chǔ)(500)所述擴(kuò)展的源短語(yǔ)和所述擴(kuò)展的目標(biāo)短語(yǔ)作為第三短語(yǔ)對(duì)齊對(duì)。
4. 如權(quán)利要求1所述的方法,其特征在于,所述詞語(yǔ)對(duì)齊的集合包括 對(duì)每一源詞語(yǔ),僅最小目標(biāo)詞語(yǔ)位置和最大目標(biāo)詞語(yǔ)位置與所述源詞語(yǔ)對(duì)齊;以及對(duì)每一 目標(biāo)詞語(yǔ),僅最小源詞語(yǔ)位置和最大源詞語(yǔ)位置與所述目標(biāo)詞語(yǔ)對(duì)齊。
5. 如權(quán)利要求1所述的方法,其特征在于,還包括如果目標(biāo)詞語(yǔ)與所述源 短語(yǔ)外的源詞語(yǔ)對(duì)齊,貝U-如果源詞語(yǔ)的連續(xù)跨度與所述源短語(yǔ)共享共同的邊界,不包括所述源短語(yǔ)外的源詞語(yǔ),且包括所述源短語(yǔ)的所有詞語(yǔ),則排除(302、 312)所述連續(xù)跨度作為短語(yǔ)對(duì)齊對(duì)可能的源短語(yǔ),而無(wú)需標(biāo)識(shí)對(duì)應(yīng)于所述連續(xù)跨度的目標(biāo)短 語(yǔ)的邊界。
6. 如權(quán)利要求5所述的方法,其特征在于,排除源詞語(yǔ)的連續(xù)跨度包括將所述源短語(yǔ)的結(jié)束邊界直接移至(312)所述源短語(yǔ)外的源詞語(yǔ)以形成新的源短語(yǔ)。
7. 如權(quán)利要求5所述的方法,其特征在于,排除源詞語(yǔ)的連續(xù)跨度包括將所述源短語(yǔ)的開(kāi)始邊界朝所述源短語(yǔ)的結(jié)束邊界移至(302)與至少 一個(gè)目標(biāo)詞語(yǔ)對(duì)齊的源詞語(yǔ),以形成新的源短語(yǔ)。
8. —種方法,包括設(shè)置(302、 312、 322)源句子可能的源短語(yǔ)的邊界;使用(304、 314)可能的源短語(yǔ)中的詞語(yǔ)與目標(biāo)句子中的詞語(yǔ)之間的詞 語(yǔ)對(duì)齊來(lái)設(shè)置所述目標(biāo)句子中可能的目標(biāo)短語(yǔ)的邊界;確定(308、 310)所述可能的目標(biāo)短語(yǔ)中的目標(biāo)詞語(yǔ)與所述源句子中不 在所述可能的源短語(yǔ)中的外部源詞語(yǔ)對(duì)齊;以及將所述源句子中與所述可能的源短語(yǔ)共享邊界、不包括所述外部源詞語(yǔ) 且包括所述可能的源短語(yǔ)的所有詞語(yǔ)的連續(xù)源詞語(yǔ)跨度排除(302、 312)在作 為短語(yǔ)對(duì)齊對(duì)的可能的源短語(yǔ)的考慮之外,而無(wú)需標(biāo)識(shí)相應(yīng)的可能的目標(biāo)短 語(yǔ)。 -
9. 如權(quán)利要求8所述的方法,其特征在于,將連續(xù)源詞語(yǔ)的跨度排除在作 為可能的源短語(yǔ)的考慮之外包括(312)將所述源短語(yǔ)的結(jié)束邊界直接移至所 述外部源詞語(yǔ)以形成新的可能的源短語(yǔ)。
10. 如權(quán)利要求9所述的方法,其特征在于,還包括 僅對(duì)位于所述可能的源短語(yǔ)的結(jié)束邊界之后直達(dá)和包括所述外部源詞語(yǔ)的那些源詞語(yǔ)使用(400、 402、 404)源詞語(yǔ)和所述目標(biāo)句子中的詞語(yǔ)之間 旳對(duì)齊,以便為所述目標(biāo)句子中新的可能的目標(biāo)短語(yǔ)設(shè)置邊界。
11. 如權(quán)利要求10所述的方法,其特征在于,還包括確定(308、 310)所述新的可能的目標(biāo)短語(yǔ)中沒(méi)有一個(gè)目標(biāo)詞語(yǔ)與所述 新的可能的源短語(yǔ)外的源詞語(yǔ)對(duì)齊;以及將所述新的可能的源短語(yǔ)和所述新的可能的目標(biāo)短語(yǔ)存儲(chǔ)(318、 500) 為短語(yǔ)對(duì)齊對(duì)。
12. 如權(quán)利要求8所述的方法,其特征在于,將連續(xù)源詞語(yǔ)的跨度排除 在作為可能的源短語(yǔ)的考慮之外包括(302)將所述可能的源短語(yǔ)的開(kāi)始邊界 朝所述源短語(yǔ)的結(jié)束邊界移動(dòng)。
13. 如權(quán)利要求8所述的方法,其特征在于,為句子中可能的源短語(yǔ)設(shè) 置邊界包括使用(302)所述邊界處的源詞語(yǔ)與所述目標(biāo)句子中的至少一個(gè)目 標(biāo)詞語(yǔ)對(duì)齊的要求。
14. 如權(quán)利要求13所述的方法,、其特征在于,還包括 設(shè)置(302、 312、 322)源句子中新的可能的源短語(yǔ)的邊界;使用(304、 314)新的可能的源短語(yǔ)中的詞語(yǔ)與目標(biāo)句子中的詞語(yǔ)之間 的詞語(yǔ)對(duì)齊來(lái)設(shè)置所述目標(biāo)句子中新的可能的目標(biāo)短語(yǔ)的邊界;確定(308、 310)所述新的可能的目標(biāo)短語(yǔ)中沒(méi)有一個(gè)目標(biāo)詞語(yǔ)與所述 新的可能的源短語(yǔ)外的源詞語(yǔ)對(duì)齊;以及將所述新的可能的源短語(yǔ)和所述新的可能的目標(biāo)短語(yǔ)存儲(chǔ)(318、 500) 為短語(yǔ)對(duì)齊對(duì)。
15. 如權(quán)利要求14所述的方法,其特征在于,還包括 將所述新的可能的源短語(yǔ)的邊界移至(514)不與所述目標(biāo)句子的任何詞語(yǔ)對(duì)齊的源詞語(yǔ)以形成擴(kuò)展的源短語(yǔ);以及存儲(chǔ)(500)所述擴(kuò)展的源短語(yǔ)和所述新的可能的目標(biāo)短語(yǔ)作為短語(yǔ)對(duì)齊對(duì)。
16. 如權(quán)利要求15所述的方法,其特征在于,還包括 將所述新的可能的目標(biāo)短語(yǔ)的邊界移至(504)不與所述源句子的任何詞語(yǔ)對(duì)齊的目標(biāo)詞語(yǔ)以形成擴(kuò)展的目標(biāo)短語(yǔ);以及存儲(chǔ)(500)所述擴(kuò)展的源短語(yǔ)和所述擴(kuò)展的目標(biāo)短語(yǔ)作為短語(yǔ)對(duì)齊對(duì)。
17. —種方法,包括 對(duì)源句子中連續(xù)詞語(yǔ)的跨度的集合中的每一跨度,對(duì)與所述源句子跨度中的源詞語(yǔ)對(duì)齊的目標(biāo)詞語(yǔ)確定(600)在目標(biāo)句子中的最小詞語(yǔ)位置和最大 詞語(yǔ)位置;對(duì)所述目標(biāo)句子中連續(xù)詞語(yǔ)的跨度的集合中的每一跨度,對(duì)與所述目標(biāo) 句子跨度中的目標(biāo)詞語(yǔ)對(duì)齊的源詞語(yǔ)確定(608)在源句子中的最小詞語(yǔ)位置 和最大詞語(yǔ)位置; "如果所述目標(biāo)句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置分別匹配一目標(biāo) 句子跨度的開(kāi)頭和結(jié)尾,且如果所述源句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置 分別匹配一源句子跨度的開(kāi)頭和結(jié)尾,則將所述源句子跨度和所述目標(biāo)句子跨 度指定(612、 500)為短語(yǔ)對(duì)齊對(duì)。
18. 如權(quán)利要求17所述的方法,其特.征在于,還包括通過(guò)以下步驟確 定所述目標(biāo)句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置是否分別匹配所述目標(biāo)句 子跨度的開(kāi)頭和結(jié)尾,以及所述源句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置是否 分別匹配所述源句子跨度的開(kāi)頭和結(jié)尾,這些步驟包括將由所述源句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置定義的所述跨度在 所述目標(biāo)句子中的最小詞語(yǔ)位置與所述目標(biāo)句子跨度的開(kāi)頭進(jìn)行比較(610);以及將由所述源句子中的最小詞語(yǔ)位置和最大詞語(yǔ)位置定義的所述跨度在 所述目標(biāo)句子中的最大詞語(yǔ)位置與所述目標(biāo)句子跨度的結(jié)尾進(jìn)行比較(610)。
19. 如權(quán)利要求17所述的方法,其特征在于,還包括通過(guò)要求(600)所述源句子中連續(xù)詞語(yǔ)的跨度的集合中的每一跨度以與至少一個(gè)目標(biāo)詞語(yǔ)對(duì) 齊的源詞語(yǔ)開(kāi)始并以與至少一個(gè)目標(biāo)詞語(yǔ)對(duì)齊的源詞語(yǔ)結(jié)束來(lái)定義所述集合。
20. 如權(quán)利要求19所述的方法,其特征在于,還包括,在將所述源句 子跨度和所述目標(biāo)句子跨度指定為短語(yǔ)對(duì)齊對(duì)之后,移動(dòng)(514)所述源句子 跨度的開(kāi)頭使得所述跨度覆蓋更多詞語(yǔ)且以不與所述目標(biāo)句子中的詞語(yǔ)對(duì)齊 的詞語(yǔ)開(kāi)始以形成擴(kuò)展的源句子跨度,以及指定(500)所述擴(kuò)展的源句子跨 度和所述目標(biāo)句子跨度作為短語(yǔ)對(duì)齊對(duì)。
全文摘要
提供用于標(biāo)識(shí)源句子和目標(biāo)句子之間的短語(yǔ)對(duì)齊對(duì)的方法。通過(guò)要求源詞語(yǔ)與目標(biāo)句子中的至少一個(gè)目標(biāo)詞語(yǔ)對(duì)齊以形成源短語(yǔ)的邊界來(lái)標(biāo)識(shí)短語(yǔ)在源句子中的邊界。基于源短語(yǔ)中的詞語(yǔ)與目標(biāo)句子中的詞語(yǔ)之間的對(duì)齊而標(biāo)識(shí)短語(yǔ)在目標(biāo)句子中的邊界。檢查目標(biāo)短語(yǔ)中的詞語(yǔ)以確定是否有任何詞語(yǔ)與源短語(yǔ)外的源詞語(yǔ)對(duì)齊。如果它們不與源短語(yǔ)外的源詞語(yǔ)對(duì)齊,則確定源短語(yǔ)和目標(biāo)短語(yǔ)形成對(duì)齊對(duì),且被存儲(chǔ)為短語(yǔ)對(duì)齊對(duì)。
文檔編號(hào)G06F17/28GK101479724SQ200780024394
公開(kāi)日2009年7月8日 申請(qǐng)日期2007年4月30日 優(yōu)先權(quán)日2006年6月28日
發(fā)明者C·B·夸克, R·C·摩爾 申請(qǐng)人:微軟公司