專(zhuān)利名稱(chēng):用于翻譯系統(tǒng)的計(jì)算機(jī)實(shí)現(xiàn)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法、計(jì)算機(jī)軟件和裝置。
背景技術(shù):
進(jìn)行跨國(guó)貿(mào)易的許多組織期望多種語(yǔ)言的文檔以提供對(duì)國(guó)際市場(chǎng)最大可能的覆蓋。諸如互聯(lián)網(wǎng)和衛(wèi)星網(wǎng)絡(luò)的現(xiàn)代通信系統(tǒng)幾乎跨越全球的每個(gè)角落,并需要數(shù)量不斷增加的高質(zhì)量自然翻譯工作以實(shí)現(xiàn)種種不同文化之間的全面理解。
憑經(jīng)驗(yàn)看,專(zhuān)家級(jí)人類(lèi)翻譯者可以每小時(shí)翻譯約300個(gè)詞,但是該數(shù)字會(huì)隨著與特定語(yǔ)言對(duì)相關(guān)地遇到的困難而變化。對(duì)于具有相似語(yǔ)法結(jié)構(gòu)和詞匯的語(yǔ)言對(duì)(諸如西班牙語(yǔ)-意大利語(yǔ)),可能翻譯得比該數(shù)字多,而對(duì)于具有很少共性的語(yǔ)言對(duì)(諸如漢語(yǔ)-英語(yǔ)),情況會(huì)相反。單單為了應(yīng)對(duì)現(xiàn)代生活的所有全球翻譯需要,就會(huì)花費(fèi)大量的人力。明顯的是,即使為了使翻譯者只就幾個(gè)應(yīng)用領(lǐng)域開(kāi)始跟上無(wú)數(shù)網(wǎng)頁(yè)、公司手冊(cè)、政府文檔和新聞文章的不斷發(fā)展的需求和更新,翻譯者也需要一些幫助。
計(jì)算機(jī)具有處理大量信息的能力,因而很自然地適合于通過(guò)機(jī)器翻譯來(lái)解決此問(wèn)題。在計(jì)算機(jī)自動(dòng)翻譯(公知為機(jī)器翻譯)的早期,進(jìn)行了利用字典直接從源語(yǔ)言翻譯成目標(biāo)語(yǔ)言的嘗試。這種字典很大,對(duì)于多個(gè)源語(yǔ)言-目標(biāo)語(yǔ)言對(duì)而言不實(shí)用。為了被有效并可靠地使用,這種字典需要句法和語(yǔ)法規(guī)則的全集。
存在各種純機(jī)器翻譯器,它們可以幾秒鐘就翻譯數(shù)千詞,但是無(wú)法保證成功率。使用該方法并提供免費(fèi)web版本的公司的示例是SystranS.A.,其機(jī)器翻譯技術(shù)支持著由Altavista提供的Babelfish網(wǎng)站(http://babelfish.altavista.com/)。
在機(jī)器翻譯過(guò)程中的某處利用人的影響來(lái)提供期望的翻譯水平。Caterpillar公司的一種方法是國(guó)際專(zhuān)利申請(qǐng)WO 94/06086的主題,其中,各種詞匯和語(yǔ)法約束通過(guò)交互式文本編輯器而應(yīng)用于源。這使得可以通過(guò)翻譯算法應(yīng)用簡(jiǎn)化的規(guī)則并有助于消除譯文的歧義。雖然不需要后編輯,但是因?yàn)檎窍拗戚斎朐凑Z(yǔ)言這一過(guò)程需要人通過(guò)一系列確認(rèn)問(wèn)題進(jìn)行干預(yù),所以該系統(tǒng)不理想。
在國(guó)際專(zhuān)利申請(qǐng)WO 02/29621中描述了一種用于機(jī)器翻譯的分割合并方法。通過(guò)在實(shí)際進(jìn)行翻譯之前給予翻譯器對(duì)如何翻譯內(nèi)容更大的靈活性,來(lái)簡(jiǎn)化翻譯器的任務(wù)。用戶可根據(jù)特定的格式或詞匯特征來(lái)合并或分離內(nèi)容。
在歐洲專(zhuān)利申請(qǐng)EP 0668558中詳述了一種專(zhuān)門(mén)適于翻譯用于國(guó)際發(fā)行的計(jì)算機(jī)軟件的系統(tǒng)。這里,通過(guò)圖形用戶界面(GUI)實(shí)現(xiàn)了各種不同的工具,諸如本地化工具、詞匯表工具和建立工具以協(xié)助轉(zhuǎn)換。隨著對(duì)所討論的軟件程序的二進(jìn)制復(fù)制,這些工具使本地軟件發(fā)行商可以創(chuàng)建外國(guó)程序版本,這些版本可以在原始軟件公司的授權(quán)下被理解和使用。
將純?nèi)斯しg和純機(jī)器翻譯聯(lián)系起來(lái)就是機(jī)器輔助翻譯方法,在該方法中在人和計(jì)算機(jī)之間分擔(dān)負(fù)擔(dān)。
在國(guó)際PCT申請(qǐng)WO 99/57651中,描述了一種用于識(shí)別句子中不需要翻譯或僅需簡(jiǎn)單的公式轉(zhuǎn)換的某些部分(諸如日期、時(shí)間、頭銜、姓名和數(shù)字)的系統(tǒng)。該想法是要通過(guò)使翻譯者不必重新鍵入不需要他們注意的信息來(lái)幫助翻譯者。翻譯者因而可以自由地將其全部注意力轉(zhuǎn)向其他詞性部分(諸如動(dòng)詞、形容詞等),從而更有效地利用他們的技能。
多個(gè)專(zhuān)利覆蓋了統(tǒng)計(jì)自然語(yǔ)言翻譯領(lǐng)域。這些系統(tǒng)可以在沒(méi)有人的協(xié)助的情況下工作或者與人類(lèi)用戶合作地工作。在美國(guó)專(zhuān)利US 5,991,710中描述了前一情況的示例,在該專(zhuān)利中,使用條件概率量度來(lái)產(chǎn)生源語(yǔ)言模型。為了翻譯文檔,該系統(tǒng)隨后根據(jù)該模型挑選最接近的候選項(xiàng)。
在美國(guó)專(zhuān)利US 5,768,603中給出了后一情況的示例,在該專(zhuān)利中,通過(guò)對(duì)在相關(guān)語(yǔ)言對(duì)的對(duì)照文檔進(jìn)行掃描來(lái)創(chuàng)建統(tǒng)計(jì)量度。一旦經(jīng)過(guò)訓(xùn)練,該系統(tǒng)針對(duì)待處理的未對(duì)照文檔計(jì)算最可能的翻譯候選項(xiàng)。然后將這些翻譯候選項(xiàng)呈現(xiàn)給人類(lèi)翻譯者/編輯者,該人類(lèi)翻譯者/編輯者針對(duì)各個(gè)情況選擇最佳翻譯。明顯的是,這種系統(tǒng)只產(chǎn)生與概率模型或形成其基礎(chǔ)的輸入訓(xùn)練集一樣好壞的結(jié)果。
因此,需要一種快速、有效、易于使用且可靠的機(jī)器輔助自然語(yǔ)言翻譯系統(tǒng),該系統(tǒng)將考慮源輸入語(yǔ)言的語(yǔ)言學(xué)。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟選擇第一自然語(yǔ)言的源材料的至少一部分;從所述部分中選擇第一源語(yǔ)言元素;從所述部分中選擇不同的第二源語(yǔ)言元素;將至少第一條語(yǔ)言學(xué)信息附于所述第一源語(yǔ)言元素;將至少第二條語(yǔ)言學(xué)信息附于所述第二源語(yǔ)言元素;將所述第一條語(yǔ)言學(xué)信息和第二條語(yǔ)言學(xué)信息與至少第一解析規(guī)則進(jìn)行匹配;響應(yīng)于所述匹配,形成所述第一源語(yǔ)言元素和第二源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第一術(shù)語(yǔ)候選項(xiàng);以及在將所述第一自然語(yǔ)言的所述源材料完全翻譯成至少第二自然語(yǔ)言之前,以適于人類(lèi)檢查者進(jìn)行檢查的形式輸出所述第一術(shù)語(yǔ)候選項(xiàng)。
因此,通過(guò)利用本發(fā)明,軟件進(jìn)程可以通過(guò)將源文本的語(yǔ)言學(xué)信息與在預(yù)定解析規(guī)則中定義的語(yǔ)言學(xué)模式進(jìn)行匹配來(lái)識(shí)別術(shù)語(yǔ)候選項(xiàng)。該語(yǔ)言學(xué)信息可包括例如指示源語(yǔ)言元素是動(dòng)詞或名詞的詞性信息。
優(yōu)選的是,隨后由用戶對(duì)所述術(shù)語(yǔ)候選項(xiàng)進(jìn)行確認(rèn),從而使其成為已確認(rèn)術(shù)語(yǔ)。然后將該已確認(rèn)術(shù)語(yǔ)翻譯成不同的第二自然語(yǔ)言,從而使其成為譯得術(shù)語(yǔ)。然后可將譯得術(shù)語(yǔ)載入在隨后的機(jī)器輔助翻譯期間使用的機(jī)器翻譯字典,從而應(yīng)用于源材料的整體。因此,無(wú)論哪里出現(xiàn)術(shù)語(yǔ)候選項(xiàng),都可立即獲得正確的譯文,并且不需要另外的人工輸入來(lái)獲得該正確的譯文。
根據(jù)本發(fā)明的第二方面,提供了一種被設(shè)計(jì)為執(zhí)行在所述第一方面中描述的步驟的計(jì)算機(jī)軟件。
因此,通過(guò)利用本發(fā)明,通過(guò)使載入的軟件工作并在適當(dāng)?shù)挠?jì)算設(shè)備上運(yùn)行,可以幫助從源文本中提取術(shù)語(yǔ)候選項(xiàng)。
根據(jù)本發(fā)明的第三方面,提供了一種計(jì)算機(jī)輔助的自然語(yǔ)言翻譯裝置,該裝置包括信息存儲(chǔ)系統(tǒng),其適于存儲(chǔ)數(shù)字內(nèi)容,所述內(nèi)容包括第一自然語(yǔ)言的源材料、多條語(yǔ)言學(xué)信息及其與源語(yǔ)言元素的關(guān)聯(lián)、多個(gè)解析規(guī)則、多個(gè)術(shù)語(yǔ)候選項(xiàng)、已確認(rèn)術(shù)語(yǔ)的集合、以及譯得術(shù)語(yǔ)的集合;信息處理系統(tǒng),其適于提供用于確定源語(yǔ)言元素的實(shí)例、執(zhí)行解析規(guī)則和將多條語(yǔ)言學(xué)信息附于源語(yǔ)言元素的處理的裝置;數(shù)據(jù)輸入系統(tǒng),其適于提供用于輸入與所述內(nèi)容相關(guān)的選擇數(shù)據(jù)的裝置,其中所述選擇數(shù)據(jù)包括指示術(shù)語(yǔ)候選項(xiàng)的確認(rèn)的數(shù)據(jù);和可視顯示系統(tǒng),其適于呈現(xiàn)來(lái)自所述信息存儲(chǔ)系統(tǒng)的信息,所述呈現(xiàn)信息包括所述源材料形式的數(shù)據(jù)、所述源元素、所述多個(gè)術(shù)語(yǔ)候選項(xiàng)、所述已確認(rèn)術(shù)語(yǔ)的集合、以及所述譯得術(shù)語(yǔ)的集合。
因此,通過(guò)利用本發(fā)明,可以通過(guò)具有信息存儲(chǔ)系統(tǒng)、信息處理系統(tǒng)、數(shù)據(jù)輸入信息和可視顯示系統(tǒng)的計(jì)算系統(tǒng),從源文本中提取多個(gè)術(shù)語(yǔ)候選項(xiàng)。
根據(jù)本發(fā)明的第四方面,提供了一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟選擇第一自然語(yǔ)言的源材料的至少一部分;從所述部分中選擇第一源語(yǔ)言元素;從所述部分中選擇不同的第二源語(yǔ)言元素;將所述第一源語(yǔ)言元素和第二源語(yǔ)言元素與至少第一解析規(guī)則進(jìn)行匹配,所述第一解析規(guī)則要求所述第一和/或第二源語(yǔ)言元素具有預(yù)定特征;響應(yīng)于所述匹配,形成所述第一源語(yǔ)言元素和第二源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第一術(shù)語(yǔ)候選項(xiàng);以及在將所述第一自然語(yǔ)言的所述源材料完全翻譯成至少第二自然語(yǔ)言之前,以適于人類(lèi)檢查者進(jìn)行檢查的形式輸出所述第一術(shù)語(yǔ)候選項(xiàng)。
因此,通過(guò)利用本發(fā)明,軟件進(jìn)程可以利用存在于某先前已知的解析規(guī)則中的預(yù)定特征,根據(jù)源文本中的預(yù)定特征來(lái)識(shí)別術(shù)語(yǔ)候選項(xiàng)。這些預(yù)定特征可包括大寫(xiě)或連字符或其他這種標(biāo)點(diǎn)。
優(yōu)選的是,隨后由用戶對(duì)所述術(shù)語(yǔ)候選項(xiàng)進(jìn)行確認(rèn)并將其翻譯成不同的第二自然語(yǔ)言。然后可將譯得術(shù)語(yǔ)載入在隨后的機(jī)器輔助翻譯期間使用的機(jī)器翻譯字典,從而應(yīng)用于源材料的整體。因此,無(wú)論哪里出現(xiàn)術(shù)語(yǔ)候選項(xiàng),都立即可得到正確的譯文,并且不需要另外的人工輸入來(lái)獲得該正確的譯文。
根據(jù)本發(fā)明的第五方面,提供了一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)輔助方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟在第一自然語(yǔ)言的源材料的至少一部分中識(shí)別術(shù)語(yǔ)候選項(xiàng)的集合;通過(guò)用戶界面將所述術(shù)語(yǔ)候選項(xiàng)的集合呈現(xiàn)給用戶;以及從所述用戶接收選擇數(shù)據(jù),所述選擇數(shù)據(jù)用來(lái)創(chuàng)建所述術(shù)語(yǔ)候選項(xiàng)的子集,以產(chǎn)生已確認(rèn)術(shù)語(yǔ)的集合。
因此,通過(guò)利用本發(fā)明,可以向用戶呈現(xiàn)由計(jì)算系統(tǒng)從第一自然語(yǔ)言的源文本中識(shí)別的術(shù)語(yǔ)候選項(xiàng)的集合,用戶隨后可以選擇已確認(rèn)術(shù)語(yǔ)的子集。
優(yōu)選的是,所述已確認(rèn)術(shù)語(yǔ)隨后將被翻譯成不同的第二自然語(yǔ)言。然后可將譯得術(shù)語(yǔ)載入在隨后的機(jī)器輔助翻譯期間使用的機(jī)器翻譯字典,從而應(yīng)用于源材料的整體。因此,無(wú)論哪里出現(xiàn)術(shù)語(yǔ)候選項(xiàng),都可立即獲得正確的譯文,并且不需要另外的人工輸入來(lái)獲得該正確的譯文。
根據(jù)本發(fā)明的第六方面,提供了一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟載入第一自然語(yǔ)言的源材料的至少一部分;選擇第一解析規(guī)則;使用所述第一解析規(guī)則來(lái)識(shí)別所述部分中的一個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng);輸出所述一個(gè)或更多個(gè)識(shí)別出的術(shù)語(yǔ)候選項(xiàng);選擇第二解析規(guī)則;使用所述第二解析規(guī)則來(lái)識(shí)別所述部分中的一個(gè)或更多個(gè)另外的術(shù)語(yǔ)候選項(xiàng);以及輸出所述一個(gè)或更多個(gè)另外識(shí)別出的術(shù)語(yǔ)候選項(xiàng)。
因此,通過(guò)利用本發(fā)明,軟件進(jìn)程可以通過(guò)利用一個(gè)或更多個(gè)解析規(guī)則來(lái)掃描第一自然語(yǔ)言的源文本,從而識(shí)別術(shù)語(yǔ)候選項(xiàng)??蓪?lái)自一個(gè)解析規(guī)則的輸出用作對(duì)另一個(gè)解析規(guī)則的輸入。
優(yōu)選的是,所述術(shù)語(yǔ)候選項(xiàng)隨后將被翻譯成不同的第二自然語(yǔ)言。然后可將譯得術(shù)語(yǔ)載入在隨后的機(jī)器輔助翻譯期間使用的機(jī)器翻譯字典,從而應(yīng)用于源材料的整體。因此,無(wú)論哪里出現(xiàn)術(shù)語(yǔ)候選項(xiàng),都可立即獲得正確的譯文,并且不需要另外的人工輸入來(lái)獲得該正確的譯文。
本發(fā)明吸收在前面的章節(jié)中描述的現(xiàn)有技術(shù)的某些特性,改進(jìn)其某些缺點(diǎn),并且提出了一種快速、有效、易于使用且可靠的機(jī)器輔助自然語(yǔ)言翻譯方法和系統(tǒng)。
本發(fā)明承認(rèn)計(jì)算機(jī)經(jīng)常無(wú)法產(chǎn)生完美譯文的事實(shí)。本發(fā)明利用所討論的語(yǔ)言的結(jié)構(gòu)的基礎(chǔ)并且能夠更有效地識(shí)別術(shù)語(yǔ)候選項(xiàng)。使翻譯過(guò)程中某些更費(fèi)力步驟自動(dòng)化促使勞動(dòng)時(shí)間以及與機(jī)器輔助翻譯相關(guān)聯(lián)的成本顯著減少。
本發(fā)明還承認(rèn)這樣的事實(shí)(并用于其優(yōu)點(diǎn))由于人類(lèi)語(yǔ)言高度復(fù)雜的結(jié)構(gòu),人工輸入有時(shí)仍是找到術(shù)語(yǔ)候選項(xiàng)的可接受譯文的最佳方式。通過(guò)提供有效的人機(jī)界面(通過(guò)該界面可以在進(jìn)行完全機(jī)器輔助翻譯之前采取這些步驟),可以幫助進(jìn)行該處理。與專(zhuān)家級(jí)人類(lèi)翻譯者單獨(dú)翻譯相比,有本發(fā)明的協(xié)助,專(zhuān)家級(jí)人類(lèi)翻譯者可以以快至四倍的速度進(jìn)行翻譯,到達(dá)相同標(biāo)準(zhǔn)。
此外,根據(jù)下面參照附圖進(jìn)行的對(duì)僅作為示例的本發(fā)明優(yōu)選實(shí)施例的描述,本發(fā)明的另外的特點(diǎn)和優(yōu)點(diǎn)將會(huì)變得顯而易見(jiàn)。
圖1是根據(jù)本發(fā)明優(yōu)選實(shí)施例的邏輯視角的系統(tǒng)圖。
圖2是根據(jù)本發(fā)明實(shí)施例的物理視角的系統(tǒng)圖。
圖3是示出了根據(jù)本發(fā)明實(shí)施例的軟件組件的圖。
圖4是示出了根據(jù)本發(fā)明實(shí)施例的術(shù)語(yǔ)候選項(xiàng)提取處理的高層流程圖。
圖5是在根據(jù)本發(fā)明實(shí)施例的初始設(shè)置階段中涉及的步驟的流程圖。
圖6是在根據(jù)本發(fā)明實(shí)施例的詞語(yǔ)分析處理中涉及的步驟的流程圖。
圖7是在根據(jù)本發(fā)明實(shí)施例的術(shù)語(yǔ)候選項(xiàng)解析處理的前一半中涉及的步驟的流程圖。
圖8是在根據(jù)本發(fā)明實(shí)施例的術(shù)語(yǔ)候選項(xiàng)解析處理的后一半中涉及的步驟的流程圖。
圖9是在根據(jù)本發(fā)明實(shí)施例的導(dǎo)出處理中涉及的步驟的流程圖。
圖10是根據(jù)本發(fā)明實(shí)施例的按出現(xiàn)頻率降序排序的術(shù)語(yǔ)候選項(xiàng)的列表以及一些顯示選項(xiàng)圖標(biāo)的根形式圖的截屏圖。
圖11是根據(jù)本發(fā)明實(shí)施例的按字母升序排序的術(shù)語(yǔ)候選項(xiàng)的列表的變形形式圖的截屏圖。
圖12是根據(jù)本發(fā)明實(shí)施例的按字母升序排序的變形形式詞語(yǔ)圖的截屏圖。
圖13是根據(jù)本發(fā)明實(shí)施例的按字母升序排序的根形式詞語(yǔ)圖的截屏圖。
圖14是一些術(shù)語(yǔ)候選項(xiàng)的截屏圖,該截屏圖具有第二窗口,該第二窗口用于顯示這些術(shù)語(yǔ)候選項(xiàng)的譯文以及對(duì)應(yīng)譯文已根據(jù)本發(fā)明實(shí)施例進(jìn)行了檢查和確認(rèn)的術(shù)語(yǔ)候選項(xiàng)的譯文。
圖15是示出了根據(jù)本發(fā)明實(shí)施例從術(shù)語(yǔ)候選項(xiàng)列表中去除不良術(shù)語(yǔ)候選項(xiàng)的截屏圖。
具體實(shí)施例方式
圖1示出了本發(fā)明的邏輯視角的系統(tǒng)圖。在步驟A中,載入源材料,并執(zhí)行步驟B中所示的基于軟件的術(shù)語(yǔ)提取處理。在步驟C中對(duì)術(shù)語(yǔ)進(jìn)行翻譯,并且在步驟D中利用該新數(shù)據(jù)來(lái)更新機(jī)器翻譯字典。在步驟E中,利用從來(lái)自譯文存儲(chǔ)器的先前已知的翻譯集的輸入,使用新數(shù)據(jù)來(lái)產(chǎn)生譯文。
在步驟F中進(jìn)行譯文后編輯處理,其中由翻譯者檢查譯文。翻譯者還可如步驟G所示手動(dòng)地提取術(shù)語(yǔ),然后在步驟H中利用該結(jié)果來(lái)再次更新機(jī)器翻譯字典。在步驟I中,由翻譯者或計(jì)算語(yǔ)言學(xué)家進(jìn)行翻譯的質(zhì)量檢查,然后在步驟J中更新譯文存儲(chǔ)器。此外,質(zhì)量檢查還會(huì)導(dǎo)致在步驟K中對(duì)機(jī)器翻譯字典的添加。檢查質(zhì)量的語(yǔ)言學(xué)家查看后編輯者做出的改變的類(lèi)型。如果存在通過(guò)向機(jī)器翻譯字典添加條目就可在將來(lái)避免的一致改變,則此時(shí)創(chuàng)建這些條目并將其應(yīng)用于任何以后的翻譯,就像將經(jīng)更新的譯文存儲(chǔ)器應(yīng)用于以后的翻譯一樣。然后在步驟L中,準(zhǔn)備好以目標(biāo)語(yǔ)言輸出譯文。
圖2示出了本發(fā)明的物理視角的系統(tǒng)圖。這給出了可應(yīng)用本發(fā)明的經(jīng)組網(wǎng)的系統(tǒng)的示例,但是這決不是唯一的應(yīng)用情景。第一數(shù)據(jù)庫(kù)(示為組件12)用于存儲(chǔ)一個(gè)或更多個(gè)第一自然語(yǔ)言的源文檔或材料(示為組件16),所述源文檔或材料要被翻譯成一個(gè)或更多個(gè)不同的自然語(yǔ)言。第一數(shù)據(jù)庫(kù)還用于存儲(chǔ)一旦翻譯處理完成就準(zhǔn)備輸出的譯得術(shù)語(yǔ)(示為組件14)。可通過(guò)多個(gè)用戶終端(其功能將在下面解釋)訪問(wèn)該數(shù)據(jù)庫(kù)。第一數(shù)據(jù)庫(kù)在本地連接到服務(wù)器(示為組件6)或者跨電信網(wǎng)絡(luò)(示為組件7)而遠(yuǎn)程連接到服務(wù)器。所述服務(wù)器負(fù)責(zé)處理與第一數(shù)據(jù)庫(kù)有關(guān)的信息,并且還通過(guò)電信網(wǎng)絡(luò)與多個(gè)用戶終端通信。第二數(shù)據(jù)庫(kù)(示為組件8)與服務(wù)器相連以保持與機(jī)器翻譯字典(示為組件9)相關(guān)的信息。該機(jī)器翻譯字典包括保持用于一般翻譯的詞語(yǔ)的主字典(示為組件10),并且還可能包括定制字典(示為組件11),該定制字典保持對(duì)于正在翻譯的當(dāng)前主題專(zhuān)用的詞語(yǔ)或者用于特定客戶的詞語(yǔ)等。
用戶終端可以是個(gè)人計(jì)算機(jī)或其他計(jì)算設(shè)備,諸如能夠處理數(shù)據(jù)的服務(wù)器或膝上型計(jì)算機(jī)。第一用戶終端(示為組件1)運(yùn)行本發(fā)明的軟件,該軟件對(duì)一個(gè)或更多個(gè)源文檔進(jìn)行分析以提取用于確認(rèn)的術(shù)語(yǔ)候選項(xiàng)。這些術(shù)語(yǔ)候選項(xiàng)(示為組件15,這里還概稱(chēng)為“短語(yǔ)”)存儲(chǔ)在第一數(shù)據(jù)庫(kù)中。確認(rèn)處理包括來(lái)自用戶或經(jīng)訓(xùn)練的計(jì)算語(yǔ)言學(xué)家的輸入。用戶輸入可包括術(shù)語(yǔ)候選項(xiàng)的確認(rèn)、錯(cuò)誤術(shù)語(yǔ)候選項(xiàng)的刪除、經(jīng)改正的術(shù)語(yǔ)候選項(xiàng)的插入、以及將在下面更詳細(xì)地解釋的各種其他步驟。
一旦經(jīng)過(guò)確認(rèn),術(shù)語(yǔ)候選項(xiàng)形成已確認(rèn)術(shù)語(yǔ)的列表(示為組件13),該列表存儲(chǔ)在第一數(shù)據(jù)庫(kù)中。為了翻譯成不同的第二自然語(yǔ)言,翻譯者操作第二用戶終端(示為組件2)以對(duì)由軟件提供的譯文進(jìn)行確認(rèn)和/或改正或者在未提供譯文的情況下提供新譯文。為了翻譯成不同的第三自然語(yǔ)言,翻譯者操作第三用戶終端(示為組件3)以對(duì)由軟件提供的譯文進(jìn)行確認(rèn)和/或改正或者提供新譯文。
翻譯者提供譯得術(shù)語(yǔ)的列表(示為組件14),這些列表存儲(chǔ)在第一數(shù)據(jù)庫(kù)中。使用來(lái)自術(shù)語(yǔ)提取處理的信息來(lái)創(chuàng)建可以在以后的翻譯中使用的機(jī)器翻譯字典。然后服務(wù)器利用譯得術(shù)語(yǔ)和存儲(chǔ)在機(jī)器翻譯字典中的信息來(lái)提供源文檔的所需語(yǔ)言的全部機(jī)器譯文。然后,這些機(jī)器譯文在另外的用戶終端(示為組件4和5)處進(jìn)行確認(rèn),然后準(zhǔn)備好供翻譯實(shí)體的客戶使用??梢允褂昧硗獾姆g者和確認(rèn)者在以后提供不同自然語(yǔ)言的譯文。
要注意,上述存儲(chǔ)在第一和第二數(shù)據(jù)庫(kù)中的文件還可以以非數(shù)據(jù)庫(kù)格式(諸如公知的SGML和XML格式)進(jìn)行存儲(chǔ)。
圖3中的圖示出了本發(fā)明的軟件組件。源存儲(chǔ)部(示為組件24)用于保持來(lái)自源文檔的文本。通過(guò)分割器(示為組件18)訪問(wèn)源存儲(chǔ)部,該分割器將源文本分割成句子和詞語(yǔ)。該分割器可以訪問(wèn)一組先前定義的標(biāo)點(diǎn)規(guī)則(示為組件17)以及一組先前定義的變形規(guī)則(inflection rule)(示為組件19)。還利用存儲(chǔ)在詞匯數(shù)據(jù)庫(kù)(示為組件20)中的信息。在處理存儲(chǔ)部(示為組件25)上保持分割信息,然后使能解析器(示為組件23)來(lái)解析文本。這里使用的術(shù)語(yǔ)“解析”用于描述按順序掃描或處理文本以提取術(shù)語(yǔ)候選項(xiàng)的方式。處理器存儲(chǔ)部還保持在軟件運(yùn)行期間使用的多個(gè)數(shù)據(jù)對(duì)象。這些數(shù)據(jù)對(duì)象包括LANGUAGE(語(yǔ)言)對(duì)象,用于存儲(chǔ)與當(dāng)前源的語(yǔ)言有關(guān)的信息;SENTENCE(句子)對(duì)象,用于存儲(chǔ)與當(dāng)前正在解析的句子有關(guān)的信息;PHRASE(短語(yǔ))對(duì)象,用于存儲(chǔ)與當(dāng)前正在提取的術(shù)語(yǔ)候選項(xiàng)有關(guān)的信息;和GLOBAL PHRASE(全局短語(yǔ))對(duì)象,用于存儲(chǔ)與迄今提取的術(shù)語(yǔ)候選項(xiàng)有關(guān)的信息。
解析器組件使用一組解析規(guī)則(示為組件21)來(lái)研究句子的構(gòu)造和句子中詞語(yǔ)之間的關(guān)系。解析器訪問(wèn)一組解析規(guī)則,來(lái)獲得用于使能其操作的每個(gè)規(guī)則。這些解析規(guī)則用于將多條語(yǔ)言學(xué)信息或其他預(yù)定特征附于句子中的一個(gè)或更多個(gè)源語(yǔ)言元素,諸如詞語(yǔ)。一組詞語(yǔ)或者詞語(yǔ)鏈在這里將被稱(chēng)為“多詞(multiword)”。因?yàn)楫?dāng)應(yīng)用另外的解析規(guī)則時(shí),解析器也可將詞語(yǔ)或多詞視為單個(gè)源語(yǔ)言元素,因而在本文中再提及的源語(yǔ)言元素可包括詞語(yǔ)或多詞。應(yīng)用解析規(guī)則以識(shí)別匹配一個(gè)或更多個(gè)解析規(guī)則的術(shù)語(yǔ)候選項(xiàng)。可將根據(jù)一個(gè)解析規(guī)則的術(shù)語(yǔ)候選項(xiàng)的輸出用作一個(gè)或更多個(gè)另外的解析規(guī)則的輸入,可重復(fù)使用該遞歸或反饋來(lái)建立另外的語(yǔ)言學(xué)關(guān)系,并從而建立另外提取出的術(shù)語(yǔ)候選項(xiàng)。
附于源語(yǔ)言元素的語(yǔ)言學(xué)信息可以是詞性信息(例如動(dòng)詞詞性或名詞詞性)或者變形信息(諸如指示源語(yǔ)言元素如何變形的“noun_reg_s”)。預(yù)定特征的一些示例可以是帶有連字符的源語(yǔ)言元素或大寫(xiě)。如果源語(yǔ)言元素的模式(pattern)或者說(shuō)順序是使其與一解析規(guī)則相對(duì)應(yīng)的,那么就說(shuō)它們與該解析規(guī)則匹配。一旦解析器使源語(yǔ)言元素與解析規(guī)則匹配,就提取出術(shù)語(yǔ)候選項(xiàng),并將其存儲(chǔ)在術(shù)語(yǔ)候選項(xiàng)存儲(chǔ)部(示為組件26)中。然后通過(guò)GUI(示為組件22)將這些術(shù)語(yǔ)候選項(xiàng)呈現(xiàn)給計(jì)算語(yǔ)言學(xué)家以供確認(rèn)。一旦經(jīng)過(guò)確認(rèn),將這些術(shù)語(yǔ)候選項(xiàng)存儲(chǔ)在已確認(rèn)術(shù)語(yǔ)存儲(chǔ)部(示為組件27)中以呈現(xiàn)給翻譯者。
本發(fā)明主要涉及基于軟件的術(shù)語(yǔ)提取處理B,但是也涉及作為整體的系統(tǒng)。圖4示出了本發(fā)明的術(shù)語(yǔ)提取處理的高層流程圖。當(dāng)本發(fā)明的軟件在個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、個(gè)人數(shù)字助理、服務(wù)器或類(lèi)似設(shè)備的本地計(jì)算系統(tǒng)或通過(guò)互聯(lián)網(wǎng)或無(wú)線鏈路的遠(yuǎn)程計(jì)算系統(tǒng)上運(yùn)行時(shí),該處理從階段S1開(kāi)始。初始設(shè)置階段S2涉及載入所需源文檔和任何所需參考文件。這里還將源文本分割成句子。下一階段S3是詞語(yǔ)分析,其包括將源句子分割成源語(yǔ)言元素并應(yīng)用標(biāo)點(diǎn)規(guī)則和變形規(guī)則。接著,短語(yǔ)解析階段S4發(fā)生。該階段涉及對(duì)各個(gè)句子的源語(yǔ)言元素進(jìn)行掃描,并將其與各種解析規(guī)則進(jìn)行匹配以產(chǎn)生術(shù)語(yǔ)候選項(xiàng)。最后的階段S5是導(dǎo)出階段,其中將術(shù)語(yǔ)候選項(xiàng)導(dǎo)出為顯示格式。然后該軟件在階段S6中進(jìn)行檢查以查看是否存在更多的待分析句子,如果存在,則處理循環(huán)回到初始設(shè)置階段S2,否則翻譯處理在階段S7結(jié)束。
初始設(shè)置階段圖5給出了初始設(shè)置階段的更詳細(xì)的圖。初始用戶設(shè)置的第一步驟涉及通過(guò)圖形用戶界面(GUI)將一個(gè)或更多個(gè)源文檔(由項(xiàng)30表示)載入軟件包(由項(xiàng)32表示)。初始用戶設(shè)置的第二步驟涉及用戶指定所述文檔是哪種格式。這些格式可以是各種數(shù)字計(jì)算機(jī)格式中的一種或更多種,所述數(shù)字計(jì)算機(jī)格式包括豐富文本格式(*.rtf)、純文本(ANSI)格式(*.txt)、超文本標(biāo)記語(yǔ)言格式(*.html)、以及本發(fā)明所特有的并與軟件包相關(guān)的多種格式。還可以選擇打開(kāi)經(jīng)先前分析的文本。
在初始用戶設(shè)置的第三步驟中,用戶可以選擇分析各個(gè)源文檔的整體、各個(gè)源文檔的一部分,或者指定對(duì)從源文檔的起始處起的多少個(gè)段(句子)進(jìn)行分析。指定源語(yǔ)言,然后用戶可以讓軟件根據(jù)詞匯數(shù)據(jù)庫(kù)(如果可用的話)提供對(duì)所有發(fā)現(xiàn)的術(shù)語(yǔ)候選項(xiàng)的翻譯。如果要提供這種翻譯,則也可在這里選擇目標(biāo)語(yǔ)言。
在初始用戶設(shè)置的第四步驟(即最終步驟)中,用戶可指定多個(gè)搜索參數(shù)作為用戶設(shè)置。
用戶設(shè)置一個(gè)用戶設(shè)置使得可以限制由軟件提取的術(shù)語(yǔ)候選項(xiàng)的長(zhǎng)度。針對(duì)每個(gè)術(shù)語(yǔ)候選項(xiàng)的詞語(yǔ)數(shù)量來(lái)定義最大長(zhǎng)度。最大術(shù)語(yǔ)候選項(xiàng)長(zhǎng)度默認(rèn)為五,但是可以增減以適合具體的源文本或語(yǔ)言對(duì)。
另一用戶設(shè)置使得可以僅顯示所提取的術(shù)語(yǔ)候選項(xiàng)的子集??梢愿鶕?jù)等級(jí)和/或頻率中的一個(gè)或更多個(gè)來(lái)選擇該子集。存在用來(lái)更改所提取的術(shù)語(yǔ)候選項(xiàng)的顯示順序的圖標(biāo)。這可以按字母序、根據(jù)頻率或根據(jù)等級(jí)來(lái)進(jìn)行,這些圖標(biāo)分別作為圖10的截屏圖中的項(xiàng)380、382和384示出。還有用于按升序和降序排序的圖標(biāo),這些圖標(biāo)作為項(xiàng)386和388示出。這里所指的頻率是術(shù)語(yǔ)候選項(xiàng)在源文本中的出現(xiàn)頻率。項(xiàng)372所指示的列中的數(shù)字根據(jù)當(dāng)前顯示模式給出各個(gè)提取出的術(shù)語(yǔ)候選項(xiàng)的行號(hào)或序號(hào)。項(xiàng)362所指示的列中的數(shù)字給出了各個(gè)提取出的術(shù)語(yǔ)候選項(xiàng)在一個(gè)或多個(gè)源文檔中的出現(xiàn)頻率。項(xiàng)364所指示的列中的數(shù)字給出了各個(gè)提取出的術(shù)語(yǔ)候選項(xiàng)的等級(jí)。在稍后的章節(jié)中將描述計(jì)算該等級(jí)的方法。
另一用戶設(shè)置使得可以設(shè)置對(duì)在確認(rèn)期間呈現(xiàn)的上下文句子的數(shù)量的限制。默認(rèn)為不設(shè)置這種限制,在上下文句子窗口(示為圖10中的項(xiàng)370)中顯示源文本中存在特定術(shù)語(yǔ)候選項(xiàng)的所有句子。將在稍后的章節(jié)中討論該功能的使用。
另一用戶設(shè)置當(dāng)軟件(默認(rèn)地)請(qǐng)求阻擋詞語(yǔ)列表時(shí)使能繞過(guò)阻擋文本的功能。將在稍后討論該功能的使用。
另一用戶設(shè)置指示軟件在提取處理期間忽略功能詞。功能詞是主要指示語(yǔ)法關(guān)系但沒(méi)有其自身的語(yǔ)義內(nèi)容的詞。冠詞(the、a、an)、介詞(in、of、on、to)和連詞(and、or、but)都是功能詞。繞過(guò)功能詞減少了所提取的術(shù)語(yǔ)候選項(xiàng)的數(shù)量,從而在確認(rèn)階段可以節(jié)省大量時(shí)間。
另一用戶設(shè)置指示軟件在提取處理期間忽略非最大匹配。最大匹配指的是可被解析為術(shù)語(yǔ)候選項(xiàng)的可能的最長(zhǎng)串,盡管該串包含也可被解析為術(shù)語(yǔ)候選項(xiàng)的較短連語(yǔ)(collocation)。非最大匹配是被提取為術(shù)語(yǔ)候選項(xiàng)的多詞并且是也可被提取的更大的多詞的組成部分。例如,句子“The United Kingdom of Great Britain and Northern Ireland includesScotland and Wales.”產(chǎn)生最大術(shù)語(yǔ)候選項(xiàng)“The United Kingdom of GreatBritain and Northern Ireland(大不列顛及北愛(ài)爾蘭聯(lián)合王國(guó))”,但是也產(chǎn)生較短的非最大匹配“United Kingdom(聯(lián)合王國(guó))”、“Great Britain(大不列顛)”和“Northern Ireland(北愛(ài)爾蘭)”。
另一用戶設(shè)置指示軟件在提取處理期間忽略任何數(shù)字。
另一用戶設(shè)置使得可以忽略任何未發(fā)現(xiàn)文本。未發(fā)現(xiàn)文本可包括軟件無(wú)法確定詞性的詞語(yǔ)、源中的排字印刷錯(cuò)誤、或在詞匯數(shù)據(jù)庫(kù)中無(wú)法找到的詞語(yǔ)。
另一用戶設(shè)置指示軟件忽略在句子開(kāi)始處之外的首字母大寫(xiě)的源語(yǔ)言元素。
另一用戶設(shè)置指示軟件忽略字母全以大寫(xiě)出現(xiàn)的所有源語(yǔ)言元素。
另一用戶設(shè)置指示軟件忽略其他方面都相同的術(shù)語(yǔ)候選項(xiàng)的大小寫(xiě)差別。
另三個(gè)使用設(shè)置使得用戶可以設(shè)置默認(rèn)阻擋詞語(yǔ)列表、使用當(dāng)前項(xiàng)目所特有的最后保存的阻擋詞語(yǔ)列表并指定阻擋詞語(yǔ)列表的文件名。阻擋詞語(yǔ)列表是一文本文件,該文本文件包含不應(yīng)該顯示在GUI中的源語(yǔ)言元素和/或術(shù)語(yǔ)候選項(xiàng)。這使得用戶可以將先前提取的術(shù)語(yǔ)候選項(xiàng)添加到阻擋詞語(yǔ)列表,從而僅呈現(xiàn)新提取的術(shù)語(yǔ)候選項(xiàng)以供確認(rèn)和翻譯。此外,用戶可將這樣的詞語(yǔ)和/或術(shù)語(yǔ)候選項(xiàng)添加到阻擋詞語(yǔ)列表,這些詞語(yǔ)和/或術(shù)語(yǔ)候選項(xiàng)先前在輸出中增加了無(wú)意義數(shù)據(jù)或“噪聲”。
一旦指定了所有設(shè)置,就在步驟34中初始化軟件,并且在步驟38中載入源語(yǔ)言數(shù)據(jù)。該載入涉及讀取項(xiàng)44的普通語(yǔ)言數(shù)據(jù)和項(xiàng)46的解析器規(guī)則,項(xiàng)44和46包含當(dāng)前正被掃描的源文本的語(yǔ)言所特有的語(yǔ)言學(xué)數(shù)據(jù)。然后,如步驟42所示,創(chuàng)建被稱(chēng)為L(zhǎng)ANGUAGE(示為項(xiàng)48)、SENTENCE(示為項(xiàng)50)、PHRASE(示為項(xiàng)52)和GLOBAL PHRASE(示為項(xiàng)54)的各種內(nèi)部數(shù)據(jù)存儲(chǔ)對(duì)象。LANGUAGE對(duì)象用于保持當(dāng)前源語(yǔ)言的語(yǔ)言數(shù)據(jù),SENTENCE對(duì)象用于保持與當(dāng)前正被掃描的句子有關(guān)的數(shù)據(jù),PHRASE對(duì)象用于保持與當(dāng)前正在提取的術(shù)語(yǔ)候選項(xiàng)有關(guān)的數(shù)據(jù),GLOBAL PHRASE對(duì)象用于保持與針對(duì)當(dāng)前項(xiàng)目迄今掃描的所有術(shù)語(yǔ)候選項(xiàng)有關(guān)的數(shù)據(jù)。
一旦創(chuàng)建了所有數(shù)據(jù)對(duì)象,就在步驟36中將源文本分割成句子,并且如步驟40所示,將各個(gè)句子傳送到詞語(yǔ)分析階段(圖4的階段S3)。
詞語(yǔ)分析階段圖6示出了詞語(yǔ)分析階段S3的詳細(xì)圖。該循環(huán)階段涉及通過(guò)采用標(biāo)點(diǎn)規(guī)則和變形規(guī)則并參考詞匯數(shù)據(jù)庫(kù)來(lái)分析各個(gè)句子中的源語(yǔ)言元素以查明其類(lèi)型。來(lái)自“發(fā)送下一句子”(圖5的步驟40)的輸入被顯示為通向圖6的步驟60“清空數(shù)據(jù)對(duì)象SENTENCE、PHRASE”。針對(duì)各個(gè)被分析的句子,對(duì)這些數(shù)據(jù)對(duì)象的前兩個(gè)執(zhí)行該清空,以沖掉前一循環(huán)的任何舊變量或設(shè)置。
在步驟62中,通過(guò)應(yīng)用一組標(biāo)點(diǎn)規(guī)則(如項(xiàng)78所示)將第一句子分割成詞語(yǔ)。在步驟64中,利用當(dāng)前句子的標(biāo)點(diǎn)信息來(lái)更新數(shù)據(jù)對(duì)象SENTENCE。該標(biāo)點(diǎn)信息可包括任意逗號(hào)、引號(hào)等的位置。然后,如步驟66所示,載入第一詞語(yǔ),然后在步驟68中通過(guò)應(yīng)用一組變形規(guī)則(如項(xiàng)84所示)將第一詞語(yǔ)還原為根形式。然后在步驟70中通過(guò)訪問(wèn)詞匯數(shù)據(jù)庫(kù)(如項(xiàng)86所示)來(lái)檢查該根形式。詞匯數(shù)據(jù)庫(kù)提供語(yǔ)言學(xué)信息,諸如可能詞性的列表、任何可用的可能翻譯和任何同義詞等。
然后在步驟72中用當(dāng)前詞語(yǔ)的語(yǔ)言學(xué)信息來(lái)更新SENTENCE數(shù)據(jù)對(duì)象。該信息可包括動(dòng)詞的時(shí)態(tài)、數(shù)、人稱(chēng)、體(aspect)、語(yǔ)氣和語(yǔ)態(tài)、名詞的數(shù)、形容詞的比較級(jí)或最高級(jí)形式等。然后,因?yàn)閱卧~以及多詞都可被視為術(shù)語(yǔ)候選項(xiàng),所以在步驟74中用該信息來(lái)更新當(dāng)前術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象PHRASE。如步驟80所示,如果需要分析該句子中的另一詞語(yǔ),則在步驟82處理返回,以在步驟66中載入下一詞語(yǔ)。如果如步驟76所示現(xiàn)在已掃描了整個(gè)句子,則處理繼續(xù)到圖7的短語(yǔ)分析階段S4。
根形式根形式或基形式是詞語(yǔ)的未變形形式。變形是詞語(yǔ)形式的改變(通常通過(guò)添加后綴或者改變?cè)艋蜉o音),用于指示其語(yǔ)法功能的改變。該改變可能用于指示人稱(chēng)或時(shí)態(tài)。對(duì)于名詞,根形式是單數(shù)形式,例如box、candle。對(duì)于動(dòng)詞,根形式是沒(méi)有“to”的不定式,例如,“to run”還原為“run”,“climbed”還原為“climb”。對(duì)于形容詞,根形式是原級(jí)形式,例如rich、lovely(而不是比較級(jí)“richer”、“l(fā)ovelier”或者最高級(jí)“richest”、“l(fā)oveliest”)。對(duì)于副詞,根形式也是原級(jí)形式,但是在英語(yǔ)中,將規(guī)則形成的“-ly”副詞還原為派生出該副詞的形容詞的原級(jí)形式,例如,“cheerfully”還原為“cheerful”,“spotlessly”還原為“spotless”。
短語(yǔ)解析階段圖4的短語(yǔ)解析階段S4的第一步驟在圖7的步驟124中示出,并且包括載入解析器規(guī)則(如項(xiàng)146所示)。該解析器規(guī)則指示軟件如何掃描或解析句子的源語(yǔ)言元素以挑選或提取術(shù)語(yǔ)候選項(xiàng)。解析器掃描句子的源語(yǔ)言元素,以尋找出現(xiàn)的符合解析器規(guī)則之一的源語(yǔ)言元素。依次針對(duì)各個(gè)規(guī)則掃描該句子。對(duì)于英語(yǔ)的源材料,如果檢測(cè)到以下序列之一,則匹配了解析規(guī)則解析規(guī)則l一個(gè)動(dòng)詞之后跟著一個(gè)介詞解析規(guī)則2基形式形容詞之后跟著單數(shù)名詞解析規(guī)則3一個(gè)或更多個(gè)單數(shù)名詞之后跟著名詞解析規(guī)則4任何包含連字符的復(fù)合詞解析規(guī)則5大寫(xiě)名詞,之后是介詞,之后是零個(gè)或更多個(gè)形容詞,之后是一個(gè)大寫(xiě)名詞,之后是一個(gè)或更多個(gè)大寫(xiě)名詞解析規(guī)則6大寫(xiě)詞語(yǔ)之后跟著一個(gè)或更多個(gè)大寫(xiě)詞語(yǔ)應(yīng)該注意的是,解析規(guī)則是可擴(kuò)展的??梢栽谠~匯數(shù)據(jù)庫(kù)的適當(dāng)表中修改或添加上面列出的五個(gè)英語(yǔ)規(guī)則,而無(wú)需重新編譯軟件。
可以看出,解析規(guī)則1具有兩個(gè)規(guī)則元素動(dòng)詞和介詞,而解析規(guī)則5具有至少四個(gè)規(guī)則元素第一大寫(xiě)名詞、介詞、第二大寫(xiě)名詞和第三大寫(xiě)名詞。
在解析處理開(kāi)始處,如步驟126所示,創(chuàng)建有窮狀態(tài)機(jī)(FSM),以跟蹤當(dāng)前被掃描的解析規(guī)則,如步驟128所示。如步驟146所示,對(duì)于第一解析規(guī)則,在步驟130中對(duì)該句子進(jìn)行掃描,查找與解析規(guī)則的第一規(guī)則元素相匹配的所有源語(yǔ)言元素。術(shù)語(yǔ)“源語(yǔ)言元素”用于指示單詞或多詞或其他句子元素。術(shù)語(yǔ)“規(guī)則元素”用于指示解析規(guī)則中源語(yǔ)言元素必須與之匹配的部分,所述源語(yǔ)言元素各自具有至少一條附加至其的語(yǔ)言學(xué)信息。例如參考解析規(guī)則1,在這里第一規(guī)則元素是動(dòng)詞,所以解析規(guī)則將在整個(gè)句子中搜索動(dòng)詞。
如步驟144所示,如果沒(méi)有找到與解析規(guī)則相匹配的源語(yǔ)言元素,則在步驟142中清空FSM,并且在步驟138中進(jìn)行是否存在另一待檢查解析規(guī)則的判定。如步驟140所示,如果不再有待檢查解析規(guī)則,則處理繼續(xù)進(jìn)行,在步驟188(稍后描述)中將匹配的術(shù)語(yǔ)候選項(xiàng)寫(xiě)入PHRASE數(shù)據(jù)對(duì)象。
如步驟128所示,如果確實(shí)需要掃描另一解析規(guī)則,則在步驟146中載入另一規(guī)則,并在步驟130中像以前那樣對(duì)該句子進(jìn)行掃描,以掃描與該另一規(guī)則相匹配的所有源語(yǔ)言元素。依次重復(fù)步驟144、142、138、128、146和130,直到找到句子中與解析規(guī)則的第一規(guī)則元素相匹配的所有源語(yǔ)言元素為止。然后在步驟132中,在FSM中創(chuàng)建用于跟蹤所發(fā)現(xiàn)的各個(gè)匹配的狀態(tài)。然后在步驟134中,再次檢查解析規(guī)則以查看其是否具有另一規(guī)則元素。例如參考解析規(guī)則1,在這里第二規(guī)則元素是介詞,所以解析器將在整個(gè)句子中搜索在動(dòng)詞之后出現(xiàn)的介詞。
如果沒(méi)有其他規(guī)則元素,那么處理繼續(xù)進(jìn)行,在步驟188(稍后描述)中將匹配的術(shù)語(yǔ)候選項(xiàng)寫(xiě)入PHRASE數(shù)據(jù)對(duì)象。
如步驟122所示,如果當(dāng)前正被掃描的解析規(guī)則具有更多規(guī)則元素,則在圖8的步驟160中重置FSM的所有狀態(tài)。然后在步驟176中載入下一規(guī)則元素,并且在步驟178中載入FSM的第一狀態(tài)。然后在步驟164中檢查當(dāng)前規(guī)則元素以查看該規(guī)則元素是否適用于該狀態(tài)。
如步驟166所示,如果當(dāng)前規(guī)則元素確實(shí)適用于第一狀態(tài),則在步驟168中將該狀態(tài)更新為包括當(dāng)前規(guī)則元素的信息,即,當(dāng)前狀態(tài)是與當(dāng)前規(guī)則的潛在匹配。在步驟172中,解析器進(jìn)行檢查以查看FSM中是否存在另一待分析狀態(tài)。如步驟170所示,如果存在,則處理返回以在步驟178中載入下一狀態(tài)。然后處理從步驟172繼續(xù)檢查FSM中是否存在更多的待分析狀態(tài)。
如步驟180所示,如果當(dāng)前規(guī)則元素不適用于第一狀態(tài),則在步驟182中從FSM中刪除該狀態(tài),因?yàn)樵摖顟B(tài)不會(huì)與當(dāng)前規(guī)則潛在匹配。然后處理從步驟172繼續(xù)檢查FSM中是否存在更多的待分析狀態(tài)。
如步驟184所示,如果FSM中不再有待分析狀態(tài),則在步驟174中檢查當(dāng)前解析規(guī)則以查看其是否包含另一規(guī)則元素。如步驟162所示,如果存在當(dāng)前解析規(guī)則的更多元素,則在步驟160中將FSM中的狀態(tài)重置并在步驟176中載入下一規(guī)則元素。像前面那樣重復(fù)該處理,直到分析了當(dāng)前規(guī)則中的所有元素為止,如步驟186所示。
然后在步驟188中將匹配的術(shù)語(yǔ)候選項(xiàng)寫(xiě)入PHRASE數(shù)據(jù)對(duì)象。如步驟190所示,現(xiàn)在解析器進(jìn)行檢查以查看是否存在要掃描以與源句子匹配的更多解析規(guī)則。如步驟200所示,如果需要對(duì)源文本檢查另一規(guī)則,則處理返回以在步驟120中清空FSM。如步驟192所示,如果不再有要掃描的規(guī)則,則在步驟194中將來(lái)自迄今識(shí)別出的術(shù)語(yǔ)候選項(xiàng)的數(shù)據(jù)寫(xiě)入GLOBAL PHRASE數(shù)據(jù)對(duì)象。然后處理繼續(xù)進(jìn)行到圖4的導(dǎo)出階段S5。
例句現(xiàn)在給出詞語(yǔ)分析階段和短語(yǔ)解析階段對(duì)例句的處理的描述。例句是“It was hidden under the sofa-bed”。
從圖5的步驟40開(kāi)始,將該句子發(fā)送到詞語(yǔ)分析階段S3。在步驟60中清空相關(guān)數(shù)據(jù)對(duì)象,并在步驟62中將該句子分割成七個(gè)源語(yǔ)言元素。這里將帶連字符的復(fù)合詞“sofa-bed”視為兩個(gè)源語(yǔ)言元素,在標(biāo)點(diǎn)信息更新步驟64期間將該連字符的存在記錄在SENTENCE數(shù)據(jù)對(duì)象中。
然后在步驟66中載入第一源語(yǔ)言元素“it”,并在步驟68中通過(guò)應(yīng)用項(xiàng)84的變形規(guī)則將其還原為根形式。然后在步驟70中通過(guò)參考項(xiàng)86的詞匯數(shù)據(jù)庫(kù)來(lái)檢查該根形式,并在詞語(yǔ)信息更新步驟72中將該單數(shù)代詞保存到當(dāng)前句子數(shù)據(jù)對(duì)象SENTENCE。在步驟74中還更新當(dāng)前術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象PHRASE。
然后在步驟80中解析器進(jìn)行檢查以查看該句子中是否存在另一源語(yǔ)言元素。在存在另一源語(yǔ)言元素情況下執(zhí)行步驟82,并在步驟66中載入句子的第二源語(yǔ)言元素“was”。源語(yǔ)言元素“was”來(lái)自動(dòng)詞不定式“tobe”,因此其根為“be”。其在這里的用法是作為其后動(dòng)詞的被動(dòng)助動(dòng)詞(因而是功能詞),在步驟72中用該信息來(lái)更新當(dāng)前句子數(shù)據(jù)對(duì)象SENTENCE。在步驟74中還更新當(dāng)前術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象PHRASE,然后在步驟80中檢查該句子以查看是否存在另一源語(yǔ)言元素。
然后在步驟66中載入該句子的第三源語(yǔ)言元素“hidden”。在步驟68中將其還原為根形式,發(fā)現(xiàn)其是動(dòng)詞不定式“to hide”中的詞“hide”。然后在步驟70中在項(xiàng)86的詞匯數(shù)據(jù)庫(kù)中檢查該根形式,并像前面那樣進(jìn)行步驟72和74的更新。
第四源語(yǔ)言元素“under”是介詞,來(lái)自帶連字符的復(fù)合詞“sofa-bed”的第五和第六源語(yǔ)言元素是名詞,以與該句子的前三個(gè)源語(yǔ)言元素相似的方式對(duì)它們進(jìn)行分析。
一旦分析了該句子中的所有源語(yǔ)言元素,則在步驟124中載入項(xiàng)146的解析器規(guī)則并在步驟126中創(chuàng)建FSM。在步驟146中初始載入第一規(guī)則(即解析規(guī)則1),該規(guī)則查找后跟一個(gè)介詞的一個(gè)動(dòng)詞。在步驟130中對(duì)該句子進(jìn)行掃描,掃描該解析規(guī)則的第一規(guī)則元素(即,動(dòng)詞)。找到的唯一動(dòng)詞是根形式的“hide”,所以在步驟132中針對(duì)該匹配在FSM中創(chuàng)建一個(gè)狀態(tài)。然后在步驟134中檢查該規(guī)則中的另一元素。
該規(guī)則確實(shí)有另一元素,所以執(zhí)行步驟122,并在步驟160中重置現(xiàn)有狀態(tài)。術(shù)語(yǔ)“重置”在這里指的是狀態(tài)機(jī)跳回FSM的標(biāo)準(zhǔn)操作的第零狀態(tài)。為了找到與解析規(guī)則l的匹配,解析規(guī)則1的第二規(guī)則元素規(guī)定下一源語(yǔ)言元素必須是介詞,如步驟176所示。在步驟178中載入所需狀態(tài)(即,狀態(tài)機(jī)跳到與第一匹配相對(duì)應(yīng)的第一狀態(tài)),然后在步驟164中檢查該規(guī)則元素以查看其是否適用于該狀態(tài)。介詞“under”確實(shí)符合,所以執(zhí)行步驟166,并在步驟168中將該狀態(tài)更新為也包括對(duì)該解析規(guī)則的第二元素的匹配。
因?yàn)椴辉儆幸治龅臓顟B(tài),所以執(zhí)行步驟172和184。當(dāng)前解析規(guī)則也不再有更多的規(guī)則元素,所以執(zhí)行步驟174和186,然后在步驟188中將匹配的術(shù)語(yǔ)候選項(xiàng)“hidden under”寫(xiě)入當(dāng)前術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象PHRASE。
確實(shí)存在第二解析規(guī)則,所以執(zhí)行步驟190和200,然后在步驟120中清空FSM,從而在步驟146中掃描該句子中的該下一解析規(guī)則的實(shí)例。像前面那樣重復(fù)該處理,但是在該句子中沒(méi)有形容詞,所以沒(méi)有對(duì)解析規(guī)則2的匹配。第三解析規(guī)則也不匹配,因?yàn)闆](méi)有連續(xù)名詞的序列。然而,因?yàn)椤皊ofa-bed”包含連字符,所以第四解析規(guī)則與復(fù)合詞“sofa-bed”匹配,在步驟188中將其寫(xiě)入當(dāng)前術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象PHRASE。第五和第六解析規(guī)則與該句子不匹配,從而針對(duì)該句子完成了術(shù)語(yǔ)候選項(xiàng)解析階段。然后在步驟194中利用與從該句子中提取的術(shù)語(yǔ)候選項(xiàng)有關(guān)的信息來(lái)更新全局術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)對(duì)象GLOBAL PHRASE。
導(dǎo)出階段現(xiàn)在返回對(duì)本發(fā)明的總體討論,一旦從句子中提取了術(shù)語(yǔ)候選項(xiàng),就到達(dá)圖4的導(dǎo)出階段S5。圖9示出了該階段的更詳細(xì)的圖。在步驟224中,將在GLOBAL PHRASE數(shù)據(jù)對(duì)象中保持的術(shù)語(yǔ)候選項(xiàng)寫(xiě)入界面文件。該界面文件的格式適于被GUI軟件組件讀取。然后在步驟226和228中將界面文件中的數(shù)據(jù)與來(lái)自任一先前的術(shù)語(yǔ)候選項(xiàng)提取的數(shù)據(jù)進(jìn)行組合并導(dǎo)出到GUI。
然后在步驟230中檢查該軟件以查看是否存在更多要分析的句子。如果存在更多句子,則執(zhí)行步驟230,然后處理跳回初始設(shè)置階段S2的下一句子載入步驟40。
如果已分析了全部文本,則執(zhí)行步驟232,然后如步驟234所示,將任意過(guò)濾器和阻擋詞語(yǔ)列表應(yīng)用于所提取的術(shù)語(yǔ)候選項(xiàng)列表。這會(huì)去除位于阻擋詞語(yǔ)列表中的任何術(shù)語(yǔ)候選項(xiàng),從而使其不呈現(xiàn)給語(yǔ)言學(xué)家來(lái)編輯和確認(rèn)。術(shù)語(yǔ)候選項(xiàng)位于阻擋詞語(yǔ)列表中可能出于各種原因它們可能是從先前的提取中創(chuàng)建的無(wú)意義術(shù)語(yǔ)候選項(xiàng)(或噪聲);它們可能是不必花費(fèi)計(jì)算語(yǔ)言學(xué)家大量時(shí)間進(jìn)行編輯或者不必花費(fèi)翻譯者大量時(shí)間進(jìn)行翻譯的術(shù)語(yǔ)候選項(xiàng);它們可能是會(huì)引起混淆或?qū)μ囟ǖ貐^(qū)文化冒犯的術(shù)語(yǔ)候選項(xiàng)或方言(dialect),或者它們可能是不適于特定項(xiàng)目的術(shù)語(yǔ)候選項(xiàng)等。
應(yīng)用于所提取的術(shù)語(yǔ)候選項(xiàng)的過(guò)濾器可以去除不期望的大寫(xiě)、重復(fù)的類(lèi)似術(shù)語(yǔ)候選項(xiàng)或沖突的術(shù)語(yǔ)候選項(xiàng)等。這種過(guò)濾器可以是語(yǔ)言特定的、地區(qū)特定的或應(yīng)用領(lǐng)域特定的。
一旦準(zhǔn)備好對(duì)界面文件中的所提取的術(shù)語(yǔ)候選項(xiàng)數(shù)據(jù)進(jìn)行編輯,就以各種方式通過(guò)GUI將其呈現(xiàn)給用戶,如步驟236所示。
圖10示出了通過(guò)點(diǎn)擊項(xiàng)376的圖標(biāo)而顯示的所提取術(shù)語(yǔ)候選項(xiàng)的列表的根形式圖的截屏圖。通過(guò)點(diǎn)擊項(xiàng)382的圖標(biāo)將術(shù)語(yǔ)候選項(xiàng)按出現(xiàn)頻率排序,并且通過(guò)點(diǎn)擊項(xiàng)388的圖標(biāo)將術(shù)語(yǔ)候選項(xiàng)按降序排序。在該具體截屏圖中,在項(xiàng)366的術(shù)語(yǔ)候選項(xiàng)“accounting firm”上點(diǎn)擊游標(biāo)。這里,分別如項(xiàng)372、362和364所示,行號(hào)是“1”,頻率是“1”,等級(jí)是“8”。
分級(jí)功能等級(jí)是具有一定范圍的值(例如范圍從1到10的一組值)的置信指數(shù)值。最初可以通過(guò)確定所提取的與特定解析器規(guī)則相匹配的術(shù)語(yǔ)候選項(xiàng)中的百分之幾事實(shí)上語(yǔ)義相關(guān),來(lái)分析從大文集(corpus)中提取的術(shù)語(yǔ)候選項(xiàng),從而確定所述等級(jí)。例如,可以將初始等級(jí)八分配給最可能產(chǎn)生良好術(shù)語(yǔ)候選項(xiàng)的解析器規(guī)則。然后可以基于給定的提取術(shù)語(yǔ)候選項(xiàng)在源材料中的出現(xiàn)頻率來(lái)提高該初始等級(jí)。
因此,例如當(dāng)在文檔中首先發(fā)現(xiàn)術(shù)語(yǔ)候選項(xiàng)A時(shí),可以根據(jù)該術(shù)語(yǔ)候選項(xiàng)A所匹配的術(shù)語(yǔ)候選項(xiàng)模式(就是說(shuō),例如,術(shù)語(yǔ)候選項(xiàng)A匹配規(guī)則A,規(guī)則A的等級(jí)為7),給予術(shù)語(yǔ)候選項(xiàng)A初始等級(jí)。然而,隨著以后術(shù)語(yǔ)候選項(xiàng)A在源材料中的每次出現(xiàn),該等級(jí)都會(huì)潛在提高。將術(shù)語(yǔ)候選項(xiàng)的列表與其在源材料中的原始出現(xiàn)次數(shù)以及等級(jí)(如上所述,模式置信度和出現(xiàn)頻率的函數(shù))一起呈現(xiàn)給用戶。通過(guò)根據(jù)其等級(jí)對(duì)術(shù)語(yǔ)候選項(xiàng)進(jìn)行排序,用戶可將其工作集中在所提取的最可能是語(yǔ)義單元的術(shù)語(yǔ)候選項(xiàng)上。如果一術(shù)語(yǔ)候選項(xiàng)僅被發(fā)現(xiàn)一次但是其初始等級(jí)為8,則它是良好候選項(xiàng)。得到低初始等級(jí)的術(shù)語(yǔ)候選項(xiàng)隨后可能基于其出現(xiàn)頻率而提高至等級(jí)8。這兩種情況都理應(yīng)得到用戶的注意。軟件用戶(即,計(jì)算語(yǔ)言學(xué)家)可以調(diào)節(jié)初始等級(jí)的默認(rèn)設(shè)置。
當(dāng)對(duì)大文集進(jìn)行分析以產(chǎn)生初始等級(jí)估計(jì)時(shí),可以使用各種統(tǒng)計(jì)量度。該處理應(yīng)該具有某些人工輸入,以針對(duì)各個(gè)模式檢查所提取的術(shù)語(yǔ)候選項(xiàng)的質(zhì)量,從而實(shí)現(xiàn)合理的估計(jì)。
現(xiàn)在返回到對(duì)導(dǎo)出階段的討論,上下文窗口示出了出現(xiàn)術(shù)語(yǔ)候選項(xiàng)的句子。在此情況下,如項(xiàng)370所示,該句子僅出現(xiàn)一次,并且術(shù)語(yǔ)候選項(xiàng)以變形形式“accounting firms”出現(xiàn)。在項(xiàng)374的詞性窗口中該術(shù)語(yǔ)候選項(xiàng)被識(shí)別為名詞短語(yǔ)。
圖11示出了變形形式圖中的相同術(shù)語(yǔ)候選項(xiàng)的截屏圖。通過(guò)點(diǎn)擊項(xiàng)400的圖標(biāo)按字母順序顯示這些術(shù)語(yǔ)候選項(xiàng),并且通過(guò)點(diǎn)擊項(xiàng)402的圖標(biāo)按升序顯示這些術(shù)語(yǔ)候選項(xiàng)。在該具體情況下,在項(xiàng)411的術(shù)語(yǔ)候選項(xiàng)“CEO Steve Ballmer”上點(diǎn)擊游標(biāo),如項(xiàng)414所示,行號(hào)是“6”;如項(xiàng)412所示,頻率是“1”;如項(xiàng)410所示,等級(jí)是“7”。如項(xiàng)406所示,在上下文窗口中將在出現(xiàn)該術(shù)語(yǔ)候選項(xiàng)的句子中的該術(shù)語(yǔ)候選項(xiàng)加亮,并且如項(xiàng)408所示,在詞性窗口中該術(shù)語(yǔ)候選項(xiàng)被識(shí)別為大寫(xiě)。
圖12的截屏圖示出了變形詞語(yǔ)圖,通過(guò)點(diǎn)擊項(xiàng)442的變形形式圖標(biāo)和項(xiàng)430的詞語(yǔ)形式圖標(biāo)而顯示該圖。通過(guò)點(diǎn)擊項(xiàng)432和434的圖標(biāo)將這些詞語(yǔ)按字母升序排列。索引或詞語(yǔ)顯示模式是來(lái)自原文的具有任何對(duì)應(yīng)的語(yǔ)言學(xué)信息的所有詞語(yǔ)的列表或索引。詞語(yǔ)“was”的行號(hào)為“377”(如項(xiàng)436所示),其出現(xiàn)頻率為“5”(如項(xiàng)438所示)。在上下文窗口中列出源文本中出現(xiàn)該詞語(yǔ)的句子,如項(xiàng)440所示。如項(xiàng)442的復(fù)選框所示,詞語(yǔ)“was”被識(shí)別為功能詞。如項(xiàng)444的復(fù)選框所示,在詞匯數(shù)據(jù)庫(kù)中找到了詞語(yǔ)“was”。其根形式“BE”由項(xiàng)446指出。
在圖13的截屏圖中通過(guò)點(diǎn)擊項(xiàng)460的圖標(biāo)將顯示從變形形式圖切換到根形式圖。如項(xiàng)466所示,詞語(yǔ)“was”被識(shí)別為具有動(dòng)詞詞性并且來(lái)自于動(dòng)詞不定式“to be”,所以根形式是“be”,“be”的頻率為“14”,如項(xiàng)464所示。因?yàn)閹讉€(gè)詞語(yǔ)可以具有同一根形式,所以與前一幅圖中的“was”相比,這里有更多出現(xiàn)次數(shù)。這里,上下文窗口的差別在于,雖然列出了上下文句子,但是因?yàn)樵荚淳渥影氖亲冃涡问?例如“was”或“are”或“is”等),所以詞語(yǔ)“be”未被加亮。如項(xiàng)462所示,由于不同的排序,行號(hào)也變?yōu)椤?3”。
應(yīng)該注意,計(jì)算語(yǔ)言學(xué)家或其他用戶如果感到源語(yǔ)言元素或術(shù)語(yǔ)候選項(xiàng)在提取處理期間被錯(cuò)誤地識(shí)別或者進(jìn)行不同的分類(lèi)更好,則他們可以在這里推翻任何語(yǔ)言學(xué)細(xì)節(jié)。這種推翻例如可包括改變?cè)~性或從功能詞列表中去除源語(yǔ)言元素。
圖14示出了一些術(shù)語(yǔ)候選項(xiàng)的截屏圖,該截屏圖具有項(xiàng)520所示用于顯示這些術(shù)語(yǔ)候選項(xiàng)的譯文的第二窗口。當(dāng)在用戶設(shè)置中選擇了要顯示譯文的選項(xiàng)時(shí)產(chǎn)生該顯示模式。用戶能夠編輯任何譯得術(shù)語(yǔ)并提供其自己的譯文(如項(xiàng)540所示)或者對(duì)任何術(shù)語(yǔ)候選項(xiàng)添加注釋(如項(xiàng)524所示)。
通過(guò)利用編輯菜單或在術(shù)語(yǔ)候選項(xiàng)上右擊鼠標(biāo),用戶可以對(duì)術(shù)語(yǔ)候選項(xiàng)進(jìn)行確認(rèn)以顯示已對(duì)其進(jìn)行了檢查。對(duì)于圖14的截屏圖中的第一個(gè)術(shù)語(yǔ)候選項(xiàng),提供了譯文,并且該術(shù)語(yǔ)候選項(xiàng)已被確認(rèn),這是通過(guò)改變行號(hào)周?chē)念伾?如項(xiàng)542所示)來(lái)表示的。
通過(guò)右擊或利用編輯菜單可以從術(shù)語(yǔ)候選項(xiàng)列表中去除不良術(shù)語(yǔ)候選項(xiàng)或噪聲。圖15示出了如項(xiàng)550和552所示的去除不良術(shù)語(yǔ)候選項(xiàng)“ROSE WEDNESDAY”的這種示例。
一旦用戶認(rèn)為已充分形成術(shù)語(yǔ)候選項(xiàng)列表和/或?qū)?yīng)的譯文,則用戶可以選擇導(dǎo)出成多個(gè)文件格式。存在以下的選項(xiàng)僅導(dǎo)出術(shù)語(yǔ)候選項(xiàng)、僅導(dǎo)出源語(yǔ)言元素、或?qū)С鲈凑Z(yǔ)言元素和術(shù)語(yǔ)候選項(xiàng)兩者;以及僅導(dǎo)出已確認(rèn)術(shù)語(yǔ)、僅導(dǎo)出術(shù)語(yǔ)候選項(xiàng)、或?qū)С鲆汛_認(rèn)術(shù)語(yǔ)和術(shù)語(yǔ)候選項(xiàng)兩者。還存在以下的選項(xiàng)返回指定數(shù)量的最高等級(jí)匹配、返回指定數(shù)量的最高頻率匹配、或者不限于最佳匹配。
以上實(shí)施例應(yīng)被理解為本發(fā)明的說(shuō)明性示例。不應(yīng)將在短語(yǔ)解析階段章節(jié)中列出的六個(gè)解析規(guī)則當(dāng)作僅有的可能的解析規(guī)則。本發(fā)明被設(shè)計(jì)為可擴(kuò)展的從而可以通過(guò)利用例如由計(jì)算語(yǔ)言學(xué)家或翻譯者所創(chuàng)建的不同的語(yǔ)言結(jié)構(gòu)的附加解析規(guī)則來(lái)補(bǔ)充這些解析規(guī)則,并且不需要重新編譯軟件。
以上描述覆蓋了以英語(yǔ)作為源語(yǔ)言的本發(fā)明,從而解析規(guī)則及相關(guān)語(yǔ)法討論都是針對(duì)英語(yǔ)進(jìn)行的。明顯的是,本發(fā)明也適用于其他自然語(yǔ)言,但是這里無(wú)法覆蓋各種其他語(yǔ)言的細(xì)節(jié)。對(duì)于這些其他自然語(yǔ)言,存在沒(méi)有在此討論的不同的對(duì)應(yīng)解析規(guī)則集合以及語(yǔ)法法則。在其他語(yǔ)言中還存在找到詞語(yǔ)根形式的不同方法(例如,在西班牙語(yǔ)中存在時(shí)態(tài),諸如與英語(yǔ)沒(méi)有真正等價(jià)物的虛擬語(yǔ)氣),但是其也被用于英語(yǔ)以外的語(yǔ)言的本發(fā)明所覆蓋。本發(fā)明還覆蓋將德語(yǔ)復(fù)合詞語(yǔ)拆分為個(gè)體詞語(yǔ),但是這在前面的討論中沒(méi)有討論。對(duì)于本發(fā)明所覆蓋的許多其他語(yǔ)言存在其他的這種修改。
在前面的描述中提及的詞性是主要的英語(yǔ)詞性,諸如名詞、動(dòng)詞等。這些詞性可以被進(jìn)一步細(xì)分為諸如動(dòng)名詞、助動(dòng)詞、情態(tài)動(dòng)詞、冠詞等的部分。除了針對(duì)英語(yǔ)包括這些之外,本發(fā)明的范圍還包括來(lái)自英語(yǔ)之外的自然語(yǔ)言的這些部分以及任何數(shù)量的等價(jià)和額外部分。
可以設(shè)想本發(fā)明的其他實(shí)施例。僅關(guān)于單一語(yǔ)言術(shù)語(yǔ)候選項(xiàng)提取描述了本發(fā)明。另一實(shí)施例涉及將本發(fā)明應(yīng)用于雙語(yǔ)對(duì)照文本,由此針對(duì)各個(gè)自然語(yǔ)言的文本執(zhí)行術(shù)語(yǔ)候選項(xiàng)提取處理。這可以用于自動(dòng)產(chǎn)生詞匯表或字典,然后可以在對(duì)其他文本的翻譯中使用該詞匯表或字典。
當(dāng)對(duì)雙語(yǔ)對(duì)照文本進(jìn)行處理時(shí),在術(shù)語(yǔ)候選項(xiàng)解析階段和導(dǎo)出階段之間使用所提取術(shù)語(yǔ)候選項(xiàng)的譯文還有同義詞以及這些同義詞的譯文,因?yàn)檫@可以幫助處理所涉及的兩個(gè)或更多個(gè)自然語(yǔ)言之間的不同的詞語(yǔ)排序或者其他結(jié)構(gòu)和/或語(yǔ)法差異。這還有助于從一種自然語(yǔ)言的文本中提取的詞語(yǔ)和術(shù)語(yǔ)候選項(xiàng)與從另一自然語(yǔ)言的文本中提取的詞語(yǔ)和術(shù)語(yǔ)候選項(xiàng)的匹配。這里,本發(fā)明利用句子以及所提取的術(shù)語(yǔ)候選項(xiàng)自身的對(duì)照。
本發(fā)明的以上描述通過(guò)利用在單個(gè)工作站計(jì)算機(jī)上運(yùn)行的軟件應(yīng)用而示出了其一些功能。應(yīng)該將其僅當(dāng)作可在其上實(shí)現(xiàn)本發(fā)明的平臺(tái)的示例,并且其也可在其他合適的平臺(tái)上對(duì)于用戶遠(yuǎn)程或本地地運(yùn)行。
應(yīng)該理解,關(guān)于任何一個(gè)實(shí)施例所描述的任何特征可以單獨(dú)使用或者與所描述的其他特征組合使用,并且還可與任何其他實(shí)施例或任何其他實(shí)施例的任何組合中的一個(gè)或更多個(gè)特征組合使用。此外,在不脫離在所附權(quán)利要求書(shū)中限定的本發(fā)明的范圍的情況下,還可采用上面沒(méi)有描述的等同物和修改。
權(quán)利要求
1.一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟a)選擇第一自然語(yǔ)言的源材料的至少一部分;b)從所述部分中選擇第一源語(yǔ)言元素;c)從所述部分中選擇不同的第二源語(yǔ)言元素;d)將至少第一條語(yǔ)言學(xué)信息附于所述第一源語(yǔ)言元素;e)將至少第二條語(yǔ)言學(xué)信息附于所述第二源語(yǔ)言元素;f)將所述第一條語(yǔ)言學(xué)信息和第二條語(yǔ)言學(xué)信息與至少第一解析規(guī)則進(jìn)行匹配;g)響應(yīng)于所述匹配,形成所述第一源語(yǔ)言元素和第二源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第一術(shù)語(yǔ)候選項(xiàng);以及h)在將所述第一自然語(yǔ)言的所述源材料完全翻譯成至少第二自然語(yǔ)言之前,以適于人類(lèi)檢查者進(jìn)行檢查的形式輸出所述第一術(shù)語(yǔ)候選項(xiàng)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述第一條語(yǔ)言學(xué)信息是詞性信息。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述第二條語(yǔ)言學(xué)信息是詞性信息。
4.根據(jù)權(quán)利要求2或3所述的方法,其中,所述第一條語(yǔ)言學(xué)信息和/或所述第二條語(yǔ)言學(xué)信息指示對(duì)應(yīng)的源語(yǔ)言元素是以下中的一個(gè)或更多個(gè)動(dòng)詞、名詞、形容詞、副詞、連詞、限定詞、感嘆詞、代詞、介詞或量詞。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述第一條語(yǔ)言學(xué)信息指示動(dòng)詞詞性,所述第二條語(yǔ)言學(xué)信息指示介詞詞性,并且所述第一解析規(guī)則要求在所述部分中所述第一源語(yǔ)言元素之后要跟著所述第二源語(yǔ)言元素。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述第一條語(yǔ)言學(xué)信息指示基形式的形容詞詞性,所述第二條語(yǔ)言學(xué)信息指示單數(shù)名詞詞性,并且所述第一解析規(guī)則要求在所述部分中所述第一源語(yǔ)言元素之后要跟著所述第二源語(yǔ)言元素。
7.根據(jù)權(quán)利要求4所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟i)從所述部分中選擇一個(gè)或更多個(gè)另外的源語(yǔ)言元素;以及j)將一條或更多條另外的語(yǔ)言學(xué)信息附于所述另外的源語(yǔ)言元素,其中,所述第一條語(yǔ)言學(xué)信息以及一條或更多條另外的語(yǔ)言學(xué)信息指示單數(shù)名詞詞性,所述第二條語(yǔ)言學(xué)信息指示名詞詞性,并且所述第一解析規(guī)則要求在所述部分中,所述第一源語(yǔ)言元素之后要跟著所述一個(gè)或更多個(gè)另外的源語(yǔ)言元素,其后繼而要跟著所述第二源語(yǔ)言元素。
8.根據(jù)權(quán)利要求4所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟i)從所述部分中選擇不同的第三和第四源語(yǔ)言元素;以及j)將至少第三和第四條語(yǔ)言學(xué)信息分別附于所述第三和第四源語(yǔ)言元素,其中,所述第一、第三和第四條語(yǔ)言學(xué)信息指示名詞詞性,所述第二條語(yǔ)言學(xué)信息指示介詞詞性,并且所述第一解析規(guī)則要求在所述部分中所述第一、第二、第三和第四源語(yǔ)言元素順序跟隨。
9.根據(jù)權(quán)利要求8所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟k)從所述部分中選擇一個(gè)或更多個(gè)另外的源語(yǔ)言元素;以及l(fā))將一條或更多條另外的語(yǔ)言學(xué)信息附于所述一個(gè)或更多個(gè)另外的源語(yǔ)言元素,其中,所述一條或更多條另外的語(yǔ)言學(xué)信息指示形容詞詞性,并且所述第一解析規(guī)則要求在所述部分中所述第一源語(yǔ)言元素、第二源語(yǔ)言元素、一個(gè)或更多個(gè)另外的源語(yǔ)言元素、第三源語(yǔ)言元素和第四源語(yǔ)言元素順序跟隨。
10.根據(jù)任一前述權(quán)利要求所述的方法,其中,一個(gè)或更多個(gè)所述源語(yǔ)言元素是單個(gè)的詞語(yǔ)。
11.根據(jù)任一前述權(quán)利要求所述的方法,其中,一個(gè)或更多個(gè)所述源語(yǔ)言元素是至少兩個(gè)詞語(yǔ)的鏈。
12.根據(jù)任一前述權(quán)利要求所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟對(duì)各個(gè)源語(yǔ)言元素的出現(xiàn)頻率進(jìn)行計(jì)數(shù)。
13.根據(jù)任一前述權(quán)利要求所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟對(duì)各個(gè)術(shù)語(yǔ)候選項(xiàng)的出現(xiàn)頻率進(jìn)行計(jì)數(shù)。
14.根據(jù)任一前述權(quán)利要求所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟對(duì)所述源語(yǔ)言元素進(jìn)行過(guò)濾以去除在先前確定的阻擋列表中包含的至少一個(gè)源語(yǔ)言元素或術(shù)語(yǔ)候選項(xiàng)。
15.根據(jù)任一前述權(quán)利要求所述的方法,其中,將根據(jù)至少所述第一解析規(guī)則輸出的所述第一術(shù)語(yǔ)候選項(xiàng)用作至少第二解析規(guī)則的第一或第二源語(yǔ)言元素的輸入。
16.根據(jù)任一前述權(quán)利要求所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟通過(guò)將所述第一術(shù)語(yǔ)候選項(xiàng)轉(zhuǎn)換為不同的第二自然語(yǔ)言的對(duì)應(yīng)的第一譯得術(shù)語(yǔ),創(chuàng)建至少一個(gè)術(shù)語(yǔ)候選項(xiàng)/譯得術(shù)語(yǔ)的對(duì)。
17.根據(jù)任一前述權(quán)利要求所述的方法,其中,所述轉(zhuǎn)換涉及由用戶進(jìn)行確認(rèn)。
18.一種計(jì)算機(jī)軟件,其被設(shè)計(jì)為執(zhí)行根據(jù)任一前述權(quán)利要求的步驟。
19.一種計(jì)算機(jī)輔助的自然語(yǔ)言翻譯裝置,該裝置包括信息存儲(chǔ)系統(tǒng),其適于存儲(chǔ)數(shù)字內(nèi)容,所述內(nèi)容包括第一自然語(yǔ)言的源材料、多條語(yǔ)言學(xué)信息及其與源語(yǔ)言元素的關(guān)聯(lián)、多個(gè)解析規(guī)則、多個(gè)術(shù)語(yǔ)候選項(xiàng)、已確認(rèn)術(shù)語(yǔ)的集合、以及譯得術(shù)語(yǔ)的集合;信息處理系統(tǒng),其適于提供用于確定源語(yǔ)言元素的實(shí)例、執(zhí)行解析規(guī)則和將多條語(yǔ)言學(xué)信息附于源語(yǔ)言元素的處理的裝置;數(shù)據(jù)輸入系統(tǒng),其適于提供用于輸入與所述內(nèi)容相關(guān)的選擇數(shù)據(jù)的裝置,其中所述選擇數(shù)據(jù)包括指示術(shù)語(yǔ)候選項(xiàng)的確認(rèn)的數(shù)據(jù);和可視顯示系統(tǒng),其適于呈現(xiàn)來(lái)自所述信息存儲(chǔ)系統(tǒng)的信息,所述呈現(xiàn)信息包括所述源材料形式的數(shù)據(jù)、所述源語(yǔ)言元素、所述多個(gè)術(shù)語(yǔ)候選項(xiàng)、所述已確認(rèn)術(shù)語(yǔ)的集合、以及所述譯得術(shù)語(yǔ)的集合。
20.一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟a)選擇第一自然語(yǔ)言的源材料的至少一部分;b)從所述部分中選擇第一源語(yǔ)言元素;c)從所述部分中選擇不同的第二源語(yǔ)言元素;d)將所述第一源語(yǔ)言元素和第二源語(yǔ)言元素與至少第一解析規(guī)則進(jìn)行匹配,所述第一解析規(guī)則要求所述第一和/或第二源語(yǔ)言元素具有預(yù)定特征;e)響應(yīng)于所述匹配,形成所述第一源語(yǔ)言元素和第二源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第一術(shù)語(yǔ)候選項(xiàng);以及f)在將所述第一自然語(yǔ)言的所述源材料完全翻譯成至少第二自然語(yǔ)言之前,以適于人類(lèi)檢查者進(jìn)行檢查的形式輸出所述第一術(shù)語(yǔ)候選項(xiàng)。
21.根據(jù)權(quán)利要求20所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟f)從所述部分中選擇不同的第三源語(yǔ)言元素;g)將所述第三源語(yǔ)言元素與至少所述第一解析規(guī)則進(jìn)行匹配,所述第一解析規(guī)則要求所述第一和/或第二和/或第三源語(yǔ)言元素具有預(yù)定特征;h)響應(yīng)于所述匹配,形成所述第一、第二和第三源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第二術(shù)語(yǔ)候選項(xiàng);以及i)在將所述第一自然語(yǔ)言的所述源材料完全翻譯成至少第二自然語(yǔ)言之前,以適于人類(lèi)檢查者進(jìn)行檢查的形式輸出所述第二術(shù)語(yǔ)候選項(xiàng)。
22.根據(jù)權(quán)利要求20或21所述的方法,其中,所述預(yù)定特征是大寫(xiě)。
23.根據(jù)權(quán)利要求20至22中任一項(xiàng)所述的方法,其中所述預(yù)定特征是連字符。
24.一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)輔助方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟a)在第一自然語(yǔ)言的源材料的至少一部分中識(shí)別術(shù)語(yǔ)候選項(xiàng)的集合;b)通過(guò)用戶界面將所述術(shù)語(yǔ)候選項(xiàng)的集合呈現(xiàn)給用戶;以及c)從所述用戶接收選擇數(shù)據(jù),所述選擇數(shù)據(jù)用來(lái)創(chuàng)建所述術(shù)語(yǔ)候選項(xiàng)的子集,以產(chǎn)生已確認(rèn)術(shù)語(yǔ)的集合。
25.根據(jù)權(quán)利要求24所述的方法,其中,所述識(shí)別包括以下步驟存儲(chǔ)要被阻擋而不進(jìn)行所述呈現(xiàn)的術(shù)語(yǔ)候選項(xiàng)的列表;針對(duì)所述被阻擋的術(shù)語(yǔ)候選項(xiàng)的列表,檢查所述識(shí)別出的術(shù)語(yǔ)候選項(xiàng);以及阻擋至少一個(gè)識(shí)別出的術(shù)語(yǔ)候選項(xiàng)使其不被進(jìn)行所述呈現(xiàn)。
26.根據(jù)權(quán)利要求25所述的方法,該方法還包括從所述用戶接收另外的選擇數(shù)據(jù)的步驟,所述另外的選擇數(shù)據(jù)用來(lái)將至少一個(gè)術(shù)語(yǔ)候選項(xiàng)添加到所述阻擋列表。
27.根據(jù)權(quán)利要求24至26中任一項(xiàng)所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟最初,根據(jù)對(duì)先前識(shí)別的術(shù)語(yǔ)候選項(xiàng)的歷史分析,確定一個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng)的等級(jí)。
28.根據(jù)權(quán)利要求24至27中任一項(xiàng)所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟隨后,根據(jù)一個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng)在所述源文本中的出現(xiàn)頻率來(lái)更新所述一個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng)的等級(jí)。
29.根據(jù)權(quán)利要求24至28中任一項(xiàng)所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟按照取決于兩個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng)的等級(jí)的順序呈現(xiàn)所述兩個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng)。
30.根據(jù)權(quán)利要求24至29中任一項(xiàng)所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟將所述已確認(rèn)術(shù)語(yǔ)導(dǎo)出到數(shù)據(jù)庫(kù)中以供將來(lái)翻譯時(shí)使用。
31.一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟a)載入第一自然語(yǔ)言的源材料的至少一部分;b)選擇第一解析規(guī)則;c)使用所述第一解析規(guī)則來(lái)識(shí)別所述部分中的一個(gè)或更多個(gè)術(shù)語(yǔ)候選項(xiàng);d)輸出所述一個(gè)或更多個(gè)識(shí)別出的術(shù)語(yǔ)候選項(xiàng);e)選擇第二解析規(guī)則;f)使用所述第二解析規(guī)則來(lái)識(shí)別所述部分中的一個(gè)或更多個(gè)另外的術(shù)語(yǔ)候選項(xiàng);以及g)輸出所述一個(gè)或更多個(gè)另外的識(shí)別出的術(shù)語(yǔ)候選項(xiàng)。
32.根據(jù)權(quán)利要求31所述的方法,該方法還包括在軟件進(jìn)程中執(zhí)行以下步驟載入一個(gè)或更多個(gè)另外的解析規(guī)則,并將以上的選擇、使用和輸出步驟連續(xù)重復(fù)一次或更多次,以產(chǎn)生一個(gè)或更多個(gè)其他的術(shù)語(yǔ)候選項(xiàng)。
33.根據(jù)權(quán)利要求31或32所述的方法,其中,將一個(gè)或更多個(gè)輸出的術(shù)語(yǔ)候選項(xiàng)用作對(duì)一個(gè)或更多個(gè)解析規(guī)則的一個(gè)或更多個(gè)輸入。
34.根據(jù)權(quán)利要求31至33中任一項(xiàng)所述的方法,其中,所述解析規(guī)則被存儲(chǔ)為可擴(kuò)展解析規(guī)則的集合。
35.一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括在軟件進(jìn)程中執(zhí)行以下步驟a)選擇第一自然語(yǔ)言的源材料的至少一部分;b)從所述部分中選擇第一源語(yǔ)言元素;c)從所述部分中選擇不同的第二源語(yǔ)言元素;d)將至少第一條語(yǔ)言學(xué)信息附于所述第一源語(yǔ)言元素;e)將至少第二條語(yǔ)言學(xué)信息附于所述第二源語(yǔ)言元素;f)對(duì)所述第一條和第二條語(yǔ)言學(xué)信息進(jìn)行分析以確定所述第一和第二源語(yǔ)言元素是否可能成為術(shù)語(yǔ)項(xiàng);以及g)如果可能,則形成所述第一和第二源語(yǔ)言元素之間的關(guān)聯(lián),以創(chuàng)建第一術(shù)語(yǔ)候選項(xiàng)。
全文摘要
本發(fā)明提供了用于翻譯系統(tǒng)的計(jì)算機(jī)實(shí)現(xiàn)的方法。一種用于自然語(yǔ)言翻譯的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括將多條語(yǔ)言學(xué)信息附于第一自然語(yǔ)言的源材料中的兩個(gè)或更多個(gè)源語(yǔ)言元素。該多條語(yǔ)言學(xué)信息與一個(gè)或更多個(gè)預(yù)定解析規(guī)則匹配。然后形成該兩個(gè)或更多個(gè)源語(yǔ)言元素之間的關(guān)聯(lián),以形成術(shù)語(yǔ)候選項(xiàng),然后將其呈現(xiàn)給人類(lèi)檢查者。隨后由用戶對(duì)術(shù)語(yǔ)候選項(xiàng)進(jìn)行確認(rèn),從而使其成為已確認(rèn)術(shù)語(yǔ),然后將其翻譯成不同的第二自然語(yǔ)言,從而使其變成譯得術(shù)語(yǔ)。然后可將譯得術(shù)語(yǔ)載入機(jī)器翻譯字典,可以在隨后的機(jī)器輔助翻譯期間使用該字典。
文檔編號(hào)G06F17/28GK101019113SQ200580027102
公開(kāi)日2007年8月15日 申請(qǐng)日期2005年8月11日 優(yōu)先權(quán)日2004年8月11日
發(fā)明者馬克·蘭開(kāi)斯特, 詹姆斯·馬爾恰諾, 基思·米爾斯 申請(qǐng)人:Sdl有限公司