專利名稱:譯文檢查裝置及譯文檢查方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對經(jīng)過翻譯所獲得的譯文進行檢查的譯文檢查裝置及譯文檢查方法。 本發(fā)明尤其涉及對通過將一種語言的文獻人工翻譯為另一種語言的文獻所譯得的譯文中存在的誤譯、漏譯及冗余等錯誤進行檢查的裝置。
背景技術(shù):
當(dāng)前的翻譯方式可分為人工翻譯和機器翻譯兩種。機器翻譯具有速度快、成本低及不易遺漏等特點,但是,由于語言具有表述靈活、結(jié)果復(fù)雜和語境豐富等特性,對同一句子,可能存在多種不同的理解,要求翻譯時根據(jù)上下文的含義才能確定,因此,機器翻譯極易出現(xiàn)不通順和錯譯等嚴重錯誤,通常只限于對譯文質(zhì)量不作要求的非正式場合。相比之下,人工翻譯能夠最大程度地精確表達原文含義,從而達到翻譯所要求的“信、達、雅”。通常,針對論文、書籍以及專利等大量文獻,往往要求準確無誤地翻譯,因此均采用人工翻譯方式。人工翻譯作業(yè)包括翻譯步驟和校對步驟。具體而言,先由翻譯者對原文進行人工翻譯,再由校對者對譯得的譯文進行人工校對。由于,在翻譯的過程中,人的注意力不可能總是保持集中,疏忽在所難免,因此人工翻譯的譯文中經(jīng)常會出現(xiàn)漏譯、文字書寫或輸入錯誤等錯誤,這導(dǎo)致校對者的工作量大,往往要求一個或一個以上的校對者進行人工校對。例如,針對法律相關(guān)文獻(例如,專利申請文件)等,翻譯過程中的漏譯或錯別字等一些小的疏忽可能導(dǎo)致嚴重錯誤。甚至?xí)?dǎo)致整個專利得不到保護,從而給專利申請人以及專利代理事務(wù)所帶來巨大的經(jīng)濟損失。在實踐中,專利代理事務(wù)所往往需要安排多個崗位對譯文進行校對,對專利文獻的校對實際上已成為專利事務(wù)所的主要的運營成本之一。因此,降低對專利文獻翻譯過程中的校對工作量,對降低專利事務(wù)所的運營成本、提高專利事務(wù)所的辦案效率至關(guān)重要。類似地,針對例如官方文獻、協(xié)議書、商業(yè)文獻、論文和書籍等文獻的翻譯,同樣存在上述問題。然而,當(dāng)前的人工翻譯中,針對經(jīng)過翻譯步驟所獲得的譯文的校對作業(yè)由人工完成,這導(dǎo)致校對的工作量巨大,且?guī)缀蹼y于檢查出譯文中的遺漏、冗余和拼寫錯誤等由于翻譯者的疏忽所帶來的翻譯錯誤。綜上可知,機器翻譯容易出現(xiàn)邏輯錯誤、語句不通暢及譯文不優(yōu)美等缺點,而人工翻譯容易出現(xiàn)漏譯、打字錯誤或書寫錯誤等??梢姡斯しg和機器翻譯均存在明顯不足。 如何使人工翻譯和機器翻譯彼此互補,是一個重要的技術(shù)問題。在現(xiàn)有技術(shù)中,存在一些旨在一些翻譯設(shè)備,也采用人工譯得的譯文對由機器譯得的譯文進行評價、以評估機器譯文質(zhì)量的評價設(shè)備,還存在對譯文稿件中的內(nèi)容進行人工抽樣檢查、以評估翻譯質(zhì)量的設(shè)備。但是,這些現(xiàn)有設(shè)備均不能解決上述技術(shù)問題,它們不能將機器翻譯不易出現(xiàn)書寫錯誤、遺漏和冗余等錯誤以及人工翻譯能夠使譯文更順暢、 含義更正確的優(yōu)點相結(jié)合,不能減少對人工譯文進行校對的人力成本,也無法提高對人工譯文質(zhì)量。發(fā)明 內(nèi)容本發(fā)明所要解決的技術(shù)問題是需要提供一種譯文檢查裝置及其方法,以解決現(xiàn)有技術(shù)中難以檢查出譯文中由于翻譯者的疏忽所帶來的翻譯錯誤的技術(shù)問題。根據(jù)本發(fā)明的一方面,提供一種譯文檢查裝置。該譯文檢查裝置包括接收單元, 其接收一個或多個文檔;解析單元,其從所述一個或多個文檔中提取以第一語言記載的第一檢查字串及以第二語言記載的第二檢查字串,并將所述第一檢查字串分解為至少一個檢查元素,其中,所述第二檢查字串是對所述第一檢查字串進行翻譯所得的譯文,或者所述第一檢查字串是對所述第二檢查字串進行翻譯所得的譯文;譯文獲取單元,其獲取每個所述檢查元素的以所述第二語言表示的至少一個譯文;檢查單元,針對所述至少一個檢查元素中的每一個進行檢查,以在所述第二檢查字串中搜索所述檢查元素的以所述第二語言表示的譯文之一,并根據(jù)搜索結(jié)果獲得檢查結(jié)果;提示單元,其提示所述檢查結(jié)果。根據(jù)本發(fā)明的又一方面,提供一種譯文檢查方法。該譯文檢查方法進行如下步驟 接收一個或多個文檔;從所述一個或多個文檔中提取以第一語言記載的第一檢查字串及以第二語言記載的第二檢查字串,并將所述第一檢查字串分解為至少一個檢查元素,其中,所述第二檢查字串是對所述第一檢查字串進行翻譯所得的譯文,或者所述第一檢查字串是對所述第二檢查字串進行翻譯所得的譯文;獲取每個所述檢查元素的以所述第二語言表示的至少一個譯文;針對所述至少一個檢查元素中的每一個進行檢查,以在所述第二檢查字串中搜索所包括的所述檢查元素的以所述第二語言表示的譯文之一,并根據(jù)搜索結(jié)果獲得檢查結(jié)果;提示所述檢查結(jié)果。本發(fā)明的技術(shù)方案提供了能夠降低翻譯成本以及提高譯文質(zhì)量的譯文檢查裝置。另外,本發(fā)明的一個實施例可以較精確地檢查漏譯、冗余、書寫或輸入錯誤等譯文中存在的錯誤。通過下面參考附圖對示例性實施例的說明,本發(fā)明的其他特征將變得清楚。
圖1是示出作為根據(jù)本發(fā)明的譯文檢查裝置的例子的譯文檢查裝置100的結(jié)構(gòu)框圖;圖2是示出本發(fā)明第一實施例的譯文檢查裝置100的解析單元102的解析處理的流程圖;圖3是示出本發(fā)明第一實施例的譯文檢查裝置100的譯文獲取單元103的譯文獲取處理的流程圖;圖4是示出本發(fā)明第一實施例的譯文檢查裝置100的檢查單元104的譯文檢查處理的流程圖;圖5是示出本發(fā)明第二實施例的譯文檢查裝置100的檢查單元104的譯文檢查處理的流程圖。
具體實施例方式現(xiàn)在將根據(jù)附圖詳細說明本發(fā)明的優(yōu)選實施例。第一實施例
圖1是示出作為根據(jù)本發(fā)明的譯文檢查裝置的例子的譯文檢查裝置100的結(jié)構(gòu)框圖。根據(jù)本實施例的譯文檢查裝置可以但并不限通過程序軟件與計算機硬件設(shè)備相結(jié)合的方式實現(xiàn)。例如,還可以通過將代碼嵌入至帶有中央處理器和存儲器的處理設(shè)備相結(jié)合的方式來實現(xiàn)。本實施例假定第一文檔(原文)是以英文編寫,第二文檔(譯文)以中文編寫,但這僅是一個例子,本發(fā)明的原文和譯文所采用的語言可以為任何兩種不同的語言。附圖標(biāo)記101表示接收單元;102表示解析單元;103表示譯文獲取單元;104表示檢查單元,105表示提示單元。接收單元101接收一個或多個文檔,例如分別接收用戶輸入的英文原文文檔和待檢查的中文譯文文檔,其中,該英文原文文檔為以第一語言記載的第一文檔,該中文譯文文檔為以第二語言記載的第二文檔。文檔可以為電子文檔,包括各種不同格式的電子文檔,例如文本文檔或圖形文檔。注意,接收單元101也可以借助掃描儀等設(shè)備接收英文原文文檔或者待檢查的中文譯文文檔,只要能夠獲得文檔中的文字符號即可。參考附圖2,解析單元102從英文原文文檔和中文譯文文檔中分別提取相對應(yīng)句子,分別作為第一檢查字串和第二檢查字串(步驟S201和步驟S202)。解析單元102可以將例如“.”、“?” ‘、“... ”和“.””等標(biāo)點符號作為判斷英文句子分界的分割符,即第一分
割符,將例如“?!?、“ !”、“......”、“ ?,,等標(biāo)點符號,作為判斷中文句子分界的分割符,即,
第二分割符。提取兩個相鄰的第一分割符之間的一串內(nèi)容作為第一檢查字串,相對應(yīng)地,提取與第一檢查字串相對應(yīng)的兩個相鄰的第二分割符之間的一串內(nèi)容,即第一檢查字串的中文譯文,作為第二檢查字串。注意,解析單元102還可以從英文原文文檔和中文譯文文檔中分別提取相對應(yīng)的段落作為第一檢查字串和第二檢查字串??梢詫⒗纭盎剀嚒被颉盎剀嚀Q行”等標(biāo)點符號作為段落的分割符,還可以根據(jù)例如一行文字未填滿一整行且下一行具有頂格或縮進兩格等以圖形表示的特征,來判斷段落與段落的分界。然后,解析單元102將第一檢查字串分解為至少一個檢查元素(步驟S203)。具體地,在本實施例中,解析單元102將第一檢查字串分解為例如單詞、標(biāo)點符號、段落分割符和詞組等檢查元素。在本實施例中,原文所采用的語言是英文,解析單元102可以以句子中的“空格” 和“,”等符號作為第一子分割符,將第一檢查字串分解為各個不同的單詞,每個單詞作為一個檢查元素。例如,對于英文句子“This is a printer apparatus. ”,分解出的檢查元素可包括 “This ”、“ is ”、“a”、“printer”、“printerapparatus ”、“apparatus ” 和 “ · ”。注意,由于“printer apparatus”將通常作為一個詞組出現(xiàn),因此譯文檢查裝置 100的解析單元可在將第一檢查字串分解為單個單詞的基礎(chǔ)上,進一步將多個相鄰的單詞的組合確定為除單個單詞組成的檢查元素以外的又一檢查元素。例如,可參考詞典、用戶輸入值等來確定相鄰的多個單詞是否構(gòu)成詞組,如果是,則將該相鄰的多個單詞確定作為又一檢查元素。這樣,既可將“printer apparatus”可分解為““printer”和“apparatus”,也 ^ Μ ^Μ^) "printer apparatus'',,然后,解析單元102判斷是否完成了對整個文檔的解析處理(步驟S204),如果判斷結(jié)果為“是”,則結(jié)束解析處理,否則,返回步驟S201。注意,還可以在本發(fā)明的譯文檢查裝置100的解析單元102對一個第一檢查字串進行解析之后,由譯文檢查裝置100的譯文獲取單元和檢查單元104對該經(jīng)過解析的第一檢查字串進行后續(xù)的譯文獲取處理和檢查處理。
譯文獲取單元103進行譯文獲取處理,獲取解析單元102所分解出的檢查元素的目標(biāo)譯文,在本實例中,目標(biāo)譯文為中文。首先,獲得由解析單元102分解出的檢查元素(步驟S301)。例如,針對第一檢查字串“This is a printer apparatus. ”,輸入上面分解出 “This,,、“is,,、“a,,、“printer,,、“printer apparatus”、“apparatus”和“· ”等檢查元素。然后,執(zhí)行譯文獲取單元103所進行的譯文獲取處理。在譯文獲取處理中,譯文獲取單元103 接收由解析單元102分解出的各個檢查元素,針對由解析單元102分解出的每個檢查元素, 獲取它們各自的至少一個譯文(步驟S302)。優(yōu)選地,優(yōu)先獲取由用戶自定義的譯文。此夕卜,可以獲取檢查元素的盡量多的譯文,例如,對于“apparatus”,可獲取“設(shè)備”、“儀器”、 “裝置”和“儀”等多個譯文。譯文的獲取方式不限,只要能夠獲取譯文即可。例如,可以由用戶預(yù)先輸入譯文,也可以通過查詢本地或異地數(shù)據(jù)庫或者在線資源等方式獲取譯文。注意,還可以預(yù)先設(shè)定譯文和原文相同的非譯檢查元素,非譯檢查元素指譯文和原文相同的檢查元素。針對預(yù)定的非譯檢查元素,譯文獲取單元103可直接將該非譯檢查元素的原文本身直接作為該檢查元素的譯文,而不通過其它方式獲取其譯文。例如,可將專利文獻中的附圖標(biāo)記等設(shè)定為非譯檢查元素。此外,還可以設(shè)定非譯檢查元素的判斷規(guī)則, 當(dāng)符合一定的規(guī)則時,判斷為該檢查元素為非譯檢查元素。例如,針對以英文為原文的檢查元素,可以包括數(shù)字的檢查元素或者由數(shù)字組成的檢查元素很可能均不需要被翻譯,例如 “300”、“S300”或“Tl”等在專利文獻中一般為附圖標(biāo)記,均不需要被譯,因此可將它們確定為非譯檢查元素。此外,還可以預(yù)先設(shè)定不需要在譯文中譯出的檢查元素,將不需要在譯文中譯出 (即,無需在譯文中體現(xiàn)其含義)的檢查元素稱為不譯檢查元素。在本實施例中,可將英文原文中的例如“,”、空格、制表符等,設(shè)定為不譯檢查元素。針對不譯檢查元素,譯文獲取單元103不獲取其譯文。然后,在步驟S303中,判斷是否已經(jīng)對所有待檢查的檢查元素進行了譯文獲取, 如果判斷為是,則結(jié)束譯文獲取處理,否則,返回步驟S301。在由譯文獲取單元103獲取檢查元素的譯文后,由檢查單元104進行檢查處理。 針對經(jīng)過解析單元102解析的第一檢查字串,將從其分解出的檢查元素輸入至檢查單元 104 (步驟S401),以及將由所述譯文獲取單元103獲取的該檢查元素的譯文之一也輸入至檢查單元104 (步驟S402)。注意,不譯檢查元素不輸入至檢查單元104,亦即,對于不獲取其譯文的檢查元素,不輸入至檢查單元104。然后,檢查單元104在對應(yīng)的譯文中搜索所輸入的譯文(步驟S403),如果搜索到了所輸入的譯文,則獲得關(guān)于不存在翻譯錯誤的檢查結(jié)果,否則進入步驟S404。在步驟 S404中,檢查單元104判斷是否檢查了譯文獲取單元針對該檢查元素所獲取的所有譯文, 如果是,則獲得關(guān)于可能存在譯文錯誤的檢查結(jié)果(步驟S405),否則,返回步驟S402,繼續(xù)檢查該檢查元素的其它譯文。在步驟S405之后,進入步驟S406。檢查單元104在步驟S406判斷是否檢查了從第一檢查字串分解出的所有檢查元素,如果是,則結(jié)束處理,否則返回步驟S401。提示單元105向用戶提示檢查單元104的檢查結(jié)果。例如,可以通過在原文或原文副本中的可能未被翻譯或被譯錯的文字或符號上標(biāo)上錯誤標(biāo)識或備注。也可以譯文或譯文副本中可能冗余翻譯、遺漏譯文或譯錯的文字或符號上標(biāo)記錯誤標(biāo)識或備注?;蛘咭部梢陨捎涊d了譯文的錯誤位置、錯誤原因或錯誤類型等的報告文件,只要能夠清楚地提示用戶出錯/正確情況即可。通過查看提示單元105的提示,用戶可以容易地查對哪些地方存在錯誤并針對提示的位置和內(nèi)容進行修改。值得注意的是,所述第一檢查字串及所述第二檢查字串屬于同一文檔,或者分屬不同文檔。本實施例中第一檢查字串和第二檢查字串分別從所述第一文檔和第二文檔中獲取,也即分屬不同文檔。在其他實施例中,第一檢查字串和第二檢查字串也可以是從同一電子文件或同一書面文件等同一文檔中獲取,也即屬于同一文檔。例如,第一檢查字串和第二檢查字串可以交替地存放在同一電子文件中。更具體地,例如,緊挨在每一第一檢查字串后面或前面放置有一與該第一檢查字串相對應(yīng)的第二檢查字串,或者,緊挨在若干第一檢查字串后面或前面,放置有相應(yīng)數(shù)量的與該若干第一檢查字串相對應(yīng)的若干第二檢查字串, 這樣,(若干)第一檢查字串和(若干)第二檢查字串共同組成一個電子文件。又如,可將第一檢查字串放在電子文件的前部,將第二檢查字串放在電子文件的后部。由此可知,當(dāng)將第一檢查字串和第二檢查字串放置在同一文檔時,二者的位置可以靈活處理,只要能夠識別出第一檢查字串與第二檢查字串之間的對應(yīng)關(guān)系即可此外,還應(yīng)注意,當(dāng)將第一檢查字串和第二檢查字串放置在同一文檔時,接收單元僅接收一個文檔即可。類似地,本領(lǐng)域技術(shù)人員可知還可從一個文檔或多個文檔中提取第一檢查字串或第一檢查字串,只要能夠提取出相互為譯文的第一檢查字串和第二檢查字串即可。第二實施例接著將參考圖5中所示的流程圖說明根據(jù)本發(fā)明第二實施例的譯文檢查裝置。根據(jù)本實施例的譯文檢查裝置的結(jié)構(gòu)可以與第一實施例中所述的譯文檢查裝置的結(jié)構(gòu)相同, 因此,將省略對本實施例的譯文檢查裝置的結(jié)構(gòu)的說明。圖5中與第一實施例中相同的附圖標(biāo)記表示執(zhí)行與第一實施例的檢查處理(圖4)相同的處理的步驟,并將省略對這些相同步驟的說明。下面將僅說明與第一實施例不同的步驟。根據(jù)圖5的步驟S507可知,在第二實施例的檢查處理中,在將第一檢查字串中的檢查元素輸入檢查單元104之后,檢查單元104統(tǒng)計該檢查元素在該第一檢查字串中的出現(xiàn)次數(shù),作為第一出現(xiàn)次數(shù)。注意,也可以在分解出第一檢查字串的所有檢查元素之后,由解析單元統(tǒng)計第一出現(xiàn)次數(shù)。在本實施例中,圖5中的步驟S503也與圖4中的步驟S403不同。在圖4的步驟 S403中,當(dāng)檢查單元104在第二檢查字串中搜索到譯文時,獲得檢查結(jié)果。更具體地,如果搜索到了檢查元素的譯文之一,則獲得關(guān)于不存在翻譯錯誤的檢查結(jié)果,否則,則獲得關(guān)于可能存在翻譯錯誤的結(jié)果。在圖5的步驟S503中,檢查單元統(tǒng)計所輸入的譯文在在第二檢查字串中的譯文個數(shù)(稱為第二出現(xiàn)次數(shù))是否等于0。如果第二出現(xiàn)次數(shù)等于零,則進入與第一實施例相同的步驟S404,在此省略其說明。如果第二出現(xiàn)次數(shù)不等于零,則進入步驟 S505,即獲得檢查結(jié)果。例如,在第二出現(xiàn)次數(shù)大于零且小于第一出現(xiàn)次數(shù)時,可獲得關(guān)于可能存在翻譯錯誤的結(jié)果,而在第二出現(xiàn)次數(shù)大于等于第一出現(xiàn)次數(shù)時,可獲得關(guān)于該第二檢查字串中不存在翻譯錯誤的結(jié)果。
第三實施例上述第一和第二實施例已經(jīng)例示了根據(jù)第一或第二分割符、從原文文檔和譯文文檔分別提取第一檢查字串和第二檢查字串,以及根據(jù)第一子分割符,將第一檢查字串分解為多個檢查元素。但是,本發(fā)明的解析單元所進行的解析不限于此。在本實施例中,解析單元還可以根據(jù)原文或譯文文檔的與各章節(jié)或各大部分的標(biāo)題、章節(jié)符等關(guān)鍵字,將原文和譯文文檔分別劃分為相對應(yīng)的幾個大的部分。注意,用于劃分同一文檔中的各章節(jié)或各部分關(guān)鍵字可以不一樣。例如,在中文專利說明書中,可利用“技術(shù)領(lǐng)域”、“背景技術(shù)”、“發(fā)明內(nèi)容”、“附圖摘要”(或者“
”)和“具體實施例”五個關(guān)鍵字依次將作為原文的中文專利文件的說明書劃分為五大部分。類似地,可利用“BACKGROUND”、“Technical Field”、 "SUMMARY OFTHE INVENTION”、““BRIEF DESCRIPTION OF THEDRAffINGS"禾Π “DETAILED DESCRIPTION OF PREFERREDEMBODIMENTS”五個關(guān)鍵字,將英文專利文件的說明書劃分為與作為譯文的中文專利文件的說明書依次相對應(yīng)的五個大部分。進行這樣的大節(jié)劃分后,再針對各個大部分,分別進行如第一實施例和第二實施例類似的解析處理,從各個相應(yīng)的大節(jié)中分別提取相對應(yīng)的第一或第二檢查字串。這樣,可以進一步優(yōu)化本發(fā)明的第一及第二實施例,提高解析單元的處理速度,進一步改善錯誤檢查能力。第四實施例接著說明根據(jù)本發(fā)明第四實施例的譯文檢查裝置。本實施例的譯文檢查裝置的結(jié)構(gòu)可以與第一至三實施例中所述的譯文檢查裝置的結(jié)構(gòu)相同,因此,將省略對本實施例的譯文檢查裝置的結(jié)構(gòu)的說明。下面將僅說明與第一實施例不同的處理。本實施例與第一至第三實施例的主要區(qū)別在于,本實施例的檢查單元還檢查原文中的第一檢查字串的長度與譯文中對應(yīng)的第二檢查字串的長度的比是否在預(yù)設(shè)范圍內(nèi)。本發(fā)明的發(fā)明人發(fā)現(xiàn),將一門語言翻譯為另一門語言之后,原文和譯文的字數(shù)比例基本恒定。例如,英文原文與中文譯文的字數(shù)(單詞數(shù))/字數(shù)比例大約為1 1.6,而日文原文與中文譯文的字數(shù)比例約為1 0.8。因此,本實施例的檢查單元通過判斷原文中的第一檢查字串的長度和譯文中對應(yīng)的第二檢查字串的長度的比是否在預(yù)設(shè)范圍內(nèi),也可以獲得譯文是否可能存在錯誤的檢查結(jié)果。具體地,以英文原文和中文譯文為例,如果中文原文文檔中的單詞數(shù)與中文譯文的字數(shù)比例小于1 1.1或大于1 1.9,則可直接獲取譯文中可能存在錯誤的檢查結(jié)果。注意,該范圍的取值根據(jù)不同語言間的互譯而不同。即使對于兩樣兩種語言的互譯,也可以根據(jù)所要求的錯誤判定的嚴格程度而不同。這里以單詞數(shù)或字數(shù)來計算第一檢查字串的長度與第二檢查字串的長度的比,但是,也可以根據(jù)文字編碼所占用的實際字節(jié)數(shù)量來衡量第一檢查字串和第二檢查字串的長度,只要能夠反映出原文和譯文的長度比即可。第五實施例 此外,本實施例的譯文檢查裝置的結(jié)構(gòu)與第一實施例的譯文檢查裝置的結(jié)構(gòu)的主要區(qū)別在于,本實施例的譯文檢查裝置還包括譯文保存單元。當(dāng)檢查單元判斷出在第二檢查字串中搜索到所輸入的譯文時,亦即,在步驟S403的判斷結(jié)果為“是”時,檢查單元判斷譯文保存單元中是否保存有該檢查元素的譯文。如果檢查單元判斷出譯文保存單元中保存了該檢查元素的譯文,則檢查單元判斷在第二檢查字串中搜索到所輸入的譯文與在譯文保存單元中所保存的該檢查元素的譯文是否相同,并根據(jù)判斷結(jié)果獲得檢查結(jié)果。例如,如果判斷出在第二檢查字串中搜索到的所輸入的譯文與在譯文保存單元中所保存的該檢查元素的譯文不相同,則輸出針對該檢查元素的譯文前后不一致的檢查結(jié)果。如果檢查單元判斷出譯文保存單元中未保存該檢查元素的譯文,則檢查單元將在第二檢查字串中搜索到的所輸入的譯文作為該檢查譯文的譯文保存在譯文保存單元中。除上述記載以外,本實施例的其它方面可與第一實施例相同。其它實施例 如前文所述,本發(fā)明中,可以預(yù)設(shè)第一分割符,用于對第一檢查字串進行分割。然而,本發(fā)明還可以針對特定的第一分割符設(shè)定多個預(yù)定字串,當(dāng)在第一檢查字串的某一位置處的一個第一分割符之前或之后是預(yù)定字串時,解析單元可以不根據(jù)這個第一分割符進行解析。例如,假定將“.”作為一個特定的第一分割符,可預(yù)設(shè)“似”、“^)”、“?16”和1土8” 等字串,作為預(yù)定字串,如果緊接在“.”之前是這些預(yù)定字串,則不將該位置的這個“.”作為分割符,即不將這個“.”作為分界來提取第一檢查字串或第二檢查字串,而是將該“.”作為普通字符或文字對待。此外,上述實施例中,均是以原文文檔作為基礎(chǔ)來判斷譯文中的錯誤,即,由檢查單元分解從原文文檔提取的第一檢查字串,并通過在譯文文檔中的第二檢查字串中搜索所分析出的檢查元素的譯文來判斷譯文是否存在錯誤。但是,本發(fā)明的檢查單元還可以分析從譯文文檔中提取的第二檢查字串的,從所提取的第二檢查字串解析出多個檢查單元,并獲取該多個檢查元素的原文語言的多個譯文,然后在原文文檔中相應(yīng)的第一檢查字串中搜索是否存在該多個譯文之一,以確定是否存在錯誤。例如,當(dāng)在原文中的第一檢查字串中未搜索到譯文文檔中的第二檢查字串中的檢查元素之一的譯文時,可判斷為該第二檢查字串中存在翻譯冗余。也就是說,本發(fā)明還可將上述實施例中對原文文檔的處理改為對譯文文檔的處理,同時將上述實施例中對譯文文檔的處理改為對原文文檔的處理,以更好的檢查譯文中可能存在的冗余、誤譯、書寫出錯等錯誤。此外,本發(fā)明的各實施例的單元和處理流程可以相互結(jié)合,以組成更多的技術(shù)方案。在本發(fā)明中,“設(shè)定”既可以通過用戶操作來進行,也可以由系統(tǒng)自動進行。在本發(fā)明中,“分割符”不僅可以為多個或單個字符,也可以為用戶或系統(tǒng)預(yù)設(shè)的字符、字串和詞組等。在本發(fā)明中,“字符”指文檔中的各個國家的文字、標(biāo)點、數(shù)學(xué)符號、各種代碼(例如 ASCII等)、分割符(例如,回車符,分節(jié)符等)以及文檔中可能用到的各類符號。在本發(fā)明中,提示單元可以以各種方式提示所述檢查結(jié)果,可以是文字表示,也可以是圖形表示,可以在原文或譯文中表示,也可以在原文或譯文的副本中表示,還可以在不同于原文或譯文的單獨文本中記載。例如,可以在譯文中以紅色高亮表示可能的冗余,可以在譯文或其副本中以黃色高亮表示可能的譯文前后不一致,或者可以在原文或其副本中以紅色高表示可能未譯的內(nèi)容??傊?,表示方式不限,只要用戶能夠讀懂即可。本發(fā)明還可以通過以與各實施例相對應(yīng)的多個譯文檢查方法來實現(xiàn)。由于各個譯文檢查方法與各個實施例的譯文檢查裝置相對應(yīng),在此省略其詳細說明。本領(lǐng)域技術(shù)人員在閱讀上述針對譯文檢查裝置的說明后可直接得出相應(yīng)的譯文檢查方法。雖然已經(jīng)參考示例性實施例對本發(fā)明作了說明,但是應(yīng)當(dāng)理解,本發(fā)明并不限于所公開的示例性實施例。權(quán)利要求書的范圍符合最寬的解釋,以包括所有的 修改以及等同結(jié)構(gòu)和功能。
權(quán)利要求
1.一種譯文檢查裝置,其包括解析單元,其從一個或多個文檔中提取以第一語言記載的第一檢查字串及以第二語言記載的第二檢查字串,并將所述第一檢查字串分解為至少一個檢查元素,其中,所述第二檢查字串是對所述第一檢查字串進行翻譯所得的譯文,或者所述第一檢查字串是對所述第二檢查字串進行翻譯所得的譯文;譯文獲取單元,其獲取每個所述檢查元素的以所述第二語言表示的至少一個譯文;檢查單元,針對所述至少一個檢查元素中的每一個進行檢查,以在所述第二檢查字串中搜索所述檢查元素的以所述第二語言表示的譯文之一,并根據(jù)搜索結(jié)果獲得檢查結(jié)果;提示單元,其提示所述檢查結(jié)果。
2.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述第一檢查字串及所述第二檢查字串屬于同一文檔,或者所述第一檢查字串及所述第二檢查字串分屬不同文檔。
3.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述譯文檢查裝置進一步包括預(yù)設(shè)單元,其預(yù)設(shè)至少一個第一分割符和至少一個第二分割符;其中,所述解析單元根據(jù)所述第一分割符提取所述第一檢查字串,以及根據(jù)所述第二分割符提取所述第二檢查字串。
4.根據(jù)權(quán)利要求3所述的譯文檢查裝置,其中,當(dāng)與所述第一分割符相鄰的一個或多個字符構(gòu)成預(yù)定字串時,所述解析單元不根據(jù)與所述預(yù)定字串相鄰的這個所述第一分割符進行提取。
5.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述解析單元還預(yù)設(shè)至少一個子分割符,并根據(jù)所述至少一個子分割符將所述第一檢查字串分解為所述至少一個檢查元素。
6.根據(jù)權(quán)利要求5所述的譯文檢查裝置,其中,所述解析單元還判斷是否將所述第一檢查字串中相鄰的多個所述檢查元素的組合確定為又一所述檢查元素。
7.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述檢查單元還檢查所述第一檢查字串的長度與所述第二檢查字串的長度的比是否在預(yù)設(shè)范圍內(nèi),其中,當(dāng)所述長度的比不在所述預(yù)設(shè)范圍內(nèi)時,直接獲得所述檢查結(jié)果,否則,檢查所述第二檢查字串中是否包括各個所述檢查元素的所述至少一個譯文,獲得所述檢查結(jié)果。
8.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述譯文獲取單元在判斷出所述檢查元素是預(yù)定的非譯檢查元素之一時,將所述檢查元素的原文本身作為所述檢查元素的譯文,其中,所述非譯檢查元素指譯文和原文相同的檢查元素;所述譯文獲取單元在判斷出所述檢查元素是預(yù)定的不譯檢查元素之一時,所述檢查單元不檢查所述第二檢查字串中是否包括所述檢查元素的所述至少一個譯文之一,其中所述不譯檢查元素指無需在譯文中體現(xiàn)的檢查元素。
9.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述解析單元或檢查單元還統(tǒng)計各個所述檢查元素在所述第一檢查字串中的出現(xiàn)次數(shù),作為第一出現(xiàn)次數(shù);所述檢查單元還統(tǒng)計各個所述檢查元素的以所述第二語言表示的所述至少一個譯文在所述第二檢查字串中的出現(xiàn)次數(shù),作為第二出現(xiàn)次數(shù);以及所述檢查單元還判斷所述第一出現(xiàn)次數(shù)與所述第二出現(xiàn)次數(shù)的大小關(guān)系,且還根據(jù)判斷結(jié)果獲得所述檢查結(jié)果。
10.根據(jù)權(quán)利要求1所述的譯文檢查裝置,其中,所述譯文檢查裝置還包括譯文保存單元,所述譯文保存單元用于保存由所述檢查單元針對各個檢查元素已搜索到的檢查元素的譯文,其中,當(dāng)所述檢查單元搜索到所述第二檢查字串中所包括的所述檢查元素的以所述第二語言表示的譯文之一時,所述檢查單元還于所述譯文保存單元保存所述以所述第二語言表示的譯文之一之前,判斷所述以所述第二語言表示的譯文之一是否與在所述譯文保存單元中所保存的所述檢查元素的譯文相同,并且還根據(jù)判斷結(jié)果獲得檢查結(jié)果。
11.一種譯文檢查方法,所述檢查方法進行如下步驟 接收一個或多個文檔;從所述一個或 多個文檔中提取以第一語言記載的第一檢查字串及以第二語言記載的第二檢查字串,并將所述第一檢查字串分解為至少一個檢查元素,其中,所述第二檢查字串是對所述第一檢查字串進行翻譯所得的譯文,或者所述第一檢查字串是對所述第二檢查字串進行翻譯所得的譯文;獲取每個所述檢查元素的以所述第二語言表示的至少一個譯文; 針對所述至少一個檢查元素中的每一個進行檢查,以在所述第二檢查字串中搜索所包括的所述檢查元素的以所述第二語言表示的譯文之一,并根據(jù)搜索結(jié)果獲得檢查結(jié)果; 提示所述檢查結(jié)果。
全文摘要
公開了一種譯文檢查裝置及譯文檢查方法,該譯文檢查裝置包括接收單元,其接收一個或多個文檔;解析單元,其從所述一個或多個文檔中提取以第一語言記載的第一檢查字串及以第二語言記載的第二檢查字串,并將所述第一檢查字串分解為至少一個檢查元素,其中,所述第二檢查字串是對所述第一檢查字串進行翻譯所得的譯文,或者所述第一檢查字串是對所述第二檢查字串進行翻譯所得的譯文;譯文獲取單元,其獲取每個所述檢查元素的以所述第二語言表示的至少一個譯文;檢查單元,針對所述至少一個檢查元素中的每一個進行檢查,以在所述第二檢查字串中搜索所述檢查元素的以所述第二語言表示的譯文之一,并根據(jù)搜索結(jié)果獲得檢查結(jié)果。
文檔編號G06F17/28GK102262621SQ20101018278
公開日2011年11月30日 申請日期2010年5月26日 優(yōu)先權(quán)日2010年5月26日
發(fā)明者鐘長林 申請人:鐘長林