亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取詞條譯文的方法及系統(tǒng)與流程

文檔序號:12464700閱讀:307來源:國知局
一種獲取詞條譯文的方法及系統(tǒng)與流程

本發(fā)明涉及語言信息轉(zhuǎn)換領(lǐng)域,特別是涉及一種獲取詞條譯文的方法及系統(tǒng)。



背景技術(shù):

隨著全球的國際化,越來越多的文化交流在世界范圍內(nèi)發(fā)生,越來越多的中國人使用英語或其他語言與外國人交流,作為以中文為母語的中國人,在外語的口語、書面語中,經(jīng)常遇到不知道如何表達才是地道的表達方式,不知道某外國人名應(yīng)該如何拼寫,不知道某些中文固定搭配應(yīng)該如何翻譯成外文等等。同樣,外國人在使用中文時也常常遇到相同的問題。為解決此類問題,傳統(tǒng)的方法是通過查閱各種人工構(gòu)造的詞典,人工構(gòu)造的詞典,雖然具有很高的可信性,但人工構(gòu)造詞典,成本高、詞典更新頻率低,不能及時地收錄新詞的翻譯。

隨著互聯(lián)網(wǎng)、信息技術(shù)的飛速發(fā)展,在計算機領(lǐng)域出現(xiàn)了新的雙語詞典構(gòu)建方法,其不再依賴于傳統(tǒng)的人工詞典,提高了效率、新詞更新頻率高,并且對于使用者來說極為便利?,F(xiàn)有的雙語詞典自動構(gòu)建的方法主要有:基于模式匹配的方法和基于詞對齊方法。其中,基于模式匹配的方法是按照特定的模式(模塊),從文本中抽取特定形式的文本,“括號解釋型”是其中一種,“單行解釋型”也是基于模式匹配的方法。以括號解釋型為例,假設(shè)待抽取文本為“這個品牌的礦泉水(mineral water)品質(zhì)優(yōu)秀…”,按照括號定義的模式,可以抽取出“礦泉水-mineral water”這樣的翻譯詞對?;谀J狡ヅ涞姆椒ǎ鋬?yōu)點是能夠抽取出網(wǎng)頁上存在的新詞及譯文,而且詞典規(guī)模隨著處理網(wǎng)頁數(shù)量的增大而增大。但缺點也很明顯,那就是互聯(lián)網(wǎng)的數(shù)據(jù)魚龍混雜,良莠不齊,而且基于固定模式獲得的翻譯對未必都是高質(zhì)量的譯文。以“括號型解釋型”為例,有些括號內(nèi)的內(nèi)容與之前的正文之間并不是翻譯關(guān)系,這樣提取的“翻譯對”顯然不準(zhǔn)確。并且這種方法需要做較多的后續(xù)處理,比如去除冗余、干擾信息。因此這種方法的準(zhǔn)確率通常受到網(wǎng)頁質(zhì)量的限制。

基于詞對齊方法:詞對齊是指將雙語文本(比如中英)中互為翻譯關(guān)系的詞標(biāo)識出而得到的結(jié)果。詞對齊方法有多種,公知的有規(guī)則方法、統(tǒng)計方法及詞典方法等。在現(xiàn)有技術(shù)中使用最廣泛,技術(shù)最先進的是統(tǒng)計詞對齊方法。統(tǒng)計詞對齊方法的基本原理是:計算雙語句對中詞與詞之間的“翻譯概率”,概率的計算是基于“統(tǒng)計機器翻譯模型”理論得到,并且需要迭代計算若干次。在得到詞對齊的基礎(chǔ)上,利用對角線法,可以抽取翻譯短語。所謂對角線法,指的是將雙向?qū)R詞(比如中英、英中對齊詞)組成一個矩陣(如圖1),矩陣中有值的位置表示對齊關(guān)系。以圖1為例,通過對角線的判定,可以認(rèn)為“工業(yè)訓(xùn)練中心”與“industrial training centers”是對譯關(guān)系。

統(tǒng)計詞對齊方法得出的翻譯結(jié)果不一定是真正意義的“短語”,可能是“are of the”這樣的字符串。統(tǒng)計詞對齊方法的另一個缺點是,由于要考慮全局信息,即多次迭代求概率,使得一些小的錯誤會導(dǎo)致其它的短語對齊。以上面的例子為例,若“訓(xùn)練”與“industrial”對應(yīng)上的話,“中心”很有可能與“training”相對應(yīng),這樣會導(dǎo)致錯誤傳播。因此,統(tǒng)計詞對齊方法雖然較之前的各種方法先進,但因為需要多次迭代求概率,需要處理的數(shù)據(jù)量大,處理時間長,需要對全部雙語句子進行數(shù)次處理,才能確定最終結(jié)果。如對于300萬對規(guī)模的句子,在服務(wù)器上進行處理,通常需要處理3-4天才有結(jié)果,同時可能會發(fā)生對齊錯誤,影響翻譯結(jié)果的準(zhǔn)確性。



技術(shù)實現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是提供一種獲取詞條譯文的方法及系統(tǒng),提高譯文生成效率,提高譯文結(jié)果的準(zhǔn)確度。

為了解決上述問題,本發(fā)明實施例公開了一種獲取詞條譯文的方法,包括步驟:

接收待處理詞條,確定待處理詞條所屬的第一語言種類以及所需翻譯的譯文所屬的第二語言種類;

根據(jù)所述第一語言種類和所述第二語言種類,確定雙語句對索引資源庫;其中,所述雙語句對索引資源庫中包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為所述第一語言種類,另一個語句的種類為所述第二語言種類;

以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找;其中,所述第一語言公共部分為所述第一語言的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對為以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對;

如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述第一語言的公共部分,則在查找到所述第一語言的公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

可選的,所述以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找,具體包括:

以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到符合檢索條件要求的各個雙語句對;

從檢索得到的雙語句對中,以至少兩個候選雙語句對作為譯文處理組,并對該譯文處理組中的所述至少兩個候選雙語句對,查找各個第一語言語句中相同的最長公共子串,并將該最長公共子串與所述待處理詞條進行比較,如果二者內(nèi)容一致,則將所述最長公共子串作為所述第一語言公共部分,否則,返回本步驟,直至查找得到所述第一語言公共部分或?qū)z索得到的各個雙語句對均執(zhí)行完本步驟為止。

可選的,所述以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找,具體包括:

以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到符合檢索條件要求的各個雙語句對;

從檢索得到的雙語句對中,以至少兩個候選雙語句對作為譯文處理組,并對該譯文處理組中的所述至少兩個候選雙語句對,分別查找各個第一語言語句中是否包含和所述待處理詞條相同的子串,如果均包含,則將所述子串作為所述第一語言公共部分,否則,返回本步驟,直至查找得到所述第一語言公共部分或?qū)z索得到的各個雙語句對均執(zhí)行完本步驟為止。

可選的,所述以至少兩個候選雙語句對作為譯文處理組,包括:

在所述候選雙語句對中,從未進行過所述第一語言公共部分查找的候選雙語句對中選擇至少兩個作為譯文處理組;或者,

在所述候選雙語句對中,從未進行過所述第一語言公共部分查找的候選雙語句對中選擇至少一個雙語句對作為所述譯文處理組中的至少一個雙語句對,所述譯文處理組中的其余雙語句對為進行過所述第一語言公共部分查找的雙語句對。

可選的,所述至少兩個候選雙語句對為2個。

可選的,所述第一語言為漢語且第二語言為英語,或,所述第一語言為英語且第二語言為漢語。

可選的,如果查找得到多個第一語言公共部分,則按照所述多個第一語言公共部分的頻度高低排序,相應(yīng)的提供分別與所述多個第一語言公共部分各自對應(yīng)所述譯文;

或者,根據(jù)預(yù)定閾值,從所述多個第一語言公共部分中確定滿足要求的第一語言公共部分,并提供所述滿足要求的第一語言公共部分各自對應(yīng)的所述譯文。

可選的,該方法還包括:

獲取雙語句對資源;

對所述雙語句對資源進行預(yù)處理;

根據(jù)預(yù)處理后的雙語句對建立索引,形成雙語句對索引資源庫。

可選的,所述建立索引的具體過程為:

采用倒排索引法對所述雙語句對建立索引。

可選的,接收待處理詞條后還包括步驟:

對所述待處理詞條進行分詞處理。

可選的,從雙語句對索引資源庫中檢索出候選雙語句對后,還包括步驟:

根據(jù)字串包含算法過濾所述候選雙語句對,形成更精確的檢索結(jié)果。

本發(fā)明實施例公開了一種獲取詞條譯文獲取詞條譯文的系統(tǒng),包括:

接收單元,用于接收待處理詞條,確定待處理詞條所屬的第一語言種類以及所需翻譯的譯文所屬的第二語言種類;

雙語句對索引資源庫確定單元,用于根據(jù)所述第一語言種類和所述第二語言種類,確定雙語句對索引資源庫;其中,所述雙語句對索引資源庫中包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為所述第一語言種類,另一個語句的種類為所述第二語言種類;

第一語言公共部分查找單元,用于以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找;其中,所述第一語言公共部分為所述第一語言的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對為以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對;

譯文確定單元,用于如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述第一語言的公共部分,則在查找到所述第一語言的公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

可選的,還包括索引生成單元,所述索引生成單元包括:

獲取單元,用于獲取雙語句對資源;

處理單元,用于對雙語句對資源進行預(yù)處理;

第二生成單元,用于根據(jù)預(yù)處理后的雙語句對建立索引,形成雙語句對索引資源庫。

可選的,還包括:

分詞處理單元,用于對待處理詞條進行分詞處理。

可選的,還包括:

過濾單元,用于根據(jù)字串包含算法過濾所述候選雙語句對,形成更精確的檢索結(jié)果。

可選的,還包括:

譯文處理單元,用于對譯文進行整理、排序、篩選;

譯文輸出單元,用于輸出處理后的譯文。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:

本發(fā)明利用索引的方式減少了數(shù)據(jù)處理的工作量,不需要對全部雙語句子進行數(shù)遍處理,對于每個待處理詞條,通過檢索技術(shù),僅僅處理少量與待處理詞條相關(guān)的雙語句子即可獲得相應(yīng)譯文,提高了獲取譯文的效率;并且,由于僅僅考察局部信息,避免了傳統(tǒng)統(tǒng)計詞對齊方法中考察全局信息而受到較多的干擾,因此,本方法獲得的譯文更為精準(zhǔn)。

附圖說明

圖1是現(xiàn)有技術(shù)中雙向?qū)R詞所組成的一個矩陣的示意圖;

圖2是本發(fā)明一種獲取詞條譯文的方法第一實施例的流程圖;

圖3是實施例索引資源庫建立方法的流程圖;

圖4是本發(fā)明一種獲取詞條譯文的方法第二實施例的流程圖;

圖5是本發(fā)明一種獲取詞條譯文的方法第三實施例的流程圖;

圖6是本發(fā)明一種獲取詞條譯文的方法第四實施例的流程圖;

圖7是本發(fā)明一種獲取詞條譯文系統(tǒng)第一實施例的結(jié)構(gòu)框圖;

圖8是本發(fā)明一種獲取詞條譯文系統(tǒng)第三實施例的結(jié)構(gòu)框圖。

具體實施方式

為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式對本發(fā)明作進一步詳細(xì)的說明。

本發(fā)明可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如:個人計算機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、以及包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。

本發(fā)明可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機存儲介質(zhì)中。

本發(fā)明中所述詞對/詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語。

本發(fā)明可以適用于各種雙語轉(zhuǎn)換的情景,如中英轉(zhuǎn)換、中韓轉(zhuǎn)換、德英轉(zhuǎn)換、德法轉(zhuǎn)換……,為了便于理解,本發(fā)明中以中英轉(zhuǎn)換為例進行說明,可以理解,其并不構(gòu)成對本發(fā)明應(yīng)用場景的限制,對于其他語種,基于同樣的原理一樣可以適用。

參照圖2,示出了本發(fā)明一種獲取詞條譯文的方法第一實施例的流程圖,包括步驟:

步驟201、接收待處理詞條,確定待處理詞條所屬的第一語言種類以及所需翻譯的譯文所屬的第二語言種類。

所述待處理詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語,所述待處理詞條所屬的第一語言種類可以是中文也可以是英文,當(dāng)然,也可以是其他語言類別,如日本語、朝鮮語、德語、法語等,都可以基于本發(fā)明同樣的原理而獲取相應(yīng)的譯文。例如,待處理詞條所屬的第一語言為中文,譯文所屬的第二語言為英文,或者待處理詞條所屬的第一語言為英文,譯文所屬的第二語言為中文。

步驟202、根據(jù)所述第一語言種類和所述第二語言種類,確定雙語句對索引資源庫。

其中,所述雙語句對索引資源庫中可以包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為所述第一語言種類,另一個語句的種類為所述第二語言種類。

步驟203、以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找。

舉例說明,所述第一語言公共部分可以是所述第一語言的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致。所述候選雙語句對可以是以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對。

在本發(fā)明實施例中,可以根據(jù)待處理詞條從索引資源庫中檢索出候選雙語句對。

當(dāng)待處理詞條是一個單詞時,可以不需要對所述待處理詞條進行處理,直接以所述接收的待處理詞條為目標(biāo)在索引資源庫中檢索。

當(dāng)待處理詞條為詞組或短語時或其他需要處理的情形時,在根據(jù)待處理詞條從索引資源庫中檢索出候選雙語句對之前還進一步包括:對所述待處理詞條進行分詞處理。

眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子“I am a student”,用中文則為“我是一個學(xué)生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學(xué)”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一個學(xué)生,分詞的結(jié)果是:我是一個學(xué)生。

下面介紹一些常用的中文分詞方法:

1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個預(yù)置的機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。實際使用的分詞系統(tǒng),都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準(zhǔn)確率。

2、基于特征掃描或標(biāo)志切分的分詞方法:是指優(yōu)先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率;或者將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進行檢驗、調(diào)整,從而提高切分的準(zhǔn)確率。

3、基于理解的分詞方法:是指通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。

4、基于統(tǒng)計的分詞方法:是指中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息,以及計算兩個漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切分詞典。

利用索引的目的是減少計算的規(guī)模,提高效率。本發(fā)明采用倒排索引法,以“相互依賴”為例,分詞處理后為“相互依賴”,然后再進行倒排檢索。假設(shè)“相互”出現(xiàn)的句子有{5,99,101,238,1185,1382,1497},“依賴”出現(xiàn)的句子有{7,11,99,238,1100,1382},通過求并集即可知道“相互”“依賴”共同出現(xiàn)的句子有{99,238,1382}。

進一步,進行初步檢索以后,再對所述檢索結(jié)果進行進一步的處理,如再結(jié)合位置信息,通過“相互”與“依賴”出現(xiàn)的前后關(guān)系,還可以縮小范圍。利用倒排索引能夠有效地縮小處理范圍,提高效率。

進一步,根據(jù)字串包含算法過濾所述候選雙語句對,形成更精確的檢索結(jié)果。比如待處理詞條為“相互依賴”,如果中文中的表述為“…相互依存和依賴…”,雖然能夠檢索出來,但是不滿足字串包含算法,必須過濾掉。

當(dāng)候選雙語句對有多個時,可以將該多個候選雙語句對以譯文處理組為單位進行后續(xù)操作,一個譯文處理組可以包括至少兩個候選雙語句對,所述至少兩個候選雙語句對可以為2個。

其中,譯文處理組中的候選雙語句,可以是在所述候選雙語句對中,從未進行過所述第一語言公共部分查找的候選雙語句對中選擇至少兩個作為譯文處理組;或者,在所述候選雙語句對中,從未進行過所述第一語言公共部分查找的候選雙語句對中選擇至少一個雙語句對作為所述譯文處理組中的至少一個雙語句對,所述譯文處理組中的其余雙語句對為進行過所述第一語言公共部分查找的雙語句對。

在本發(fā)明實施例中,可以在至少一個譯文處理組中查找第一語言公共部分,接下來將以兩種可行的方式對查找第一語言公共部分的具體過程展開介紹。

第一種具體的查找方式可以包括:

以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到符合檢索條件要求的各個雙語句對;

從檢索得到的雙語句對中,以至少兩個候選雙語句對作為譯文處理組,并對該譯文處理組中的所述至少兩個候選雙語句對,查找各個第一語言語句中相同的最長公共子串,并將該最長公共子串與所述待處理詞條進行比較,如果二者內(nèi)容一致,則將所述最長公共子串作為所述第一語言公共部分,否則,返回本步驟,直至查找得到所述第一語言公共部分或?qū)z索得到的各個雙語句對均執(zhí)行完本步驟為止。

以兩個候選雙語句作為譯文處理組為例,為了后續(xù)方便介紹,可以將候選雙語句對簡稱為雙語句對。

當(dāng)待處理詞條為中文時,則獲取雙語句對中中文句的最長公共子串,當(dāng)待處理句對為英文時,則獲取雙語句對中英文的最長公共子串,即獲取與待處理詞條語言類型相同句的最長公共子串。

對符合條件的雙語句對,選擇2個雙語句對,根據(jù)最長公共子串算法(LCS)獲取2個雙語句對中2個中文句對的最長公共子串,根據(jù)改進的最長公共子串算法(ILCS)獲取2個雙語句對中2個英文句對的最長公共子串。LCS是求兩個字符串最長公共子串的算法。利用一個矩陣來記錄兩個字符串中所有位置的兩個字符之間的匹配情況,若是匹配則為1,否則為0。然后求出對角線最長的1序列,其對應(yīng)的位置就是最長匹配子串的位置。改進的最長公共子串算法將在后面進行詳細(xì)的介紹。

將該最長公共子串與待處理詞條進行比較,可以通過判斷過程,即判斷該最長公共子串與待處理詞條是否一致,如果不一致,則再次重復(fù)本步驟;如果一致,則進入下一步驟。

當(dāng)待處理詞條為中文時,判斷所述2個雙語句對中中文句對的最長公共子串是否與待處理詞條一致,如果不一致,則重復(fù)本步驟,再次選擇一個譯文處理組,獲取中文句對的最長公共子串,如果一致,則進入下一步驟。當(dāng)待處理詞條為英文時,判斷所述2個英文句對的最長公共子串是否與待處理詞條一致,如果不一致,則重復(fù)本步驟,再次選擇一個譯文處理組,獲取英文句對的最長公共子串,如果一致,則進入下一步驟。

第二種具體的查找方式可以包括:

以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到符合檢索條件要求的各個雙語句對;

從檢索得到的雙語句對中,以至少兩個候選雙語句對作為譯文處理組,并對該譯文處理組中的所述至少兩個候選雙語句對,分別查找各個第一語言語句中是否包含和所述待處理詞條相同的子串,如果均包含,則將所述子串作為所述第一語言公共部分,否則,返回本步驟,直至查找得到所述第一語言公共部分或?qū)z索得到的各個雙語句對均執(zhí)行完本步驟為止。

步驟204、如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述第一語言的公共部分,則在查找到所述第一語言的公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

以2個雙語句對為例,第二語言公共部分即為2個雙語句對中對應(yīng)句的最長公共子串,該最長公共子串即為待處理詞條所需翻譯的譯文。

當(dāng)查找到第一語言的公共部分時,則獲取所述2個雙語句對中對應(yīng)句的最長公共子串,如雙語句對為中英句對,待處理詞條為中文時,則獲取英文句子的最長公共子串;當(dāng)雙語句對為德法句對,待處理詞條為德文時,則獲取法文句子的最長公共子串。

中文根據(jù)最長公共子串算法獲取,英文、德文等不需要分詞的句子則根據(jù)改進的最長公共子串算法獲取。

本實施例所述技術(shù)方案是以索引資源庫已經(jīng)存在為前提的,建立雙語句對的索引資源庫是本發(fā)明的前提條件。下面對本發(fā)明建立索引資源庫的技術(shù)方案進行一個詳細(xì)描述,參照圖3、示出了本發(fā)明中索引資源庫建立方法的流程圖,包括步驟:

步驟301、獲取雙語句對資源。

獲取雙語句對資源的方法有很多,如可以從互聯(lián)網(wǎng)在線獲取,也可以通過人工輸入,還有其他很多種方法,本發(fā)明不對此進行一一限定。

步驟302、對所述雙語句對資源進行預(yù)處理。

預(yù)處理的目的是將文本規(guī)范化,去除無用、干擾的信息。預(yù)處理的具體方式根據(jù)實際需要進行限定,在本發(fā)明實施例中,預(yù)處理主要包括:中文全半角轉(zhuǎn)換、中文自動分詞、英文tokenizing、英文大小寫同一處理、編碼亂碼過濾等。

步驟303、根據(jù)預(yù)處理后的雙語句對建立索引,形成雙語句對索引資源庫。

建立索引有很多種方法,如倒排索引方法、hashing mask方法,本發(fā)明實施例優(yōu)選采用倒排索引方法建立索引,下面通過實例對采用倒排索引法建立索引的過程進行介紹。

假設(shè)有兩個句子1和2:

句子1的內(nèi)容為:Tom lives in Guangzhou,I live in Guangzhou too.

句子2的內(nèi)容為:He once lived in Shanghai.

1)由于倒排索引是基于關(guān)鍵詞索引和查詢的,首先需要獲取這兩個句子的關(guān)鍵詞,需要進行如下處理措施:

a、先要確定字符串中的所有單詞,即分詞,分詞技術(shù)在前面已經(jīng)進行介紹,為了節(jié)約篇幅,在此不再予以詳述。

b、句子中的“in”,“once”“too”等詞沒有什么實際意義,中文中的“的”“是”等字通常也無具體含義,過濾掉所述不代表概念的詞。

c、通常希望查詢“He”時能把含“he”,“HE”的句子也找出來,對所有單詞統(tǒng)一大小寫。

d、通常希望查詢“l(fā)ive”時能把含“l(fā)ives”,“l(fā)ived”的句子也找出來,所以需要把“l(fā)ives”,“l(fā)ived”還原成“l(fā)ive”。

e、句子中的標(biāo)點符號通常不表示某種概念,也可以過濾掉。

經(jīng)過所述處理后:句子1的所有關(guān)鍵詞為:[tom][live][guangzhou][i][live][guangzhou];句子2的所有關(guān)鍵詞為:[he][live][shanghai]。

2)有了關(guān)鍵詞后,開始建立倒排索引。上面的對應(yīng)關(guān)系是:“句子號”對“句子中所有關(guān)鍵詞”。倒排索引將所述關(guān)系倒過來,變成:“關(guān)鍵詞”對“擁有該關(guān)鍵詞的所有句子號”。句子1,2經(jīng)過倒排后變成:

關(guān)鍵詞句子號

guangzhou 1

he 2

i 1

live 1,2

shanghai 2

tom 1

通常僅知道關(guān)鍵詞在哪些句子中出現(xiàn)還不夠,我們還需要知道關(guān)鍵詞在句子中出現(xiàn)次數(shù)和出現(xiàn)的位置,通常有兩種位置:a)字符位置,即記錄該詞是句子中第幾個字符(優(yōu)點是關(guān)鍵詞亮顯時定位快);b)關(guān)鍵詞位置,即記錄該詞是句子中第幾個關(guān)鍵詞(優(yōu)點是節(jié)約索引空間、詞組(phase)查詢快),倒排檢索中記錄的就是這種位置。

加上“出現(xiàn)頻率”和“出現(xiàn)位置”信息后,所述索引結(jié)構(gòu)變?yōu)椋?/p>

關(guān)鍵詞句子號[出現(xiàn)頻率]出現(xiàn)位置

guangzhou 1[2]3,6

he 2[1]1

i 1[1]4

live 1[2],2[1]2,5,2

shanghai 2[1]3

tom 1[1]1

以live這行為例說明所述索引結(jié)構(gòu):live在句子1中出現(xiàn)了2次,句子2中出現(xiàn)了一次,它的出現(xiàn)位置為“2,5,2”這表示什么呢?結(jié)合句子號和出現(xiàn)頻率來分析,句子1中出現(xiàn)了2次,那么“2,5”就表示live在句子1中出現(xiàn)的兩個位置,句子2中出現(xiàn)了一次,剩下的“2”就表示live是句子2中第2個關(guān)鍵字。

通過以上方案建立索引后,如果需要查找哪些句子中含有l(wèi)ive時,只需要獲取該關(guān)鍵詞對應(yīng)的句子號1,2即可。

通過建立索引資源庫以及結(jié)合索引技術(shù),有利于快速檢索,提高效率。

在本發(fā)明實施例中,改進的最長公共子串算法是針對英文字符串匹配子串的算法,下面描述其算法:

#16common=common+v1[answer-len+i]+""。

產(chǎn)生與待處理詞條對應(yīng)的譯文后,為了得到更好的結(jié)果,還可以包括以下步驟:

將所述子串插入譯文列表。

對譯文進行整理、排序、篩選。

去除抽取譯文中的首尾多余標(biāo)點、空格等符號。對譯文進行排序,計算譯文列表中同一譯文出現(xiàn)的次數(shù),然后按照次數(shù)由高到低對譯文進行排序。本發(fā)明僅僅認(rèn)為字符串相同的譯文為同一譯文。當(dāng)然,判斷標(biāo)準(zhǔn)不應(yīng)局限于本發(fā)明所述的方法,比如認(rèn)為大小寫不敏感的單詞即為相同,或者認(rèn)為所有單詞原形相同即可,或者認(rèn)為某些冠詞(如the,a)不影響判別單詞相同等,皆適用于本發(fā)明。

譯文篩選,篩選有多種方法,本發(fā)明優(yōu)選采用以下2種:一是利用“停用詞詞表”過濾譯文,停用詞詞表可以人為指定,通常為“the”,“of”,“of the”等常見虛詞或虛詞組合;第二種是根據(jù)排序和排序的分值篩選,低于某一值或者某一百分比的部分被舍棄。

輸出所述處理后的譯文。

參照圖4,示出了本發(fā)明一種獲取詞條譯文的方法第二實施例的流程圖,所述實施例中待處理詞條為中文,包括步驟:

步驟401、接收待處理中文詞條,確定待處理詞條所需翻譯的譯文所屬的第二語言種類。

待處理詞條是中文時,即待處理詞條所屬的第一語言種類為中文。

所述詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語。

步驟402、根據(jù)所述中文和所述第二語言種類,確定雙語句對索引資源庫。

其中,所述雙語句對索引資源庫中可以包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為中文,另一個語句的種類為所述第二語言種類。

步驟403、以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行中文公共部分的查找。

其中,所述中文公共部分為所述中文的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對為以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對。

在本發(fā)明實施例中,可以根據(jù)待處理中文詞條從索引資源庫中檢索出候選雙語句對。

當(dāng)待處理詞條是一個中文單詞時,可以不需要對所述待處理詞條進行處理,直接以所述接收的待處理詞條為目標(biāo)在索引資源庫中檢索。

當(dāng)待處理詞條為詞組或短語時或其他需要處理的情形時,在根據(jù)待處理中文詞條從索引資源庫中檢索出候選雙語句對之前還進一步包括:

對所述待處理中文詞條進行分詞處理。所述分詞處理技術(shù)在前面已進行了詳細(xì)描述,為了篇幅考慮,在此不再介紹。

根據(jù)待處理中文詞條從索引資源庫中檢索出候選雙語句對后,為了提高效率和精確度,還可以進行進一步的處理,因此還可以包括步驟:過濾所述候選雙語句對。即要求所述待處理詞條必須是雙語句對中文句的字串(字串包含算法),如果不滿足,則過濾掉。

查找中文公共部分的方式與查找第一語言公共部分的方式類似,下面僅以第一種查找方式為例,對查找中文公共部分的方式進行簡要介紹。

以2個候選雙語句對作為譯文處理組為例,為了后續(xù)方便介紹,可以將候選雙語句對簡稱為雙語句對。獲取2個雙語句對中中文句的最長公共子串,判斷所述最長公共子串是否與待處理詞條一致,如果不一致,則再次從檢索結(jié)果中選擇一個譯文處理組,重復(fù)本步驟;如果一致,則進入下一步驟。

假設(shè)選擇的2個雙語句對為(c1,e1)和(c2,e2),先判斷c1與c2的最長公共子串(根據(jù)LCS算法)是否與待處理中文詞條一致,如果不一致,則再次選擇一個譯文處理組,重復(fù)本步驟。如果c1與c2的最長公共子串與待處理中文詞條一致,則進入下一步驟。

步驟404、如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述中文公共部分,則在查找到所述中文公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

以2個雙語句對為例,第二語言公共部分即為2個雙語句對中對應(yīng)句的最長公共子串,該最長公共子串即為待處理詞條所需翻譯的譯文。

以第二語言種類為英文為例,根據(jù)改進的最長公共子串算法(iLCS)獲取所述符合條件的2個雙語句對中的英文句的最長公共子串,所述最長公共子串即為待處理中文詞條的英文譯文。

本實施例所述技術(shù)方案是以索引資源庫已經(jīng)存在為前提的,建立雙語句對的索引資源庫是本發(fā)明的前提條件。因此,在本發(fā)明實施例中,還可以包括建立雙語句對索引資源庫的步驟,所述詳細(xì)過程已經(jīng)在前面描述過,因此不再介紹。

參照圖5,示出了本發(fā)明一種獲取詞條譯文的方法第三實施例的流程圖,所述實施例中待處理詞條為英文,包括步驟:

步驟501、接收待處理英文詞條,確定待處理詞條所需翻譯的譯文所屬的第二語言種類。

待處理詞條是英文時,即待處理詞條所屬的第一語言種類為英文。

所述詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語。

步驟502、根據(jù)所述英文和所述第二語言種類,確定雙語句對索引資源庫。

其中,所述雙語句對索引資源庫中可以包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為英文,另一個語句的種類為所述第二語言種類。

步驟503、以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行英文公共部分的查找。

其中,所述英文公共部分為所述英文的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對為以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對。

在本發(fā)明實施例中,可以根據(jù)待處理英文詞條從索引資源庫中檢索出候選雙語句對。

當(dāng)待處理詞條是一個英文單詞時,可以不需要對所述待處理詞條進行處理,直接以所述接收的待處理詞條為目標(biāo)在索引資源庫中檢索。

當(dāng)待處理詞條為詞組或短語時或其他需要處理的情形時,在根據(jù)待處理英文詞條從索引資源庫中檢索出候選雙語句對之前還進一步包括:

對所述待處理英文詞條進行分詞處理。由于英文單詞都是以空格隔開的,因此對英語詞組進行分詞是很容易實現(xiàn)的。

查找英文公共部分的方式與查找第一語言公共部分的方式類似,下面僅以第一種查找方式為例,對查找英文公共部分的方式進行簡要介紹。

以2個候選雙語句對作為譯文處理組為例,為了后續(xù)方便介紹,可以將候選雙語句對簡稱為雙語句對。

根據(jù)改進的最長公共子串算法(iLCS)獲取所述2個雙語句對的英文句的最長公共子串,判斷所述最長公共子串是否與待處理英文詞條一致,如果不一致,則再次從檢索結(jié)果中選擇一個譯文處理組,重復(fù)本步驟;如果一致,則進入下一步驟。

假設(shè)選擇的2個雙語句對為(c1,e1)和(c2,e2),先判斷e1與e2的最長公共子串是否與待處理英文詞條一致,如果不一致,則再次選擇一個譯文處理組,重復(fù)本步驟。如果e1與e2的最長公共子串與待處理英文詞條一致,則進入下一步驟。

步驟504、如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述英文公共部分,則在查找到所述英文公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

以2個雙語句對為例,第二語言公共部分即為2個雙語句對中對應(yīng)句的最長公共子串,該最長公共子串即為待處理詞條所需翻譯的譯文。

以第二語言種類為中文為例,根據(jù)最長公共子串算法(LCS)獲取所述符合條件的2個雙語句對中的中文句的最長公共子串,所述最長公共子串即為待處理英文詞條的中文譯文。

本實施例所述技術(shù)方案是以索引資源庫已經(jīng)存在為前提的,建立雙語句對的索引資源庫是本發(fā)明的前提條件。因此,在本發(fā)明實施例中,還可以包括建立雙語句對索引資源庫的步驟,所述詳細(xì)過程已經(jīng)在前面描述過,因此不再介紹。

參照圖6,示出了本發(fā)明一種獲取詞條譯文的方法第四實施例的流程圖,確定出待處理詞條所需翻譯的譯文后,考慮到可能會出現(xiàn)在沒有將得到的各個候選雙語句對作為譯文處理組進行處理,便查找到第一語言公共部分,故此為了確保得到的各個候選雙語句對均被處理,可以增加相應(yīng)的判斷步驟。并且考慮到查找到的第一語言公共部分的個數(shù)可以是一個或多個,當(dāng)?shù)谝徽Z言公共部分的個數(shù)是一個時,依據(jù)于第一實施例中的操作可以確定出待處理詞條的一個譯文。當(dāng)?shù)谝徽Z言公共部分的個數(shù)是多個(至少兩個)時,可以設(shè)置相應(yīng)的條件,對多個第一語言公共部分進行處理,從而提供處理后得到的第一語言公共部分對應(yīng)的譯文。具體包括步驟:

步驟601、接收待處理詞條,確定待處理詞條所屬的第一語言種類以及所需翻譯的譯文所屬的第二語言種類。

所述待處理詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語,所述待處理詞條所屬的第一語言種類可以是中文也可以是英文,當(dāng)然,也可以是其他語言類別,如日本語、朝鮮語、德語、法語等,都可以基于本發(fā)明同樣的原理而獲取相應(yīng)的譯文。

步驟602、根據(jù)所述第一語言種類和所述第二語言種類,確定雙語句對索引資源庫。

其中,所述雙語句對索引資源庫中可以包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為所述第一語言種類,另一個語句的種類為所述第二語言種類。

步驟603、以兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找。

舉例說明,所述第一語言公共部分可以是所述第一語言的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對可以是以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對。

在本發(fā)明實施例中,可以根據(jù)待處理詞條從索引資源庫中檢索出候選雙語句對。

當(dāng)待處理詞條是一個單詞時,可以不需要對所述待處理詞條進行處理,直接以所述接收的待處理詞條為目標(biāo)在索引資源庫中檢索。

當(dāng)待處理詞條為詞組或短語時或其他需要處理的情形時,在根據(jù)待處理詞條從索引資源庫中檢索出候選雙語句對之前還進一步包括:對所述待處理詞條進行分詞處理。

本實施例中查找第一語言公共部分的方式與第一實施例中查找第一語言公共部分的方式類似,下面僅以第一種查找方式為例,對查找第一語言公共部分的方式進行簡要介紹。為了后續(xù)方便介紹,可以將候選雙語句對簡稱為雙語句對。

當(dāng)待處理詞條為中文時,則獲取雙語句對中中文句的最長公共子串,當(dāng)待處理句對為英文時,則獲取雙語句對中英文的最長公共子串,即獲取與待處理詞條語言類型相同句的最長公共子串。

將該最長公共子串與待處理詞條進行比較,可以通過判斷過程,即判斷該最長公共子串與待處理詞條是否一致,如果不一致,則再次重復(fù)本步驟;如果一致,則進入下一步驟。

當(dāng)待處理詞條為中文時,判斷2個雙語句對中中文句對的最長公共子串是否與待處理詞條一致,如果不一致,則再次選擇一個譯文處理組,重復(fù)本步驟,獲取中文句對的最長公共子串,如果一致,則進入下一步驟。當(dāng)待處理詞條為英文時,判斷2個雙語句對中英文句對的最長公共子串是否與待處理詞條一致,如果不一致,則再次選擇一個譯文處理組,重復(fù)本步驟,獲取英文句對的最長公共子串,如果一致,則進入下一步驟。

步驟604、如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述第一語言的公共部分,則在查找到所述第一語言的公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

以2個雙語句對為例,第二語言公共部分即為2個雙語句對中對應(yīng)句的最長公共子串,該最長公共子串即為待處理詞條所需翻譯的譯文。

當(dāng)查找到第一語言的公共部分時時,則獲取所述2個雙語句對中對應(yīng)句的最長公共子串,如雙語句對為中英句對,待處理詞條為中文時,則獲取英文句子的最長公共子串;當(dāng)雙語句對為德法句對,待處理詞條為德文時,則獲取法文句子的最長公共子串。

中文根據(jù)最長公共子串算法獲取,英文、德文等不需要分詞的句子則根據(jù)改進的最長公共子串算法獲取。所述對應(yīng)2個雙語句對中對應(yīng)句的最長公共子串即為待處理詞條相應(yīng)的譯文。

步驟605、判斷是否所有任意兩個候選雙語句對都被處理過。

如果任意兩個雙語句對都被處理過,則進入下一步,如果還有沒被處理過,則重復(fù)步驟603和步驟604,直至檢索結(jié)果中的所有候選雙語句對都處理完畢。假設(shè)檢索結(jié)果中共有N個雙語句對,任意選取兩個候選雙語句對作為一個譯文處理組,可以得知,需要處理N*(N-1)/2次才能處理完畢。

步驟606,確定候選子串,輸出所述候選子串對應(yīng)的譯文。

以2個雙語句對為例,第二語言公共部分即為2個雙語句對中對應(yīng)句的最長公共子串,該最長公共子串即為待處理詞條所需翻譯的譯文,故可以將一個第二語言公共部分理解為是一個譯文。

第二語言公共部分的個數(shù)與第一語言公共部分的個數(shù)相關(guān),第一語言公共部分的個數(shù)有幾個,一般情況下,對應(yīng)的第二語言公共部分的個數(shù)也有幾個,當(dāng)?shù)谝徽Z言公共部分的個數(shù)有多個時,可以將這多個第一語言公共部分作為一個候選子串,依據(jù)步驟604可以得出該候選子串對應(yīng)的譯文,一般情況下,該候選子串包括的第一語言公共部分的個數(shù)有幾個,對應(yīng)的可以得出幾個譯文。

在本發(fā)明實施例中,當(dāng)?shù)谝徽Z言公共部分的個數(shù)有多個時,可以對該多個第一語言公共部分進行相應(yīng)的處理,提供處理后得到的第一語言公共部分各自對應(yīng)的譯文,具體操作如下:如果查找得到多個第一語言公共部分,則按照所述多個第一語言公共部分的頻度高低排序,相應(yīng)的提供分別與所述多個第一語言公共部分各自對應(yīng)所述譯文;或者,根據(jù)預(yù)定閾值,從所述多個第一語言公共部分中確定滿足要求的第一語言公共部分,并提供所述滿足要求的第一語言公共部分各自對應(yīng)的所述譯文。

例如,對于所有產(chǎn)生的第一語言公共部分,按照第一語言公共部分的頻度由高到低排序,預(yù)設(shè)一個閾值,將頻度大于或等于所述閾值的第一語言公共部分作為候選子串,輸出所述候選子串對應(yīng)的譯文,即提供該第一語言公共部分各自對應(yīng)的譯文。當(dāng)頻度少于預(yù)設(shè)閾值時,說明其并不一定是精確的詞對譯文,則可以進行其他處理,如丟棄不輸出。所述預(yù)設(shè)閾值可以是任意自然數(shù),如2、3……。

本實施例所述技術(shù)方案是以索引資源庫已經(jīng)存在為前提的,建立雙語句對的索引資源庫是本發(fā)明的前提條件。建立索引資源庫已經(jīng)在前面進行了詳細(xì)描述,在此不再進行介紹。

對照圖7,示出了本發(fā)明一種獲取詞條譯文系統(tǒng)第一實施例的結(jié)構(gòu)框圖,包括:

接收單元701,用于接收待處理詞條,確定待處理詞條所屬的第一語言種類以及所需翻譯的譯文所屬的第二語言種類。

雙語句對索引資源庫確定單元702,用于根據(jù)所述第一語言種類和所述第二語言種類,確定雙語句對索引資源庫;其中,所述雙語句對索引資源庫中包括多個雙語句對,且所述雙語句對中的一個語句的語言種類為所述第一語言種類,另一個語句的種類為所述第二語言種類。

第一語言公共部分查找單元703,用于以至少兩個候選雙語句對作為譯文處理組,在至少一個所述譯文處理組中,進行第一語言公共部分的查找;其中,所述第一語言公共部分為所述第一語言的各個語句中共同包括的內(nèi)容,且該內(nèi)容與所述待處理詞條一致;所述候選雙語句對為以所述待處理詞條為索引,利用所述雙語句對索引資源庫檢索得到的符合檢索條件要求的雙語句對;

譯文確定單元704,用于如果在所述至少一個譯文處理組中的任意一個譯文處理組中查找得到所述第一語言的公共部分,則在查找到所述第一語言的公共部分的譯文處理組中,查找得到第二語言的公共部分,將該第二語言的公共部分作為所述待處理詞條的譯文;其中,所述第二語言的公共部分為所述第二語言的各個語句中共同包括的內(nèi)容。

下面對本系統(tǒng)的工作原理及工作過程進行一個介紹:

接收單元701接收待處理詞條,所述詞條可以是一個詞組,也可以是多個詞組,還可以是一個單詞或一個短語,所述詞條可以是中文也可以是英文,當(dāng)然,也可以是其他語言類別,如日本語、朝鮮語、德語、法語等。第一語言公共部分查找單元703根據(jù)所述接收單元接收的待處理詞條從索引資源庫中檢索出的候選雙語句對,從中選擇至少兩個候選雙語句對作為譯文處理組,查找第一語言公共部分。為了后續(xù)方便介紹,可以將候選雙語句對簡稱為雙語句對,本發(fā)明中,系統(tǒng)實施例中各個單元的具體操作步驟可以參照方法實施例中的介紹,在此不再贅述,以第一種查找第一語言公共部分的方式為例,當(dāng)待處理詞條為中文時,則獲取雙語句對中中文句的最長公共子串,當(dāng)待處理句對為英文時,則獲取雙語句對中英文的最長公共子串,即獲取與待處理詞條語言類型相同句的最長公共子串。以2個雙語句對作為譯文處理組為例,對符合條件的雙語句對,選擇2個雙語句對,根據(jù)最長公共子串算法(LCS)獲取2個雙語句對中2個中文句對的最長公共子串,根據(jù)改進的最長公共子串算法(ILCS)獲取2個雙語句對中2個英文句對的最長公共子串。LCS是求兩個字符串最長公共子串的算法。利用一個矩陣來記錄兩個字符串中所有位置的兩個字符之間的匹配情況,若是匹配則為1,否則為0。然后求出對角線最長的1序列,其對應(yīng)的位置就是最長匹配子串的位置。通過判斷所述最長公共子串是否與待處理詞條一致,如果不一致,則再次從檢索結(jié)果中選擇一個譯文處理組,調(diào)用第一語言公共部分查找單元703,重新獲取所述2個雙語句的最長公共子串,如果判斷所述最長公共子串是與待處理詞條一致,則譯文確定單元704獲取所述2個雙語句對中對應(yīng)句的最長公共子串。

本實施例所述技術(shù)方案是以索引資源庫已經(jīng)存在為前提的,建立雙語句對的索引資源庫是本發(fā)明的前提條件。

在本發(fā)明一種獲取詞條譯文系統(tǒng)的第二實施例中,除了包括接收單元、雙語句對索引資源庫確定單元、第一語言公共部分查找單元、譯文確定單元外,還包括第二判斷單元,譯文生成單元。所述第二判斷單元用于判斷檢索結(jié)果中的任意2個雙語句對是否都被處理完畢。如還有未處理完畢的雙語句對,則再次調(diào)用第一語言公共部分查找單元和譯文確定單元。所述譯文生成單元,用于對所有獲取的第一語言公共部分進行處理,一種可行的方式可以是將第一語言公共部分的頻度大于或等于預(yù)設(shè)閾值的第一語言公共部分作為所述候選子串,輸出對應(yīng)的譯文,對于頻度少于預(yù)設(shè)閾值的第一語言公共部分,則不輸出所對應(yīng)的譯文。

參照圖8,示出了本發(fā)明一種獲取詞條譯文系統(tǒng)第三實施例的結(jié)構(gòu)框圖,在本發(fā)明一種獲取詞條譯文系統(tǒng)第三實施例中,除了包括接收單元、雙語句對索引資源庫確定單元、第一語言公共部分查找單元、譯文確定單元外,還包括索引生成單元,所述索引生成單元包括:

獲取單元801、用于獲取雙語句對資源。

獲取雙語句對資源的方法有很多,如可以從互聯(lián)網(wǎng)在線獲取,也可以通過人工輸入,還有其他很多種方法,本發(fā)明不對此進行一一限定。

處理單元802、用于對雙語句對資源進行預(yù)處理。

預(yù)處理的目的是將文本規(guī)范化,去除無用、干擾的信息。預(yù)處理的具體方式根據(jù)實際需要進行限定,在本發(fā)明實施例中,預(yù)處理主要包括:中文全半角轉(zhuǎn)換、中文自動分詞、英文tokenizing、英文大小寫同一處理、編碼亂碼過濾等。

第二生成單元803、用于根據(jù)預(yù)處理后的雙語句對建立索引,形成索引資源庫。

建立索引有很多種方法,如倒排索引方法、hashing mask方法,本發(fā)明實施例優(yōu)選采用倒排索引方法建立索引。

在本發(fā)明一種獲取詞條譯文系統(tǒng)第四實施例中,除了包括接收單元、雙語句對索引資源庫確定單元、第一語言公共部分查找單元、譯文確定單元外,還可以包括分詞處理單元,用于對待處理詞條進行分詞處理,在該系統(tǒng)中也可以進一步包括索引生成單元。或者除了包括接收單元、雙語句對索引資源庫確定單元、第一語言公共部分查找單元、譯文確定單元外,還可以包括過濾單元,用于根據(jù)字串包含算法過濾所述候選雙語句對,形成更精確的檢索結(jié)果,在該系統(tǒng)中也可以進一步包括索引生成單元。又或者除了包括接收單元、雙語句對索引資源庫確定單元、第一語言公共部分查找單元、譯文確定單元外,還可以包括譯文處理單元和譯文輸出單元,譯文處理單元,用于對譯文進行整理、排序、篩選。譯文輸出單元,用于輸出處理后的譯文,在該系統(tǒng)中也可以進一步包括索引生成單元。

需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。

在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。

以上對本發(fā)明所提供的一種獲取詞條譯文的方法和系統(tǒng),進行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1