專利名稱:一種文本翻譯的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種文本翻譯的方法及裝置。
背景技術(shù):
語言是人類最重要的交際工具,伴隨著跨語言的學習、閱讀、交流的需求,對文本進行翻譯的各種技術(shù)應運而生?,F(xiàn)有技術(shù)一采用的文本翻譯方式是通過一些有限的預定義模板,從網(wǎng)頁中離線抽取互譯結(jié)果,并通過頻次進行質(zhì)量篩選和排序,最終得到翻譯文本?,F(xiàn)有技術(shù)二采用的文本翻譯方式是機器自動翻譯技術(shù),該種方式主要基于先驗的雙語對齊例句語料,經(jīng)過模型訓練形成已有雙語數(shù)據(jù)的語言模型,并利用該語言模型把用戶輸入的文本翻譯成另一種語言文本。在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點由于現(xiàn)有技術(shù)一采用的技術(shù)方案依賴于網(wǎng)頁數(shù)據(jù)的離線處理,因而實時性能不佳;針對現(xiàn)有技術(shù)二提供的技術(shù)方案,由于機器自動翻譯是基于已有的雙語例句進行學習和預測,而對于不符合相應語言規(guī)則的新詞、術(shù)語等待翻譯文本,很難利用已有的語言模型得到滿意的翻譯結(jié)果,導致自動翻譯結(jié)果較差。
發(fā)明內(nèi)容
為了提高文本翻譯的實時性能,以及翻譯結(jié)果的準確性,本發(fā)明實施例提供了一種文本翻譯的方法及裝置。所述技術(shù)方案如下一方面,提供了一種文本翻譯的方法,所述方法包括將待翻譯文本進行分詞處理,并為分詞后的待翻譯文本構(gòu)造檢索查詢串,所述檢索查詢串中包含所述待翻譯文本及至少一個分詞結(jié)果對應的翻譯信息;將構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果;在得到的所述檢索結(jié)果中抽取候選翻譯文本,并對抽取的所述候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。優(yōu)選地,所述將待翻譯文本進行分詞處理之后,還包括對分詞后的所述待翻譯文本進行術(shù)語特性識別;相應地,所述為分詞后的待翻譯文本構(gòu)造檢索查詢串,具體包括根據(jù)術(shù)語特性的識別結(jié)果為分詞后的待翻譯文本構(gòu)造檢索查詢串。優(yōu)選地,所述將構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果之后,還包括根據(jù)所述搜索引擎的類型,將得到的檢索結(jié)果進行存儲。其中,所述在得到的所述檢索結(jié)果中抽取候選翻譯文本,具體包括根據(jù)所述檢索結(jié)果構(gòu)建后綴樹,所述后綴樹中包含重復串;將所述后綴樹中的重復串按預設過濾原則進行過濾,并對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。所述對所述候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本,具體包括計算每個候選翻譯文本與所述待翻譯文本互為翻譯的特征值;根據(jù)計算的所述特征值確定所述每個候選翻譯文本的質(zhì)量類別值,并根據(jù)所述質(zhì)量類別值對每個候選翻譯文本進行質(zhì)量分類;根據(jù)所述每個候選翻譯文本的分類結(jié)果選取翻譯文本。另一方面,提供了一種文本翻譯的裝置,所述裝置包括分詞模塊,用于將待翻譯文本進行分詞處理;構(gòu)造模塊,用于為所述分詞模塊分詞后的待翻譯文本構(gòu)造檢索查詢串,所述檢索查詢串中包含所述待翻譯文本及至少一個分詞結(jié)果對應的翻譯信息;檢索模塊,用于將所述構(gòu)造模塊構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索, 得到檢索結(jié)果;抽取模塊,用于在所述檢索模塊得到的所述檢索結(jié)果中抽取候選翻譯文本;處理模塊,用于對所述抽取模塊抽取的所述候選翻譯文本進行質(zhì)量評價及篩選, 得到翻譯文本。優(yōu)選地,所述裝置,還包括識別模塊,用于將待翻譯文本進行分詞處理之后,對分詞后的所述待翻譯文本進行術(shù)語特性識別;相應地,所述構(gòu)造模塊,具體用于根據(jù)所述識別模塊的識別結(jié)果為分詞后的待翻譯文本構(gòu)造檢索查詢串。優(yōu)選地,所述裝置,還包括存儲模塊,用于根據(jù)所述搜索引擎的類型,將所述檢索模塊檢索到的檢索結(jié)果進行存儲。其中,所述抽取模塊,具體包括構(gòu)建單元,用于根據(jù)所述檢索結(jié)果構(gòu)建后綴樹,所述后綴樹中包括重復串;過濾單元,用于將所述后綴樹中的重復串按預設過濾原則進行過濾;處理單元,用于對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。所述處理模塊,具體包括計算單元,用于計算每個候選翻譯文本與所述待翻譯文本互為翻譯的特征值;分類單元,用于根據(jù)計算的所述特征值確定所述每個候選翻譯文本的質(zhì)量類別值,并根據(jù)所述質(zhì)量類別值對每個候選翻譯文本進行質(zhì)量分類;選取單元,用于根據(jù)所述每個候選翻譯文本的分類結(jié)果選取翻譯文本。本發(fā)明實施例提供的技術(shù)方案的有益效果是通過構(gòu)造包含待翻譯文本及翻譯信息的檢索查詢串,并將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,不僅可以保證翻譯結(jié)果的實時性能,還可以有效提升檢索結(jié)果的相關(guān)性,進而保證翻譯結(jié)果的準確性;另外,通過對候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本,可使翻譯結(jié)果的準確性得到進一步的提高。
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例一提供的文本翻譯的方法流程圖;圖2是本發(fā)明實施例二提供的文本翻譯的方法流程圖;圖3是本發(fā)明實施例二提供的檢索結(jié)果存儲示意圖;圖4是本發(fā)明實施例三提供的文本翻譯的裝置結(jié)構(gòu)示意圖;圖5是本發(fā)明實施例三提供的另一種文本翻譯的裝置結(jié)構(gòu)示意圖;圖6是本發(fā)明實施例三提供的又一種文本翻譯的裝置結(jié)構(gòu)示意圖;圖7是本發(fā)明實施例三提供的文本翻譯的裝置中的抽取模塊結(jié)構(gòu)示意圖;圖8是本發(fā)明實施例三提供的文本翻譯的裝置中的處理模塊結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。實施例一參見圖1,本實施例提供了一種文本翻譯的方法,該方法流程具體如下101 將待翻譯文本進行分詞處理,并為分詞后的待翻譯文本構(gòu)造檢索查詢串,該檢索查詢串中包含待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息;102 將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果;103 在得到的檢索結(jié)果中抽取候選翻譯文本,并對抽取的候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。本實施例提供的方法,通過構(gòu)造包含待翻譯文本及翻譯信息的檢索查詢串,并將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,不僅可以保證翻譯結(jié)果的實時性能,還可以有效提升檢索結(jié)果的相關(guān)性,進而保證翻譯結(jié)果的準確性;另外,通過對候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本,可使翻譯結(jié)果的準確性得到進一步的提高。實施例二本實施例提供了一種文本翻譯的方法,通過該方法不僅可以提高文本翻譯的實時性能,還能提高翻譯結(jié)果的準確性。參見圖2,本實施例提供的文本翻譯的方法流程具體如下201 將待翻譯文本進行分詞處理,并對分詞后的待翻譯文本進行術(shù)語特性識別;具體地,待翻譯文本即為用戶輸入的文本,除了將待翻譯文本進行分詞處理,根據(jù)實際情況需要,還可以對待翻譯文本進行繁簡轉(zhuǎn)換等預處理,本實施例對此不作具體限定, 同樣,本實施例不對將待翻譯文本進行分詞處理的方式以及分詞結(jié)果進行具體限定。為了便于說明,本實施例以用戶輸入的文本,即待翻譯文本為“星際之門真理之箱”,分詞結(jié)果為 “星際之門真理之箱”為例進行說明。其中,對分詞后的待翻譯文本進行術(shù)語特性識別為優(yōu)選步驟。術(shù)語是指各門學科中的專門用語,大多數(shù)術(shù)語不符合現(xiàn)有語言規(guī)則,且隨著新事物新概念的不斷涌現(xiàn),以及網(wǎng)絡信息的快速增長和傳播,各種網(wǎng)絡新詞、不同領(lǐng)域的專有詞匯等各種術(shù)語越來越多。如果待翻譯文本包括電影名、地名、品牌名等這類術(shù)語性強的詞匯或者短語,則認為該待翻譯文本具有術(shù)語特性,針對具有術(shù)語特性的待翻譯文本,利用搜索引擎進行檢索得到的檢索結(jié)果質(zhì)量較高,翻譯挖掘質(zhì)量也相應較好。但如果輸入的是普通待翻譯文本,比如“今天天氣怎么樣”,則認為該待翻譯文本不具有術(shù)語特性,針對不具有術(shù)語特性的待翻譯文本,利用搜索引擎進行檢索得到的檢索結(jié)果中的噪音很大,即與翻譯無關(guān)的信息較多,導致翻譯挖掘質(zhì)量也相應較差。本實施例對分詞后的待翻譯文本進行術(shù)語特性識別的方式不進行具體限定,僅以采用命名實體識別和規(guī)則模式匹配相結(jié)合的方式為例進行說明。其中,命名實體一般僅對人名、地名、組織機構(gòu)名進行識別,而對電影名、網(wǎng)絡新詞、品牌名等無能為力。對于這一類術(shù)語,本實施例通過規(guī)則模式匹配來進行識別,具體步驟如下首先,收集一個包含各類術(shù)語的語料庫,對其進行分詞和詞性標注。其次,統(tǒng)計各類術(shù)語的詞匯構(gòu)造模式和詞性構(gòu)成模式,構(gòu)建一個規(guī)則模式庫。例如電影名“變形金剛2”,“蜘蛛俠3”,“加勒比海盜3”等,都是“名詞+數(shù)詞”的構(gòu)成模式。最后,將用戶輸入的待翻譯文本與構(gòu)建的規(guī)則模式庫中的規(guī)則進行匹配,如果匹配成功,則識別結(jié)果為待翻譯文本具有術(shù)語特性,即待翻譯文本中包含術(shù)語詞匯,需要針對術(shù)語進行翻譯挖掘;否則,識別結(jié)果為待翻譯文本不具有術(shù)語特性。202 為分詞后的待翻譯文本構(gòu)造檢索查詢串,該檢索查詢串中包含待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息;針對該步驟,構(gòu)造的檢索查詢串query中包含待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息,可使得包含翻譯結(jié)果的網(wǎng)頁排在檢索結(jié)果前面。本實施例不對構(gòu)造檢索查詢串的方式以及檢索查詢串的內(nèi)容進行具體限定,具體實現(xiàn)時,構(gòu)造檢索查詢串可采用基于詞典的啟發(fā)式query構(gòu)造。其中,基于詞典的啟發(fā)式query構(gòu)造,包含按詞直譯和按音節(jié)音譯兩部分。首先收集構(gòu)建一個單詞翻譯詞典,以及一個音節(jié)音譯詞典。單詞翻譯詞典包含了基本詞匯的中英互譯表,例如真理 truth演義 Romance夢 dream…音譯詞典包含了基本音節(jié)的音字互譯表,例如Ve 維,微Ge 哥,隔… 仍以輸入的待翻譯文本“星際之門真理之箱”,分詞結(jié)果為“星際之門真理之箱”為例,將該待翻譯文本的分詞結(jié)果在上述單詞翻譯詞典或音節(jié)音譯詞典中查詢翻譯信息時, 以查找到分詞結(jié)果中的詞“真理”對應的翻譯信息“truth”為例,構(gòu)造的檢索查詢串中除了包含待翻譯文本“星際之門真理之箱”,還要包括分詞結(jié)果中的詞“真理”對應的翻譯信息“truth”,則構(gòu)造出的檢索query為“星際之門真理之箱truth”。需要說明的是,如果上述步驟201中不包括對分詞后的待翻譯文本進行術(shù)語特性識別的優(yōu)選步驟,則為分詞后的待翻譯文本構(gòu)造檢索查詢串時,可直接基于詞典對分詞結(jié)果進行翻譯,并將得到的翻譯信息包含在檢索查詢串中。對于對分詞后的待翻譯文本進行術(shù)語特性識別的優(yōu)選步驟,由于大多數(shù)詞典未能及時收錄術(shù)語性的詞匯,則對于具有術(shù)語特性的待翻譯文本,基于詞典也許未能給出與術(shù)語相關(guān)的翻譯信息,因此,如果對分詞后的待翻譯文本進行了術(shù)語特性識別,則需要根據(jù)術(shù)語特性的識別結(jié)果為分詞后的待翻譯文本構(gòu)造檢索查詢串。因為對于有些術(shù)語可以直接進行翻譯,例如,有些人名術(shù)語在詞典中未能給出對應的翻譯信息,但可直接對其進行人名翻譯,從而可使構(gòu)造的檢索查詢串中包含更多的翻譯信息,進而可在搜索引擎中檢索出與翻譯結(jié)果更具相關(guān)性的檢索結(jié)果。另外,針對基于詞典的啟發(fā)式query構(gòu)造得到的檢索查詢串在搜索引擎中進行檢索得到的檢索結(jié)果,可能包含了翻譯結(jié)果,也可能包含噪音,為了提高檢索結(jié)果包含翻譯的相關(guān)性,本實施例提供的技術(shù)方案在構(gòu)造檢索查詢串時,還可采取進一步對構(gòu)造的檢索查詢串進行預測和構(gòu)造的優(yōu)選步驟,即基于檢索結(jié)果的檢索查詢串再構(gòu)造。首先,對檢索結(jié)果進行文本預處理,包括繁簡轉(zhuǎn)換,分詞和詞性標注等操作。然后,統(tǒng)計出現(xiàn)在待翻譯文本上下文范圍中可能是翻譯的詞匯,將該詞匯作為候選翻譯。最后,對候選翻譯按頻次和詞性等信息進行篩選,得到重新構(gòu)造的檢索查詢串。例如,對于待翻譯文本“星際之門真理之箱”,統(tǒng)計出現(xiàn)在其周圍的英文單詞,并按共現(xiàn)頻次和詞性篩選后,得到“stargate”和“truth”兩個候選翻譯。則進一步重新構(gòu)造檢索查詢串后,得到新的檢索查詢串為“星際之門真理之箱stargate truth”。經(jīng)過兩次檢索查詢串的啟發(fā)式構(gòu)造,使得檢索結(jié)果包含翻譯的相關(guān)性極大提高,啟發(fā)式構(gòu)造的次數(shù)越多, 構(gòu)造的檢索查詢串在搜索引擎中進行檢索時,得到的檢索結(jié)果與翻譯結(jié)果的相關(guān)性越高, 本實施例不對進行啟發(fā)式構(gòu)造的次數(shù)進行具體限定,可以根據(jù)實際情況進行設定。203 將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果;針對該步驟,現(xiàn)有搜索引擎的類型有多種,例如S0S0、baidu、google等,本實施例不對具體采用哪種類型的搜索引擎進行限定。由于搜索引擎的類型不同,得到的檢索結(jié)果也會存在不同程度的差異,本實施例不對得到的具體檢索結(jié)果進行限定。204 根據(jù)搜索引擎的類型,將得到的檢索結(jié)果進行存儲;該步驟為優(yōu)選步驟,將得到的檢索結(jié)果進行本地存儲,不僅可以提高系統(tǒng)性能,還能避免重復檢索和下載,當再次挖掘輸入的同一待翻譯文本的翻譯結(jié)果時,可直接從本地磁盤讀取搜索引擎的檢索結(jié)果網(wǎng)頁,進而可以提高翻譯效率。根據(jù)搜索引擎的類型,將得到的檢索結(jié)果進行存儲時,本實施例不對存儲檢索結(jié)果的方式進行限定,具體可采用分層設計的策略,如圖3所示的檢索結(jié)果存儲示意圖。第一層為“引擎類型目錄索引”,該層對應不同搜索引擎類型進行索引。第二層為“二級目錄索引”,該層將符合相同特性的待翻譯文本統(tǒng)一管理在同一個目錄;具體實現(xiàn)時,可采用 MD5 (Message Digest Algorithm 5,消息摘要算法第五版)對輸入的待翻譯文本進行哈希, 將同一 MD5值的待翻譯文本索引在同一目錄。第三層為“一級目錄索引”,該層按照輸入的待翻譯文本進行索引。第四層為“Html (HyperText Mark-up Language,超文本標記語言或超文本鏈接標示語言)文件”,該層存儲輸入的待翻譯文本對應的檢索結(jié)果網(wǎng)頁,由于每個網(wǎng)頁顯示結(jié)果數(shù)受限,因而需要保存多個網(wǎng)頁的結(jié)果,本實施例不對保存網(wǎng)頁的個數(shù)進行具體限定。將檢索結(jié)果存儲之后,在索引待翻譯文本對應的檢索結(jié)果網(wǎng)頁時,即可按照上述結(jié)構(gòu)逐層進行索引。205 在得到的檢索結(jié)果中抽取候選翻譯文本;具體地,由于得到的檢索結(jié)果中不僅包含了候選翻譯文本,也會包含許多噪音,即與翻譯無關(guān)的信息。因此,需要準確地將候選翻譯文本從檢索結(jié)果中抽取出來。具體步驟包括根據(jù)檢索結(jié)果構(gòu)建后綴樹,后綴樹中包含重復串;將后綴樹中的重復串按預設過濾原則進行過濾,并對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。接下來對上述各個步驟進行詳細描述針對根據(jù)檢索結(jié)果構(gòu)建后綴樹,由于在搜索引擎中進行檢索得到的每條檢索結(jié)果分別包括標題和摘要兩部分,則在構(gòu)造后綴樹之前,為了提高算法魯棒性,需要對每條檢索結(jié)果的各部分進行一些預處理,預處理的內(nèi)容包括但不限于以下幾點1.去除多余空格,將連續(xù)的多個空格、tab合并為1個空格。2.統(tǒng)一標點,將各類標點進行統(tǒng)一標記。例如,邊界標點“(”、“”等統(tǒng)一標記為 “P_B”,切割標點“,”、“。”等統(tǒng)一標記為“P_C”。3.繁簡轉(zhuǎn)換,分詞和詞性標注。對每條檢索結(jié)果的各個部分進行預處理之后,將1條檢索結(jié)果的標題和摘要進行連接得到“Title&Snippet”格式化的文本,再將所有檢索結(jié)果的格式化文本進行連接,得到所有檢索結(jié)果的格式化文本Titlel&Snippetl#Title2&Snippet2#Title3&Snippet3#—對所有檢索結(jié)果的格式化文本建立后綴樹時,可采用現(xiàn)有技術(shù)實現(xiàn),本實施例在此不做贅述。例如,可參考建立后綴樹的文獻“hko Ukkonen, On-IineConstruction of Suffix Trees,,。由于所有檢索結(jié)果均是由同一檢索查詢串在搜索引擎中進行檢索得到的,則每條檢索結(jié)果中都應該包含與該檢索查詢串相關(guān)的字符串,經(jīng)過上述步驟將所有檢索結(jié)果的格式化文本建立后綴樹時,得到的后綴樹中將包括重復字符串,為了便于說明,本實施例將與其他字符串構(gòu)成重復的字符串簡稱為重復串,例如,后綴樹中多次出現(xiàn)了字符串A,則將字符串A作為后綴樹中的重復串。后綴樹中很大一部分的重復串是不包含任何翻譯信息的, 因此,過濾這些重復串能有效提升翻譯的效率和準確度。具體實現(xiàn)時,可將后綴樹中的重復串按預設過濾原則進行過濾,本實施例不對具體的預設過濾原則進行限定,包括但不限于下列幾種原則1.重復串是否同時包含中文和英文,如果否,則過濾該重復串;2.重復串的長度是否小于長度閾值,如果是,則過濾該重復串;3.重復頻率是否低于頻率閾值,如果是,則過濾該重復串,其中,重復頻率可理解為構(gòu)成重復的字符串的個數(shù),例如,重復頻率為5,如果后綴樹中構(gòu)成重復的某重復串個數(shù)為4,則過濾掉這4個重復串。本實施例不對上述長度閾值及頻率閾值的大小進行具體限定,具體實現(xiàn)時,可根據(jù)實際情況進行設定。對于過濾后的重復串,除了包含待翻譯文本和翻譯信息外,也包含其他的噪音信息,因此,需要對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。進行邊界切割時,以重復串“[mysiluMtargate. the. Ark. of. Truth. 2008.星際之門2008.真理之箱”為例,該重復串包含噪音串“[mysilu]”。根據(jù)噪音串所處位置,重復串可以表示為噪音串和信息串(包含輸入相關(guān)串和翻譯候選串)如下格式噪音串1輸入相關(guān)串噪音串2翻譯候選串噪音串3或者噪音串1翻譯候選串噪音串2輸入相關(guān)串噪音串3對于噪音串,主要采用概率統(tǒng)計和模式規(guī)則相結(jié)合的方式來處理。首先,通過模式規(guī)則處理邊界明顯的情況。1.對于中間的噪音串2,如果是翻譯提示詞如“中文譯名”、“譯名”、“翻譯”等,直接進行邊界切割。例如"Stargate The Ark Of Truth中文譯名星際之門2008 真理之箱”中噪音串2 “中文譯名”。2.對于邊界的噪音串1和噪音串3,如果語言類型和信息串相反,直接進行切割。例如“影片原名Margate The Ark Of Truth中文譯名星際之門2008 真理之箱”中的噪音串1 “影片原名”為中文,而候選翻譯語言類型為英文,則該噪音串1和候選翻譯語言類型相反,可以直接切割。如果噪音串邊界不明顯,采用上述模式規(guī)則無法進行邊界切割時,本實施例通過上下文熵來處理,即以條件熵作為邊界穩(wěn)定性判定的基礎(chǔ)。對于詞匯w,用變量Suf (w)來表示w的上下文詞匯集合,則條件熵的計算公式如下H{Suf{w)丨 W) = - Yj Pisuf丨丨 W) Iog2 Pisufi | w)
Suf^Suf(W)其中SUfi是集合Suf (w)中的一個元素。由于H(Suf(w) |w)的值域是不確定的, 為了方便基于熵對組合詞的邊界作閾值過濾,這里對它作歸一化處理,假設Suf(W)是完全隨機的,即每個SUfiR出現(xiàn)一次,則HSuf (w) |w) = Iog2PF(W),其中,PF(w)是w所有上下文的頻數(shù)。則將如下定義的計算公式作為w的半邊熵
Γ 、H{Suf{w)\w)XCE{w) = ~v^vy'~
Iog2 PF(w)如果基于上文計算XCE(w),則得到的熵被稱為下文熵,記作LCE(W),如果基于下文計算XCE (w),則得到的熵被稱為上文熵,記作RCE (w),通過上下文熵即可度量邊界穩(wěn)定性。將空格、邊界標點等字符作為候選邊界初步切割符號,重復串就可以表示為噪音串、切割符和信息串的組合。然后,以切割符為界,計算切割符前后兩個串的上下文熵,如果大于一定閾值θ,則進行邊界切割,其中,閾值θ的大小可以根據(jù)實際情況進行設定,本實施例不對閾值θ的大小進行具體限定。仍以重復串“[轉(zhuǎn)帖][星際之門真理之箱].Margate. The. Ark. Of. Truth”為例,進行初步標點切割后得到串“轉(zhuǎn)帖” + “星際之門真理之箱” + "Stargate. The. Ark.Of. Truth”。通過上下文熵可以有效把噪音“轉(zhuǎn)帖”切割開來。經(jīng)過邊界切割后,對待翻譯文本和候選翻譯文本進行了有效分離。例如,對“星際之門真理之箱stargate truth"的檢索結(jié)果構(gòu)建后綴樹和過濾重復串后,得到有效重復串 “星際之門真理之箱(Margate the Ark Of Truth) ”,然后進行邊界切割后分別得到輸入相關(guān)的“星際之門真理之箱”,和候選翻譯文本“Margate the Ark Of Truth”。但是,由于搜索引擎數(shù)據(jù)特殊性,經(jīng)常會出現(xiàn)“Margate The Ark Of Tr··· ”這類省略的候選翻譯, 尤其在搜索結(jié)果的標題中。這里,需要通過摘要的詳細內(nèi)容對“…”的單詞進行補全。本實施例不對具體補全方式進行限定,實際應用中,可利用其他檢索結(jié)果對省略的候選翻譯進行補全,以便后續(xù)步驟對候選翻譯文本進行質(zhì)量評價及篩選。206 對候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。針對該步驟,由于上述步驟205得到的候選翻譯文本的質(zhì)量參差不齊,需要對候選翻譯文本進行質(zhì)量評價及篩選。具體步驟包括計算每個候選翻譯文本與待翻譯文本互為翻譯的特征值;根據(jù)計算的特征值將每個候選翻譯文本進行質(zhì)量分類,得到每個候選翻譯文本的質(zhì)量類別值;根據(jù)得到的每個候選翻譯文本的質(zhì)量類別值選取翻譯文本。其中,本實施例不對每個候選翻譯文本與待翻譯文本互為翻譯的特征進行具體限定,僅以特征為語義相關(guān)及位置相關(guān)為例進行說明。語義相關(guān)特征主要描述候選翻譯文本是否在語義上與待翻譯文本構(gòu)成翻譯。例如,在對待翻譯文本“際之門真理之箱”的候選翻譯文本“Margate TheArk Of Truth”進行分詞和互譯對齊后,兩者構(gòu)成翻譯的語義相關(guān)性很大。但對于候選“AC3-WAF-BT”,則語義相關(guān)性很小。這里語義相關(guān)性通過詞對齊度WAlign(input,cand)來度量,其中input為輸入,cand為翻譯候選,該詞對齊度定義為
權(quán)利要求
1.一種文本翻譯的方法,其特征在于,所述方法包括將待翻譯文本進行分詞處理,并為分詞后的待翻譯文本構(gòu)造檢索查詢串,所述檢索查詢串中包含所述待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息; 將構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果; 在得到的所述檢索結(jié)果中抽取候選翻譯文本,并對抽取的所述候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待翻譯文本進行分詞處理之后,還包括對分詞后的所述待翻譯文本進行術(shù)語特性識別;相應地,所述為分詞后的待翻譯文本構(gòu)造檢索查詢串,具體包括根據(jù)術(shù)語特性的識別結(jié)果為分詞后的待翻譯文本構(gòu)造檢索查詢串。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果之后,還包括根據(jù)所述搜索引擎的類型,將得到的檢索結(jié)果進行存儲。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述在得到的所述檢索結(jié)果中抽取候選翻譯文本,具體包括根據(jù)所述檢索結(jié)果構(gòu)建后綴樹,所述后綴樹中包含重復串;將所述后綴樹中的重復串按預設過濾原則進行過濾,并對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本,具體包括計算每個候選翻譯文本與所述待翻譯文本互為翻譯的特征值; 根據(jù)計算的所述特征值確定所述每個候選翻譯文本的質(zhì)量類別值,并根據(jù)所述質(zhì)量類別值對每個候選翻譯文本進行質(zhì)量分類;根據(jù)所述每個候選翻譯文本的分類結(jié)果選取翻譯文本。
6.一種文本翻譯的裝置,其特征在于,所述裝置包括 分詞模塊,用于將待翻譯文本進行分詞處理;構(gòu)造模塊,用于為所述分詞模塊分詞后的待翻譯文本構(gòu)造檢索查詢串,所述檢索查詢串中包含所述待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息;檢索模塊,用于將所述構(gòu)造模塊構(gòu)造的所述檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果;抽取模塊,用于在所述檢索模塊得到的所述檢索結(jié)果中抽取候選翻譯文本; 處理模塊,用于對所述抽取模塊抽取的所述候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置,還包括識別模塊,用于在所述分詞模塊將待翻譯文本進行分詞處理之后,對分詞后的所述待翻譯文本進行術(shù)語特性識別;相應地,所述構(gòu)造模塊,具體用于根據(jù)所述識別模塊的識別結(jié)果為分詞后的待翻譯文本構(gòu)造檢索查詢串。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置,還包括存儲模塊,用于根據(jù)所述搜索引擎的類型,將所述檢索模塊檢索到的檢索結(jié)果進行存儲。
9 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述抽取模塊,具體包括 構(gòu)建單元,用于根據(jù)所述檢索結(jié)果構(gòu)建后綴樹,所述后綴樹中包括重復串; 過濾單元,用于將所述后綴樹中的重復串按預設過濾原則進行過濾;處理單元,用于對過濾后的重復串進行邊界切割及擴展處理,得到候選翻譯文本。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述處理模塊,具體包括計算單元,用于計算每個候選翻譯文本與所述待翻譯文本互為翻譯的特征值; 分類單元,用于根據(jù)計算的所述特征值確定所述每個候選翻譯文本的質(zhì)量類別值,并根據(jù)所述質(zhì)量類別值對每個候選翻譯文本進行質(zhì)量分類;選取單元,用于根據(jù)所述每個候選翻譯文本的分類結(jié)果選取翻譯文本。
全文摘要
本發(fā)明公開了一種文本翻譯的方法及裝置,屬于信息處理技術(shù)領(lǐng)域。所述方法包括將待翻譯文本進行分詞處理,并為分詞后的待翻譯文本構(gòu)造檢索查詢串,該檢索查詢串中包含待翻譯文本及分詞結(jié)果中的至少一個詞對應的翻譯信息;將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,得到檢索結(jié)果;在得到的檢索結(jié)果中抽取候選翻譯文本,并對抽取的候選翻譯文本進行質(zhì)量評價及篩選,得到翻譯文本。本發(fā)明通過構(gòu)造包含翻譯信息的檢索查詢串,并將構(gòu)造的檢索查詢串在搜索引擎中進行檢索,不僅能保證翻譯結(jié)果的實時性能,還能有效提升檢索結(jié)果的相關(guān)性,進而保證翻譯結(jié)果的準確性;另外,通過對候選翻譯文本進行質(zhì)量評價及篩選,可進一步提高翻譯結(jié)果的準確性。
文檔編號G06F17/30GK102253930SQ20101017810
公開日2011年11月23日 申請日期2010年5月18日 優(yōu)先權(quán)日2010年5月18日
發(fā)明者劉懷軍, 方高林, 王震 申請人:騰訊科技(深圳)有限公司