專利名稱::一種借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及自然語言處理
技術(shù)領(lǐng)域:
,是一種借助網(wǎng)絡(luò)挖掘輔助漢英機(jī)構(gòu)名翻譯的方法及裝置。
背景技術(shù):
:命名實(shí)體包括人名、地名、機(jī)構(gòu)名等七類。命名實(shí)體在人類語言中傳遞著重要信息,它的識別是自然語言處理領(lǐng)域的關(guān)鍵技術(shù)之一。在多語言處理中,命名實(shí)體的翻譯結(jié)果直接影響到多語言信息處理應(yīng)用系統(tǒng)的性能。機(jī)構(gòu)名是命名實(shí)體中最重要和最復(fù)雜的一類,因此機(jī)構(gòu)名翻譯也是命名實(shí)體翻譯中的難點(diǎn)。由于機(jī)構(gòu)名的普遍性、重要性和復(fù)雜性,漢英機(jī)構(gòu)名翻譯的研究具有重要的學(xué)術(shù)意義和實(shí)用價值。傳統(tǒng)的機(jī)構(gòu)名翻譯一直采用統(tǒng)計翻譯的方法將作為訓(xùn)練語料的雙語機(jī)構(gòu)名翻譯對按照一定的方式進(jìn)行切分和預(yù)處理,然后進(jìn)行對齊,并計算出對齊概率。當(dāng)新的機(jī)構(gòu)名需要翻譯時,按照同樣的方式進(jìn)行切分和預(yù)處理,然后根據(jù)已經(jīng)得到的對齊概率,計算搜索出一個基于此概率的最優(yōu)翻譯結(jié)果。機(jī)構(gòu)名是命名實(shí)體中最復(fù)雜的一類,表現(xiàn)在從結(jié)構(gòu)上,機(jī)構(gòu)名可以包含人名、地名,也可以包含子機(jī)構(gòu)名;從翻譯方法上,機(jī)構(gòu)名翻譯需要使用音譯和意譯。因此,機(jī)構(gòu)名翻譯存在很多困難,主要包括(1)分詞困難因?yàn)橐糇g或者縮略部分往往是未登錄詞,從而不能保證分詞的正確率,影響了對齊和翻譯的結(jié)果;(2)結(jié)構(gòu)復(fù)雜因?yàn)闄C(jī)構(gòu)名可以包括子機(jī)構(gòu)名,復(fù)雜的結(jié)構(gòu)增加了機(jī)構(gòu)名翻譯的難度;(3)順序問題翻譯結(jié)果中單詞的順序如何安排存在很大的隨意性,難以用具體規(guī)律來描述,例如"中國銀行"需要翻譯為"thebankofchina","花旗銀行"則翻譯為"thecitybank";(4)選詞問題即需要在意義相近的英文單詞中選擇最合適的一個。因?yàn)槭艿饺藗冋Z言習(xí)慣的影響,也具有較大的隨意性。因此,要完全正確地翻譯出一個機(jī)構(gòu)名是一項(xiàng)具有挑戰(zhàn)性的工作。
發(fā)明內(nèi)容本發(fā)明的目的是針對漢英機(jī)構(gòu)名翻譯存在的四個問題,將網(wǎng)絡(luò)資源引入到漢英機(jī)構(gòu)名翻譯的過程中,結(jié)合統(tǒng)計模型實(shí)現(xiàn)從中文機(jī)構(gòu)名到英文機(jī)構(gòu)名的翻譯,為此,提供一種借助挖掘網(wǎng)絡(luò)資源輔助的漢英機(jī)構(gòu)名翻譯方法和裝置。為達(dá)成所述目的,本發(fā)明第一方面,是提供一種漢英機(jī)構(gòu)名翻譯方法,步驟如下步驟Sl:使用基于字的條件隨機(jī)場(CRF)序列標(biāo)注模型將待翻譯的中文機(jī)構(gòu)名切分為四種語塊的序列,并對每個語塊分別進(jìn)行分詞處理,得到一個中文機(jī)構(gòu)名的分詞序列;步驟S2:從中文機(jī)構(gòu)名的分詞序列中選擇若干詞,使用統(tǒng)計翻譯模塊將所選擇中文機(jī)構(gòu)名的待翻譯中文詞語翻譯為對應(yīng)的英文單詞并生成查詢;步驟S3:將待翻譯的中文機(jī)構(gòu)名和翻譯得到的部分單詞組合為一個查詢,利用搜索引擎得到包含該査詢的若干網(wǎng)頁片段,提取網(wǎng)頁片段中的英文部分;步驟S4:將待翻譯的中文機(jī)構(gòu)名與提取的英文句子進(jìn)行非對稱對齊,計算英文句子中每個片段與中文機(jī)構(gòu)名的對齊概率,并結(jié)合所述片段出現(xiàn)的頻率信息以及與中文機(jī)構(gòu)名的距離,篩選出最優(yōu)翻譯候選。為達(dá)成所述目的,本發(fā)明第二方面,是一種漢英機(jī)構(gòu)名翻譯方法裝置,包括有條件隨機(jī)場分詞模塊接收中文機(jī)構(gòu)名,用于將中文機(jī)構(gòu)名切分為漢字序列,然后使用通過訓(xùn)練得到的條件隨機(jī)場標(biāo)注模型將中文機(jī)構(gòu)名分成四種語塊,再對每個語塊應(yīng)用不同的分詞策略對每個語塊進(jìn)行分詞,得到中文分詞序列;條件隨機(jī)場分詞模塊與啟發(fā)式查詢構(gòu)造模塊連接,啟發(fā)式查詢構(gòu)造模塊接收條件隨機(jī)場分詞模塊輸出的中文詞語序列,篩選出需要進(jìn)行翻譯的中文詞語,輸入到統(tǒng)計翻譯模塊,并將中文詞語的翻譯結(jié)果與待翻譯的中文機(jī)構(gòu)名一起構(gòu)成混合查詢,然后將混合查詢提交給搜索引擎進(jìn)行檢索;統(tǒng)計翻譯模塊與啟發(fā)式查詢構(gòu)造模塊連接,統(tǒng)計翻譯模塊接收啟發(fā)式查詢構(gòu)造模塊輸出的中文詞語,使用訓(xùn)練得到的翻譯模型進(jìn)行翻譯,得到英文結(jié)果,返回給啟發(fā)式查詢構(gòu)造模塊;啟發(fā)式查詢構(gòu)造模塊與非對稱對齊抽取模塊連接,非對稱對齊抽取模塊從啟發(fā)式查詢構(gòu)造模塊中接收由中文機(jī)構(gòu)名和若干英文詞匯構(gòu)成的混合查詢,將混合查詢提交給搜索引擎,用以確保從網(wǎng)絡(luò)上挖掘到有效的漢英混合網(wǎng)頁片段,抽取網(wǎng)頁片段中含有的英文句子,與待翻譯的中文機(jī)構(gòu)名進(jìn)行非對稱對齊,抽取最優(yōu)對齊片段作為翻譯最終結(jié)果。本發(fā)明的有益效果漢英機(jī)構(gòu)名翻譯是將中文機(jī)構(gòu)名翻譯為其對應(yīng)的英語表示的過程。本發(fā)明不同于傳統(tǒng)的僅使用統(tǒng)計翻譯模型進(jìn)行漢英機(jī)構(gòu)名翻譯的方法,本發(fā)明的系統(tǒng)將統(tǒng)計翻譯模型和網(wǎng)絡(luò)資源充分結(jié)合在一起,其目的是,通過挖掘網(wǎng)絡(luò)資源中包含的信息,克服統(tǒng)計模型存在的四個主要問題,從而提高機(jī)構(gòu)名翻譯結(jié)果的精確率。借助條件隨機(jī)場序列標(biāo)注模型將中文機(jī)構(gòu)名劃分為四種語塊(包括稱謂語塊、地名語塊、修飾語塊、類型語塊),并對每個語塊進(jìn)行單獨(dú)的分詞處理,從而有效克服了機(jī)構(gòu)名中包含的音譯等未登錄詞所造成的分詞錯誤,提高了翻譯和對齊的準(zhǔn)確率。通過篩選具有充足信息量和翻譯置信度的中文詞匯進(jìn)行翻譯,組合成混合查詢,從而能夠檢索到漢英混合語言網(wǎng)頁,有效地提高了返回網(wǎng)頁片段中英文翻譯的出現(xiàn)概率。通過采用非對稱對齊技術(shù),使用中文機(jī)構(gòu)名直接對齊英文句子,篩選出最優(yōu)對齊片段,從而避免了對英文句子進(jìn)行命名實(shí)體識別過程造成的誤差,有效地提高了對齊的精確率。通過借助網(wǎng)絡(luò)挖掘的方法,我們可以從網(wǎng)頁中出現(xiàn)的英文句子中直接尋找到中文機(jī)構(gòu)名翻譯的正確答案,從而避免了統(tǒng)計翻譯模塊在翻譯過程中存在的結(jié)構(gòu)問題、順序問題和用詞問題。經(jīng)過實(shí)驗(yàn)證明,漢英機(jī)構(gòu)名翻譯的精確率相對于僅使用翻譯模型提高了35.26%。圖1是本發(fā)明中借助網(wǎng)絡(luò)挖掘輔助的漢英機(jī)構(gòu)名翻譯流程圖2是本發(fā)明中借助網(wǎng)絡(luò)挖掘輔助的漢英機(jī)構(gòu)名翻譯裝置結(jié)構(gòu)具體實(shí)施例方式下面將結(jié)合和具體實(shí)施方式對本發(fā)明方法做進(jìn)一步詳細(xì)描述,應(yīng)指出的是,所描述的實(shí)施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。為了解決漢英機(jī)構(gòu)名翻譯存在的四個難點(diǎn),本發(fā)明是借助網(wǎng)絡(luò)資源,使用統(tǒng)計翻譯模塊1提供的若干線索,直接從網(wǎng)頁上抽取目標(biāo)翻譯。如圖1本發(fā)明借助網(wǎng)絡(luò)挖掘輔助的漢英機(jī)構(gòu)名翻譯流程圖所示,本發(fā)明使用借助網(wǎng)絡(luò)挖掘方法輔助漢英機(jī)構(gòu)名翻譯的前提是首先能構(gòu)造一個有效的查詢,其次是該査詢能夠盡可能挖掘出包含有對應(yīng)英文翻譯的網(wǎng)頁。僅使用中文機(jī)構(gòu)名構(gòu)成的查詢很難找到漢英混合語言網(wǎng)頁,因此我們需要借助統(tǒng)計翻譯模塊1來生成一些線索。針對機(jī)構(gòu)名通常由若干個詞構(gòu)成的特點(diǎn),我們選擇構(gòu)成該中文機(jī)構(gòu)名所有詞語中的一部分進(jìn)行翻譯,并連同中文機(jī)構(gòu)名本身構(gòu)成一個混合語言查詢。因?yàn)闄C(jī)構(gòu)名含有復(fù)雜的成分,尤其是表示稱謂的部分通常是未登錄詞,對分詞的正確率造成了很大的影響。因此我們采用條件隨機(jī)場序列標(biāo)注模型,在基于字的基礎(chǔ)上,將機(jī)構(gòu)名分為四種類型的語塊,并對每個語塊進(jìn)行不同的分詞處理來保證分詞的準(zhǔn)確率。其次,待翻譯詞語的選擇既要體現(xiàn)出詞語對整個機(jī)構(gòu)名的信息量,也要能夠保證翻譯模型具有一定的置信度。一個常見的英文單詞對搜索結(jié)果中含有對應(yīng)英文翻譯的網(wǎng)頁起不到足夠的提示限定作用,即難以對尋找包含目標(biāo)機(jī)構(gòu)名翻譯的網(wǎng)頁有所幫助。而具有很強(qiáng)信息量的詞語往往翻譯難度很高,錯誤的翻譯也會對査詢造成顯著的誤導(dǎo)。因此我們必須考慮信息量和翻譯置信度的折中。使用查詢獲取混合語言網(wǎng)頁的片段后,我們將把正確的英文翻譯從網(wǎng)頁中的英文部分中抽取出來。通常的方法是先對英文句子進(jìn)行命名實(shí)體識別,然后再同中文機(jī)構(gòu)名對齊,選擇對齊概率最高的作為翻譯結(jié)果。為了避免先進(jìn)行命名實(shí)體識別造成的誤差,我們采用了非對稱對齊的方法,直接將中文機(jī)構(gòu)名與英文句子對齊,抽取句子中的最佳對齊部分作為翻譯結(jié)果,從而提高了對齊的準(zhǔn)確率。本發(fā)明要求開發(fā)和運(yùn)行的計算機(jī)具有Linux操作系統(tǒng)以及C+十和C語言開發(fā)編譯環(huán)境,具有正常的網(wǎng)絡(luò)連接條件,對硬件沒有特殊要求。如圖2借助網(wǎng)絡(luò)挖掘輔助的漢英機(jī)構(gòu)名翻譯的結(jié)構(gòu)圖所示,下面對照附圖2進(jìn)行說明,圖中由四部分構(gòu)成統(tǒng)計翻譯模塊l、條件隨機(jī)場分詞模塊2、啟發(fā)式查詢構(gòu)造模塊3、非對稱對齊抽取模塊4,連接方式如圖所示,其中條件隨機(jī)場分詞模塊2接收中文^l構(gòu)名,先將其切分為漢字序列,然后使用通過訓(xùn)練得到的條件隨機(jī)場標(biāo)注模型將中文機(jī)構(gòu)名分成四種語塊。再將每個語塊應(yīng)用不同的分詞策略進(jìn)行分詞,得到中文分詞序列;條件隨機(jī)場分詞模塊2與啟發(fā)式查詢構(gòu)造模塊3連接,啟發(fā)式查詢構(gòu)造模塊3接收條件隨機(jī)場分詞模塊2輸出的中文詞語序列,篩選出需要進(jìn)行翻譯的中文詞語,輸入到統(tǒng)計翻譯模塊l,并將中文詞語的翻譯結(jié)果與待翻譯的中文機(jī)構(gòu)名一起構(gòu)成混合查詢,然后將混合查詢提交給搜索引擎進(jìn)行檢索;統(tǒng)計翻譯模塊1與啟發(fā)式查詢構(gòu)造模塊3連接,統(tǒng)計翻譯模塊1接收啟發(fā)式査詢構(gòu)造模塊3輸出的中文詞語,使用訓(xùn)練得到的翻譯模型進(jìn)行翻譯,得到英文結(jié)果,返回給啟發(fā)式查詢構(gòu)造模塊3;啟發(fā)式查詢構(gòu)造模塊3與非對稱對齊抽取模塊4連接,非對稱對齊抽取模塊4從啟發(fā)式查詢構(gòu)造模塊3中接收混合查詢,將混合查詢提交給搜索引擎,以確保從網(wǎng)絡(luò)上挖掘到有效的漢英混合網(wǎng)頁片段,抽取網(wǎng)頁片段中含有的英文句子,與待翻譯的中文機(jī)構(gòu)名進(jìn)行非對稱對齊,抽取最優(yōu)對齊片段作為翻譯最終結(jié)果。本發(fā)明首先采用分步的方法提高分詞正確率,并選擇一些詞匯翻譯成英文組成混合査詢,并從檢索到的網(wǎng)頁片段的英文句子中使用非對稱對齊的方法提取最佳英文翻譯。通過借助網(wǎng)絡(luò)資源,有效地提高了機(jī)構(gòu)名翻譯的精確率。條件隨機(jī)場分詞模塊2的輸入是一個完整的中文機(jī)構(gòu)名,首先借助訓(xùn)練好的條件隨機(jī)場模型進(jìn)行語塊劃分,將中文機(jī)構(gòu)名分為四種類型的語塊。并對每個語塊進(jìn)行不同的分詞處理,從而得到一個詞語序列輸出到啟發(fā)式査詢構(gòu)造模塊3。在條件隨機(jī)場分詞模塊2中,詞語序列中的若干具有一定代表性和翻譯置信度的詞語將被選擇出來輸入到統(tǒng)計翻譯模塊1中。統(tǒng)計翻譯模塊1將運(yùn)用統(tǒng)計翻譯模型,將以上從條件隨機(jī)場分詞模塊2中被選擇出來的詞語翻譯為英文,并返回給啟發(fā)式查詢構(gòu)造模塊3。啟發(fā)式査詢構(gòu)造模塊3將英文單詞和中文機(jī)構(gòu)名組合成一個混合查詢,并將混合查詢輸出給非對稱對齊抽取模塊4。在非對稱對齊抽取模塊4中首先使用混合査詢檢索網(wǎng)頁,得到若干包含機(jī)構(gòu)名翻譯候選的網(wǎng)頁片段。將這些片段中的英文部分提取出來,借助非對稱對齊算法,與中文機(jī)構(gòu)名進(jìn)行對齊,從而篩選出最優(yōu)對齊片段,作為中文機(jī)構(gòu)名的英文翻譯返回。本發(fā)明采用挖掘網(wǎng)絡(luò)資源的思想來提升漢英機(jī)構(gòu)名翻譯的效果,與傳統(tǒng)的基于統(tǒng)計模型的機(jī)構(gòu)名翻譯不同。統(tǒng)計翻譯模塊1將只負(fù)責(zé)翻譯中文機(jī)構(gòu)名中的若干詞語,得到對應(yīng)的英文單詞,返回給啟發(fā)式查詢構(gòu)造模塊3,英文單詞同待翻譯的中文機(jī)構(gòu)名結(jié)合構(gòu)成一個混合査詢,以此作為線索來檢索漢英混合網(wǎng)頁。我們的目標(biāo)是在該混合網(wǎng)頁中找到對應(yīng)的英文翻譯,因此使用了非對稱對齊的算法,將中文機(jī)構(gòu)名與網(wǎng)頁中的英文句子進(jìn)行對齊來篩選最優(yōu)對齊片段,作為該中文機(jī)構(gòu)名的翻譯。通過上述步驟,將避免統(tǒng)計機(jī)構(gòu)名翻譯模型存在的結(jié)構(gòu)問題、順序問題和用詞問題,提高了結(jié)果的精確率。借助網(wǎng)絡(luò)挖掘輔助的漢英機(jī)構(gòu)名翻譯方法和裝置可以分為訓(xùn)練過程和翻譯過程兩部分。訓(xùn)練過程從訓(xùn)練語料中產(chǎn)生一個基于條件隨機(jī)場序列標(biāo)注算法的語塊劃分模型和一個統(tǒng)計翻譯模塊1。翻譯過程則分四個模塊進(jìn)行,即統(tǒng)計翻譯模塊l、條件隨機(jī)場分詞模塊2、啟發(fā)式查詢構(gòu)造模塊3和非對稱對齊抽取模塊4。具體過程如下訓(xùn)練過程包括1、訓(xùn)練條件隨機(jī)場序列標(biāo)注模型進(jìn)行四種語塊的劃分(1)、將標(biāo)注好的訓(xùn)練語料(標(biāo)記了四種語塊的中文機(jī)構(gòu)名)切分為漢字序列,每個漢字對應(yīng)著相應(yīng)的B-X或I-X標(biāo)記。其中B表示X語塊的開始,I表示在X語塊中。X代表了四種類型的語塊,即表示地名、稱謂、修飾和類型。(2)、使用CRF十+工具,對訓(xùn)練語料進(jìn)行訓(xùn)練,得到一個條件隨機(jī)場序列標(biāo)注模型。2、訓(xùn)練統(tǒng)計機(jī)構(gòu)名翻譯模型(1)、將訓(xùn)練語料(機(jī)構(gòu)名中英對照翻譯對)中的中文機(jī)構(gòu)名使用條件隨機(jī)場序列標(biāo)注模型進(jìn)行語塊劃分。對不同的語塊進(jìn)行不同的分詞處理,得到一個中文機(jī)構(gòu)名的分詞序列。(2)、利用GIZA+十工具,從中文到英文和英文到中文兩個方向,對訓(xùn)練語料進(jìn)行對位,由對位結(jié)果可以得到中文詞語與英文單詞的翻譯概率/0,.lo,)和;O,.|e,.)。其中e,.表示英文單詞,o,.表示中文詞語。(3)、從中文詞語與英文單詞對齊后的結(jié)果中抽取短語,并得到短語的概率。翻譯過程步驟包括步驟(1):將待翻譯的中文機(jī)構(gòu)名經(jīng)過條件隨機(jī)場分詞模塊2進(jìn)行分詞;步驟(2);將分詞序列輸入啟發(fā)式查詢構(gòu)造模塊3,選擇若干詞,輸入統(tǒng)計翻譯模塊得到其英文翻譯,然后與待翻譯的中文機(jī)構(gòu)名構(gòu)成査詢;步驟(3):借助搜索引擎查詢相關(guān)網(wǎng)頁,從獲取的中英文混合語言網(wǎng)頁片段中抽取英文句子;步驟(4):在非對稱對齊抽取模塊4中,將中文機(jī)構(gòu)名與英文句子對齊,計算英文句子中每個片段與中文機(jī)構(gòu)名的對齊概率,并結(jié)合所述片段出現(xiàn)的頻率信息以及與中文機(jī)構(gòu)名的距離,抽取最優(yōu)對齊片段作為翻譯結(jié)果。下面詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題1、條件隨機(jī)場分詞模塊2使用統(tǒng)計機(jī)構(gòu)名翻譯模型需要基于正確的分詞結(jié)果。在對齊階段,正確的中文分詞可以得到更精確的對齊結(jié)果。在解碼階段,也需要使用盡可能正確的分詞結(jié)果作為輸入。但是機(jī)構(gòu)名中包含若干難以正確分詞的部分,例如音譯、縮略等。我們的方法是,將機(jī)構(gòu)名分解成四種語塊的組合,即先對機(jī)構(gòu)名進(jìn)行劃分語塊的操作,再對每個語塊進(jìn)行不同的分詞處理,從而提高分詞的正確性。我們將機(jī)構(gòu)名的構(gòu)成分解為四種不同功能的語塊1)地名語塊(LOC):表示該機(jī)構(gòu)名所屬的地理位置2)稱謂語塊(NAM):表示該機(jī)構(gòu)名的名稱屬性3)修飾語塊(MOD):表示對該機(jī)構(gòu)的功能等屬性的限制性描述4)類型語塊(KEY):表示該機(jī)構(gòu)的類型例如北京/LOC百富勤/NAM投資咨詢/MOD有限公司/KEY我們使用的是CRF++0.5軟件工具包來完成訓(xùn)練和解碼操作。在條件隨機(jī)場模型中,我們將選擇如下一些特征來構(gòu)造模型<table>tableseeoriginaldocumentpage11</column></row><table>2、統(tǒng)計翻譯模塊1對于已有的中英對照機(jī)構(gòu)名翻譯對,采用012八++對位工具,可以得到一系列生成文件,我們只利用其中的中文詞語與英文單詞的對齊概率文件。我們利用GIZA十+工具,從中文到英文和英文到中文兩個方向?qū)崿F(xiàn)中文詞語到英語單詞的對齊,可以得到兩個對齊概率文件。這兩個對齊概率文件將用于統(tǒng)計音譯模塊1的解碼過程中。在統(tǒng)計翻譯模塊i中,目標(biāo)語言的句子f;將被看成是一個噪聲信道的輸出,信道的輸入則是源語言的句子e-e,e2...^。我們使用后驗(yàn)概率最大化的方式來找到輸入的源語言句子。公式如下e'=argmax尸(e|/)=argmax尸(/1應(yīng)用于本發(fā)明的系統(tǒng)中,則f代表中文詞語序列,e代表英文單詞序列。目標(biāo)就是在給定中文詞語序列的基礎(chǔ)上,搜索使后驗(yàn)概率最大化的英文單詞序列。其中/^)代表了描述英文單詞相互同現(xiàn)關(guān)系的語言模型,該語言模型可以在一個英文語料庫中建立。在使用012八++對齊后,我們進(jìn)一步使用Moses統(tǒng)計翻譯軟件包中的其他部分進(jìn)行短語抽取和語言模型的訓(xùn)練。從而得到一個基于短語的統(tǒng)計機(jī)構(gòu)名翻譯模型。3、啟發(fā)式査詢構(gòu)造模塊3使用網(wǎng)絡(luò)信息輔助機(jī)構(gòu)名翻譯的任務(wù),前提是必須能夠有效地從網(wǎng)絡(luò)上挖掘到有用的信息。我們采用先挖掘漢英雙語網(wǎng)頁,然后從網(wǎng)頁上提取該中文機(jī)構(gòu)名的英文翻譯候選的方法。所以我們必須構(gòu)造有效的査詢,能夠通過搜索引擎檢索到這些網(wǎng)頁。因?yàn)樵诰W(wǎng)絡(luò)上,英文網(wǎng)頁中存在中文的情況很少,因此我們只能挖掘夾雜著英文的中文網(wǎng)頁。而使用中文機(jī)構(gòu)名作為査詢難以挖掘到混合網(wǎng)頁,因此我們需要通過翻譯部分機(jī)構(gòu)名,將翻譯結(jié)果作為線索加入到査詢中,去挖掘混合網(wǎng)頁。我們要選擇中文機(jī)構(gòu)名的一個部分放入統(tǒng)計翻譯模型,得到英文翻譯,加入査詢中檢索混合網(wǎng)頁。一個問題是,選擇哪一個部分進(jìn)行翻譯。我們需要從兩個方面來考慮一是選擇加入的部分是否能有效提高查詢檢索的精確率,即將含有翻譯候選的網(wǎng)頁排到前面來。二是加入的部分不能引入噪聲而誤導(dǎo)搜索引擎。對第一個方面,即是要考察該部分對整個機(jī)構(gòu)名的限定性;對第二方面,即是要考察翻譯模型對翻譯結(jié)果的置信度,置信度越高則出現(xiàn)錯誤的可能性就越低。我們從互信息的角度來衡量每個部分對整個機(jī)構(gòu)名的作用。下面的公式計算了中文機(jī)構(gòu)名Y中的一個詞X與整個機(jī)構(gòu)名之間的互信息量M/PFOJ)。公式M,(x,"=ZlogP(X,y)y丫P(x)p(y)其中x表示中文機(jī)構(gòu)名中的一個詞,Y表示中文機(jī)構(gòu)名,y表示機(jī)構(gòu)名Y中的一個詞。p(x,力表示在同一個機(jī)構(gòu)名中詞x和詞y同時出現(xiàn)的概率。勿),M",M力均從整個語料庫中統(tǒng)計得到。另外我們也計算某個中文機(jī)構(gòu)名Y中的詞x與Y中所有語塊之間的互信息量,公式如下其中c表示Y中含有的語塊類型。Mx,c),P(X),p(C)均從整個語料庫中統(tǒng)計得到。最后我們將兩種信息量整合起來,得到M/o,y)-aM,o,n+(卜a)M/c(x,:r)我們還需要考慮機(jī)構(gòu)名翻譯的風(fēng)險,從上面的計算公式可以看出,對機(jī)構(gòu)名的互信息量很大,但是稱謂語塊多數(shù)需要進(jìn)行音譯,而漢英音譯也是一個比較難的部分。而錯誤的音譯結(jié)果可能對檢索結(jié)果產(chǎn)生嚴(yán)重的誤導(dǎo)作用。因此我們需要衡量翻譯的風(fēng)險,我們采用設(shè)定閾值的辦法。設(shè)定闊值為a,并將《同每個詞的翻譯置信度進(jìn)行比較,當(dāng)翻譯置信度低于閾值時,我們就不會將該詞的翻譯加入到查詢中。為了達(dá)到系統(tǒng)最佳性能,可以通過系統(tǒng)在測試集上的表現(xiàn)來調(diào)整閾值,在本系統(tǒng)中設(shè)定為0.45。例如"天津本田摩托車有限公司",其中對整個機(jī)構(gòu)名互信息量最大的詞是"本田",但是"本田"翻譯為"Honda"的音譯過程容易產(chǎn)生錯誤,翻譯置信度很低。而"有限公司"則屬于非常普遍的詞語,具有很高的翻譯置信度,但對整個機(jī)構(gòu)名的互信息量很低,起不到區(qū)別限定作用。因此我們將選擇具有一定翻譯置信度和互信息量的詞語進(jìn)行翻譯,在本例中我們選擇"天津"和"摩托車"。4、非對稱對齊抽取模塊4將網(wǎng)頁通過搜索引擎的方法從網(wǎng)絡(luò)上獲取后,我們要從這些混合網(wǎng)頁中得到中文機(jī)構(gòu)名的翻譯候選。因此,我們將首先從混合網(wǎng)頁中獲取英文句子。然后使用非對稱命名實(shí)體對齊的方法從英文句子中尋找出與給定中文命名實(shí)體對齊概率的片段作為翻譯候選。傳統(tǒng)的命名實(shí)體對齊方法通常分為3個步驟1)從平行語料庫的兩種語言句子中分別進(jìn)行命名實(shí)體識別,得到源語言實(shí)體集合NEs和目標(biāo)語言實(shí)體集合NEt。2)對每個NEs中的實(shí)體,計算它與NEt中每個實(shí)體的對齊概率。3)對每個NEs中的實(shí)體,選擇一個最優(yōu)的NEt中的實(shí)體作為對齊結(jié)果。傳統(tǒng)的命名實(shí)體對齊方法存在如下兩個主要問題1)進(jìn)行命名實(shí)體識別時,由于命名實(shí)體識別本身的性能限制,將帶來很大的誤差,這個誤差將被傳遞到計算對齊概率的步驟。2)現(xiàn)有的方法在計算對齊概率時,忽略了具體的對齊方式,通常是計算源語言實(shí)體每個部分與目標(biāo)語言實(shí)體每個部分的對齊概率,并累加起來,這是不清晰的。我們需要明確的是源語言實(shí)體中的每個部分與目標(biāo)語言實(shí)體中一個確切部分的對應(yīng)關(guān)系及其概率?;谶@種情況,我們提出了不需要抽取命名實(shí)體的非對稱對齊方法,以避免引入命名實(shí)體識別的誤差并給出清晰的對齊方案。所謂非對稱,意思是指傳統(tǒng)的對齊方法是源語言命名實(shí)體與目標(biāo)語言命名實(shí)體對齊,或是給定源語言與目標(biāo)語言的平行句子對,要對齊其中的命名實(shí)體。而我們的對齊是給定一個正確的中文機(jī)構(gòu)名和一個英文句子,要求找到英文句子中一個連續(xù)的片段,與中文機(jī)構(gòu)名的對齊概率最高。我們的方法不需要事先在英文句子中進(jìn)行命名實(shí)體的識別,從而避免了識別造成的誤差。我們將使用擴(kuò)展的KM算法來實(shí)現(xiàn)非對稱命名實(shí)體對齊。KM算法是圖論中的一種經(jīng)典算法,用于計算帶權(quán)二分圖的最優(yōu)匹配。中文機(jī)構(gòu)名ON^CW,,CW2,…CWJ,英文句子ES^EW,,EW2,...,EWm},其中111>=11。我們的目標(biāo)是找到ES中的一個片段EWu+n={EWi,...,EWi+n},與ON的對齊概率最大。通過使用擴(kuò)展的KM算法,我們將清楚地得到一個對齊方式L,即對每個CWi,都有L(CWi)-EWj。從而得到更高的對齊精度。具體算法如下<formula>formulaseeoriginaldocumentpage14</formula>5)重新計算Cdrop的可行頂標(biāo),重新計算EWend的可行頂標(biāo)轉(zhuǎn)2)分析KM算法的原則是通過設(shè)置可行頂標(biāo)的方法篩選出若干邊,構(gòu)成相等子圖。從而在相等子圖上進(jìn)行匈牙利算法。因此,當(dāng)匹配的片段往后移動一位時,僅有一條邊被廢棄,同時增加了新的節(jié)點(diǎn)。由于每個匹配都是經(jīng)過尋找增廣軌道的方式加入到匹配方案中的,因此每移動一次,僅有一個頂點(diǎn)未許配,所以需要運(yùn)行一次增廣軌擴(kuò)展計算。我們將英文句子的長度記為m,中文機(jī)構(gòu)名的長度記為n,則KM算法的時間復(fù)雜度為O(n"),尋找一條增廣軌為0(nA3),所以總的時間復(fù)雜度即為0(m*nA3)。通過此算法,我們可以在不用抽取英文命名實(shí)體的情況下,根據(jù)KM算法計算出的帶權(quán)二分圖的最大匹配,解析出待翻譯中文機(jī)構(gòu)名的每個詞語同最優(yōu)英文句子片段中每個單詞的匹配方式及匹配概率。對每個句子,我們都可以得到一個最優(yōu)對齊片段ESi,i+n,在所有網(wǎng)頁中,我們就可以得到若干對齊片段。結(jié)合這些片段出現(xiàn)的頻率信息以及與中文命名實(shí)體的距離,我們計算出最優(yōu)翻譯候選。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。權(quán)利要求1、一種借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法,包括步驟如下步驟S1使用基于字的條件隨機(jī)場序列標(biāo)注模型將待翻譯的中文機(jī)構(gòu)名切分為四種語塊的序列,并對每個語塊分別進(jìn)行分詞處理,得到一個中文機(jī)構(gòu)名的分詞序列;步驟S2從中文機(jī)構(gòu)名的分詞序列中選擇若干詞,使用統(tǒng)計翻譯模塊將所選擇中文機(jī)構(gòu)名的待翻譯中文詞語翻譯為對應(yīng)的英文單詞并生成查詢;步驟S3將待翻譯的中文機(jī)構(gòu)名和翻譯得到的部分單詞組合為一個查詢,利用搜索引擎得到包含該查詢的若干網(wǎng)頁片段,提取網(wǎng)頁片段中的英文部分;步驟S4將待翻譯的中文機(jī)構(gòu)名與提取的英文句子進(jìn)行非對稱對齊,計算英文句子中每個片段與中文機(jī)構(gòu)名的對齊概率,并結(jié)合所述片段出現(xiàn)的頻率信息以及與中文機(jī)構(gòu)名的距離,篩選出最優(yōu)翻譯候選。2、根據(jù)權(quán)利要求1所述借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法,其特征在于,訓(xùn)練條件隨機(jī)場序列標(biāo)注模型進(jìn)行四種語塊的劃分是將標(biāo)注好的四種語塊的中文機(jī)構(gòu)名訓(xùn)練語料切分為漢字序列,每個漢字對應(yīng)著相應(yīng)的B-X或I-X標(biāo)記,其中B表示X語塊的開始,I表示在X語塊中,X表示地名語塊、稱謂語塊、修飾語塊和類型語塊。3、根據(jù)權(quán)利要求1所述借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法,其特征在于,統(tǒng)計翻譯模塊負(fù)責(zé)翻譯中文機(jī)構(gòu)名中的若干詞語,將翻譯得到的若干英文單詞同待翻譯中文機(jī)構(gòu)名結(jié)合構(gòu)成一個混合查詢,以此作為線索來檢索漢英混合網(wǎng)頁。4、根據(jù)權(quán)利要求1所述借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法,其特征在于,選擇待翻譯中文詞語時,將衡量該詞語與整個機(jī)構(gòu)名的互信息量,以及該詞語本身的翻譯置信度;其中互信息量的計算公式如下所示<formula>formulaseeoriginaldocumentpage2</formula>其中x表示中文機(jī)構(gòu)名中的一個詞,Y表示中文機(jī)構(gòu)名,y表示機(jī)構(gòu)名Y中的一個詞;^",力表示在同一個機(jī)構(gòu)名中詞x和詞y同時出現(xiàn)的概率;Mx,力,M",p(力均從整個語料庫中統(tǒng)計得到。5、根據(jù)權(quán)利要求1所述借助網(wǎng)絡(luò)知識輔助的漢英機(jī)構(gòu)名翻譯方法,其特征在于,從漢英混合網(wǎng)頁上抽取出英文句子,將直接使用非對稱對齊技術(shù),從英文句子中抽取與中文機(jī)構(gòu)名對齊概率最高的片段。6、一種漢英機(jī)構(gòu)名翻譯裝置,其特征在于,包括條件隨機(jī)場分詞模塊接收中文機(jī)構(gòu)名,用于將中文機(jī)構(gòu)名切分為漢字序列,然后使用通過訓(xùn)練得到的條件隨機(jī)場標(biāo)注模型將中文機(jī)構(gòu)名分成四種語塊,再對每個語塊應(yīng)用不同的分詞策略對每個語塊進(jìn)行分詞,得到中文分詞序列;條件隨機(jī)場分詞模塊與啟發(fā)式査詢構(gòu)造模塊連接,啟發(fā)式查詢構(gòu)造模塊接收條件隨機(jī)場分詞模塊輸出的中文分詞序列,篩選出需要進(jìn)行翻譯的中文詞語并輸入到統(tǒng)計翻譯模塊,并將翻譯得到的英文單詞與待翻譯的中文機(jī)構(gòu)名一起構(gòu)成混合查詢,然后將混合查詢提交給搜索引擎進(jìn)行檢索;統(tǒng)計翻譯模塊與啟發(fā)式查詢構(gòu)造模塊連接,統(tǒng)計翻譯模塊接收啟發(fā)式查詢構(gòu)造模塊輸出的中文詞語,使用訓(xùn)練得到的翻譯模型進(jìn)行翻譯,得到英文結(jié)果再輸出到啟發(fā)式査詢構(gòu)造模塊;啟發(fā)式査詢構(gòu)造模塊與非對稱對齊抽取模塊連接,非對稱對齊抽取模塊從啟發(fā)式査詢構(gòu)造模塊中接收由中文機(jī)構(gòu)名和若干英文詞匯構(gòu)成的混合査詢,將混合査詢提交給搜索引擎,用以確保從網(wǎng)絡(luò)上挖掘到有效的漢英混合網(wǎng)頁片段;抽取網(wǎng)頁片段中含有的英文句子,與待翻譯的中文機(jī)構(gòu)名進(jìn)行非對稱對齊,抽取最優(yōu)對齊片段作為翻譯最終結(jié)果。7、根據(jù)權(quán)利要求6所述漢英機(jī)構(gòu)名翻譯裝置,其特征在于,統(tǒng)計翻譯模塊負(fù)責(zé)翻譯中文機(jī)構(gòu)名中的若干詞語,將翻譯得到的若干英文單詞同待翻譯中文機(jī)構(gòu)名結(jié)合構(gòu)成一個混合查詢,以此作為線索來檢索漢英混合網(wǎng)頁。全文摘要本發(fā)明為一種漢英機(jī)構(gòu)名翻譯方法和裝置,將待翻譯的中文機(jī)構(gòu)名使用基于字的條件隨機(jī)場模型切分為四種語塊,并對四種語塊進(jìn)行分詞處理。選擇具有一定信息量和翻譯置信度的詞進(jìn)行統(tǒng)計翻譯,得到機(jī)構(gòu)名中若干詞的翻譯結(jié)果,并同待翻譯的中文機(jī)構(gòu)名構(gòu)成一個雙語查詢。借助搜索引擎對該查詢進(jìn)行檢索,得到若干中英雙語混合網(wǎng)頁的片段。抽取出網(wǎng)頁片段中的英文,并借助中英文非對稱對齊技術(shù),篩選英文句子中與該中文機(jī)構(gòu)名對齊概率最高的片段。通過統(tǒng)計每個片段出現(xiàn)的頻率等信息,確定一個最優(yōu)片段作為中文機(jī)構(gòu)名的翻譯。該方法克服統(tǒng)計翻譯模型在機(jī)構(gòu)名翻譯過程中容易出現(xiàn)的結(jié)構(gòu)、順序和選詞錯誤,機(jī)構(gòu)名翻譯精確率提高了35.26%。文檔編號G06F17/30GK101676898SQ20081022233公開日2010年3月24日申請日期2008年9月17日優(yōu)先權(quán)日2008年9月17日發(fā)明者帆楊,軍趙申請人:中國科學(xué)院自動化研究所