專利名稱::一種拼音和漢字相結(jié)合的漢外口語自動翻譯方法
技術領域:
:本發(fā)明屬于自然語言處理領域,特別涉及口語機器自動翻譯方法和跨語言信息檢索方法。
背景技術:
:口語翻譯(SpokenLanguageTranslation,SLT)又叫語音翻譯(Speech-to-speechTranslation,SST),就是利用計算機實現(xiàn)一種語言的語音到另一種語言語音的翻譯過程。其基本思想是讓計算機像人一樣充當持不同語言的說話人之間翻譯的角色。由于口語翻譯涉及語言學、計算語言學、計算機科學和技術、語音識別與語音合成以及通訊技術等多種學科和技術,因此開展這項研究具有重要的科學意義。而該技術一旦獲得突破,可以應用于社會生活的各個方面,例如,國際民航信息咨詢,國際會議(包括體育運動會)信息綜合服務,旅游信息咨詢等,因此,該技術又蘊涵著潛在的巨大的社會效益和經(jīng)濟利益。為此,許多發(fā)達國家競相投入巨資開展全國性或多國性的聯(lián)合攻關。目前的口語翻譯系統(tǒng)都是首先將源語言的語音信號轉(zhuǎn)換成文字,然后再對文字進行分析、轉(zhuǎn)換、生成,最后將譯文轉(zhuǎn)換成語音信號輸出。也就是說,口語翻譯系統(tǒng)主要由語音識別、機器翻譯和語音合成三個主要模塊構(gòu)成。正如前所述,目前的口語翻譯系統(tǒng)首先由語音識別模塊將語音信號轉(zhuǎn)化成文字,然后翻譯模塊再對文字進行翻譯處理。所以可以說,這里并沒有很好的將語音識別和機器翻譯真正有機統(tǒng)一和結(jié)合起來,整個系統(tǒng)相當于串聯(lián)結(jié)構(gòu),前端的語音識別的錯誤會毫無保留的延續(xù)到后續(xù)的翻譯模塊當中。而當今的翻譯方法無論是基于短語或基于句法的翻譯系統(tǒng),實際上還是針對字(單字或多字)進行訓練和解碼的,整個訓練和解碼流程如圖1所示,該實施步驟為1)在訓練階段,輸入的是基于字(單字或多字)的漢外訓練語料,通過步驟A1進行基于字的詞對齊訓練,獲取基于字的詞對齊文件,然后通過步驟A2,進行語言模型的訓練,獲取基于字的語言模型,通過步驟A3進行翻譯模型的訓練,獲取基于字的翻譯模型,而后通過步驟A4進行基于字的最小錯誤訓練,獲取基于字的翻譯模型下的各種特征權(quán)重和各種優(yōu)化參數(shù),最后通過A5進行解碼,得到最終翻譯結(jié)果。從該流程圖我們可以很清楚的看到,因為整個訓練和解碼過程都是基于字的,所以如果一旦語音識別輸出的文字有誤,則后續(xù)的基于字的翻譯系統(tǒng)就很難對前端的錯誤得到很好的糾正,從而導致翻譯質(zhì)量下降。而且口語翻譯系統(tǒng)由于口語的多變性尤其是漢語中大量同音異形字的存在會導致語音識別結(jié)果往往出現(xiàn)同音異形字,這對于基于字的翻譯方法而言就成了未登陸詞,即便不是未登陸詞,也會導致組合的片段無法在翻譯知識中找到很好的對應片段,使得翻譯質(zhì)量大大降低。也就是說以往的基于字形式的語音翻譯方法根本無法解決這種同音異形字帶來的錯誤,使得本來可以召回的這部分待翻譯內(nèi)容變成未登陸詞或錯誤詞匯片段,找不到相應義項導致翻譯失敗。
發(fā)明內(nèi)容為了解決這個問題,本發(fā)明提出了利用拼音替代漢字甚至是利用拼音和漢字兩者相結(jié)合的方法來對翻譯模塊進行訓練和解碼,不僅能夠有效降低語音識別由于同音異形字導致的錯誤,而且由于將拼音和漢字相互結(jié)合,能夠獲取更準確的翻譯規(guī)則,從而增強系統(tǒng)的魯棒性,提高口語翻譯系統(tǒng)的質(zhì)量。針對現(xiàn)有技術的問題,本發(fā)明的目的是對現(xiàn)有的口語翻譯系統(tǒng)進行改善提高,提出一種將拼音和漢字相結(jié)合的翻譯方法,希望利用拼音和漢字的結(jié)合來有效降低未登陸詞導致的錯誤,并通過兩者相互結(jié)合的方法來提高詞對齊的精度,生成更可信的翻譯規(guī)則,從而提高翻譯質(zhì)量。為此本發(fā)明提供一種新的口語翻譯方法。為了實現(xiàn)所述的目的,本發(fā)明提供一種將拼音和漢字相結(jié)合的方法用于口語翻譯系統(tǒng),利用拼音和漢字相結(jié)合的方法進行訓練和解碼,其具體實現(xiàn)步驟包括步驟SI:對原始漢外語料的漢語部分進行字音轉(zhuǎn)化,將所有連續(xù)漢字轉(zhuǎn)化為相應的拼音,經(jīng)過將原始漢外語料的漢語部分進行字音轉(zhuǎn)化,得到基于拼音的漢語語料并與原始外語語料重新進行對齊組合就得到了基于拼音的漢外訓練語料;并對原始漢語語料轉(zhuǎn)化為基于漢語單字分隔形式的語料,得到基于漢語單字分隔的漢語語料并與原始外語語料重新進行組合就得到了基于漢字的漢外訓練語料;步驟S2:利用基于拼音的漢外訓練語料進行詞對齊的訓練,得到基于拼音的詞對齊;利用基于漢字的漢外訓練語料進行詞對齊的訓練,得到基于漢字的詞對齊;步驟S3:對生成的基于拼音的詞對齊和基于漢字的詞對齊進行詞對齊的融合,得到融合后的詞對齊文件;步驟S4:結(jié)合基于拼音的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于拼音的漢外翻譯知識,得到基于拼音的翻譯模型;結(jié)合基于漢字的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于漢字的漢外翻譯知識,得到基于漢字的翻譯模型;步驟S5:對基于拼音的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于拼音的語言模型;對基于漢字的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于漢字的語言模型;步驟S6:利用基于拼音的語言模型和基于拼音的翻譯模型在基于拼音的開發(fā)集上進行最小錯誤訓練,得到基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù);利用基于漢字的語言模型和基于漢字的翻譯模型在基于漢字的開發(fā)集上進行最小錯誤訓練,得到基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù);步驟S7:利用基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于拼音的語言模型和翻譯模型,將基于拼音的測試語料送入基于拼音的解碼系統(tǒng)中進行解碼輸出測試集的基于拼音的翻譯結(jié)果;利用基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于漢字的語言模型和翻譯模型,將基于漢字的測試語料送入基于漢字的解碼系統(tǒng)中進行解碼輸出測試集的基于漢字的翻譯結(jié)果;步驟S8:將生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果送入系統(tǒng)融合模塊進行融合,經(jīng)過打分算法來對基于拼音和基于漢字的翻譯結(jié)果進行融合生成系統(tǒng)融合后的測試集的翻譯結(jié)果;步驟S9:從系統(tǒng)融合后的測試集的翻譯結(jié)果中選擇打分最優(yōu)的結(jié)果作為最終的翻譯結(jié)果輸出。本發(fā)明的積極效果采取一種將拼音和漢字相互結(jié)合的方法來進行翻譯知識的獲取。該發(fā)明不僅能夠很好的召回由于語音識別同音異形字帶來的錯誤,而且因為兩者相互結(jié)合進行翻譯知識獲取,可以很好的提高詞對齊精度和翻譯規(guī)則的準確性,從而能夠很有效的改善翻譯質(zhì)量。該方法很好的克服了傳統(tǒng)僅僅依賴于單字或多字的翻譯方法,從而能夠跟語音識別結(jié)果很好的統(tǒng)一起來進行有效降噪,提高了語音翻譯系統(tǒng)的魯棒性和準確性。該發(fā)明方法簡單可行而且可以擴展到文本翻譯系統(tǒng)上。初步實驗表明,該方法大大提高了語音系統(tǒng)的翻譯質(zhì)量,與目前最流行魯棒的基于短語(多字)的翻譯系統(tǒng)相比,系統(tǒng)性能利用機器翻譯通用評測標準BLEU打分能夠提高約10%。圖1本發(fā)明一個基于字(單字或多字)的漢外口語自動翻譯系統(tǒng)框架圖圖2本發(fā)明一個基于拼音和漢字相結(jié)合的漢外口語自動翻譯系統(tǒng)框架圖圖3本發(fā)明一個基于漢字和拼音對比翻譯示意圖。具體實施例方式下面結(jié)合附圖詳細說明本發(fā)明技術方案中所涉及的各個細節(jié)問題。應指出的是,所描述的實施例僅旨在便于對本發(fā)明的理解,面對其不起任何限定作用。本發(fā)明的核心思想在于采取一種將拼音和漢字相互結(jié)合的方法取代傳統(tǒng)基于單字或多字翻譯方法來進行翻譯知識的獲取。具體而言就是首先對原始漢外語料的漢語部分進行字音轉(zhuǎn)化,將所有漢字轉(zhuǎn)化為相應的拼音,生成基于拼音的漢語語料,并對原始漢語語料轉(zhuǎn)化為基于單字分隔形式(漢字)的語料;然后分別利用轉(zhuǎn)化為拼音的漢語語料和基于漢字的漢語語料跟對齊的外語語料進行組合成漢外語料,并分別進行基于拼音和漢字的詞對齊的獲取,生成兩種詞對齊文件,再對這兩種詞對齊進行融合生成新的詞對齊文件;在融合的詞對齊的基礎上進行漢外翻譯知識的抽取并進行最小錯誤訓練,獲取最終翻譯模型及其相應參數(shù);最后對測試語料進行相應的字音和漢字轉(zhuǎn)化,然后分別利用各自最小錯誤訓練獲取的翻譯模型及其參數(shù)進行最終解碼翻譯,并對基于拼音和漢字的翻譯結(jié)果進行系統(tǒng)融合生成新的翻譯結(jié)果,最后選取最優(yōu)翻譯結(jié)果作為最終輸出結(jié)果。本發(fā)明所有算法代碼都是在0++和Perl語言下完成,所采用的機型的配置如下Pentium4處理器,CPU主頻為2.0GHZ,內(nèi)存為8G。其中利用的開源工具包Moses需要在LINUX系統(tǒng)配置下進行運行。如圖2示出本發(fā)明的一種拼音和漢字相結(jié)合的漢外口語自動翻譯方法,利用拼音和漢字相結(jié)合的方法進行訓練和解碼,其具體實現(xiàn)步驟包括步驟Sl:對原始漢外語料的漢語部分進行字音轉(zhuǎn)化,將所有連續(xù)漢字轉(zhuǎn)化為相應的拼音,經(jīng)過將原始漢外語料的漢語部分進行字音轉(zhuǎn)化,得到基于拼音的漢語語料并與原始外語語料重新進行對齊組合就得到了基于拼音的漢外訓練語料,如圖2中的步驟Sl-a所示;并對原始漢語語料轉(zhuǎn)化為基于漢語單字分隔形式的語料,得到基于漢語單字分隔的漢語語料并與原始外語語料重新進行組合就得到了基于漢字的漢外訓練語料,如圖2中的步驟Sl-b所示;將所有連續(xù)漢字轉(zhuǎn)化為相應的拼音的步驟包括步驟Sll:首先收集漢語常見字和常見詞的相應的字音轉(zhuǎn)化對應表;步驟S12:直接查找這兩個對應表對原始基于漢字的語料進行字音轉(zhuǎn)換即可。所述轉(zhuǎn)化為基于漢語單字分隔形式的語料是根據(jù)漢字的雙字節(jié)信息來對連續(xù)漢字進行單字分隔,即讓每個漢字之間都添加一個空格。步驟S2:利用基于拼音的漢外訓練語料進行詞對齊的訓練,得到基于拼音的詞對齊,如圖2中的步驟S2-a所示;;利用基于漢字的漢外訓練語料進行詞對齊的訓練,得到基于漢字的詞對齊,如圖2中的步驟S2-b所示;步驟S3:對生成的基于拼音的詞對齊和基于漢字的詞對齊進行詞對齊的融合,得到融合后的詞對齊文件,如圖2中的步驟S3所示;基于拼音的詞對齊和基于漢字的詞對齊進行詞對齊的融合的步驟是將基于拼音的詞對齊和基于漢字的詞對齊兩種詞對齊文件直接進行疊加,所述疊加順序是將兩個詞對齊文件拷貝到一個新的文件中即可生成融合后的詞對齊文件,很明顯新生成的融合后的詞對齊文件的行數(shù)為基于拼音的詞對齊或基于漢字的詞對齊文件行數(shù)的兩倍;步驟S4:結(jié)合基于拼音的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于拼音的漢外翻譯知識,得到基于拼音的翻譯模型,如圖2中的步驟S4-a所示;結(jié)合基于漢字的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于漢字的漢外翻譯知識,得到基于漢字的翻譯模型,如圖2中的步驟S4-b所示;所述得到基于拼音的翻譯模型的步驟包括步驟S41:首先將基于拼音的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件的行數(shù)及內(nèi)容保持一一對應;步驟S42:對現(xiàn)有的成熟的基于短語的翻譯知識抽取模塊輸入三個一一對應文件一個基于拼音的雙倍復制后的漢語文件、一個是雙倍復制后的外語文件和一個是融合后的詞對齊文件,進行翻譯知識的抽取,輸出基于拼音的翻譯模型。所述得到基于漢字的翻譯模型的步驟包括步驟S43:首先將基于漢字的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件的行數(shù)及內(nèi)容保持一一對應;步驟S44:對現(xiàn)有的成熟的基于短語的翻譯知識抽取模塊輸入三個一一對應文件一個基于漢字的雙倍復制后的漢語文件、一個是雙倍復制后的外語文件和一個是融合后的詞對齊文件,進行翻譯知識的抽取,輸出基于漢字的翻譯模型。步驟S5:對基于拼音的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于拼音的語言模型,如圖2中的步驟S5-a所示;對基于漢字的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于漢字的語言模型,如圖2中的步驟S5-b所示;步驟S6:利用基于拼音的語言模型和基于拼音的翻譯模型在基于拼音的開發(fā)集上進行最小錯誤訓練,得到基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),即基于拼音的最優(yōu)參數(shù),如圖2中的步驟S6-a所示;;利用基于漢字的語言模型和基于漢字的翻譯模型在基于漢字的開發(fā)集上進行最小錯誤訓練,得到基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),即基于漢字的最優(yōu)參數(shù),如圖2中的步驟S6-b所示;步驟S7:利用基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于拼音的語言模型和翻譯模型,將基于拼音的測試語料送入基于拼音的解碼系統(tǒng)中進行解碼輸出測試集的基于拼音的翻譯結(jié)果,如圖2中的步驟S7-a所示;利用基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于漢字的語言模型和翻譯模型,將基于漢字的測試語料送入基于漢字的解碼系統(tǒng)中進行解碼輸出測試集的基于漢字的翻譯結(jié)果,如圖2中的步驟S7-b所示;步驟S8:將生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果送入系統(tǒng)融合模塊進行融合,經(jīng)過一定的打分算法來對基于拼音和基于漢字的翻譯結(jié)果進行融合生成系統(tǒng)融合后的測試集的翻譯結(jié)果,如圖2中的步驟S8所示;所述將生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果送入系統(tǒng)融合模塊進行融合的步驟包括步驟S81:首先我們利用基于拼音的解碼系統(tǒng)對基于拼音的開發(fā)集進行翻譯解碼生成開發(fā)集的基于拼音的前N個翻譯最優(yōu)結(jié)果;步驟S82:其次我們利用基于漢字的解碼系統(tǒng)對基于漢字的開發(fā)集進行翻譯解碼生成開發(fā)集的基于漢字的前N個翻譯最優(yōu)結(jié)果;步驟S83:然后利用現(xiàn)有翻譯系統(tǒng)的融合方法,包括句子級別的融合、短語級別的融合和詞級別的融合方法,來對開發(fā)集的基于拼音的前N個翻譯最優(yōu)結(jié)果和基于漢字的前N個翻譯最優(yōu)結(jié)果進行最小錯誤訓練,得到融合系統(tǒng)中的各個特征權(quán)重和相關參數(shù);步驟S84:最后利用步驟S83獲取的融合系統(tǒng)中的各個特征權(quán)重和相關參數(shù)對生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果進行系統(tǒng)融合得到新生成的測試集的前M個最優(yōu)翻譯結(jié)果。步驟S9:從系統(tǒng)融合后的測試集的翻譯結(jié)果中選擇打分最優(yōu)的結(jié)果作為最終的翻譯結(jié)果輸出,如圖2中的步驟S9所示。下面我們用一個基于字(單字或多字)的翻譯系統(tǒng)與基于拼音和漢字相結(jié)合的翻譯系統(tǒng)的系統(tǒng)框架圖來簡要闡述這兩者的主要異同點。圖l給出了一個基于字(單字或多字)的漢外口語自動翻譯系統(tǒng)框架圖,圖2給出了一個基于拼音和漢字相結(jié)合的漢外口語自動翻譯系統(tǒng)框架圖,其中圖2中加入黑體強調(diào)的都是本發(fā)明的主要貢獻。對比圖1和圖2可以很清楚的看出兩者的異同點,兩者最大的不同體現(xiàn)在訓練和解碼階段,相同點是訓練和解碼采用的關鍵技術可以是相同的。這里我們主要講解不同點1)首先從訓練來說,基于字的翻譯系統(tǒng)主要是利用單字或多字(基于漢字的或基于詞)的漢語語料跟原始外語語料組成一一對齊漢外語料送入到詞對齊的訓練當中,最終獲取的詞對齊是基于單字或多字到外語單詞間的對應關系;而基于拼音和漢字相結(jié)合的方法則是分別獲取基于拼音和漢字不同表達的漢語單元跟外語單詞的對應關系,然后對這兩種不同方式獲取的兩種詞對齊進行融合生成一個新的詞對齊文件,這樣融合后的詞對齊能夠更好的把握和約束正確的詞對齊關系,從而為后續(xù)的翻譯知識的抽取做了更好的鋪墊;2)從解碼來說,基于字(單字或多字)的翻譯系統(tǒng)輸入的是基于字(單字或多字)的測試語料,而基于拼音和漢字相結(jié)合的系統(tǒng)輸入的則分別是基于拼音或漢字的測試語料,這個過程可以解釋為分別利用基于拼音或漢字的語言模型、翻譯模型和其對應最優(yōu)參數(shù)對基于拼音或漢字的測試語料進行解碼,然后將解碼獲取的結(jié)果送入到系統(tǒng)融合模塊中擇優(yōu)輸出。很明顯,這樣就可以充分發(fā)揮基于拼音和漢字翻譯方法的優(yōu)勢,從而得到一個最優(yōu)結(jié)果,無疑提高了翻譯質(zhì)量。從圖2也了解了基于拼音和漢字相結(jié)合的漢外口語自動翻譯方法的實施流程,其主要實施步驟為步驟S1:首先將原始漢語料進行字音轉(zhuǎn)化,將漢字轉(zhuǎn)化為拼音。這里進行字音轉(zhuǎn)化的時候,用來進行查找的兩個知識源是單字表和常用詞表,其中單字表是6,768個常用漢字及其擁有的拼音標注;常見詞表是利用了一個擁有23,519個常用詞及其拼音的對照表。其次將原始漢語語料進行單字分隔,保證每個漢字間保留一個空格作為分隔標志。這8樣我們就分別得到了基于拼音的漢外訓練語料和基于漢字的漢外訓練語料,該實施步驟如圖2中的步驟Sl-a和Sl-b所示;步驟S2:分別將基于拼音的漢外訓練語料和基于漢字的漢外訓練語料送入到詞對齊模塊進行訓練,得到基于拼音的詞對齊和基于漢字的詞對齊。這里用來進行詞對齊訓練的工具主要是開源的工具包Moses中自帶的612八++工具包來進行訓練,這里所有參數(shù)都按照GIZA++工具包的默認設置參數(shù),其中用的是IBM-模型4來獲取單向詞對齊,并利用grow-diag-final-and來進行雙向詞對齊的擴展以獲取最終的基于拼音或漢字的兩個詞對齊文件,該實施步驟如圖2中的步驟S2-a和S2-b所示;步驟S3:將步驟S2獲取的基于拼音的詞對齊和基于漢字的詞對齊進行融合,融合的方法是直接合并兩種詞對齊,即將兩種情況下生成的詞對齊直接進行疊加復制,生成融合后的詞對齊文件,該實施步驟如圖2中的步驟S3所示;步驟S4:我們對基于拼音(漢字)的漢外訓練語料進行雙倍復制,保證其能夠跟步驟S3獲取的融合后的詞對齊文件一一對應,即對于基于拼音(漢字)的翻譯方法而言,我們同時得到了三個文件,即雙倍復制的基于拼音(漢字)的漢語訓練語料、雙倍復制的基于拼音(漢字)的外語訓練語料、新生成的融合后的詞對齊文件;根據(jù)這三個文件,我們就可以通過訓練得到基于拼音(漢字)的翻譯模型。這里翻譯模型的訓練工具我們?nèi)匀皇抢肕oses工具包進行獲取,最終獲取的漢外翻譯知識主要包括兩部分,一部分是漢外翻譯短語表,一部分是漢外翻譯短語調(diào)序表,該實施步驟如圖2中的步驟S4-a和S4-b所示;步驟S5:對基于拼音(漢字)的漢外訓練語料中的外語語料進行學習獲取N元文法的概率信息,就可以得到基于拼音(漢字)的語言模型。這里語言模型的訓練工具我們主要采用開源工具Srilml.5.7,我們的目的是獲取基于外語語料的3元語言模型,該實施步驟如圖2中的步驟S5-a和S5-b所示;步驟S6:利用S4獲取的翻譯模型和S5獲取的語言模型在開發(fā)集上進行最小錯誤訓練,這里我們分別利用基于拼音或漢字的開發(fā)集來訓練基于拼音或漢字模型下的特征權(quán)重參數(shù)。這里用來訓練特征權(quán)重的工具仍然是利用開源工具包Moses中提供的最小錯誤訓練工具,該實施步驟如圖2中的步驟S6-a和S6-b所示;步驟S7:得到基于拼音和漢字的最小錯誤訓練后的參數(shù)后,我們就對測試待翻譯句子進行字音轉(zhuǎn)化和單字分隔,獲取基于拼音和漢字的測試語料,然后利用各自的語言模型、翻譯模型和最小錯誤訓練后的最優(yōu)參數(shù)進行解碼翻譯,并輸出各自的前N個最優(yōu)翻譯結(jié)果輸入到系統(tǒng)融合模塊,這里的解碼系統(tǒng)是利用開源工具包Moses提供的工具,該實施步驟如圖2中的步驟S7-a和S7-b所示;步驟S8:將得到的基于拼音和基于漢字的前N個最優(yōu)翻譯結(jié)果送入到系統(tǒng)融合模塊,生成融合后的翻譯結(jié)果。這里我們采用的系統(tǒng)融合方法是基于WER的詞級別的系統(tǒng)融合方法。該實施步驟如圖2中的步驟S8所示;步驟S9:從系統(tǒng)融合的輸出結(jié)果中選擇打分最優(yōu)的結(jié)果作為最終的翻譯結(jié)果輸出,該實施步驟如圖2中的步驟S9所示。為了更好的強調(diào)本發(fā)明的作用,這里我們利用圖3來形象的描述這種方法的作用,如本發(fā)明附圖3所示給出了一個基于漢字和拼音對比翻譯示意圖,該示意圖主要是以漢英口語翻譯為例進行說明。圖3傳達了該發(fā)明的核心思想,即基于拼音或拼音與漢字相結(jié)合的翻譯方法不僅能夠在訓練階段獲取高質(zhì)量的翻譯模型,而且能夠在解碼階段有效的降低前端由于語音識別的錯誤而導致的翻譯錯誤?,F(xiàn)在我們借助圖3仔細分析這兩個方面的作用。首先從訓練階段來說明該發(fā)明是如何能夠在訓練階段獲取更好的翻譯模型的。這就要從基于漢字和基于拼音的訓練模型來進行對比說明。首先如果在訓練階段是基于字的翻譯模型,假設我們的漢外訓練語料中存在{a),d)}和{b),d)}這兩個句對,則在訓練階段進行詞對齊的時候,我們會發(fā)現(xiàn)"鈴木直子"和"玲木直子"因為"鈴"和"玲"字形不一致,從而對上"naokosuzuki"的概率會分別利用最大似然估計來計算,而如果訓練階段是基于拼音的翻譯模型,則我們的漢外語料中存在的則是兩個一樣的句對,即{c),dM,這樣就會導致"ling2mu4zhi2zi5"跟"naokosuzuki"對應上的概率會比基于漢字的最大似然估計的概率多上一倍,這樣無疑會導致動態(tài)規(guī)劃的時候更容易在后者得到更好的詞對齊,而相應的對于后續(xù)的漢外短語概率計算也會得到更正確的表述概率,從而使得解碼的時候能夠更準確的抓住正確譯項奠定良好基礎。其次從解碼階段來進行說明基于拼音的翻譯方法的好處。如圖3所示,假設a)是識別完全正確的結(jié)果,而b)是識別有錯誤的結(jié)果。在進行解碼翻譯的時候,如果將識別錯誤的結(jié)果b)送到基于漢字(單字或多字)的翻譯系統(tǒng),則可能因為"玲木直子"是未登陸詞而不能進行正確的翻譯,從而導致翻譯有誤,而這時如果我們將該識別結(jié)果轉(zhuǎn)化為拼音送入基于拼音的翻譯系統(tǒng),則完全避開了因為這種同音異形字導致的識別錯誤,使得仍然能夠得到正確的翻譯結(jié)果。實驗我們的實驗語料主要來自于2009年國際口語翻譯評測(InternationalWorkshoponSpokenLanguageTranslation,IWSLT2009)官方發(fā)布的語料,主要測試任務是面向漢英的文本和語音輸出結(jié)果來進行測試。我們的實驗平臺主要是利用目前開源的工具包Moses來進行測試。表1給出了訓練語料、開發(fā)集和測試集的語料規(guī)模大小。表2給出了分別利用基于字(這里采用的是多字即詞)的翻譯系統(tǒng)與基于拼音和漢字相結(jié)合的翻譯系統(tǒng)的對比實驗結(jié)果,其中DEV表明是在開發(fā)集上的結(jié)果,TST表明是在測試集上的測試結(jié)果,其中我們都用國際通用標準評分工具BLEU-4大小寫敏感來進行測試。表1實驗訓練語料、開發(fā)集、測試集規(guī)模<table>tableseeoriginaldocumentpage10</column></row><table>表2基于詞和基于拼音和漢字相結(jié)合的翻譯系統(tǒng)對比測試結(jié)果不同翻譯方法DEVTST基于詞(多字)33.4829.65基于拼音和漢字相結(jié)合的36.4332.04表2中的基準系統(tǒng)是基于多字的翻譯方法,這里的多字我們主要是采用粒度為詞的方式來進行實驗,即將原始漢語語料利用分詞工具進行分詞處理,然后跟原始英文語料結(jié)合進行訓練和解碼生成的結(jié)果。由表2可知,基于拼音和漢字相結(jié)合的翻譯方法能夠比基于詞的翻譯方法的翻譯質(zhì)量提高約10%。以上所述,僅為本發(fā)明中的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉該技術的人在本發(fā)明所揭露的技術范圍內(nèi),可理解想到的變換或替換,都應涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護范圍應該以權(quán)利要求書的保護范圍為準。權(quán)利要求一種拼音和漢字相結(jié)合的漢外口語自動翻譯方法,其特征在于,利用拼音和漢字相結(jié)合的方法進行訓練和解碼,其具體實現(xiàn)步驟包括步驟S1對原始漢外語料的漢語部分進行字音轉(zhuǎn)化,將所有連續(xù)漢字轉(zhuǎn)化為相應的拼音,經(jīng)過將原始漢外語料的漢語部分進行字音轉(zhuǎn)化,得到基于拼音的漢語語料并與原始外語語料重新進行對齊組合就得到了基于拼音的漢外訓練語料;并對原始漢語語料轉(zhuǎn)化為基于漢語單字分隔形式的語料,得到基于漢語單字分隔的漢語語料并與原始外語語料重新進行組合就得到了基于漢字的漢外訓練語料;步驟S2利用基于拼音的漢外訓練語料進行詞對齊的訓練,得到基于拼音的詞對齊;利用基于漢字的漢外訓練語料進行詞對齊的訓練,得到基于漢字的詞對齊;步驟S3對生成的基于拼音的詞對齊和基于漢字的詞對齊進行詞對齊的融合,得到融合后的詞對齊文件;步驟S4結(jié)合基于拼音的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于拼音的漢外翻譯知識,得到基于拼音的翻譯模型;結(jié)合基于漢字的漢外訓練語料,對融合的詞對齊文件進行學習,抽取并學習基于漢字的漢外翻譯知識,得到基于漢字的翻譯模型;步驟S5對基于拼音的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于拼音的語言模型;對基于漢字的漢外訓練語料中的外語部分進行學習獲取N元文法的概率信息,得到基于漢字的語言模型;步驟S6利用基于拼音的語言模型和基于拼音的翻譯模型在基于拼音的開發(fā)集上進行最小錯誤訓練,得到基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù);利用基于漢字的語言模型和基于漢字的翻譯模型在基于漢字的開發(fā)集上進行最小錯誤訓練,得到基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù);步驟S7利用基于拼音的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于拼音的語言模型和翻譯模型,將基于拼音的測試語料送入基于拼音的解碼系統(tǒng)中進行解碼輸出測試集的基于拼音的翻譯結(jié)果;利用基于漢字的翻譯方法的各個特征的特征權(quán)重及相關參數(shù),并結(jié)合基于漢字的語言模型和翻譯模型,將基于漢字的測試語料送入基于漢字的解碼系統(tǒng)中進行解碼輸出測試集的基于漢字的翻譯結(jié)果;步驟S8將生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果送入系統(tǒng)融合模塊進行融合,經(jīng)過打分算法來對基于拼音和基于漢字的翻譯結(jié)果進行融合生成系統(tǒng)融合后的測試集的翻譯結(jié)果;步驟S9從系統(tǒng)融合后的測試集的翻譯結(jié)果中選擇打分最優(yōu)的結(jié)果作為最終的翻譯結(jié)果輸出。2.根據(jù)權(quán)利要求1所述的漢外口語自動翻譯方法,其特征在于,所述將所有連續(xù)漢字轉(zhuǎn)化為相應的拼音的步驟包括步驟Sll:首先收集漢語常見字和常見詞的相應的字音轉(zhuǎn)化對應表;步驟S12:直接查找這兩個對應表對原始基于漢字的語料進行字音轉(zhuǎn)換。3.根據(jù)權(quán)利要求1所述的漢外口語自動翻譯方法,其特征在于,所述轉(zhuǎn)化為基于漢語單字分隔形式的語料是根據(jù)漢字的雙字節(jié)信息來對連續(xù)漢字進行單字分隔,即讓每個漢字之間都添加一個空格。4.根據(jù)權(quán)利要求1所述的基于拼音和漢字相結(jié)合的漢外口語自動翻譯方法,其特征在于,基于拼音的詞對齊和基于漢字的詞對齊進行詞對齊的融合的步驟是將基于拼音的詞對齊和基于漢字的詞對齊兩種詞對齊文件直接進行疊加,所述疊加順序是將兩個詞對齊文件拷貝到一個新的詞對齊文件中生成融合后的詞對齊文件,很明顯新生成的融合后的詞對齊文件的行數(shù)為基于拼音的詞對齊或基于漢字的詞對齊文件行數(shù)的兩倍。5.根據(jù)權(quán)利要求1所述的基于拼音和漢字相結(jié)合的漢外口語自動翻譯方法,其特征在于,所述得到基于拼音的翻譯模型的步驟包括步驟S41:首先將基于拼音的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件的行數(shù)及內(nèi)容保持一一對應;步驟S42:對現(xiàn)有的成熟的基于短語的翻譯知識抽取模塊輸入三個一一對應文件一個基于拼音的雙倍復制后的漢語文件、一個是雙倍復制后的外語文件和一個是融合后的詞對齊文件,進行翻譯知識的抽取,輸出基于拼音的翻譯模型。6.根據(jù)權(quán)利要求1所述的基于拼音和漢字相結(jié)合的漢外口語自動翻譯方法,其特征在于,所述得到基于漢字的翻譯模型的步驟包括步驟S43:首先將基于漢字的漢外訓練語料分別復制一倍,以保持跟融合后的詞對齊文件的行數(shù)及內(nèi)容保持一一對應;步驟S44:對現(xiàn)有的成熟的基于短語的翻譯知識抽取模塊輸入三個一一對應文件一個基于漢字的雙倍復制后的漢語文件、一個是雙倍復制后的外語文件和一個是融合后的詞對齊文件,進行翻譯知識的抽取,輸出基于漢字的翻譯模型。7.根據(jù)權(quán)利要求1所述的基于拼音和漢字相結(jié)合的漢外口語自動翻譯方法,其特征在于,所述將生成的測試集的基于拼音的翻譯結(jié)果和生成的基于漢字的翻譯結(jié)果送入系統(tǒng)融合模塊進行融合的步驟包括步驟S81:首先利用基于拼音的解碼系統(tǒng),對基于拼音的開發(fā)集進行翻譯解碼,生成開發(fā)集的基于拼音的前N個翻譯最優(yōu)結(jié)果;步驟S82:其次利用基于漢字的解碼系統(tǒng),對基于漢字的開發(fā)集進行翻譯解碼,生成開發(fā)集的基于漢字的前N個翻譯最優(yōu)結(jié)果;步驟S83:然后利用現(xiàn)有翻譯系統(tǒng)的融合方法,包括句子級別的融合、短語級別的融合和詞級別的融合方法,來對開發(fā)集的基于拼音的前N個翻譯最優(yōu)結(jié)果和基于漢字的前N個翻譯最優(yōu)結(jié)果進行最小錯誤訓練,得到融合系統(tǒng)中的各個特征權(quán)重和相關參數(shù);步驟S84:最后利用獲取的融合系統(tǒng)中的各個特征權(quán)重和相關參數(shù)對測試集的基于拼音的翻譯結(jié)果和基于漢字的翻譯結(jié)果進行系統(tǒng)融合得到新生成的測試集的前M個最優(yōu)翻譯結(jié)果。全文摘要一種拼音和漢字相結(jié)合的漢外口語自動翻譯方法首先將原始漢外雙語語料的漢語部分進行字音轉(zhuǎn)化和單字分割,得到基于拼音和基于漢字的漢外雙語語料;分別利用基于拼音和漢字的漢外訓練語料進行詞對齊的訓練,得到基于拼音和漢字的詞對齊并對這兩個詞對齊進行融合得到融合后的詞對齊文件;在此基礎上抽取并學習翻譯知識,得到基于拼音和基于漢字的翻譯模型;結(jié)合外文語料的語言模型和翻譯模型在開發(fā)集上進行最小錯誤訓練,得到各個特征的特征權(quán)重及相關參數(shù);最后進行融合解碼生成最終翻譯。該方法大大改善了翻譯性能和系統(tǒng)的魯棒性,與目前通用的基于字的翻譯系統(tǒng)相比,系統(tǒng)性能利用機器翻譯通用評測標準BLEU打分能夠提高約10%。文檔編號G06F17/28GK101788978SQ20091024451公開日2010年7月28日申請日期2009年12月30日優(yōu)先權(quán)日2009年12月30日發(fā)明者周玉,宗成慶申請人:中國科學院自動化研究所