專利名稱:雙語文本的詞語對齊方法及裝置的制作方法
技術領域:
本發(fā)明涉及文本信息處理領域,特別涉及一種雙語文本的詞語對齊方法及裝置。
背景技術:
隨著國際化的進行,人們對于自動或半自動翻譯技術的需求越來越強烈。詞語對齊的目標是找出互譯雙語句子中詞語間的對應關系,它是統(tǒng)計機器翻譯技術(即利用計算機使用統(tǒng)計方法將一種語言的文字自動翻譯成另外一種語言的文字的技術)的基礎,對翻譯質量具有重要影響;同時它對跨語言檢索等技術具有不同程度的輔助作用。逆向轉錄文法(InversionTransduction Grammar)是由 Dekai Wu 提出的一種雙語同步文法。逆向轉錄文法的每一種實例由若干條文法規(guī)則組成,文法規(guī)則規(guī)定了一些特定符號間的轉換方法,通過將這些規(guī)則按照一定次序應用于一對初始字符串,可以將這對初始字符串同步轉換成一對新的字符串。逆向轉錄文法要求每條文法規(guī)則都必須只能是以下6種形式中的一種:S — e/eA — x/eA — ε /yA — x/yA — [BC]A — <BC>其中ε表示空字符串,前四條規(guī)則表示可以由規(guī)則箭頭左邊的符號生成右邊的兩個符號,如第4條規(guī)則表不由符號A可以生成符號χ和符號y ;第5條規(guī)則表不由符號A可以同時生成兩個字符串“BC”和“BC” ;第6條規(guī)則表示由符號A可以同時生成兩個字符串 “BC” 和 “CB”。學術界研究表明,將逆向轉錄文法約束引入詞語對齊(即要求詞語對齊結果能夠用逆向轉錄文法描述)對詞語對齊質量具有明顯改進。給定一對雙語句子,精確搜索所有可能的滿足逆向轉錄文法約束的詞語對齊需要的計算量過大,無法實用,因此有學者提出了一些近似搜索方法(即只搜索一部分滿足逆向轉錄文法約束的詞語對齊的方法),以減小計算量,但已有方法的計算量仍然還比較大,仍然不能完全滿足實用需求。
發(fā)明內容
為了進一步減少搜索符合逆向轉錄文法約束的詞語對齊的計算量,本發(fā)明的目的在于提供一種雙語文本的詞語對齊方法及裝置,能夠保證雙語文本的詞語對齊效果,同時具有計算量小、對齊效率高的特點。所述技術方案如下(以下描述中,兩個詞語間如果被認為存在對應關系,則稱它們間存在一條“連接”):一方面,提供了一種雙語文本的詞語對齊方法,所述方法包括:
1.對待對齊的雙語文本的原文文本和譯文文本分別進行預處理;2.計算在任意一個源語言詞和目標語言詞間增加一條連接的增益;3.設定初始詞語對齊為空對齊(即任意兩個詞間都不存在連接);4.使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊;5.將步驟3-4搜索到的滿足逆向轉錄文法約束的最好詞語對齊作為最終對齊結果輸出。另一方面,提供了一種雙語文本的詞語對齊裝置,所述裝置包括:預處理模塊,用于對待對齊雙語文本的原文文本及譯文文本分別進行預處理;連接增益計算模塊,用于計算在任意一個源語言詞和目標語言詞間增加一條連接的增益,并選出所有增益為正數(shù)的連接;初始詞語對齊生成模塊,用于生成初始詞語對齊;詞語對齊搜索模塊,用于使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊;詞語對齊結果輸出模塊,用于將整個搜索過程中遇到的最好的詞語對齊作為結果輸出。與現(xiàn)有技術相比,本發(fā)明通過使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,降低了搜索滿足逆向轉錄文法約束的詞語對齊的時間復雜度,大大減小了計算量,使得逆向轉錄文法約束的詞語對齊具有更好的實用性,同時也保證了良好的詞語對齊質量效果。
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例1提供的雙語文本的詞語對齊方法流程圖;圖2是本發(fā)明實施例2提供的雙語文本的詞語對齊方法流程圖;圖3是本發(fā)明實施例3提供的雙語文本的詞語對齊裝置結構示意圖;圖4是本發(fā)明實施例3提供的雙語文本的詞語對齊裝置中的詞語對齊搜索模塊結構示意圖。
具體實施例方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。實施例1參見圖1,本實施例提供了一種雙語文本的詞語對齊方法,方法流程如下所示:101:將待對齊雙語文本的原文文本及譯文文本分別進行預處理;102:計算在任意一個源語言詞和目標語言詞間增加一條連接的增益,選出所有增益為正數(shù)的連接;
103:設定初始對齊為空對齊,即任意兩個詞間都不存在連接;104:使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,其中“逆向轉錄文法”的介紹詳見本說明書“背景技術”部分;105:將搜索到的滿足逆向轉錄文法約束的最好詞語對齊作為最終對齊結果輸出。本實施例提供的方法,使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,與已有的近似搜索方法相比,達到了在保證詞語對齊質量的同時,提高了詞語對齊的速度的有益效果。實施例2參見圖2,本實施例提供了一種雙語文本的詞語對齊方法,該方法使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,與已有的近似搜索方法相比,達到了在保證詞語對齊質量的同時,提高了詞語對齊的速度的有益效果。具體方法流程如下:201:將待對齊雙語文本的原文文本及譯文文本分別進行預處理;具體地,預處理包括但不限于將原文文本及譯文文本中的句子切分成詞;去除多余空白字符;并記錄原文句子中的詞個數(shù)I和譯文句子中詞個數(shù)J。202:計算在任意一對原文詞語和譯文詞語間增加一條連接的增益,記所有增益為正數(shù)的連接集合為L ;
具體地,第i個原文詞ei和第j個譯文詞&間增加一條連接的增益定義為
權利要求
1.一種雙語文本的詞語對齊方法,其特征在于,所述方法包括: 對待對齊的雙語文本的原文文本和譯文文本分別進行預處理; 計算在任意一個源語言詞和目標語言詞間增加一條連接的增益; 設定初始詞語對齊為空對齊,即任意兩個詞間都不存在連接; 使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊; 將搜索到的滿足逆向轉錄文法約束的最好詞語對齊作為最終對齊結果輸出。
2.根據(jù)權利要求1所述的方法,其特征在于,所述預處理包括: 將原文文本及譯文文本中的句子切分成詞;去除多余空白字符;并記錄原文句子中的詞個數(shù)I和譯文句子中詞個數(shù)J。
3.根據(jù)權利要求1所述的方法,其特征在于,所述增益的計算方法為:
4.根據(jù)權利要求1所述的方法,其特征在于,所述使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,具體包括: 初始化待擴展列表為只包含一個空對齊的列表; 生成局部待擴展列表; 重置待擴展列表為局部待擴展列表的值; 根據(jù)待擴展列表是否為空決定是否重新回到“生成局部待擴展列”繼續(xù)進行迭代:如果待擴展列表為空,則不重新回到“生成局部待擴展列表”繼續(xù)進行迭代,否則重新回到“生成局部待擴展列表”繼續(xù)進行迭代。
5.根據(jù)權利要求4所述的方法,其特征在于,所述生成局部待擴展列表,具體包括: 設置局部待擴展列表為空; 將待擴展列表中的每個詞語對齊,進行擴展操作,并將滿足一定條件的擴展得到的新的詞語對齊加入局部待擴展列表中; 如果局部待擴展列表中所包含的詞語對齊個數(shù)超過b,則只保留最好的b個詞語對齊,b取任意正整數(shù)值。
6.根據(jù)權利要求5所述的方法,其特征在于,所述對待擴展列表中的每個詞語對齊實施的擴展操作,具體包括: 記所有增益為正數(shù)的連接集合為L,對待擴展列表中的每一個詞語對齊A,和每一條連接1,如果I不在A中,則將I加入A中得到一個新的詞語對齊。
7.根據(jù)權利要求5所述的方法,其特征在于,所述判斷擴展得到的新的詞語對齊是否應加入局部待擴展列表中的標準:如果該詞語對齊滿足逆向轉錄文法約束,則應加入局部待擴展列表中,否則不應加入局部待擴展列表中。
8.根據(jù)權利要求1至7任一權利要求所述的方法,其特征在于,所述詞語對齊好的程度的評價方法,具體包括: 使用如下公式評價詞語對齊好的程度,該公式的值越高,表示相應的詞語對齊越好:
9.一種雙語文本的詞語對齊裝置,其特征在于,所述裝置包括: 預處理模塊,用于對待對齊雙語文本的原文文本及譯文文本分別進行預處理; 連接增益計算模塊,用于計算在任意一個源語言詞和目標語言詞間增加一條連接的增益,并選出所有增益為正數(shù)的連接; 初始詞語對齊生成模塊,用于生成初始詞語對齊; 詞語對齊搜索模塊,用于使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊; 詞語對齊結果輸出模塊,用于將整個搜索過程中遇到的最好的詞語對齊作為結果輸出。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述預處理是指: 將原文文本及譯文文本中的句子切分成詞;去除多余空白字符;并記錄原文句子中的詞個數(shù)I和譯文句子中詞個數(shù)J。
11.根據(jù)權利要求9所述的裝置,其特征在于,所述增益的計算方法為:
12.根據(jù)權利要求9至11任一權利要求所述的裝置,其特征在于,所述詞語對齊搜索模塊包括: 待擴展列表初始化單兀,用于將待擴展列表初始化為只包含一個空對齊的列表; 局部待擴展列表生成單元,用于擴展待擴展列表中的詞語對齊,并生成局部待擴展列表; 待擴展列表重置單元,用于將待擴展列表重置為局部待擴展列表; 分支選擇單元,用于決定是否回到局部待擴展列表生成單元:如果待擴展列表為空,則不重新回到局部待擴展列表生成單元,否則重新回到局部待擴展列表生成單元。
13.根據(jù)權利要求12所述的裝置,其特征在于,所述局部待擴展列表生成單元,用于完成如下操作: 對于待擴展列表中的每個詞語對齊,進行擴展操作,并將滿足一定條件的擴展得到的新的詞語對齊加入局部待擴展列表中; 如果局部待擴展列表中所包含的詞語對齊個數(shù)超過b,則只保留最好的b個詞語對齊。
14.根據(jù)權利要求12所述的裝置,其特征在于,所述對待擴展列表中的每個詞語對齊實施的擴展操作,具體包括: 記所有增益為正數(shù)的連接集合為L,對待擴展列表中的每一個詞語對齊A,對L中的每一條連接1,如果I不在A中,則將I加入A中得到一個新的詞語對齊。
15.根據(jù)權利要求13所述的裝置,其特征在于,所述判斷擴展得到的新的詞語對齊是否應加入局部待擴展列表中的標準:如果該詞語對齊滿足逆向轉錄文法約束,則應加入局部待擴展列表中,否則不應加入局部待擴展列表中。
16.根據(jù)權利要求9、10任一權利要求所述的裝置,其特征在于,所述詞語對齊好的程度的評價方法,具體包括: 使用如下公式評價詞語對齊好的程度,該公式的值越高,表示相應的詞語對齊越好:
全文摘要
本發(fā)明公開了一種雙語文本的詞語對齊方法及裝置,屬于文本信息處理領域,所述方法包括對待對齊的雙語文本的原文文本和譯文文本分別進行預處理;計算在任意一個源語言詞和目標語言詞間增加一條連接的增益;設定初始詞語對齊為空對齊;使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊;將搜索到的滿足逆向轉錄文法約束的最好詞語對齊作為最終對齊結果輸出;所述裝置包括預處理模塊,連接增益計算模塊,初始詞語對齊生成模塊,詞語對齊搜索模塊,詞語對齊結果輸出模塊;本發(fā)明通過使用貪心策略迭代搜索滿足逆向轉錄文法約束的詞語對齊,具有提升詞語對齊速度,保證良好詞語對齊質量的效果。
文檔編號G06F17/30GK103150329SQ20131000384
公開日2013年6月12日 申請日期2013年1月6日 優(yōu)先權日2013年1月6日
發(fā)明者李鵬, 劉洋, 薛平, 孫茂松 申請人:清華大學, 波音公司