多譯本平行語料庫的構建方法
【專利摘要】本發(fā)明提供了一種多譯本平行語料庫的構建方法,其中,該方法包括:分別計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度;根據源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,將源語言文本與每一譯本進行語句匹配,且匹配時參考源語言文本與多個譯本中其它譯本的深度語義相似度;根據源語言文本與多個譯本的語句匹配結果,構建多譯本平行語料庫。上述技術方案實現了多譯本平行語料庫的構建,提高了語料對齊的精確度,通過該方案構建的多譯本平行語料庫具有魯棒性。
【專利說明】
多譯本平行語料庫的構建方法
技術領域
[0001] 本發(fā)明涉及語料庫建設技術領域,特別涉及一種多譯本平行語料庫的構建方法。
【背景技術】
[0002] 隨著互聯(lián)網的高速發(fā)展,帶來了網絡數據文本的爆炸式生長,蓬勃的互聯(lián)網發(fā)展 帶來了豐富的多語言信息,借助這些豐富的多語言信息可以構建更好的機器翻譯系統(tǒng)。人 工翻譯耗時較長,成本較高,已經滿足不了人們對多語言信息日益增長的需求。機器翻譯能 夠將一種自然語言自動地翻譯為另一種自然語言。利用機器翻譯快速獲取多語言的信息和 資源已成為必然趨勢。這使得能提供多語言、高質量、易獲取的翻譯服務的機器翻譯系統(tǒng)和 設備也變得越來越重要。近年來在一些國際組織機構(如歐洲聯(lián)盟)、新聞媒體、全球性的網 絡平臺、跨國貿易與旅游等政治、網絡、文化、教育以及商務環(huán)境中,機器翻譯已逐漸成為了 一種獲取信息和傳播信息的重要基礎手段。
[0003] 統(tǒng)計機器翻譯是目前主流的機器翻譯技術。它能夠根據數學模型和算法自動地從 平行語料庫中學習到翻譯知識。統(tǒng)計機器翻譯并不需要相關的語言學家參與,并且與具體 的語言相對獨立。另外,統(tǒng)計機器翻譯系統(tǒng)開發(fā)部署周期較短,翻譯速度較快,翻譯質量較 為魯棒。機器翻譯質量的一個決定性因素就是翻譯訓練語料庫的質量和數量,因此為了構 建強大的翻譯系統(tǒng)就必須先構建完善的語料庫系統(tǒng)。
[0004] 近年來,平行語料庫因其獨特功能正日益受到人們關注。平行語料庫屬雙語語料 庫,是指能將源語文本和其譯語文本進行全文檢索并對照顯示的語料庫。較之詞典和單語 語料庫有其獨特優(yōu)勢,如雙語對照、語言實例數量多、語域廣、時效性強、語境豐富等。可廣 泛運用于翻譯研究與培訓、雙語對比、雙語詞典編纂等,也可用做各種課型的外語教學和學 生自主學習輔助平臺(包括對外漢語教學)。
[0005] 現有的平行語料庫多是一個中文文本對應一個英文文本,或一個英文文本對應一 個中文文本。同時,現有平行語料庫語料對齊不精確,對于自動對齊,有的采用統(tǒng)計的方法, 有的采用句子排序方法,如按一定的準則對平行語料庫中的句對進行排序,使較好的句對 在排序后處于語料庫的前端;之后,可以人工著重校對處于后端的句對,或直接刪除這些句 對。目前的平行語料庫語料不能實現多譯本對齊。
【發(fā)明內容】
[0006] 本發(fā)明實施例提供了一種多譯本平行語料庫的構建方法,用以構建多譯本平行語 料庫,提高語料對齊的精確度,該方法包括:
[0007] 分別計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似 度;
[0008] 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似 度,將源語言文本與每一譯本進行語句匹配,且匹配時參考源語言文本與所述多個譯本中 其它譯本的深度語義相似度;
[0009] 根據源語言文本與多個譯本的語句匹配結果,構建多譯本平行語料庫。
[0010] 與現有技術相比較,本發(fā)明實施例提供的技術方案具有如下優(yōu)點:
[0011] 首先,與現有采用統(tǒng)計的方法或句子排序方法相比較,本發(fā)明實施例提供的技術 方案,通過計算源語言文本句子和多個譯本待匹配句子的深度語義相似度,根據深度語義 相似度進行句子自動對齊,基于深度語義的匹配,可以提供比表面詞匯更深層次的語義匹 配關系,提高了語料對齊的精確度;
[0012] 其次,本發(fā)明實施例在根據源語言文本句子與多個譯本中每一譯本的待匹配句子 的深度語義相似度,將源語言文本與每一譯本進行語句匹配時,即在考慮兩個文本相似度 時,充分考慮了源語言文本與多個譯本中其它譯本的深度語義相似度,進行協(xié)同語句匹配, 實現了多譯本對齊,并使得最終構建的多譯本平行語料庫更具有魯棒性。
【附圖說明】
[0013] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,并不 構成對本發(fā)明的限定。在附圖中:
[0014] 圖1是本發(fā)明實施例中多譯本平行語料庫的構建方法的流程示意圖;
[0015] 圖2是本發(fā)明實施例中計算源語言文本句子和多個譯本待匹配句子的深度語義相 似度的流程示意圖;
[0016] 圖3是本發(fā)明實施例中將詞匯向量化表示的句子進行深度壓縮編碼,轉換為句子 語義壓縮向量一個實施例的示意圖;
[0017] 圖4是本發(fā)明實施例中將詞匯向量化表示的句子進行深度壓縮編碼,轉換為句子 語義壓縮向量另一個實施例的示意圖;
[0018] 圖5是本發(fā)明實施例中語料訓練的流程示意圖;
[0019] 圖6是本發(fā)明實施例中多譯本平行語料庫的構建方法的另一實施例流程示意圖;
[0020] 圖7是本發(fā)明實施例中加權計算源語言文本句子與多個譯本中每一譯本的待匹配 句子的匹配度涉及到的示意圖。
【具體實施方式】
[0021] 為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施方式和附圖,對 本發(fā)明做進一步詳細說明。在此,本發(fā)明的示意性實施方式及其說明用于解釋本發(fā)明,但并 不作為對本發(fā)明的限定。
[0022] 圖1是本發(fā)明實施例中多譯本平行語料庫的構建方法的流程示意圖,如圖1所示, 該方法包括如下步驟:
[0023] 步驟101:分別計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度 語義相似度;
[0024] 步驟102:根據源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義 相似度,將源語言文本與每一譯本進行語句匹配,且匹配時參考源語言文本與多個譯本中 其它譯本的深度語義相似度;
[0025] 步驟103:根據源語言文本與多個譯本的語句匹配結果,構建多譯本平行語料庫。
[0026] 與現有技術相比較,本發(fā)明實施例提供的技術方案具有如下優(yōu)點:
[0027] 首先,與現有采用統(tǒng)計的方法或句子排序方法相比較,本發(fā)明實施例提供的技術 方案,通過計算源語言文本句子和多個譯本待匹配句子的深度語義相似度,根據深度語義 相似度進行句子自動對齊,基于深度語義的匹配,可以提供比表面詞匯更深層次的語義匹 配關系,提高了語料對齊的精確度;
[0028] 其次,本發(fā)明實施例在根據源語言文本句子與多個譯本中每一譯本的待匹配句子 的深度語義相似度,將源語言文本與每一譯本進行語句匹配時,即在考慮兩個文本相似度 時,充分考慮了源語言文本與多個譯本中其它譯本的深度語義相似度,進行協(xié)同語句匹配, 實現了多譯本對齊,并使得最終構建的多譯本平行語料庫更具有魯棒性。
[0029] 本發(fā)明實施例中提到的深度語義為句子的語義向量,具有相似語義的句子的深度 語義向量表示在向量空間距離比較接近,這個深度語義不但可以表示出句子豐富的語義信 息,也可以表示它們細微的差異。
[0030] 在一個實施例中,在步驟101中,分別計算源語言文本句子與多個譯本中每一譯本 的待匹配句子的深度語義相似度,可以包括:
[0031] 將源語言文本句子中的詞匯轉換為向量化詞匯,獲得源語言文本詞匯向量化表示 的句子;將多個譯本待匹配句子中的詞匯轉換為向量化詞匯,獲得多個譯本詞匯向量化表 示的句子;
[0032] 將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得源語言文本句子的 語義壓縮向量;將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子 的語義壓縮向量;
[0033] 根據源語言文本句子的語義壓縮向量和多個譯本句子的語義壓縮向量的對比結 果,計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度。
[0034] 圖2即為本發(fā)明實施例中分別計算源語言文本句子與多個譯本中每一譯本的待匹 配句子的深度語義相似度的一個例子的流程示意圖,下面結合附圖2進行詳細說明。
[0035] 計算源語言文本句子和多個譯本待匹配句子的深度語義相似度的過程即為對兩 個句子的語義一致性評價的過程,其根據雙語兩端輸入的詞匯化序列計算出語義一致性分 數,作為對齊(匹配)決策的重要指標,語義相似性評價指標執(zhí)行過程如圖2所示。不失一般 性,本發(fā)明實施例以雙語句對輸入為例。
[0036] 具體實施時,圖2中語言F/語言E:分別代表著兩種語言,該兩種語言可以是同種語 言,也可以是不同的語言,對語言沒有特定要求,例如:語言F可以是中文,語言E可以是英 文;或者語言F可以是普通話,語言E可以是四川方言。
[0037] 具體實施時,圖2中句子f/句子e:分別代表著使用語言F和語言E對應文字書寫的 句子,例如:句子f可以是源語言文本中的一個句子,句子e可以是一個譯本中的待匹配的句 子。對比句子f可以為源語言文本的句子,待評價句子e可以為多個譯本中待匹配的句子。
[0038] 在一個實施例中,在將源語言文本句子中的詞匯轉換為向量化詞匯,獲得源語言 文本詞匯向量化表示的句子之前,還可以包括:對源語言文本句子進行預處理;
[0039] 在將多個譯本待匹配句子中的詞匯轉換為向量化詞匯,獲得多個譯本詞匯向量化 表示的句子之前,還可以包括:對多個譯本待匹配句子進行預處理。
[0040] 在一個實施例中,對源語言文本句子進行預處理,可以包括:
[0041] 如果源語言文本是漢語,對源語言文本句子進行分詞處理;
[0042]如果源語言文本是英語,對源語言文本句子進行標記Token處理;
[0043] 對多個譯本待匹配句子進行預處理,可以包括:
[0044] 如果多個譯本是漢語,對多個譯本待匹配句子進行分詞處理;
[0045] 如果多個譯本是英語,對多個譯本待匹配句子進行標記Token處理。
[0046] 具體實施時,上述對源語言文本句子進行預處理和對多個譯本待匹配句子進行預 處理,可以減小數據稀疏性和增加數據一致性。預處理具體可以是:漢語需要則進行分詞, 如果是英語需要進行標記Token。
[0047] 具體實施時,上述將源語言文本句子中的詞匯轉換為向量化詞匯,獲得源語言文 本詞匯向量化表示的句子,將多個譯本待匹配句子中的詞匯轉換為向量化詞匯,獲得多個 譯本詞匯向量化表示的句子,這一過程可以通過詞匯向量化裝置來完成,該裝置將詞匯轉 化為可計算的向量形式的裝置,為一淺層神經網絡裝置。該裝置通過大量單語語料訓練得 到該語詞匯的向量化表示,該裝置的具體技術方案具體參考文獻[1-3](詳見下文)。具體生 成的詞匯向量具體形式可以為:(0.13,-0.29,……,0.91,0.88)。
[0048] 參考文獻[1 ] Tomas Mi ko 1 ov,Ka i Chen,Greg Corrado,and Jeffrey Dean·Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR,2013〇
[0049] 參考文獻[2]Tomas Mikolov, Ilya Sutskever,Kai Chen,Greg Corrado,and Jeffrey Dean.Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS,2013。
[0050] 參考文獻[3]Tomas Mikolov,Wen_tau Yih,and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT,2013〇
[0051] 具體實施時,上述將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量,將多個譯本詞匯向量化表示的句子進行深度壓縮編碼, 獲得多個譯本句子的語義壓縮向量,這一過程可以通過句子深度編碼裝置來完成,該裝置 為對已詞匯向量化表示的句子序列進行進一步深層次壓縮編碼轉換為語義向量的裝置,其 為一多層次化的深層次神經網絡裝置。其中,句子語義壓縮向量是經過句子深層次編碼裝 置得到的句子語義壓縮向量表示,具體形式與詞匯化向量化裝置中的一致。
[0052] 具體實施時,上述根據源語言文本句子的語義壓縮向量和多個譯本句子的語義壓 縮向量的對比結果,計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義 相似度,這一過程可以通過語義向量對比裝置來完成,該裝置即為對兩個句子的語義壓縮 向量進行對比并輸出二者一致性程度的裝置。
[0053] 下面著重介紹上述進行深度壓縮編碼獲得句子語義壓縮向量的技術方案。
[0054]語義向量是特定維數的實數值向量,其中,每一維度都在統(tǒng)計學角度代表了文本 的某一語義特征。與傳統(tǒng)分類模式中的人工設計特征相比,語義向量的優(yōu)勢體現在兩個方 面:其一是借助深度學習技術可以自動化地從語料文本中習得;其二是借助向量中的實值 屬性及其組合可以表達豐富的語義和細微的差異。語義向量的習得與以此為基礎的分類, 借助統(tǒng)一的神經網絡結構即可完成。
[0055]上述提到的句子深度編碼裝置為將詞匯向量化后的句子作為輸入,并進行深度壓 縮編碼,首先輸出上文提到的語義向量,再經過編碼輸出該句子的語義壓縮向量的裝置。具 體實施時,句子深度編碼裝置具體在一個句子上進行壓縮編碼生成語義壓縮向量。
[0056]具體實施時,可以采用了兩種不同的方式進行句子深度壓縮編碼。下面分別對這 兩種不同的深度編碼方式進行介紹。
[0057]方式一:線性深度語義表示。
[0058] 在一個實例中,將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得源 語言文本句子的語義壓縮向量,可以包括:
[0059] 在進行深度壓縮編碼時,通過多層的卷積層和池化層,模擬源語言文本詞匯向量 化表不的句子的句法樹結構;
[0060] 根據句法樹結構,將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量;
[0061] 將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子的語義 壓縮向量,可以包括:
[0062] 在進行深度壓縮編碼時,通過多層的卷積層和池化層,模擬多個譯本詞匯向量化 表不的句子的句法樹結構;
[0063] 根據句法樹結構,將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多 個譯本句子的語義壓縮向量。
[0064] 具體實施時,文本包含了復雜的結構,既有層次化的關系,也有序列化的關系。這 里我們采用卷積神經網絡裝置對文本進行建模,可以更好的表示文本的層次化語義。一個 簡單的方法,是通過多層的卷積層和池化層模擬句子的句法樹結構,從而將文本表示為向 量。如圖3所示,不同長度的句子,通過'0'向量補全,表示為固定的輸入,然后通過卷積神經 網絡,句子的主要信息就會逐層傳遞和抽象。而池化操作可以有效的過濾掉句子中不重要 的信息。
[0065]方式二:結構深度語義表示。
[0066] 在一個實施例中,將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量,可以包括:
[0067] 在進行深度壓縮編碼時,對源語言文本詞匯向量化表示的句子進行句法結構分 析;
[0068] 基于句法結構分析的結果,將源語言文本詞匯向量化表示的句子根據句法結構遞 歸為源語言文本句子的語義壓縮向量;
[0069] 將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子的語義 壓縮向量,可以包括:
[0070] 在進行深度壓縮編碼時,對多個譯本詞匯向量化表示的句子進行句法結構分析;
[0071] 基于句法結構分析的結果,將多個譯本詞匯向量化表示的句子根據句法結構遞歸 為多個譯本句子的語義壓縮向量。
[0072] 具體實施時,為了更充分的挖掘文本的語義信息,我們將深度語義和句法樹結合 起來,利用遞歸自編碼神經網絡對文本的語義進行抽象表示,如圖4所示,這個方法借助于 句法分析的結果,將文本根據句法結構遞歸的進行表示,這個例子中"明天是星期天"經過 遞歸被表示為序號"5"所對應的向量。本方法借助了無監(jiān)督學習的思想,同時需要將"5"表 示的信息盡可能還原為輸入的句子。這樣的結構使得根節(jié)點"5",盡可能多的保留了句子的 句法和語義信息。
[0073] 本發(fā)明實施例中深度壓縮編碼,通過深度語義對句子進行層次化稠密向量的壓 縮,獲得的壓縮向量提供了豐富的語義信息。
[0074] 在上述將源語言文本句子和多個譯本待匹配句子的句子語義壓縮向量進行對比 過程中,可以按照如下公式,計算源語言文本句子與多個譯本中每一譯本的待匹配句子的 深度語義相似度:
[0076] 其中,sim(vl,V2)為源語言文本句子與多個譯本中每一譯本的待匹配句子的深度 語義相似度函數,vl為源語言文本中的一個句子的語義壓縮向量,v2為一個譯本中的一個 待匹配句子的語義壓縮向量。
[0077] 具體實施時,語義向量對比是將兩個不同語言的句子通過圖2中的方式獲得的語 義壓縮向量進行對比并輸出其相似度。相似度sim(vl,v2)計算方法配置較為靈活,可以使 用一般的向量的cos相似度進行評價。在本發(fā)明實施例中,由于向量語義向量維度配置一般 較大,導致cos相似度評價方法的區(qū)分度受限,因此,本發(fā)明實施例中,語義向量對比通過上 述公式實現。語義向量對比的具體流程為根據兩個句子的語義壓縮向量,經過上述的sim函 數相似度計算輸出的語義相似度。
[0078] 下面結合圖5,對上述計算源語言文本句子和多個譯本待匹配句子的深度語義相 似度的過程中,涉及到的語料訓練裝置進行介紹。該訓練裝置可以用于本發(fā)明實施例中的 詞匯向量化和句子語義壓縮向量化的實施過程。
[0079] 圖5中雙語平行語料:雙語平行句對的集合,其中,雙語平行句對為描述同樣事物 或表達同樣語義的不同語言的句子。在本發(fā)明實施例中雙語平行句對可以為圖2中的對比 句子f (源語言文本中的句子)和待評價句子e(多個譯本中待匹配的句子)。
[0080] 圖5中向量化雙語平行語料:對雙語平行語料中的雙語平行句對進行詞匯向量化 得到的雙語平行語料集合。
[0081] 圖5中對比差異訓練裝置:對雙語平行句對經過句子深度壓縮編碼后的語義壓縮 向量進行優(yōu)化配置的裝置。
[0082] 在一個實施例中,如圖6所示,本發(fā)明實施例提供的多譯本平行語料庫的構建方 法,還可以包括:
[0083] 計算源語言文本句子與多個譯本中每一譯本的待匹配句子的代表性詞典相似度 和其他統(tǒng)計信息相似度;
[0084] 代表性詞典相似度和其他統(tǒng)計信息相似度的含義及舉例如下:漢語句子"今天北 京天氣不錯",英語句子是"the weather is good today"。詞典相似度計算比較簡單,根據 源語言的每個詞,按辭典翻譯為目標語言,然后計算翻譯的句子和真正的句子之間的相似 度就可以了。其它統(tǒng)計信息的相似度比較靈活,比如源語言句子有數字,目標語言是否也有 相同的數字,源語言有命名實體,例如"北京",目標語言是否出現了相應的命名實體 Beijing 〇
[0085] 在上述步驟102中,根據源語言文本句子與多個譯本中每一譯本的待匹配句子的 深度語義相似度,將源語言文本與每一譯本進行語句匹配,包括:
[0086] 根據源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度、代 表性詞典相似度和其他統(tǒng)計信息相似度,通過線性回歸模型加權計算源語言文本句子與多 個譯本中每一譯本的待匹配句子的融合匹配度;所述線性回歸模型為:y = WlXl+W2X2+W3X3+ b;其中,y為融合匹配度,X1為深度語義相似度,W1為深度語義相似度的加權參數,X2為代表 性詞典相似度,w 2為代表性詞典相似度的加權參數,X3為其他統(tǒng)計信息相似度,W3為其他統(tǒng) 計信息相似度的加權參數,b為偏置量;W和b這兩個參數都可以通過圖5中流程示意圖訓練 得到;
[0087] 根據融合匹配度,將源語言文本與每一譯本進行語句匹配。
[0088] 具體實施時,可以利用加權融合匹配裝置,根據源語言文本句子與多個譯本中每 一譯本的待匹配句子的深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度,通過 線性回歸模型加權計算源語言文本句子與多個譯本中每一譯本的待匹配句子的匹配度。
[0089] 具體實施時,如圖7所示,上述加權融合匹配裝置根據上層輸入的深度語義相似 度、代表性詞典相似度和其他統(tǒng)計信息相似度,即經過融合,得到兩個文本的匹配度。輸入 層是深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度等信息,經過一個多層感 知機網絡可以輸出它們的融合匹配度,作為兩個文本的最終匹配相似度,圖7中輸出層用于 輸出上述融合匹配度,隱層即為多層感知機網絡的中間層。上述多層感知機相當于一個淺 層的神經網絡,相對于邏輯斯特線性回歸,多層感知機通過多層非線性變化,能夠表示更豐 富的和更抽象的語義匹配信息。因為語言本質上是人類對現實的高度抽象,所以更需要多 層的非線性的網絡來表示這種抽象的關系。
[0090] 通過上述可知,本發(fā)明實施例不僅僅利用了深度語義匹配度(相似度),還充分融 合了其它的統(tǒng)計信息和代表性詞典相似度等,這樣使得匹配更為精確。
[0091] 在一個實施例中,根據源語言文本句子與多個譯本中每一譯本的待匹配句子的深 度語義相似度,將源語言文本與每一譯本進行語句匹配,且匹配時參考源語言文本與多個 譯本中其它譯本的深度語義相似度,包括:
[0092] 計算源語言文本與所述多個譯本中其它譯本的條件概率;
[0093] 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似 度,以及源語言文本與所述多個譯本中其它譯本的條件概率,將源語言文本與每一譯本進 行語句匹配。
[0094] 在一個實施例中,按照如下公式,將源語言文本與每一譯本進行語句匹配:
[0095] p(s,ti)= Ip(s | tj)p(tj | ti);
[0096] 其中,s為源語言文本,ti為一個譯本,k為其它譯本,pb,^)為源語言文本句子與 多個譯本中每一譯本的待匹配句子的深度語義相似度,p(s | 4)ρ(4 1為源語言文本與所 述多個譯本中其它譯本的條件概率。
[0097] 具體實施時,上述加權融合匹配裝置可以直接計算任意兩個文本之間的最終的匹 配度(融合匹配度),但是沒有充分利用多譯本的信息,因此在這個基礎上,本發(fā)明實施例進 一步使用了多譯本協(xié)同對齊方案,充分考慮了多個譯本的信息。
[0098] 下面舉個具體的例子,說明多譯本協(xié)同對齊如何實施:假設當前文本為語言s,對 應的譯本為t山為其它譯本,那么s與。的匹配度,根據條件概率模型:ρ( 8,ω=Σρ(8|4) p(k I ω即可精確求得。其中,Ρ(8,ω可以根據加權融合匹配得到。本發(fā)明實施例根據條件 概率關系,在考慮兩個文本相似度的時候,充分考慮到其它譯本的條件概率,使得對齊更為 魯棒。
[0099] 本發(fā)明實施例提供的技術方案實現了如下技術效果:
[0100] (1)利用深度語義信息,通過多譯本的協(xié)同關系,構建了多譯本平行語料庫,同時, 促進了進一步訓練更大規(guī)模的機器翻譯系統(tǒng)。
[0101] (2)通過深度語義的匹配,可以提供一個較表面詞匯句子更深層次的語義匹配關 系。通過深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度等多方面的融合,確定 了融合匹配度,根據該融合后的匹配度進行語句匹配,提高了語句匹配的精確度,即提高了 語料對齊的精確度。同時,多協(xié)同對齊能很好地利用了多個譯本之間的關系,構建更為魯棒 的多譯本平行語料庫。
[0102] 顯然,本領域的技術人員應該明白,上述的本發(fā)明實施例的各模塊或各步驟可以 用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置 所組成的網絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現,從而,可以將它 們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí) 行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個 模塊或步驟制作成單個集成電路模塊來實現。這樣,本發(fā)明實施例不限制于任何特定的硬 件和軟件結合。
[0103] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技 術人員來說,本發(fā)明實施例可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的 任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1. 一種多譯本平行語料庫的構建方法,其特征在于,包括: 分別計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度; 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,將 源語言文本與每一譯本進行語句匹配,且匹配時參考源語言文本與所述多個譯本中其它譯 本的深度語義相似度; 根據源語言文本與多個譯本的語句匹配結果,構建多譯本平行語料庫。2. 如權利要求1所述的多譯本平行語料庫的構建方法,其特征在于,分別計算源語言文 本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,包括: 將源語言文本句子中的詞匯轉換為向量化詞匯,獲得源語言文本詞匯向量化表示的句 子;將多個譯本待匹配句子中的詞匯轉換為向量化詞匯,獲得多個譯本詞匯向量化表示的 句子; 將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得源語言文本句子的語義 壓縮向量;將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子的語 義壓縮向量; 根據所述源語言文本句子的語義壓縮向量和多個譯本句子的語義壓縮向量的對比結 果,計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度。3. 如權利要求2所述的多譯本平行語料庫的構建方法,其特征在于,將源語言文本詞匯 向量化表示的句子進行深度壓縮編碼,獲得源語言文本句子的語義壓縮向量,包括: 在進行深度壓縮編碼時,通過多層的卷積層和池化層,模擬源語言文本詞匯向量化表 示的句子的句法樹結構; 根據所述句法樹結構,將源語言文本詞匯向量化表示的句子進行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量; 將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子的語義壓縮 向量,包括: 在進行深度壓縮編碼時,通過多層的卷積層和池化層,模擬多個譯本詞匯向量化表示 的句子的句法樹結構; 根據所述句法樹結構,將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多 個譯本句子的語義壓縮向量。4. 如權利要求2所述的多譯本平行語料庫的構建方法,其特征在于,將源語言文本詞匯 向量化表示的句子進行深度壓縮編碼,獲得源語言文本句子的語義壓縮向量,包括: 在進行深度壓縮編碼時,對源語言文本詞匯向量化表示的句子進行句法結構分析; 基于句法結構分析的結果,將源語言文本詞匯向量化表示的句子根據句法結構遞歸為 源語言文本句子的語義壓縮向量; 將多個譯本詞匯向量化表示的句子進行深度壓縮編碼,獲得多個譯本句子的語義壓縮 向量,包括: 在進行深度壓縮編碼時,對多個譯本詞匯向量化表示的句子進行句法結構分析; 基于句法結構分析的結果,將多個譯本詞匯向量化表示的句子根據句法結構遞歸為多 個譯本句子的語義壓縮向量。5. 如權利要求2所述的多譯本平行語料庫的構建方法,其特征在于,按照如下公式,計 算源語言文本句子與多個譯本中毎一譯本的待兀配句子的深度語義相似度:其中,sim(vl,V2)為源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義 相似度函數,vl為源語言文本中的一個句子的語義壓縮向量,v2為一個譯本中的一個待匹 配句子的語義壓縮向量。6. 如權利要求2所述的多譯本平行語料庫的構建方法,其特征在于,在將源語言文本句 子中的詞匯轉換為向量化詞匯,獲得源語言文本詞匯向量化表示的句子之前,還包括:對源 語言文本句子進行預處理; 在將多個譯本待匹配句子中的詞匯轉換為向量化詞匯,獲得多個譯本詞匯向量化表示 的句子之前,還包括:對多個譯本待匹配句子進行預處理。7. 如權利要求6所述的多譯本平行語料庫的構建方法,其特征在于,對源語言文本句子 進行預處理,包括: 如果源語言文本是漢語,對源語言文本句子進行分詞處理; 如果源語言文本是英語,對源語言文本句子進行標記Token處理; 對多個譯本待匹配句子進行預處理,包括: 如果多個譯本是漢語,對多個譯本待匹配句子進行分詞處理; 如果多個譯本是英語,對多個譯本待匹配句子進行標記Token處理。8. 如權利要求1所述的多譯本平行語料庫的構建方法,其特征在于,還包括: 計算源語言文本句子與多個譯本中每一譯本的待匹配句子的代表性詞典相似度和其 他統(tǒng)計信息相似度; 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,將 源語言文本與每一譯本進行語句匹配,包括: 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度、代 表性詞典相似度和其他統(tǒng)計信息相似度,通過線性回歸模型加權計算源語言文本句子與多 個譯本中每一譯本的待匹配句子的融合匹配度;所述線性回歸模型為:y = WlXl+W2X2+W3X3+ b;其中,y為融合匹配度,X1為深度語義相似度,W1為深度語義相似度的加權參數,X2為代表 性詞典相似度,w 2為代表性詞典相似度的加權參數,X3為其他統(tǒng)計信息相似度,W3為其他統(tǒng) 計信息相似度的加權參數,b為偏置量; 根據所述融合匹配度,將源語言文本與每一譯本進行語句匹配。9. 如權利要求1所述的多譯本平行語料庫的構建方法,其特征在于,根據所述源語言文 本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,將源語言文本與每一譯本 進行語句匹配,且匹配時參考源語言文本與所述多個譯本中其它譯本的深度語義相似度, 包括: 計算源語言文本與所述多個譯本中其它譯本的條件概率; 根據所述源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度,以 及源語言文本與所述多個譯本中其它譯本的條件概率,將源語言文本與每一譯本進行語句 匹配。10. 如權利要求9所述的多譯本平行語料庫的構建方法,其特征在于,按照如下公式,將 源語言文本與每一譯本進行語句匹配: p(s,ti)= Ip(s|tj)p(tj|ti); 其中,S為源語言文本,ti為一個譯本,k為其它譯本,pb,^)為源語言文本句子與多個 譯本中每一譯本的待匹配句子的深度語義相似度,P(S I tJpUj 1為源語言文本與所述多 個譯本中其它譯本的條件概率。
【文檔編號】G06F17/28GK105868187SQ201610178474
【公開日】2016年8月17日
【申請日】2016年3月25日
【發(fā)明人】吳平, 孫洪波, 粟向軍, 苑曉鶴, 安勝昔
【申請人】北京語言大學