多譯本平行語料庫的構(gòu)建系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種多譯本平行語料庫的構(gòu)建系統(tǒng),包括:深度語義相似度計算裝置,用于分別計算源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度;代表性詞典相似度和其他統(tǒng)計信息相似度計算裝置;融合匹配度計算裝置,用于計算源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度;語句匹配裝置,用于根據(jù)融合匹配度,將源語言文本與每一譯本進(jìn)行語句匹配,且匹配時參考源語言文本與所述多個譯本中其它譯本的融合匹配度;多譯本平行語料庫構(gòu)建裝置,用于根據(jù)匹配結(jié)果,構(gòu)建多譯本平行語料庫。上述技術(shù)方案實現(xiàn)了多譯本平行語料庫的構(gòu)建,提高了語料對齊的精確度,通過該方案構(gòu)建的多譯本平行語料庫具有魯棒性。
【專利說明】
多譯本平行語料庫的構(gòu)建系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語料庫建設(shè)技術(shù)領(lǐng)域,特別涉及一種多譯本平行語料庫的構(gòu)建系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展,帶來了網(wǎng)絡(luò)數(shù)據(jù)文本的爆炸式生長,蓬勃的互聯(lián)網(wǎng)發(fā)展 帶來了豐富的多語言信息,借助這些豐富的多語言信息可以構(gòu)建更好的機(jī)器翻譯系統(tǒng)。人 工翻譯耗時較長,成本較高,已經(jīng)滿足不了人們對多語言信息日益增長的需求。機(jī)器翻譯能 夠?qū)⒁环N自然語言自動地翻譯為另一種自然語言。利用機(jī)器翻譯快速獲取多語言的信息和 資源已成為必然趨勢。這使得能提供多語言、高質(zhì)量、易獲取的翻譯服務(wù)的機(jī)器翻譯系統(tǒng)和 設(shè)備也變得越來越重要。近年來在一些國際組織機(jī)構(gòu)(如歐洲聯(lián)盟)、新聞媒體、全球性的網(wǎng) 絡(luò)平臺、跨國貿(mào)易與旅游等政治、網(wǎng)絡(luò)、文化、教育以及商務(wù)環(huán)境中,機(jī)器翻譯已逐漸成為了 一種獲取信息和傳播信息的重要基礎(chǔ)手段。
[0003] 統(tǒng)計機(jī)器翻譯是目前主流的機(jī)器翻譯技術(shù)。它能夠根據(jù)數(shù)學(xué)模型和算法自動地從 平行語料庫中學(xué)習(xí)到翻譯知識。統(tǒng)計機(jī)器翻譯并不需要相關(guān)的語言學(xué)家參與,并且與具體 的語言相對獨立。另外,統(tǒng)計機(jī)器翻譯系統(tǒng)開發(fā)部署周期較短,翻譯速度較快,翻譯質(zhì)量較 為魯棒。機(jī)器翻譯質(zhì)量的一個決定性因素就是翻譯訓(xùn)練語料庫的質(zhì)量和數(shù)量,因此為了構(gòu) 建強(qiáng)大的翻譯系統(tǒng)就必須先構(gòu)建完善的語料庫系統(tǒng)。
[0004] 近年來,平行語料庫因其獨特功能正日益受到人們關(guān)注。平行語料庫屬雙語語料 庫,是指能將源語文本和其譯語文本進(jìn)行全文檢索并對照顯示的語料庫。較之詞典和單語 語料庫有其獨特優(yōu)勢,如雙語對照、語言實例數(shù)量多、語域廣、時效性強(qiáng)、語境豐富等??蓮V 泛運用于翻譯研究與培訓(xùn)、雙語對比、雙語詞典編纂等,也可用做各種課型的外語教學(xué)和學(xué) 生自主學(xué)習(xí)輔助平臺(包括對外漢語教學(xué))。
[0005] 現(xiàn)有的平行語料庫多是一個中文文本對應(yīng)一個英文文本,或一個英文文本對應(yīng)一 個中文文本。同時,現(xiàn)有平行語料庫語料對齊不精確,對于自動對齊,有的采用統(tǒng)計的方法, 有的采用句子排序方法,如按一定的準(zhǔn)則對平行語料庫中的句對進(jìn)行排序,使較好的句對 在排序后處于語料庫的前端;之后,可以人工著重校對處于后端的句對,或直接刪除這些句 對。目前的平行語料庫語料不能實現(xiàn)多譯本對齊。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實施例提供了一種多譯本平行語料庫的構(gòu)建系統(tǒng),用以構(gòu)建多譯本平行語 料庫,提高語料對齊的精確度,該系統(tǒng)包括:
[0007] 深度語義相似度計算裝置,用于分別計算源語言文本句子與多個譯本中每一譯本 的待匹配句子的深度語義相似度;
[0008] 代表性詞典相似度和其他統(tǒng)計信息相似度計算裝置,用于計算源語言文本句子與 多個譯本中每一譯本的待匹配句子的代表性詞典相似度和其他統(tǒng)計信息相似度;
[0009] 融合匹配度計算裝置,用于根據(jù)所述源語言文本句子與多個譯本中每一譯本的待 匹配句子的深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度,通過線性回歸模 型加權(quán)計算源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度;
[0010] 語句匹配裝置,用于根據(jù)源語言文本句子與多個譯本中每一譯本的待匹配句子的 融合匹配度,將源語言文本與每一譯本進(jìn)行語句匹配,且匹配時參考源語言文本與所述多 個譯本中其它譯本的融合匹配度;
[0011] 多譯本平行語料庫構(gòu)建裝置,用于根據(jù)源語言文本與多個譯本的語句匹配結(jié)果, 構(gòu)建多譯本平行語料庫。
[0012] 與現(xiàn)有技術(shù)相比較,本發(fā)明實施例提供的技術(shù)方案具有如下優(yōu)點:
[0013] 首先,與現(xiàn)有采用統(tǒng)計的方法或句子排序方法相比較,本發(fā)明實施例提供的技術(shù) 方案,通過計算源語言文本句子和多個譯本待匹配句子的深度語義相似度,基于深度語義 的匹配,可以提供比表面詞匯更深層次的語義匹配關(guān)系,提高了語料對齊的精確度;
[0014] 其次,本發(fā)明實施例通過深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相 似度等多方面的融合,加權(quán)計算確定了融合匹配度,根據(jù)該融合匹配度進(jìn)行語句匹配,提高 了語句匹配的精確度;
[0015] 最后,本發(fā)明實施例在根據(jù)源語言文本句子與多個譯本中每一譯本的待匹配句子 的融合匹配度將源語言文本與每一譯本進(jìn)行語句匹配時,即在考慮兩個文本相似度時,充 分考慮了源語言文本與多個譯本中其它譯本的融合匹配度,進(jìn)行協(xié)同語句匹配,實現(xiàn)了多 譯本對齊,并使得最終構(gòu)建的多譯本平行語料庫更具有魯棒性。
【附圖說明】
[0016] 此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,并不 構(gòu)成對本發(fā)明的限定。在附圖中:
[0017] 圖1是本發(fā)明實施例中多譯本平行語料庫的構(gòu)建系統(tǒng)的結(jié)構(gòu)示意圖;
[0018] 圖2是本發(fā)明實施例中深度語義相似度計算裝置的結(jié)構(gòu)示意圖;
[0019] 圖3是本發(fā)明實施例中深度語義相似度計算裝置工作時一個例子的流程示意圖;
[0020] 圖4是本發(fā)明實施例中將詞匯向量化表示的句子進(jìn)行深度壓縮編碼,轉(zhuǎn)換為句子 語義壓縮向量一個實施例的示意圖;
[0021] 圖5是本發(fā)明實施例中將詞匯向量化表示的句子進(jìn)行深度壓縮編碼,轉(zhuǎn)換為句子 語義壓縮向量另一個實施例的示意圖;
[0022] 圖6是本發(fā)明實施例中語料訓(xùn)練的流程示意圖;
[0023] 圖7是本發(fā)明實施例中加權(quán)計算源語言文本句子與多個譯本中每一譯本的待匹配 句子的匹配度涉及到的示意圖。
【具體實施方式】
[0024]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合實施方式和附圖,對 本發(fā)明做進(jìn)一步詳細(xì)說明。在此,本發(fā)明的示意性實施方式及其說明用于解釋本發(fā)明,但并 不作為對本發(fā)明的限定。
[0025]圖1是本發(fā)明實施例中多譯本平行語料庫的構(gòu)建系統(tǒng)的結(jié)構(gòu)示意圖,如圖1所示, 該系統(tǒng)包括:
[0026] 深度語義相似度計算裝置10,用于分別計算源語言文本句子與多個譯本中每一譯 本的待匹配句子的深度語義相似度;
[0027] 代表性詞典相似度和其他統(tǒng)計信息相似度計算裝置20,用于計算源語言文本句子 與多個譯本中每一譯本的待匹配句子的代表性詞典相似度和其他統(tǒng)計信息相似度;
[0028] 融合匹配度計算裝置30,用于根據(jù)源語言文本句子與多個譯本中每一譯本的待匹 配句子的深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度,通過線性回歸模型 加權(quán)計算源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度;
[0029]語句匹配裝置40,用于根據(jù)源語言文本句子與多個譯本中每一譯本的待匹配句子 的融合匹配度,將源語言文本與每一譯本進(jìn)行語句匹配,且匹配時參考源語言文本與多個 譯本中其它譯本的融合匹配度;
[0030] 多譯本平行語料庫構(gòu)建裝置50,用于根據(jù)源語言文本與多個譯本的語句匹配結(jié) 果,構(gòu)建多譯本平行語料庫。
[0031] 與現(xiàn)有技術(shù)相比較,本發(fā)明實施例提供的技術(shù)方案具有如下優(yōu)點:
[0032] 首先,與現(xiàn)有采用統(tǒng)計的方法或句子排序方法相比較,本發(fā)明實施例提供的技術(shù) 方案,通過計算源語言文本句子和多個譯本待匹配句子的深度語義相似度,基于深度語義 的匹配,可以提供比表面詞匯更深層次的語義匹配關(guān)系,提高了語料對齊的精確度;
[0033] 其次,本發(fā)明實施例通過深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相 似度等多方面的融合,加權(quán)計算確定了融合匹配度,根據(jù)該融合匹配度進(jìn)行語句匹配,提高 了語句匹配的精確度;
[0034] 最后,本發(fā)明實施例在根據(jù)源語言文本句子與多個譯本中每一譯本的待匹配句子 的融合匹配度將源語言文本與每一譯本進(jìn)行語句匹配時,即在考慮兩個文本相似度時,充 分考慮了源語言文本與多個譯本中其它譯本的融合匹配度,進(jìn)行協(xié)同語句匹配,實現(xiàn)了多 譯本對齊,并使得最終構(gòu)建的多譯本平行語料庫更具有魯棒性。
[0035] 本發(fā)明實施例中提到的深度語義為句子的語義向量,具有相似語義的句子的深度 語義向量表示在向量空間距離比較接近,這個深度語義不但可以表示出句子豐富的語義信 息,也可以表示它們細(xì)微的差異。
[0036] 另外,工作時,深度語義相似度計算裝置10和代表性詞典相似度和其他統(tǒng)計信息 相似度計算裝置20的計算順序不受限制,可以是深度語義相似度計算裝置10先計算深度語 義相似度,也可以是代表性詞典相似度和其他統(tǒng)計信息相似度計算裝置20先計算代表性詞 典相似度和其他統(tǒng)計信息相似度,也可以是兩個裝置同時進(jìn)行計算。
[0037] 具體實施時,代表性詞典相似度和其他統(tǒng)計信息相似度的含義及舉例如下:漢語 句子"今天北京天氣不錯",英語句子是"the weather is good today"。詞典相似度計算比 較簡單,根據(jù)源語言的每個詞,按辭典翻譯為目標(biāo)語言,然后計算翻譯的句子和真正的句子 之間的相似度就可以了。其它統(tǒng)計信息的相似度比較靈活,比如源語言句子有數(shù)字,目標(biāo)語 言是否也有相同的數(shù)字,源語言有命名實體,例如"北京",目標(biāo)語言是否出現(xiàn)了相應(yīng)的命名 實體 "Beijing"。
[0038] 在一個實施例中,如圖2所示,深度語義相似度計算裝置可以包括:
[0039] 詞匯向量化裝置11,用于將源語言文本句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲得源 語言文本詞匯向量化表示的句子;將多個譯本待匹配句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲 得多個譯本詞匯向量化表示的句子;
[0040] 深度壓縮編碼裝置12,用于將源語言文本詞匯向量化表示的句子進(jìn)行深度壓縮編 碼,獲得源語言文本句子的語義壓縮向量;將多個譯本詞匯向量化表示的句子進(jìn)行深度壓 縮編碼,獲得多個譯本句子的語義壓縮向量;
[0041] 語義壓縮向量對比裝置13,用于根據(jù)源語言文本句子的語義壓縮向量和多個譯本 句子的語義壓縮向量的對比結(jié)果,計算源語言文本句子與多個譯本中每一譯本的待匹配句 子的深度語義相似度。
[0042]圖3即為本發(fā)明實施例中深度語義相似度計算裝置工作時的一個例子的流程示意 圖,下面結(jié)合附圖3進(jìn)行詳細(xì)說明。
[0043] 計算源語言文本句子和多個譯本待匹配句子的深度語義相似度的過程即為對兩 個句子的語義一致性評價的過程,其根據(jù)雙語兩端輸入的詞匯化序列計算出語義一致性分 數(shù),作為對齊(匹配)決策的重要指標(biāo),語義相似性評價指標(biāo)執(zhí)行過程如圖3所示。不失一般 性,本發(fā)明實施例以雙語句對輸入為例。
[0044] 具體實施時,圖3中語言F/語言E:分別代表著兩種語言,該兩種語言可以是同種語 言,也可以是不同的語言,對語言沒有特定要求,例如:語言F可以是中文,語言E可以是英 文;或者語言F可以是普通話,語言E可以是四川方言。
[0045] 具體實施時,圖3中句子f/句子e:分別代表著使用語言F和語言E對應(yīng)文字書寫的 句子,例如:句子f可以是源語言文本中的一個句子,句子e可以是一個譯本中的待匹配的句 子。對比句子f可以為源語言文本的句子,待評價句子e可以為多個譯本中待匹配的句子。
[0046] 在一個實施例中,本發(fā)明實施例提供的多譯本平行語料庫的構(gòu)建系統(tǒng)還包括:
[0047] 源語言文本預(yù)處理裝置,用于在將源語言文本句子中的詞匯轉(zhuǎn)換為向量化詞匯, 獲得源語言文本詞匯向量化表示的句子之前,對源語言文本句子進(jìn)行預(yù)處理;
[0048]多個譯本預(yù)處理裝置,用于在將多個譯本待匹配句子中的詞匯轉(zhuǎn)換為向量化詞 匯,獲得多個譯本詞匯向量化表示的句子之前,對多個譯本待匹配句子進(jìn)行預(yù)處理。
[0049] 在一個實施例中,上述源語言文本預(yù)處理裝置具體用于:
[0050] 如果源語言文本是漢語,對源語言文本句子進(jìn)行分詞處理;
[0051] 如果源語言文本是英語,對源語言文本句子進(jìn)行標(biāo)記Token處理;
[0052]多個譯本預(yù)處理裝置具體用于:
[0053] 如果多個譯本是漢語,對多個譯本待匹配句子進(jìn)行分詞處理;
[0054] 如果多個譯本是英語,對多個譯本待匹配句子進(jìn)行標(biāo)記Token處理。
[0055] 具體實施時,上述對源語言文本句子進(jìn)行預(yù)處理和對多個譯本待匹配句子進(jìn)行預(yù) 處理,可以減小數(shù)據(jù)稀疏性和增加數(shù)據(jù)一致性。預(yù)處理具體可以是:漢語需要則進(jìn)行分詞, 如果是英語需要進(jìn)行標(biāo)記Token。
[0056] 具體實施時,上述詞匯向量化裝置11將詞匯轉(zhuǎn)化為可計算的向量形式的裝置,為 一淺層神經(jīng)網(wǎng)絡(luò)裝置。該裝置通過大量單語語料訓(xùn)練得到該語詞匯的向量化表示,該裝置 的具體技術(shù)方案具體參考文獻(xiàn)[1-3](詳見下文)。具體生成的詞匯向量具體形式可以為: (0.13,-0.29,……,0.91,0.88)〇
[0057] 參考文獻(xiàn)[I ] Tomas Mi ko I ov , Ka i Chen , Gr eg Corrado , and Jeffr ey Dean.Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR,2013。
[0058] 參考文獻(xiàn)[2]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,and Jeffrey Dean·Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS,2013。
[0059] 參考文獻(xiàn)[3]Tomas Mikolov,Wen_tau Yih,and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT,2013〇
[0060] 具體實施時,上述深度壓縮編碼裝置12為對已詞匯向量化表示的句子序列進(jìn)行進(jìn) 一步深層次壓縮編碼轉(zhuǎn)換為語義向量的裝置,其為一多層次化的深層次神經(jīng)網(wǎng)絡(luò)裝置。其 中,句子語義壓縮向量是經(jīng)過句子深層次編碼裝置得到的句子語義壓縮向量表示,具體形 式與詞匯化向量化裝置中的一致。
[0061] 具體實施時,上述語義壓縮向量對比裝置13即為對兩個句子的語義壓縮向量進(jìn)行 對比并輸出二者一致性程度的裝置。
[0062]下面著重介紹上述深度壓縮編碼裝置12。
[0063]語義向量是特定維數(shù)的實數(shù)值向量,其中,每一維度都在統(tǒng)計學(xué)角度代表了文本 的某一語義特征。與傳統(tǒng)分類模式中的人工設(shè)計特征相比,語義向量的優(yōu)勢體現(xiàn)在兩個方 面:其一是借助深度學(xué)習(xí)技術(shù)可以自動化地從語料文本中習(xí)得;其二是借助向量中的實值 屬性及其組合可以表達(dá)豐富的語義和細(xì)微的差異。語義向量的習(xí)得與以此為基礎(chǔ)的分類, 借助統(tǒng)一的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)即可完成。
[0064] 上述提到的句子深度編碼裝置為將詞匯向量化后的句子作為輸入,并進(jìn)行深度壓 縮編碼,首先輸出上文提到的語義向量,再經(jīng)過編碼輸出該句子的語義壓縮向量的裝置。具 體實施時,句子深度編碼裝置具體在一個句子上進(jìn)行壓縮編碼生成語義壓縮向量。
[0065] 具體實施時,可以采用了兩種不同的方式進(jìn)行句子深度壓縮編碼。下面分別對這 兩種不同的深度編碼方式進(jìn)行介紹。
[0066]方式一:線性深度語義表示。
[0067] 在一個實例中,深度壓縮編碼裝置12具體用于:
[0068] 在進(jìn)行深度壓縮編碼時,通過多層的卷積層和池化層,模擬源語言文本詞匯向量 化表不的句子的句法樹結(jié)構(gòu);
[0069] 根據(jù)句法樹結(jié)構(gòu),將源語言文本詞匯向量化表示的句子進(jìn)行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量;
[0070] 深度壓縮編碼裝置12具體還用于:
[0071] 在進(jìn)行深度壓縮編碼時,通過多層的卷積層和池化層,模擬多個譯本詞匯向量化 表不的句子的句法樹結(jié)構(gòu);
[0072] 根據(jù)句法樹結(jié)構(gòu),將多個譯本詞匯向量化表示的句子進(jìn)行深度壓縮編碼,獲得多 個譯本句子的語義壓縮向量。
[0073] 具體實施時,文本包含了復(fù)雜的結(jié)構(gòu),既有層次化的關(guān)系,也有序列化的關(guān)系。這 里我們采用卷積神經(jīng)網(wǎng)絡(luò)裝置對文本進(jìn)行建模,可以更好的表示文本的層次化語義。一個 簡單的方法,是通過多層的卷積層和池化層模擬句子的句法樹結(jié)構(gòu),從而將文本表示為向 量。如圖4所示,不同長度的句子,通過'0'向量補全,表示為固定的輸入,然后通過卷積神經(jīng) 網(wǎng)絡(luò),句子的主要信息就會逐層傳遞和抽象。而池化操作可以有效的過濾掉句子中不重要 的信息。
[0074] 方式二:結(jié)構(gòu)深度語義表示。
[0075] 在一個實施例中,深度壓縮編碼裝置12具體用于:
[0076] 在進(jìn)行深度壓縮編碼時,對源語言文本詞匯向量化表示的句子進(jìn)行句法結(jié)構(gòu)分 析;
[0077] 基于句法結(jié)構(gòu)分析的結(jié)果,將源語言文本詞匯向量化表示的句子根據(jù)句法結(jié)構(gòu)遞 歸為源語言文本句子的語義壓縮向量;
[0078]深度壓縮編碼裝置12具體還用于:
[0079] 在進(jìn)行深度壓縮編碼時,對多個譯本詞匯向量化表示的句子進(jìn)行句法結(jié)構(gòu)分析;
[0080] 基于句法結(jié)構(gòu)分析的結(jié)果,將多個譯本詞匯向量化表示的句子根據(jù)句法結(jié)構(gòu)遞歸 為多個譯本句子的語義壓縮向量。
[0081] 具體實施時,為了更充分的挖掘文本的語義信息,我們將深度語義和句法樹結(jié)合 起來,利用遞歸自編碼神經(jīng)網(wǎng)絡(luò)對文本的語義進(jìn)行抽象表示,如圖5所示,這個方法借助于 句法分析的結(jié)果,將文本根據(jù)句法結(jié)構(gòu)遞歸的進(jìn)行表示,這個例子中"明天是星期天"經(jīng)過 遞歸被表示為序號"5"所對應(yīng)的向量。本方法借助了無監(jiān)督學(xué)習(xí)的思想,同時需要將"5"表 示的信息盡可能還原為輸入的句子。這樣的結(jié)構(gòu)使得根節(jié)點"5",盡可能多的保留了句子的 句法和語義信息。
[0082] 本發(fā)明實施例中深度壓縮編碼裝置12,通過深度語義對句子進(jìn)行層次化稠密向量 的壓縮,獲得的壓縮向量提供了豐富的語義信息。
[0083] 在一個實施例中,語義壓縮向量對比裝置13具體用于按照如下公式,計算源語言 文本句子與多個譯本中每一譯本的待匹配句子的深度語義相似度:
[0084]
[0085] 其中,sim(vl,V2)為源語言文本句子與多個譯本中每一譯本的待匹配句子的深度 語義相似度函數(shù),vl為源語言文本中的一個句子的語義壓縮向量,v2為一個譯本中的一個 待匹配句子的語義壓縮向量。
[0086] 具體實施時,語義向量對比是將兩個不同語言的句子通過圖3中的方式獲得的語 義壓縮向量進(jìn)行對比并輸出其相似度。相似度sim(vl,v2)計算方法配置較為靈活,可以使 用一般的向量的cos相似度進(jìn)行評價。在本發(fā)明實施例中,由于向量語義向量維度配置一般 較大,導(dǎo)致cos相似度評價方法的區(qū)分度受限,因此,本發(fā)明實施例中,語義向量對比通過上 述公式實現(xiàn)。語義向量對比的具體流程為根據(jù)兩個句子的語義壓縮向量,經(jīng)過上述的sim函 數(shù)相似度計算輸出的語義相似度。
[0087] 下面結(jié)合圖6,對上述計算源語言文本句子和多個譯本待匹配句子的深度語義相 似度的過程中,涉及到的語料訓(xùn)練裝置進(jìn)行介紹。該訓(xùn)練裝置可以用于本發(fā)明實施例中的 詞匯向量化和句子語義壓縮向量化的實施過程。
[0088] 圖6中雙語平行語料:雙語平行句對的集合,其中,雙語平行句對為描述同樣事物 或表達(dá)同樣語義的不同語言的句子。在本發(fā)明實施例中雙語平行句對可以為圖3中的對比 句子f (源語言文本中的句子)和待評價句子e(多個譯本中待匹配的句子)。
[0089] 圖6中向量化雙語平行語料:對雙語平行語料中的雙語平行句對進(jìn)行詞匯向量化 得到的雙語平行語料集合。
[0090] 圖6中對比差異訓(xùn)練裝置:對雙語平行句對經(jīng)過句子深度壓縮編碼后的語義壓縮 向量進(jìn)行優(yōu)化配置的裝置。
[0091] 具體實施時,可以利用融合匹配度計算裝置30,根據(jù)源語言文本句子與多個譯本 中每一譯本的待匹配句子的深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度, 通過線性回歸模型加權(quán)計算源語言文本句子與多個譯本中每一譯本的待匹配句子的融合 匹配度。
[0092] 具體實施時,如圖7所示,上述融合匹配度計算裝置30根據(jù)上層輸入的深度語義相 似度、代表性詞典相似度和其他統(tǒng)計信息相似度,即經(jīng)過融合,得到兩個文本的匹配度。輸 入層是深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度等信息,經(jīng)過一個多層 感知機(jī)網(wǎng)絡(luò)可以輸出它們的融合匹配度,作為兩個文本的最終匹配相似度,圖7中輸出層用 于輸出上述融合匹配度,隱層即為多層感知機(jī)網(wǎng)絡(luò)的中間層。上述多層感知機(jī)相當(dāng)于一個 淺層的神經(jīng)網(wǎng)絡(luò),相對于邏輯斯特線性回歸,多層感知機(jī)通過多層非線性變化,能夠表示更 豐富的和更抽象的語義匹配信息。因為語言本質(zhì)上是人類對現(xiàn)實的高度抽象,所以更需要 多層的非線性的網(wǎng)絡(luò)來表示這種抽象的關(guān)系。
[0093] 在一個實施例中,上述線性回歸模型為:y = wixi+W2X2+W3X3+b;其中,y為融合匹配 度,X1為深度語義相似度,W1為深度語義相似度的加權(quán)參數(shù),X2為代表性詞典相似度,W 2為代 表性詞典相似度的加權(quán)參數(shù),X3為其他統(tǒng)計信息相似度,《3為其他統(tǒng)計信息相似度的加權(quán)參 數(shù),b為偏置量;w和b這兩個參數(shù)都可以通過圖5中流程示意圖訓(xùn)練得到。
[0094]通過上述可知,本發(fā)明實施例不僅僅利用了深度語義匹配度(相似度),還充分融 合了其它的其他統(tǒng)計信息和代表性詞典相似度等,這樣使得匹配更為精確。
[0095]在一個實施例中,語句匹配裝置40具體用于:
[0096] 計算源語言文本與所述多個譯本中其它譯本的條件概率;
[0097] 源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度,以及源語言 文本與所述多個譯本中其它譯本的條件概率,將源語言文本與每一譯本進(jìn)行語句匹配。
[0098] 在一個實施例中,按照如下公式,將源語言文本與每一譯本進(jìn)行語句匹配:
[0099] p(s,ti)= Ip(s I tj)p(tj I ti);
[0100] 其中,s為源語言文本A1為一個譯本,k為其它譯本,P(^t1)為源語言文本句子與 多個譯本中每一譯本的待匹配句子的深度語義相似度,p(s I 4)ρ(4 1為源語言文本與所 述多個譯本中其它譯本的條件概率。
[0101] 具體實施時,加權(quán)融合匹配裝置(融合匹配度計算裝置30)可以直接計算任意兩個 文本之間的最終的匹配度(融合匹配度),但是沒有充分利用多譯本的信息,因此在這個基 礎(chǔ)上,本發(fā)明實施例進(jìn)一步使用了多譯本協(xié)同對齊方案,充分考慮了多個譯本的信息。
[0102] 下面舉個具體的例子,說明多譯本協(xié)同對齊如何實施:假設(shè)當(dāng)前文本為語言s,對 應(yīng)的譯本為為其它譯本,那么s與ti的匹配度,根據(jù)條件概率模型= P(^t1)= Σρ(8 4)ρ(4 I 即可精確求得。其中,P(^t1)可以根據(jù)加權(quán)融合匹配得到。本發(fā)明實施例根據(jù) 條件概率關(guān)系,在考慮兩個文本相似度的時候,充分考慮到其它譯本的條件概率,使得對齊 更為魯棒。
[0103] 本發(fā)明實施例提供的技術(shù)方案實現(xiàn)了如下技術(shù)效果:
[0104] (1)利用深度語義信息,通過多譯本的協(xié)同關(guān)系,構(gòu)建了多譯本平行語料庫,同時, 促進(jìn)了進(jìn)一步訓(xùn)練更大規(guī)模的機(jī)器翻譯系統(tǒng)。
[0105] (2)通過深度語義的匹配,可以提供一個較表面詞匯句子更深層次的語義匹配關(guān) 系。通過深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度等多方面的融合,確定 了融合匹配度,根據(jù)該融合后的匹配度進(jìn)行語句匹配,提高了語句匹配的精確度,即提高了 語料對齊的精確度。同時,多協(xié)同對齊能很好地利用了多個譯本之間的關(guān)系,構(gòu)建更為魯棒 的多譯本平行語料庫。
[0106] 顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明實施例的各模塊或各步驟可以 用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置 所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它 們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí) 行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個 模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明實施例不限制于任何特定的硬 件和軟件結(jié)合。
[0107] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明實施例可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的 任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項】
1. 一種多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,包括: 深度語義相似度計算裝置,用于分別計算源語言文本句子與多個譯本中每一譯本的待 匹配句子的深度語義相似度; 代表性詞典相似度和其他統(tǒng)計信息相似度計算裝置,用于計算源語言文本句子與多個 譯本中每一譯本的待匹配句子的代表性詞典相似度和其他統(tǒng)計信息相似度; 融合匹配度計算裝置,用于根據(jù)所述源語言文本句子與多個譯本中每一譯本的待匹配 句子的深度語義相似度、代表性詞典相似度和其他統(tǒng)計信息相似度,通過線性回歸模型加 權(quán)計算源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度; 語句匹配裝置,用于根據(jù)源語言文本句子與多個譯本中每一譯本的待匹配句子的融合 匹配度,將源語言文本與每一譯本進(jìn)行語句匹配,且匹配時參考源語言文本與所述多個譯 本中其它譯本的融合匹配度; 多譯本平行語料庫構(gòu)建裝置,用于根據(jù)源語言文本與多個譯本的語句匹配結(jié)果,構(gòu)建 多譯本平行語料庫。2. 如權(quán)利要求1所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述深度語義相似 度計算裝置包括: 詞匯向量化裝置,用于將源語言文本句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲得源語言文 本詞匯向量化表示的句子;將多個譯本待匹配句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲得多個 譯本詞匯向量化表示的句子; 深度壓縮編碼裝置,用于將源語言文本詞匯向量化表示的句子進(jìn)行深度壓縮編碼,獲 得源語言文本句子的語義壓縮向量;將多個譯本詞匯向量化表示的句子進(jìn)行深度壓縮編 碼,獲得多個譯本句子的語義壓縮向量; 語義壓縮向量對比裝置,用于根據(jù)所述源語言文本句子的語義壓縮向量和多個譯本句 子的語義壓縮向量的對比結(jié)果,計算源語言文本句子與多個譯本中每一譯本的待匹配句子 的深度語義相似度。3. 如權(quán)利要求2所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述深度壓縮編碼 裝置具體用于: 在進(jìn)行深度壓縮編碼時,通過多層的卷積層和池化層,模擬源語言文本詞匯向量化表 示的句子的句法樹結(jié)構(gòu); 根據(jù)所述句法樹結(jié)構(gòu),將源語言文本詞匯向量化表示的句子進(jìn)行深度壓縮編碼,獲得 源語言文本句子的語義壓縮向量; 所述深度壓縮編碼裝置具體還用于: 在進(jìn)行深度壓縮編碼時,通過多層的卷積層和池化層,模擬多個譯本詞匯向量化表示 的句子的句法樹結(jié)構(gòu); 根據(jù)所述句法樹結(jié)構(gòu),將多個譯本詞匯向量化表示的句子進(jìn)行深度壓縮編碼,獲得多 個譯本句子的語義壓縮向量。4. 如權(quán)利要求2所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述深度壓縮編碼 裝置具體用于: 在進(jìn)行深度壓縮編碼時,對源語言文本詞匯向量化表示的句子進(jìn)行句法結(jié)構(gòu)分析; 基于句法結(jié)構(gòu)分析的結(jié)果,將源語言文本詞匯向量化表示的句子根據(jù)句法結(jié)構(gòu)遞歸為 源語言文本句子的語義壓縮向量; 所述深度壓縮編碼裝置具體還用于: 在進(jìn)行深度壓縮編碼時,對多個譯本詞匯向量化表示的句子進(jìn)行句法結(jié)構(gòu)分析; 基于句法結(jié)構(gòu)分析的結(jié)果,將多個譯本詞匯向量化表示的句子根據(jù)句法結(jié)構(gòu)遞歸為多 個譯本句子的語義壓縮向量。5. 如權(quán)利要求2所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述語義壓縮向量 對比裝置具體用于按照如下公式,計算源語言文本句子與多個譯本中每一譯本的待匹配句 子的深度語義相似度:其中,sim(vl,v2)為源語言文本句子與多個譯本中每一譯本的待匹配句子的深度語義 相似度函數(shù),VI為源語言文本中的一個句子的語義壓縮向量,v2為一個譯本中的一個待匹 配句子的語義壓縮向量。6. 如權(quán)利要求2所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,還包括: 源語言文本預(yù)處理裝置,用于在將源語言文本句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲得 源語言文本詞匯向量化表示的句子之前,對源語言文本句子進(jìn)行預(yù)處理; 多個譯本預(yù)處理裝置,用于在將多個譯本待匹配句子中的詞匯轉(zhuǎn)換為向量化詞匯,獲 得多個譯本詞匯向量化表示的句子之前,對多個譯本待匹配句子進(jìn)行預(yù)處理。7. 如權(quán)利要求6所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述源語言文本預(yù) 處理裝置具體用于: 如果源語言文本是漢語,對源語言文本句子進(jìn)行分詞處理; 如果源語言文本是英語,對源語言文本句子進(jìn)行標(biāo)記Token處理; 所述多個譯本預(yù)處理裝置具體用于: 如果多個譯本是漢語,對多個譯本待匹配句子進(jìn)行分詞處理; 如果多個譯本是英語,對多個譯本待匹配句子進(jìn)行標(biāo)記Token處理。8. 如權(quán)利要求1所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述語句匹配裝置 具體用于: 計算源語言文本與所述多個譯本中其它譯本的條件概率; 源語言文本句子與多個譯本中每一譯本的待匹配句子的融合匹配度,W及源語言文本 與所述多個譯本中其它譯本的條件概率,將源語言文本與每一譯本進(jìn)行語句匹配。9. 如權(quán)利要求8所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,按照如下公式,將 源語言文本與每一譯本進(jìn)行語句匹配: p(s,ti)= Ip(s I tj)p(tj I ti); 其中,S為源語言文本,ti為一個譯本,為其它譯本,P(s,ti)為源語言文本句子與多個 譯本中每一譯本的待匹配句子的深度語義相似度,p(s I I ti)為源語言文本與所述多 個譯本中其它譯本的條件概率。10. 如權(quán)利要求1所述的多譯本平行語料庫的構(gòu)建系統(tǒng),其特征在于,所述線性回歸模 型為: y = WlXl+W2X2+W3X3+b ; 其中,y為融合匹配度,XI為深度語義相似度,wi為深度語義相似度的加權(quán)參數(shù),X2為代 表性詞典相似度,W2為代表性詞典相似度的加權(quán)參數(shù),X3為其他統(tǒng)計信息相似度,W3為其他 統(tǒng)計信息相似度的加權(quán)參數(shù),b為偏置量。
【文檔編號】G06F17/30GK105843801SQ201610178472
【公開日】2016年8月10日
【申請日】2016年3月25日
【發(fā)明人】吳平, 吳增欣, 唐嘉梨, 張弛, 安豐科
【申請人】北京語言大學(xué)