亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種生成候選譯文的方法、裝置及電子設(shè)備與流程

文檔序號:12176977閱讀:216來源:國知局
本申請涉及機(jī)器翻譯
技術(shù)領(lǐng)域
:,具體涉及一種生成候選譯文的方法、裝置及電子設(shè)備。本申請同時(shí)涉及一種文本量化方法、裝置及電子設(shè)備,以及一種詞量化方法、裝置和電子設(shè)備。
背景技術(shù)
::機(jī)器翻譯是指,利用電子計(jì)算機(jī)實(shí)現(xiàn)自動從一種自然語言文本(源語言)到另一種自然語言文本(目標(biāo)語言)的翻譯,用以完成這一過程的軟件稱為機(jī)器翻譯系統(tǒng)。隨著電子計(jì)算機(jī)和互聯(lián)網(wǎng)的發(fā)展和普及,各民族之間的文化交流越來越頻繁,語言障礙的問題在新的時(shí)代再次凸顯出來,人們比以往任何時(shí)候更加迫切需要機(jī)器翻譯。機(jī)器翻譯方法可劃分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。其中,基于語料庫的方法又可以分為基于統(tǒng)計(jì)(Statistics-based)的方法和基于實(shí)例(Example-based)的方法。在基于規(guī)則的機(jī)器翻譯方法中,大量的使用人工定義的翻譯規(guī)則,將這些規(guī)則形式化成計(jì)算機(jī)程序,實(shí)現(xiàn)翻譯功能。基于規(guī)則的機(jī)器翻譯系統(tǒng)具有譯文質(zhì)量高、實(shí)現(xiàn)成本高、規(guī)則覆蓋度小、容易產(chǎn)生歧義等特點(diǎn)。隨著計(jì)算機(jī)處理能力的不斷提高,自上世紀(jì)90年代以來,基于統(tǒng)計(jì)的機(jī)器翻譯方法取得了飛速發(fā)展,并逐漸成為了機(jī)器翻譯研究領(lǐng)域的核心內(nèi)容?;诮y(tǒng)計(jì)的機(jī)器翻譯方法,在大規(guī)模雙語語料上訓(xùn)練翻譯子模型(包括翻譯規(guī)則表、語言模型、調(diào)序模型和其他判別式或生成式模型等),再利用子模型的打分從眾多翻譯候選中篩選出最合理的目標(biāo)語譯文。目前,基于統(tǒng)計(jì)的機(jī)器翻譯方法可以分為基于詞、基于短語、基于層次短語和基于句法幾大類。基于統(tǒng)計(jì)的機(jī)器翻譯方法是目前最為常用的機(jī)器翻譯方法。然而,現(xiàn)有的基于統(tǒng)計(jì)的機(jī)器翻譯方法,在產(chǎn)生每個(gè)原文片段的候選譯文時(shí),并沒有深入到自然語言的語義層面,因而導(dǎo)致產(chǎn)生的候選譯文的語義與原文片段的語義有偏差,達(dá)不到語義一致的翻譯效果,從而嚴(yán)重地降低了機(jī)器翻譯質(zhì)量。例如,原文片段“theappleproduct”里的“apple”一詞表達(dá)的語義是“蘋果公司”,若將其翻譯成食品的“蘋果”,則造成語義的偏差,從而影響原 文的整體翻譯效果。綜上所述,采用現(xiàn)有的基于統(tǒng)計(jì)的機(jī)器翻譯方法對原文片段進(jìn)行翻譯時(shí),存在原文片段與其候選譯文語義不一致的問題。技術(shù)實(shí)現(xiàn)要素:本申請?zhí)峁┮环N生成候選譯文的方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在原文片段與其候選譯文語義不一致的問題。本申請另外提供一種文本量化方法、裝置及電子設(shè)備,以及一種詞量化方法、裝置和電子設(shè)備。本申請?zhí)峁┮环N生成候選譯文的方法,用于基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng),包括:根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文;根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率;選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文;其中,所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度??蛇x的,所述根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文包括:針對各個(gè)翻譯規(guī)則,判斷所述翻譯規(guī)則是否可應(yīng)用于所述待翻譯文本;若上述判斷結(jié)果為是,則根據(jù)所述翻譯規(guī)則,生成所述待翻譯文本的待定候選譯文??蛇x的,所述對翻譯概率產(chǎn)生影響的特征還包括:所述待翻譯文本到所述候選譯文的短語翻譯概率、所述候選譯文到所述待翻譯文本的短語翻譯概率、所述待翻譯文本到所述候選譯文的詞翻譯概率、所述候選譯文到所述待翻譯文本的詞翻譯概率、所述候選譯文的語言模型和所述待翻譯文本與所述候選譯文調(diào)序與不調(diào)序的分類概率的至少一者??蛇x的,通過線性回歸算法,從預(yù)先存儲的平行預(yù)料中學(xué)習(xí)出所述翻譯概率預(yù)測模型。可選的,所述待翻譯文本和待定候選譯文的語義相似度,采用如下步驟計(jì) 算:獲取所述待翻譯文本的文本向量,以及所述待定候選譯文的文本向量;計(jì)算所述待翻譯文本的文本向量和所述待定候選譯文的文本向量之間的距離,作為所述待翻譯文本和待定候選譯文的語義相似度;其中,所述文本向量是指能夠表示雙語語義信息的文本向量??蛇x的,所述待翻譯文本的文本向量和所述待定候選譯文的文本向量,采用如下步驟生成:根據(jù)預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量;以及根據(jù)預(yù)先生成的目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量;根據(jù)所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的源語言的文本向量預(yù)測模型,生成所述待翻譯文本的文本向量;以及根據(jù)所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型,生成所述待定候選譯文的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量。可選的,在所述根據(jù)預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量;以及根據(jù)預(yù)先生成的目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量之前,還包括:解析所述待翻譯文本,獲取所述待翻譯文本包括的詞;和/或解析所述待定候選譯文,獲取所述候選譯文包括的詞??蛇x的,所述預(yù)先生成的源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型,采用如下步驟生成:讀取預(yù)先存儲的平行語料庫;以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述預(yù)先生成的源語言的文本向量預(yù)測模型;以及將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層??蛇x的,在所述以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型之前,還包括:解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。可選的,所述以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型,包括:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的源語言的詞和詞向量的對應(yīng)關(guān)系,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系??蛇x的,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新 所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,包括:根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;根據(jù)所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重??蛇x的,所述預(yù)設(shè)的雙語文本向量編碼解碼模型是基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量編碼解碼模型??蛇x的,所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率,采用下述公式計(jì)算:其中,x是所述源語言句子的詞向量序列,y是所述目標(biāo)語言句子的詞向量序列,c是所述源語言句子的文本向量,由所述編碼部分中各個(gè)時(shí)序的隱藏狀態(tài)組成,ht是所述編碼部分中時(shí)序t的隱藏狀態(tài),與所述源語言句子的當(dāng)前詞和前一個(gè)隱藏狀態(tài)相關(guān),ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源語言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,與所述目標(biāo)語言句子的前一個(gè)詞、當(dāng)前隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st為所述解碼部分中時(shí)序t的隱藏狀態(tài),與所述目標(biāo)語言句子的前一個(gè)詞、前一個(gè)隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),st=f(yt-1,st-1,c);f和g是非線性激活函數(shù)。可選的,所述文本向量之間的距離包括余弦夾角距離或歐式距離。相應(yīng)的,本申請還提供一種生成候選譯文的裝置,用于基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng),包括:第一生成單元,用于根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候 選譯文;第一計(jì)算單元,用于根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率;選取單元,用于選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文;其中,所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度??蛇x的,所述第一生成單元包括:判斷子單元,用于針對各個(gè)翻譯規(guī)則,判斷所述翻譯規(guī)則是否可應(yīng)用于所述待翻譯文本;生成子單元,用于若上述判斷結(jié)果為是,則根據(jù)所述翻譯規(guī)則,生成所述待翻譯文本的待定候選譯文。可選的,還包括:第二計(jì)算單元,用于計(jì)算所述待翻譯文本和待定候選譯文的語義相似度??蛇x的,所述第二計(jì)算單元包括:獲取子單元,用于獲取所述待翻譯文本的文本向量,以及所述待定候選譯文的文本向量;計(jì)算子單元,用于計(jì)算所述待翻譯文本的文本向量和所述待定候選譯文的文本向量之間的距離,作為所述待翻譯文本和待定候選譯文的語義相似度;其中,所述文本向量是指能夠表示雙語語義信息的文本向量??蛇x的,還包括:第二生成單元,用于生成所述待翻譯文本的文本向量和所述待定候選譯文的文本向量??蛇x的,所述第二生成單元包括:獲取子單元,用于根據(jù)預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量;以及根據(jù)預(yù)先生成的目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量;生成子單元,用于根據(jù)所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的源語言的文本向量預(yù)測模型,生成所述待翻譯文本的文本向量;以及根據(jù)所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型,生成所述待定候選譯文的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量??蛇x的,所述第二生成單元還包括:解析子單元,用于解析所述待翻譯文本,獲取所述待翻譯文本包括的詞;和/或解析所述待定候選譯文,獲取所述候選譯文包括的詞??蛇x的,還包括:第三生成單元,用于生成所述預(yù)先生成的源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型??蛇x的,所述第三生成單元包括:讀取子單元,用于讀取預(yù)先存儲的平行語料庫;訓(xùn)練子單元,用于以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;設(shè)置子單元,用于將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述預(yù)先生成的源語言的文本向量預(yù)測模型;以及將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。可選的,所述第三生成單元,還包括:解析子單元,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;初始化子單元,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行 語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。可選的,所述訓(xùn)練子單元包括:第一計(jì)算子單元,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的源語言的詞和詞向量的對應(yīng)關(guān)系,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。相應(yīng)的,本申請還提供一種電子設(shè)備,包括:顯示器;處理器;以及存儲器,所述存儲器用于存儲生成候選譯文的裝置,所述生成候選譯文的裝置被所述處理器執(zhí)行時(shí),包括如下步驟:根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文;根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率;選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文;其中,所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度。此外,本申請還提供一種文本量化方法,包括:獲取待量化文本;根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量;根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量;所述文本向量是指能夠表示雙語語義信息的文本向量??蛇x的,在所述根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量之前,還包括:解析所述待量化文本,獲取所述待量化文本包括的各個(gè)詞??蛇x的,所述第一語言文本向量預(yù)測模型,采用如下步驟生成:讀取預(yù)先存儲的平行語料庫;以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;若所述待量化文本所屬語言是所述源語言,則將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述第一語言文本向量預(yù)測模型;若所述待量化文本所屬語言是所述目標(biāo)語言,將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述第一語言文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。可選的,在所述以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型之前,還包括:解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系??蛇x的,所述以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的 源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型,包括:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若上述判斷結(jié)果為否,則如果所述待量化文本所屬語言是所述源語言,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系;如果所述待量化文本所屬語言是所述目標(biāo)語言,則將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系??蛇x的,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,包括:根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;根據(jù)所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重??蛇x的,所述預(yù)設(shè)的雙語文本向量編碼解碼模型是基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量編碼解碼模型。可選的,所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率,采用下述公式計(jì)算:其中,x是所述源語言句子的詞向量序列,y是所述目標(biāo)語言句子的詞向量序列,c是所述源語言句子的文本向量,由所述編碼部分中各個(gè)時(shí)序的隱藏狀態(tài)組成,ht是所述編碼部分中時(shí)序t的隱藏狀態(tài),與所述源語言句子的當(dāng)前詞和前一個(gè)隱藏狀態(tài)相關(guān),ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源語言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,與所述目標(biāo)語言句子的前一個(gè)詞、當(dāng)前隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st為所述解碼部分中時(shí)序t的隱藏狀態(tài),與所述目標(biāo)語言句子的前一個(gè)詞、前一個(gè)隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),st=f(yt-1,st-1,c);f和g是非線性激活函數(shù)。相應(yīng)的,本申請還提供一種文本量化裝置,包括:獲取單元,用于獲取待量化文本;映射單元,用于根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量;預(yù)測單元,用于根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量;所述文本向量是指能夠表示雙語語義信息的文本向量??蛇x的,還包括:解析單元,用于解析所述待量化文本,獲取所述待量化文本包括的各個(gè)詞??蛇x的,還包括:生成單元,用于生成所述第一語言文本向量預(yù)測模型??蛇x的,所述生成單元包括:讀取子單元,用于讀取預(yù)先存儲的平行語料庫;訓(xùn)練子單元,用于以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;設(shè)置子單元,用于若所述待量化文本所屬語言是所述源語言,則將訓(xùn)練后 的雙語文本向量編碼解碼模型的編碼部分,作為所述第一語言文本向量預(yù)測模型;若所述待量化文本所屬語言是所述目標(biāo)語言,將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述第一語言文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層??蛇x的,所述生成單元還包括:解析子單元,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;初始化子單元,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系??蛇x的,所述訓(xùn)練子單元包括:第一計(jì)算子單元,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;設(shè)置子單元,用于若上述判斷結(jié)果為否,則如果所述待量化文本所屬語言是所述源語言,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系;如果所述待量化文本所屬語言是所述目標(biāo)語言,則將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系。相應(yīng)的,本申請還提供一種電子設(shè)備,包括:顯示器;處理器;以及存儲器,所述存儲器用于存儲文本量化裝置,所述文本量化裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待量化文本;根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量;根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量;所述文本向量是指能夠表示雙語語義信息的文本向量。此外,本申請還提供一種詞量化方法,包括:讀取預(yù)先存儲的平行語料庫;解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量??蛇x的,所述雙語文本向量預(yù)測模型采用雙語文本向量編碼解碼模型;所述根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量,采用如下方式:以最大化所述平行預(yù)料庫中各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練所述雙語文本向量編碼解碼模型,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的 目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,獲取所述能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量;其中,所述雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層??蛇x的,所述以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練所述雙語文本向量編碼解碼模型,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,獲取所述能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量,包括:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,作為所述能夠表示雙語語義信息的源語言詞的詞向量,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系,作為所述能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。可選的,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各個(gè)連 接權(quán)重,包括:根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量的梯度,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量的梯度,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量和所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重??蛇x的,所述雙語文本向量編碼解碼模型是基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量編碼解碼模型??蛇x的,所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率,采用下述公式計(jì)算:其中,x是所述源語言句子的詞向量序列,y是所述目標(biāo)語言句子的詞向量序列,c是所述源語言句子的文本向量,由所述編碼部分中各個(gè)時(shí)序的隱藏狀態(tài)組成,ht是所述編碼部分中時(shí)序t的隱藏狀態(tài),與所述源語言句子的當(dāng)前詞和前一個(gè)隱藏狀態(tài)相關(guān),ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源語言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,與所述目標(biāo)語言句子的前一個(gè)詞、當(dāng)前隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st為所述解碼部分中時(shí)序t的隱藏狀態(tài),與所述目標(biāo)語言句子的前一個(gè)詞、前一個(gè)隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),st=f(yt-1,st-1,c);f和g是非線性激活函數(shù)。相應(yīng)的,本申請還提供一種詞量化裝置,包括:讀取單元,用于讀取預(yù)先存儲的平行語料庫;解析單元,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料 庫包括的源語言的詞和目標(biāo)語言的詞;初始化單元,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;訓(xùn)練單元,用于根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量??蛇x的,所述雙語文本向量預(yù)測模型采用雙語文本向量編碼解碼模型;所述根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量,采用如下方式:以最大化所述平行預(yù)料庫中各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練所述雙語文本向量編碼解碼模型,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,獲取所述能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量;其中,所述雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。可選的,所述訓(xùn)練單元包括:第一計(jì)算子單元,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,作為所述能夠表示雙語語義信息的源語言詞的詞向量,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系,作為所述能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。相應(yīng)的,本申請還提供一種電子設(shè)備,包括:顯示器;處理器;以及存儲器,所述存儲器用于存儲詞量化裝置,所述詞量化裝置被所述處理器執(zhí)行時(shí),包括如下步驟:讀取預(yù)先存儲的平行語料庫;解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。與現(xiàn)有技術(shù)相比,本申請具有以下優(yōu)點(diǎn):本申請?zhí)峁┑纳珊蜻x譯文的方法、裝置及電子設(shè)備,用于基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng),通過根據(jù)待翻譯文本的各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率,并選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文,其中所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度,使得依據(jù)翻譯規(guī)則對原文片段進(jìn)行翻譯時(shí),能夠深入到自然語言的語義層面評估所產(chǎn)生的各個(gè)待定候 選譯文的翻譯質(zhì)量,從而達(dá)到提高候選譯文翻譯質(zhì)量的效果。附圖說明圖1是本申請的生成候選譯文的方法實(shí)施例的流程圖;圖2是本申請的生成候選譯文的方法實(shí)施例計(jì)算語義相似度的具體流程圖;圖3是本申請的生成候選譯文的方法實(shí)施例生成待翻譯文本的文本向量和待定候選譯文的文本向量的流程圖;圖4是本申請的生成候選譯文的方法實(shí)施例生成源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型的具體流程圖;圖5是本申請的生成候選譯文的方法實(shí)施例雙語文本向量預(yù)測模型的示意圖;圖6是本申請的生成候選譯文的方法實(shí)施例步驟S403的具體流程圖;圖7是本申請的生成候選譯文的裝置實(shí)施例的示意圖;圖8是本申請的生成候選譯文的裝置實(shí)施例單元的具體示意圖;圖9是本申請的生成候選譯文的裝置實(shí)施例單元的具體示意圖;圖10是本申請的生成候選譯文的裝置實(shí)施例單元的具體示意圖;圖11是本申請的一種電子設(shè)備實(shí)施例的示意圖;圖12是本申請的文本量化方法實(shí)施例的流程圖;圖13是本申請的文本量化方法實(shí)施例生成第一語言文本向量預(yù)測模型的具體流程圖;圖14是本申請的文本量化方法實(shí)施例步驟S1303的具體流程圖;圖15是本申請的文本量化裝置實(shí)施例的示意圖;圖16是本申請的文本量化裝置實(shí)施例的具體示意圖;圖17是本申請的又一電子設(shè)備實(shí)施例的示意圖;圖18是本申請的詞量化方法實(shí)施例的流程圖;圖19是本申請的詞量化方法實(shí)施例步驟S1804的具體流程圖;圖20是本申請的詞量化裝置實(shí)施例的示意圖;圖21是本申請的詞量化裝置實(shí)施例訓(xùn)練單元2007的示意圖;圖22是本申請的再一種電子設(shè)備實(shí)施例的示意圖。具體實(shí)施方式在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本申請。但是本申請能夠以很多不同于在此描述的其它方式來實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本申請內(nèi)涵的情況下做類似推廣,因此本申請不受下面公開的具體實(shí)施的限制。在本申請中,提供了一種生成候選譯文的方法、裝置及電子設(shè)備,一種文本量化方法、裝置及電子設(shè)備,以及一種詞量化方法、裝置和電子設(shè)備。在下面的實(shí)施例中逐一進(jìn)行詳細(xì)說明。本申請?zhí)峁┑纳珊蜻x譯文的方法,其核心的基本思想為:在對候選譯文的翻譯質(zhì)量進(jìn)行評估時(shí),深入到自然語言的語義層面,即:考慮待翻譯文本和候選譯文之間的語義相似度。由于將語義相似度作為一個(gè)強(qiáng)特征來評估候選譯文的翻譯質(zhì)量,因而提高了候選譯文的翻譯質(zhì)量。請參考圖1,其為本申請的生成候選譯文的方法實(shí)施例的流程圖。所述方法包括如下步驟:步驟S101:根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文。本申請實(shí)施例所述的待翻譯文本,包括對指定原文進(jìn)行機(jī)器翻譯過程中需要翻譯的原文片段,即:指定原文包括的不同跨度的子字符串。例如,指定原文為“我在公園里散步?!?,則其子字符串包括:“我在”和“公園”等包括兩個(gè)字的子字符串;“在公園”和“公園里”等包括三個(gè)字的子字符串;“我在公園”等包括四個(gè)字的子字符串,以及“我在公園里散步”的子字符串等,這些子字符串均可以作為本申請實(shí)施例所述的待翻譯文本。此外,指定原文本身也可以作為待翻譯文本。要評估待翻譯文本的各個(gè)待定候選譯文的質(zhì)量,首先需要根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文。本申請實(shí)施例所述的翻譯規(guī)則,是指預(yù)先從給定的平行預(yù)料庫中學(xué)習(xí)獲得的翻譯規(guī)則。翻譯規(guī)則是機(jī)器翻譯過程的基本轉(zhuǎn)化單元,即可以為基于短語的翻譯規(guī)則,還可以為包括句法信息的翻譯規(guī)則。上述這些翻譯規(guī)則的不同方式,都只是具體實(shí)施方式的變更,都不偏離本申請的核心,因此都在本申請的保護(hù)范圍之內(nèi)。需要說明的是,根據(jù)基于短語的翻譯規(guī)則所生成的待定候選譯文,通常是不符合句法規(guī)則的,因而難于理解候選譯文;而根據(jù)包括句法信息的翻譯規(guī)則所生成的待定候選譯文,通常是符合句法規(guī)則的??梢姡鶕?jù)包括句法信息的 翻譯規(guī)則,生成待翻譯文本的待定候選譯文,能夠達(dá)到提高翻譯質(zhì)量的效果。在本實(shí)施例中,采用根據(jù)包括句法信息的翻譯規(guī)則,生成待翻譯文本的待定候選譯文的方法。從平行預(yù)料中抽取出的翻譯規(guī)則含有句法信息,翻譯規(guī)則采用復(fù)合上下文無關(guān)文法,如表1所示:表1、翻譯規(guī)則表在表1中,與編號1、3、4、5對應(yīng)的規(guī)則為基本翻譯規(guī)則,與編號2、6、7對應(yīng)的規(guī)則為組合翻譯規(guī)則。在翻譯規(guī)則抽取完畢后,還需要進(jìn)行翻譯規(guī)則特征的提取。翻譯規(guī)則特征包括:正向短語翻譯概率、反向短語翻譯概率、正向詞翻譯概率和反向詞翻譯概率等。其中,所述的正向短語翻譯概率,是指從源語言包括的短語翻譯到目標(biāo)語言包括的短語的翻譯概率;所述的反向短語翻譯概率,是指從目標(biāo)語言包括的短語翻譯到源語言包括的短語的翻譯概率;所述的正向詞翻譯概率,是指從源語言包括的詞翻譯到目標(biāo)語言包括的詞的翻譯概率;所述的反向詞翻譯概率,是指從目標(biāo)語言包括的詞翻譯到源語言包括的詞的翻譯概率。具體的,根據(jù)預(yù)先生成的翻譯規(guī)則,生成所述待翻譯文本的待定候選譯文包括如下步驟:1)針對各個(gè)翻譯規(guī)則,判斷所述翻譯規(guī)則是否可應(yīng)用于所述待翻譯文本;2)若上述判斷結(jié)果為是,則根據(jù)所述翻譯規(guī)則,生成所述待翻譯文本的待定候選譯文。對于待翻譯文本,需要遍歷各個(gè)翻譯規(guī)則,判斷該文本是否適用于該翻譯規(guī)則。當(dāng)判定待翻譯文本能夠適用于一個(gè)翻譯規(guī)則時(shí),則根據(jù)該翻譯規(guī)則生成 一個(gè)待定候選譯文。由于待翻譯文本可能適用于多個(gè)翻譯規(guī)則,因此,待翻譯文本可能對應(yīng)多個(gè)待定候選譯文。步驟S103:根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率。本申請實(shí)施例所述的對翻譯概率產(chǎn)生影響的特征,是指對待翻譯文本到各個(gè)待定候選譯文的翻譯概率產(chǎn)生影響的、統(tǒng)計(jì)類型的信息,例如,翻譯模型、語言模型和調(diào)序模型都可以作為對翻譯概率產(chǎn)生影響的特征。具體的,對翻譯概率產(chǎn)生影響的特征包括:待翻譯文本到待定候選譯文的短語翻譯概率、待定候選譯文到待翻譯文本的短語翻譯概率、待翻譯文本到待定候選譯文的詞翻譯概率、待定候選譯文到待翻譯文本的詞翻譯概率、待定候選譯文的語言模型,以及待翻譯文本與待定候選譯文調(diào)序與不調(diào)序的分類概率的至少一者。下面逐一對上述翻譯模型、語言模型和調(diào)序模型等特征進(jìn)行說明。1)翻譯模型翻譯模型是一種語言到另一種語言的詞匯間的對應(yīng)關(guān)系,而語言模型則體現(xiàn)了某種語言本身的性質(zhì)。翻譯模型保證翻譯的意義,而語言模型保證翻譯的流暢。從中國對翻譯的傳統(tǒng)要求“信達(dá)雅”三點(diǎn)上看,翻譯模型體現(xiàn)了信與達(dá),而雅則在語言模型中得到反映。翻譯模型中涉及到的特征包括:待翻譯文本到待定候選譯文的短語翻譯概率、待定候選譯文到待翻譯文本的短語翻譯概率、待翻譯文本到待定候選譯文的詞翻譯概率和待定候選譯文到待翻譯文本的詞翻譯概率。本申請實(shí)施例所述的翻譯模型中涉及到的特征,是在翻譯規(guī)則抽取階段計(jì)算得到的,即:從平行預(yù)料中學(xué)習(xí)獲得每一條翻譯規(guī)則所對應(yīng)的正向短語翻譯概率、反向短語翻譯概率、正向詞翻譯概率和反向詞翻譯概率等。2)語言模型語言模型(LanguageModel,簡寫為LM)是自然語言處理領(lǐng)域的基礎(chǔ)問題,其在詞性標(biāo)注、句法分析、機(jī)器翻譯、信息檢索等任務(wù)中起到了重要作用。簡而言之,統(tǒng)計(jì)語言模型表示為:在詞序列中,給定一個(gè)詞和上下文中所有詞,這個(gè)序列出現(xiàn)的概率。通俗的講,語言模型就是衡量文本的流暢度。例如,待翻譯文本“今晚有大風(fēng)”對應(yīng)的待定候選譯文可以為“highwindstonight”或 “l(fā)argewindstonight”,而“highwindstonight”的概率大于“highwindstonight”的概率,即:P(highwindstonight)>P(largewindstonight)。3)調(diào)序模型許多語言對的語序是有很大差別的,例如,漢語語言和英語語言的語序差別很大。在上述詞對齊處理過程中,包含有詞調(diào)序模型,在區(qū)分性訓(xùn)練中也需要較好的調(diào)序模型。調(diào)序模型可以是基于位置,也就是描述兩種語言每個(gè)句子不同位置的短語的調(diào)序概率,也可以是基于短語本身,例如Moses中的調(diào)序模型即是基于短語本身,描述在給定當(dāng)前短語對條件下,其前后短語對是否互換位置。以上對目前常用的對翻譯概率產(chǎn)生影響的特征進(jìn)行了說明。本申請實(shí)施例提供的生成候選譯文的方法,除了可以應(yīng)用上述常用的特征,還應(yīng)用了語義模型中的特征,即:待翻譯文本和待定候選譯文的語義相似度,將該特征作為一個(gè)強(qiáng)特征來影響待翻譯文本到待定候選譯文的翻譯概率,使得同等條件下語義一致度高的待定候選譯文所對應(yīng)的翻譯概率更高。請參考圖2,其為本申請的生成候選譯文的方法實(shí)施例計(jì)算語義相似度的具體流程圖。本申請實(shí)施例所述的待翻譯文本和待定候選譯文的語義相似度,采用如下步驟計(jì)算獲?。翰襟ES201:獲取所述待翻譯文本的文本向量,以及所述待定候選譯文的文本向量。本申請實(shí)施例所述的文本向量是指能夠表示雙語語義信息的文本向量,即:,即:相關(guān)或者相似的互譯文本,其文本向量之間的距離更接近。例如,“Onetabletwillpurifyalitreofwater.”和“一顆藥丸即可凈化一升水?!狈謩e對應(yīng)的文本向量之間的距離,會遠(yuǎn)遠(yuǎn)小于“Onetabletwillpurifyalitreofwater.”和“一部平板電腦即可凈化一升水?!狈謩e對應(yīng)的文本向量之間的距離。在理想情況下,“Onetabletwillpurifyalitreofwater.”和“一顆藥丸即可凈化一升水?!钡奈谋鞠蛄勘硎緫?yīng)該是完全一樣的,但是由于書寫錯誤等原因,導(dǎo)致二者的文本向量不會完全一致,但文本向量之間的距離是更接近的。在實(shí)際應(yīng)用中,文本向量之間的距離可以用最傳統(tǒng)的歐氏距離來衡量,也可以用余弦夾角來衡量。文本向量是一種固定維度的實(shí)數(shù)向量,例如,將一個(gè)文本向量表示為[0.312,-0.187,-0.529,0.109,-0.542,...]。請參考圖3,其為本申請的生成候選譯文的方法實(shí)施例生成待翻譯文本的文本向量和待定候選譯文的文本向量的流程圖。在本實(shí)施例中,所述待翻譯文本的文本向量和所述待定候選譯文的文本向量,采用如下步驟生成:步驟S301:根據(jù)預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量;以及根據(jù)預(yù)先生成的目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量。本申請實(shí)施例所述的源語言是指待翻譯文本所屬的語言,目標(biāo)語言是指候選譯文所屬的語言。所述的預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,以及目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系中的詞向量(DistributedRepresentation)是指能夠表示雙語語義信息的詞向量,即:詞向量不僅能夠反映自然語言中基本單元詞的基本語義信息,并且詞向量包括的語義信息是跨語言的,即:兩個(gè)語義一致的不同語言的詞,其詞向量之間的幾何距離非常接近,例如“蘋果”和“Apple”。詞向量是一種固定維度的實(shí)數(shù)向量,為神經(jīng)網(wǎng)絡(luò)的一類參數(shù),例如,將一個(gè)詞向量表示為[0.792,-0.177,-0.107,0.109,-0.542,...]。需要說明的是,詞向量的表示并不是唯一的,不同的訓(xùn)練方法將導(dǎo)致同一個(gè)詞的詞向量是不相同的。在實(shí)際應(yīng)用中,可以通過各種基于神經(jīng)網(wǎng)絡(luò)的雙語詞向量預(yù)測模型生成詞向量,例如,雙語神經(jīng)網(wǎng)絡(luò)語言模型或雙語文本向量預(yù)測模型等。此外,詞向量的維度作為神經(jīng)網(wǎng)絡(luò)的超參數(shù),一般維度越高越好,但過高維度的詞向量會帶來計(jì)算復(fù)雜的問題。在實(shí)際應(yīng)用中,詞向量維度以200維比較常見。步驟S303:根據(jù)所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的源語言的文本向量預(yù)測模型,生成所述待翻譯文本的文本向量;以及根據(jù)所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型,生成所述待定候選譯文的文本向量。通過步驟S301,將待翻譯文本和待定候選譯文包括的每個(gè)詞均映射到詞向量空間后,在步驟S303中,將待翻譯文本包括的各個(gè)詞的詞向量作為源語言的文本向量預(yù)測模型的輸入層變量,該模型的輸出層是待翻譯文本的文本向量。并且,將待定候選譯文包括的各個(gè)詞的詞向量作為目標(biāo)語言的文本向量預(yù)測模型的輸入層變量,該模型的輸出層是待定候選譯文的文本向量。在實(shí)際應(yīng)用中,如果不能直接獲取待翻譯文本包括的各個(gè)詞,或者候選譯 文包括的各個(gè)詞,則在步驟S303之前,還包括:步驟S302:解析所述待翻譯文本,獲取所述待翻譯文本包括的詞;和/或解析所述待定候選譯文,獲取所述待定候選譯文包括的詞。例如,對于中文文本,需要對其進(jìn)行分詞處理,才能獲取文本中包括的各個(gè)詞;而對于英文文本,則可以直接獲取文本中包括的各個(gè)詞。本申請實(shí)施例所述的預(yù)先生成的源語言的文本向量預(yù)測模型,以及預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型,是雙語文本向量預(yù)測模型的兩個(gè)組成部分,是通過機(jī)器學(xué)習(xí)算法從平行語料庫中學(xué)習(xí)獲得的。請參考圖4,其為本申請的生成候選譯文的方法實(shí)施例生成源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型的具體流程圖。在本實(shí)施例中,所述預(yù)先生成的源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型,采用如下步驟生成:步驟S401:讀取預(yù)先存儲的平行語料庫。本申請實(shí)施例所述的平行語料庫,包括大量的平行預(yù)料,其中,每一句對平行預(yù)料均包括源語言句子和目標(biāo)語言句子,兩個(gè)句子互為翻譯。目前,網(wǎng)絡(luò)上有大量可供下載的平行語料庫。搜尋適合目標(biāo)領(lǐng)域(如醫(yī)療、新聞等)的平行語料庫是提高特定領(lǐng)域統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)性能的重要方法。步驟S403:以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型。在本實(shí)施例中,雙語文本向量預(yù)測模型采用雙語文本向量編碼解碼模型。本申請實(shí)施例所述的預(yù)設(shè)的雙語文本向量編碼解碼模型,既可以是基于前向神經(jīng)網(wǎng)絡(luò)(Feed-forwardNeuralNet,簡寫為FFNN)的模型,還可以是基于遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNet,簡寫為RNN)的模型。前向神經(jīng)網(wǎng)絡(luò)僅能考慮窗口內(nèi)的上下文,相比于前向神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)能將更多地上下文考慮到模型中,遞歸神經(jīng)網(wǎng)絡(luò)的隱藏層能夠囊括當(dāng)前詞的所有前序詞。在序列數(shù)據(jù)中,遞歸神經(jīng)網(wǎng)絡(luò)能夠發(fā)現(xiàn)更多的詞與詞之間的模式(pattern)。基于前向神經(jīng)網(wǎng)絡(luò)的雙語文本向量預(yù)測模型,其計(jì)算復(fù)雜度低于基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量預(yù)測模型;而基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量預(yù)測模型,其精確度高于基于前向神經(jīng)網(wǎng)絡(luò)的雙語文本向量預(yù)測模型。在實(shí)際應(yīng)用 中,可以根據(jù)具體需求選擇上述文本向量預(yù)測模型之一。上述雙語文本向量預(yù)測模型的各種不同方式,都只是具體實(shí)施方式的變更,都不偏離本申請的核心,因此都在本申請的保護(hù)范圍之內(nèi)。為了提高精確度,本實(shí)施例采用基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量預(yù)測模型。請參考圖5,其為本申請的生成候選譯文的方法實(shí)施例雙語文本向量預(yù)測模型的示意圖。在本實(shí)施例中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型是基于遞歸神經(jīng)網(wǎng)絡(luò)的雙語文本向量編碼解碼模型。雙語文本向量編碼解碼模型的輸入層包括平行預(yù)料中源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;編碼部分的輸出層為源語言句子的文本向量,源語言句子的文本向量為所述解碼部分的輸入層。在本實(shí)施例中,詞向量是訓(xùn)練雙語文本向量預(yù)測模型時(shí)產(chǎn)生的副產(chǎn)品,即:從平行預(yù)料庫中學(xué)習(xí)出雙語文本向量預(yù)測模型的同時(shí),學(xué)習(xí)到具有雙語語義特征的詞向量。因此,在步驟S403之前,還包括:1)解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;2)為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。1)解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞。要生成源語言的詞和詞向量的對應(yīng)關(guān)系,以及目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系,首先需要獲取平行預(yù)料庫中包括的所有源語言的詞和目標(biāo)語言的詞。為此,需要解析平行語料庫包括的各個(gè)句子,以獲取平行語料庫包括的源語言的詞和目標(biāo)語言的詞。例如,解析平行語料庫包括的各個(gè)句子的方法包括對中文句子做分詞處理的方法,對英文句子進(jìn)行詞素分割的方法等。2)為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。由于本實(shí)施例的詞向量是訓(xùn)練雙語文本向量預(yù)測模型時(shí)產(chǎn)生的副產(chǎn)品,在 抽取出的平行預(yù)料庫包括的每個(gè)詞后,還需要為抽取出的各個(gè)詞設(shè)置一個(gè)初始的詞向量。實(shí)際上,上述兩個(gè)步驟是本申請實(shí)施例步驟S403之前的準(zhǔn)備步驟,通過準(zhǔn)備步驟獲取到平行語料庫包括的源語言的詞和目標(biāo)語言的詞,并且初始化各個(gè)詞的詞向量,然后就可以通過步驟S403訓(xùn)練雙語文本向量預(yù)測模型,并且在通過機(jī)器學(xué)習(xí)的算法,從平行預(yù)料庫中學(xué)習(xí)出雙語文本向量預(yù)測模型的同時(shí),又學(xué)習(xí)到具有雙語語義特征的詞向量。通過步驟S403,在訓(xùn)練雙語文本向量編碼解碼模型過程中,逐步調(diào)整模型中的各類參數(shù),例如,詞向量及各個(gè)連接權(quán)重,當(dāng)達(dá)到訓(xùn)練目標(biāo)時(shí),獲取到最終的詞與詞向量的對應(yīng)關(guān)系、源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型。請參考圖6,其為本申請的生成候選譯文的方法實(shí)施例步驟S403的具體流程圖。在本實(shí)施例中,步驟S403具體包括:步驟S4031:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率。本申請實(shí)施例提供的生成候選譯文的方法,首先給出預(yù)設(shè)的雙語文本向量編碼解碼模型,然后通過迭代式的學(xué)習(xí),從平行預(yù)料庫中最終學(xué)習(xí)產(chǎn)生文本中每一個(gè)詞的詞向量表示,以及雙語文本向量編碼解碼模型的全部參數(shù)。在訓(xùn)練過程中,訓(xùn)練目標(biāo)為最大化各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率。因此,在每次迭代過程中,均需要計(jì)算各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率。在本實(shí)施例中,所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言標(biāo)語言句子的詞向量序列,c是所述源語言句子的文本向量,由所述編碼部分中各個(gè)時(shí)序的隱藏狀態(tài)組成,ht是所述編碼部分中時(shí)序t的隱藏狀態(tài),與所述源語言句子的當(dāng)前詞和前一個(gè)隱藏狀態(tài)相 關(guān),ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源語言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,與所述目標(biāo)語言句子的前一個(gè)詞、當(dāng)前隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st為所述解碼部分中時(shí)序t的隱藏狀態(tài),與所述目標(biāo)語言句子的前一個(gè)詞、前一個(gè)隱藏狀態(tài)和所述源語言句子的文本向量相關(guān),st=f(yt-1,st-1,c);f和g是非線性激活函數(shù)。在實(shí)際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)的激勵函數(shù)可以為符號函數(shù)、S型(sigmoid)函數(shù)、雙曲正切函數(shù)或線性函數(shù)。本申請實(shí)施例所述的預(yù)設(shè)的雙語文本向量預(yù)測模型,是指預(yù)先設(shè)計(jì)好拓?fù)浣Y(jié)構(gòu)及節(jié)點(diǎn)激勵函數(shù)的神經(jīng)網(wǎng)絡(luò)模型。其中的各個(gè)連接權(quán)重作為雙語文本向量預(yù)測模型的一類參數(shù),在訓(xùn)練過程中得到不斷的調(diào)整,直至達(dá)到訓(xùn)練目標(biāo)時(shí)獲取最終的連接權(quán)重,以供實(shí)際預(yù)測用。需要注意的是,在訓(xùn)練初始階段,需要為各個(gè)連接權(quán)重預(yù)先設(shè)置初始值。在本實(shí)施例中,采用隨機(jī)為各個(gè)連接權(quán)重預(yù)先設(shè)置初始值的方式。由圖5可見,在雙語文本向量編碼解碼模型的編碼部分,在讀入一個(gè)詞序列(即:源語言文本)后,首先將其表示為詞向量的序列,即:設(shè)計(jì)編碼部分中時(shí)序t的隱藏狀態(tài)的計(jì)算公式為:ht=f(xt,ht-1),且源語言文本的文本向量是由編碼部分中各個(gè)時(shí)序的隱藏狀態(tài)組成的,即:因此,源語言文本的文本向量是由編碼部分的各個(gè)隱藏狀態(tài)h生成的一個(gè)向量,其中f和q是非線性的激活函數(shù)。在雙語文本向量編碼解碼模型的解碼部分,將源語言文本的文本向量作為解碼部分的輸入層變量(向量c),以及已經(jīng)預(yù)測得到詞{y1,y2,…,yt-1},可以根據(jù)解碼部分的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)繼續(xù)預(yù)測yt,即解碼部分會計(jì)算目標(biāo)語言句子y的翻譯概率。需要注意的是,編碼部分的各個(gè)時(shí)序?qū)?yīng)的隱藏狀態(tài)是由源語言文本的當(dāng)前時(shí)序詞的詞向量和上一個(gè)時(shí)序?qū)?yīng)的隱藏狀態(tài)共同決定的;解碼部分的各個(gè)時(shí)序的隱藏狀態(tài)是由前一步驟中計(jì)算得到的目標(biāo)語言文本的詞向量yt-1和上一個(gè)時(shí)序?qū)?yīng)的隱藏狀態(tài)st-1共同決定的,且詞向量yt-1的產(chǎn)生由前一個(gè)目標(biāo)語端的詞向量yt-2和當(dāng)前的隱藏狀態(tài)st-1共同決定。通過上述計(jì)算公式可見,在雙語文本向量編碼解碼模型中每一類狀態(tài)之間的轉(zhuǎn)化,均為矩陣乘法操作,具體運(yùn)算規(guī)則由激活函數(shù)決定,矩陣每一維的值 即為模型的參數(shù)(連接權(quán)重)。步驟S4033:計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率。在每次迭代過程中,計(jì)算獲取到各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率之后,計(jì)算所有句對平行語料的翻譯概率的平均值,作為本次迭代生成的平均翻譯概率。在本實(shí)施例中,平均翻譯概率的形式化表示為:其中,J為平均翻譯概率,N為所述平行語料庫包括的句對數(shù)量,xn是源語言句子的詞向量序列,yn是目標(biāo)語言句子的詞向量序列,pθ(yn|xn)為目標(biāo)語言句子yn在與其對應(yīng)的源語言句子xn背景下的翻譯概率,θ為雙語文本向量編碼解碼模型的全部參數(shù)。在本實(shí)施例中,θ包括:雙語文本向量預(yù)測模型的各個(gè)連接權(quán)重、源語言詞的詞向量和目標(biāo)語言詞的詞向量。步驟S4035:判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的源語言的詞和詞向量的對應(yīng)關(guān)系,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。步驟S4031和步驟S4033為一個(gè)訓(xùn)練周期,要完成雙語文本向量編碼解碼模型的訓(xùn)練可能需要很多個(gè)訓(xùn)練周期,經(jīng)常是幾百個(gè)。停止訓(xùn)練的條件是達(dá)到訓(xùn)練目標(biāo),即:平均翻譯概率達(dá)到最大值。通過將本次訓(xùn)練得到的平均翻譯概率與上一次訓(xùn)練得到的平均翻譯概率進(jìn)行比較,如果本次訓(xùn)練得到的平均翻譯概率大于上一次訓(xùn)練得到的平均翻譯概率,說明模型參數(shù)還可以進(jìn)一步優(yōu)化,需要繼續(xù)訓(xùn)練,以達(dá)到訓(xùn)練目標(biāo),此時(shí)首先采用最優(yōu)化算法,更新詞向量和雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,然后返回執(zhí)行步驟S4031開始下一次迭代過程。反之,如果本次訓(xùn)練得到的平均翻譯概率小于上一次訓(xùn)練得到的平均翻譯概率,說明模型參數(shù)已達(dá)到訓(xùn)練目標(biāo),可以停止訓(xùn)練。訓(xùn)練完成之后得到的雙語文本向量編碼解碼模型就是在通過平行預(yù)料庫發(fā)現(xiàn)的模型,描述了 平行預(yù)料庫中響應(yīng)變量(即:輸出層變量)受預(yù)測變量(即:輸入層變量)影響的變化規(guī)律。調(diào)整雙語文本向量編碼解碼模型中各種參數(shù)的最基本算法是錯誤回饋法,現(xiàn)在較新的有梯度算法、類牛頓算法、Levenberg-Marquardt算法、和遺傳算法等。上述各種最優(yōu)化算法的不同方式,都只是具體實(shí)施方式的變更,都不偏離本申請的核心,因此都在本申請的保護(hù)范圍之內(nèi)。在本實(shí)施例中,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,包括:1)根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;2)根據(jù)所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重。采用隨機(jī)梯度算法,梯度更新的法則為:其中,θ為各種參數(shù)值,∈為學(xué)習(xí)速率。本申請實(shí)施例所述的學(xué)習(xí)速率,決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的參數(shù)變化量。大的學(xué)習(xí)速率可能導(dǎo)致系統(tǒng)的不穩(wěn)定;但小的學(xué)習(xí)速率導(dǎo)致較長的訓(xùn)練時(shí)間,可能收斂很慢,但是能保證平均翻譯概率能夠最終趨于最大值。所以一般情況下,傾向于選取較小的學(xué)習(xí)速率以保證系統(tǒng)的穩(wěn)定性。學(xué)習(xí)速率的選取范圍在0.01-0.8之間。在實(shí)際應(yīng)用中,對于雙語文本向量編碼解碼模型這種較復(fù)雜的網(wǎng)絡(luò),在目標(biāo)函數(shù)曲面的不同部位可能需要不同的學(xué)習(xí)速率。為了減少尋找學(xué)習(xí)速率的訓(xùn)練次數(shù)以及訓(xùn)練時(shí)間,比較合適的方法是采用變化的自適應(yīng)學(xué)習(xí)速率,使網(wǎng)絡(luò)的訓(xùn)練在不同的階段設(shè)置不同大小的學(xué)習(xí)速率。通過上述步驟S403,訓(xùn)練生成雙語文本向量編碼解碼模型和具有雙語語義特征的詞向量。步驟S405:將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述預(yù)先生成的源語言的文本向量預(yù)測模型;以及將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型。本申請實(shí)施例所述的源語言的文本向量預(yù)測模型的輸入層變量為源語言文本的詞向量序列,輸出層為源語言文本的文本向量。源語言的文本向量預(yù)測模型作為雙語文本向量編碼解碼模型的一個(gè)組成部分,與編碼部分相對應(yīng),當(dāng)訓(xùn)練生成雙語文本向量編碼解碼模型后,直接將編碼部分的模型作為源語言的文本向量預(yù)測模型。目標(biāo)語言的文本向量預(yù)測模型的輸入層變量為目標(biāo)語言文本的詞向量序列,輸出層為目標(biāo)語言文本的文本向量。目標(biāo)語言的文本向量預(yù)測模型作為雙語文本向量編碼解碼模型的一個(gè)組成部分,與解碼部分相對應(yīng),當(dāng)訓(xùn)練生成雙語文本向量編碼解碼模型后,將解碼部分的反向模型作為目標(biāo)語言的文本向量預(yù)測模型。上述步驟S401至步驟S405,用于生成源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型。步驟S203:計(jì)算所述待翻譯文本的文本向量和所述待定候選譯文的文本向量之間的距離,作為所述待翻譯文本和待定候選譯文的語義相似度。通過步驟S201獲取到待翻譯文本的文本向量和待定候選譯文的文本向量之后,就可以計(jì)算兩個(gè)文本向量之間的距離,將該距離作為待翻譯文本和待定候選譯文的語義相似度。在實(shí)際應(yīng)用中,可以采用歐式距離或余弦夾角距離作為文本向量之間的距離。在獲取到各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征后,就可以根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成待翻譯文本到各個(gè)待定候選譯文的翻譯概率。本申請實(shí)施例所述的預(yù)先生成的翻譯概率預(yù)測模型,是指通過機(jī)器學(xué)習(xí)算法,從預(yù)先存儲的平行預(yù)料中學(xué)習(xí)出的翻譯概率預(yù)測模型。具體的,能夠采用的機(jī)器學(xué)習(xí)算法包括線性回歸、回歸決策樹或迭代決策樹等算法。不同算法生成的翻譯概率的準(zhǔn)確度不同,不同算法的計(jì)算復(fù)雜度也不相同,在實(shí)際應(yīng)用中,根據(jù)具體應(yīng)用需求,可以選擇任意一種機(jī)器學(xué)習(xí)算法生成翻譯概率預(yù)測模型。在本實(shí)施例中,采用線性回歸算法,從預(yù)先存儲的平行預(yù)料中學(xué)習(xí)出的翻譯概率預(yù)測模型。在基于線性回歸的翻譯概率預(yù)測模型中,每個(gè)對翻譯概率產(chǎn)生影響的特征均有各自的權(quán)重,這些權(quán)重用于控制不同特征對待翻譯文本到候選譯文的翻譯概率的影響力。在基于統(tǒng)計(jì)的機(jī)器翻譯過程中,可以將獲取的平行語料分為三部分,第一 部分用于詞對齊及短語抽取,第二部分用于翻譯概率預(yù)測模型的訓(xùn)練,第三部分則用于系統(tǒng)評價(jià)。其中,在第二部分和第三部分的數(shù)據(jù)中,每個(gè)源語言句子最好能有多條參考翻譯。在本實(shí)施例中,采用最小化錯誤率訓(xùn)練算法,通過在所準(zhǔn)備的上述第二部分?jǐn)?shù)據(jù)——優(yōu)化集(TuningSet)上優(yōu)化各個(gè)特征的權(quán)重,使得給定的優(yōu)化準(zhǔn)則最優(yōu)化。一般常見的優(yōu)化準(zhǔn)則包括信息熵,BLEU,TER等。這一階段需要使用解碼器對優(yōu)化集進(jìn)行多次解碼,每次解碼產(chǎn)生M個(gè)得分最高的結(jié)果,并調(diào)整各個(gè)特征的權(quán)重。當(dāng)權(quán)重被調(diào)整時(shí),N個(gè)結(jié)果的排序也會發(fā)生變化,而得分最高者,即解碼結(jié)果,將被用于計(jì)算BLEU得分或TER。當(dāng)?shù)玫揭唤M新的權(quán)重,使得整個(gè)優(yōu)化集的得分得到改進(jìn)后,將重新進(jìn)行下一輪解碼。如此往復(fù)直至不能觀察到新的改進(jìn)。在實(shí)際應(yīng)用中,根據(jù)選取的M值的不同、優(yōu)化集的大小、模型大小及解碼器速度,訓(xùn)練時(shí)間可能需要數(shù)小時(shí)或數(shù)日。通過特征權(quán)重,使得翻譯系統(tǒng)在客觀評價(jià)準(zhǔn)則上的得分越來越高,同時(shí),還需要不斷改進(jìn)客觀評價(jià)準(zhǔn)則,使得客觀評價(jià)準(zhǔn)則與主觀評價(jià)準(zhǔn)則越來越接近。在進(jìn)行實(shí)際翻譯過程中,可以根據(jù)具體需求,選擇上述對翻譯概率產(chǎn)生影響的各種特征的任意組合,并在確定特征的權(quán)重后,計(jì)算待翻譯文本到每一個(gè)待定候選翻譯的翻譯概率。步驟S105:選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文。通過步驟S103獲取到待翻譯文本到每一個(gè)待定候選翻譯的翻譯概率之后,從所有待定候選翻譯中選取預(yù)設(shè)數(shù)量的翻譯概率排在高位的待定候選譯文,作為待翻譯句子的候選譯文。在實(shí)際應(yīng)用中,根據(jù)具體需求設(shè)定選取的候選譯文數(shù)量。預(yù)設(shè)數(shù)量越大,表示對待翻譯文本的候選譯文的剪枝力度越大;預(yù)設(shè)數(shù)量越小,表示對待翻譯文本的候選譯文的剪枝力度也越小。在上述的實(shí)施例中,提供了一種生成候選譯文的方法,與之相對應(yīng)的,本申請還提供一種生成候選譯文的裝置。該裝置是與上述方法的實(shí)施例相對應(yīng)。請參看圖7,其為本申請的生成候選譯文的裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。本實(shí)施例的一種生成候選譯文的裝置,用于基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng),包括:第一生成單元101,用于根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文;第一計(jì)算單元103,用于根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率;選取單元105,用于選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文;其中,所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度??蛇x的,所述第一生成單元101包括:判斷子單元,用于針對各個(gè)翻譯規(guī)則,判斷所述翻譯規(guī)則是否可應(yīng)用于所述待翻譯文本;生成子單元,用于若上述判斷結(jié)果為是,則根據(jù)所述翻譯規(guī)則,生成所述待翻譯文本的待定候選譯文。請參看圖8,其為本申請的生成候選譯文的裝置實(shí)施例的具體示意圖??蛇x的,還包括:第二計(jì)算單元201,用于計(jì)算所述待翻譯文本和待定候選譯文的語義相似度??蛇x的,所述第二計(jì)算單元201包括:獲取子單元2011,用于獲取所述待翻譯文本的文本向量,以及所述待定候選譯文的文本向量;計(jì)算子單元2013,用于計(jì)算所述待翻譯文本的文本向量和所述待定候選譯文的文本向量之間的距離,作為所述待翻譯文本和待定候選譯文的語義相似度;其中,所述文本向量是指能夠表示雙語語義信息的文本向量。可選的,還包括:第二生成單元203,用于生成所述待翻譯文本的文本向量和所述待定候選譯文的文本向量??蛇x的,所述第二生成單元203包括:獲取子單元2031,用于根據(jù)預(yù)先生成的源語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量;以及根據(jù)預(yù)先生成的目標(biāo)語言的詞與詞向量的對應(yīng)關(guān)系,獲取所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量;生成子單元2033,用于根據(jù)所述待翻譯文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的源語言的文本向量預(yù)測模型,生成所述待翻譯文本的文本向量;以及根據(jù)所述待定候選譯文包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型,生成所述待定候選譯文的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量??蛇x的,所述第二生成單元203還包括:解析子單元2030,用于解析所述待翻譯文本,獲取所述待翻譯文本包括的詞;和/或解析所述待定候選譯文,獲取所述候選譯文包括的詞??蛇x的,還包括:第三生成單元205,用于生成所述預(yù)先生成的源語言的文本向量預(yù)測模型和目標(biāo)語言的文本向量預(yù)測模型。請參看圖9,其為本申請的生成候選譯文的裝置實(shí)施例第三生成單元205的具體示意圖??蛇x的,所述第三生成單元205包括:讀取子單元2051,用于讀取預(yù)先存儲的平行語料庫;訓(xùn)練子單元2054,用于以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;設(shè)置子單元2055,用于將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述預(yù)先生成的源語言的文本向量預(yù)測模型;以及將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述預(yù)先生成的目標(biāo)語言的文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。請參看圖9,其為本申請的生成候選譯文的裝置實(shí)施例訓(xùn)練子單元205的具 體示意圖??蛇x的,所述第三生成單元205,還包括:解析子單元2052,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;初始化子單元2053,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。請參看圖10,其為本申請的生成候選譯文的裝置實(shí)施例訓(xùn)練子單元2054的具體示意圖??蛇x的,所述訓(xùn)練子單元2054包括:第一計(jì)算子單元20541,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元20543,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元20545,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的源語言的詞和詞向量的對應(yīng)關(guān)系,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。請參考圖11,其為本申請的一種電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。本實(shí)施例的一種電子設(shè)備,該電子設(shè)備包括:顯示器1101;處理器1102;以及存儲器1103,所述存儲器1103用于存儲生成候選譯文的裝置,所述生成候選譯文的裝置被所述處理器1102執(zhí)行時(shí),包括如下步驟:根據(jù)預(yù)先生成的翻譯規(guī)則,生成待翻譯文本的待定候選譯文;根據(jù)各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到 各個(gè)待定候選譯文的翻譯概率;選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文;其中,所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度。本申請?zhí)峁┑纳珊蜻x譯文的方法、裝置及電子設(shè)備,用于基于統(tǒng)計(jì)的機(jī)器翻譯系統(tǒng),通過根據(jù)待翻譯文本的各個(gè)待定候選譯文的對翻譯概率產(chǎn)生影響的特征,以及預(yù)先生成的翻譯概率預(yù)測模型,生成所述待翻譯文本到各個(gè)待定候選譯文的翻譯概率,并選取預(yù)設(shè)數(shù)量的所述翻譯概率排在高位的待定候選譯文,作為所述待翻譯文本的候選譯文,其中所述對翻譯概率產(chǎn)生影響的特征至少包括所述待翻譯文本和所述候選譯文的語義相似度,使得依據(jù)翻譯規(guī)則對原文片段進(jìn)行翻譯時(shí),能夠深入到自然語言的語義層面評估所產(chǎn)生的各個(gè)待定候選譯文的翻譯質(zhì)量,從而達(dá)到提高候選譯文翻譯質(zhì)量的效果。本申請還提供一種文本量化方法,其核心的基本思想為:根據(jù)待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與待量化文本所屬語言相對應(yīng)的文本向量預(yù)測模型,生成待量化文本的文本向量。其中,詞向量具有雙語語義特征,能夠表示互譯詞的雙語語義信息;與待量化文本所屬語言相對應(yīng)的文本向量預(yù)測模型是雙語文本向量預(yù)測模型的一個(gè)組成部分,雙語文本向量預(yù)測模型的另一組成部分為與待量化文本所屬語言相對的另一種語言所對應(yīng)的文本向量預(yù)測模型。由于在基于平行語料庫訓(xùn)練生成雙語文本向量預(yù)測模型時(shí),是將平行預(yù)料中一種語言文本經(jīng)該語言的文本向量預(yù)測模型所獲取的文本向量,作為另一種語言文本的文本向量,即:各句對平行預(yù)料在同一文本向量下訓(xùn)練生成雙語文本向量預(yù)測模型,使得通過雙語文本向量預(yù)測模型生成的文本向量具有跨語言的語義信息。請參考圖12,其為本申請的文本量化方法實(shí)施例的流程圖。所述方法包括如下步驟:步驟S1201:獲取待量化文本。本申請實(shí)施例所述的待量化文本,是指由自然語言中基本單元詞組成的文本,包括自然語言的短語、句子或段落等。步驟S1203:根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量。通過步驟S1203,將待量化文本包括的每個(gè)詞w1,…,wt映射到詞向量空間。 步驟S1203與實(shí)施例一中步驟S301相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S301部分。步驟S1205:根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量。通過步驟S105,將步驟S1203獲取到的待量化文本中各個(gè)詞的詞向量組合成一個(gè)更大的向量(即:詞向量序列),作為第一語言文本向量預(yù)測模型的輸入層變量。第一語言文本向量預(yù)測模型的輸出是待量化文本的文本向量。在實(shí)際應(yīng)用中,如果不能直接獲取待量化文本包括的各個(gè)詞,則在步驟S1203之前,還包括:步驟S1202:解析所述待量化文本,獲取所述待量化文本包括的各個(gè)詞。步驟S1202與實(shí)施例一中步驟S302相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S302部分。本申請實(shí)施例所述的第一語言文本向量預(yù)測模型作為雙語文本向量預(yù)測模型的一個(gè)組成部分,該雙語文本向量預(yù)測模型還包括另一個(gè)組成部份,即:第二語言文本向量預(yù)測模型,雙語文本向量預(yù)測模型是通過機(jī)器學(xué)習(xí)算法,從平行語料庫中學(xué)習(xí)獲得的。本申請實(shí)施例所述的平行語料庫中的每句對平行語料,包括互譯的第一語言文本和第二語言文本。因此,通過雙語文本向量預(yù)測模型預(yù)測得到的文本向量具有跨語言的雙語語義特征。請參考圖13,其為本申請的文本量化方法實(shí)施例生成第一語言文本向量預(yù)測模型的具體流程圖。在本實(shí)施例中,所述預(yù)先生成的第一語言文本向量預(yù)測模型采用如下步驟生成:步驟S1301:讀取預(yù)先存儲的平行語料庫。步驟S1301與實(shí)施例一中步驟S401相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S401部分。步驟S1303:以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型。步驟S1303與實(shí)施例一中步驟S403相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S403部分。在本實(shí)施例中,詞向量是訓(xùn)練雙語文本向量預(yù)測模型時(shí)產(chǎn)生的副產(chǎn)品,即:從平行預(yù)料庫中學(xué)習(xí)出雙語文本向量預(yù)測模型的同時(shí),學(xué)習(xí)到具有雙語語義特征的詞向量。因此,在步驟S1303之前,還包括:1)解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;2)為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。請參考圖14,其為本申請的生成候選譯文的方法實(shí)施例步驟S1303的具體流程圖。在本實(shí)施例中,步驟S1303具體包括:步驟S13031:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率。步驟S13031與實(shí)施例一中步驟S4031相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S4031部分。步驟S13033:計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率。步驟S13033與實(shí)施例一中步驟S4033相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S4033部分。步驟S13035:判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟。步驟S13037:若上述判斷結(jié)果為否,則如果所述待量化文本所屬語言是所述源語言,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系;如果所述待量化文本所屬語言是所述目標(biāo)語言,則將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系。步驟S13035和步驟S13037與實(shí)施例一中步驟S4035相對應(yīng),相同之處此 處不再贅述,相關(guān)說明詳見步驟S4035部分。在本實(shí)施例中,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,包括:1)根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;2)根據(jù)所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重。步驟S1305:若所述待量化文本所屬語言是所述源語言,則將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述第一語言文本向量預(yù)測模型;若所述待量化文本所屬語言是所述目標(biāo)語言,將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述第一語言文本向量預(yù)測模型。步驟S1305與實(shí)施例一中步驟S405相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S405部分。上述步驟S1301至步驟S1305,用于生成第一語言文本向量預(yù)測模型,以及詞與詞向量的對應(yīng)關(guān)系。在上述的實(shí)施例中,提供了一種文本量化方法,與之相對應(yīng)的,本申請還提供一種文本量化裝置。該裝置是與上述方法的實(shí)施例相對應(yīng)。請參看圖15,其為本申請的文本量化裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。本實(shí)施例的一種文本量化裝置,包括:獲取單元1501,用于獲取待量化文本;映射單元1503,用于根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量;預(yù)測單元1505,用于根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量;所述文本向量是指能夠表示雙語語義信息的文本向量??蛇x的,還包括:解析單元1502,用于解析所述待量化文本,獲取所述待量化文本包括的各個(gè)詞。請參看圖16,其為本申請的文本量化裝置實(shí)施例的具體示意圖??蛇x的,還包括:生成單元1601,用于生成所述第一語言文本向量預(yù)測模型。可選的,所述生成單元1601包括:讀取子單元16011,用于讀取預(yù)先存儲的平行語料庫;訓(xùn)練子單元16014,用于以最大化所述各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練預(yù)設(shè)的雙語文本向量編碼解碼模型;設(shè)置子單元16015,用于若所述待量化文本所屬語言是所述源語言,則將訓(xùn)練后的雙語文本向量編碼解碼模型的編碼部分,作為所述第一語言文本向量預(yù)測模型;若所述待量化文本所屬語言是所述目標(biāo)語言,將訓(xùn)練后的雙語文本向量編碼解碼模型的解碼部分的反向模型,作為所述第一語言文本向量預(yù)測模型;其中,所述預(yù)設(shè)的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。可選的,所述生成單元1601還包括:解析子單元16012,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;初始化子單元16013,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。可選的,所述訓(xùn)練子單元16014包括:第一計(jì)算子單元,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述預(yù)設(shè)的雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述詞向量和所述預(yù)設(shè)的雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;設(shè)置子單元,用于若上述判斷結(jié)果為否,則如果所述待量化文本所屬語言是所述源語言,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系;如果所述待量化文本所屬語言是所述目標(biāo)語言,則將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的詞和詞向量的對應(yīng)關(guān)系。請參考圖17,其為本申請的又一種電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。本實(shí)施例的又一種電子設(shè)備,該電子設(shè)備包括:顯示器1701;處理器1702;以及存儲器1703,所述存儲器1703用于存儲文本量化裝置,所述文本量化裝置被所述處理器1702執(zhí)行時(shí),包括如下步驟:獲取待量化文本;根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量;根據(jù)所述待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與所述待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成所述待量化文本的文本向量;其中,所述詞向量是指能夠表示雙語語義信息的詞向量;所述文本向量是指能夠表示雙語語義信息的文本向量。本申請?zhí)峁┑奈谋玖炕椒?、裝置及電子設(shè)備,通過根據(jù)預(yù)先生成的詞與詞向量的對應(yīng)關(guān)系,獲取待量化文本包括的各個(gè)詞所對應(yīng)的能夠表示雙語語義信息的詞向量;并根據(jù)待量化文本包括的各個(gè)詞所對應(yīng)的詞向量,以及預(yù)先生成的與待量化文本所屬語言相對應(yīng)的第一語言文本向量預(yù)測模型,生成待量化文本的文本向量,使得生成的文本向量能夠表示雙語語義信息,從而達(dá)到文本向量能夠適用于跨語言的互譯文本的效果。本申請還提供一種詞量化方法,其核心的基本思想為:在根據(jù)平行預(yù)料庫對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練同時(shí),調(diào)整平行預(yù)料庫包括的各個(gè)詞 的詞向量,使得學(xué)習(xí)到的詞向量富含雙語的語義知識。請參考圖18,其為本申請?zhí)峁┑囊环N詞量化方法的實(shí)施例的流程圖,本實(shí)施例與第一實(shí)施例內(nèi)容相同的部分不再贅述,請參見實(shí)施例一中的相應(yīng)部分。本申請?zhí)峁┑囊环N詞量化方法包括:步驟S1801:讀取預(yù)先存儲的平行語料庫。步驟S1801與實(shí)施例一中步驟S401相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S401部分。步驟S1802:解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞。步驟S1803:為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系。步驟S1802和步驟S1803與實(shí)施例一中步驟S403之前的準(zhǔn)備步驟相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S403之前的準(zhǔn)備步驟部分。步驟S1804:根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。步驟S1804與實(shí)施例一中步驟S504相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S504部分。在本實(shí)施例中,所述雙語文本向量預(yù)測模型采用雙語文本向量編碼解碼模型;步驟S1804采用如下方式:以最大化所述平行預(yù)料庫中各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練所述雙語文本向量編碼解碼模型,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,獲取所述能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。該方式與實(shí)施例一中步驟S403相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S403部分。本申請實(shí)施例所述的雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。請參考圖19,其為本申請?zhí)峁┑囊环N詞量化方法的實(shí)施例步驟S1804的具體流程圖。在本實(shí)施例中,步驟S1804包括:步驟S1901:遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率。步驟S1901與實(shí)施例一中步驟S4031相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S4031部分。步驟S1903:計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率。步驟S1903與實(shí)施例一中步驟S4033相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S4033部分。步驟S1905:判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,作為所述能夠表示雙語語義信息的源語言詞的詞向量,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系,作為所述能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。步驟S1905與實(shí)施例一中步驟S4035相對應(yīng),相同之處此處不再贅述,相關(guān)說明詳見步驟S4035部分。在本實(shí)施例中,所述最優(yōu)化算法采用隨機(jī)梯度算法;所述采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各 個(gè)連接權(quán)重,包括:1)根據(jù)預(yù)設(shè)的學(xué)習(xí)速率和所述平均翻譯概率的計(jì)算公式,計(jì)算所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量的梯度,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度;2)根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量的梯度,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重的梯度,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量和所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重。在上述的實(shí)施例中,提供了一種詞量化方法,與之相對應(yīng)的,本申請還提供一種詞量化裝置。該裝置是與上述方法的實(shí)施例相對應(yīng)。請參看圖20,其為本申請的詞量化裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。本實(shí)施例的一種詞量化裝置,包括:讀取單元2001,用于讀取預(yù)先存儲的平行語料庫;解析單元2003,用于解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;初始化單元2005,用于為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;訓(xùn)練單元2007,用于根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。可選的,所述雙語文本向量預(yù)測模型采用雙語文本向量編碼解碼模型;所述根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量,采用如下方式:以最大化所述平行預(yù)料庫中各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的平均翻譯概率作為訓(xùn)練目標(biāo),訓(xùn)練所述雙語文本向量編碼解碼模型,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,獲取所述能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量;其中,所述雙語文本向量編碼解碼模型的輸入層包括所述源語言句子包括的詞分別對應(yīng)的詞向量,輸出層包括所述目標(biāo)語言句子包括的詞分別對應(yīng)的詞向量;所述編碼部分的輸出層為所述源語言句子的文本向量,所述源語言句子的文本向量為所述解碼部分的輸入層。請參看圖21,其為本申請的詞量化裝置實(shí)施例訓(xùn)練單元2007的示意圖。可選的,所述訓(xùn)練單元2007包括:第一計(jì)算子單元20071,用于遍歷所述平行語料庫中各句對平行語料,根據(jù)所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系、所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系和所述雙語文本向量編碼解碼模型,計(jì)算各句對平行語料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率;第二計(jì)算子單元20073,用于計(jì)算獲取各句對平行預(yù)料的目標(biāo)語言句子在與其對應(yīng)的源語言句子背景下的翻譯概率的平均值,作為當(dāng)前平均翻譯概率;判斷子單元20075,用于判斷所述當(dāng)前平均翻譯概率是否大于上一次平均翻譯概率;若是,則采用最優(yōu)化算法,更新所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,以及所述雙語文本向量編碼解碼模型的各個(gè)連接權(quán)重,并返回執(zhí)行所述遍歷所述平行語料庫中各句對平行語料的步驟;若否,則將調(diào)整后的所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,作為所述能夠表示雙語語義信息的源語言詞的詞向量,以及將調(diào)整后的所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系作為所述預(yù)先生成的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系,作為所述能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。請參考圖22,其為本申請的再一電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。本實(shí)施例的再一種電子設(shè)備,該電子設(shè)備包括:顯示器2201;處理器2202; 以及存儲器2203,所述存儲器2203用于存儲詞量化裝置,所述詞量化裝置被所述處理器2202執(zhí)行時(shí),包括如下步驟:讀取預(yù)先存儲的平行語料庫;解析所述平行語料庫包括的各個(gè)句子,獲取所述平行語料庫包括的源語言的詞和目標(biāo)語言的詞;為所述平行語料庫包括的源語言的詞設(shè)置第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系;以及為所述平行語料庫包括的目標(biāo)語言的詞設(shè)置所述第一預(yù)設(shè)維度的詞向量,形成待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;根據(jù)所述平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整所述待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和所述待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,學(xué)習(xí)出能夠表示雙語語義信息的源語言詞的詞向量,以及能夠表示雙語語義信息的目標(biāo)語言詞的詞向量。本申請?zhí)峁┑脑~量化方法、裝置及電子設(shè)備,通過初始化平行語料庫包括的各個(gè)詞的詞向量,形成待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系以及待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系;并根據(jù)平行預(yù)料庫,對預(yù)設(shè)的雙語文本向量預(yù)測模型進(jìn)行訓(xùn)練,調(diào)整待調(diào)整的源語言的詞和詞向量的對應(yīng)關(guān)系和待調(diào)整的目標(biāo)語言的詞和詞向量的對應(yīng)關(guān)系中的詞向量,使得生成的詞向量所具有的語義信息適用于跨語言的互譯詞。本申請雖然以較佳實(shí)施例公開如上,但其并不是用來限定本申請,任何本領(lǐng)域技術(shù)人員在不脫離本申請的精神和范圍內(nèi),都可以做出可能的變動和修改,因此本申請的保護(hù)范圍應(yīng)當(dāng)以本申請權(quán)利要求所界定的范圍為準(zhǔn)。在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flashRAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。1、計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、 數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。2、本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1