本發(fā)明實(shí)施例涉及語言處理技術(shù),尤其涉及一種機(jī)器翻譯模型的獲取方法及裝置。
背景技術(shù):
:機(jī)器翻譯是自然語言處理的重要分支之一,其目的是借助計(jì)算機(jī)將文字或者語言從一種自然語言翻譯成另外一種自然語言,例如將中文翻譯成英文。隨著計(jì)算機(jī)計(jì)算能力和存儲(chǔ)能力的不斷提升,機(jī)器翻譯方法中統(tǒng)計(jì)方法開始發(fā)展,統(tǒng)計(jì)方法的基本思想是通過大量的平行語料進(jìn)行統(tǒng)計(jì)分析,構(gòu)建機(jī)器翻譯模型,并使用該模型結(jié)合語言模型來進(jìn)行翻譯。現(xiàn)有技術(shù)中通過統(tǒng)計(jì)方法獲取機(jī)器翻譯模型的方法,一般是對(duì)雙語句對(duì)文本進(jìn)行分詞,其中,雙語句對(duì)文本即為源語言文本和目標(biāo)語言文本,例如源語言文本是中文文本,目標(biāo)語言文本是與該中文文本語義對(duì)應(yīng)的英文文本。根據(jù)源語言文本和目標(biāo)語言文本各自對(duì)應(yīng)的詞典,對(duì)該源語言文本和目標(biāo)語言文本分別進(jìn)行分詞,得到平行語料,也就是訓(xùn)練詞語,對(duì)平行語料進(jìn)行訓(xùn)練得到機(jī)器翻譯模型?,F(xiàn)有技術(shù)分詞方法中采用的分詞詞典沒有考慮雙語句對(duì)文本之間的語義對(duì)應(yīng)關(guān)系,比如對(duì)于雙語句對(duì)為中文文本和英文文本的情況,其中,對(duì)于英文文本的分詞,由于沒有考慮與中文文本中漢字的語義關(guān)系,分詞結(jié)果往往是以單個(gè)單詞的形式存在,忽略了與中文文本中的漢字對(duì)應(yīng)關(guān)系更好、語義更豐富的英文短語,造成了采用上述方法得到的機(jī)器翻譯模型在機(jī)器翻譯的應(yīng)用過程中,機(jī)器翻譯速度較慢且準(zhǔn)確度不高的問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供一種機(jī)器翻譯模型的獲取方法及裝置,以克服現(xiàn)有技術(shù)中獲取翻譯模型方法得到機(jī)器翻譯模型在應(yīng)用過程中,使得機(jī)器翻譯速度較慢且準(zhǔn)確度不高的技術(shù)問題本發(fā)明提供一種機(jī)器翻譯模型的獲取方法,包括:獲取多個(gè)雙語句對(duì)文本,所述雙語句對(duì)文本包括第一語言文本和與所述第一語言文本語義相同的第二語言文本,所述第一語言文本與所述第二語言文本屬于不同的語言;根據(jù)第一語言詞典,對(duì)所述第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)所述第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,所述第一分詞詞語包括至少一個(gè)第一單詞,所述第二分詞詞語包括至少一個(gè)第二單詞;所述第一語言詞典包括多個(gè)第一語言短語,所述第一語言短語包括多個(gè)第一單詞,所述第二語言詞典包括多個(gè)第二語言短語,所述第二語言短語包括多個(gè)第二單詞;采用非監(jiān)督學(xué)習(xí)方法對(duì)所述第一分詞詞語和所述第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用所述機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。如上所述的方法,所述根據(jù)第一語言詞典,對(duì)所述第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)所述第二語言文本進(jìn)行分詞,得到第二分詞詞語之前,還包括:對(duì)所述第一語言文本進(jìn)行分詞,得到所述第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,并對(duì)所述第二語言文本進(jìn)行分詞,得到所述第二語言文本對(duì)應(yīng)的多個(gè)第二單詞;根據(jù)所述第一單詞和所述第二單詞之間的語義對(duì)應(yīng)關(guān)系,構(gòu)建第一語言短語和第二語言短語;根據(jù)所述第一語言短語,生成第一語言詞典,根據(jù)所述第二語言短語,生成第二語言詞典。如上所述的方法,所述對(duì)所述第一語言文本進(jìn)行分詞,得到所述第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,包括:根據(jù)第一分詞詞典,采用最大匹配分詞法,對(duì)所述第一語言文本進(jìn)行分詞,得到多個(gè)第一單詞;所述對(duì)所述第二語言文本進(jìn)行分詞,得到所述第二語言文本對(duì)應(yīng)的多個(gè)第二單詞,包括:根據(jù)第二分詞詞典,采用最大匹配分詞法,對(duì)所述第二語言文本進(jìn)行分詞,得到多個(gè)第二單詞。如上所述的方法,所述根據(jù)所述第一單詞和所述第二單詞之間的語義對(duì)應(yīng)關(guān)系,構(gòu)建第一語言短語和第二語言短語,包括:將所述第一語言文本的第一單詞和所述第二語言文本的第二單詞按照語義進(jìn)行匹配對(duì)齊;若多個(gè)第一單詞表達(dá)的語義與至少一個(gè)第二單詞表達(dá)的語義相同,則將多個(gè)第一單詞組成第一語言短語;若多個(gè)第二單詞表達(dá)的語義與至少一個(gè)第一單詞表達(dá)的語義相同,則將多個(gè)第二單詞組成第二語言短語。如上所述的方法,所述根據(jù)所述第一語言短語,生成第一語言詞典,包括:將所述第一語言短語添加到所述第一分詞詞典中,得到新的第一分詞詞典,將所述新的第一分詞詞典作為所述第一語言詞典;所述根據(jù)第二語言短語,生成第二語言詞典,包括:將所述第二語言短語添加到所述第二分詞詞典中,得到新的第二分詞詞典,將所述新的第二分詞詞典作為所述第二語言詞典。如上所述的方法,所述第一語言文本為亞洲語言文本,所述第一單詞為單字。本發(fā)明還提供一種機(jī)器翻譯模型的獲取裝置,包括:文本獲取模塊,所述文本獲取模塊用于獲取多個(gè)雙語句對(duì)文本,所述雙語句對(duì)文本包括第一語言文本和與所述第一語言文本語義相同的第二語言文本,所述第一語言文本與所述第二語言文本屬于不同的語言;第一分詞模塊,所述分詞模塊用于,根據(jù)第一語言詞典,對(duì)所述第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)所述第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,所述第一分詞詞語包括至少一個(gè)第一單詞,所述第二分詞詞語包括至少一個(gè)第二單詞;所述第一語言詞典包括多個(gè)第一語言短語,所述第一語言短語包括多個(gè)第一單詞,所述第二語言詞典包括多個(gè)第二語言短語,所述第二語言短語包括多個(gè)第二單詞;機(jī)器翻譯模型獲取模塊,所述機(jī)器翻譯模型獲取模塊用于采用非監(jiān)督學(xué)習(xí)方法對(duì)所述第一分詞詞語和所述第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用所述機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。如上所述的裝置,所述裝置還包括:第二分詞模塊,所述第二分詞模塊用于對(duì)所述第一語言文本進(jìn)行分詞,得到所述第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,并對(duì)所述第二語言文本進(jìn)行分詞,得到所述第二語言文本對(duì)應(yīng)的多個(gè)第二單詞;短語構(gòu)建模塊,所述短語構(gòu)建模塊用于根據(jù)所述第一單詞和所述第二單詞之間的語義對(duì)應(yīng)關(guān)系,構(gòu)建第一語言短語和第二語言短語;詞典生成模塊,所述詞典生成模塊用于根據(jù)所述第一語言短語,生成第一語言詞典,根據(jù)所述第二語言短語,生成第二語言詞典。如上所述的裝置,所述第二分詞模塊具體用于:根據(jù)第一分詞詞典,采用最大匹配分詞法,對(duì)所述第一語言文本進(jìn)行分詞,得到多個(gè)第一單詞;根據(jù)第二分詞詞典,采用最大匹配分詞法,對(duì)所述第二語言文本進(jìn)行分詞,得到多個(gè)第二單詞。如上所述的裝置,所述短語構(gòu)建模塊具體用于:將所述第一語言文本的第一單詞和所述第二語言文本的第二單詞按照語義進(jìn)行匹配對(duì)齊;若多個(gè)第一單詞表達(dá)的語義與至少一個(gè)第二單詞表達(dá)的語義相同,則將多個(gè)第一單詞組成第一語言短語;若多個(gè)第二單詞表達(dá)的語義與至少一個(gè)第一單詞表達(dá)的語義相同,則將多個(gè)第二單詞組成第二語言短語。本發(fā)明提供一種機(jī)器翻譯模型的獲取方法及裝置。本發(fā)明的機(jī)器翻譯模型的獲取方法包括獲取多個(gè)雙語句對(duì)文本,雙語句對(duì)文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言;根據(jù)第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,第一分詞詞語包括至少一個(gè)第一單詞,第二分詞詞語包括至少一個(gè)第二單詞;第一語言詞典包括多個(gè)第一語言短語,第一語言短語包括多個(gè)第一單詞,第二語言詞典包括多個(gè)第二語言短語,第二語言短語包括多個(gè)第二單詞;采用非監(jiān)督學(xué)習(xí)方法對(duì)第一分詞詞語和第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。本發(fā)明的機(jī)器翻譯模型的獲取方法及裝置,使得獲取的機(jī)器翻譯模型在機(jī)器翻譯的應(yīng)用過程中,機(jī)器翻譯速度和精度得到了提高。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明提供的機(jī)器翻譯模型的獲取方法的流程示意圖;圖2為本發(fā)明提供的機(jī)器翻譯模型的獲取裝置實(shí)施例一的結(jié)構(gòu)示意圖;圖3為本發(fā)明提供的機(jī)器翻譯模型的獲取裝置實(shí)施例二的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”、“第四”等(如果存在)是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例,例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。機(jī)器翻譯的過程需要使用機(jī)器翻譯模型,機(jī)器翻譯模型直接影響機(jī)器翻譯的質(zhì)量和速度。在自然語言中,無論是亞洲語系還是歐美語系,短語表達(dá)的語義均比單個(gè)的單詞表達(dá)的語義要豐富;比如中文和英文之間,往往一個(gè)中文漢字對(duì)應(yīng)多個(gè)英文單詞組成的英文短語,一個(gè)英文單詞對(duì)應(yīng)多個(gè)中文漢字組成的中文短語。但是,現(xiàn)有技術(shù)中獲取機(jī)器翻譯模型時(shí),需采用源語言文本和目標(biāo)語言文本各自對(duì)應(yīng)的詞典進(jìn)行分詞,但由于各自的詞典沒有充分考慮源語言與目標(biāo)語言之間的語義對(duì)應(yīng)關(guān)系,比如,對(duì)于源語言為英文文本的分詞,分詞結(jié)果往往是以單個(gè)單詞的形式存在,并不能與目標(biāo)語言中文很好的對(duì)應(yīng),而機(jī)器翻譯模型是通過對(duì)分詞得到的平行語料進(jìn)行訓(xùn)練得到的,因此,使用現(xiàn)有技術(shù)中的機(jī)器翻譯模型進(jìn)行機(jī)器會(huì)存在翻譯翻譯速度較慢且準(zhǔn)確度不高的問題。為解決上述問題,本發(fā)明提出了一種機(jī)器翻譯模型的獲取方法及裝置,下面對(duì)本發(fā)明的機(jī)器翻譯模型的獲取方法和裝置,進(jìn)行詳細(xì)的說明。圖1為本發(fā)明提供的機(jī)器翻譯模型的獲取方法的流程示意圖,本實(shí)施例的方法可以基于機(jī)器翻譯模型的獲取裝置實(shí)現(xiàn),該裝置可以通過由硬件和/或軟件實(shí)現(xiàn),如圖1所示,本實(shí)施例的方法可以包括:步驟S101、獲取多個(gè)雙語句對(duì)文本,雙語句對(duì)文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言;具體地,雙語句文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言,比如第一語言文本為英文“Ilikefootball”,那么第二語言文本可為中文“我喜歡足球”,當(dāng)然第二語言文本還可為日文等亞洲語言或者德語等歐美語言,只要與“Ilikefootball”語義對(duì)應(yīng)即可。此外,本實(shí)施例中的第一語言文本與第二語言文本可以均為亞洲語系,也可以均為歐美語系,或者其他相同的語系,也可以分別屬于不同的語系,也就是說第一語言文本和第二語言文本是根據(jù)后續(xù)需要互相翻譯的語言確定的,比如進(jìn)行中文與英文之間的翻譯,那么第一語言文本為中文,第二語言文本為英文,或者,第一語言文本為英文,第二語言文本為中文。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明白,雙語句文本的數(shù)目應(yīng)該足夠大,以使得到的機(jī)器翻譯模型應(yīng)用在翻譯過程時(shí),可以保證翻譯過程的精度和速度。步驟S102、根據(jù)第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,第一分詞詞語包括至少一個(gè)第一單詞,第二分詞詞語包括至少一個(gè)第二單詞;第一語言詞典包括多個(gè)第一語言短語,第一語言短語包括多個(gè)第一單詞,第二語言詞典包括多個(gè)第二語言短語,第二語言短語包括多個(gè)第二單詞;具體地,在根據(jù)第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語之前,需要獲取第一語言詞典和第二語言詞典。下面對(duì)獲取第一語言詞典和第二語言詞典的方法進(jìn)行詳細(xì)的介紹。獲取多個(gè)雙語句對(duì)文本,雙語句對(duì)文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言。本次獲取的多個(gè)雙語句對(duì)文本可以與步驟S101中的多個(gè)雙語句對(duì)文本相同,也可以不相同,在本實(shí)施例中優(yōu)選本次獲取的多個(gè)雙語句對(duì)文本與步驟S101中的多個(gè)雙語句對(duì)文本相同。其中,若本次獲取的多個(gè)雙語句對(duì)文本與步驟S101中的多個(gè)雙語句對(duì)文本不相同,優(yōu)選為本次獲取的多個(gè)雙語句對(duì)文本包括步驟S101中的多個(gè)雙語句對(duì)文本,也就是說本次獲取的多個(gè)雙語句對(duì)文本除了包括步驟S101中的多個(gè)雙語句對(duì)文本外,還包括其他的雙語句對(duì)文本。本領(lǐng)域技術(shù)人員可以理解的是,本次獲取的多個(gè)雙語句對(duì)文本針對(duì)的雙語(第一語言和第二語言)與步驟S101中的多個(gè)雙語句對(duì)文本針對(duì)的雙語相同,比如,步驟S101中的雙語句對(duì)文本是語義對(duì)應(yīng)的中文文本和英文文本,那么本次獲取的雙語句對(duì)文本也是語義對(duì)應(yīng)的中文文本和英文文本。在獲取第一語言詞典和第二語言詞典的方法中,在獲取了多個(gè)雙語句對(duì)文本后,便對(duì)第一語言文本進(jìn)行分詞,得到第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,并對(duì)第二語言文本進(jìn)行分詞,得到第二語言文本對(duì)應(yīng)的多個(gè)第二單詞。具體地,對(duì)第一語言文本進(jìn)行分詞,得到第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,包括:根據(jù)第一分詞詞典,采用最大匹配分詞法,對(duì)第一語言文本進(jìn)行分詞,得到多個(gè)第一單詞;對(duì)第二語言文本進(jìn)行分詞,得到第二語言文本對(duì)應(yīng)的多個(gè)第二單詞,包括:根據(jù)第二分詞詞典,采用最大匹配分詞法,對(duì)第二語言文本進(jìn)行分詞,得到多個(gè)第二單詞。其中,若第一語言文本為亞洲語言文本,第一單詞為單字。另外,最大匹配為現(xiàn)有技術(shù)中的方法,本實(shí)施例中不作贅述。下面以第一語言文本為英文文本,第二語言文本為中文文本為例,對(duì)該分詞過程進(jìn)行說明。第一分詞詞典為包含英文單詞的分詞詞典,第二分詞詞典可為空的分詞詞典,或者第二分詞詞典中的詞語均為一個(gè)漢字,以保證中文文本分詞后的結(jié)果為單個(gè)漢字。舉例來說,對(duì)于英文文本“IamastudentofuniversityofMacau”采用第一分詞詞典,通過最大匹配法分詞后得到多個(gè)第一單詞為:I、am、a、student、of、university、of、Macau。對(duì)于對(duì)應(yīng)的中文文本“我是澳大的一名學(xué)生”,采用第二分詞詞典,通過最大匹配法分詞后得到的多個(gè)第二單詞為:我、是、澳、大、的、一、名、學(xué)、生。另外,在獲取第一語言詞典和第二語言詞典的方法中,獲取了多個(gè)雙語句對(duì)文本后,對(duì)于中文文本或者其它亞洲語系還可以不采用分詞方法獲取多個(gè)第二單詞(若第二語言文本為亞洲語系),還可以采用直接將中文文本等亞洲語系文本直接拆分成單個(gè)字。在獲取到多個(gè)第一單詞和多個(gè)第二單詞后,根據(jù)第一單詞和第二單詞之間的語義對(duì)應(yīng)關(guān)系,構(gòu)建第一語言短語和第二語言短語;構(gòu)建第一語言短語和第二語言短語的具體方法為:將第一語言文本的第一單詞和第二語言文本的第二單詞按照語義進(jìn)行匹配對(duì)齊;若多個(gè)第一單詞表達(dá)的語義與至少一個(gè)第二單詞表達(dá)的語義相同,則將多個(gè)第一單詞組成第一語言短語;若多個(gè)第二單詞表達(dá)的語義與至少一個(gè)第一單詞表達(dá)的語義相同,則將多個(gè)第二單詞組成第二語言短語。其中,將第一語言文本的第一單詞和第二語言文本的第二單詞按照語義進(jìn)行匹配對(duì)齊使用的工具為GIZA++。舉例來說,若多個(gè)第一單詞為:I、am、a、student、of、university、of、Macau,多個(gè)第二單詞為:我、是、澳、大、的、一、名、學(xué)、生,語義匹配對(duì)齊后的結(jié)果為“I”和“我”對(duì)齊,“am”和“是”對(duì)齊,“a”和“一、名”對(duì)齊,“student”和“學(xué)、生”對(duì)齊,“of”和“的”對(duì)齊,“university、of、Macau”和“澳、大”對(duì)齊。語義匹配對(duì)齊后,若多個(gè)第一單詞表達(dá)的語義與至少一個(gè)第二單詞表達(dá)的語義相同,則將多個(gè)第一單詞組成第一語言短語,比如:3個(gè)第一單詞“university、of、Macau”表達(dá)的語義和2個(gè)第二單詞“澳、大”表達(dá)的語義相同,則將3個(gè)第一單詞組成第一語言短語“universityofMacau”。同理,若多個(gè)第二單詞表達(dá)的語義與至少一個(gè)第一單詞表達(dá)的語義相同,則將多個(gè)第二單詞組成第二語言短語,比如2個(gè)第二單詞“澳、大”表達(dá)的語義與3個(gè)第一單詞“university、of、Macau”表達(dá)的語義相同,則將2個(gè)第二單詞“澳、大”組成第二語言短語“澳大”;又比如兩個(gè)第二單詞“學(xué)、生”表達(dá)的語義與一個(gè)第一單詞“student”表達(dá)的語義相同,則將兩個(gè)第二單詞“學(xué)、生”組成第二語言短語“學(xué)生”。在獲取到多個(gè)第一語言短語和第二語言短語后,根據(jù)第一語言短語,生成第一語言詞典,根據(jù)第二語言短語,生成第二語言詞典,具體為:將第一語言短語添加到第一分詞詞典中,得到新的第一分詞詞典,將新的第一分詞詞典作為第一語言詞典;將第二語言短語添加到第一分詞詞典中,得到新的第二分詞詞典,將新的第二分詞詞典作為第二語言詞典。經(jīng)過上述過程后,便得到了第一語言詞典和第二語言詞典。在得到了第一語言詞典和第二語言詞典,便可以采用第一語言詞典,對(duì)第一語言文本重新進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本重新進(jìn)行分詞,得到第二分詞詞語。具體地,本實(shí)施例中優(yōu)選通過最大匹配法,采用第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,因?yàn)榈谝徽Z言詞典包括多個(gè)第一語言短語,所以第一分詞詞語中包含多個(gè)第一語言短語,或者說第一分詞詞語包括至少一個(gè)第一單詞。比如對(duì)于英文文本“IamastudentofuniversityofMacau”通過最大匹配法、采用第一語言詞典分詞后得到的第一分詞詞語為:I、am、a、student、of、universityofMacau。同樣,本實(shí)施例中優(yōu)選通過最大匹配法,采用第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語,因?yàn)榈诙Z言詞典包括多個(gè)第二語言短語,所以第一分詞詞語中包含多個(gè)第二語言短語,或者第二分詞詞語包括至少一個(gè)第二單詞。比如對(duì)于中文文本“我是澳大的一名學(xué)生”,通過最大匹配法、采用第二語言詞典分詞后得到的第二分詞詞語為:我、是、澳大、的、一名、學(xué)生。其中,對(duì)于歐美語系的文本優(yōu)選正向匹配法,對(duì)于亞洲語系的文本優(yōu)選逆向匹配法和概率的結(jié)合。步驟S103、采用非監(jiān)督學(xué)習(xí)方法對(duì)第一分詞詞語和第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。具體地,在對(duì)所有的第一語言文本通過第一語言詞典分詞及所有的第二語言文本通過第二語言詞典分詞后,會(huì)得到多個(gè)第一分詞詞語和第二分詞詞語,將多個(gè)第一分詞詞語和第二分詞詞語組成平行語料作為訓(xùn)練詞語采用非監(jiān)督學(xué)習(xí)方法進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用該機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。其中,非監(jiān)督學(xué)習(xí)方法為現(xiàn)有技術(shù)中的方法,本實(shí)施例中不做贅述。采用包含多個(gè)第一語言短語和第一語言詞典對(duì)第一語言文本進(jìn)行分詞得到第一分詞詞語,采用包含多個(gè)第二語言短語和第二語言詞典對(duì)第二語言文本進(jìn)行分詞得到多個(gè)第二分詞詞語,接著通過對(duì)第一分詞詞語和第二分詞詞語組成的訓(xùn)練詞語進(jìn)行訓(xùn)練得到機(jī)器翻譯模型,由于短語的語義更豐富,與另一語言對(duì)應(yīng)時(shí)更準(zhǔn)確,在翻譯的過程中不必重新匹配生成短語,且第一語言短語和第一語言短語是通過第一語言文本和第二語言文本語義對(duì)齊后得到的,因此,機(jī)器翻譯采用該方法得到的機(jī)器翻譯模型進(jìn)行機(jī)器翻譯,會(huì)使得翻譯的準(zhǔn)確度和速度大大提高。本實(shí)施例的機(jī)器翻譯模型的獲取方法,包括獲取多個(gè)雙語句對(duì)文本,雙語句對(duì)文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言;根據(jù)第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,第一分詞詞語包括至少一個(gè)第一單詞,第二分詞詞語包括至少一個(gè)第二單詞;第一語言詞典包括多個(gè)第一語言短語,第一語言短語包括多個(gè)第一單詞,第二語言詞典包括多個(gè)第二語言短語,第二語言短語包括多個(gè)第二單詞;采用非監(jiān)督學(xué)習(xí)方法對(duì)第一分詞詞語和第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。本實(shí)施的機(jī)器翻譯模型的獲取方法,使得獲取的機(jī)器翻譯模型在機(jī)器翻譯的應(yīng)用過程中,機(jī)器翻譯速度和精度得到了提高。另外,為了驗(yàn)證采用本發(fā)明的機(jī)器翻譯模型獲取方法獲得的機(jī)器翻譯模型在實(shí)際機(jī)器翻譯過程中對(duì)機(jī)器翻譯的影響,將采用本發(fā)明的方法得到的機(jī)器翻譯模型進(jìn)行機(jī)器翻譯的結(jié)果與采用現(xiàn)有技術(shù)中的方法得到的機(jī)器翻譯模型進(jìn)行機(jī)器翻譯的結(jié)果進(jìn)行了比較,具體過程如下:在比較過程中,雙語句對(duì)本文來自CWMT2013中提供的雙語新聞數(shù)據(jù)(cwmt-corpora)包括的雙語句對(duì)文本和澳門大學(xué)提供的UM-Corpus數(shù)據(jù)(Tianetal.,2014)包括的雙語句對(duì)文本。其中cwmt-corpora共有330萬句對(duì),UM-Corpus包含4,157,556句對(duì)。上述兩個(gè)數(shù)據(jù)進(jìn)行合并去除重復(fù)和錯(cuò)誤的對(duì)齊句子后,共計(jì)7,445,190句。在機(jī)器翻譯過程中采用的3500句測(cè)試數(shù)據(jù)來自UM-Corpus中的全部數(shù)據(jù)。其中對(duì)雙語和測(cè)試數(shù)據(jù)的具體信息如表1和表2所示。表1.cwmt-corpora+UM-Corpus雙語數(shù)據(jù)統(tǒng)計(jì)語言單詞數(shù)句子平均長度詞匯量英語152,161,23319.371,655,080漢語229,110,26529.16397,442表2.3500句UM-Corpus中的測(cè)試數(shù)據(jù)信息語言單詞數(shù)句子平均長度英語68,17223.62漢語92,98930.74分別選用以下幾種方法對(duì)上述雙語句對(duì)文本中文文本進(jìn)行分詞(1)基于詞的分詞,該方式下中文每個(gè)字作為一個(gè)獨(dú)立的詞(Character-based);(2)中科院張華平博士的ICTCLAS分詞(ICTCLAS);(3)斯坦福采用賓夕法尼亞樹訓(xùn)練的分詞方法(Stanford-CWSCTB);(4)斯坦福采用人民日?qǐng)?bào)訓(xùn)練的分詞方法(Stanford-CWSPKU),英文文本的分詞則是均采用現(xiàn)有的常規(guī)分詞;對(duì)各方法分詞后得到的訓(xùn)練詞語采用相同的方法訓(xùn)練學(xué)習(xí)后得到4種機(jī)器翻譯模型,分別采用4種機(jī)器翻譯模型以3500句測(cè)試數(shù)據(jù)為依據(jù)進(jìn)行翻譯,得到的機(jī)器翻譯結(jié)果見表3。表3.基于不同分詞方法得到的機(jī)器翻譯結(jié)果從表3可以看出,采用本發(fā)明的方法得到的機(jī)器翻譯模型,在英文到中文的翻譯中及中文到英文的翻譯中,BLEUs分值均為最高,說明采用本發(fā)明的方法得到的機(jī)器翻譯模型翻譯準(zhǔn)確度最高。圖2為本發(fā)明提供的機(jī)器翻譯模型的獲取裝置實(shí)施例一的結(jié)構(gòu)示意圖,如圖2所示,本實(shí)施例的裝置可以包括:文本獲取模塊21、第一分詞模塊22和機(jī)器翻譯模型獲取模塊23,其中,文本獲取模塊21用于獲取多個(gè)雙語句對(duì)文本,雙語句對(duì)文本包括第一語言文本和與第一語言文本語義相同的第二語言文本,第一語言文本與第二語言文本屬于不同的語言;第一分詞模塊22用于根據(jù)第一語言詞典,對(duì)第一語言文本進(jìn)行分詞,得到第一分詞詞語,根據(jù)第二語言詞典,對(duì)第二語言文本進(jìn)行分詞,得到第二分詞詞語;其中,第一分詞詞語包括至少一個(gè)第一單詞,第二分詞詞語包括至少一個(gè)第二單詞;第一語言詞典包括多個(gè)第一語言短語,第一語言短語包括多個(gè)第一單詞,第二語言詞典包括多個(gè)第二語言短語,第二語言短語包括多個(gè)第二單詞;機(jī)器翻譯模型獲取模塊23用于采用非監(jiān)督學(xué)習(xí)方法對(duì)第一分詞詞語和第二分詞詞語組成的平行語料進(jìn)行訓(xùn)練,得到機(jī)器翻譯模型,以使終端采用機(jī)器翻譯模型進(jìn)行第一語言和第二語言之間的翻譯。本實(shí)施例的裝置,可以用于執(zhí)行圖1所示方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。圖3為本發(fā)明提供的機(jī)器翻譯模型的獲取裝置實(shí)施例二的結(jié)構(gòu)示意圖,如圖3所示,本實(shí)施例的裝置在圖2所示裝置結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步地,還可以包括:第二分詞模塊24、短語構(gòu)建模塊25和詞典生成模塊26;其中,第二分詞模塊24用于對(duì)第一語言文本進(jìn)行分詞,得到第一語言文本對(duì)應(yīng)的多個(gè)第一單詞,并對(duì)第二語言文本進(jìn)行分詞,得到第二語言文本對(duì)應(yīng)的多個(gè)第二單詞;短語構(gòu)建模塊25用于根據(jù)第一單詞和第二單詞之間的語義對(duì)應(yīng)關(guān)系,構(gòu)建第一語言短語和第二語言短語;詞典生成模塊26用于根據(jù)第一語言短語,生成第一語言詞典,根據(jù)第二語言短語,生成第二語言詞典。其中,第二分詞模塊具體用于:根據(jù)第一分詞詞典,采用最大匹配分詞法,對(duì)第一語言文本進(jìn)行分詞,得到多個(gè)第一單詞;根據(jù)第二分詞詞典,采用最大匹配分詞法,對(duì)第二語言文本進(jìn)行分詞,得到多個(gè)第二單詞。短語構(gòu)建模塊具體用于:將第一語言文本的第一單詞和第二語言文本的第二單詞按照語義進(jìn)行匹配對(duì)齊;若多個(gè)第一單詞表達(dá)的語義與至少一個(gè)第二單詞表達(dá)的語義相同,則將多個(gè)第一單詞組成第一語言短語;若多個(gè)第二單詞表達(dá)的語義與至少一個(gè)第一單詞表達(dá)的語義相同,則將多個(gè)第二單詞組成第二語言短語。詞典生成模塊26具體用于將第一語言短語添加到第一分詞詞典中,得到新的第一分詞詞典,將新的第一分詞詞典作為第一語言詞典;根據(jù)第二語言短語,生成第二語言詞典,包括:將第二語言短語添加到第二分詞詞典中,得到新的第二分詞詞典,將新的第二分詞詞典作為第二語言詞典。本實(shí)施例的裝置,可以用于執(zhí)行如上所述方法實(shí)施例的技術(shù)方案,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。當(dāng)前第1頁1 2 3