本發(fā)明涉及人工智能機(jī)器翻譯技術(shù)領(lǐng)域,具體來說,涉及一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng)的預(yù)處理模塊。
背景技術(shù):
機(jī)器翻譯是利用計算機(jī)對人類自然語言進(jìn)行自動翻譯的技術(shù),是利用計算機(jī)把一種自然語言轉(zhuǎn)換成另一種自然語言的過程,而且兩種自然語言在意義上應(yīng)該是等價的。
目前,一種比較成熟而且主流的機(jī)器翻譯方法是基于統(tǒng)計的方法,該方法的優(yōu)點在于幾乎不需要人工撰寫翻譯規(guī)則,所有的翻譯信息都是自動地從語料中學(xué)習(xí)而獲得,因此該方法最大程度地發(fā)揮了計算機(jī)高速運算的特點,極大地降低了人工成本。
基于統(tǒng)計模型的機(jī)器翻譯技術(shù)從平行語料庫中學(xué)習(xí)從一種語言a到另一種語言b的短語翻譯。在翻譯新的句子時,把輸入語言a的句子分解成若干短語,根據(jù)學(xué)習(xí)來的短語(a語言)-短語(b語言)的共現(xiàn)概率,把語言a的句子翻譯成語言b的句子。整個學(xué)習(xí)、翻譯過程完全根據(jù)統(tǒng)計模型。
目前機(jī)器翻譯的預(yù)處理模塊功能不并完善,大多是在接收模塊接收之后進(jìn)行簡單的錯別字判斷、標(biāo)點預(yù)測之后即由翻譯模塊進(jìn)行訓(xùn)練和翻譯,這樣不僅增加了機(jī)器翻譯的難度,而且對于小概率詞語,翻譯模塊可能會出現(xiàn)翻譯不準(zhǔn)確的問題。
技術(shù)實現(xiàn)要素:
針對相關(guān)技術(shù)中的上述技術(shù)問題,本發(fā)明提出一種一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng)的預(yù)處理模塊,能夠克服現(xiàn)有技術(shù)的上述不足。
為實現(xiàn)上述技術(shù)目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng)的預(yù)處理模塊,所述預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,所述文本預(yù)處理模塊用于對文本輸入的語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注及語塊語序調(diào)整;所述語音識別結(jié)果預(yù)處理模塊用于對語音進(jìn)行單詞規(guī)范化操作和標(biāo)點預(yù)測。
進(jìn)一步的,所述文本預(yù)處理模塊包括單詞規(guī)范化子模塊,所述單詞規(guī)范化子模塊用于使待翻譯語言在詞語層面上更加接近目標(biāo)語言。
優(yōu)選的,當(dāng)待翻譯語言為中文,翻譯目標(biāo)語言是英語時,文本預(yù)處理模塊對中文進(jìn)行分詞,并在詞語間插入空格。
優(yōu)選的,當(dāng)待翻譯語言為德語,翻譯目標(biāo)語言是英語時,文本預(yù)處理模塊對德語中的復(fù)合詞進(jìn)行拆分,并增加德語與英語句子中詞語一對一的對應(yīng)關(guān)系。
進(jìn)一步的,所述文本預(yù)處理模塊還包括類別識別標(biāo)注子模塊,所述類別識別標(biāo)注子模塊用于對待翻譯語言文本中的數(shù)字、日期、時間、url分別標(biāo)注為$number,$date,$hour和$www,并預(yù)先將類別中的內(nèi)容翻譯成目標(biāo)語言。
進(jìn)一步的,所述文本預(yù)處理模塊還包括語塊語序調(diào)整子模塊,所述語塊語序調(diào)整子模塊用于對待翻譯語言的句子進(jìn)行語法分析,然后依據(jù)自動學(xué)習(xí)的規(guī)則對待翻譯語言的語塊順序進(jìn)行調(diào)整,使得待翻譯語言的語序更加接近目標(biāo)語言的語序。
優(yōu)選的,所述的語法分析包括短語的自動識別和/或語法樹的生成。
優(yōu)選的,所述待翻譯語言的句子經(jīng)過語塊語序調(diào)整子模塊調(diào)整語序后以最優(yōu)語序輸出,或者把若干個較優(yōu)語序以字格形式輸出。
進(jìn)一步的,所述的語音識別結(jié)果預(yù)處理模塊包括單詞規(guī)范化子模塊,所述單詞規(guī)范化子模塊用于使待翻譯語言句子中的詞語顆粒更加接近目標(biāo)語言的詞語。
優(yōu)選的,所述的語音識別結(jié)果預(yù)處理模塊還包括標(biāo)點預(yù)測子模塊,所述標(biāo)點預(yù)測子模塊用于根據(jù)上下文和詞語間的停頓判斷語音識別輸出中句號的位置。
本發(fā)明的有益效果:本發(fā)明的預(yù)處理模塊能夠?qū)Υg的文本語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注以及語塊語序調(diào)整等基本操作,方便后續(xù)翻譯模塊對待翻譯語言文本的翻譯;或者對語音語言進(jìn)行單詞規(guī)范化操作或者對語音流中的標(biāo)點進(jìn)行預(yù)測等預(yù)處理,方便后續(xù)機(jī)器翻譯模塊的翻譯;本發(fā)明預(yù)處理模塊對小概率詞語進(jìn)行標(biāo)注并優(yōu)先翻譯,能夠提高對小概率詞語翻譯的準(zhǔn)確性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例所述的文本預(yù)處理模塊的流程圖;
圖2是根據(jù)本發(fā)明實施例所述的語音識別結(jié)果預(yù)處理模塊的流程圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1-2所示,根據(jù)本發(fā)明實施例所述的一種多語言智能預(yù)處理實時統(tǒng)計機(jī)器翻譯系統(tǒng)的預(yù)處理模塊,所述預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,所述文本預(yù)處理模塊用于對文本輸入的語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注及語塊語序調(diào)整;所述語音識別結(jié)果預(yù)處理模塊用于對語音進(jìn)行單詞規(guī)范化操作和標(biāo)點預(yù)測。其中,所述文本預(yù)處理模塊包括單詞規(guī)范化子模塊、類別識別標(biāo)注子模塊和語塊語序調(diào)整子模塊,所述單詞規(guī)范化子模塊用于使待翻譯語言在詞語層面上更加接近目標(biāo)語言;所述類別識別標(biāo)注子模塊用于對待翻譯語言文本中的數(shù)字、日期、時間、url分別標(biāo)注為$number,$date,$hour和$www,并預(yù)先將類別中的內(nèi)容翻譯成目標(biāo)語言;所述語塊語序調(diào)整子模塊用于對待翻譯語言的句子進(jìn)行語法分析,然后依據(jù)自動學(xué)習(xí)的規(guī)則對待翻譯語言的語塊順序進(jìn)行調(diào)整,使得待翻譯語言的語序更加接近目標(biāo)語言的語序。所述的語音識別結(jié)果預(yù)處理模塊包括單詞規(guī)范化子模塊和,標(biāo)點預(yù)測子模塊;所述單詞規(guī)范化子模塊用于使待翻譯語言句子中的詞語顆粒更加接近目標(biāo)語言的詞語;所述標(biāo)點預(yù)測子模塊用于根據(jù)上下文和詞語間的停頓判斷語音識別輸出中句號的位置。
在一具體實施例中,當(dāng)待翻譯語言為中文,翻譯目標(biāo)語言是英語時,文本預(yù)處理模塊對中文進(jìn)行分詞,并在詞語間插入空格。
在一具體實施例中,當(dāng)待翻譯語言為德語,翻譯目標(biāo)語言是英語時,文本預(yù)處理模塊對德語中的復(fù)合詞進(jìn)行拆分,并增加德語與英語句子中詞語一對一的對應(yīng)關(guān)系。
在一具體實施例中,所述的語法分析包括短語的自動識別和/或語法樹的生成。
在一具體實施例中,所述待翻譯語言的句子經(jīng)過語塊語序調(diào)整子模塊調(diào)整語序后的句子以最優(yōu)語序輸出,或者把若干個較優(yōu)語序以字格形式輸出。
為了方便理解本發(fā)明的上述技術(shù)方案,以下通過具體使用方式上對本發(fā)明的上述技術(shù)方案進(jìn)行詳細(xì)說明。
在具體使用時,本發(fā)明的預(yù)處理模塊用于對待翻譯語言進(jìn)行若干操作,使其更加接近翻譯目標(biāo)語言,以便后續(xù)的機(jī)器翻譯模塊取得更好地翻譯質(zhì)量。預(yù)處理模塊包括文本預(yù)處理模塊和語音識別結(jié)果預(yù)處理模塊,文本預(yù)處理模塊主要由三部分組成,如附圖中圖1所示。b.1單詞規(guī)范化子模塊使得待翻譯語言a在詞語層面上更加接近翻譯目標(biāo)語言b:比如進(jìn)行中-英翻譯時,中文要進(jìn)行分詞,在詞語間插入空格,進(jìn)行德-英翻譯時,要對德語中的復(fù)合詞進(jìn)行拆分,增加德英句子中詞語一對一的對應(yīng)關(guān)系;b.2類別識別標(biāo)注子模塊把源語言a中的小概率詞語,例如數(shù)字、日期、時間、url分別標(biāo)注為對應(yīng)的類別$number,$date,$hour和$www,類別內(nèi)的內(nèi)容由規(guī)則預(yù)先翻譯成目標(biāo)語言b,后續(xù)的機(jī)器翻譯模塊不再對其進(jìn)行翻譯。b.3語塊語序調(diào)整子模塊首先對源語言a的句子進(jìn)行語法分析:進(jìn)行短語的自動識別或語法樹生成,然后依據(jù)自動學(xué)習(xí)的規(guī)則(基于短語的)對源語言的語塊順序進(jìn)行調(diào)整,使得源語言的語序更加接近目標(biāo)語言,經(jīng)過語塊語序調(diào)整子模塊調(diào)整語序后的句子可以以最優(yōu)語序輸出,也可以把若干個較優(yōu)語序以字格(lattice)形式輸出,該模塊為一個可選的模塊,根據(jù)源語言是否具備性能良好的語法分析器等來決定是否開啟該模塊。語音識別結(jié)果預(yù)處理模塊由兩部分組成,如附圖中圖2所示。b.4單詞規(guī)范化子模塊和b.1單詞規(guī)范化子模塊相似,也是在源語言的詞語層面上使待翻譯語言a的語言句子中的詞語顆粒更加接近翻譯目標(biāo)語言b的詞語;b.5標(biāo)點預(yù)測子模塊根據(jù)上下文和詞語間的停頓預(yù)測語音識別輸出中的句號位置,該子模塊為一可選模塊,主要用于比較接近書面語的語音識別翻譯中,例如用于對演講的翻譯。
其中,b.2類別識別標(biāo)注子模塊是基于雙語的半自動類別識別和翻譯。所謂半自動是指在雙語中在源語言上以人工的方式定義出需要識別的類別;然后根據(jù)平衡語料庫和詞語比對(wordalignment)自動學(xué)習(xí)出在另一種語言中對應(yīng)需要的類別和類別的翻譯。以英中翻譯為例,首先在英文上定義出需要識別的類別$number,$date,$hour,$www,每個類別的內(nèi)容可以包含若干的詞。然后在中文上識別出所有的數(shù)字,標(biāo)記為$bnumber,識別出和萬維網(wǎng)相關(guān)的詞www,http,.com等,標(biāo)記為$bwww,此處的$bnumber和$bwww為中文中類別的核心,在此核心的基礎(chǔ)上,還要包含進(jìn)前后的詞語,才能構(gòu)成最終和英文中類別相對應(yīng)的中文類別,包涵哪些前后詞語,我們通過詞語比對(wordalignment)自動抽取,在詞語比對中和英文類別邊界詞相對應(yīng)的中文詞,也可能是中文類別的邊界詞語,確定了中文類別的邊界詞語,抽取出來的中文類別內(nèi)容,也就隱含了對應(yīng)的英文類別的中文翻譯,我們從中學(xué)習(xí)英文類別到中文類別的翻譯規(guī)則。例如:
$number{2個}→$number{2}
$number{2成}→$number{20%}
$number{第2}→$number{2nd}
改種方法提取出的規(guī)則更佳符合數(shù)據(jù)的實際情況,降低了人工定義的規(guī)則在實際應(yīng)用中產(chǎn)生的錯誤,和傳統(tǒng)在兩種語言上分別定義類別和規(guī)則相比,提高了效率;而且也不要求規(guī)則制定人同時熟悉兩種語言;還大大降低了在兩種語言上的規(guī)則的不匹配率,從而提高了機(jī)器翻譯質(zhì)量。
b.3語塊語序調(diào)整子模塊在統(tǒng)計翻譯系統(tǒng)中語序調(diào)整方面加入了語法的限制。當(dāng)一種語言翻譯成另一種語言時,由于語法的不同,表達(dá)習(xí)慣的不同,詞語表達(dá)的順序經(jīng)常有所差別,在完成翻譯時,除了要把詞語或短語翻譯成另一種語言,還要把翻譯的短語放到合適的位置。在統(tǒng)計翻譯系統(tǒng)中,其基本單位-短語-是任意詞串,并不要求其符合語法結(jié)構(gòu),這導(dǎo)致挪動的語塊再拼接起來經(jīng)常產(chǎn)生很奇怪的翻譯,本發(fā)明在預(yù)處理階段通過淺層句法分析引入了符合語法規(guī)則的短語的信息,在后續(xù)的短語位置挪動步驟,只把符合語法約束的短語進(jìn)行挪動,從而提高了翻譯結(jié)果的正確性和流暢度。
其具體步驟為:
對源語言進(jìn)行淺層句法分析,生成np(名詞短語)、vp(動詞短語)、pp(介詞短語)等語法信息;
通過詞語比對(wordalignment)學(xué)習(xí)詞序調(diào)整規(guī)則,并每條規(guī)則的概率,學(xué)習(xí)到的規(guī)則,例如:
dnpnpvp–>dnpnpvp(0.89)
dnpnpvp–>npdnpvp(0.11)
即短語序列dnpnpvp短語順序不變的概率為0.89,變?yōu)閚pdnpvp的概率為0.11;
應(yīng)用這些規(guī)則到源語言輸入句子上,不同的規(guī)則組合應(yīng)用產(chǎn)生不同短語序列變化,所有的這些變化以字格(lattice)形式表示出來,根據(jù)規(guī)則的概率,計算出字格中的每條路徑的概率,從而找出最優(yōu)路徑,或?qū)⒄麄€字格網(wǎng)絡(luò)作為后續(xù)機(jī)器翻譯模塊的新的輸入。
綜上所述,借助于本發(fā)明的上述技術(shù)方案,本發(fā)明的預(yù)處理模塊能夠?qū)Υg的文本語言進(jìn)行單詞規(guī)范化操作、類別識別標(biāo)注以及語塊語序調(diào)整等基本操作,方便后續(xù)翻譯模塊對待翻譯語言文本的翻譯;或者對語音語言進(jìn)行單詞規(guī)范化操作或者對語音流中的標(biāo)點進(jìn)行預(yù)測等預(yù)處理,方便后續(xù)機(jī)器翻譯模塊的翻譯;本發(fā)明預(yù)處理模塊對小概率詞語進(jìn)行標(biāo)注并優(yōu)先翻譯,能夠提高對小概率詞語翻譯的準(zhǔn)確性。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。