短句切分裝置、機器翻譯系統(tǒng)及對應(yīng)切分方法和翻譯方法
【專利摘要】本申請?zhí)峁┮环N短句切分的裝置和包括該裝置的機器翻譯系統(tǒng),該裝置包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓(xùn)練單元;短句粗切分單元,用于將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列;短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料;最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料;短句切分訓(xùn)練單元,用于利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
【專利說明】短句切分裝置、機器翻譯系統(tǒng)及對應(yīng)切分方法和翻譯方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù),更具體地,涉及一種短句切分方法及裝置、機器翻譯的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著科技的進(jìn)步,國際交流的日益繁雜和信息量急劇增加,不同語言之間的障礙所導(dǎo)致的信息問題越來越影響溝通的效率,通過計算機來處理不同語言文本的互譯,突破語言障礙,是機器翻譯研究的重要課題。目前的機器翻譯以統(tǒng)計方法為主,而詞對齊是現(xiàn)有統(tǒng)計方法的基礎(chǔ),詞對齊的好壞決定了翻譯質(zhì)量的好壞。
[0003]另外,在自然語言處理的機器翻譯過程中,一般把自然語言句子作為基本分析單位,現(xiàn)有方法的處理的時空復(fù)雜度一般都和句子長度高度相關(guān)。在處理長句子的時候,會導(dǎo)致指數(shù)級的時空消耗,很多復(fù)雜的模型將無法高效使用。因此,為保證時間、空間可行性,經(jīng)常會降低到較為簡單的模型上,從而帶來質(zhì)量性能的下降。
[0004]為了減少句長帶來的處理難度,有的現(xiàn)有方法將標(biāo)點作為切分點,對句子進(jìn)行統(tǒng)一切分,但是經(jīng)常會在不應(yīng)該斷句的地方將句子切斷,導(dǎo)致后續(xù)的處理步驟性能下降。
[0005]目前公開可用的對齊工具仍然是GIZA++,但是對于句子比較長的情況,其規(guī)劃路徑太多,復(fù)雜度會非常高,處理時間會大大增加。所以,有必要對于句子進(jìn)行優(yōu)化的切分,并且對齊在一個可靠的較小范圍內(nèi)進(jìn)行搜索和匹配,才能保證一定精度情況下縮短處理時間,或者才能保證整個翻譯的精度,進(jìn)而提高翻譯效率。
【發(fā)明內(nèi)容】
[0006]為克服現(xiàn)有的在處理長句時時間空間消耗嚴(yán)重、性能不夠高的缺陷,本發(fā)明提出一種短句切分方法及裝置以及機器翻譯的方法和系統(tǒng)。
[0007]根據(jù)本發(fā)明的一個方面,提出了一種短句切分的裝置,包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓(xùn)練單元;其中,短句粗切分單元,用于將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列;其中,短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料;其中,最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料;其中,短句切分訓(xùn)練單元,用于利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
[0008]根據(jù)本發(fā)明的另一方面,提出了一種機器翻譯系統(tǒng),包括短句切分模塊、翻譯模塊、譯文合并模塊、模型生成模塊和短句切分模型訓(xùn)練模塊;其中,短句切分模塊,用于基于短句切分模型訓(xùn)練模塊得到的短句切分模型,對待翻譯文本句子進(jìn)行短句切分,生成短句序列;其中,模型生成模塊,用于基于短句切分模型訓(xùn)練模塊得到的雙語平行短句對齊語料來訓(xùn)練生成翻譯模型;其中,短語翻譯模塊,用于利用模型生成模塊生成的翻譯模型對待翻譯文本進(jìn)行翻譯;譯文合并模塊,用于將短語翻譯模塊獲得的對應(yīng)一個整句的短句序列的譯文進(jìn)行合并,以形成完整譯文;其中,短句切分模型訓(xùn)練模塊,用于訓(xùn)練短句切分模型,供短句切分模塊使用。
[0009]根據(jù)本發(fā)明的又一方面,提供一種短句切分方法,包括:步驟1,將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列;步驟2,將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料;步驟3,將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料;步驟4,利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
[0010]根據(jù)本發(fā)明的又一方面,提供一種機器翻譯方法,包括:步驟1,訓(xùn)練短句切分模型,對待翻譯文本句子進(jìn)行短句切分,生成短句序列;步驟2,基于雙語平行短句對齊語料來訓(xùn)練生成翻譯模型;步驟3,利用翻譯模型對待翻譯文本進(jìn)行翻譯;步驟4,將翻譯獲得的對應(yīng)一個整句的短句序列的譯文進(jìn)行合并,以形成完整譯文。
[0011]本發(fā)明通過采用短句切分裝置對待翻譯文本進(jìn)行短句切分,可以減少句長帶來的處理難度,有效提高翻譯的精度。同時,利用一對一短句句對齊語料訓(xùn)練短句切分模型,可以智能識別句子該切斷的標(biāo)點,有效提高后續(xù)的處理步驟的性能,進(jìn)而通過翻譯系統(tǒng)提高翻譯效率,增加翻譯的精確性。
【專利附圖】
【附圖說明】
[0012]圖1為根據(jù)本發(fā)明的機器翻譯系統(tǒng)的結(jié)構(gòu)示意框圖;
[0013]圖2為根據(jù)本發(fā)明的最小對齊塊合并方法的示例圖;
[0014]圖3為根據(jù)本發(fā)明的短句切分方法的流程圖;
[0015]圖4為根據(jù)本發(fā)明的雙語短句平行語料生成方法的流程圖;
[0016]圖5為根據(jù)本發(fā)明的機器翻譯方法的第一實施例的流程圖;
[0017]圖6為根據(jù)本發(fā)明的機器翻譯方法的第二實施例的流程圖。
[0018]如圖所示,為了能明確實現(xiàn)本發(fā)明的實施例的結(jié)構(gòu),在圖中標(biāo)注了特定的結(jié)構(gòu)和器件,但這僅為示意需要,并非意圖將本發(fā)明限定在該特定結(jié)構(gòu)、器件和環(huán)境中,根據(jù)具體需要,本領(lǐng)域的普通技術(shù)人員可以將這些器件和環(huán)境進(jìn)行調(diào)整或者修改,所進(jìn)行的調(diào)整或者修改仍然包括在后附的權(quán)利要求的范圍中。
【具體實施方式】
[0019]下面結(jié)合附圖和具體實施例對本發(fā)明提供的一種短句切分方法及裝置、雙語短句平行語料生成的方法和系統(tǒng)、機器翻譯的方法和系統(tǒng)進(jìn)行詳細(xì)描述。
[0020]在以下的描述中,將描述本發(fā)明的多個不同的方面,然而,對于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,可以僅僅利用本發(fā)明的一些或者全部結(jié)構(gòu)或者流程來實施本發(fā)明。為了解釋的明確性而言,闡述了特定的數(shù)目、配置和順序,但是很明顯,在沒有這些特定細(xì)節(jié)的情況下也可以實施本發(fā)明。在其他情況下,為了不混淆本發(fā)明,對于一些眾所周知的特征將不再進(jìn)行詳細(xì)闡述。
[0021]本發(fā)明提供了一種短句切分的裝置,如圖1所示,在圖1的示例中,該短句切分裝置可以是所示的短句切分模型訓(xùn)練模塊105,該短句切分裝置包括順序相連的短句粗切分單元1051、短句句對齊單元1052、最小對齊塊合并單元1053和短句切分訓(xùn)練單元1054。
[0022]其中,短句粗切分單元1051,用于將雙語語料中的每個句子單獨按照以標(biāo)點為潛在切分點,結(jié)合人工規(guī)則排查進(jìn)行切分,形成一個短句序列。雙語語料中的兩種語言句子做單獨處理。所述人工規(guī)則包括長度限制法以及慣用習(xí)語排查法兩種策略。
[0023]在本實施例中,長度限制法是指,如果某一短句的結(jié)尾標(biāo)點是句中標(biāo)點(SP:逗號等)而且長度低于η (η優(yōu)選為4),則不在此處切分。所述慣用習(xí)語排查法主要基于慣用習(xí)語表,如果所要切分出的短句在慣用習(xí)語表中,則不作為短句在此處切分。所述慣用習(xí)語表是利用短句語料庫進(jìn)行高頻短句統(tǒng)計所獲得的最高頻m(m優(yōu)選為100)個短句組成。
[0024]其中,短句句對齊單元1052,用于將從短句粗切分單元1051獲得的互相對應(yīng)的一對一雙語短句序列進(jìn)行句對齊,形成多對多的短句對齊語料。
[0025]例如,下面的一對雙語短句序列:
[0026]示例中文短句序列I = C1C2C3.....Cn
[0027]示例英文短句序列2: G1G2G3.....em
[0028]其中,C1至cn、θι至em分別為短句序列I和短句序列2中的各個短句。短句句對齊單元1052的輸出是短句之間的對齊關(guān)系,比如(C1, ei) ; (c2c3, e2) ;...(cn, em)。短句之間的對齊關(guān)系可以是多對多形式。
[0029]在本實施例中,可采用綜合長度和詞典的方法進(jìn)行短句句對齊。由于該方法屬于現(xiàn)有技術(shù),在此不再做具體介紹。除此之外,本發(fā)明并不限定具體的句對齊方法,采用其他的句對齊方法并不影響本發(fā)明的實施。
[0030]其中,最小對齊塊合并單元1053,用于將短句句對齊單元1052處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料。所述最小對齊塊合并單元所采用的最小對齊塊合并方法是:第一語言短句塊和其所對齊的第二語言短句塊都被包含,反過來依然,且兩者都包含最少的短句。
[0031]其中,在合并過程中,只保留有對齊關(guān)系的短句。為使得合并獲得的對齊語料粒度盡量小,采用最小對齊塊合并方法。所述最小對齊塊合并方法指在將相互對齊的雙語短句子序列合并時,在保證滿足對齊關(guān)系的情況下,兩端短句子序列包含的短句數(shù)均最少,公式表達(dá)如下:
【權(quán)利要求】
1.一種短句切分的裝置,包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓(xùn)練單元; 其中,短句粗切分單元,用于將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列; 其中,短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料; 其中,最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料; 其中,短句切分訓(xùn)練單元,用于利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述最小對齊塊合并單元處理過的、具有最小對齊塊的對齊語料中,第一語言短句塊和其所對齊的第二語言短句塊都被包含,反之亦然,且兩者都包含最少的短句。
3.根據(jù)權(quán)利要求 2所述的裝置,其中,所述最小對齊塊合并單元在合并過程中只保留有對齊關(guān)系的短句;所述最小對齊塊合并單元將相互對齊的雙語短句子序列合并時,在保證滿足對齊關(guān)系的情況下兩端短句子序列包含的短句數(shù)均最少。
4.根據(jù)權(quán)利要求2所述的裝置,其中,所述最小對齊塊合并單元還用于將相鄰的短句對齊句對進(jìn)行組合擴展,以形成粒度更大的句對齊語料。
5.—種機器翻譯系統(tǒng),包括短句切分模塊、翻譯模塊、譯文合并模塊、模型生成模塊和短句切分模型訓(xùn)練模塊; 其中,短句切分模塊,用于基于短句切分模型訓(xùn)練模塊得到的短句切分模型,對待翻譯文本句子進(jìn)行短句切分,生成短句序列; 其中,模型生成模塊,用于基于短句切分模型訓(xùn)練模塊得到的雙語平行短句對齊語料來訓(xùn)練生成翻譯模型; 其中,翻譯模塊,用于利用模型生成模塊生成的翻譯模型對待翻譯文本進(jìn)行翻譯;譯文合并模塊,用于將翻譯模塊獲得的對應(yīng)一個整句的短句序列的譯文進(jìn)行合并,以形成完整譯文; 其中,短句切分模型訓(xùn)練模塊,用于訓(xùn)練短句切分模型,供短句切分模塊使用。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,短句切分模型訓(xùn)練模塊包括順序相連的短句粗切分單元、短句句對齊單元、最小對齊塊合并單元和短句切分訓(xùn)練單元; 其中,短句粗切分單元,用于將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列; 其中,短句句對齊單元,用于將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料; 其中,最小對齊塊合并單元,用于將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料; 其中,短句切分訓(xùn)練單元,用于利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述最小對齊塊合并單元在合并過程中只保留有對齊關(guān)系的短句;所述最小對齊塊合并單元將相互對齊的雙語短句子序列合并時,在保證滿足對齊關(guān)系的情況下兩端短句子序列包含的短句數(shù)均最少。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,短句切分模塊還用于將輸入的短句切分結(jié)果進(jìn)行組合擴展,以構(gòu)成多種待翻譯句子的短句切分結(jié)果。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述翻譯模型由通過最小對齊塊合并單元獲取平行語料的方式所獲取的訓(xùn)練語料訓(xùn)練得到。
10.一種短句切分方法,包括: 步驟1,將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列; 步驟2,將從短句粗切分單元獲得的一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料; 步驟3,將短句句對齊單元處理過的短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料; 步驟4,利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
11.根據(jù)權(quán)利要求10所述的方法,其中,在步驟I中,將雙語語料中的每個句子按照以標(biāo)點為潛在切分點,結(jié)合長度限制法和慣用習(xí)語排查法進(jìn)行切分,形成一個短句序列。
12.根據(jù)權(quán)利要求10的方法,其中,在步驟3中,對于步驟2輸出的多對多形式的短句句對齊語料,對一對多、多對一和多對多的情況進(jìn)行合并,同時刪除未與任何句子對齊的句子,將結(jié)果合并形成具有一對一形式的對齊語料庫。
13.根據(jù)權(quán)利要求12的方`法,其中,步驟3進(jìn)一步包括,對于相互對齊的雙語短句序列,在保證滿足對齊關(guān)系的情況下,兩端短句子序列包含的短句數(shù)均最少。
14.根據(jù)權(quán)利要求10的方法,其中,在步驟4中,基于短句切分模型對輸入的整句進(jìn)行切分,通過對輸入整句中的每個詞進(jìn)行二元標(biāo)注,根據(jù)標(biāo)注結(jié)果來確定短句切分邊界。
15.—種機器翻譯方法,包括: 步驟1,訓(xùn)練短句切分模型,對待翻譯文本句子進(jìn)行短句切分,生成短句序列; 步驟2,基于雙語平行短句對齊語料來訓(xùn)練生成翻譯模型; 步驟3,利用翻譯模型對待翻譯文本進(jìn)行翻譯; 步驟4,將翻譯獲得的對應(yīng)一個整句的短句序列的譯文進(jìn)行合并,以形成完整譯文。
16.根據(jù)權(quán)利要求15所述的方法,其中,步驟I包括: 步驟11,將雙語語料中的每個句子單獨以標(biāo)點進(jìn)行切分,形成一對一的雙語短句序列; 步驟12,短句句對齊單元,用于將一對一的雙語短句序列進(jìn)行句對齊,形成具有對齊關(guān)系的短句句對齊語料; 步驟13,將短句句對齊語料進(jìn)行最小對齊塊合并,成為一對一的對齊語料; 步驟14,利用一對一短句句對齊語料來訓(xùn)練短句切分模型,使用訓(xùn)練后的短句切分模型對輸入的整句進(jìn)行短句切分。
17.根據(jù)權(quán)利要求16所述的方法,其中,步驟13還包括: 在合并過程中只保留有對齊關(guān)系的短句;將相互對齊的雙語短句子序列合并時,在保證滿足對齊關(guān)系的情況下兩端短句子序列包含的短句數(shù)均最少。
18.根據(jù)權(quán)利要求15所述的方法,其中,步驟11還包括將輸入的短句切分結(jié)果進(jìn)行組合擴展,以構(gòu)成多種待翻譯句子的短句切分結(jié)果。
19.根據(jù)權(quán)利要求15所述的方法,其中,步驟2中,所述翻譯模型通過獲取平行語料的方式所輸出的訓(xùn)練語料訓(xùn)練得到。
20.根據(jù)權(quán)利 要求18所述的方法,其中,步驟4還包括對不同組合擴展獲得的譯文進(jìn)行譯文后選擇,確定最終譯文。
【文檔編號】G06F17/27GK103530284SQ201310432908
【公開日】2014年1月22日 申請日期:2013年9月22日 優(yōu)先權(quán)日:2013年9月22日
【發(fā)明者】任智軍, 張威, 蔣宏飛, 熊文, 姜濤, 張凱 申請人:中國專利信息中心