專利名稱:一種復(fù)述資源獲取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別是涉及ー種復(fù)述資源獲取方法及系統(tǒng)。
背景技術(shù):
機器翻譯(Machine Translation),又稱為自動翻譯,是利用計算機把ー種自然源語言轉(zhuǎn)變?yōu)榱愆`種自然目標語言的過程,一般應(yīng)用于兩種自然語言之間的整句或全文的翻譯。統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)是機器翻譯的一種,也是目前非限定領(lǐng)域機器翻譯中性能較佳的ー種方法。統(tǒng)計機器翻譯的基本思想是:通過對一定數(shù)量的平行語料(bilingual corpus也稱雙語互譯語料)進行統(tǒng)計分析,然后通過訓(xùn)練來構(gòu)建統(tǒng)計翻譯模型,進而使用此模型進行翻譯。目前,機器翻譯已經(jīng)從早期基于詞的翻譯逐漸過渡到基于短語的翻譯,并正在融合語義信息,以進ー步提高翻譯的智能性和精確性。在對機器翻譯的研究過程中,目前討論得較為廣泛的ー種技術(shù)是復(fù)述(paraphrases)技木。復(fù)述泛指對相同語義的不同表達形式,是人類語言中的ー種普遍現(xiàn)象。研究表明,復(fù)述可以在多個方面改善翻譯系統(tǒng)的性能。例如,基于復(fù)述技術(shù),可以解決在復(fù)述過程中遇到的生僻短語復(fù)述為同義的常用短語,從而提高翻譯系統(tǒng)覆蓋率;復(fù)述技術(shù)還可以對待翻譯文本的句式進行改寫,生成更適合翻譯系統(tǒng)處理的句子,從而降低翻譯系統(tǒng)的處理難度。利用復(fù)述進行機器翻譯,需要有足夠的復(fù)述資源作為支持。這里所說的復(fù)述資源,包括粒度較大的復(fù)述句,也包括粒度較小的復(fù)述短語或復(fù)述規(guī)則。其中,復(fù)述句可以直接用作基于統(tǒng)計的復(fù)述生成的訓(xùn)練語料,也可以用于進ー步抽取復(fù)述短語和復(fù)述規(guī)則?,F(xiàn)有技術(shù)中,用來獲得復(fù)述資源的主要方法是:從潛在存在復(fù)述資源的特定數(shù)據(jù)中提取復(fù)述資源,例如:針對同一主題事件的不同新聞報導(dǎo)等等。這種方法的缺陷一方面在于可用的資源數(shù)量較少;另一方面,在提取復(fù)述資源時,需要利用文本聚類、相似度計算等技術(shù)找到相對應(yīng)的文本資源,然后構(gòu)成可能的復(fù)述資源。不僅實現(xiàn)復(fù)雜,而且最終獲取的復(fù)述資源受聚類誤差等因素影響,往往含有大量噪聲,準確率較低,難以滿足機器翻譯系統(tǒng)的實際需要。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本申請實施例提供一種復(fù)述資源獲取方法及系統(tǒng),以獲取較高質(zhì)量的復(fù)述資源,技術(shù)方案如下:一種復(fù)述資源獲取方法,包括:預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;利用sys_AB對a0進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2 ;利用sys_BA對b0進行翻譯,得到al ;以a0為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’ );在bl中獲取與a2’對應(yīng)的句子集合bl’、在b0中獲取與al’對應(yīng)的句子集合b0’,得到第二語言的復(fù)述句對集合(b0’,bl’ )。在本申請的ー種實施方式中,上述方法進ー步包括:從復(fù)述句對集合(b0’,bl’ )中提取復(fù)述規(guī)則。在本申請的ー種實施方式中,所述從復(fù)述句對集合(b0’,bl’ )中提取復(fù)述規(guī)則,包括:建立b0’到bl’中句子的詞對齊關(guān)系;對所建立的詞對齊關(guān)系進行過濾;從過濾結(jié)果中提取復(fù)述規(guī)則。在本申請的ー種實施方式中,所述建立b0’到bl’中句子的詞對齊關(guān)系,包括:根據(jù)平行語料(a0,b0)的詞對齊關(guān)系,以及sys_AB在翻譯過程中建立的a0與bl的詞對齊關(guān)系,建立b0’到bl’中句子的詞對齊關(guān)系。在本申請的ー種實施方式中,所述對所建立的詞對齊關(guān)系進行過濾,包括:根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,其中,所述詞對齊規(guī)則包括:如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系;和/或停用詞及標點僅與停用詞或標點具有對齊關(guān)系。在本申請的ー種實施方式中,所述從過濾結(jié)果中提取復(fù)述規(guī)則,包括:根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,所述復(fù)述規(guī)則約束條件包括:每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式;復(fù)述規(guī)則左端和右端都由非變量和變量組成,或左端和右端都僅包括非變量;復(fù)述規(guī)則左端的變量之間至少有一個非變量。在本申請的ー種實施方式中,所述翻譯系統(tǒng)sys_AB和sys_BA,是利用平行語料(a0,b0)訓(xùn)練得到。一種復(fù)述資源獲取系統(tǒng),包括:初始設(shè)置単元,用于預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;第一翻譯單元,用于利用sys_AB對a0進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2;第二翻譯單元,用于利用sys_BA對b0進行翻譯,得到al ;翻譯質(zhì)量評價單元,用于以a0為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’);復(fù)述句對獲取單元,用于在bl中獲取與a2’對應(yīng)的句子集合bl’、在b0中獲取與al’對應(yīng)的句子集合b0’,得到第二語言的復(fù)述句對集合(b0’,bl’)。
在本申請的ー種實施方式中,上述系統(tǒng)進ー步包括:復(fù)述規(guī)則提取単元,用于從復(fù)述句對集合(b0’,bl’ )中提取復(fù)述規(guī)則。在本申請的ー種實施方式中,所述復(fù)述規(guī)則提取単元,包括:詞對齊子単元,用于建立b0’到bl’中句子的詞對齊關(guān)系;詞對齊過濾子単元,用于對所述詞對齊子單元所建立的詞對齊關(guān)系進行過濾;復(fù)述規(guī)則提取子単元,用于從所述詞對齊過濾子単元的過濾結(jié)果中提取復(fù)述規(guī)貝1J。在本申請的ー種實施方式中,所述詞對齊子單元,具體配置為:用于根據(jù)平行語料(a0,b0)的詞對齊關(guān)系,以及sys_AB在翻譯過程中建立的a0與bl的詞對齊關(guān)系,建立b0’到bl’中句子的詞對齊關(guān)系。在本申請的ー種實施方式中,所述詞對齊過濾子単元,具體配置為:用于根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,其中,所述根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,包括:如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系;和/或停用詞及標點僅與停用詞或標點具有對齊關(guān)系。在本申請的ー種實施方式中,所述復(fù)述規(guī)則提取子単元,具體配置為:用于根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,所述復(fù)述規(guī)則約束條件包括:每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式;復(fù)述規(guī)則左端和右端都由非變量和變量組成,或左端和右端都僅包括非變量;復(fù)述規(guī)則左端的開頭和結(jié)尾均為非變量;復(fù)述規(guī)則左端的變量之間至少有一個非變量。在本申請的ー種實施方式中,所述初始設(shè)置單元,具體配置為:用于利用平行語料(a0,bO)訓(xùn)練得到翻譯系統(tǒng)sys_AB和sys_BA。應(yīng)用本申請實施例所提供的技術(shù)方案,可以利用已有的平行語料來獲取復(fù)述資源,從而大大增加了可用資源的數(shù)量。此外,相對于“潛在存在”復(fù)述資源的數(shù)據(jù)而言,平行語料本身質(zhì)量較高,有利于獲得準確率更高的復(fù)述資源。而且本申請方案是根據(jù)翻譯系統(tǒng)自身的翻譯結(jié)果獲取復(fù)述資源,最終得到的翻譯資源也可以更加適用于翻譯系統(tǒng)。
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的ー些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請實施例復(fù)述資源獲取方法的流程圖;圖2為本申請實施例步驟S102的翻譯過程示意圖3為本申請實施例步驟S103的翻譯過程示意圖;圖4為本申請實施例復(fù)述資源獲取方法的另ー種流程圖;圖5為本申請實施例從復(fù)述句對提取復(fù)述規(guī)則的方法流程圖;圖6為本申請實施例詞對齊關(guān)系過濾的示意圖;圖7為本申請實施例復(fù)述資源獲取系統(tǒng)的結(jié)構(gòu)示意圖;圖8為本申請實施例復(fù)述資源獲取系統(tǒng)的另一種結(jié)構(gòu)示意圖;圖9為本申請實施例復(fù)述規(guī)則提取單元的結(jié)構(gòu)示意圖。
具體實施例方式首先對本申請實施例所提供的一種復(fù)述資源獲取方法進行說明,該方法可以包括以下步驟:預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,bO),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;利用sys_AB對a0進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2 ;利用sys_BA對bO進行翻譯,得到al ;以a0為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’ );在bl中獲取與a2’對應(yīng)的句子集合bl’、在bO中獲取與al’對應(yīng)的句子集合bO’,得到第二語言的復(fù)述句對集合(b0’,bl’ )。應(yīng)用本申請實施例所提供的技術(shù)方案,可以利用已有的平行語料來獲取復(fù)述資源,從而大大增加了可用資源的數(shù)量。此外,相對于“潛在存在”復(fù)述資源的數(shù)據(jù)而言,平行語料本身質(zhì)量較高,有利于獲得準確率更高的復(fù)述資源。而且本申請方案是根據(jù)翻譯系統(tǒng)自身的翻譯結(jié)果獲取復(fù)述資源,最終得到的翻譯資源也可以更加適用于翻譯系統(tǒng)。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行詳細地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應(yīng)當屬于本申請保護的范圍。圖1所示為申請一種復(fù)述資源獲取方法的流程圖,該方法可以包括以下步驟:SlOl,預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;本申請方案是以獲取第二語言B的復(fù)述資源為目標,首先從現(xiàn)有的語料庫中獲得第一語言A和第二語言B之間的平行語料,其中,語料庫可以是雙語語料庫,也可以是包含第一語言與第二語言的多語語料庫(即包含三種以上語言互譯語料的語料庫),本發(fā)明實施例對此并不需要進行限定。另外,為實現(xiàn)本申請方案,還需要A到B和B到A的兩套翻譯系統(tǒng)。這兩套翻譯系統(tǒng)可以直接采用任何現(xiàn)有的機器翻譯系統(tǒng)。也可以利用前面獲取的A與B之間的平行語料訓(xùn)練得到。在本實施例中,將以第一語言A為英文,第ニ語言B為中文為例進行說明:首先獲取英-中雙語平行語料(aO,bO),其中,aO和bO分別表示平行語料中英文句子和中文句子的集合,兩個集合中的句子存在一一對應(yīng)的互譯關(guān)系。進ー步還需要一套中英翻譯系統(tǒng)sys_BA以及ー套英中翻譯系統(tǒng)sys_AB,這里可以基于平行語料(a0,bO)分別訓(xùn)練兩個方向的翻譯系統(tǒng),也可以直接采用已有的翻譯系統(tǒng)。S102,利用sys_AB對aO進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2 ;在本步驟中,共需要進行兩次翻譯:首先利用sys_AB對aO中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為中文句子的集合bl ;其中,bl與aO中的句子數(shù)量是相同的。然后利用sys_BA對bl中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為英文句子的集合a2。其中,a2與bl中的句子數(shù)量是相同的。上述過程的示意圖可參見圖2所示。S103,利用sys_BA對bO進行翻譯,得到al ;在本步驟中,需要進行一次翻譯:利用sys_BA對bO中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為英文句子的集合al ;其中,bO與al中的句子數(shù)量是相同的。上述過程的示意圖 可參見圖3所示。S104,以aO為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’ );通過步驟S102和S103,分別得到了兩組英文句子的集合a2和al,并且,aO、bO、al、bl、a2中的句子數(shù)量都是相同的。根據(jù)前面的步驟可知,在aO中的每個句子,在a2和al中都存在一個對應(yīng)的句子。假設(shè)aO中存在句子X、相應(yīng)地在bO中存在X的互譯句子y,那么X經(jīng)過英中、中英兩次翻譯以后得到的結(jié)果即為X在a2中的對應(yīng)句子,而y經(jīng)過一次中英翻譯后得到的結(jié)果即為X在al中的對應(yīng)句子。以aO中的原始句子為標準,分別對a2和al中對應(yīng)句子的翻譯質(zhì)量進行評價,這里可以采用常用的BLEU、NIST、WER、PER等自動評價標準,這里的評價得分表示翻譯的效果。對于BLEU、NIST等方法,評價的得分越高,說明譯文和原文相似度越高,進而可以認為翻譯效果越好,而WER、PER等方法是基于錯誤率(ER, Error Rate)的,錯誤率越低說明翻譯效果越好,因此,如果使用WER等方法,那么錯誤率較低的情況下相應(yīng)能夠獲得較高的評價得分。在本步驟中,對于aO中的任意句子,如果其在a2中的對應(yīng)句子比在al中的對應(yīng)句子獲得了更高的評價得分,則把a2和al中相應(yīng)的句子保留下來,在遍歷所有句子后,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’ )。其中a2’和al’中所包含的句子數(shù)量相同,并且在一般情況下,這個數(shù)量應(yīng)該小于aO中的句子數(shù)量。S105,在bl中獲取與a2’對應(yīng)的句子集合bl’、在bO中獲取與al’對應(yīng)的句子集合bo’,得到第二語言的復(fù)述句對集合(bo’,br )。由于a2’是a2的子集,并且a2是由bl--翻譯得到,因此在bl中必然也存在著
子集bl’與a2’——對應(yīng);同理,在b中必然也存在著子集bl’與a2’——對應(yīng)。獲取bl’和bo’后,進ー步構(gòu)成句對的集合(bo’,br ),該集合即為需要獲取的復(fù)述句對集合。在上述方案中,(b0,bl)中對應(yīng)的句子本身是可以構(gòu)成復(fù)述句對的,但是為了獲取高質(zhì)量,尤其是能提高機器翻譯系統(tǒng)翻譯質(zhì)量的復(fù)述句對,在方案中又對(b0,bl)做了進一步的篩選處理:相對于原始的英文語料a0,通過不同的翻譯途徑分別得到了英文語料a2和al,由于翻譯過程bl — a2和翻譯過程b0 — al使用的是同一個中英翻譯系統(tǒng)sys_BA,所以可以認為翻譯結(jié)果的差異完全是由輸入的差異造成的,那么造成a2’中的句子得分超過al’的原因是:輸入的句子集合b0’比bl’更適合sys_BA的翻譯。因此利用b0’和bl’構(gòu)成復(fù)述句對的集合,在以后的B —A中英翻譯過程中,利用b0’ 一 bl’的復(fù)述關(guān)系,就可以將翻譯系統(tǒng)不擅長翻譯中文形式改寫為擅長的形式,從而提高翻譯系統(tǒng)覆蓋率,降低翻譯系統(tǒng)的處理難度。對于已獲取的復(fù)述句對資源,還可以進ー步從中提取復(fù)述規(guī)則,參見圖4所示,在本申請的另一個實施例中,所提供的復(fù)述規(guī)則提取方法包括以下步驟:S101,預(yù)先獲得第一語目A和第二語目B之間的平行語料(aO,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;S102,利用sys_AB對aO進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2 ;S103,利用sys_BA對b0進行翻譯,得到al ;S104,以aO為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’ );S105,在bl中獲取與a2’對應(yīng)的句子集合bl’、在b0中獲取與al’對應(yīng)的句子集合bo’,得到第二語言的復(fù)述句對集合(bo’,br )。S106,從復(fù)述句對集合(b0’,bl’ )中提取復(fù)述規(guī)則。與上一實施例相比,在本實施例中,進ー步増加了復(fù)述句對集合中提取復(fù)述規(guī)則的步驟S106,參見圖5所示,該步驟具體又可以如下子步驟:S106a,建立b0’到bl’中句子的詞對齊關(guān)系;在本步驟中,可以直接對b0’與bl’中的詞進行自動對齊處理,也可以利用已經(jīng)具有的aO與b0的詞對齊關(guān)系、以及aO與bl的詞對齊關(guān)系,進ー步得到b0與bl的詞對齊關(guān)系,由于b0’與bl’分別是b0與bl的子集,因而也就能夠進一歩得到b0’與bl’的詞對齊關(guān)系。S106b,對所建立的詞對齊關(guān)系進行過濾;在S106a所自動建立的對齊關(guān)系,有一部分并不適合進行后續(xù)的復(fù)述規(guī)則提取,因此,可以根據(jù)一定的詞對齊規(guī)則,對所建立的對齊關(guān)系做進ー步的過濾,其中,可用的規(guī)則可以包括以下一種或幾種的組合:I)如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系;如圖6左側(cè)所示,復(fù)述句對中,“我喜歡”和“我愛”具有交叉對齊關(guān)系,這是自動對齊處理的結(jié)果。由于復(fù)述句對都是同一種語言,因此兩個句子中的“我”是具有確定對齊關(guān)系的,這樣就可以刪除兩個“我”的其他對齊關(guān)系,過濾結(jié)果如圖6右側(cè)所示。2)停用詞及標點僅與停用詞或標點具有對齊關(guān)系。
如果在自動對齊結(jié)果中,存在停用詞與標點與非停用詞或標點的對齊關(guān)系,則刪除這些關(guān)系,僅保留停用詞及標點與停用詞或標點之間的對齊關(guān)系。當然,除上述兩種規(guī)則之外,本領(lǐng)域技術(shù)人員還可以利用其他的規(guī)則對詞對齊關(guān)系進行過濾,本申請對此并不需要進行限制。S106c,從過濾結(jié)果中提取復(fù)述規(guī)則。在本步驟中,可以進一歩根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,復(fù)述規(guī)則約束條件包括以下幾點:I)每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式;2)復(fù)述規(guī)則左端和右端都由非變量和變量組成,當然也可以僅包括非變量;其中,非變量可以包括普通的單詞和標點。3)復(fù)述規(guī)則左端的變量之間至少有一個非變量,也就是說,復(fù)述前的句子中變量不能相鄰,否則將會刪除該條規(guī)則。利用上述方法,得到各種復(fù)述規(guī)則后,就可以解決翻譯系統(tǒng)在翻譯過程中遇到的各種問題,以下舉例簡單說明:I)復(fù)述前文本:就我來說,通常都是出差。復(fù)述規(guī)則:就我來說一在我來說復(fù)述后文本:在我來說,通常都是出差。
翻譯后文本:In my case, it is usually on business.
本例是短語級的復(fù)述,將“就我來說”復(fù)述成“在我來說”,前者對于翻譯系統(tǒng)來說是ー個生僻短語,而復(fù)述后的短語是ー個系統(tǒng)比較擅長翻譯的短語,這種復(fù)述使得系統(tǒng)的覆蓋率提高,進而提高了翻譯結(jié)果的質(zhì)量。2)復(fù)述前文本:有什么運動器材?復(fù)述規(guī)則:有什么X —什么X有?復(fù)述后文本:什么運動器材有?翻譯后文本:Whatkind of sport facilities do you have 本例是利用復(fù)述進行結(jié)構(gòu)調(diào)序,調(diào)序過程中詞匯不發(fā)生變化。其中X表示復(fù)述規(guī)則中的變量。通過把特殊疑問詞“什么”調(diào)整到居首,“有”這個動詞調(diào)整到句尾,使得句子更符合英文的語序,最終可以提高翻譯結(jié)果的質(zhì)量。3)復(fù)述前文本:我把他的電話號碼和住給你。復(fù)述規(guī)則:把X給你。一給你X。復(fù)述后文本:我給你他的電話號碼和住址。翻譯后文本:I' 11 give you his phone number and address.
本例是利用復(fù)述進行句式變化。原始句式“把...給你”,無論如何調(diào)序,“把”字始終找不到符合英文語序的合適位置。而通過復(fù)述規(guī)則,“把X給你”變換成“給你X”,特殊句式變成了一般句式,從而降低了翻譯系統(tǒng)的處理難度。以上實施例,是利用中英文平行語料獲取中文復(fù)述資源,可以理解的是,應(yīng)用本申請所提供的方案,同樣可以利用中英文平行語料獲取中文復(fù)述資源,也可以利用其他語言的平行語料獲取其他語言的復(fù)述資源。
相應(yīng)于上面的方法實施例,本申請還提供一種復(fù)述資源獲取系統(tǒng),參見圖7所示,包括:初始設(shè)置単元210,用于預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;首先從現(xiàn)有的語料庫中獲得第一語言A和第二語言B之間的平行語料,其中,語料庫可以是雙語語料庫,也可以是包含第一語言與第二語言的多語語料庫(即包含三種以上語言互譯語料的語料庫),本發(fā)明實施例對此并不需要進行限定。另外,為實現(xiàn)本申請方案,還需要A到B和B到A的兩套翻譯系統(tǒng)。這兩套翻譯系統(tǒng)可以直接采用任何現(xiàn)有的機器翻譯系統(tǒng)。也可以利用前面獲取的A與B之間的平行語料訓(xùn)練得到。在本實施例中,將以第一語言A為英文,第ニ語言B為中文為例進行說明:首先獲取英-中雙語平行語料(a0,b0),其中,aO和b0分別表示平行語料中英文句子和中文句子的集合,兩個集合中的句子存在一一對應(yīng)的互譯關(guān)系。進ー步還需要一套中英翻譯系統(tǒng)sys_BA以及ー套英中翻譯系統(tǒng)sys_AB,這里可以基于平行語料(a0,b0)分別訓(xùn)練兩個方向的翻譯系統(tǒng),也可以直接采用已有的翻譯系統(tǒng)。第一翻譯單元220,用于利用sys_AB對aO進行翻譯,得到bl ;進ー步利用sys_BA對bl進行翻譯,得到a2;第一翻譯單元220共需要進行兩次翻譯:首先利用sys_AB對aO中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為中文句子的集合bl ;其中,bl與aO中的句子數(shù)量是相同的。然后利用sys_BA對bl中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為英文句子的集合a2。其中,a2與bl中的句子數(shù)量是相同的。上述過程的示意圖可參見圖2所示。第二翻譯單元230,用于利用sys_BA對b0進行翻譯,得到al ;第二翻譯單元230需要進行一次翻譯:利用sys_BA對b0中的句子進行英中方向的翻譯,得到的翻譯結(jié)果為英文句子的集合al ;其中,b0與al中的句子數(shù)量是相同的。上述過程的示意圖可參見圖3所示。翻譯質(zhì)量評價單元240,用于以aO為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’);翻譯質(zhì)量評價單元240以aO中的原始句子為標準,分別對a2和al中對應(yīng)句子的翻譯質(zhì)量進行評價,這里可以采用常用的BLEU、NIST、WER、PER等自動評價標準,這里的評價得分表示翻譯的效果。對于BLEU、NIST等方法,評價的得分越高,說明譯文和原文相似度越高,進而可以認為翻譯效果越好,而WER、PER等方法是基于錯誤率(ER,Eiror Rate)的,錯誤率越低說明翻譯效果越好,因此,如果使用WER等方法,那么錯誤率較低的情況下相應(yīng)能夠獲得較高的評價得分。對于aO中的任意句子,如果其在a2中的對應(yīng)句子比在al中的對應(yīng)句子獲得了更高的評價得分,則翻譯質(zhì)量評價單元240把a2和al中相應(yīng)的句子保留下來,在遍歷所有句子后,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’)。其中a2’和al’中所包含的句子數(shù)量相同,并且在一般情況下,這個數(shù)量應(yīng)該小于aO中的句子數(shù)量。復(fù)述句對獲取單元250,用于在bl中獲取與a2’對應(yīng)的句子集合bl’、在b0中獲取與al’對應(yīng)的句子集合b0’,得到第二語言的復(fù)述句對集合(b0’,bl’)。由于a2’是a2的子集,并且a2是由bl--翻譯得到,因此在bl中必然也存在著
子集bl’與a2’——對應(yīng);同理,在b中必然也存在著子集bl’與a2’——對應(yīng)。獲取bl’和b0’后,進ー步構(gòu)成句對的集合(b0’,bl’),該集合即為需要獲取的復(fù)述句對集合。參見圖8所示,本申請?zhí)峁┑膹?fù)述資源獲取系統(tǒng),還可以進一歩包括:復(fù)述規(guī)則提取単元260,用于從復(fù)述句對集合(b0’,bl’ )中提取復(fù)述規(guī)則。參見圖9所示,所述復(fù)述規(guī)則提取單元260,具體可以包括:詞對齊子單元261,用于建立b0’到bl’中句子的詞對齊關(guān)系;在本申請的ー種實施方式中,詞對齊子単元261,可以具體配置為:用于根據(jù)平行語料(a0,b0)的詞對齊關(guān)系,以及sys_AB在翻譯過程中建立的aO與bl的詞對齊關(guān)系,建立b0’到bl’中句子的詞對齊關(guān)系。詞對齊過濾子単元262,用于對所述詞對齊子單元261所建立的詞對齊關(guān)系進行過濾;
在本申請的ー種實施方式中,詞對齊過濾子単元262,可以具體配置為:用于根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,其中,所述根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,包括:如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系;停用詞及標點僅與停用詞或標點具有對齊關(guān)系。復(fù)述規(guī)則提取子単元263,用于從所述詞對齊過濾子単元262的過濾結(jié)果中提取復(fù)述規(guī)則。在本申請的ー種實施方式中,復(fù)述規(guī)則提取子單元263,具體配置為:用于根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,所述復(fù)述規(guī)則約束條件包括:每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式;復(fù)述規(guī)則左端和右端都由非變量和變量組成,或左端和右端都僅包括非變量;復(fù)述規(guī)則左端的變量之間至少有一個非變量。為了描述的方便,描述以上裝置時以功能分為各種単元分別描述。當然,在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)。基于這樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。
本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的単元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理単元,即可以位于ー個地方,或者也可以分布到多個網(wǎng)絡(luò)単元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。以上所述僅是本申請的具體實施方式
,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本申請的保護范圍。
權(quán)利要求
1.一種復(fù)述資源獲取方法,其特征在于,包括: 預(yù)先獲得第一語言A和第二語言B之間的平行語料(aO,bO),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ; 利用sys_AB對aO進行翻譯,得到bl ;進一步利用sys_BA對bl進行翻譯,得到a2 ; 利用sys_BA對bO進行翻譯,得到al ; 以aO為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’); 在bl中獲取與a2’對應(yīng)的句子集合bl’、在bO中獲取與al’對應(yīng)的句子集合bO’,得到第二語言的復(fù)述句對集合(bO’,bl’ )。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法進一步包括: 從復(fù)述句對集合(bO’,bl’ )中提取復(fù)述規(guī)則。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述從復(fù)述句對集合(bO’,bl’)中提取復(fù)述規(guī)則,包括: 建立bO’到bl’中句子的詞對齊關(guān)系; 對所建立的詞對齊關(guān)系進行過濾; 從過濾結(jié)果中提取復(fù)述規(guī)則。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述建立bO’到bl’中句子的詞對齊關(guān)系,包括: 根據(jù)平行語料(aO,bO)的詞對齊關(guān)系,以及sys_AB在翻譯過程中建立的aO與bl的詞對齊關(guān)系,建立bO’到bl’中句子的詞對齊關(guān)系。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述對所建立的詞對齊關(guān)系進行過濾,包括: 根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,其中,所述詞對齊規(guī)則包括: 如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系; 和/或 停用詞及標點僅與停用詞或標點具有對齊關(guān)系。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述從過濾結(jié)果中提取復(fù)述規(guī)則,包括: 根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,所述復(fù)述規(guī)則約束條件包括: 每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式; 復(fù)述規(guī)則左端和右端都由非變量和變量組成,或左端和右端都僅包括非變量; 復(fù)述規(guī)則左端的變量之間至少有一個非變量。
7.按權(quán)利要求1至6任一項所述的方法,其特征在于,所述翻譯系統(tǒng)sys_AB和sys_BA,是利用平行語料(aO,bO)訓(xùn)練得到。
8.一種復(fù)述資源獲取系統(tǒng),其特征在于,包括: 初始設(shè)置單元,用于預(yù)先獲得第一語言A和第二語言B之間的平行語料(aO,bO),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA ;第一翻譯單元,用于利用sys_AB對aO進行翻譯,得到bl ;進一步利用sys_BA對bl進行翻譯,得到a2; 第二翻譯單元,用于利用sys_BA對bO進行翻譯,得到al ; 翻譯質(zhì)量評價單元,用于以aO為標準,對a2和al中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過al的對應(yīng)句子構(gòu)成句對集合(a2’,al’); 復(fù)述句對獲取單元,用于在bl中獲取與a2’對應(yīng)的句子集合bl’、在bO中獲取與al’對應(yīng)的句子集合bO’,得到第二語言的復(fù)述句對集合(bO’,bl’)。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述系統(tǒng)進一步包括: 復(fù)述規(guī)則提取單元,用于從復(fù)述句對集合(bo’,br )中提取復(fù)述規(guī)則。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述復(fù)述規(guī)則提取單元,包括: 詞對齊子單元,用于建立bO’到bl’中句子的詞對齊關(guān)系; 詞對齊過濾子單元,用于對所述詞對齊子單元所建立的詞對齊關(guān)系進行過濾; 復(fù)述規(guī)則提取子單元,用于從所述詞對齊過濾子單元的過濾結(jié)果中提取復(fù)述規(guī)則。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述詞對齊子單元,具體配置為: 用于根據(jù)平行語料(a0,b0)的詞對齊關(guān)系,以及sys_AB在翻譯過程中建立的aO與bl 的詞對齊關(guān)系,建立bO’到bl’中句子的詞對齊關(guān)系。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述詞對齊過濾子單元,具體配置為: 用于根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,其中,所述根據(jù)預(yù)置的詞對齊規(guī)則,對所建立的詞對齊關(guān)系進行過濾,包括: 如果復(fù)述句對中的兩個單詞具有確定對齊關(guān)系,則僅保留該確定對齊關(guān)系,刪除這兩個單詞的其他交叉對齊關(guān)系; 和/或 停用詞及標點僅與停用詞或標點具有對齊關(guān)系。
13.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述復(fù)述規(guī)則提取子單元,具體配置為: 用于根據(jù)預(yù)設(shè)的復(fù)述規(guī)則約束條件,從過濾結(jié)果中提取復(fù)述規(guī)則,其中,所述復(fù)述規(guī)則約束條件包括: 每條復(fù)述規(guī)則包括左端和右端,分別對應(yīng)復(fù)述前的文本形式和復(fù)述后的文本形式; 復(fù)述規(guī)則左端和右端都由非變量和變量組成,或左端和右端都僅包括非變量; 復(fù)述規(guī)則左端的變量之間至少有一個非變量。
14.按權(quán)利要求8至13任一項所述的系統(tǒng),其特征在于,所述初始設(shè)置單元,具體配置為: 用于利用平行語料(a0,bO)訓(xùn)練得到翻譯系統(tǒng)sys_AB和sys_BA。
全文摘要
本發(fā)明公開了一種復(fù)述資源獲取方法及系統(tǒng)。一種復(fù)述資源獲取方法包括預(yù)先獲得第一語言A和第二語言B之間的平行語料(a0,b0),以及A到B的翻譯系統(tǒng)sys_AB和B到A的翻譯系統(tǒng)sys_BA;利用sys_AB對a0進行翻譯,得到b1;進一步利用sys_BA對b1進行翻譯,得到a2;利用sys_BA對b0進行翻譯,得到a1;以a0為標準,對a2和a1中的對應(yīng)句子進行翻譯質(zhì)量評價,將a2得分超過a1的對應(yīng)句子構(gòu)成句對集合(a2’,a1’);在b1中獲取與a2’對應(yīng)的句子集合b1’、在b0中獲取與a1’對應(yīng)的句子集合b0’,得到第二語言的復(fù)述句對集合(b0’,b1’)。應(yīng)用上述方案,有利于獲得準確率更高的復(fù)述資源,而且得到的翻譯資源也可以更加適用于翻譯系統(tǒng)。
文檔編號G06F17/28GK103092829SQ20111033267
公開日2013年5月8日 申請日期2011年10月27日 優(yōu)先權(quán)日2011年10月27日
發(fā)明者和為, 吳華, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司