本發(fā)明涉及領(lǐng)域計算機領(lǐng)域,尤其涉及一種生成標注庫的方法和裝置。
背景技術(shù):
近年來,統(tǒng)計機器翻譯(Statistical Machine Translation,SMT)領(lǐng)域取得了巨大發(fā)展。在SMT領(lǐng)域中,代詞具有非常重要的作用。然而,在日語和漢語等語言中,代詞省略是極為常見的現(xiàn)象,但在英語等語言中,代詞作為句子成分又必不可少。這導致從代詞易省略語言到代詞不易省略語言翻譯時,大部分缺失的代詞將很難翻譯正確。因此,將代詞自動生成方法可以有效輔助統(tǒng)計機器翻譯完成代詞易省略語言到代詞不易省略語言翻譯過程中的代詞缺失問題,使得譯文更符合目標語言的語法結(jié)構(gòu),從而帶來譯文質(zhì)量的提升。
代詞自動生成的工作中包括代詞的指代消解,該代詞的指代消解指的是篇章中確定代詞指向哪個名詞短語的問題。目前,一種常用的指代消解方法是采用有監(jiān)督方法,該有監(jiān)督方法指的是需要機器學習模型來學習特征和標注的句法結(jié)構(gòu)的操作判定。具體來說,首先生成人工標注的語料庫,在該人工標注的語料庫中,人為地將句子中所缺失的代詞補上并對所補上的代詞進行標注。這樣,在該有監(jiān)督方法中機器能夠根據(jù)所填補的代詞來學習填補代詞的位置和所填補代詞的特征,以使得機器能夠自動填補語句中所缺失的代詞。然而,只有當人工標注的語料庫中的數(shù)據(jù)量足夠大時,才能夠保證有監(jiān)督方法的正確性。然而,目前人工標注的語料庫中的數(shù)據(jù)嚴重欠缺,生成數(shù)據(jù)量足夠大的人工標注的語料庫需要非常大的人力。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例第一方面提供了一種生成標注庫的方法,包括:
確定雙語平行語料庫中的源語句和目標語句,所述源語句和所述目標語句為在句子級別互為翻譯的語料;
將所述目標語句和所述源語句進行對齊;
當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的源特定詞時,獲取第一候選集 合,所述第一特定詞為所述目標語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
根據(jù)預置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補到所述候選位置集合中的位置后形成的候選源語句;
生成標注庫,所述標注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
結(jié)合第一方面,在第一方面的第一種實現(xiàn)方式中,所述根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,包括:
采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合。
結(jié)合第一方面,在第一方面的第二種實現(xiàn)方式中,所述新源語句包括所述第二候選集合中概率最大的預置數(shù)值個語句。
結(jié)合第一方面,在第一方面的第三種實現(xiàn)方式中,所述獲取第一候選集合,之前還包括:
查找所述目標語句中屬于所述第一詞類的所有第一特定詞;
對每一個所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對應的翻譯;
所述獲取第一候選集合,包括:
將在所述源語句中不存在對應的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
結(jié)合第一方面,在第一方面的第四種實現(xiàn)方式中,所述方法還包括:
對所述標注庫進行有監(jiān)督學習,訓練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型,所述序列標注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
在單語語料庫中獲取第一語句,根據(jù)所述序列標注模型預測所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫 中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
根據(jù)所述特定詞的類型獲取候選特定詞集合;
根據(jù)預置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補到所述缺失特定詞的位置后形成的候選語句;
根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。
本發(fā)明實施例第二方面提供了一種生成標注庫的裝置,包括:
確定模塊,用于確定雙語平行語料庫中的源語句和目標語句,所述源語句和所述目標語句為在句子級別互為翻譯的語料;
對齊模塊,用于將所述目標語句和所述源語句進行對齊;
第一獲取模塊,用于當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的源特定詞時,獲取第一候選集合,所述第一特定詞為所述目標語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
第二獲取模塊,用于根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
第三獲取模塊,用于根據(jù)預置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補到所述候選位置集合中的位置后形成的候選源語句;
生成模塊,用于生成標注庫,所述標注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
結(jié)合第二方面,在第二方面的第一種實現(xiàn)方式中,所述第二獲取模塊具體用于采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合。
結(jié)合第二方面,在第二方面的第二種實現(xiàn)方式中,所述新源語句包括所述第二候選集合中概率最大的預置數(shù)值個語句。
結(jié)合第二方面,在第二方面的第三種實現(xiàn)方式中,所述生成標注庫的裝置還包括:
查找模塊,用于在獲取第一候選集合之前,查找所述目標語句中屬于所述第一詞類的所有第一特定詞;
判斷模塊,用于對每一個所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對應的翻譯;
所述第一獲取模塊具體用于將在所述源語句中不存在對應的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
結(jié)合第二方面,在第二方面的第四種實現(xiàn)方式中,所述生成標注庫的裝置還包括:
學習模塊,用于對所述標注庫進行有監(jiān)督學習,訓練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型,所述序列標注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
第四獲取模塊,用于在單語語料庫中獲取第一語句,根據(jù)所述序列標注模型預測所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
第五獲取模塊,用于根據(jù)所述特定詞的類型獲取候選特定詞集合;
第六獲取模塊,用于根據(jù)預置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補到所述缺失特定詞的位置后形成的候選語句;
挑選模塊,用于根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。
從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點:
本發(fā)明中,源語句所屬的語言為易缺失第一詞類的語言,通過利用雙語平行語料庫中雙語的對應關(guān)系,將互為翻譯語料的目標語句和源語句進行對齊,當目標語句中屬于第一詞類的第一特定詞在源語句中找不到對應的翻譯(也即源特定詞)時,則可以確定源語句中缺失與該第一特定詞對應的源特定詞,而根據(jù)該兩個語句的對應關(guān)系可確定出源語句中可能缺失源特定詞的位置集合;由于第一特定詞為確定的,第一特定詞的翻譯可在一個小集合中 挑選,因此將該小集合中的各翻譯和源語句中可能缺失第一特定詞的位置任意組合,以形成多個候選源語句,并通過語言概率模型來計算各候選源語句的正確概率,以挑選出正確的候選源語句作為填補空缺第一特定詞后的新源語句;整個過程均由機器翻譯完成,無需人工標注語料庫,采用該方法能夠以較低耗費自動生成代詞標注語料。
附圖說明
圖1為本發(fā)明的生成標注庫的方法的一個實施例的流程示意圖;
圖2為目標語句和源語句的一個具體實施例的對應關(guān)系圖;
圖3為本發(fā)明的生成標注庫的裝置的一個實施例的結(jié)構(gòu)示意圖;
圖4為本發(fā)明的生成標注庫的方法的一個實施例的結(jié)構(gòu)示意圖;
圖5為本發(fā)明的生成標注庫的方法的另一個實施例的結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三”“第四”等是用于區(qū)別不同的對象,而不是用于描述特定順序。此外,術(shù)語“包括”和“具有”以及它們?nèi)魏巫冃?,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對于這些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
請參閱圖1,圖1為本發(fā)明實施例提供的生成標注庫的方法的一個實施例的結(jié)構(gòu)示意圖。如圖1所示,本實施例的生成標注庫的方法包括:
101、確定雙語平行語料庫中的源語句和目標語句,所述源語句和所述目標語句為在句子級別互為翻譯的語料。
本實施例中,雙語平行語料庫中包括互為翻譯的兩種語料,為描述方便,本文中稱其中一種語料為目標語語料,稱另一種語料為源語語料,其中,源 語語料為相對于目標語語料在使用中更容易省略某一種詞類的語言。為描述方便,下文稱該易省略的詞類為第一詞類。
舉例來說,該目標語語料可以為英文,該源語語料為漢語、日語或者捷克語。該第一詞類為代詞或者連接詞,在此不作限制。雙語平行語料庫中包括句子級別的語料,或者還包括詞語級別、段落級別、文檔級別中的至少一種級別的語料,在此不作限制。
本實施例中的目標語句和源語句可以是雙語平行語料庫中任意一對在句子級別互為翻譯的語料。
102、將所述目標語句和所述源語句進行對齊。
在對目標語句和源語句進行對齊處理時,首先要將目標語句和源語句進行預處理,也即將目標語句和源語句分別切割成各自所屬語言的基本粒度。例如,當目標語語料為英文時,對目標語句進行標記解析(tokenize),當源語語料為中文時,對源語句進行分詞。對語言的預處理為SMT領(lǐng)域中的現(xiàn)有技術(shù),在此不再贅述。進行預處理后,建立目標語句和源語句中詞的對應關(guān)系。生成的詞語對應關(guān)系具體形式為:x:y,其中x和y為正整數(shù),表示目標語句中第x個詞語和源語句中第y個詞語對應。
實際應用中,一般采用開源對齊工具(如GIZA++)來對目標語句和源語句進行對齊處理。具體如何進行對齊處為現(xiàn)有技術(shù),在此不再贅述。
103、當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的源特定詞時,獲取第一候選集合,所述第一特定詞為所述目標語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞。
當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的翻譯時,查找所述源語句中缺失與所述第一特定詞對應的第一特定詞。本實施例中,確定第一特定詞在源語句中沒有對應的翻譯的方法有多種。
例如,將所述目標語句和所述源語句進行對齊后,查找目標語句中所有候選詞,該候選詞為目標語句在源語句中沒有對應的翻譯的詞,然后從候選詞中挑選出至少部分屬于第一詞類的詞,那么該詞為在源語句中沒有對應的翻譯的第一特定詞。
又例如,首先在目標語句中查找出所有屬于第一詞類的詞為第一特定詞,然后依次判斷各第一特定詞在源語句中是否存在對應的翻譯,并從中挑選出至少部分不存在對應的翻譯的第一特定詞。
挑選出在所述源語句中沒有對應的翻譯的第一特定詞后,由于第一特定詞是已知的,那么第一特定詞的翻譯也是確定的。將該第一特定詞的所有翻譯添加到第一候選集合中,所述第一候選集合中的元素為第一特定詞的候選詞。
以第一詞類為代詞舉例來說,若第一特定詞為“my”,那么將第一特定詞的翻譯“我的”作為候選詞添加到第一候選集合中。若第一特定詞為“your”,那么將第一特定詞的翻譯“你的”和“你們的”分別作為候選詞都添加到第一候選集合中。
實際應用中,目標語句中可能出現(xiàn)至少兩個在所述源語句中沒有對應的翻譯的第一特定詞,這種情況中,將該至少兩個第一特定詞的翻譯全部添加到第一候選集合中。
104、根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,所述位置集合包括所述源語句中可能缺失所述源特定詞的位置。
每確定一個翻譯語料已添加到第一候選集合中的第一特定詞后,可以根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系確定該第一特定詞對應的源特定詞可能填補在源語句中的所有候選位置,并將該候選位置全部添加到候選位置集合中。
本實施例中,根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系確定該第一特定詞對應的源特定詞可能填補在源語句中的所有候選位置的方法有多種??蛇x的,可采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系確定源特定詞在源語句中的所有候選位置。
為方便理解,下面以源語句中所缺失的詞類(即第一詞類)為代詞為例對“如何采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系確定源特定詞在源語句中的所有候選位置”進行說明。如圖2所示,圖2為目標語句和源語句的對應關(guān)系圖。圖2所示實施例中,目標語句為“I've been preparing for that my entire life”,源語句為“我已經(jīng)準備了一輩子”。對源語句 分詞后得到的結(jié)果為“我”“已經(jīng)”“準備”“了”“一輩子”。從圖中的對應關(guān)系可以看出,源語句中缺失了目標語句中的代詞“my”對應的翻譯。通過圖中的對角線上“my”前后已經(jīng)確定的對齊信息(“preparing-準備”和“l(fā)ife-一輩子”),可以確定“my”對應的源特定詞在源語句中的兩個候選位置,其中一個候選位置為在源語句中“了”的前面,另一候選位置為在源語句中“了”的后面。
在目標語句中出現(xiàn)翻譯語料已添加到第一候選集合中的第一特定詞的數(shù)量為至少兩個的情況中,將該至少兩個第一特定詞分別對應的源特定詞的所有候選位置全部添加到該候選位置集合中。
105、根據(jù)預置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補到所述候選位置集合中的位置后形成的候選源語句。
在獲取到第一候選集合和候選位置集合后,對第一候選集合中的任意一個候選源特定詞和候選位置集合中的任意一個候選位置進行組合,以在源語句中該候選位置處填補該候選源特定詞,形成候選源語句。若第一候選集合中的元素數(shù)量為m,候選位置集合中的元素數(shù)量為n,那么可形成m×n個候選源語句。為描述方便,將該m×n個候選源語句形成的集合稱為第二候選集合。
根據(jù)預置語言概率模型對第二候選集合中的每一個候選源語句的正確概率進行計算。具體的,該預置語言概率模型可以是N元文法模型或者基于神經(jīng)網(wǎng)絡(luò)的語言模型,在此不作限制。
106、生成標注庫,所述標注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
計算出第二候選集合中各候選源語句的正確概率后,根據(jù)該正確概率從大至小依次對各候選源語句進行排序。將正確概率最大的候選源語句添加到標注庫中。
可選的,將原源語句、正確概率最大的N個候選源語句以及該N個候選源語句的正確概率均添加到標注庫中,其中N為預置數(shù)值。這樣可以增加標注庫的魯棒性。
本實施例中,源語句所屬的語言為易缺失第一詞類的語言,通過利用雙語平行語料庫中雙語的對應關(guān)系,將互為翻譯語料的目標語句和源語句進行對齊,當目標語句中屬于第一詞類的第一特定詞在源語句中找不到對應的翻譯時,則可以確定源語句中缺失與該第一特定詞對應的源特定詞,而根據(jù)該兩個語句的對應關(guān)系可確定出源語句中可能缺失源特定詞的位置集合;由于第一特定詞為確定的,第一特定詞的翻譯可在一個小集合中挑選,因此將該小集合中的各翻譯和源語句中可能缺失第一特定詞的位置任意組合,以形成多個候選源語句,并通過語言概率模型來計算各候選源語句的正確概率,以挑選出正確的候選源語句作為填補空缺第一特定詞后的新源語句;整個過程均由機器完成,無需人工標注語料庫,采用該方法能夠以較低耗費自動生成代詞標注語料。
本實施例中,獲取到生成的標注庫后,可對該標注庫進行有監(jiān)督學習,以訓練出第一詞類生成系統(tǒng)(例如代詞生成系統(tǒng)),進而將該第一詞類生成系統(tǒng)運用到機器翻譯系統(tǒng)中。
具體的,對標注庫中已經(jīng)標注的語料,將該語料轉(zhuǎn)換成序列形式。以第一詞類生成系統(tǒng)為代詞生成系統(tǒng)為例,對每個語句中的每個詞,該詞被貼上無代詞缺失、缺失人稱代詞、缺失物主代詞和缺失反身代詞中的其中一種標簽,用于表示該詞的左邊位置或者右邊位置上無代詞缺失、缺失人稱代詞、缺失物主代詞或者缺失反身代詞。然后通過提取該語料庫的一系列特征來訓練分類模型。最終根據(jù)該分類模型來自動標注其他缺失代詞的語句。
可選的,本實施例中,對語料庫進行有監(jiān)督學習后訓練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型?;谏疃壬窠?jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型的一個優(yōu)勢在于不需要人工來提取語料中的“一系列特征”,避免了復雜的特征選擇過程,只要將句子輸入該序列標注模型中,該序列標注模型會自動學習到需要的特征。
具體的,所述基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò)。該Elman-type遞歸神經(jīng)網(wǎng)絡(luò)包括第一公式和第二公式,所述第一公式為ht=s(Uwt+Wht-1),第二公式為yt=g(Vht)。其中,s(·)為sigmoid公式,g(·)為softmax公式,U、W和V為層之間相應的權(quán)重,wt為輸入的句 子序列中的第t個詞;輸出的yt為所缺失的第一詞類的類型。舉例來說,第一詞類為代詞時,輸出的yt為標簽集{NULL,PE,PO,RE}中的其中一個,其中NULL表示無代詞缺失,PE表示缺失人稱代詞,PO表示缺失物主代詞,RE表示缺失反身代詞。
在第一公式和第二公式中,U、W和V分別對應的權(quán)重為神經(jīng)網(wǎng)絡(luò)模型在標注數(shù)據(jù)上自動訓練得到的結(jié)果,此為現(xiàn)有技術(shù),在此不再贅述。該yt表示yt=g(Vht)中的ht在第一公式中的所用的自變量wt對應的第t個詞的右邊位置是否缺失代詞的預測結(jié)果。
這樣,在需要對一個單語語料庫中的語句進行填補代詞時,從該單語語料庫中獲取一個語句(為描述方便,下文中稱該語句為第一語句),其中,所述單語語料庫中的語料和所述源語句屬于同一種語言。依次將第一語句中的各個詞輸入所述第一公式和第二公式進行計算,計算得到的yt為該詞的右邊位置是否缺失代詞的預測結(jié)果。這樣,可最終確定該第一語句中分別缺失人稱代詞、缺失物主代詞和缺失反身代詞的所有位置。也即預測到第一語句中缺失特定詞的位置以及該特定詞的類型。該特定詞為所述第一語句中屬于所述第一詞類的詞。舉例來說,當?shù)谝辉~類為代詞時該特定詞的類型為人稱代詞、物主代詞或反身代詞。
根據(jù)所述特定詞的類型獲取候選特定詞集合。當特定詞的類型確定時,該特定詞的候選特定詞集合也可以確定。例如,當特定詞的類型為物主代詞時,該特定詞的候選特定詞集合為{我的(my)、你的(your)、我們的(our)、你們的(your)、他們的(their)、它的(its)、它們的(their)、她們的(their)}。
將所述候選特定詞集合中的代詞填補到所述代詞缺失位置后形成的語句添加到第一語句候選集合中,根據(jù)預置語言概率模型獲取第一語句候選集合中各語句的正確概率,根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。具體的,該預置語言概率模型可以是N元文法模型或者基于神經(jīng)網(wǎng)絡(luò)的語言模型,在此不作限制。
計算出第一語句候選集合中各語句的正確概率后,根據(jù)該正確概率從大至小依次對各語句進行排序。將正確概率最大的語句確定為增添所述特定詞后的第一語句。
可選的,將原第一語句、第一語句候選集合中正確概率最大的M個語句以及該M個語句的正確概率均保留到代詞生成系統(tǒng)中,其中M為預置數(shù)值。這樣可以增加代詞生成系統(tǒng)的魯棒性。
當然,上述描述中以第一詞類為代詞為例,實際應用中上述方法在第一詞類為其他詞類的情況中也適用。
上面對本發(fā)明的生成標注庫的方法進行了描述,下面對本發(fā)明的生成標注庫的裝置進行描述,該生成標注庫的裝置用于執(zhí)行上述所描述的生成標注庫的方法。
請參閱圖3,圖3為本發(fā)明的生成標注庫的裝置的一個實施例的結(jié)構(gòu)示意圖。本發(fā)明的生成標注庫的裝置300包括:
確定模塊301,用于確定雙語平行語料庫中的源語句和目標語句,所述源語句和所述目標語句為在句子級別互為翻譯的語料;
對齊模塊302,用于將所述目標語句和所述源語句進行對齊;
第一獲取模塊303,用于當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的源特定詞時,獲取第一候選集合,所述第一特定詞為所述目標語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
第二獲取模塊304,用于根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
第三獲取模塊305,用于根據(jù)預置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補到所述候選位置集合中的位置后形成的候選源語句;
生成模塊306,用于生成標注庫,所述標注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
本實施例中,源語句所屬的語言為易缺失第一詞類的語言,生成標注庫的裝置通過利用雙語平行語料庫中雙語的對應關(guān)系,將互為翻譯語料的目標語句和源語句進行對齊,當目標語句中屬于第一詞類的第一特定詞在源語句中找不到對應的翻譯時,則可以確定源語句中缺失與該第一特定詞對應的源 特定詞,而根據(jù)該兩個語句的對應關(guān)系可確定出源語句中可能缺失源特定詞的位置集合;由于第一特定詞為確定的,第一特定詞的翻譯可在一個小集合中挑選,因此將該小集合中的各翻譯和源語句中可能缺失第一特定詞的位置任意組合,以形成多個候選源語句,并通過語言概率模型來計算各候選源語句的正確概率,以挑選出正確的候選源語句作為填補空缺第一特定詞后的新源語句;整個過程均由機器完成,無需人工標注語料庫,采用該方法能夠以較低耗費自動生成代詞標注語料。
可選的,所述第二獲取模塊304具體用于采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合。
可選的,所述新源語句包括所述第二候選集合中概率最大的預置數(shù)值個語句。
可選的,所述生成標注庫的裝置300還包括:
查找模塊307,用于在獲取第一候選集合之前,查找所述目標語句中屬于所述第一詞類的所有第一特定詞;
判斷模塊308,用于對每一個所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對應的翻譯;
所述第一獲取模塊303具體用于將在所述源語句中不存在對應的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
可選的,如圖4所示,所述生成標注庫的裝置還包括:
學習模塊401,用于對所述標注庫進行有監(jiān)督學習,訓練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型,所述序列標注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
第四獲取模塊402,用于在單語語料庫中獲取第一語句,根據(jù)所述序列標注模型預測所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
第五獲取模塊403,用于根據(jù)所述特定詞的類型獲取候選特定詞集合;
第六獲取模塊404,用于根據(jù)預置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補到所述缺失特定詞的位置后形成的候選語句;
挑選模塊405,用于根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。
請參閱圖5,圖5為本發(fā)明的生成標注庫的裝置的另一個實施例的結(jié)構(gòu)示意圖。本實施例中,生成標注庫的裝置500包括存儲器501、一個或多個處理器502以及一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器501中并被配置為被所述一個或多個處理器502執(zhí)行。在本發(fā)明的一些實施例中,存儲器501和一個或多個處理器502可通過總線或其它方式連接,其中,圖5中以通過總線504連接為例。
所述處理器調(diào)用所述一個或多個程序,執(zhí)行以下操作:
確定雙語平行語料庫中的源語句和目標語句,所述源語句和所述目標語句為在句子級別互為翻譯的語料;
將所述目標語句和所述源語句進行對齊;
當?shù)谝惶囟ㄔ~在所述源語句中沒有對應的源特定詞時,獲取第一候選集合,所述第一特定詞為所述目標語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
根據(jù)預置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補到所述候選位置集合中的位置后形成的候選源語句;
生成標注庫,所述標注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
可選的,所述根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合,包括:
采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標語句之間的對齊關(guān)系獲取候選位置集合。
可選的,所述新源語句包括所述第二候選集合中概率最大的預置數(shù)值個語句。
可選的,所述處理器在獲取第一候選集合之前,還執(zhí)行以下操作:
查找所述目標語句中屬于所述第一詞類的所有第一特定詞;
對每一個所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對應的翻譯;
所述處理器在獲取第一候選集合時,具體用于執(zhí)行以下操作:
將在所述源語句中不存在對應的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
可選的,所述處理器還用于執(zhí)行以下操作:
對所述標注庫進行有監(jiān)督學習,訓練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標注模型,所述序列標注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
在單語語料庫中獲取第一語句,根據(jù)所述序列標注模型預測所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
根據(jù)所述特定詞的類型獲取候選特定詞集合;
根據(jù)預置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補到所述缺失特定詞的位置后形成的候選語句;
根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
在本申請所提供的幾個實施例中,應該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合 或通信連接,可以是電性,機械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。