1.一種生成標(biāo)注庫的方法,其特征在于,包括:
確定雙語平行語料庫中的源語句和目標(biāo)語句,所述源語句和所述目標(biāo)語句為在句子級(jí)別互為翻譯的語料;
將所述目標(biāo)語句和所述源語句進(jìn)行對(duì)齊;
當(dāng)?shù)谝惶囟ㄔ~在所述源語句中沒有對(duì)應(yīng)的源特定詞時(shí),獲取第一候選集合,所述第一特定詞為所述目標(biāo)語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
根據(jù)所述源語句和所述目標(biāo)語句之間的對(duì)齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
根據(jù)預(yù)置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補(bǔ)到所述候選位置集合中的位置后形成的候選源語句;
生成標(biāo)注庫,所述標(biāo)注庫包括新源語句,所述新源語句為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
2.根據(jù)權(quán)利要求1所述的生成標(biāo)注庫的方法,其特征在于,所述根據(jù)所述源語句和所述目標(biāo)語句之間的對(duì)齊關(guān)系獲取候選位置集合,包括:
采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標(biāo)語句之間的對(duì)齊關(guān)系獲取候選位置集合。
3.根據(jù)權(quán)利要求1所述的生成標(biāo)注庫的方法,其特征在于,所述新源語句包括所述第二候選集合中概率最大的預(yù)置數(shù)值個(gè)語句。
4.根據(jù)權(quán)利要求1所述的生成標(biāo)注庫的方法,其特征在于,所述獲取第一候選集合,之前還包括:
查找所述目標(biāo)語句中屬于所述第一詞類的所有第一特定詞;
對(duì)每一個(gè)所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對(duì)應(yīng)的翻譯;
所述獲取第一候選集合,包括:
將在所述源語句中不存在對(duì)應(yīng)的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
5.根據(jù)權(quán)利要求1所述的生成標(biāo)注庫的方法,其特征在于,所述方法還包括:
對(duì)所述標(biāo)注庫進(jìn)行有監(jiān)督學(xué)習(xí),訓(xùn)練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標(biāo)注模型,所述序列標(biāo)注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
在單語語料庫中獲取第一語句,根據(jù)所述序列標(biāo)注模型預(yù)測(cè)所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
根據(jù)所述特定詞的類型獲取候選特定詞集合;
根據(jù)預(yù)置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補(bǔ)到所述缺失特定詞的位置后形成的候選語句;
根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。
6.一種生成標(biāo)注庫的裝置,其特征在于,包括:
確定模塊,用于確定雙語平行語料庫中的源語句和目標(biāo)語句,所述源語句和所述目標(biāo)語句為在句子級(jí)別互為翻譯的語料;
對(duì)齊模塊,用于將所述目標(biāo)語句和所述源語句進(jìn)行對(duì)齊;
第一獲取模塊,用于當(dāng)?shù)谝惶囟ㄔ~在所述源語句中沒有對(duì)應(yīng)的源特定詞時(shí),獲取第一候選集合,所述第一特定詞為所述目標(biāo)語句中屬于第一詞類的詞,所述源特定詞為所述第一特定詞在所述源語句中的翻譯,所述第一候選集合中包括與所述第一特定詞互為翻譯的候選源特定詞;
第二獲取模塊,用于根據(jù)所述源語句和所述目標(biāo)語句之間的對(duì)齊關(guān)系獲取候選位置集合,所述候選位置集合包括所述源語句中可能缺失所述源特定詞的位置;
第三獲取模塊,用于根據(jù)預(yù)置語言概率模型獲取第二候選集合中各語句的正確概率,所述第二候選集合包括將所述第一候選集合中的候選源特定詞填補(bǔ)到所述候選位置集合中的位置后形成的候選源語句;
生成模塊,用于生成標(biāo)注庫,所述標(biāo)注庫包括新源語句,所述新源語句 為根據(jù)所述第二候選集合中各語句的正確概率確定的候選源語句。
7.根據(jù)權(quán)利要求6所述的生成標(biāo)注庫的裝置,其特征在于,所述第二獲取模塊具體用于采用啟發(fā)式搜索算法根據(jù)所述源語句和所述目標(biāo)語句之間的對(duì)齊關(guān)系獲取候選位置集合。
8.根據(jù)權(quán)利要求6所述的生成標(biāo)注庫的裝置,其特征在于,所述新源語句包括所述第二候選集合中概率最大的預(yù)置數(shù)值個(gè)語句。
9.根據(jù)權(quán)利要求6所述的生成標(biāo)注庫的裝置,其特征在于,所述生成標(biāo)注庫的裝置還包括:
查找模塊,用于在獲取第一候選集合之前,查找所述目標(biāo)語句中屬于所述第一詞類的所有第一特定詞;
判斷模塊,用于對(duì)每一個(gè)所述第一特定詞,判斷所述第一特定詞在所述源語句中是否存在對(duì)應(yīng)的翻譯;
所述第一獲取模塊具體用于將在所述源語句中不存在對(duì)應(yīng)的翻譯的至少部分第一特定詞的翻譯語料添加到所述第一候選集合中。
10.根據(jù)權(quán)利要求6所述的生成標(biāo)注庫的裝置,其特征在于,所述生成標(biāo)注庫的裝置還包括:
學(xué)習(xí)模塊,用于對(duì)所述標(biāo)注庫進(jìn)行有監(jiān)督學(xué)習(xí),訓(xùn)練出基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的序列標(biāo)注模型,所述序列標(biāo)注模型包括Elman-type遞歸神經(jīng)網(wǎng)絡(luò);
第四獲取模塊,用于在單語語料庫中獲取第一語句,根據(jù)所述序列標(biāo)注模型預(yù)測(cè)所述第一語句的缺失特定詞的位置以及判定所述特定詞的類型,其中,所述單語語料庫中的語料和所述源語句屬于同一種語言,所述特定詞為所述第一語句中屬于所述第一詞類的詞;
第五獲取模塊,用于根據(jù)所述特定詞的類型獲取候選特定詞集合;
第六獲取模塊,用于根據(jù)預(yù)置語言概率模型獲取第一語句候選集合中各語句的正確概率,所述第一語句候選集合包括將所述候選特定詞集合中的候選特定詞填補(bǔ)到所述缺失特定詞的位置后形成的候選語句;
挑選模塊,用于根據(jù)所述正確概率從所述第一候選集合中挑選候選語句作為增添所述特定詞后的第一語句。