亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對(duì)譯語(yǔ)料庫(kù)制作方法、裝置、程序以及機(jī)器翻譯系統(tǒng)與流程

文檔序號(hào):11582672閱讀:301來(lái)源:國(guó)知局
對(duì)譯語(yǔ)料庫(kù)制作方法、裝置、程序以及機(jī)器翻譯系統(tǒng)與流程

本發(fā)明涉及制作對(duì)譯語(yǔ)料庫(kù)(translationcorpus)的對(duì)譯語(yǔ)料庫(kù)制作方法、對(duì)譯語(yǔ)料庫(kù)制作裝置、對(duì)譯語(yǔ)料庫(kù)制作程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng),所述對(duì)譯語(yǔ)料庫(kù)匯集有由互不相同的語(yǔ)言形成的成對(duì)文(成對(duì)語(yǔ)句)。



背景技術(shù):

近年來(lái),將第1語(yǔ)言的語(yǔ)句翻譯成與所述第1語(yǔ)言不同的第2語(yǔ)言的語(yǔ)句的機(jī)器翻譯正在被進(jìn)行研究和開(kāi)發(fā),例如,提出了專利文獻(xiàn)1~專利文獻(xiàn)4的專利文獻(xiàn)和非專利文獻(xiàn)1以及非專利文獻(xiàn)2的非專利文獻(xiàn)等各種技術(shù)。

現(xiàn)有技術(shù)文獻(xiàn)

專利文獻(xiàn)

專利文獻(xiàn)1:日本特許第3919720號(hào)公報(bào)

專利文獻(xiàn)2:日本特開(kāi)2002-278963號(hào)公報(bào)

專利文獻(xiàn)3:日本特開(kāi)2006-190072號(hào)公報(bào)

專利文獻(xiàn)4:日本特開(kāi)2015-118498號(hào)公報(bào)

非專利文獻(xiàn)

非專利文獻(xiàn)1:generatingtargetedparaphrasesforimprovedtranslation,nitinmadnani,educationaltestingservice,acm2013

非專利文獻(xiàn)2:distributionalphrasalparaphrasegenerationforstatisticalmachinetranslation,yuvalmarton,universityofmarryland,columbiauniversity,acm2013



技術(shù)實(shí)現(xiàn)要素:

發(fā)明要解決的技術(shù)問(wèn)題

然而,要提高機(jī)器翻譯性能,則可利用于翻譯的例文越多越好。即,希望對(duì)譯語(yǔ)料庫(kù)匯集更多的成對(duì)文,對(duì)于對(duì)譯語(yǔ)料庫(kù)的制作,存在改善的余地。

本發(fā)明是鑒于上述情況而完成的發(fā)明,其目的在于提供得到進(jìn)一步改善的對(duì)譯語(yǔ)料庫(kù)制作方法、對(duì)譯語(yǔ)料庫(kù)制作裝置、對(duì)譯語(yǔ)料庫(kù)制作程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)。

用于解決問(wèn)題的技術(shù)方案

本發(fā)明涉及的對(duì)譯語(yǔ)料庫(kù)制作方法、對(duì)譯語(yǔ)料庫(kù)制作裝置、對(duì)譯語(yǔ)料庫(kù)制作程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng),通過(guò)將第1語(yǔ)言的第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換(換言、說(shuō)法變換)成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文;從這些多個(gè)同義轉(zhuǎn)換候選文中識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文;通過(guò)將該識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文,用該生成的新的成對(duì)文來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

發(fā)明效果

本發(fā)明涉及的對(duì)譯語(yǔ)料庫(kù)制作方法、對(duì)譯語(yǔ)料庫(kù)制作裝置、對(duì)譯語(yǔ)料庫(kù)制作程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng),能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。

附圖說(shuō)明

圖1是表示第1實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置的構(gòu)成的框圖。

圖2是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換候選文生成部的構(gòu)成的框圖。

圖3是表示存儲(chǔ)在所述同義轉(zhuǎn)換候選文生成部的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)存儲(chǔ)部中的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)的一例的圖。

圖4是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換文識(shí)別部的構(gòu)成的框圖。

圖5是表示存儲(chǔ)在所述同義轉(zhuǎn)換文識(shí)別部的學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的學(xué)習(xí)數(shù)據(jù)集的一例的圖。

圖6是表示所述同義轉(zhuǎn)換候選文生成部中的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇部的工作的流程圖。

圖7是表示所述同義轉(zhuǎn)換候選文生成部中的同義轉(zhuǎn)換部的工作的流程圖。

圖8是表示所述同義轉(zhuǎn)換文識(shí)別部中的學(xué)習(xí)數(shù)據(jù)選擇部的工作的流程圖。

圖9是表示所述同義轉(zhuǎn)換文識(shí)別部中的模型生成部的工作的流程圖。

圖10是表示所述同義轉(zhuǎn)換文識(shí)別部中的識(shí)別部的工作的流程圖。

圖11是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第1方式的選擇方法的圖。

圖12是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第2方式的選擇方法的圖。

圖13是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第3方式的選擇方法的圖。

圖14是用于使用一個(gè)具體例子來(lái)說(shuō)明對(duì)譯語(yǔ)料庫(kù)的制作的圖。

圖15是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換文識(shí)別部的變形形式的構(gòu)成的框圖。

圖16是用于說(shuō)明所述變形形式的同義轉(zhuǎn)換文識(shí)別部的工作的圖。

圖17是用于使用一個(gè)具體例子來(lái)說(shuō)明所述對(duì)譯語(yǔ)料庫(kù)制作裝置的變形形式的圖。

圖18是表示第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)的構(gòu)成的框圖。

圖19是表示所述機(jī)器翻譯系統(tǒng)中的學(xué)習(xí)部的工作的流程圖。

標(biāo)號(hào)說(shuō)明

m:對(duì)譯語(yǔ)料庫(kù)制作裝置

t:翻譯裝置

s:機(jī)器翻譯系統(tǒng)

1:輸入部(第1輸入部)

2:同義轉(zhuǎn)換候選文生成部

3a、3b:同義轉(zhuǎn)換文識(shí)別部

4:對(duì)譯語(yǔ)料庫(kù)制作部

5:對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部

21:同義轉(zhuǎn)換數(shù)據(jù)庫(kù)存儲(chǔ)部

22:同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇部

23:同義轉(zhuǎn)換部

31a、31b:學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

32a、32b:學(xué)習(xí)數(shù)據(jù)選擇部

33:模型生成部

34:識(shí)別部

211:工廠用同義轉(zhuǎn)換db存儲(chǔ)部

212:旅行用同義轉(zhuǎn)換db存儲(chǔ)部

213:購(gòu)物用同義轉(zhuǎn)換db存儲(chǔ)部

214:醫(yī)療用同義轉(zhuǎn)換db存儲(chǔ)部

215:鐵路用同義轉(zhuǎn)換db存儲(chǔ)部

311:工廠用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

312:旅行用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

313:購(gòu)物用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

314:醫(yī)療用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

315:鐵路用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部

具體實(shí)施方式

以下,基于附圖對(duì)本發(fā)明涉及的一個(gè)實(shí)施方式進(jìn)行說(shuō)明。此外,各圖中標(biāo)注有同一標(biāo)號(hào)的結(jié)構(gòu)表示同一結(jié)構(gòu),適當(dāng)?shù)厥÷云湔f(shuō)明。在本說(shuō)明書中,在進(jìn)行統(tǒng)稱的情況下由省略了下標(biāo)的參照標(biāo)號(hào)來(lái)表示,在特指?jìng)€(gè)別結(jié)構(gòu)的情況下由標(biāo)注了下標(biāo)的參照標(biāo)號(hào)來(lái)表示。

(第1實(shí)施方式:對(duì)譯語(yǔ)料庫(kù)制作方法、語(yǔ)料庫(kù)制作裝置、語(yǔ)料庫(kù)制作程序)

圖1是表示第1實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置的構(gòu)成的框圖。圖2是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換候選文生成部的構(gòu)成的框圖。圖3是表示存儲(chǔ)在所述同義轉(zhuǎn)換候選文生成部的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)存儲(chǔ)部中的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)的一例的圖。圖4是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換文識(shí)別部的構(gòu)成的框圖。圖5是表示存儲(chǔ)在所述同義轉(zhuǎn)換文識(shí)別部的學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部中的學(xué)習(xí)數(shù)據(jù)集的一例的圖。圖5的(a)表示第1方式的學(xué)習(xí)數(shù)據(jù)集,圖5的(b)表示第2方式的學(xué)習(xí)數(shù)據(jù)集。

實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m是制作對(duì)譯語(yǔ)料庫(kù)的裝置,所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文,例如,如圖1所示,對(duì)譯語(yǔ)料庫(kù)制作裝置m具備輸入部1、同義轉(zhuǎn)換候選文生成部2、同義轉(zhuǎn)換文識(shí)別部3a和對(duì)譯語(yǔ)料庫(kù)制作部4,再者,在圖1所示的例子中,還具備存儲(chǔ)其制作出的對(duì)譯語(yǔ)料庫(kù)的對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5。此外,對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5也可以設(shè)置于與對(duì)譯語(yǔ)料庫(kù)制作裝置m分開(kāi)的外部設(shè)備(例如服務(wù)器計(jì)算機(jī)等),該情況下,圖1所示的對(duì)譯語(yǔ)料庫(kù)制作裝置m中,取代具備對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5而具備與外部設(shè)備通信數(shù)據(jù)的接口部,將其制作出的對(duì)譯語(yǔ)料庫(kù)經(jīng)由所述接口部輸出給外部設(shè)備。所述接口部例如是使用usb標(biāo)準(zhǔn)的接口電路、遵循ieee802.11標(biāo)準(zhǔn)等的通信接口電路等。

具備這樣的各部1~5的對(duì)譯語(yǔ)料庫(kù)制作裝置m例如由信息處理裝置構(gòu)成。信息處理裝置例如具備計(jì)算機(jī)、通過(guò)顯示數(shù)據(jù)來(lái)輸出所述數(shù)據(jù)的顯示器、和輸入數(shù)據(jù)的輸入裝置,所述計(jì)算機(jī)具備cpu(centralprocessingunit,中央處理單元)、rom(readonlymemory,只讀存儲(chǔ)器)、ram(randomaccessmemory,隨機(jī)存取存儲(chǔ)器)以及輔助存儲(chǔ)裝置。作為這樣的信息處理裝置,例如可以采用臺(tái)式計(jì)算機(jī)這樣的固定式的信息處理裝置,也可以采用筆記本式計(jì)算機(jī)、平板式計(jì)算機(jī)等便攜式的信息處理裝置。

圖1所示的各塊(功能塊)例如通過(guò)由cpu執(zhí)行存儲(chǔ)于輔助存儲(chǔ)裝置的、使計(jì)算機(jī)作為對(duì)譯語(yǔ)料庫(kù)制作裝置m發(fā)揮功能的程序(對(duì)譯語(yǔ)料庫(kù)制作程序)來(lái)實(shí)現(xiàn)。因此,在所述計(jì)算機(jī)中安裝(實(shí)施,執(zhí)行)有對(duì)譯語(yǔ)料庫(kù)制作方法。在圖1中,由四邊形表示的塊主要通過(guò)cpu來(lái)實(shí)現(xiàn)其功能,由圓柱形表示的塊主要通過(guò)由rom、ram以及輔助存儲(chǔ)裝置等構(gòu)成的存儲(chǔ)裝置來(lái)實(shí)現(xiàn)其功能。此外,后述的圖2、圖4、圖15以及圖18也是同樣的。

輸入部(第1輸入部)1連接于同義轉(zhuǎn)換候選文生成部2,例如是受理預(yù)定操作、并向該對(duì)譯語(yǔ)料庫(kù)制作裝置m輸入數(shù)據(jù)的電路。輸入部1例如是具備被分配了預(yù)定功能的多個(gè)輸入開(kāi)關(guān)等的鍵盤和/或鼠標(biāo)等輸入裝置。另外,例如,輸入部1也可以是與外部設(shè)備通信數(shù)據(jù)的與上述同樣的接口部。所述預(yù)定操作例如包括:將第1語(yǔ)言的第1原文和用與所述第1語(yǔ)言不同的第2語(yǔ)言對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文向該對(duì)譯語(yǔ)料庫(kù)制作裝置m進(jìn)行輸入的所述第1原文以及第2原文的輸入操作、指示該對(duì)譯語(yǔ)料庫(kù)制作裝置m制作對(duì)譯語(yǔ)料庫(kù)的開(kāi)始命令的輸入操作等、在通過(guò)該對(duì)譯語(yǔ)料庫(kù)制作裝置m制作對(duì)譯語(yǔ)料庫(kù)方面所需的各種操作等。

同義轉(zhuǎn)換候選文生成部2連接于同義轉(zhuǎn)換文識(shí)別部3a,通過(guò)將由輸入部1受理的第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換(替換)成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,所述片段是通過(guò)按照預(yù)先設(shè)定的預(yù)定規(guī)則將語(yǔ)句進(jìn)行分割而形成的。所述預(yù)定規(guī)則可以是任意的規(guī)則。例如,所述預(yù)定規(guī)則可以是按多個(gè)(n個(gè))文字(例如兩個(gè)文字、三個(gè)文字等)將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述多個(gè)(n個(gè))文字。另外,例如,所述預(yù)定規(guī)則也可以是按單詞將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述單詞。另外,例如,所述預(yù)定規(guī)則也可以是按詞性將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述詞性的詞。另外,例如,所述預(yù)定規(guī)則也可以是按詞組將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述詞組。另外,例如,所述預(yù)定規(guī)則也可以是按語(yǔ)義類別(class)將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述語(yǔ)義類別的類別的詞。另外,例如,所述預(yù)定規(guī)則也可以是按詞素分析中的詞素將語(yǔ)句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述詞素。如上所述,針對(duì)第1語(yǔ)言的第1原文的同義轉(zhuǎn)換候選文,是將所述第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換(替換)成所述第1語(yǔ)言的其他表達(dá)而得到的語(yǔ)句,針對(duì)該第1語(yǔ)言的第1原文的同義轉(zhuǎn)換候選文不一定保證與所述第1原文的意思相同。因此,對(duì)該第1原文的同義轉(zhuǎn)換候選文是不參考所述第1原文的意思而生成的。此外,也可以將第1原文中的同一片段多次進(jìn)行同義轉(zhuǎn)換,但在將該同一片段多次進(jìn)行同義轉(zhuǎn)換時(shí),該同義轉(zhuǎn)換候選文的意思變得與所述第1原文不同的可能性會(huì)升高,因此,對(duì)同一片段的同義轉(zhuǎn)換次數(shù)例如優(yōu)選限定為一次或兩次等較少的次數(shù)。

更具體而言,例如如圖2所示,這樣的同義轉(zhuǎn)換候選文生成部2具備同義轉(zhuǎn)換數(shù)據(jù)庫(kù)存儲(chǔ)部(同義轉(zhuǎn)換db存儲(chǔ)部)21、同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇部(同義轉(zhuǎn)換db選擇部)22和同義轉(zhuǎn)換部23。

同義轉(zhuǎn)換db存儲(chǔ)部21連接于同義轉(zhuǎn)換db選擇部22,對(duì)同義轉(zhuǎn)換數(shù)據(jù)庫(kù)(同義轉(zhuǎn)換db)進(jìn)行存儲(chǔ)。同義轉(zhuǎn)換db是使第1語(yǔ)言的第1片段和用所述第1語(yǔ)言的其他表達(dá)來(lái)表達(dá)了所述第1片段的第2片段相互關(guān)聯(lián)而成的數(shù)據(jù)庫(kù)。例如,如圖3所示,第1語(yǔ)言的第1片段201-1、和與該第1片段201-1關(guān)聯(lián)的用所述第1語(yǔ)言的其他表達(dá)來(lái)表達(dá)了所述第1片段201-1的第2片段202-1,作為同義轉(zhuǎn)換數(shù)據(jù)庫(kù)ct中的一個(gè)數(shù)據(jù),存儲(chǔ)于同義轉(zhuǎn)換db存儲(chǔ)部21。

而且,在本實(shí)施方式中,如圖2所示,同義轉(zhuǎn)換db存儲(chǔ)部21存儲(chǔ)有按照預(yù)先設(shè)定的預(yù)定的分類法進(jìn)行分類而得到的多個(gè)同義轉(zhuǎn)換db。所述預(yù)定的分類法可以是與該對(duì)譯語(yǔ)料庫(kù)制作裝置m的用途相應(yīng)的適當(dāng)?shù)姆诸惙?。例如,所述預(yù)定的分類法可以是按體裁(genre)進(jìn)行分類的分類法,另外,例如也可以是按產(chǎn)業(yè)領(lǐng)域進(jìn)行分類的分類法。在圖2所示的例子中,所述多個(gè)同義轉(zhuǎn)換db包括用于對(duì)工廠所使用的片段進(jìn)行同義轉(zhuǎn)換的工廠用的同義轉(zhuǎn)換db、用于對(duì)旅行所使用的片段進(jìn)行同義轉(zhuǎn)換的旅行用的同義轉(zhuǎn)換db、用于對(duì)購(gòu)物所使用的片段進(jìn)行同義轉(zhuǎn)換的購(gòu)物用的同義轉(zhuǎn)換db、用于對(duì)醫(yī)療所使用的片段進(jìn)行同義轉(zhuǎn)換的醫(yī)療用的同義轉(zhuǎn)換db、以及用于對(duì)鐵路所使用的片段進(jìn)行同義轉(zhuǎn)換的鐵路用的同義轉(zhuǎn)換db等。為了分別存儲(chǔ)這些各個(gè)同義轉(zhuǎn)換db,同義轉(zhuǎn)換db存儲(chǔ)部21具備存儲(chǔ)所述工廠用的同義轉(zhuǎn)換db的工廠用同義轉(zhuǎn)換db存儲(chǔ)部211、存儲(chǔ)所述旅行用的同義轉(zhuǎn)換db的旅行用同義轉(zhuǎn)換db存儲(chǔ)部212、存儲(chǔ)所述購(gòu)物用的同義轉(zhuǎn)換db的購(gòu)物用同義轉(zhuǎn)換db存儲(chǔ)部213、存儲(chǔ)所述醫(yī)療用的同義轉(zhuǎn)換db的醫(yī)療用同義轉(zhuǎn)換db存儲(chǔ)部214、以及存儲(chǔ)所述鐵路用的同義轉(zhuǎn)換db的鐵路用同義轉(zhuǎn)換db存儲(chǔ)部215等。此外,某個(gè)分類的同義轉(zhuǎn)換db的數(shù)據(jù)也可以是其他分類的同義轉(zhuǎn)換db的數(shù)據(jù)。而且,在本實(shí)施方式中,對(duì)這些多個(gè)同義轉(zhuǎn)換db分別賦予用于確定并識(shí)別(標(biāo)識(shí))同義轉(zhuǎn)換db的標(biāo)識(shí)符(id)。

同義轉(zhuǎn)換db選擇部22分別連接于輸入部1和同義轉(zhuǎn)換部23,按照預(yù)定的選擇方法從同義轉(zhuǎn)換db存儲(chǔ)部21所存儲(chǔ)的多個(gè)同義轉(zhuǎn)換db中選擇與由輸入部1受理的第1原文對(duì)應(yīng)的同義轉(zhuǎn)換db。同義轉(zhuǎn)換db選擇部22將該選擇結(jié)果輸出給同義轉(zhuǎn)換部23。關(guān)于所述預(yù)定的選擇方法,只要能夠從同義轉(zhuǎn)換db選擇部22所存儲(chǔ)的多個(gè)同義轉(zhuǎn)換db中選擇出與由輸入部1受理的第1原文最匹配(match)的同義轉(zhuǎn)換db,則可以是任意的方法。例如,所述預(yù)定的選擇方法是從所述多個(gè)同義轉(zhuǎn)換db中選擇語(yǔ)言模型最接近的同義轉(zhuǎn)換db的方法(第1方式的選擇方法)。另外,例如,所述預(yù)定的選擇方法是從所述多個(gè)同義轉(zhuǎn)換db中選擇類別最相似的同義轉(zhuǎn)換db的方法(第2方式的選擇方法)。另外,例如,所述預(yù)定的選擇方法是從所述多個(gè)同義轉(zhuǎn)換db中選擇頻出詞匯或特有詞匯最相似的同義轉(zhuǎn)換db的方法(第3方式的選擇方法)。將在后面對(duì)這些選擇方法進(jìn)行更詳細(xì)的說(shuō)明。

同義轉(zhuǎn)換部23分別連接于輸入部1和同義轉(zhuǎn)換文識(shí)別部3a,通過(guò)基于由同義轉(zhuǎn)換db選擇部22選擇出的同義轉(zhuǎn)換db將由輸入部1受理的第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文。例如,在由輸入部1受理的第1原文包含圖3所示的第1語(yǔ)言的第1片段201-1、201-2的情況下,該第1原文的第1片段201-1被同義轉(zhuǎn)換成第1語(yǔ)言的第2片段202-1,從而生成對(duì)第1原文的一個(gè)同義轉(zhuǎn)換候選文,而且,所述第1原文的第1片段201-2被同義轉(zhuǎn)換成第1語(yǔ)言的第2片段202-2,從而生成對(duì)所述第1原文的另一個(gè)同義轉(zhuǎn)換候選文。因此,該情況下,同義轉(zhuǎn)換部23生成對(duì)第1原文的兩個(gè)同義轉(zhuǎn)換候選文。同義轉(zhuǎn)換部23將這些所生成的對(duì)第1原文的多個(gè)同義轉(zhuǎn)換候選文輸出給同義轉(zhuǎn)換文識(shí)別部3a。

同義轉(zhuǎn)換文識(shí)別部3a連接于對(duì)譯語(yǔ)料庫(kù)制作部4,從由同義轉(zhuǎn)換候選文生成部2生成的多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文。例如,同義轉(zhuǎn)換文識(shí)別部3a通過(guò)使用對(duì)同義轉(zhuǎn)換候選文的意思是否與第1原文的意思相同進(jìn)行識(shí)別(判定、辨別)的識(shí)別模型,從所述多個(gè)同義轉(zhuǎn)換候選文中識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文。

更具體而言,例如如圖4所示,這樣的同義轉(zhuǎn)換文識(shí)別部3a具備學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a、學(xué)習(xí)數(shù)據(jù)選擇部32a、模型生成部33和識(shí)別部34。

學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a連接于學(xué)習(xí)數(shù)據(jù)選擇部32a,對(duì)學(xué)習(xí)數(shù)據(jù)集進(jìn)行存儲(chǔ)。學(xué)習(xí)數(shù)據(jù)集包括多個(gè)數(shù)據(jù),該多個(gè)數(shù)據(jù)用于通過(guò)學(xué)習(xí)來(lái)生成對(duì)同義轉(zhuǎn)換候選文的意思是否與第1原文的意思相同進(jìn)行識(shí)別的識(shí)別模型。在本實(shí)施方式中,由于模型生成部33通過(guò)有監(jiān)督(supervised)的機(jī)器學(xué)習(xí)來(lái)生成識(shí)別模型,所以例如如圖5的(a)所示,語(yǔ)句301-1和表示該語(yǔ)句301-1在所述識(shí)別中是正解還是非正解的區(qū)別的正誤(正解與否)數(shù)據(jù)302-1,作為學(xué)習(xí)數(shù)據(jù)集lta中的一個(gè)數(shù)據(jù),存儲(chǔ)于學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a。另外,例如,如圖5的(b)所示,學(xué)習(xí)數(shù)據(jù)集ltb存儲(chǔ)于學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a,該學(xué)習(xí)數(shù)據(jù)集ltb具有與互不相同的多個(gè)片段分別對(duì)應(yīng)設(shè)置的多個(gè)片段域303(303-1、303-2、303-3、303-4、303-5、303-6、303-7、303-8、……)和登記有正誤數(shù)據(jù)的正誤數(shù)據(jù)域304,并按各個(gè)語(yǔ)句ln具有記錄(record)(n是正整數(shù))。在各片段域303中登記有表示該記錄的語(yǔ)句ln是否包含該片段域303的片段的片段標(biāo)志(flag)。片段標(biāo)志“1”表示該記錄的語(yǔ)句ln包含該片段域303的片段,片段標(biāo)志“0”表示該記錄的語(yǔ)句ln不包含該片段域303的片段。正誤數(shù)據(jù)在圖5的(b)中由正誤標(biāo)志來(lái)表示,正誤標(biāo)志“1”表示該記錄的語(yǔ)句ln在所述識(shí)別中是正解,正誤標(biāo)志“0”表示該記錄的語(yǔ)句ln在所述識(shí)別中是非正解。例如,在圖5的(b)所示的例子中,關(guān)于第1條記錄的語(yǔ)句l1,因?yàn)樵谄斡?03-1、303-2、303-3、303-4、303-5中登記有片段標(biāo)志“1”,所以由片段域303-1、303-2、303-3、303-4、303-5的各片段構(gòu)成,因?yàn)樵谡`數(shù)據(jù)域304中登記有正誤標(biāo)志“1”,所以在生成識(shí)別模型的機(jī)器學(xué)習(xí)中是正解的語(yǔ)句。

而且,在本實(shí)施方式中,如圖4所示,學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a與同義轉(zhuǎn)換db存儲(chǔ)部21同樣地,存儲(chǔ)有按照預(yù)先設(shè)定的預(yù)定的分類法進(jìn)行分類而得到的多個(gè)學(xué)習(xí)數(shù)據(jù)集。關(guān)于學(xué)習(xí)數(shù)據(jù)集的所述預(yù)定的分類法,由于能夠使同義轉(zhuǎn)換部23中的同義轉(zhuǎn)換的精度和識(shí)別部34中的識(shí)別的精度為同等精度,因此優(yōu)選與同義轉(zhuǎn)換db的所述預(yù)定的分類法相同,但也可以不一定相同。在圖4所示的例子中,所述多個(gè)學(xué)習(xí)數(shù)據(jù)集包括:工廠用的學(xué)習(xí)數(shù)據(jù)集,其用于通過(guò)在工廠所使用的文(語(yǔ)句,第1文)中以能夠從其同義轉(zhuǎn)換候選文中識(shí)別出同義轉(zhuǎn)換文的方式進(jìn)行學(xué)習(xí)來(lái)生成識(shí)別模型;旅行用的學(xué)習(xí)數(shù)據(jù)集,其用于通過(guò)在旅行所使用的文(第1文)中以能夠從其同義轉(zhuǎn)換候選文中識(shí)別出同義轉(zhuǎn)換文的方式進(jìn)行學(xué)習(xí)來(lái)生成識(shí)別模型;購(gòu)物用的學(xué)習(xí)數(shù)據(jù)集,其用于通過(guò)在購(gòu)物所使用的文(第1文)中以能夠從其同義轉(zhuǎn)換候選文中識(shí)別出同義轉(zhuǎn)換文的方式進(jìn)行學(xué)習(xí)來(lái)生成識(shí)別模型;醫(yī)療用的學(xué)習(xí)數(shù)據(jù)集,其用于通過(guò)在醫(yī)療所使用的文(第1文)中以能夠從其同義轉(zhuǎn)換候選文中識(shí)別出同義轉(zhuǎn)換文的方式進(jìn)行學(xué)習(xí)來(lái)生成識(shí)別模型;以及鐵路用的學(xué)習(xí)數(shù)據(jù)集,其用于通過(guò)在鐵路所使用的文(第1文)中以能夠從其同義轉(zhuǎn)換候選文中識(shí)別出同義轉(zhuǎn)換文的方式進(jìn)行學(xué)習(xí)來(lái)生成識(shí)別模型。為了分別存儲(chǔ)這些各個(gè)學(xué)習(xí)數(shù)據(jù)集,學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a具備存儲(chǔ)所述工廠用的學(xué)習(xí)數(shù)據(jù)集的工廠用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部311、存儲(chǔ)所述旅行用的學(xué)習(xí)數(shù)據(jù)集的旅行用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部312、存儲(chǔ)所述購(gòu)物用的學(xué)習(xí)數(shù)據(jù)集的購(gòu)物用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部313、存儲(chǔ)所述醫(yī)療用的學(xué)習(xí)數(shù)據(jù)集的醫(yī)療用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部314、以及存儲(chǔ)所述鐵路用的學(xué)習(xí)數(shù)據(jù)集的鐵路用學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部315等。此外,某個(gè)分類的學(xué)習(xí)數(shù)據(jù)集的數(shù)據(jù)也可以是其他分類的學(xué)習(xí)數(shù)據(jù)集的數(shù)據(jù)。如此,在本實(shí)施方式中,學(xué)習(xí)數(shù)據(jù)集的所述預(yù)定的分類法與同義轉(zhuǎn)換db的所述預(yù)定的分類法相同,對(duì)各學(xué)習(xí)數(shù)據(jù)集分別分配有對(duì)被分類成與該學(xué)習(xí)數(shù)據(jù)集同種類的同義轉(zhuǎn)換db賦予的id。例如,對(duì)所述工廠用的學(xué)習(xí)數(shù)據(jù)集分配有對(duì)所述工廠用的同義轉(zhuǎn)換db賦予的id,另外,例如,對(duì)所述醫(yī)療用的學(xué)習(xí)數(shù)據(jù)集分配有對(duì)所述醫(yī)療用的同義轉(zhuǎn)換db賦予的id。

學(xué)習(xí)數(shù)據(jù)選擇部32a分別連接于輸入部1和模型生成部33,按照預(yù)定的選擇方法從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a所存儲(chǔ)的多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇與由輸入部1受理的第1原文對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集。學(xué)習(xí)數(shù)據(jù)選擇部32a將該選擇結(jié)果輸出給模型生成部33。關(guān)于所述預(yù)定的選擇方法,只要能夠從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a所存儲(chǔ)的多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇出與由輸入部1受理的第1原文最匹配的學(xué)習(xí)數(shù)據(jù)集,則可以是任意的方法。在本實(shí)施方式中,學(xué)習(xí)數(shù)據(jù)選擇部32a可以采用與同義轉(zhuǎn)換db選擇部22同樣的選擇方法。再者,在學(xué)習(xí)數(shù)據(jù)集的選擇中,例如還可以采用從所述多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇文長(zhǎng)(語(yǔ)句長(zhǎng)度)最相似的學(xué)習(xí)數(shù)據(jù)集的方法(第4方式的選擇方法)來(lái)作為所述預(yù)定的選擇方法。

模型生成部33連接于識(shí)別部34,基于由學(xué)習(xí)數(shù)據(jù)選擇部32a選擇出的學(xué)習(xí)數(shù)據(jù)集,通過(guò)機(jī)器學(xué)習(xí)來(lái)生成所述識(shí)別模型。在機(jī)器學(xué)習(xí)中,例如使用深度學(xué)習(xí)(deeplearning)、多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)(neuralnetwork)等。模型生成部33將其生成的識(shí)別模型輸出給識(shí)別部34。

識(shí)別部34分別連接于同義轉(zhuǎn)換候選文生成部2和對(duì)譯語(yǔ)料庫(kù)制作部4,基于由模型生成部33生成的識(shí)別模型,從由同義轉(zhuǎn)換候選文生成部2生成的多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別一個(gè)或多個(gè)同義轉(zhuǎn)換文。識(shí)別部34將通過(guò)該識(shí)別而得到的一個(gè)或多個(gè)同義轉(zhuǎn)換文輸出給對(duì)譯語(yǔ)料庫(kù)制作部4。

對(duì)譯語(yǔ)料庫(kù)制作部4連接于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5,通過(guò)將由同義轉(zhuǎn)換文識(shí)別部3a識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和由輸入部1受理的第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文,用該生成的新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將該生成的新的成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作(更新)對(duì)譯語(yǔ)料庫(kù)。更詳細(xì)而言,在對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5中未存儲(chǔ)對(duì)譯語(yǔ)料庫(kù)的情況下,對(duì)譯語(yǔ)料庫(kù)制作部4用生成的所述新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),將該制作出的新的對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5。另一方面,在對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5中存儲(chǔ)有對(duì)譯語(yǔ)料庫(kù)的情況下,對(duì)譯語(yǔ)料庫(kù)制作部4通過(guò)將生成的所述新的成對(duì)文追加到對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5所存儲(chǔ)的已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作(更新)對(duì)譯語(yǔ)料庫(kù)。

接著,對(duì)本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m的工作進(jìn)行說(shuō)明。圖6是表示所述同義轉(zhuǎn)換候選文生成部中的同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇部的工作的流程圖。圖7是表示所述同義轉(zhuǎn)換候選文生成部中的同義轉(zhuǎn)換部的工作的流程圖。圖8是表示所述同義轉(zhuǎn)換文識(shí)別部中的學(xué)習(xí)數(shù)據(jù)選擇部的工作的流程圖。圖9是表示所述同義轉(zhuǎn)換文識(shí)別部中的模型生成部的工作的流程圖。圖10是表示所述同義轉(zhuǎn)換文識(shí)別部中的識(shí)別部的工作的流程圖。圖11是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第1方式的選擇方法的圖。圖11的(a)表示使用輸入語(yǔ)料庫(kù)的語(yǔ)言模型的情況,圖11的(b)表示不使用輸入語(yǔ)料庫(kù)的語(yǔ)言模型的情況。圖12是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第2方式的選擇方法的圖。圖13是用于說(shuō)明同義轉(zhuǎn)換數(shù)據(jù)庫(kù)以及學(xué)習(xí)數(shù)據(jù)集的第3方式的選擇方法的圖。圖14是用于使用一個(gè)具體例子來(lái)說(shuō)明對(duì)譯語(yǔ)料庫(kù)的制作的圖。圖14的(a)作為一例表示輸入語(yǔ)料庫(kù)所包含的第1原文和第2原文的成對(duì)文,圖14的(b)表示圖的14(a)所示的第1原文的片段,圖14的(c)表示針對(duì)圖14的(a)所示的第1原文的4個(gè)同義轉(zhuǎn)換候選文,圖14的(d)表示被判定為與圖14的(a)所示的第1原文的意思相同的兩個(gè)同義轉(zhuǎn)換候選文(正確文)、以及未被判定為與圖的14的(a)所示的第1原文的意思相同的兩個(gè)同義轉(zhuǎn)換候選文(錯(cuò)誤文),而且,圖14的(e)表示相對(duì)于圖14的(a)所示的第1原文制作出的對(duì)譯語(yǔ)料庫(kù)。

本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m大致通過(guò)下面的工作來(lái)制作對(duì)譯語(yǔ)料庫(kù)。首先,輸入部1受理第1語(yǔ)言的第1原文和用與所述第1語(yǔ)言不同的第2語(yǔ)言對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文(受理步驟)。接著,同義轉(zhuǎn)換候選文生成部2通過(guò)將由輸入部1在所述受理步驟中受理的所述第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文(同義轉(zhuǎn)換候選文生成步驟)。接著,同義轉(zhuǎn)換文識(shí)別部3a從由同義轉(zhuǎn)換候選文生成部2通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文,來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文(同義轉(zhuǎn)換文識(shí)別步驟)。接著,對(duì)譯語(yǔ)料庫(kù)制作部4通過(guò)將由同義轉(zhuǎn)換文識(shí)別部3a在所述同義轉(zhuǎn)換文識(shí)別步驟中識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和在所述受理步驟中受理的所述第2原文設(shè)為成對(duì)文,生成新的成對(duì)文,用生成的所述新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作(更新)對(duì)譯語(yǔ)料庫(kù)(對(duì)譯語(yǔ)料庫(kù)制作步驟)。而且,將該制作出的對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5。以下,使用附圖進(jìn)行更具體的說(shuō)明。

<輸入語(yǔ)料庫(kù)的受理以及同義轉(zhuǎn)換db的選擇>

本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m首先執(zhí)行受理輸入語(yǔ)料庫(kù)的工作,并執(zhí)行選擇同義轉(zhuǎn)換db的工作。在該輸入語(yǔ)料庫(kù)的受理工作以及同義轉(zhuǎn)換db的選擇工作中,在圖6中,首先,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)輸入部1受理輸入語(yǔ)料庫(kù)來(lái)取得輸入語(yǔ)料庫(kù)(s11)。輸入語(yǔ)料庫(kù)是匯集有使第1語(yǔ)言的互不相同的多個(gè)(n個(gè))第1原文和用所述第2語(yǔ)言對(duì)所述多個(gè)(n個(gè))第1原文分別進(jìn)行翻譯而得到的多個(gè)第2原文分別成對(duì)的多個(gè)(n個(gè))成對(duì)文而成的語(yǔ)料庫(kù)(n為正整數(shù))。第1原文和第2原文可以逐個(gè)從輸入部1輸入到對(duì)譯語(yǔ)料庫(kù)制作裝置m,但在本實(shí)施方式中,通過(guò)匯集有多個(gè)第1原文以及第2原文的輸入語(yǔ)料庫(kù),高效地將多個(gè)第1原文以及第2原文集中從輸入部1輸入到對(duì)譯語(yǔ)料庫(kù)制作裝置m。

接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換候選文生成部2,基于預(yù)定的基準(zhǔn)(選擇方法),選擇與輸入語(yǔ)料庫(kù)接近的同義轉(zhuǎn)換db(s12)。更具體而言,同義轉(zhuǎn)換候選文生成部2的同義轉(zhuǎn)換db選擇部22按照預(yù)定的選擇方法,從同義轉(zhuǎn)換db存儲(chǔ)部21所存儲(chǔ)的多個(gè)同義轉(zhuǎn)換db中,選擇與由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文對(duì)應(yīng)的同義轉(zhuǎn)換db。

所述預(yù)定的選擇方法可以使用上述第1~第3方式的選擇方法等。對(duì)于各方式的選擇方法,以下進(jìn)行更具體的說(shuō)明。

如上所述,第1方式的選擇方法是從多個(gè)同義轉(zhuǎn)換db中選擇語(yǔ)言模型最接近的同義轉(zhuǎn)換db的方法。在該第1方式的選擇方法中,首先,按同義轉(zhuǎn)換db存儲(chǔ)部21所存儲(chǔ)的各同義轉(zhuǎn)換db的各分類,預(yù)先制作各語(yǔ)言模型。因?yàn)榘锤鞣诸悂?lái)制作各語(yǔ)言模型,所以能夠針對(duì)各分類分別制作更準(zhǔn)確地反映了該分類的語(yǔ)言模型,能夠選擇更適合的同義轉(zhuǎn)換db。為了制作各語(yǔ)言模型,要按各同義轉(zhuǎn)換db的各分類準(zhǔn)備各語(yǔ)料庫(kù)。這些各個(gè)語(yǔ)料庫(kù)也可以分別匯集如上述那樣按各分類準(zhǔn)備的各學(xué)習(xí)數(shù)據(jù)集中的正解的語(yǔ)句來(lái)分別制作。之后,對(duì)于該第1方式的選擇方法,例如列舉下面的第1a方式和第1b方式這兩種方法。

在第1a方式中,同義轉(zhuǎn)換db選擇部22利用按各同義轉(zhuǎn)換db的各分類制作出的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類來(lái)求取由輸入部1受理的第1原文的語(yǔ)言模型。而且,同義轉(zhuǎn)換db選擇部22對(duì)按各同義轉(zhuǎn)換db的各分類求出的所述第1原文的語(yǔ)言模型進(jìn)行比較,選擇最接近的語(yǔ)言模型。

在本實(shí)施方式中,作為輸入語(yǔ)料庫(kù)而存在多個(gè)第1原文,因此,同義轉(zhuǎn)換db選擇部22對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文分別執(zhí)行上述的各處理,將被選的次數(shù)最多的語(yǔ)言模型最終選擇為所述最接近的語(yǔ)言模型。或者,同義轉(zhuǎn)換db選擇部22利用按各同義轉(zhuǎn)換db的各分類制作出的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類來(lái)求取由輸入部1受理的第1原文的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類來(lái)求取其平均值。然后,同義轉(zhuǎn)換db選擇部22對(duì)按各同義轉(zhuǎn)換db的各分類求出的各平均值進(jìn)行比較,最終選擇最接近的語(yǔ)言模型。

而且,同義轉(zhuǎn)換db選擇部22選擇與該選擇出的語(yǔ)言模型對(duì)應(yīng)的同義轉(zhuǎn)換db。

在第1b方式中,作為輸入語(yǔ)料庫(kù)而存在多個(gè)第1原文,因此,首先,同義轉(zhuǎn)換db選擇部22制作由輸入部1受理的輸入語(yǔ)料庫(kù)的語(yǔ)言模型。接著,同義轉(zhuǎn)換db選擇部22針對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文的各第1原文,利用按各同義轉(zhuǎn)換db的各分類制作出的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類來(lái)求取該第1原文的語(yǔ)言模型。然后,同義轉(zhuǎn)換db選擇部22選擇與輸入語(yǔ)料庫(kù)的語(yǔ)言模型最接近的語(yǔ)言模型。更詳細(xì)而言,同義轉(zhuǎn)換db選擇部22針對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文的各第1原文,對(duì)輸入語(yǔ)料庫(kù)的語(yǔ)言模型和按各同義轉(zhuǎn)換db的各分類求出的語(yǔ)言模進(jìn)行比較,選擇最接近的語(yǔ)言模型,將該被選的次數(shù)最多的語(yǔ)言模型最終選擇為與輸入語(yǔ)料庫(kù)的語(yǔ)言模型最接近的語(yǔ)言模型。然后,同義轉(zhuǎn)換db選擇部22選擇與該選擇出的語(yǔ)言模型對(duì)應(yīng)的同義轉(zhuǎn)換db。該第1b方式的選擇方法制作輸入語(yǔ)料庫(kù)的語(yǔ)言模型作為用于比較各同義轉(zhuǎn)換db的各分類的基準(zhǔn),因此與第1a方式的選擇方法相比,能夠從各同義轉(zhuǎn)換db的各分類中選擇與輸入語(yǔ)料庫(kù)更接近的同義轉(zhuǎn)換db的分類(即,同義轉(zhuǎn)換db)。

關(guān)于語(yǔ)言模型,只要能夠在語(yǔ)言模型間進(jìn)行比較,可以是任意的模型,在此對(duì)于使用了n-gram語(yǔ)言模型的情況,使用圖11來(lái)說(shuō)明第1a和第1b方式各自的一個(gè)具體例子。圖11的(a)表示第1b方式的情況,圖11的(b)表示第1a方式的情況。

n-gram語(yǔ)言模型作為統(tǒng)計(jì)語(yǔ)言模型之一是已知的,是求取第n個(gè)詞的出現(xiàn)概率的語(yǔ)言模型。例如,在制作旅行用的同義轉(zhuǎn)換db的語(yǔ)言模型(旅行用的語(yǔ)言模型)的情況下,首先準(zhǔn)備匯集有與旅行關(guān)聯(lián)使用的多個(gè)語(yǔ)句的旅行語(yǔ)料庫(kù)。接著,將該旅行語(yǔ)料庫(kù)作為母體(種群)來(lái)求出n-gram的出現(xiàn)概率。由此制作旅行用的語(yǔ)言模型。按各同義轉(zhuǎn)換db的各分類執(zhí)行這樣的語(yǔ)言模型的制作,按各同義轉(zhuǎn)換db的各分類制作語(yǔ)言模型。

在這樣的準(zhǔn)備之后,在第1b方式的選擇方法中,制作輸入語(yǔ)料庫(kù)的語(yǔ)言模型,針對(duì)輸入語(yǔ)料庫(kù)中的多個(gè)第1原文的各第1原文,利用按各同義轉(zhuǎn)換db的各分類制作出的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類求出該第1原文的語(yǔ)言模型。其結(jié)果的一例示出在圖11的(a)中。此外,第1原文的語(yǔ)言模型通過(guò)求取該第1原文所包含的n-gram、并將該求出的n-gram的出現(xiàn)概率全部相乘而求出。然后,同義轉(zhuǎn)換db選擇部22選擇與輸入語(yǔ)料庫(kù)的語(yǔ)言模型最接近的語(yǔ)言模型。在圖11的(a)所示的例子中,對(duì)于旅行的語(yǔ)言模型相對(duì)于輸入語(yǔ)料庫(kù)的語(yǔ)言模型和交通的語(yǔ)言模型相對(duì)于輸入語(yǔ)料庫(kù)的語(yǔ)言模型,在針對(duì)多個(gè)第1原文分別比較概率的數(shù)值時(shí),與交通的語(yǔ)言模型相比,在旅行的語(yǔ)言模型中,具有被判定為與輸入語(yǔ)料庫(kù)的語(yǔ)言模型接近的概率的數(shù)值的第1原文的數(shù)量更多。因此,選擇旅行的語(yǔ)言模型,并選擇旅行用的同義轉(zhuǎn)換db。

另一方面,在上述的準(zhǔn)備之后,在第1a方式的選擇方法中,針對(duì)輸入語(yǔ)料庫(kù)中的多個(gè)第1原文的各第1原文,利用按各同義轉(zhuǎn)換db的各分類制作出的語(yǔ)言模型,按各同義轉(zhuǎn)換db的各分類求出該第1原文的語(yǔ)言模型。其結(jié)果的一例示出在圖11的(b)中。然后,同義轉(zhuǎn)換db選擇部22選擇與輸入語(yǔ)料庫(kù)最接近的語(yǔ)言模型。在圖11的(b)所示的例子中,對(duì)于旅行的語(yǔ)言模型和交通的語(yǔ)言模型,在針對(duì)多個(gè)第1原文分別比較概率的數(shù)值時(shí),旅行的語(yǔ)言模型相比于交通的語(yǔ)言模型,具有較大的概率的數(shù)值的第1原文的數(shù)量更多。因此,選擇旅行的語(yǔ)言模型,并選擇旅行用的同義轉(zhuǎn)換db。此外,如上所述,也可以用它們的平均值進(jìn)行比較。

如上所述,第2方式的選擇方法是從多個(gè)同義轉(zhuǎn)換db中選擇類別最相似的同義轉(zhuǎn)換db的方法。類別化是指以共同的屬性將單詞進(jìn)行分組,類別是對(duì)該組賦予的名稱。例如,語(yǔ)義類別是以單詞的意思進(jìn)行分組而形成的組的名稱,在一例中,<地名>類別是由表示地名的單詞構(gòu)成的組的名稱,在另一例中,<貨幣>類別是由表示貨幣的單詞構(gòu)成的組的名稱。另外,例如,詞性類別是通過(guò)以單詞的詞性進(jìn)行分組而形成的組的名稱,在一例中,<名詞>類別是由名詞的單詞構(gòu)成的組的名稱,在另一例中,<動(dòng)詞>類別是由動(dòng)詞的單詞構(gòu)成的組的名稱。

在該第2方式的選擇方法中,更具體而言,同義轉(zhuǎn)換db選擇部22首先提取由輸入部1受理的第1原文所包含的類別。接著,同義轉(zhuǎn)換db選擇部22從各同義轉(zhuǎn)換db中、或者從按各同義轉(zhuǎn)換db的各分類預(yù)先準(zhǔn)備的各語(yǔ)料庫(kù)中,提取與所述提取出的包含在所述第1原文中的類別相同的類別并進(jìn)行計(jì)數(shù)。此外,在所述第1原文中包含多個(gè)類別的情況下,按各類別進(jìn)行計(jì)數(shù)。然后,同義轉(zhuǎn)換db選擇部22基于計(jì)數(shù)結(jié)果來(lái)選擇與第1原文最接近的同義轉(zhuǎn)換db。例如,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db。另外,例如,可選擇包含最多的與所述第1原文所包含的類別相同的類別的同義轉(zhuǎn)換db。另外,例如,按各個(gè)類別,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db,可選擇該被選的次數(shù)最多的同義轉(zhuǎn)換db。

在本實(shí)施方式中,作為輸入語(yǔ)料庫(kù)而存在多個(gè)第1原文,因此,同義轉(zhuǎn)換db選擇部22針對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文分別執(zhí)行上述的各處理,將被選的次數(shù)最多的同義轉(zhuǎn)換db最終選擇為所述最接近的同義轉(zhuǎn)換db?;蛘?,也可以對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文集中執(zhí)行上述的各處理。更詳細(xì)而言,同義轉(zhuǎn)換db選擇部22提取由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文所包含的類別。接著,同義轉(zhuǎn)換db選擇部22從各同義轉(zhuǎn)換db中、或者從按各同義轉(zhuǎn)換db的各分類預(yù)先準(zhǔn)備的各語(yǔ)料庫(kù)中,提取與所述提取出的包含在所述多個(gè)第1原文中的類別相同的類別并進(jìn)行計(jì)數(shù)。此外,在所述第1原文中包含多個(gè)類別的情況下,按各類別進(jìn)行計(jì)數(shù)。然后,同義轉(zhuǎn)換db選擇部22基于計(jì)數(shù)結(jié)果,選擇與所述多個(gè)第1原文(即輸入語(yǔ)料庫(kù))最接近的同義轉(zhuǎn)換db。例如,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db。另外,例如,可選擇包含最多的與所述多個(gè)第1原文所包含的類別相同的類別的同義轉(zhuǎn)換db。另外,例如,按各個(gè)類別,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db,可選擇該被選的次數(shù)最多的同義轉(zhuǎn)換db。

在一個(gè)具體例子中,例如,如圖12的(a)所示,從輸入語(yǔ)料庫(kù)cuin中的4個(gè)第1原文中,提取到兩個(gè)類別即<地名>類別cl1和<貨幣>類別cl2。輸入語(yǔ)料庫(kù)cuin包含3個(gè)<地名>類別cl1,并包含1個(gè)<貨幣>類別cl2。如圖12的(b)所示,旅行語(yǔ)料庫(kù)cutr包含兩個(gè)<地名>類別cl1,并包含1個(gè)<貨幣>類別cl2。另一方面,如圖12的(c)所示,工廠語(yǔ)料庫(kù)cufa既不包含<地名>類別cl1也不包含<貨幣>類別cl2,取而代之包含兩個(gè)<工具>類別cl3。因此,選擇旅行語(yǔ)料庫(kù)cutr,并選擇旅行用的同義轉(zhuǎn)換db。

如上所述,第3方式的選擇方法是從多個(gè)同義轉(zhuǎn)換db中選擇頻出詞匯或特有詞匯最相似的同義轉(zhuǎn)換db的方法。特有詞匯被預(yù)先設(shè)定。

在該第3方式的選擇方法中,更具體而言,同義轉(zhuǎn)換db選擇部22首先提取由輸入部1受理的第1原文所包含的特有詞匯。在該特有詞匯的提取中,優(yōu)選在提取之前,例如執(zhí)行將自然語(yǔ)言的語(yǔ)句分割成詞素(在一例中是在該語(yǔ)言中具有語(yǔ)義的最小單位)串的詞素分析等。接著,同義轉(zhuǎn)換db選擇部22從各同義轉(zhuǎn)換db中、或者從按各同義轉(zhuǎn)換db的各分類預(yù)先準(zhǔn)備的各語(yǔ)料庫(kù)中,提取與所述提取出的包含在所述第1原文中的特有詞匯相同的詞匯并進(jìn)行計(jì)數(shù)。此外,在所述第1原文中包含多個(gè)特有詞匯的情況下,按各特有詞匯進(jìn)行計(jì)數(shù)。然后,同義轉(zhuǎn)換db選擇部22基于計(jì)數(shù)結(jié)果,選擇與第1原文最接近的同義轉(zhuǎn)換db。例如,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db。另外,例如,可選擇包含最多的與所述第1原文所包含的特有詞匯相同的特有詞匯的同義轉(zhuǎn)換db。另外,例如,按各個(gè)特有詞匯,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db,可選擇該被選的次數(shù)最多的同義轉(zhuǎn)換db。

在本實(shí)施方式中,作為輸入語(yǔ)料庫(kù)而存在多個(gè)第1原文,因此,同義轉(zhuǎn)換db選擇部22針對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文分別執(zhí)行上述的各處理,將被選的次數(shù)最多的同義轉(zhuǎn)換db最終選擇為所述最接近的同義轉(zhuǎn)換db。此外,該情況下,也可以取代提取特有詞匯而從輸入語(yǔ)料庫(kù)中提取頻出詞匯,并使用該提取出的頻出詞匯。頻出詞匯例如是以預(yù)先設(shè)定的閾值(頻出次數(shù)閾值)以上的次數(shù)出現(xiàn)在輸入語(yǔ)料庫(kù)中的詞匯。關(guān)于所述頻出次數(shù)閾值,通過(guò)使用多個(gè)樣本,例如設(shè)定為2、3、5、10等為了恰當(dāng)?shù)剡x擇同義轉(zhuǎn)換db的、適當(dāng)?shù)闹?。另外,例如,也可以按各詞匯對(duì)出現(xiàn)次數(shù)進(jìn)行合計(jì),將出現(xiàn)次數(shù)為前兩成(前20%)的詞匯設(shè)定為頻出詞匯?;蛘?,也可以對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文集中執(zhí)行上述的各處理。更詳細(xì)而言,同義轉(zhuǎn)換db選擇部22提取由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文所包含的特有詞匯(或頻出詞匯)。接著,同義轉(zhuǎn)換db選擇部22從各同義轉(zhuǎn)換db中、或者從按各同義轉(zhuǎn)換db的各分類預(yù)先準(zhǔn)備的各語(yǔ)料庫(kù)中,提取與所述提取出的包含在所述多個(gè)第1原文中的特有詞匯(或頻出詞匯)相同的特有詞匯(或頻出詞匯)并進(jìn)行計(jì)數(shù)。此外,在所述第1原文中包含多個(gè)特有詞匯(或頻出詞匯)的情況下,按各特有詞匯(或頻出詞匯)進(jìn)行計(jì)數(shù)。然后,同義轉(zhuǎn)換db選擇部22基于計(jì)數(shù)結(jié)果,選擇與所述多個(gè)第1原文(即輸入語(yǔ)料庫(kù))最接近的同義轉(zhuǎn)換db。例如,可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db。另外,例如,可選擇包含最多的與所述多個(gè)第1原文所包含的特有詞匯(或頻出詞匯)相同的特有詞匯(或頻出詞匯)的同義轉(zhuǎn)換db。另外,例如,按各個(gè)特有詞匯(或頻出詞匯),可選擇具有最大計(jì)數(shù)值的同義轉(zhuǎn)換db,可選擇該被選的次數(shù)最多的同義轉(zhuǎn)換db。

在一個(gè)具體例子中,例如,對(duì)省略圖示的輸入語(yǔ)料庫(kù)進(jìn)行詞素分析,提取名詞,從這些提取出的名詞中提取出現(xiàn)兩次以上的名詞來(lái)作為頻出詞匯。名詞的提取結(jié)果以及頻出詞匯示出在圖13的(a)中。在所述輸入語(yǔ)料庫(kù)中,頻出詞匯fw1出現(xiàn)四次,頻出詞匯fw2出現(xiàn)四次,頻出詞匯fw3出現(xiàn)兩次,頻出詞匯fw4出現(xiàn)兩次,頻出詞匯fw5出現(xiàn)兩次,而且,頻出詞匯fw6出現(xiàn)兩次。對(duì)省略圖示的旅行語(yǔ)料庫(kù)進(jìn)行詞素分析,提取名詞,從這些提取出的名詞中提取出現(xiàn)兩次以上的名詞來(lái)作為頻出詞匯。名詞的提取結(jié)果以及頻出詞匯示出在圖13的(b)中。同樣地,對(duì)省略圖示的工廠語(yǔ)料庫(kù)進(jìn)行詞素分析,提取名詞,從這些提取出的名詞中提取出現(xiàn)兩次以上的名詞來(lái)作為頻出詞匯。名詞的提取結(jié)果以及頻出詞匯示出在圖13的(c)中。其結(jié)果是,在旅行語(yǔ)料庫(kù)中,頻出詞匯fw1的出現(xiàn)次數(shù)為兩次,頻出詞匯fw6的出現(xiàn)次數(shù)為兩次,而且,頻出詞匯fw2的出現(xiàn)次數(shù)為兩次。另一方面,在工廠語(yǔ)料庫(kù)中,頻出詞匯fw1~fw5未出現(xiàn),在工廠語(yǔ)料庫(kù)中,頻出詞匯fw6的出現(xiàn)次數(shù)為三次,頻出詞匯fw7的出現(xiàn)次數(shù)為兩次,而且,頻出詞匯fw8的出現(xiàn)次數(shù)為兩次。因此,選擇旅行語(yǔ)料庫(kù),并選擇旅行用的同義轉(zhuǎn)換db。

返回到圖6,接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換候選文生成部2的同義轉(zhuǎn)換db選擇部22,取得對(duì)通過(guò)處理s12選擇出的同義轉(zhuǎn)換db賦予的id,將該取得的id輸出給同義轉(zhuǎn)換文識(shí)別部3a(s13),結(jié)束該輸入語(yǔ)料庫(kù)的受理工作以及同義轉(zhuǎn)換db的選擇工作。

通過(guò)這樣的工作,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)輸入部1受理輸入語(yǔ)料庫(kù),并選擇與由輸入部1受理的輸入語(yǔ)料庫(kù)對(duì)應(yīng)的同義轉(zhuǎn)換db。

<同義轉(zhuǎn)換候選文的生成>

接著,本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m執(zhí)行生成同義轉(zhuǎn)換候選文的工作。在該同義轉(zhuǎn)換候選文的生成工作中,在圖7中,首先,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換候選文生成部2的同義轉(zhuǎn)換部23,從同義轉(zhuǎn)換db存儲(chǔ)部21取得通過(guò)上述的處理s11~處理s13的各處理所選擇出的同義轉(zhuǎn)換db(s21)。

接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)(n個(gè))第1原文全部進(jìn)行以下的處理s22以及處理s23(n為正整數(shù))。

在處理s22中,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換部23判定在由輸入部1受理的輸入語(yǔ)料庫(kù)中的第1原文所包含的多個(gè)片段中,是否存在與所述選擇出的同義轉(zhuǎn)換db的第1片段一致的片段,在該判定的結(jié)果是存在一致的片段的情況下,將所述第1原文所包含的所述一致的片段以替換成與所述同義轉(zhuǎn)換db的第1片段關(guān)聯(lián)的第2片段的方式進(jìn)行同義轉(zhuǎn)換(s22)。由此,對(duì)第1原文生成一個(gè)同義轉(zhuǎn)換候選文。

在處理s23中,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換部23判定在所述處理s22中進(jìn)行了處理后的所述第1原文是否還能夠?qū)ζ我灾脫Q的方式進(jìn)行同義轉(zhuǎn)換,在該判定的結(jié)果是能夠以置換的方式進(jìn)行同義轉(zhuǎn)換的情況下(s23:是),將處理返回到處理s22,另一方面,在結(jié)果為不能以置換的方式進(jìn)行同義轉(zhuǎn)換的情況下(s23:否),結(jié)束該同義轉(zhuǎn)換候選文的生成工作的處理。當(dāng)在處理s23中使處理返回到處理s22的情況下,進(jìn)一步對(duì)第1原文生成另一個(gè)同義轉(zhuǎn)換候選文。其結(jié)果是,對(duì)第1原文生成多個(gè)同義轉(zhuǎn)換候選文。此外,也可以限制同義轉(zhuǎn)換次數(shù)。即,在即使可以同義轉(zhuǎn)換但同義轉(zhuǎn)換次數(shù)達(dá)到了限制值的情況下,也結(jié)束同義轉(zhuǎn)換候選文的生成工作。同義轉(zhuǎn)換次數(shù)的限制值可以是包括1次的任意值。

使用圖14,列舉一個(gè)具體例子來(lái)說(shuō)明。在圖14中,在輸入語(yǔ)料庫(kù)中,如圖14的(a)所示,包含第1語(yǔ)言的第1原文os1和用第2語(yǔ)言對(duì)該第1原文os1進(jìn)行翻譯而得到的第2原文os2。該第1原文os1如圖14的(b)所示那樣由5個(gè)片段sd11~sd15構(gòu)成。在通過(guò)上述的處理s11~處理s13的各處理所選擇出的同義轉(zhuǎn)換db中,如下所述,第1片段sd11k和第2片段sd12k互相關(guān)聯(lián)(k在該例中為1~6的整數(shù))。對(duì)于與片段sd11一致的第1片段sd111(未圖示)(sd11=sd111),關(guān)聯(lián)有第2片段sd122(參照?qǐng)D14的(c))對(duì)于與片段sd13一致的第1片段sd112(未圖示),關(guān)聯(lián)有第2片段sd123(參照?qǐng)D14的(c))。再者,對(duì)于與片段sd13一致的第1片段sd115(未圖示)(sd13=sd115),關(guān)聯(lián)有null(空值)的第2片段sd125(參照?qǐng)D14的(c))對(duì)于與片段sd15一致的第1片段sd111(未圖示)(sd15=sd111),關(guān)聯(lián)有第2片段sd121(參照?qǐng)D14的(c))再者,對(duì)于與片段sd15一致的第1片段sd114(未圖示)(sd15=sd144),關(guān)聯(lián)有第2片段sd124(參照?qǐng)D14的(c)參照)再者,對(duì)于與片段sd15一致的第1片段sd116(未圖示)(sd15=sd116),關(guān)聯(lián)有第2片段sd126(參照?qǐng)D14的(c))

在這樣的情況下,如圖14的(b)以及圖的14(c)所示,在第1原文os1中,通過(guò)處理s22以及處理s23,片段sd15被同義轉(zhuǎn)換成第2片段sd121,從該第1原文os1生成同義轉(zhuǎn)換候選文cs11。通過(guò)接下來(lái)的處理s22以及處理s23,片段sd11被同義轉(zhuǎn)換成第2片段sd122,從第1原文os1生成同義轉(zhuǎn)換候選文cs12。通過(guò)接下來(lái)的處理s22以及處理s23,片段sd13、sd15分別被同義轉(zhuǎn)換成第2片段sd123、sd124,從第1原文os1生成同義轉(zhuǎn)換候選文cs13。然后,通過(guò)接下來(lái)的處理s22以及處理s23,片段sd13、sd15分別被同義轉(zhuǎn)換成第2片段sd125、sd126,從第1原文os1生成同義轉(zhuǎn)換候選文cs14。如此,從1個(gè)第1原文os1生成4個(gè)同義轉(zhuǎn)換候選文cs11~cs14。

通過(guò)這樣的工作,對(duì)譯語(yǔ)料庫(kù)制作裝置m對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文分別生成多個(gè)同義轉(zhuǎn)換候選文。

<學(xué)習(xí)數(shù)據(jù)集的選擇>

接著,本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m執(zhí)行選擇學(xué)習(xí)數(shù)據(jù)集的工作。在該學(xué)習(xí)數(shù)據(jù)集的選擇工作中,在圖8中,首先,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換文識(shí)別部3a的學(xué)習(xí)數(shù)據(jù)選擇部32a,從同義轉(zhuǎn)換db選擇部22取得在上述的處理s13中由同義轉(zhuǎn)換db選擇部22所取得的同義轉(zhuǎn)換db的id(s31)。

然后,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)學(xué)習(xí)數(shù)據(jù)選擇部32a,從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a所存儲(chǔ)的多個(gè)學(xué)習(xí)數(shù)據(jù)集中,選擇具有通過(guò)該處理s31取得的id的學(xué)習(xí)數(shù)據(jù)集(s32),結(jié)束該學(xué)習(xí)數(shù)據(jù)集的選擇工作的處理。

通過(guò)這樣的工作,對(duì)譯語(yǔ)料庫(kù)制作裝置m選擇與由輸入部1受理的輸入語(yǔ)料庫(kù)對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集。

此外,在上述中,對(duì)互相對(duì)應(yīng)的同分類的同義轉(zhuǎn)換db和學(xué)習(xí)數(shù)據(jù)集賦予相同的id,基于通過(guò)同義轉(zhuǎn)換db的選擇工作選擇出的同義轉(zhuǎn)換db的id,而選擇了學(xué)習(xí)數(shù)據(jù)集,但也可以不使用id,而通過(guò)與同義轉(zhuǎn)換db的選擇工作同樣的處理,從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a所存儲(chǔ)的多個(gè)學(xué)習(xí)數(shù)據(jù)集中,選擇與由輸入部1受理的輸入語(yǔ)料庫(kù)對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集。

即,在第1方式的選擇方法中,通過(guò)與同義轉(zhuǎn)換db的選擇工作中的第1方式的選擇方法同樣的處理,從多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇語(yǔ)言模型最接近的學(xué)習(xí)數(shù)據(jù)集。在第2方式的選擇方法中,通過(guò)與同義轉(zhuǎn)換db的選擇工作中的第2方式的選擇方法同樣的處理,從多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇類別最相似的學(xué)習(xí)數(shù)據(jù)集。在第3方式的選擇方法中,通過(guò)與同義轉(zhuǎn)換db的選擇工作中的第3方式的選擇方法同樣的處理,從多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇與頻出詞匯或特有詞匯最相似的學(xué)習(xí)數(shù)據(jù)集。

在此,在學(xué)習(xí)數(shù)據(jù)集的選擇工作中,還可以采用下面的第4方式的選擇方法。該第4方式的選擇方法是從多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇文長(zhǎng)最相似的學(xué)習(xí)數(shù)據(jù)集的方法。文長(zhǎng)例如是總文字?jǐn)?shù)。另外,例如,文長(zhǎng)是總單詞數(shù)。

在該第4方式的選擇方法中,更具體而言,學(xué)習(xí)數(shù)據(jù)選擇部32a首先求取由輸入部1受理的第1原文的文長(zhǎng)。然后,學(xué)習(xí)數(shù)據(jù)選擇部32a按各學(xué)習(xí)數(shù)據(jù)集,求取與所求出的所述第1原文的文長(zhǎng)之間的差異,選擇具有與所求出的所述第1原文的文長(zhǎng)最接近的文長(zhǎng)的學(xué)習(xí)數(shù)據(jù)集。該情況下,學(xué)習(xí)數(shù)據(jù)集的文長(zhǎng)例如是在該學(xué)習(xí)數(shù)據(jù)集中最頻出的文長(zhǎng)。或者,學(xué)習(xí)數(shù)據(jù)選擇部32a按各學(xué)習(xí)數(shù)據(jù)集,求取該學(xué)習(xí)數(shù)據(jù)集中的各數(shù)據(jù)分別與所求出的所述第1原文的文長(zhǎng)之間的各差異并求取其平均差異,選擇具有所求出的所述各平均差異中的最小的平均差異的學(xué)習(xí)數(shù)據(jù)集,作為與所述第1原文的文長(zhǎng)最接近的學(xué)習(xí)數(shù)據(jù)集。

在本實(shí)施方式中,作為輸入語(yǔ)料庫(kù)而存在多個(gè)第1原文,因此,學(xué)習(xí)數(shù)據(jù)選擇部32a針對(duì)由輸入部1受理的輸入語(yǔ)料庫(kù)中的多個(gè)第1原文分別執(zhí)行上述的各處理,將被選的次數(shù)最多的學(xué)習(xí)數(shù)據(jù)集最終選擇為所述最接近的學(xué)習(xí)數(shù)據(jù)集。或者,學(xué)習(xí)數(shù)據(jù)選擇部32a求取由輸入部1受理的輸入語(yǔ)料庫(kù)的文長(zhǎng),按各學(xué)習(xí)數(shù)據(jù)集求取與所求出的所述輸入語(yǔ)料庫(kù)的文長(zhǎng)之間的差異,選擇具有與所求出的所述輸入語(yǔ)料庫(kù)的文長(zhǎng)最接近的文長(zhǎng)的學(xué)習(xí)數(shù)據(jù)集。該情況下,輸入語(yǔ)料庫(kù)的文長(zhǎng)例如是在該輸入語(yǔ)料庫(kù)中最頻出的文長(zhǎng)。

<識(shí)別模型的生成>

接著,本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m執(zhí)行生成識(shí)別模型的工作。在該識(shí)別模型的生成工作中,在圖9中,首先,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換文識(shí)別部3a的模型生成部33,從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a取得通過(guò)上述的處理s31以及處理s32的各處理所選擇出的學(xué)習(xí)數(shù)據(jù)集(s41)。

接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m利用模型生成部33,基于由學(xué)習(xí)數(shù)據(jù)選擇部32a選擇出的學(xué)習(xí)數(shù)據(jù)集,通過(guò)基于預(yù)定的基準(zhǔn)(特性)進(jìn)行機(jī)器學(xué)習(xí)來(lái)生成識(shí)別模型(s42)。例如,在詞素分析之后,將n-gram語(yǔ)言模型和/或詞袋(bag-of-words)模型等的詞匯的出現(xiàn)頻度等作為特性,通過(guò)深度學(xué)習(xí)來(lái)形成識(shí)別模型。

通過(guò)這樣的工作,對(duì)譯語(yǔ)料庫(kù)制作裝置m在同義轉(zhuǎn)換文識(shí)別部3a生成識(shí)別模型。

<同義轉(zhuǎn)換文的識(shí)別以及對(duì)譯語(yǔ)料庫(kù)的制作>

接著,本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m執(zhí)行基于識(shí)別模型從同義轉(zhuǎn)換候選文中識(shí)別同義轉(zhuǎn)換文的工作,而且,執(zhí)行基于該識(shí)別結(jié)果制作對(duì)譯語(yǔ)料庫(kù)的工作。在該同義轉(zhuǎn)換文的識(shí)別工作以及對(duì)譯語(yǔ)料庫(kù)的制作工作中,在圖10中,首先,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)同義轉(zhuǎn)換文識(shí)別部3a的識(shí)別部34,取得由模型生成部33生成的識(shí)別模型(s51)。

接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m利用識(shí)別部34,取得通過(guò)上述的處理s21~處理s23的各處理所生成的多個(gè)同義轉(zhuǎn)換候選文(s52)。

接著,對(duì)譯語(yǔ)料庫(kù)制作裝置m對(duì)通過(guò)該處理s52取得的多個(gè)(m個(gè))同義轉(zhuǎn)換候選文全部進(jìn)行以下的處理s53(m為正整數(shù))。

在該處理s53中,對(duì)譯語(yǔ)料庫(kù)制作裝置m基于通過(guò)上述的處理s41~處理s42生成并通過(guò)處理s51取得的識(shí)別模型,判定是否作為同義文是正確文。在該判定的結(jié)果為作為同義文是正確文的情況下(s53:是),識(shí)別部34將判定對(duì)象的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,另一方面,在判定為不同義而不是正確文的情況下(s53:否),識(shí)別部34不將判定對(duì)象的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文。

例如,在圖14所示的一個(gè)具體例子中,對(duì)圖14的(c)所示的4個(gè)同義轉(zhuǎn)換候選文cs11~cs14分別執(zhí)行處理s53,其結(jié)果是,如圖14的(d)所示,兩個(gè)同義轉(zhuǎn)換候選文cs11、cs13作為同義文而被設(shè)為正確文,并被設(shè)為同義轉(zhuǎn)換文,另一方面,兩個(gè)同義轉(zhuǎn)換候選文cs12、cs14并不是相同含義而被設(shè)為錯(cuò)誤文(非正確文)。

通過(guò)這樣的處理,識(shí)別部34基于由模型生成部33生成的識(shí)別模型,從由同義轉(zhuǎn)換候選文生成部2生成的多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文。

接下來(lái),對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)對(duì)譯語(yǔ)料庫(kù)制作部4,基于上述的處理s53的識(shí)別結(jié)果來(lái)制作新語(yǔ)料庫(kù),將該制作出的新語(yǔ)料庫(kù)與對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5所存儲(chǔ)的已有的對(duì)譯語(yǔ)料庫(kù)成對(duì)地(進(jìn)行關(guān)聯(lián)地)存儲(chǔ)于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5,從而制作對(duì)譯語(yǔ)料庫(kù)(s54),結(jié)束該同義轉(zhuǎn)換文的識(shí)別工作以及對(duì)譯語(yǔ)料庫(kù)的制作工作。更具體而言,對(duì)譯語(yǔ)料庫(kù)制作部4通過(guò)將由上述的處理s53識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和由上述的處理s11受理的第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文。例如,在圖14所示的一個(gè)具體例子中,被設(shè)為正確文并被設(shè)為同義轉(zhuǎn)換文的、圖14的(d)所示的同義轉(zhuǎn)換候選文cs11和圖14的(a)所示的第2原文os2,如圖14的(e)的中部所示那樣被設(shè)為新的成對(duì)文;被設(shè)為正確文并被設(shè)為同義轉(zhuǎn)換文的、圖14的(d)所示的同義轉(zhuǎn)換候選文cs13和圖14的(a)所示的第2原文os2,如圖14的(e)的下部所示那樣被設(shè)為新的成對(duì)文。此外,在上述中是一對(duì)一地設(shè)為新的對(duì),但也可以將被設(shè)為同義轉(zhuǎn)換文的同義轉(zhuǎn)換候選文cs11、cs13和第2原文os2設(shè)為多對(duì)一的新的成對(duì)文。而且,針對(duì)輸入語(yǔ)料庫(kù)中的多個(gè)(n個(gè))第1原文和第2原文分別執(zhí)行這樣的處理,收集與輸入語(yǔ)料庫(kù)中的多個(gè)(n個(gè))第1原文和第2原文分別對(duì)應(yīng)的多個(gè)新的成對(duì)文,將其設(shè)為新語(yǔ)料庫(kù)。此外,在該新語(yǔ)料庫(kù)中,也可以包含輸入語(yǔ)料庫(kù)本身。然后,對(duì)譯語(yǔ)料庫(kù)制作部4通過(guò)將如此制作出的新語(yǔ)料庫(kù)和對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5所存儲(chǔ)的已有的對(duì)譯語(yǔ)料庫(kù)成對(duì)地(進(jìn)行關(guān)聯(lián)地)存儲(chǔ)于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5,從而制作對(duì)譯語(yǔ)料庫(kù)。此外,在對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5中未存儲(chǔ)已有的對(duì)譯語(yǔ)料庫(kù)的情況下,對(duì)譯語(yǔ)料庫(kù)制作部4也可以將如此制作出的新語(yǔ)料庫(kù)作為新的對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)于對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5。

通過(guò)這樣的工作,對(duì)譯語(yǔ)料庫(kù)制作裝置m制作對(duì)譯語(yǔ)料庫(kù)。

如上所述,本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m和其所安裝的對(duì)譯語(yǔ)料庫(kù)制作方法以及對(duì)譯語(yǔ)料庫(kù)制作程序能夠自動(dòng)地生成同義轉(zhuǎn)換文,能夠制作匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。特別是,通常在匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)的制作中,由于成對(duì)文的收集需要工夫和/或時(shí)間,因此需要花費(fèi)較大的成本。然而,上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序如上所述,能夠自動(dòng)地生成語(yǔ)句,因此能夠抑制成本的增加,能夠降低收集一個(gè)成對(duì)文所需的單位成本(單價(jià))。

在此,在所述專利文獻(xiàn)3中,例如提出了在機(jī)器翻譯裝置的前處理中使用的、與用于將被輸入的源表達(dá)變換成(同義轉(zhuǎn)換成)意思相同且適合于后續(xù)處理的其他表達(dá)的自動(dòng)同義轉(zhuǎn)換裝置、自動(dòng)同義轉(zhuǎn)換方法以及同義轉(zhuǎn)換處理程序有關(guān)的技術(shù)。更具體而言,所述專利文獻(xiàn)3所公開(kāi)的自動(dòng)同義轉(zhuǎn)換裝置包括:表達(dá)片段存儲(chǔ)單元,其用于將在預(yù)定語(yǔ)言的第1用例文(例句)群中出現(xiàn)的表達(dá)片段,與所述表達(dá)片段各自在所述第1用例文群中的出現(xiàn)頻度數(shù)一起進(jìn)行存儲(chǔ);同義轉(zhuǎn)換文存儲(chǔ)單元,其用于將與所述預(yù)定語(yǔ)言的第2用例文群中的用例文分別對(duì)應(yīng)的一個(gè)或者多個(gè)同義轉(zhuǎn)換文,與表示得到該同義轉(zhuǎn)換文時(shí)的同義轉(zhuǎn)換的方式的同義轉(zhuǎn)換信息一起進(jìn)行存儲(chǔ);同義轉(zhuǎn)換信息存儲(chǔ)單元,其用于將表示從所述第2用例文群中的用例文向同義轉(zhuǎn)換文同義轉(zhuǎn)換的方式的同義轉(zhuǎn)換信息,與這些同義轉(zhuǎn)換信息的應(yīng)用頻度一起進(jìn)行存儲(chǔ);檢索單元,其接收成為同義轉(zhuǎn)換對(duì)象的原文,從所述同義轉(zhuǎn)換文存儲(chǔ)單元所存儲(chǔ)的同義轉(zhuǎn)換文中檢索與所述原文共用所述表達(dá)片段存儲(chǔ)單元所存儲(chǔ)的表達(dá)片段中的至少一個(gè)片段的同義轉(zhuǎn)換文;評(píng)價(jià)單元,其用于針對(duì)由所述檢索單元檢索出的各個(gè)同義轉(zhuǎn)換文與對(duì)應(yīng)的原來(lái)的用例文之間的同義轉(zhuǎn)換以及與所述原文之間的同義轉(zhuǎn)換,對(duì)基于所述同義轉(zhuǎn)換信息存儲(chǔ)單元所存儲(chǔ)的同義轉(zhuǎn)換信息的應(yīng)用頻度而通過(guò)預(yù)先確定計(jì)算方法而算出的妥當(dāng)性評(píng)分進(jìn)行評(píng)價(jià);以及原文同義轉(zhuǎn)換單元,其用于通過(guò)將在所述同義轉(zhuǎn)換文存儲(chǔ)單元中與由所述評(píng)價(jià)單元評(píng)價(jià)得到的妥當(dāng)性評(píng)分滿足預(yù)定條件的同義轉(zhuǎn)換文關(guān)聯(lián)的同義轉(zhuǎn)換信息反向應(yīng)用于所述原文,生成對(duì)所述原文的同義轉(zhuǎn)換文。

如此,所述專利文獻(xiàn)3所公開(kāi)的自動(dòng)同義轉(zhuǎn)換裝置,是生成將輸入到機(jī)器翻譯裝置的源表達(dá)同義轉(zhuǎn)換成了對(duì)所述機(jī)器翻譯裝置而言易于翻譯的表達(dá)的同義轉(zhuǎn)換文的裝置。因此,所述專利文獻(xiàn)3所公開(kāi)的自動(dòng)同義轉(zhuǎn)換裝置,對(duì)一個(gè)輸入文僅生成一個(gè)同義轉(zhuǎn)換文而不生成多個(gè)同義轉(zhuǎn)換文。再者,所述專利文獻(xiàn)3所公開(kāi)的自動(dòng)同義轉(zhuǎn)換裝置并不將該生成的同義轉(zhuǎn)換文追加到對(duì)譯語(yǔ)料庫(kù)中,不生成對(duì)譯語(yǔ)料庫(kù)。因此,所述專利文獻(xiàn)3既沒(méi)有公開(kāi)也沒(méi)有啟示上述的實(shí)施方式。

另外,在所述專利文獻(xiàn)4中,提出了為聲音對(duì)話系統(tǒng)制作類似文(相似文)的技術(shù)。更具體而言,所述專利文獻(xiàn)4所公開(kāi)的裝置是制作相同意圖的類似文的裝置,使計(jì)算機(jī)作為如下的單元發(fā)揮功能:重點(diǎn)(seed)文分析單元,其檢索重點(diǎn)文(核心文)中使任意的相同意圖文產(chǎn)生關(guān)系的重點(diǎn)詞(核心詞);近義詞檢索單元,其使用近義詞數(shù)據(jù)庫(kù),檢索與重點(diǎn)詞類似的一個(gè)以上的近義詞;重點(diǎn)詞同現(xiàn)向量算出單元,其參照所述相同意圖文的集合,以各語(yǔ)境詞(上下文詞語(yǔ))作為向量的要素,算出由涉及重點(diǎn)詞的各語(yǔ)境詞的出現(xiàn)頻度構(gòu)成的重點(diǎn)詞同現(xiàn)向量;近義詞同現(xiàn)向量算出單元,其按照大量的一般文集合,以各語(yǔ)境詞為向量的要素,算出由涉及各近義詞的各語(yǔ)境詞的出現(xiàn)頻度構(gòu)成的近義詞同現(xiàn)向量;近義詞選擇單元,其與對(duì)于重點(diǎn)詞的重點(diǎn)詞同現(xiàn)向量進(jìn)行比較,選擇成為預(yù)定閾值以上的類似度的近義詞同現(xiàn)向量的近義詞;以及類似文制作單元,其制作重點(diǎn)詞和各近義詞同現(xiàn)(同時(shí)出現(xiàn))的類似文。

如此,所述專利文獻(xiàn)4是與聲音對(duì)話系統(tǒng)有關(guān)的文獻(xiàn),未設(shè)想機(jī)器翻譯。因此,在所述專利文獻(xiàn)4中,未制作對(duì)譯語(yǔ)料庫(kù)。而且,所述專利文獻(xiàn)4所公開(kāi)的裝置是制作相同意圖的類似文的裝置,因此不限于使所制作出的類似文的意思必須與其原來(lái)文的意思相同。因此,所述專利文獻(xiàn)4既沒(méi)有公開(kāi)也沒(méi)有啟示上述的實(shí)施方式。

另外,上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序從同義轉(zhuǎn)換db存儲(chǔ)部21所存儲(chǔ)的多個(gè)同義轉(zhuǎn)換db中,選擇與由輸入部1受理的第1原文對(duì)應(yīng)的同義轉(zhuǎn)換db,基于該選擇出的同義轉(zhuǎn)換db來(lái)生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,因此,能夠針對(duì)所述第1原文生成更適合的同義轉(zhuǎn)換候選文,能夠制作更高精度的對(duì)譯語(yǔ)料庫(kù)。

另外,上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a所存儲(chǔ)的多個(gè)學(xué)習(xí)數(shù)據(jù)集中,選擇與由輸入部1受理的第1原文對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集,通過(guò)基于該選擇出的所述學(xué)習(xí)數(shù)據(jù)集生成的識(shí)別模型,從所述多個(gè)同義轉(zhuǎn)換候選文中識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文,因此,能夠針對(duì)所述第1原文識(shí)別出更適合的同義轉(zhuǎn)換文,能夠制作更高精度的對(duì)譯語(yǔ)料庫(kù)。

此外,在上述的實(shí)施方式中,對(duì)譯語(yǔ)料庫(kù)制作裝置m在學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a中存儲(chǔ)按照預(yù)定的分類法進(jìn)行分類而得到的多個(gè)學(xué)習(xí)數(shù)據(jù)集,從這些多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇了與由輸入部1受理的第1原文對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集,但也可以不進(jìn)行分類而存儲(chǔ)包括屬于各種分類的多個(gè)數(shù)據(jù)的一個(gè)學(xué)習(xí)數(shù)據(jù)集,從該一個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇與由輸入部1受理的第1原文對(duì)應(yīng)的數(shù)據(jù),制作用于實(shí)際生成識(shí)別模型的學(xué)習(xí)數(shù)據(jù)集。對(duì)于具備這樣的變形形式的同義轉(zhuǎn)換文識(shí)別部的對(duì)譯語(yǔ)料庫(kù)制作裝置m,以下進(jìn)行更具體的說(shuō)明。

圖15是表示所述對(duì)譯語(yǔ)料庫(kù)制作裝置中的同義轉(zhuǎn)換文識(shí)別部的變形形式的構(gòu)成的框圖。圖16是用于說(shuō)明所述變形形式的同義轉(zhuǎn)換文識(shí)別部的工作的圖。

在該變形形式中,對(duì)譯語(yǔ)料庫(kù)制作裝置m中,取代具備上述的同義轉(zhuǎn)換文識(shí)別部3a而具備同義轉(zhuǎn)換文識(shí)別部3b。即,如圖1所示,具備該變形形式的同義轉(zhuǎn)換文識(shí)別部3b的對(duì)譯語(yǔ)料庫(kù)制作裝置m具備輸入部1、同義轉(zhuǎn)換候選文生成部2、同義轉(zhuǎn)換文識(shí)別部3b、對(duì)譯語(yǔ)料庫(kù)制作部4和對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5。這些輸入部1、同義轉(zhuǎn)換候選文生成部2、對(duì)譯語(yǔ)料庫(kù)制作部4以及對(duì)譯語(yǔ)料庫(kù)存儲(chǔ)部5與上述是同樣的,因此省略其說(shuō)明。

例如如圖15所示,該變形形式的同義轉(zhuǎn)換文識(shí)別部3b具備學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31b、學(xué)習(xí)數(shù)據(jù)選擇部32b、模型生成部33和識(shí)別部34。這些模型生成部33以及識(shí)別部34與上述是同樣的,因此省略其說(shuō)明。

學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31b連接于學(xué)習(xí)數(shù)據(jù)選擇部32b,存儲(chǔ)學(xué)習(xí)數(shù)據(jù)集。學(xué)習(xí)數(shù)據(jù)集包括多個(gè)數(shù)據(jù),該多個(gè)數(shù)據(jù)用于通過(guò)學(xué)習(xí)來(lái)生成對(duì)同義轉(zhuǎn)換候選文的意思是否與第1原文的意思相同進(jìn)行識(shí)別的識(shí)別模型,但在該變形形式中,是不進(jìn)行分類而包括屬于各種分類的多個(gè)數(shù)據(jù)的一個(gè)數(shù)據(jù)集。例如,該變形形式的學(xué)習(xí)數(shù)據(jù)集包括上述的包含在工廠用的學(xué)習(xí)數(shù)據(jù)集中的多個(gè)數(shù)據(jù)、包含在旅行用的學(xué)習(xí)數(shù)據(jù)集中的多個(gè)數(shù)據(jù)、包含在購(gòu)物用的學(xué)習(xí)數(shù)據(jù)集的多個(gè)數(shù)據(jù)、包含在醫(yī)療用的學(xué)習(xí)數(shù)據(jù)集中的多個(gè)數(shù)據(jù)、以及包含在鐵路用的學(xué)習(xí)數(shù)據(jù)集中的多個(gè)數(shù)據(jù)。該變形形式的學(xué)習(xí)數(shù)據(jù)集的一個(gè)具體例子作為學(xué)習(xí)數(shù)據(jù)集ltc示出在圖16中。在圖16所示的例子中,例如,數(shù)據(jù)305-1是屬于旅行分類的數(shù)據(jù),數(shù)據(jù)305-4是屬于購(gòu)物分類的數(shù)據(jù),數(shù)據(jù)305-8是屬于工廠分類的數(shù)據(jù)。

學(xué)習(xí)數(shù)據(jù)選擇部32b分別連接于輸入部1和模型生成部33,按照預(yù)定的選擇方法從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31b所存儲(chǔ)的學(xué)習(xí)數(shù)據(jù)集中選擇與由輸入部1受理的第1原文對(duì)應(yīng)的數(shù)據(jù)。關(guān)于所述預(yù)定的選擇方法,例如可以采用與上述的學(xué)習(xí)數(shù)據(jù)選擇部32a所使用的選擇方法同樣的選擇方法。學(xué)習(xí)數(shù)據(jù)選擇部32b將該選擇結(jié)果輸出給模型生成部33。

具備這樣的變形形式的同義轉(zhuǎn)換文識(shí)別部3b的對(duì)譯語(yǔ)料庫(kù)制作裝置m,在同義轉(zhuǎn)換db的選擇工作中,執(zhí)行圖6所示的上述的處理s11以及處理s12(不執(zhí)行處理s13),在同義轉(zhuǎn)換候選文的生成工作中,執(zhí)行圖7所示的上述的處理s21~處理s23。

接下來(lái),該對(duì)譯語(yǔ)料庫(kù)制作裝置m在從學(xué)習(xí)數(shù)據(jù)集中選擇數(shù)據(jù)的數(shù)據(jù)選擇工作中,取代執(zhí)行圖8所示的上述的處理s31以及處理s32,而通過(guò)同義轉(zhuǎn)換文識(shí)別部3b的學(xué)習(xí)數(shù)據(jù)選擇部32b,按照預(yù)定的選擇方法從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31b所存儲(chǔ)的學(xué)習(xí)數(shù)據(jù)集中選擇與通過(guò)處理s11取得的輸入語(yǔ)料庫(kù)的第1原文對(duì)應(yīng)的數(shù)據(jù)。例如,在圖16所示的例子中,通過(guò)學(xué)習(xí)數(shù)據(jù)選擇部32b,選擇出由粗框包圍的3個(gè)數(shù)據(jù)305-1、305-2、305-3來(lái)作為與由輸入部1受理的第1原文os3對(duì)應(yīng)的數(shù)據(jù)。

而且,該對(duì)譯語(yǔ)料庫(kù)制作裝置m在識(shí)別模型的生成工作中,使用如上所述由學(xué)習(xí)數(shù)據(jù)選擇部32b選擇出的數(shù)據(jù),執(zhí)行圖9所示的上述的處理s41以及處理s42,在同義轉(zhuǎn)換文的識(shí)別工作以及對(duì)譯語(yǔ)料庫(kù)的制作工作中,執(zhí)行圖10所示的上述的處理s51~處理s54。

具備該變形形式的同義轉(zhuǎn)換文識(shí)別部3b的對(duì)譯語(yǔ)料庫(kù)制作裝置m,通過(guò)這樣的工作來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

這樣的對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序從學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31b所存儲(chǔ)的學(xué)習(xí)數(shù)據(jù)集中選擇與由輸入部1受理的第1原文對(duì)應(yīng)的數(shù)據(jù),通過(guò)基于該選擇出的所述數(shù)據(jù)生成的識(shí)別模型,從所述多個(gè)同義轉(zhuǎn)換候選文中識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文,因此,能夠針對(duì)所述第1原文識(shí)別更適合的同義轉(zhuǎn)換文,能夠制作更高精度的對(duì)譯語(yǔ)料庫(kù)。另外,該對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序能夠省略對(duì)學(xué)習(xí)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行分類的工夫和/或時(shí)間。

另外,在上述的實(shí)施方式中,對(duì)譯語(yǔ)料庫(kù)制作裝置m根據(jù)自輸入部1輸入的第1原文和第2原文中的所述第1原文,借助多個(gè)同義轉(zhuǎn)換候選文得到一個(gè)或多個(gè)同義轉(zhuǎn)換文,將該得到的一個(gè)或多個(gè)同義轉(zhuǎn)換文和所述第2原文設(shè)為新的成對(duì)文,由此制作出對(duì)譯語(yǔ)料庫(kù),但是,也可以進(jìn)一步,根據(jù)所述第2原文,借助多個(gè)第2同義轉(zhuǎn)換候選文得到一個(gè)或多個(gè)第2同義轉(zhuǎn)換文,將該得到的一個(gè)或多個(gè)第2同義轉(zhuǎn)換文和所述第1原文設(shè)為新的成對(duì)文,由此制作對(duì)譯語(yǔ)料庫(kù)。

圖17是用于使用一個(gè)具體例子來(lái)說(shuō)明所述對(duì)譯語(yǔ)料庫(kù)制作裝置的變形形式的圖。在這樣的變形形式的對(duì)譯語(yǔ)料庫(kù)制作裝置m中,同義轉(zhuǎn)換候選文生成部2通過(guò)將由輸入部1受理的所述第2原文所包含的多個(gè)所述片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第2語(yǔ)言的其他表達(dá),進(jìn)一步生成對(duì)所述第2原文的多個(gè)第2同義轉(zhuǎn)換候選文。同義轉(zhuǎn)換文識(shí)別部3a(3b)從由同義轉(zhuǎn)換候選文生成部2生成的所述多個(gè)第2同義轉(zhuǎn)換候選文中,進(jìn)一步識(shí)別意思與所述第2原文的意思相同的一個(gè)或多個(gè)第2同義轉(zhuǎn)換候選文來(lái)作為一個(gè)或多個(gè)第2同義轉(zhuǎn)換文。對(duì)譯語(yǔ)料庫(kù)制作部4通過(guò)將由同義轉(zhuǎn)換文識(shí)別部3a(3b)識(shí)別出的一個(gè)或多個(gè)第2同義轉(zhuǎn)換文和由輸入部1受理的所述第1原文設(shè)為成對(duì)文,來(lái)進(jìn)一步生成新的第2成對(duì)文,用生成的所述新的第2成對(duì)文來(lái)進(jìn)一步制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的第2成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)進(jìn)一步制作對(duì)譯語(yǔ)料庫(kù)。此外,該情況下,對(duì)譯語(yǔ)料庫(kù)制作部4也可以通過(guò)將基于所述第1原文生成的同義轉(zhuǎn)換文(第1同義轉(zhuǎn)換文)和基于所述第2原文生成的第2同義轉(zhuǎn)換文設(shè)為成對(duì)文來(lái)進(jìn)一步生成新的第2成對(duì)文,用生成的所述新的第2成對(duì)文來(lái)進(jìn)一步制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的第2成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)進(jìn)一步制作對(duì)譯語(yǔ)料庫(kù)。

使用上述的圖14所示的第1原文os1以及第2原文os2,舉出一個(gè)具體例子來(lái)說(shuō)明。在該例子中,第2原文os2如圖17的(b)下部所示,由4個(gè)片段sd21~sd24構(gòu)成。在通過(guò)上述的處理s11~處理s13的各處理所選擇出的同義轉(zhuǎn)換db中,下面的第1片段sd21k和第2片段sd22k互相關(guān)聯(lián)(k在本例中為1~4的整數(shù))。對(duì)于與片段sd22一致的第1片段sd211(未圖示)(sd22=sd211),關(guān)聯(lián)有第2片段sd221(參照?qǐng)D17的(c)下部)而且,對(duì)于與片段sd22一致的第1片段sd212(未圖示),關(guān)聯(lián)有第2片段sd222(參照?qǐng)D17的(c)下部)。再者,對(duì)于與片段sd22一致的第1片段sd214(未圖示)(sd22=sd214),關(guān)聯(lián)有第2片段sd224(參照?qǐng)D17的(c)下部)對(duì)于與片段sd24一致的第1片段sd213(未圖示)(sd24=sd213),關(guān)聯(lián)有第2片段sd223(參照?qǐng)D17的(c)下部)

在如此情況下的基于第2原文os2的第2同義轉(zhuǎn)換候選文的生成中,如圖17的(b)以及圖17的(c)所示,在第2原文os2中,通過(guò)最初的處理s22以及處理s23,片段sd22被以置換的方式同義轉(zhuǎn)換成第2片段sd221,從第2原文os2生成第2同義轉(zhuǎn)換候選文cs21。通過(guò)接下來(lái)的處理s22以及處理s23,片段sd22被以置換的方式同義轉(zhuǎn)換成第2片段sd222,從第2原文os2生成第2同義轉(zhuǎn)換候選文cs22。通過(guò)接下來(lái)的處理s22以及處理s23,片段sd24被以置換的方式同義轉(zhuǎn)換成第2片段sd223,從第2原文os2生成第2同義轉(zhuǎn)換候選文cs23。而且,通過(guò)接下來(lái)的處理s22以及處理s23,片段sd22、sd24分別被以置換的方式同義轉(zhuǎn)換成第2片段sd224、sd223,從第2原文os2生成第2同義轉(zhuǎn)換候選文cs24。如此,從1個(gè)第2原文os2生成4個(gè)第2同義轉(zhuǎn)換候選文cs21~cs24。

在同義轉(zhuǎn)換文的識(shí)別中,對(duì)圖17的(c)所示的4個(gè)第2同義轉(zhuǎn)換候選文cs21~cs24分別執(zhí)行處理s53,其結(jié)果是,如圖17的(d)所示,兩個(gè)同義轉(zhuǎn)換候選文cs21、cs24作為同義文被設(shè)為正確文,被設(shè)為第2同義轉(zhuǎn)換文,另一方面,兩個(gè)同義轉(zhuǎn)換候選文cs22、cs23不同義而被設(shè)為錯(cuò)誤文。

在對(duì)譯語(yǔ)料庫(kù)的制作中,被設(shè)為正確文并被設(shè)為第2同義轉(zhuǎn)換文的、圖17的(d)的第3層所示的所述第2同義轉(zhuǎn)換候選文cs21和圖17的(a)所示的第1原文os1,如圖17的(e)的第4層所示那樣被設(shè)為新的成對(duì)文;被設(shè)為正確文且被設(shè)為同義轉(zhuǎn)換文的、圖17的(d)的第3層所示的所述第2同義轉(zhuǎn)換候選文cs24和圖17的(a)所示的第1原文os1被設(shè)為新的成對(duì)文(未圖示)。在圖17所示的例子中,被設(shè)為正確文且被設(shè)為第2同義轉(zhuǎn)換文的、圖17的(d)的第3層所示的所述第2同義轉(zhuǎn)換候選文cs21和被設(shè)為正確文且被設(shè)為同義轉(zhuǎn)換文(第1同義轉(zhuǎn)換文)的、圖17的(d)的第1層所示的所述同義轉(zhuǎn)換候選文(第1同義轉(zhuǎn)換候選文)cs13,如圖17的(e)的第5層所示那樣被設(shè)為新的成對(duì)文。然后,用這些新的成對(duì)文來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

這樣的對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序能夠?qū)λ龅?原文和第2原文相互地分別自動(dòng)生成同義轉(zhuǎn)換文,能夠制作進(jìn)一步匯集有更多的成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序能夠進(jìn)一步改善對(duì)譯語(yǔ)料庫(kù)的制作。上述對(duì)譯語(yǔ)料庫(kù)制作裝置m、方法以及程序如上所述對(duì)所述第1原文和第2原文相互地分別自動(dòng)生成語(yǔ)句,因此能夠進(jìn)一步抑制成本的增加,能夠進(jìn)一步降低收集一個(gè)成對(duì)文所需的單位成本。

另外,在上述的實(shí)施方式中,同義轉(zhuǎn)換文識(shí)別部3a、3b進(jìn)行有監(jiān)督的機(jī)器學(xué)習(xí),但例如也可以進(jìn)行使用了集群(cluster)分析等的無(wú)監(jiān)督的機(jī)器學(xué)習(xí)。在進(jìn)行該無(wú)教師的機(jī)器學(xué)習(xí)的情況下,通過(guò)所謂的爬蟲(crawler)從互聯(lián)網(wǎng)收集學(xué)習(xí)數(shù)據(jù)集的各數(shù)據(jù),由此能夠省略學(xué)習(xí)數(shù)據(jù)存儲(chǔ)部31a、31b。

接著,對(duì)另一實(shí)施方式進(jìn)行說(shuō)明。

(第2實(shí)施方式:機(jī)器翻譯系統(tǒng))

圖18是表示第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)的構(gòu)成的框圖。圖19是表示所述機(jī)器翻譯系統(tǒng)中的學(xué)習(xí)部的工作的流程圖。

在第1實(shí)施方式中,對(duì)于對(duì)譯語(yǔ)料庫(kù)制作裝置m和其所安裝的對(duì)譯語(yǔ)料庫(kù)制作方法以及對(duì)譯語(yǔ)料庫(kù)制作程序,以包含其變形形式的方式進(jìn)行了說(shuō)明,而在第2實(shí)施方式中,對(duì)使用了該對(duì)譯語(yǔ)料庫(kù)制作裝置m的、即安裝有對(duì)譯語(yǔ)料庫(kù)制作方法以及對(duì)譯語(yǔ)料庫(kù)制作程序的機(jī)器翻譯系統(tǒng)進(jìn)行說(shuō)明。

例如如圖18所示,該第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)s具備對(duì)譯語(yǔ)料庫(kù)制作裝置m和翻譯裝置t。

對(duì)譯語(yǔ)料庫(kù)制作裝置m是制作對(duì)譯語(yǔ)料庫(kù)的裝置,所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文。該對(duì)譯語(yǔ)料庫(kù)制作裝置m是第1實(shí)施方式中說(shuō)明的裝置(包含其變形形式)。即,該對(duì)譯語(yǔ)料庫(kù)制作裝置m安裝第1實(shí)施方式中說(shuō)明的對(duì)譯語(yǔ)料庫(kù)制作方法以及對(duì)譯語(yǔ)料庫(kù)制作程序。

翻譯裝置t是基于由對(duì)譯語(yǔ)料庫(kù)制作裝置m制作出的對(duì)譯語(yǔ)料庫(kù),將作為翻譯對(duì)象的對(duì)象文在第1語(yǔ)言和第2語(yǔ)言之間進(jìn)行翻譯的裝置。翻譯裝置t例如具備學(xué)習(xí)部6、翻譯部7、第2輸入部8和輸出部9。

第2輸入部8連接于翻譯部7,例如是將指示翻譯開(kāi)始的命令等各種命令、以及例如為了對(duì)第1語(yǔ)言的對(duì)象文等進(jìn)行翻譯所需要的各種數(shù)據(jù)輸入到翻譯裝置t的設(shè)備,例如是鍵盤以及鼠標(biāo)等。輸出部9連接于翻譯部7,是將從第2輸入部8輸入的命令、數(shù)據(jù)以及由翻譯部7翻譯得到的第2語(yǔ)言的翻譯文等輸出的設(shè)備,例如是crt顯示器、lcd(液晶顯示器)以及有機(jī)el顯示器等顯示裝置或打印機(jī)等印刷裝置等。

此外,也可以由第2輸入部8和輸出部9構(gòu)成觸摸面板。在構(gòu)成該觸摸面板的情況下,第2輸入部8例如是電阻膜方式或靜電容量方式等的檢測(cè)操作位置并進(jìn)行輸入的位置輸入裝置,輸出部9是顯示裝置。關(guān)于該觸摸面板,在顯示裝置的顯示面上設(shè)有位置輸入裝置,在顯示裝置顯示可以進(jìn)行輸入的一個(gè)或多個(gè)輸入內(nèi)容的候選,當(dāng)用戶觸摸示出了想要輸入的輸入內(nèi)容的顯示位置時(shí),通過(guò)所述位置輸入裝置檢測(cè)到該位置,顯示在所檢測(cè)到的位置的顯示內(nèi)容作為用戶的操作輸入內(nèi)容輸入到翻譯裝置t。根據(jù)這樣的觸摸面板,用戶容易直觀地理解輸入操作,因此可提供對(duì)用戶而言容易操作的翻譯裝置t(機(jī)器翻譯系統(tǒng)s)。

學(xué)習(xí)部6連接于翻譯部7,使用由對(duì)譯語(yǔ)料庫(kù)制作裝置m制作出的對(duì)譯語(yǔ)料庫(kù)來(lái)生成或者學(xué)習(xí)翻譯部7的翻譯模型。

翻譯部7將由第2輸入部8受理的第1語(yǔ)言的對(duì)象文翻譯成第2語(yǔ)言從而生成第2語(yǔ)言的翻譯文,并輸出給輸出部9。

具備這樣的各部6~9的翻譯裝置t例如由臺(tái)式、筆記本式、平板式等的計(jì)算機(jī)等的信息處理裝置構(gòu)成。

在這樣的翻譯系統(tǒng)s中,對(duì)譯語(yǔ)料庫(kù)制作裝置m通過(guò)第1實(shí)施方式中說(shuō)明的各工作來(lái)制作新的對(duì)譯語(yǔ)料庫(kù)(新對(duì)譯語(yǔ)料庫(kù))。接下來(lái),在圖19中,學(xué)習(xí)部6取得由該對(duì)譯語(yǔ)料庫(kù)制作裝置m制作出的新對(duì)譯語(yǔ)料庫(kù)(s61),通過(guò)該取得的新對(duì)譯語(yǔ)料庫(kù)來(lái)生成或者學(xué)習(xí)翻譯部7的翻譯模型(s62)。本實(shí)施方式中的對(duì)譯語(yǔ)料庫(kù)制作裝置m如第1實(shí)施方式中說(shuō)明的那樣,包含更多的例文,因此能夠更高精度地生成或者學(xué)習(xí)翻譯部7的翻譯模型。而且,當(dāng)從第2輸入部8受理到對(duì)象文、并被指示進(jìn)行翻譯時(shí),翻譯部7對(duì)對(duì)象文進(jìn)行翻譯,將翻譯文輸出給輸出部9。因?yàn)槿缟纤鲇蓪W(xué)習(xí)部6更高精度地生成或?qū)W習(xí)翻譯模型,所以翻譯部7能夠更高精度地進(jìn)行翻譯。

這樣的機(jī)器翻譯系統(tǒng)s,具備第1實(shí)施方式中說(shuō)明的安裝上述的對(duì)譯語(yǔ)料庫(kù)制作方法以及對(duì)譯語(yǔ)料庫(kù)制作程序的對(duì)譯語(yǔ)料庫(kù)制作裝置m,因此能夠自動(dòng)地生成同義轉(zhuǎn)換文,能夠制作匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述機(jī)器翻譯系統(tǒng)s能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。上述機(jī)器翻譯系統(tǒng)s如上所述能夠自動(dòng)地生成語(yǔ)句,因此能夠抑制成本的增加,能夠降低收集一個(gè)成對(duì)文所需的單位成本。

此外,在上述的第2實(shí)施方式中,對(duì)譯語(yǔ)料庫(kù)制作裝置m和翻譯裝置t也可以經(jīng)由網(wǎng)絡(luò)以能夠互相通信的方式連接。另外,翻譯裝置t也可以由具備學(xué)習(xí)部6的第1主體裝置和具備翻譯部7、第2輸入部8以及輸出部9的第2主體裝置構(gòu)成,所述第1主體裝置和所述第2主體裝置經(jīng)由網(wǎng)絡(luò)以能夠互相通信的方式連接。

另外,在上述的實(shí)施方式中,對(duì)譯語(yǔ)料庫(kù)制作裝置m和翻譯裝置t由單獨(dú)的信息處理裝置分別來(lái)構(gòu)成,但也可以由一體化的一個(gè)信息處理裝置來(lái)構(gòu)成。

本說(shuō)明書如上所述公開(kāi)了各種技術(shù)方案的技術(shù),下面對(duì)其中的主要技術(shù)進(jìn)行總結(jié)。

一個(gè)技術(shù)方案涉及的對(duì)譯語(yǔ)料庫(kù)制作方法,是制作對(duì)譯語(yǔ)料庫(kù)的方法,所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文,所述對(duì)譯語(yǔ)料庫(kù)制作方法包括:受理步驟,受理所述第1語(yǔ)言的第1原文和用所述第2語(yǔ)言對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文;同義轉(zhuǎn)換候選文生成步驟,通過(guò)將在所述受理步驟中受理的所述第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,所述片段是通過(guò)按照預(yù)先設(shè)定的預(yù)定規(guī)則對(duì)語(yǔ)句進(jìn)行分割而形成的片段;同義轉(zhuǎn)換文識(shí)別步驟,從通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文,來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文;以及對(duì)譯語(yǔ)料庫(kù)制作步驟,通過(guò)將在所述同義轉(zhuǎn)換文識(shí)別步驟中識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和在所述受理步驟中受理的所述第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文,用生成的所述新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

這樣的對(duì)譯語(yǔ)料庫(kù)制作方法能夠自動(dòng)地生成同義轉(zhuǎn)換文,能夠制作匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述對(duì)譯語(yǔ)料庫(kù)制作方法能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。特別是,通常在匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)的制作中,由于成對(duì)文的收集需要工夫和/或時(shí)間,因此需要花費(fèi)較大的成本。然而,上述對(duì)譯語(yǔ)料庫(kù)制作方法如上所述,能夠自動(dòng)地生成語(yǔ)句,因此能夠抑制成本的增加,能夠降低收集一個(gè)成對(duì)文所需的單位成本。此外,成對(duì)文包括在第1語(yǔ)言的語(yǔ)句和與所述第1語(yǔ)言不同的第2語(yǔ)言的語(yǔ)句之間一對(duì)一的成對(duì)文、多對(duì)一的成對(duì)文以及一對(duì)多的成對(duì)文。

另外,在另一技術(shù)方案中,在上述的對(duì)譯語(yǔ)料庫(kù)制作方法中,所述同義轉(zhuǎn)換候選文生成步驟包括:同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇步驟,從按照預(yù)先設(shè)定的預(yù)定的分類法進(jìn)行分類而得到的多個(gè)同義轉(zhuǎn)換數(shù)據(jù)庫(kù)中,選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的同義轉(zhuǎn)換數(shù)據(jù)庫(kù),所述同義轉(zhuǎn)換數(shù)據(jù)庫(kù)具備所述第1語(yǔ)言的第1片段和與所述第1片段關(guān)聯(lián)的用所述第1語(yǔ)言的其他表達(dá)來(lái)表達(dá)了所述第1片段的第2片段;以及同義轉(zhuǎn)換步驟,通過(guò)基于在所述同義轉(zhuǎn)換數(shù)據(jù)庫(kù)選擇步驟中選擇出的所述同義轉(zhuǎn)換數(shù)據(jù)庫(kù),將通過(guò)所述受理步驟受理的所述第1原文所包含的多個(gè)所述片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文。

這樣的對(duì)譯語(yǔ)料庫(kù)制作方法從所述多個(gè)同義轉(zhuǎn)換數(shù)據(jù)庫(kù)中選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的同義轉(zhuǎn)換數(shù)據(jù)庫(kù),基于該選擇出的所述同義轉(zhuǎn)換數(shù)據(jù)庫(kù),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,因此能夠針對(duì)所述第1原文生成更適合的同義轉(zhuǎn)換候選文,能夠制作更高精度的對(duì)譯語(yǔ)料庫(kù)。

另外,在另一技術(shù)方案中,在這些上述的對(duì)譯語(yǔ)料庫(kù)制作方法中,所述同義轉(zhuǎn)換文識(shí)別步驟包括:學(xué)習(xí)數(shù)據(jù)選擇步驟,從按照預(yù)先設(shè)定的預(yù)定的分類法進(jìn)行分類而得到的多個(gè)學(xué)習(xí)數(shù)據(jù)集中,選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集,所述學(xué)習(xí)數(shù)據(jù)集包括多個(gè)數(shù)據(jù),所述多個(gè)數(shù)據(jù)用于通過(guò)學(xué)習(xí)來(lái)生成對(duì)所述同義轉(zhuǎn)換候選文的意思是否與所述第1原文的意思相同進(jìn)行識(shí)別的識(shí)別模型;模型生成步驟,基于通過(guò)所述學(xué)習(xí)數(shù)據(jù)選擇步驟選擇出的所述學(xué)習(xí)數(shù)據(jù)集,生成所述識(shí)別模型;以及識(shí)別步驟,基于通過(guò)所述模型生成步驟生成的識(shí)別模型,從通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文。

這樣的對(duì)譯語(yǔ)料庫(kù)制作方法從所述多個(gè)學(xué)習(xí)數(shù)據(jù)集中選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的學(xué)習(xí)數(shù)據(jù)集,利用基于該選擇出的所述學(xué)習(xí)數(shù)據(jù)集生成的識(shí)別模型,從所述多個(gè)同義轉(zhuǎn)換候選文中識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文,因此能夠針對(duì)所述第1原文生成更適合的同義轉(zhuǎn)換文,能夠制作更高精度的對(duì)譯語(yǔ)料庫(kù)。

另外,在另一技術(shù)方案中,在這些上述的對(duì)譯語(yǔ)料庫(kù)制作方法中,所述同義轉(zhuǎn)換文識(shí)別步驟包括:第2學(xué)習(xí)數(shù)據(jù)選擇步驟,從學(xué)習(xí)數(shù)據(jù)集中選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)集包括多個(gè)數(shù)據(jù),所述多個(gè)數(shù)據(jù)用于通過(guò)學(xué)習(xí)來(lái)生成對(duì)所述同義轉(zhuǎn)換候選文的意思是否與所述第1原文的意思相同進(jìn)行識(shí)別的識(shí)別模型;第2模型生成步驟,基于通過(guò)所述第2學(xué)習(xí)數(shù)據(jù)選擇步驟選擇出的所述數(shù)據(jù),生成所述識(shí)別模型;以及第2識(shí)別步驟,基于通過(guò)所述第2模型生成步驟生成的識(shí)別模型,從通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文。

這樣的對(duì)譯語(yǔ)料庫(kù)制作方法從所述學(xué)習(xí)數(shù)據(jù)集中選擇與通過(guò)所述受理步驟受理的所述第1原文對(duì)應(yīng)的數(shù)據(jù),利用基于該選擇出的所述數(shù)據(jù)生成的識(shí)別模型,從所述多個(gè)同義轉(zhuǎn)換候選文中識(shí)別所述一個(gè)或多個(gè)同義轉(zhuǎn)換文,因此能夠針對(duì)所述第1原文生成更適合的同義轉(zhuǎn)換文,能夠制作更高高精度的對(duì)譯語(yǔ)料庫(kù)。

另外,在另一技術(shù)方案中,在這些上述的對(duì)譯語(yǔ)料庫(kù)制作方法中,在所述同義轉(zhuǎn)換候選文生成步驟中,進(jìn)一步,通過(guò)將在所述受理步驟中受理的所述第2原文所包含的多個(gè)所述片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第2語(yǔ)言的其他表達(dá),生成對(duì)所述第2原文的多個(gè)第2同義轉(zhuǎn)換候選文,在所述同義轉(zhuǎn)換文識(shí)別步驟中,進(jìn)一步,從通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)第2同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第2原文的意思相同的一個(gè)或多個(gè)第2同義轉(zhuǎn)換候選文,來(lái)作為一個(gè)或多個(gè)第2同義轉(zhuǎn)換文,在所述對(duì)譯語(yǔ)料庫(kù)制作步驟中,進(jìn)一步,通過(guò)將在所述同義轉(zhuǎn)換文識(shí)別步驟中識(shí)別出的一個(gè)或多個(gè)第2同義轉(zhuǎn)換文和通過(guò)所述受理步驟受理的所述第1原文設(shè)為成對(duì)文,生成新的第2成對(duì)文,用生成的所述新的第2成對(duì)文來(lái)進(jìn)一步制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的第2成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)進(jìn)一步制作對(duì)譯語(yǔ)料庫(kù)。

這樣的對(duì)譯語(yǔ)料庫(kù)制作方法能夠?qū)λ龅?原文和第2原文相互地分別自動(dòng)生成同義轉(zhuǎn)換文,能夠制作進(jìn)一步匯集有更多的成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述對(duì)譯語(yǔ)料庫(kù)制作方法能夠進(jìn)一步改善對(duì)譯語(yǔ)料庫(kù)的制作。上述對(duì)譯語(yǔ)料庫(kù)制作方法如上所述,能夠?qū)λ龅?原文和第2原文相互地分別自動(dòng)生成語(yǔ)句,因此能夠進(jìn)一步抑制成本的增加,能夠進(jìn)一步降低收集一個(gè)成對(duì)文所需的單位成本。

另外,另一技術(shù)方案涉及的對(duì)譯語(yǔ)料庫(kù)生成裝置,是制作對(duì)譯語(yǔ)料庫(kù)的裝置,所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文,所述對(duì)譯語(yǔ)料庫(kù)制作裝置具備:輸入部,受理所述第1語(yǔ)言的第1原文和用所述第2語(yǔ)言對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文;同義轉(zhuǎn)換候選文生成部,通過(guò)將由所述輸入部受理的所述第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,所述片段是通過(guò)按照預(yù)先設(shè)定的預(yù)定規(guī)則對(duì)語(yǔ)句進(jìn)行分割而形成的片段;同義轉(zhuǎn)換文識(shí)別部,從由所述同義轉(zhuǎn)換候選文生成部生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文,來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文;以及對(duì)譯語(yǔ)料庫(kù)制作部,通過(guò)將由所述同義轉(zhuǎn)換文識(shí)別部識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和由所述輸入部受理的所述第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文,用生成的所述新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

另外,另一技術(shù)方案涉及的對(duì)譯語(yǔ)料庫(kù)生成程序,是制作對(duì)譯語(yǔ)料庫(kù)的程序,所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文,所述對(duì)譯語(yǔ)料庫(kù)制作程序用于使計(jì)算機(jī)執(zhí)行如下步驟:受理步驟,受理所述第1語(yǔ)言的第1原文和用所述第2語(yǔ)言對(duì)所述第1原文進(jìn)行翻譯而得到的第2原文;同義轉(zhuǎn)換候選文生成步驟,通過(guò)將在所述受理步驟中受理的所述第1原文所包含的多個(gè)片段中的一個(gè)或多個(gè)片段同義轉(zhuǎn)換成所述第1語(yǔ)言的其他表達(dá),生成對(duì)所述第1原文的多個(gè)同義轉(zhuǎn)換候選文,所述片段是通過(guò)按照預(yù)先設(shè)定的預(yù)定規(guī)則對(duì)語(yǔ)句進(jìn)行分割而形成的片段;同義轉(zhuǎn)換文識(shí)別步驟,從通過(guò)所述同義轉(zhuǎn)換候選文生成步驟生成的所述多個(gè)同義轉(zhuǎn)換候選文中,識(shí)別意思與所述第1原文的意思相同的一個(gè)或多個(gè)同義轉(zhuǎn)換候選文,來(lái)作為一個(gè)或多個(gè)同義轉(zhuǎn)換文;以及對(duì)譯語(yǔ)料庫(kù)制作步驟,通過(guò)將在所述同義轉(zhuǎn)換文識(shí)別步驟中識(shí)別出的一個(gè)或多個(gè)同義轉(zhuǎn)換文和在所述受理步驟中受理的所述第2原文設(shè)為成對(duì)文來(lái)生成新的成對(duì)文,用生成的所述新的成對(duì)文來(lái)制作新的對(duì)譯語(yǔ)料庫(kù),或者通過(guò)將生成的所述新的成對(duì)文追加到已有的對(duì)譯語(yǔ)料庫(kù)中來(lái)制作對(duì)譯語(yǔ)料庫(kù)。

這樣的對(duì)譯語(yǔ)料庫(kù)制作裝置以及對(duì)譯語(yǔ)料庫(kù)制作程序,能夠自動(dòng)地生成同義轉(zhuǎn)換文,能夠制作匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述對(duì)譯語(yǔ)料庫(kù)制作制作以及程序能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。特別是,通常在匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)的制作中,由于成對(duì)文的收集需要工夫和/或時(shí)間,因此需要花費(fèi)較大的成本。然而,上述對(duì)譯語(yǔ)料庫(kù)制作制作以及程序如上所述,能夠自動(dòng)地生成語(yǔ)句,因此能夠抑制成本的增加,能夠降低收集一個(gè)成對(duì)文所需的單位成本。

另外,另一技術(shù)方案涉及的機(jī)器翻譯系統(tǒng),具備:對(duì)譯語(yǔ)料庫(kù)制作裝置,其制作對(duì)譯語(yǔ)料庫(kù),所述對(duì)譯語(yǔ)料庫(kù)匯集有多個(gè)使第1語(yǔ)言的第1文和與所述第1語(yǔ)言不同的第2語(yǔ)言的第2文成對(duì)的成對(duì)文;以及翻譯裝置,其基于由所述對(duì)譯語(yǔ)料庫(kù)制作裝置制作出的對(duì)譯語(yǔ)料庫(kù),將作為翻譯對(duì)象的對(duì)象文在所述第1語(yǔ)言和所述第2語(yǔ)言之間進(jìn)行翻譯,所述對(duì)譯語(yǔ)料庫(kù)制作裝置安裝權(quán)利要求1所述的對(duì)譯語(yǔ)料庫(kù)制作方法。

這樣的機(jī)器翻譯系統(tǒng)具備安裝上述的任一個(gè)對(duì)譯語(yǔ)料庫(kù)制作方法的對(duì)譯語(yǔ)料庫(kù)制作裝置,因此能夠自動(dòng)地生成同義轉(zhuǎn)換文,能夠制作匯集有更多成對(duì)文的對(duì)譯語(yǔ)料庫(kù)。因此,上述機(jī)器翻譯系統(tǒng)能夠改善對(duì)譯語(yǔ)料庫(kù)的制作。上述機(jī)器翻譯系統(tǒng)如上所述能夠自動(dòng)地生成語(yǔ)句,因此能夠抑制成本的增加,能夠降低收集一個(gè)成對(duì)文所需的單位成本。

為了表達(dá)本發(fā)明,在上述中參照附圖利用實(shí)施方式適當(dāng)且充分地說(shuō)明了本發(fā)明,但應(yīng)該認(rèn)識(shí)到對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)容易對(duì)上述的實(shí)施方式進(jìn)行變更和/或改良。因此,只要本領(lǐng)域技術(shù)人員實(shí)施的變更方式或改良方式不脫離權(quán)利要求書所記載的權(quán)利要求的權(quán)利范圍,該變更方式或該改良方式就可被解釋為包含在該權(quán)利要求的權(quán)利范圍內(nèi)。

產(chǎn)業(yè)上的可利用性

本發(fā)明能夠提供得到進(jìn)一步改善的對(duì)譯語(yǔ)料庫(kù)制作方法、對(duì)譯語(yǔ)料庫(kù)制作裝置、對(duì)譯語(yǔ)料庫(kù)制作程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1