亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

同義轉(zhuǎn)換文生成方法、裝置、程序以及機(jī)器翻譯系統(tǒng)與流程

文檔序號:11590347閱讀:316來源:國知局

本發(fā)明涉及從一個原文制作一個或多個同義轉(zhuǎn)換(換言、說法變換)文(語句)的同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)。



背景技術(shù):

近年來,將第1語言的語句翻譯成與所述第1語言不同的第2語言的語句的機(jī)器翻譯正在被進(jìn)行研究和開發(fā),例如,提出了專利文獻(xiàn)1~專利文獻(xiàn)4的專利文獻(xiàn)和非專利文獻(xiàn)1以及非專利文獻(xiàn)2的非專利文獻(xiàn)等各種技術(shù)。

現(xiàn)有技術(shù)文獻(xiàn)

專利文獻(xiàn)

專利文獻(xiàn)1:日本特許第3919720號公報

專利文獻(xiàn)2:日本特開2002-278963號公報

專利文獻(xiàn)3:日本特開2006-190072號公報

專利文獻(xiàn)4:日本特開2015-118498號公報

非專利文獻(xiàn)

非專利文獻(xiàn)1:generatingtargetedparaphrasesforimprovedtranslation,nitinmadnani,educationaltestingservice,acm2013

非專利文獻(xiàn)2:distributionalphrasalparaphrasegenerationforstatisticalmachinetranslation,yuvalmarton,universityofmarryland,columbiauniversity,acm2013



技術(shù)實(shí)現(xiàn)要素:

發(fā)明所要解決的技術(shù)問題

然而,要提高機(jī)器翻譯性能,則可利用于翻譯的例文越多越好,對于例文的收集,存在改善的余地。

本發(fā)明是鑒于上述情況而完成的發(fā)明,其目的在于提供能夠從一個原文制作一個或多個同義轉(zhuǎn)換文的同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)。

用于解決問題的技術(shù)方案

本發(fā)明涉及的同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng),通過將原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文,所述片段是通過按照預(yù)先設(shè)定的預(yù)定規(guī)則將語句進(jìn)行分割而形成的片段。

發(fā)明效果

本發(fā)明涉及的同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)能夠從一個原文制作一個或多個同義轉(zhuǎn)換文。

附圖說明

圖1是表示第1實(shí)施方式中的同義轉(zhuǎn)換文生成裝置的構(gòu)成的框圖。

圖2是表示所述同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文生成部的構(gòu)成的框圖。

圖3是表示存儲在所述同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換信息存儲部中的同義轉(zhuǎn)換表的構(gòu)成的圖。

圖4是表示所述同義轉(zhuǎn)換文生成部中的同義轉(zhuǎn)換部的工作的流程圖。

圖5是表示所述同義轉(zhuǎn)換文生成部中的同義轉(zhuǎn)換容許度處理部的工作的流程圖。

圖6是表示所述同義轉(zhuǎn)換文生成部中的判定部的工作(第1是否落入判定工作)的流程圖。

圖7是用于說明所述同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文的生成工作(第1同義轉(zhuǎn)換文生成工作)的圖。

圖8是表示變形形式的同義轉(zhuǎn)換文生成部中的語言的容許度處理部的工作的流程圖。

圖9是表示變形形式的同義轉(zhuǎn)換文生成部中的判定部的工作(第2是否落入判定工作)的流程圖。

圖10是用于說明具備變形形式的同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文的生成工作(第2同義轉(zhuǎn)換文生成工作)的圖。

圖11是用于說明存儲在所述同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換信息存儲部中的變形形式的同義轉(zhuǎn)換表的圖。

圖12是表示第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)的構(gòu)成的框圖。

圖13是用于說明所述機(jī)器翻譯系統(tǒng)的變形形式的圖。

標(biāo)號說明

m:同義轉(zhuǎn)換文生成裝置c:對譯語料庫制作裝置

t:翻譯裝置s:機(jī)器翻譯系統(tǒng)

ct、cta~ctc:同義轉(zhuǎn)換表

1:輸入部(第1輸入部)2:同義轉(zhuǎn)換文生成部

3:輸出部(第1輸出部)4:對譯語料庫制作部

5:對譯語料庫存儲部6:學(xué)習(xí)部

7:翻譯部8:第2輸入部

9:第2輸出部21:同義轉(zhuǎn)換信息存儲部

22:同義轉(zhuǎn)換部23:同義轉(zhuǎn)換容許度處理部

24:判定部25:語言信息存儲部

26:語言的容許度處理部27:同義轉(zhuǎn)換容許度變更部

具體實(shí)施方式

以下,基于附圖對本發(fā)明涉及的實(shí)施方式進(jìn)行說明。此外,各圖中標(biāo)注有同一標(biāo)號的結(jié)構(gòu)表示同一結(jié)構(gòu),適當(dāng)?shù)厥÷云湔f明。在本說明書中,在進(jìn)行統(tǒng)稱的情況下由省略了下標(biāo)的參照標(biāo)號來表示,在特指個別結(jié)構(gòu)的情況下由標(biāo)注了下標(biāo)的參照標(biāo)號來表示。

(第1實(shí)施方式:同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序)

圖1是表示第1實(shí)施方式中的同義轉(zhuǎn)換文生成裝置的構(gòu)成的框圖。圖2是表示所述同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文生成部的構(gòu)成的框圖。圖3是表示存儲在所述同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換信息存儲部中的同義轉(zhuǎn)換表的構(gòu)成的圖。

第1實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m是通過將一個文(語句)(原文)的一部分或全部按照預(yù)先設(shè)定的預(yù)定規(guī)則進(jìn)行同義轉(zhuǎn)換,由此從該一個文生成一個或多個文(同義轉(zhuǎn)換文)的裝置,例如,如圖1所示,同義轉(zhuǎn)換文生成裝置m具備輸入部1、同義轉(zhuǎn)換文生成部2和輸出部3。

具備這樣的各部1~3的同義轉(zhuǎn)換文生成裝置m例如由信息處理裝置構(gòu)成。信息處理裝置例如具備計算機(jī)、通過顯示數(shù)據(jù)來輸出所述數(shù)據(jù)的顯示器、和輸入數(shù)據(jù)的輸入裝置,所述計算機(jī)具備cpu(centralprocessingunit,中央處理單元)、rom(readonlymemory,只讀存儲器)、ram(randomaccessmemory,隨機(jī)存取存儲器)以及輔助存儲裝置。作為這樣的信息處理裝置,例如可以采用臺式計算機(jī)這樣的固定式的信息處理裝置,也可以采用筆記本式計算機(jī)、平板式計算機(jī)等便攜式的信息處理裝置。

圖1所示的各塊(功能塊)例如通過由cpu執(zhí)行存儲于輔助存儲裝置的、使計算機(jī)作為同義轉(zhuǎn)換文生成裝置m發(fā)揮功能的程序(同義轉(zhuǎn)換文生成程序)來實(shí)現(xiàn)。因此,在所述計算機(jī)中安裝(實(shí)施,執(zhí)行)有同義轉(zhuǎn)換文生成方法。在圖1中,由四邊形表示的塊主要通過cpu來實(shí)現(xiàn)其功能,由圓柱形表示的塊主要通過由rom、ram以及輔助存儲裝置等構(gòu)成的存儲裝置來實(shí)現(xiàn)其功能。此外,后述的圖2以及圖12也是同樣的。

輸入部(第1輸入部)1連接于同義轉(zhuǎn)換文生成部2,例如是受理預(yù)定操作、并向該同義轉(zhuǎn)換文生成裝置m輸入數(shù)據(jù)的電路。輸入部1例如是具備被分配了預(yù)定功能的多個輸入開關(guān)等的鍵盤和/或鼠標(biāo)等輸入裝置。另外,例如,輸入部1也可以是與外部設(shè)備通信數(shù)據(jù)的接口部。所述接口部例如是使用usb標(biāo)準(zhǔn)的接口電路、遵循ieee802.11標(biāo)準(zhǔn)等的通信接口電路等。所述預(yù)定操作例如包括:將成為用于生成同義轉(zhuǎn)換文的基礎(chǔ)的原文向該同義轉(zhuǎn)換文生成裝置m進(jìn)行輸入的原文的輸入操作、指示該同義轉(zhuǎn)換文生成裝置m制作同義轉(zhuǎn)換文的開始命令的輸入操作等、在通過該同義轉(zhuǎn)換文生成裝置m從原文制作同義轉(zhuǎn)換文方面所需的各種操作等。

輸出部(第1輸出部)3連接于同義轉(zhuǎn)換文生成部2,是將從輸入部1輸入的命令、數(shù)據(jù)以及由同義轉(zhuǎn)換文生成部2如后所述那樣生成的同義轉(zhuǎn)換文等進(jìn)行輸出的設(shè)備,例如是crt顯示器、lcd(液晶顯示器)以及有機(jī)el顯示器等顯示器或打印機(jī)等印刷裝置等。

此外,也可以由輸入部1和輸出部3構(gòu)成觸摸面板。在構(gòu)成該觸摸面板的情況下,輸入部1例如是電阻膜方式或靜電容量方式等的檢測操作位置并進(jìn)行輸入的位置輸入裝置,輸出部3是顯示裝置。在該觸摸面板中,在顯示裝置的顯示面上設(shè)有位置輸入裝置,在顯示裝置顯示可以進(jìn)行輸入的一個或多個輸入內(nèi)容的候選,當(dāng)用戶觸摸示出了想要輸入的輸入內(nèi)容的顯示位置時,通過所述位置輸入裝置檢測到該位置,顯示在所檢測到的位置的顯示內(nèi)容作為用戶的操作輸入內(nèi)容輸入到同義轉(zhuǎn)換文生成裝置m。根據(jù)這樣的觸摸面板,用戶容易直觀地理解輸入操作,因此可提供對用戶而言容易操作的同義轉(zhuǎn)換文生成裝置m。

同義轉(zhuǎn)換文生成部2通過將由輸入部1受理的原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換(替換)成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文,所述片段是通過按照預(yù)先設(shè)定的預(yù)定規(guī)則對語句進(jìn)行分割而形成的片段。

所述預(yù)定規(guī)則可以是任意的規(guī)則。例如,所述預(yù)定規(guī)則可以是按多個(n個)文字(例如兩個文字、三個文字等)將語句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述多個(n個)文字。另外,例如,所述預(yù)定規(guī)則也可以是按詞組將語句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述詞組。另外,例如,所述預(yù)定規(guī)則也可以是按語義類別(class)將語句進(jìn)行切分的規(guī)則,該情況下,所述片段成為類別為所述語義類別的詞。另外,例如,所述預(yù)定規(guī)則也可以是按詞素分析中的詞素將語句進(jìn)行切分的規(guī)則,該情況下,所述片段成為所述詞素。此外,可以僅對原文中的同一片段實(shí)施一次同義轉(zhuǎn)換,另外,也可以對原文中的同一片段實(shí)施多次同義轉(zhuǎn)換。

所述容許限度通過使用了多個樣本的試驗(yàn)而預(yù)先適當(dāng)?shù)卦O(shè)定?;蛘撸鋈菰S限度也可以隨機(jī)(random)地設(shè)定。若將所述容許限度設(shè)定得大,則能夠?qū)^多的片段進(jìn)行同義轉(zhuǎn)換,因此,能夠生成較多的同義轉(zhuǎn)換文。若將所述容許限度設(shè)定得小,則僅對較少的片段進(jìn)行同義轉(zhuǎn)換,因此,能夠生成與原文意思偏離較少的同義轉(zhuǎn)換文。

更具體而言,例如如圖2所示,這樣的同義轉(zhuǎn)換文生成部2具備同義轉(zhuǎn)換信息存儲部21、同義轉(zhuǎn)換部22、同義轉(zhuǎn)換容許度處理部23和判定部24。

同義轉(zhuǎn)換信息存儲部21分別連接于同義轉(zhuǎn)換部22和同義轉(zhuǎn)換容許度處理部23,預(yù)先存儲同義轉(zhuǎn)換信息。同義轉(zhuǎn)換信息是用于將片段同義轉(zhuǎn)換成其他表達(dá)的片段所需的信息。同義轉(zhuǎn)換信息在本實(shí)施方式中例如具備同義轉(zhuǎn)換源的第1片段、與所述第1片段關(guān)聯(lián)的作為所述第1片段的其他表達(dá)的同義轉(zhuǎn)換目標(biāo)的第2片段、以及對這些第1片段和第2片段的同義轉(zhuǎn)換對所分配的同義轉(zhuǎn)換容許度。這些第1片段和第2片段是同一語言的片段,與所述原文的語言相同。同義轉(zhuǎn)換容許度是表示容許進(jìn)行從第1片段向第2片段的同義轉(zhuǎn)換的程度的指標(biāo)。同義轉(zhuǎn)換容許度例如通過使用了多個樣本的試驗(yàn)而預(yù)先適當(dāng)?shù)卦O(shè)定,以使得越容許進(jìn)行同義轉(zhuǎn)換,同義轉(zhuǎn)換容許度的值越小。另外,例如同義轉(zhuǎn)換容許度也可以隨機(jī)地設(shè)定。優(yōu)選為,例如對一般以較高頻率進(jìn)行說法變換的同義轉(zhuǎn)換對、同義詞的同義轉(zhuǎn)換對等的同義轉(zhuǎn)換容許度預(yù)先分配較小的值。此外,同義轉(zhuǎn)換容許度可以是固定值,但如后所述,也可以通過反饋(feedback)處理而可變。

這樣的同義轉(zhuǎn)換信息在本實(shí)施方式中以表形式存儲于同義轉(zhuǎn)換信息存儲部21。如圖3所示,登記該同義轉(zhuǎn)換信息的同義轉(zhuǎn)換表ct例如具備:第1片段域(field,字段)211,登記所述第1片段;第2片段域212,登記與第1片段域211所登記的第1片段對應(yīng)的第2片段;以及同義轉(zhuǎn)換容許度域213,登記對第1片段域211和第2片段域212分別所登記的第1片段和第2片段的同義轉(zhuǎn)換對所分配的同義轉(zhuǎn)換容許度,同義轉(zhuǎn)換表ct按各個所述同義轉(zhuǎn)換對具有記錄(record)。

同義轉(zhuǎn)換部22連接于輸入部1,在同義轉(zhuǎn)換部22中,被輸入由輸入部1受理的原文。同義轉(zhuǎn)換部22連接于同義轉(zhuǎn)換容許度處理部23,通過將由輸入部1受理的原文所包含的預(yù)定的一個片段同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個同義轉(zhuǎn)換候選文。要同義轉(zhuǎn)換的一個片段按照預(yù)先設(shè)定的預(yù)定的選擇規(guī)則來決定。所述預(yù)定的選擇規(guī)則例如是如下規(guī)則:從同義轉(zhuǎn)換表中求取原文所包含的片段的同義轉(zhuǎn)換容許度,按同義轉(zhuǎn)換容許度從大到小依次進(jìn)行選擇。關(guān)于該選擇規(guī)則,在本實(shí)施方式中會在較少的同義轉(zhuǎn)換次數(shù)下超過限度范圍,因此,同義轉(zhuǎn)換次數(shù)少,原文與同義轉(zhuǎn)換文之間的意思偏離少。另外,例如所述預(yù)定的選擇規(guī)則是如下規(guī)則:從同義轉(zhuǎn)換表中求取原文所包含的片段的同義轉(zhuǎn)換容許度,按同義轉(zhuǎn)換容許度從小到大依次進(jìn)行選擇。關(guān)于該選擇規(guī)則,在本實(shí)施方式中同義轉(zhuǎn)換次數(shù)會變得較多,因此,能夠生成較多的同義轉(zhuǎn)換文。另外,例如所述預(yù)定的選擇規(guī)則是對原文所包含的片段隨機(jī)進(jìn)行選擇的規(guī)則。該選擇規(guī)則隨機(jī)地選擇應(yīng)該同義轉(zhuǎn)換的片段,因此,能夠生成富于變化的同義轉(zhuǎn)換文。

更具體而言,在本實(shí)施方式中,同義轉(zhuǎn)換部22從同義轉(zhuǎn)換信息存儲部21所存儲的同義轉(zhuǎn)換表ct的第1片段域211中,檢索按照所述預(yù)定的選擇規(guī)則從所述原文中選擇出的一個片段,該檢索的結(jié)果是,從將所述一個片段登記于第1片段域211的記錄的第2片段域中取出第2片段,通過用該取出的第2片段來對所述一個片段進(jìn)行同義轉(zhuǎn)換,生成對所述原文的一個同義轉(zhuǎn)換候選文。同義轉(zhuǎn)換部22將該生成的同義轉(zhuǎn)換候選文經(jīng)由同義轉(zhuǎn)換容許度處理部23輸出給判定部24。同義轉(zhuǎn)換部22連接于判定部24,按照判定部24的控制,執(zhí)行第2次以后的上述同義轉(zhuǎn)換,直到通過判定部24如后所述那樣判定為不在容許限度的范圍內(nèi)為止。

同義轉(zhuǎn)換容許度處理部23連接于判定部24,從同義轉(zhuǎn)換信息存儲部21取得對與從同義轉(zhuǎn)換部22輸入的同義轉(zhuǎn)換候選文通過同義轉(zhuǎn)換的實(shí)施而包含的第2片段對應(yīng)的同義轉(zhuǎn)換對所分配的同義轉(zhuǎn)換容許度,對于一個原文累計按各個同義轉(zhuǎn)換而取得的同義轉(zhuǎn)換容許度從而求取累計同義轉(zhuǎn)換容許度(對于一個原文按各個同義轉(zhuǎn)換而取得的同義轉(zhuǎn)換容許度的總和)。更具體而言,在本實(shí)施方式中,同義轉(zhuǎn)換容許度處理部23從同義轉(zhuǎn)換部22接收取出了第2片段的記錄的通知,或者從同義轉(zhuǎn)換表ct中檢索將同義轉(zhuǎn)換源的第1片段和同義轉(zhuǎn)換目標(biāo)的第2片段分別登記于第1片段域211和第2片段域212的記錄,從該記錄的同義轉(zhuǎn)換容許度域213中取出同義轉(zhuǎn)換容許度從而取得同義轉(zhuǎn)換容許度。而且,同義轉(zhuǎn)換容許度處理部23將該取得的同義轉(zhuǎn)換容許度與通過上次的同義轉(zhuǎn)換求出的累計同義轉(zhuǎn)換容許度(每一個原文的初始值為0)相加從而求取此次的同義轉(zhuǎn)換的累計同義轉(zhuǎn)換容許度(累計同義轉(zhuǎn)換容許度←累計同義轉(zhuǎn)換容許度+同義轉(zhuǎn)換容許度)。同義轉(zhuǎn)換容許度處理部23將從同義轉(zhuǎn)換部22輸入的同義轉(zhuǎn)換候選文以及該求出的累計同義轉(zhuǎn)換容許度輸出給判定部24。

判定部24連接于輸出部3,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在容許進(jìn)行同義轉(zhuǎn)換的所述容許限度的范圍內(nèi)。判定部24在該判定的結(jié)果為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi)的情況下,將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,使同義轉(zhuǎn)換部22執(zhí)行對一個原文的下一次同義轉(zhuǎn)換。另一方面,判定部24在該判定的結(jié)果為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi)的情況下,不將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,使同義轉(zhuǎn)換部22停止執(zhí)行對一個原文的下次以后的同義轉(zhuǎn)換。而且,判定部24將同義轉(zhuǎn)換文輸出給輸出部3。

更具體而言,根據(jù)本實(shí)施方式,在所述判定中,判定部24基于對與此次的同義轉(zhuǎn)換涉及的第2片段對應(yīng)的同義轉(zhuǎn)換對所分配的同義轉(zhuǎn)換容許度,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi)。更詳細(xì)而言,判定部24判定從同義轉(zhuǎn)換容許度處理部23輸入的累計同義轉(zhuǎn)換容許度是否小于等于預(yù)先設(shè)定的預(yù)定的閾值(第1閾值)。所述預(yù)定的閾值(第1閾值)對應(yīng)于所述容許限度,例如在本實(shí)施方式中,由于同義轉(zhuǎn)換容許度設(shè)定在大于等于0且小于等于1的范圍,因此所述預(yù)定的閾值設(shè)定為0.5、0.7、1、1.2、1.5、2等適當(dāng)?shù)闹?,例如設(shè)定為1。判定部24在該判定的結(jié)果為累計同義轉(zhuǎn)換容許度小于等于1的情況下,判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi),在該判定的結(jié)果為累計同義轉(zhuǎn)換容許度超過了1的情況下,判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi)。

接著,對第1實(shí)施方式中的同義轉(zhuǎn)換文生成裝置的工作進(jìn)行說明。圖4是表示所述同義轉(zhuǎn)換文生成部中的同義轉(zhuǎn)換部的工作的流程圖。圖5是表示所述同義轉(zhuǎn)換文生成部中的同義轉(zhuǎn)換容許度處理部的工作的流程圖。圖6是表示所述同義轉(zhuǎn)換文生成部中的判定部的工作(第1是否落入判定工作)的流程圖。圖7是用于說明所述同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文的生成工作(第1同義轉(zhuǎn)換文生成工作)的圖。圖7的(a)表示原文的一個具體例子,圖7的(b)~圖7的(f)表示針對圖7的(a)所示的原文的、由第1次至第5次的各同義轉(zhuǎn)換而生成的各同義轉(zhuǎn)換候選文。

本實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m大致通過下面的工作來生成同義轉(zhuǎn)換文。首先,輸入部1受理原文(受理步驟)。接著,同義轉(zhuǎn)換文生成部2通過將由輸入部1受理的所述原文所包含的多個片段中的一個或多個片段,在容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文(同義轉(zhuǎn)換文生成步驟)。然后,輸出部3輸出從同義轉(zhuǎn)換文生成部2受理的一個或多個同義轉(zhuǎn)換文。以下,使用附圖進(jìn)行更具體的說明。

<原文的受理以及同義轉(zhuǎn)換>

本實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m首先執(zhí)行受理原文的工作,并執(zhí)行將片段同義轉(zhuǎn)換的工作。在該原文的受理工作以及同義轉(zhuǎn)換工作中,在圖4中,首先,同義轉(zhuǎn)換文生成裝置m通過輸入部1受理同義轉(zhuǎn)換對象的原文(輸入文)來取得原文(s11)。

接下來,同義轉(zhuǎn)換文生成裝置m利用同義轉(zhuǎn)換文生成部2的同義轉(zhuǎn)換部22,通過將由輸入部1受理的所述原文所包含的預(yù)定的一個片段同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個同義轉(zhuǎn)換候選文,將該生成的一個同義轉(zhuǎn)換候選文經(jīng)由同義轉(zhuǎn)換容許度處理部23輸出給判定部24(s12),結(jié)束該原文的受理工作以及同義轉(zhuǎn)換工作。更具體而言,同義轉(zhuǎn)換部22首先按照所述預(yù)定的選擇規(guī)則從所述原文中選擇一個片段。接著,同義轉(zhuǎn)換部22從同義轉(zhuǎn)換信息存儲部21所存儲的同義轉(zhuǎn)換表ct的第1片段域211中檢索該選擇出的一個片段。接著,該檢索的結(jié)果為,同義轉(zhuǎn)換部22從將所述一個片段登記于第1片段域211的記錄的第2片段域中取出第2片段。然后,同義轉(zhuǎn)換部22通過用該取出的第2片段將所述原文中的所述一個片段進(jìn)行同義轉(zhuǎn)換(替換),生成對所述原文的一個同義轉(zhuǎn)換候選文。

通過這樣的工作,同義轉(zhuǎn)換文生成裝置m通過輸入部1受理原文,并生成與由輸入部1受理的原文對應(yīng)的一個同義轉(zhuǎn)換候選文。

<同義轉(zhuǎn)換容許度的處理>

接著,本實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m為了評價由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換而執(zhí)行對同義轉(zhuǎn)換容許度進(jìn)行處理的工作。在該同義轉(zhuǎn)換容許度的處理工作中,在圖5中,首先,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換文生成部2的同義轉(zhuǎn)換容許度處理部23,取得與由同義轉(zhuǎn)換部22實(shí)施的同義轉(zhuǎn)換相應(yīng)的同義轉(zhuǎn)換容許度(s21)。更具體而言,同義轉(zhuǎn)換容許度處理部23從同義轉(zhuǎn)換信息存儲部21取得對與從同義轉(zhuǎn)換部22輸入的同義轉(zhuǎn)換候選文通過同義轉(zhuǎn)換的實(shí)施而包含的第2片段對應(yīng)的同義轉(zhuǎn)換對所分配的同義轉(zhuǎn)換容許度。更詳細(xì)而言,同義轉(zhuǎn)換容許度處理部23從同義轉(zhuǎn)換部22接收取出了第2片段的記錄的通知,或者從同義轉(zhuǎn)換表ct中檢索將同義轉(zhuǎn)換源的第1片段和同義轉(zhuǎn)換目標(biāo)的第2片段分別登記于第1片段域211和第2片段域212的記錄,從該記錄的同義轉(zhuǎn)換容許度域213中取出同義轉(zhuǎn)換容許度從而取得同義轉(zhuǎn)換容許度。

接下來,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換容許度處理部23,將該取得的同義轉(zhuǎn)換容許度與通過上次的同義轉(zhuǎn)換求出的累計同義轉(zhuǎn)換容許度(每一個原文的初始值為0)相加從而求取此次的同義轉(zhuǎn)換的累計同義轉(zhuǎn)換容許度(累計同義轉(zhuǎn)換容許度←累計同義轉(zhuǎn)換容許度+同義轉(zhuǎn)換容許度),并將從同義轉(zhuǎn)換部22輸入的同義轉(zhuǎn)換候選文以及該求出的累計同義轉(zhuǎn)換容許度輸出給判定部24(s22),結(jié)束該同義轉(zhuǎn)換容許度的處理工作。

通過這樣的工作,同義轉(zhuǎn)換文生成裝置m為了評價由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換,取得對所述同義轉(zhuǎn)換的同義轉(zhuǎn)換容許度,求取累計同義轉(zhuǎn)換容許度。

<容許限度范圍的是否落入判定>

接著,本實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m執(zhí)行判定由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換是否在容許限度的范圍內(nèi)的工作。在該容許限度范圍的是否落入判定工作中,在圖6中,首先,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換文生成部2的判定部24,從同義轉(zhuǎn)換容許度處理部23取得累計同義轉(zhuǎn)換容許度(s31)。

接著,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換文生成部2的判定部24,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi)(s32)。更具體而言,判定部24判定從同義轉(zhuǎn)換容許度處理部23取得的累計同義轉(zhuǎn)換容許度是否小于等于所述預(yù)定的閾值(第1閾值)。在該判定的結(jié)果為累計同義轉(zhuǎn)換容許度小于等于所述預(yù)定的閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi)(s32:是),將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文保持在未圖示的所述ram等中,使同義轉(zhuǎn)換部22執(zhí)行對一個原文的下一次同義轉(zhuǎn)換(s33),結(jié)束該容許限度范圍的是否落入判定工作。另一方面,在所述判定的結(jié)果為累計同義轉(zhuǎn)換容許度超過了所述預(yù)定的閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi)(s32:否),不將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,使同義轉(zhuǎn)換部22停止執(zhí)行對一個原文的下次以后的同義轉(zhuǎn)換,結(jié)束該容許限度范圍的是否落入判定工作。

通過這樣的工作,同義轉(zhuǎn)換文生成裝置m執(zhí)行用于評價由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換的、是否處于容許限度范圍的是否落入判定工作。

而且,在由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換停止時,同義轉(zhuǎn)換文生成裝置m將所保持的所述同義轉(zhuǎn)換文從輸出部3輸出。

使用圖7,列舉一個具體例子進(jìn)行說明。在該一個具體例子中,對圖7的(a)所示的原文(輸入文)os1應(yīng)用圖3所示的同義轉(zhuǎn)換表ct,以圖3所示的同義轉(zhuǎn)換表ct的記錄為序選擇片段。所述預(yù)定的閾值(第1閾值)設(shè)定為1。

首先,在處理s11中,從輸入部1輸入圖7的(a)所示的原文os1。如圖7的(a)所示,該原文os1由6個片段sd1~sd6構(gòu)成。接下來,在處理s12中,選擇片段sd3,檢索將該片段sd3登記于第1片段域211的記錄,取出該檢索到的記錄中的第2片段域212所登記的第2片段sd21,用第2片段sd21將片段sd3同義轉(zhuǎn)換(替換)。其結(jié)果是,生成圖7的(b)所示的、對原文os1的一個同義轉(zhuǎn)換候選文cs1。

接下來,在處理s21中,從所述檢索到的記錄的同義轉(zhuǎn)換容許度域213中取得同義轉(zhuǎn)換容許度“0.1”,在處理s22中,用該取得的同義轉(zhuǎn)換容許度“0.1”,求出此次的同義轉(zhuǎn)換的累計同義轉(zhuǎn)換容許度“0.1”。在初次(第1次)同義轉(zhuǎn)換中,累計同義轉(zhuǎn)換容許度被初始化為0,在初次同義轉(zhuǎn)換中通過處理s22求出的累計同義轉(zhuǎn)換容許度成為通過處理s21取得的同義轉(zhuǎn)換容許度“0.1”(累計同義轉(zhuǎn)換容許度←0+同義轉(zhuǎn)換容許度),在圖7的(b)中表示了該值“0.1”。此外,在圖7的(c)~圖7的(f)中,用括號內(nèi)的值(x)表示了累計同義轉(zhuǎn)換容許度x。

接下來,在處理s31中,取得通過處理s22求出的累計同義轉(zhuǎn)換容許度“0.1”,在處理s32中,判定該取得的累計同義轉(zhuǎn)換容許度“0.1”是否小于等于所述預(yù)定的閾值1。如圖7的(b)所示,在初次同義轉(zhuǎn)換中,累計同義轉(zhuǎn)換容許度“0.1”小于等于所述預(yù)定的閾值1,因此執(zhí)行處理s33。在該處理s33中,將圖7的(b)所示的同義轉(zhuǎn)換候選文cs1保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第2次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第2次同義轉(zhuǎn)換,原文os1的片段sd6被同義轉(zhuǎn)換成第2片段sd22,生成同義轉(zhuǎn)換候選文cs2,求出同義轉(zhuǎn)換容許度“0.1”以及累計同義轉(zhuǎn)換容許度“0.2”(=0.1+0.1)。該結(jié)果表示在圖7的(c)中。如圖7的(c)所示,累計同義轉(zhuǎn)換容許度“0.2”小于等于所述預(yù)定的閾值1,因此執(zhí)行處理s33。在該處理s33中,將圖7的(c)所示的同義轉(zhuǎn)換候選文cs2保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第3次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第3次同義轉(zhuǎn)換,原文os1的片段sd2被同義轉(zhuǎn)換成第2片段sd23,生成同義轉(zhuǎn)換候選文cs3,求出同義轉(zhuǎn)換容許度“0.3”以及累計同義轉(zhuǎn)換容許度“0.5”(=0.2+0.3)。該結(jié)果表示在圖7的(d)中。如圖7的(d)所示,累計同義轉(zhuǎn)換容許度“0.5”小于等于所述預(yù)定的閾值1,因此執(zhí)行處理s33。在該處理s33中,將圖7的(d)所示的同義轉(zhuǎn)換候選文cs3保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第4次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第4次同義轉(zhuǎn)換,原文os1的片段sd4被同義轉(zhuǎn)換成第2片段sd24,生成同義轉(zhuǎn)換候選文cs4,求出同義轉(zhuǎn)換容許度“0.4”以及累計同義轉(zhuǎn)換容許度“0.9”(=0.5+0.4)。該結(jié)果表示在圖7的(e)中。如圖7的(e)所示,累計同義轉(zhuǎn)換容許度“0.9”小于等于所述預(yù)定的閾值1,因此執(zhí)行處理s33。在該處理s33中,將圖7的(e)所示的同義轉(zhuǎn)換候選文cs4保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第5次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第5次同義轉(zhuǎn)換,原文os1的片段sd3(同義轉(zhuǎn)換候選文cs4的與片段sd3對應(yīng)的第2片段sd21)被同義轉(zhuǎn)換成第2片段sd25,生成同義轉(zhuǎn)換候選文cs5,求出同義轉(zhuǎn)換容許度“0.2”以及累計同義轉(zhuǎn)換容許度“1.1”(=0.9+0.2)。該結(jié)果表示在圖7的(f)中。如圖7的(f)所示,累計同義轉(zhuǎn)換容許度“1.1”并非小于等于所述預(yù)定的閾值1(超過了所述預(yù)定的閾值1),因此,不執(zhí)行處理s33,不將圖7的(f)所示的同義轉(zhuǎn)換候選文cs5設(shè)為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示停止進(jìn)行下一次(第6次)同義轉(zhuǎn)換。

此外,原文os1、同義轉(zhuǎn)換文cs1以及同義轉(zhuǎn)換文cs2各自的各日文的各表達(dá)的差異例如分別類似于以下的各英文的各表達(dá)的差異。

“whatdoyouwantforlunchtomorrow?(你明天想吃什么午飯?)”,

“whatdoyouwantfortomorrow’slunch?(明天的午飯你想吃什么?)”,

“couldyouletmeknowyourrequestfortomorrow’slunch?(能告訴我你對明天的午飯的要求嗎?)”。

通過這樣的工作,生成4個同義轉(zhuǎn)換候選文cs1~cs4作為對一個原文os1的同義轉(zhuǎn)換文,并從輸出部3輸出。

如上所述,本實(shí)施方式中的同義轉(zhuǎn)換文生成裝置m和其所安裝的同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序,通過將原文所包含的多個片段中的一個或多個片段,在所述容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文。因此,上述同義轉(zhuǎn)換文生成裝置m、方法以及程序能夠從一個原文制作一個或多個同義轉(zhuǎn)換文作為例文。特別是,如后所述,在利用于對匯集有多個使第1語言的第1文和與所述第1語言不同的第2語言的第2文成對的成對文的對譯語料庫的制作的情況下,上述同義轉(zhuǎn)換文生成裝置m、方法以及程序能夠使對譯語料庫的例文(成對文)自動地增加。

在此,在所述專利文獻(xiàn)3中,例如提出了在機(jī)器翻譯裝置的前處理中使用的、與用于將被輸入的源表達(dá)變換成(同義轉(zhuǎn)換成)意思相同且適合于后續(xù)處理的其他表達(dá)的自動同義轉(zhuǎn)換裝置、自動同義轉(zhuǎn)換方法以及同義轉(zhuǎn)換處理程序有關(guān)的技術(shù)。更具體而言,所述專利文獻(xiàn)3所公開的自動同義轉(zhuǎn)換裝置包括:表達(dá)片段存儲單元,其用于將在預(yù)定語言的第1用例文(例句)群中出現(xiàn)的表達(dá)片段,與所述表達(dá)片段各自在所述第1用例文群中的出現(xiàn)頻度數(shù)一起進(jìn)行存儲;同義轉(zhuǎn)換文存儲單元,其用于將與所述預(yù)定語言的第2用例文群中的用例文分別對應(yīng)的一個或者多個同義轉(zhuǎn)換文,與表示得到該同義轉(zhuǎn)換文時的同義轉(zhuǎn)換的方式的同義轉(zhuǎn)換信息一起進(jìn)行存儲;同義轉(zhuǎn)換信息存儲單元,其用于將表示從所述第2用例文群中的用例文向同義轉(zhuǎn)換文同義轉(zhuǎn)換的方式的同義轉(zhuǎn)換信息,與這些同義轉(zhuǎn)換信息的應(yīng)用頻度一起進(jìn)行存儲;檢索單元,其接收成為同義轉(zhuǎn)換對象的原文,從所述同義轉(zhuǎn)換文存儲單元所存儲的同義轉(zhuǎn)換文中檢索與所述原文共用所述表達(dá)片段存儲單元所存儲的表達(dá)片段中的至少一個片段的同義轉(zhuǎn)換文;評價單元,其用于針對由所述檢索單元檢索出的各個同義轉(zhuǎn)換文與對應(yīng)的原來的用例文之間的同義轉(zhuǎn)換以及與所述原文之間的同義轉(zhuǎn)換,對基于所述同義轉(zhuǎn)換信息存儲單元所存儲的同義轉(zhuǎn)換信息的應(yīng)用頻度而通過預(yù)先確定計算方法來算出的妥當(dāng)性評分進(jìn)行評價;以及原文同義轉(zhuǎn)換單元,其用于通過將在所述同義轉(zhuǎn)換文存儲單元中與由所述評價單元評價得到的妥當(dāng)性評分滿足預(yù)定條件的同義轉(zhuǎn)換文關(guān)聯(lián)的同義轉(zhuǎn)換信息反向應(yīng)用于所述原文,生成對所述原文的同義轉(zhuǎn)換文。

如此,所述專利文獻(xiàn)3所公開的自動同義轉(zhuǎn)換裝置,是生成將輸入到機(jī)器翻譯裝置的源表達(dá)同義轉(zhuǎn)換成了對所述機(jī)器翻譯裝置而言易于翻譯的表達(dá)的同義轉(zhuǎn)換文的裝置。因此,所述專利文獻(xiàn)3所公開的自動同義轉(zhuǎn)換裝置,對一個輸入文僅生成一個同義轉(zhuǎn)換文而不生成多個同義轉(zhuǎn)換文。再者,所述專利文獻(xiàn)3所公開的自動同義轉(zhuǎn)換裝置并不將該生成的同義轉(zhuǎn)換文追加到對譯語料庫中,不生成對譯語料庫。因此,所述專利文獻(xiàn)3既沒有公開也沒有啟示上述的實(shí)施方式。

另外,在所述專利文獻(xiàn)4中,提出了為聲音對話系統(tǒng)制作類似文(相似文)的技術(shù)。更具體而言,所述專利文獻(xiàn)4所公開的裝置是制作相同意圖的類似文的裝置,使計算機(jī)作為如下的單元發(fā)揮功能:重點(diǎn)(seed)文分析單元,其檢索重點(diǎn)文(核心文)中使任意的相同意圖文產(chǎn)生關(guān)系的重點(diǎn)詞(核心詞);近義詞檢索單元,其使用近義詞數(shù)據(jù)庫,檢索與重點(diǎn)詞類似的一個以上的近義詞;重點(diǎn)詞同現(xiàn)向量算出單元,其參照所述相同意圖文的集合,以各語境詞(上下文詞語)作為向量的要素,算出由涉及重點(diǎn)詞的各語境詞的出現(xiàn)頻度構(gòu)成的重點(diǎn)詞同現(xiàn)向量;近義詞同現(xiàn)向量算出單元,其按照大量的一般文集合,以各語境詞為向量的要素,算出由涉及各近義詞的各語境詞的出現(xiàn)頻度構(gòu)成的近義詞同現(xiàn)向量;近義詞選擇單元,其與對于重點(diǎn)詞的重點(diǎn)詞同現(xiàn)向量進(jìn)行比較,選擇成為預(yù)定閾值以上的類似度的近義詞同現(xiàn)向量的近義詞;以及類似文制作單元,其制作重點(diǎn)詞和各近義詞同現(xiàn)(同時出現(xiàn))的類似文。

如此,所述專利文獻(xiàn)4是與聲音對話系統(tǒng)有關(guān)的文獻(xiàn),未設(shè)想機(jī)器翻譯。因此,在所述專利文獻(xiàn)4中,未制作對譯語料庫。而且,所述專利文獻(xiàn)4所公開的裝置是制作相同意圖的類似文的裝置,因此不限于使所制作出的類似文的意思必須與其原來文的意思相同。再者,在所述專利文獻(xiàn)4中,制作類似文時,雖然與對于重點(diǎn)詞的重點(diǎn)詞同現(xiàn)向量進(jìn)行比較而成為預(yù)定閾值以上的類似度的近義詞同現(xiàn)向量被用在近義詞的選擇中,但所述類似度是表示重點(diǎn)詞同現(xiàn)向量與近義詞同現(xiàn)向量之間的類似的程度的指標(biāo),并非上述的實(shí)施方式中的容許進(jìn)行同義轉(zhuǎn)換的容許限度、同義轉(zhuǎn)換容許度、或累計同義轉(zhuǎn)換容許度。因此,所述專利文獻(xiàn)4既沒有公開也沒有啟示上述的實(shí)施方式。

另外,在上述的實(shí)施方式中,對第1片段和第2片段的每個同義轉(zhuǎn)換對預(yù)先分配有同義轉(zhuǎn)換容許度。因此,上述同義轉(zhuǎn)換文生成裝置m、方法以及程序能夠定量地對同義轉(zhuǎn)換容許度和容許限度進(jìn)行比較判定。再者,在將同義轉(zhuǎn)換容許度設(shè)定為,越容許同義轉(zhuǎn)換,其值越小的情況下,例如通過預(yù)先對一般以較高頻率進(jìn)行說法變換的同義轉(zhuǎn)換對和/或同義詞的同義轉(zhuǎn)換對等的同義轉(zhuǎn)換容許度分配較小的值,上述同義轉(zhuǎn)換文生成裝置m、方法以及程序能夠通過定量地對同義轉(zhuǎn)換容許度和容許限度進(jìn)行比較判定,生成意思與原文大致相同的同義轉(zhuǎn)換文。

此外,在上述的實(shí)施方式中,同義轉(zhuǎn)換文生成部2基于同義轉(zhuǎn)換容許度,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi),但也可以還基于語言的容許度,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi)。即,對由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi)的判定也可以基于同義轉(zhuǎn)換容許度以及語言的容許度來進(jìn)行。

如圖2中用虛線所表示的,該變形形式中的同義轉(zhuǎn)換文生成部2還具備語言信息存儲部25以及語言的容許度處理部26。即,變形形式的同義轉(zhuǎn)換文生成部2具備同義轉(zhuǎn)換信息存儲部21、同義轉(zhuǎn)換部22、同義轉(zhuǎn)換容許度處理部23、判定部24、語言信息存儲部25和語言的容許度處理部26。關(guān)于這些同義轉(zhuǎn)換信息存儲部21、同義轉(zhuǎn)換部22以及同義轉(zhuǎn)換容許度處理部23,除了同義轉(zhuǎn)換容許度處理部23經(jīng)由語言的容許度處理部26連接于判定部24這一點(diǎn)之外,與上述是同樣的,因此省略其說明。

語言信息存儲部25連接于語言的容許度處理部26,存儲語言信息。語言信息是用于求取語言的容許度所需的信息。語言信息例如是基于較大規(guī)模的數(shù)據(jù)得到的語言模型和/或語義向量等。在本實(shí)施方式中,語言信息使用所述語言模型。語言的容許度是表示容許將由同義轉(zhuǎn)換部22生成的同義轉(zhuǎn)換候選文作為在語言方面具有正確意思的語句的程度的指標(biāo)。

語言的容許度處理部26介于同義轉(zhuǎn)換容許度處理部23和判定部24之間,分別連接于同義轉(zhuǎn)換容許度處理部23和判定部24。語言的容許度處理部26基于存儲于語言信息存儲部25的語言信息,求取經(jīng)由同義轉(zhuǎn)換容許度處理部23所獲得的同義轉(zhuǎn)換部22中的同義轉(zhuǎn)換候選文的語言的容許度。在本實(shí)施方式中,語言的容許度處理部26基于存儲于語言信息存儲部25的語言模型,求取所述同義轉(zhuǎn)換候選文的語言模型例如n-gram語言模型,作為所述同義轉(zhuǎn)換候選文的語言的容許度。同義轉(zhuǎn)換候選文的n-gram語言模型通過包含由同義轉(zhuǎn)換部22同義轉(zhuǎn)換出的片段的n個詞來求出(n是2以上的整數(shù)),例如通過由同義轉(zhuǎn)換部22同義轉(zhuǎn)換出的片段以及由同義轉(zhuǎn)換部22同義轉(zhuǎn)換出的所述片段的前(n-1)個詞來求出。此外,語言的容許度處理部26也可以基于存儲于語言信息存儲部25的語義向量來求取所述同義轉(zhuǎn)換候選文的語義向量作為所述同義轉(zhuǎn)換候選文的語言的容許度。語言的容許度處理部26將該求出的語言的容許度輸出給判定部24。

如上所述,判定部24連接于輸出部3,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在容許進(jìn)行同義轉(zhuǎn)換的所述容許限度的范圍內(nèi)。在此,根據(jù)該變形形式,在所述判定中,判定部24除了進(jìn)行基于同義轉(zhuǎn)換容許度的判定之外,還基于語言的容許度來判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi),所述語言的容許度是表示容許將由同義轉(zhuǎn)換部22生成的同義轉(zhuǎn)換候選文作為在語言方面具有正確意思的語句的程度的指標(biāo)。更詳細(xì)而言,判定部24除了進(jìn)行基于同義轉(zhuǎn)換容許度的判定之外,還判定從語言的容許度處理部26輸入的語言的容許度是否小于等于預(yù)先設(shè)定的預(yù)定的閾值(第2閾值)。所述預(yù)定的閾值(第2閾值)與所述容許限度相對應(yīng),例如在本實(shí)施方式中,由于語言的容許度是語言模型的出現(xiàn)概率,因此,所述預(yù)定的閾值可設(shè)定為0.4、0.5、0.6等適當(dāng)?shù)闹?,例如設(shè)定為0.5。判定部24在該判定的結(jié)果為語言的容許度小于等于0.5的情況下,判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi),在該判定的結(jié)果為語言的容許度超過了0.5的情況下,判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi)。

圖8是表示變形形式的同義轉(zhuǎn)換文生成部中的語言的容許度處理部的工作的流程圖。圖9是表示變形形式的同義轉(zhuǎn)換文生成部中的判定部的工作(第2是否落入判定工作)的流程圖。圖10是用于說明具備變形形式的同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換文生成裝置中的同義轉(zhuǎn)換文的生成工作(第2同義轉(zhuǎn)換文生成工作)的圖。圖10的(a)表示原文的一個具體例子,圖10的(b)~圖10的(f)表示針對圖10的(a)所示的原文的、由第1次至第5次的各同義轉(zhuǎn)換而生成的各同義轉(zhuǎn)換候選文。圖10的(g)表示針對圖10的(a)所示的原文的、假設(shè)實(shí)施了第6次同義轉(zhuǎn)換的情況下所生成的同義轉(zhuǎn)換候選文。

該變形形式的同義轉(zhuǎn)換文生成部2執(zhí)行上述的圖4所示的原文的受理工作以及同義轉(zhuǎn)換工作,接下來,執(zhí)行上述的圖5所示的同義轉(zhuǎn)換容許度的處理工作,然后,代替執(zhí)行上述的圖6所示的容許限度范圍的是否落入判定工作,而執(zhí)行圖8所示的語言的容許度的處理工作以及圖9所示的容許限度范圍的是否落入判定工作。

<語言的容許度的處理>

該圖8所示的語言的容許度的處理工作是為了評價由同義轉(zhuǎn)換部22生成的同義轉(zhuǎn)換候選文是否是在語言方面具有正確意思的語句而對語言的容許度進(jìn)行處理的工作。在該語言的容許度的處理工作中,在圖8中,該變形形式的同義轉(zhuǎn)換文生成部2通過語言的容許度處理部26,基于存儲于語言信息存儲部25的語言信息,評價由同義轉(zhuǎn)換部22實(shí)施的同義轉(zhuǎn)換(s41),取得該評價結(jié)果作為語言的容許度并輸出給判定部24(s42),結(jié)束該語言的容許度的處理工作。更具體而言,語言的容許度處理部26基于存儲于語言信息存儲部25的語言模型,求取由同義轉(zhuǎn)換部22生成的同義轉(zhuǎn)換候選文的n-gram語言模型,取得該求出的同義轉(zhuǎn)換候選文的n-gram語言模型作為語言的容許度并輸出給判定部24。

通過這樣的工作,變形形式的同義轉(zhuǎn)換文生成部2為了在語言方面評價同義轉(zhuǎn)換候選文,求取語言的容許度。

<容許限度范圍的是否落入判定>

所述圖9所示的容許限度范圍的是否落入判定工作是判定由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換是否在容許限度的范圍內(nèi)的工作。在該容許限度范圍的是否落入判定工作中,在圖9中,首先,該變形形式的同義轉(zhuǎn)換文生成部2通過其判定部24,從同義轉(zhuǎn)換容許度處理部23取得累計同義轉(zhuǎn)換容許度,從語言的容許度處理部26取得語言的容許度(s51)。

接著,所述變形形式的同義轉(zhuǎn)換文生成部2通過其判定部24,判定由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi)(s52、s53)。

更具體而言,判定部24首先判定從同義轉(zhuǎn)換容許度處理部23取得的累計同義轉(zhuǎn)換容許度是否小于等于所述第1閾值(s52)。在該判定的結(jié)果為累計同義轉(zhuǎn)換容許度小于等于所述第1閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi)(s52:是),執(zhí)行接下來的處理s53。另一方面,在所述判定的結(jié)果為累計同義轉(zhuǎn)換容許度超過了所述第1閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi)(s52:否),不將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,使同義轉(zhuǎn)換部22停止執(zhí)行對一個原文的下次以后的同義轉(zhuǎn)換,結(jié)束該容許限度范圍的是否落入判定工作。

在處理s53中,判定部24判定從語言的容許度處理部26取得的語言的容許度是否大于等于所述第2閾值。在該判定的結(jié)果為語言的容許度大于等于所述第2閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換在所述容許限度的范圍內(nèi)(s53:是),將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文保持在未圖示的所述ram等中,使同義轉(zhuǎn)換部22執(zhí)行對一個原文的下一次同義轉(zhuǎn)換(s54),結(jié)束該容許限度范圍的是否落入判定工作。另一方面,在所述判定的結(jié)果為語言的容許度小于所述第2閾值的情況下,判定部24判定為由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換不在所述容許限度的范圍內(nèi)(s53:否),不將由同義轉(zhuǎn)換部22通過此次的同義轉(zhuǎn)換的執(zhí)行所生成的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文,使同義轉(zhuǎn)換部22停止執(zhí)行對一個原文的下次以后的同義轉(zhuǎn)換,結(jié)束該容許限度范圍的是否落入判定工作。

通過這樣的工作,變形形式的同義轉(zhuǎn)換文生成部2執(zhí)行用于評價由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換的、是否處于容許限度范圍的是否落入判定工作。

而且,在由同義轉(zhuǎn)換部22執(zhí)行的同義轉(zhuǎn)換停止時,同義轉(zhuǎn)換文生成裝置m將所保持的所述同義轉(zhuǎn)換文從輸出部3輸出。

使用圖10,列舉一個具體例子進(jìn)行說明。在該一個具體例子中,對圖10的(a)所示的原文(輸入文)os1應(yīng)用圖3所示的同義轉(zhuǎn)換表ct,以圖3所示的同義轉(zhuǎn)換表ct中的第1條記錄、第2條記錄、第3條記錄、第4條記錄、第6條記錄以及第5條記錄為序選擇片段。因此,圖10的(a)所示的原文os1是圖7的(a)所示的原文os1,圖10的(b)~圖10的(e)所示的同義轉(zhuǎn)換候選文cs1~cs4是圖7的(b)~圖7的(e)所示的同義轉(zhuǎn)換候選文cs1~cs4。所述第1閾值設(shè)定為1,所述第2閾值設(shè)定為0.5。另外,n-gram語言模型的n的值設(shè)定為3。

首先,從輸入部1輸入圖10的(a)所示的原文os1,通過使用圖7的(b)說明了的同樣的處理,生成圖10的(b)所示的同義轉(zhuǎn)換候選文cs1,求出累計同義轉(zhuǎn)換容許度(即在初次為同義轉(zhuǎn)換容許度)“0.1”。而且,在處理s41中,關(guān)于圖10的(b)所示的同義轉(zhuǎn)換候選文cs1,求出包含由同義轉(zhuǎn)換部22同義轉(zhuǎn)換得到的第2片段sd21的3-gram語言模型“0.8”,在處理s42中,取得該求出的3-gram語言模型“0.8”作為語言的容許度。

接下來,在處理s51中,取得通過處理s22求出的累計同義轉(zhuǎn)換容許度“0.1”以及通過處理s42獲得的語言的容許度“0.8”,首先,在處理s52中,判定該取得的累計同義轉(zhuǎn)換容許度“0.1”是否小于等于所述第1閾值1。如圖10的(b)所示,在初次同義轉(zhuǎn)換中,累計同義轉(zhuǎn)換容許度“0.1”小于等于所述預(yù)定的閾值1,因此執(zhí)行處理s53。在處理s53中,判定該取得的語言的容許度“0.8”是否大于等于所述第2閾值0.5。如圖10的(b)所示,在初次同義轉(zhuǎn)換中,語言的容許度“0.8”大于等于所述第2閾值0.5,因此執(zhí)行處理s54。在該處理s54中,將圖10的(b)所示的同義轉(zhuǎn)換候選文cs1保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第2次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第2次同義轉(zhuǎn)換,原文os1的片段sd6被同義轉(zhuǎn)換成第2片段sd22,生成同義轉(zhuǎn)換候選文cs2,求出同義轉(zhuǎn)換容許度“0.1”、累計同義轉(zhuǎn)換容許度“0.2”以及語言的容許度“0.9”。該結(jié)果表示在圖10的(c)中。如圖10的(c)所示,累計同義轉(zhuǎn)換容許度“0.2”小于等于所述第1閾值1,因此執(zhí)行處理s53,語言的容許度“0.9”大于等于所述第2閾值0.5,因此執(zhí)行處理s54。在該處理s54中,將圖10的(c)所示的同義轉(zhuǎn)換候選文cs2保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第3次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第3次同義轉(zhuǎn)換,原文os1的片段sd2被同義轉(zhuǎn)換成第2片段sd23,生成同義轉(zhuǎn)換候選文cs3,求出同義轉(zhuǎn)換容許度“0.3”、累計同義轉(zhuǎn)換容許度“0.5”以及語言的容許度“0.7”。該結(jié)果表示在圖10的(d)中。如圖10的(d)所示,累計同義轉(zhuǎn)換容許度“0.5”小于等于所述第1閾值1,因此執(zhí)行處理s53,語言的容許度“0.7”大于等于所述第2閾值0.5,因此執(zhí)行處理s54。在該處理s54中,將圖10的(d)所示的同義轉(zhuǎn)換候選文cs3保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第4次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第4次同義轉(zhuǎn)換,原文os1的片段sd4被同義轉(zhuǎn)換成第2片段sd24,生成同義轉(zhuǎn)換候選文cs4,求出同義轉(zhuǎn)換容許度“0.3”、累計同義轉(zhuǎn)換容許度“0.8”以及語言的容許度“0.8”。該結(jié)果表示在圖10的(e)中。如圖10的(e)所示,累計同義轉(zhuǎn)換容許度“0.8”小于等于所述第1閾值1,因此執(zhí)行處理s53,語言的容許度“0.8”大于等于所述第2閾值0.5,因此執(zhí)行處理s54。在該處理s54中,將圖10的(e)所示的同義轉(zhuǎn)換候選文cs4保持為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第5次)同義轉(zhuǎn)換。

由此,與上述同樣地執(zhí)行第5次同義轉(zhuǎn)換,原文os1的片段sd1被同義轉(zhuǎn)換成第2片段sd26,生成同義轉(zhuǎn)換候選文cs6,求出同義轉(zhuǎn)換容許度“0.1”、累計同義轉(zhuǎn)換容許度“0.9”以及語言的容許度“0.01”。該結(jié)果表示在圖10的(f)中。如圖10的(f)所示,累計同義轉(zhuǎn)換容許度“0.9”小于等于所述第1閾值1,因此執(zhí)行處理s53,語言的容許度“0.01”并非大于等于所述第2閾值0.5(小于所述第2閾值0.5),因此,不執(zhí)行處理s54,不將圖10的(f)所示的同義轉(zhuǎn)換候選文cs6設(shè)為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示停止進(jìn)行下一次(第6次)同義轉(zhuǎn)換。

通過這樣的工作,生成4個同義轉(zhuǎn)換候選文cs1~cs4作為對一個原文os1的同義轉(zhuǎn)換文,并從輸出部3輸出。

此外,在圖10所示的例子中,在如圖7所示的例子那樣僅基于同義轉(zhuǎn)換容許度進(jìn)行對由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在容許限度的范圍內(nèi)的判定的情況下,在第5次同義轉(zhuǎn)換中,累計同義轉(zhuǎn)換容許度“0.9”小于等于所述第1閾值1,因此,將會由同義轉(zhuǎn)換部22指示進(jìn)行下一次(第6次)同義轉(zhuǎn)換。該情況下,原文os1的片段sd3(同義轉(zhuǎn)換候選文cs6的與片段sd3對應(yīng)的第2片段sd21)被同義轉(zhuǎn)換成第2片段sd25,生成同義轉(zhuǎn)換候選文cs7,求出同義轉(zhuǎn)換容許度“0.2”、累計同義轉(zhuǎn)換容許度“1.1”以及語言的容許度“0.05”。該結(jié)果表示在圖10的(g)中。如圖10的(g)所示,累計同義轉(zhuǎn)換容許度“1.1”并非小于等于所述第1閾值1(超過了所述第1閾值1),因此,在該第6次同義轉(zhuǎn)換的定時,不執(zhí)行處理s53,不將圖10的(g)所示的同義轉(zhuǎn)換候選文cs7設(shè)為同義轉(zhuǎn)換文,由同義轉(zhuǎn)換部22指示停止進(jìn)行下一次(第7次)同義轉(zhuǎn)換。因此,該情況下,將會生成5個同義轉(zhuǎn)換候選文cs1~cs4、cs6作為對一個原文os1的同義轉(zhuǎn)換文,并從輸出部3輸出。如此,在僅基于同義轉(zhuǎn)換容許度進(jìn)行對由同義轉(zhuǎn)換部22進(jìn)行的同義轉(zhuǎn)換是否在容許限度的范圍內(nèi)的判定的情況下,存在將通過同義轉(zhuǎn)換而變得在語言方面不具有正確意思的同義轉(zhuǎn)換候選文cs6設(shè)為同義轉(zhuǎn)換文的可能性。

具備這樣的變形形式的同義轉(zhuǎn)換文生成部2的同義轉(zhuǎn)換文生成裝置m和其所安裝的同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序能夠減少將因同義轉(zhuǎn)換而變得在語言方面不具有正確意思的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文的情況,能夠獲得在語言方面更適合的同義轉(zhuǎn)換文。

另外,在上述的實(shí)施方式中,同義轉(zhuǎn)換文生成裝置也可以進(jìn)一步構(gòu)成為制作對譯語料庫的結(jié)構(gòu)。如圖1中用虛線所表示的,這樣的變形形式的同義轉(zhuǎn)換文生成裝置m例如還具備對譯語料庫制作裝置c,該對譯語料庫制作裝置c具備對譯語料庫制作部4以及對譯語料庫存儲部5。

對譯語料庫存儲部5存儲對譯語料庫。對譯語料庫是匯集有多個使第1語言的第1文和與所述第1語言不同的第2語言的第2文成對的成對文的語料庫。

對譯語料庫制作部4分別連接于輸入部1、同義轉(zhuǎn)換文生成部2和對譯語料庫存儲部5,制作對譯語料庫,并將該制作出的對譯語料庫存儲于對譯語料庫存儲部5。

在這樣的變形形式的同義轉(zhuǎn)換文生成裝置m中,輸入部1受理原文和將所述原文作為對譯語料庫中的第1文的情況下的第2文。輸入部1將該受理的原文輸出給同義轉(zhuǎn)換文生成部2,將所述受理的第2文輸出給對譯語料庫制作部4。

同義轉(zhuǎn)換文生成部2通過上述的各處理生成對由輸入部1受理的所述原文的一個或多個同義轉(zhuǎn)換文,將該生成的一個或多個同義轉(zhuǎn)換文分別輸出給輸出部3以及對譯語料庫制作部4。

而且,對譯語料庫制作部4基于由同義轉(zhuǎn)換文生成部2生成的一個或多個同義轉(zhuǎn)換文和由輸入部1受理的第2文,制作對譯語料庫,將該制作出的對譯語料庫存儲于對譯語料庫存儲部5。更具體而言,對譯語料庫制作部4通過使由同義轉(zhuǎn)換文生成部2生成的對所述原文的一個或多個同義轉(zhuǎn)換文和由輸入部1受理的所述第2文成對,制作一個或多個新的成對文,將該制作出的一個或多個新的成對文作為存儲于對譯語料庫存儲部5的對譯語料庫的新的一部分。例如,輸入一對作為第1文的原文os11以及第2文os12?;蛘撸斎氚鳛榈?文的原文os11和第2文os12的對譯語料庫。在從一個原文os11生成兩個同義轉(zhuǎn)換文cs21、cs22時,可制作同義轉(zhuǎn)換文cs21和第2文os12的新的成對文、以及同義轉(zhuǎn)換文cs22和第2文os12的新的成對文,將這兩個新的成對文作為存儲于對譯語料庫存儲部5的對譯語料庫的新的一部分。

此外,由輸入部1受理的一對作為第1文的原文以及第2文可以是存儲于對譯語料庫存儲部5的對譯語料庫所包含的成對文,另外,也可以是存儲于對譯語料庫存儲部5的對譯語料庫未包含的成對文。在由輸入部1受理的一對作為第1文的原文以及第2文是存儲于對譯語料庫存儲部5的對譯語料庫未包含的成對文的情況下,輸入部1可以將該受理到的一對作為第1文的原文以及第2文輸出給對譯語料庫制作部4,對譯語料庫制作部4可以將該一對作為第1文的原文以及第2文作為新的成對文,設(shè)為存儲于對譯語料庫存儲部5的對譯語料庫的新的一部分。

這樣的變形形式的同義轉(zhuǎn)換文生成裝置m和其所安裝的同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序能夠使對譯語料庫的例文(成對文)自動地增加,能夠制作具有更多例文(成對文)的對譯語料庫。

另外,在上述的實(shí)施方式中,同義轉(zhuǎn)換部22始終執(zhí)行從第1片段向第2片段的同義轉(zhuǎn)換,但也可以設(shè)為根據(jù)預(yù)先設(shè)定的預(yù)定的條件而不執(zhí)行從第1片段向第2片段的同義轉(zhuǎn)換。這樣的不執(zhí)行同義轉(zhuǎn)換的條件(排除條件)例如登記在如圖11的(a)所示同義轉(zhuǎn)換表cta中。圖11是用于說明存儲在所述同義轉(zhuǎn)換文生成部的同義轉(zhuǎn)換信息存儲部中的變形形式的同義轉(zhuǎn)換表的圖。圖11的(a)表示變形形式的同義轉(zhuǎn)換表cta,圖11的(b)表示不滿足排除條件的情況下的原文os2以及同義轉(zhuǎn)換候選文cs8,圖11的(c)表示滿足排除條件的情況下的原文os3以及同義轉(zhuǎn)換候選文cs9。

相對于上述的圖3所示的同義轉(zhuǎn)換表ct,該圖11的(a)所示的變形形式的同義轉(zhuǎn)換表cta還具備排除條件域214,該排除條件域214登記作為不執(zhí)行從登記于第1片段域211的第1片段向登記于第2片段域212的第2片段的同義轉(zhuǎn)換的排除條件。在該變形形式中,同義轉(zhuǎn)換部22在進(jìn)行同義轉(zhuǎn)換時,從同義轉(zhuǎn)換信息存儲部21所存儲的同義轉(zhuǎn)換表cta的排除條件域214中取出排除條件,判定成為同義轉(zhuǎn)換的對象的語句是否滿足該取出的排除條件,在該判定的結(jié)果為不滿足排除條件的情況下,執(zhí)行所述同義轉(zhuǎn)換,在滿足排除條件的情況下,不執(zhí)行所述同義轉(zhuǎn)換。在圖11的(a)所示的例子中,第4條記錄的排除條件域214中登記有排除條件rp。該排除條件rp是通過同義轉(zhuǎn)換所生成的同義轉(zhuǎn)換候選文cs作為語句或詞組并不成立的條件,在一例中,是在日語中第1片段為名詞、接在該第1片段的后面的片段為格助詞“の”的情況。例如,圖11的(b)所示的原文os2所包含的第1片段sd14不滿足該排除條件rp,因此,即使將第1片段sd14同義轉(zhuǎn)換成第2片段sd24,由此生成的同義轉(zhuǎn)換候選文cs8作為語句或詞組也是成立的。然而,圖11的(c)所示的原文os3所包含的第1片段sd14滿足該排除條件rp,因此,若假設(shè)將第1片段sd14同義轉(zhuǎn)換成第2片段sd24,則由此生成的同義轉(zhuǎn)換候選文cs9作為語句或詞組并不成立。通過如此具備排除條件,能夠減少生成不適合的同義轉(zhuǎn)換候選文。

接著,對另一實(shí)施方式進(jìn)行說明。

(第2實(shí)施方式:機(jī)器翻譯系統(tǒng))

圖12是表示第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)的構(gòu)成的框圖。在第1實(shí)施方式中,對于同義轉(zhuǎn)換文生成裝置m和其所安裝的同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序,以包含其變形形式的方式進(jìn)行了說明,而在第2實(shí)施方式中,對使用了該同義轉(zhuǎn)換文生成裝置m的、即安裝有同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序的機(jī)器翻譯系統(tǒng)進(jìn)行說明。

例如如圖12所示,該第2實(shí)施方式中的機(jī)器翻譯系統(tǒng)s具備同義轉(zhuǎn)換文生成裝置m、對譯語料庫制作裝置c以及翻譯裝置t。這些同義轉(zhuǎn)換文生成裝置m以及對譯語料庫制作裝置c作為具備包括對譯語料庫制作部4和對譯語料庫存儲部5的對譯語料庫制作裝置c的、變形形式的同義轉(zhuǎn)換文生成裝置m,與上述的裝置是同樣的,因此省略其說明。

翻譯裝置t是基于由具備對譯語料庫制作裝置c的、變形形式的對譯語料庫制作裝置m制作出的對譯語料庫,將作為翻譯對象的對象文在第1語言和第2語言之間進(jìn)行翻譯的裝置。翻譯裝置t例如具備學(xué)習(xí)部6、翻譯部7、第2輸入部8和第2輸出部9。

第2輸入部8連接于翻譯部7,例如是將指示翻譯開始的命令等各種命令、以及例如為了對第1語言的對象文等進(jìn)行翻譯所需要的各種數(shù)據(jù)輸入到翻譯裝置t的設(shè)備,例如是鍵盤以及鼠標(biāo)等。另外,例如第2輸入部8也可以是接口部。第2輸出部9連接于翻譯部7,是將從第2輸入部8輸入的命令、數(shù)據(jù)以及由翻譯部7翻譯得到的第2語言的翻譯文等輸出的設(shè)備,例如是crt顯示器、lcd(液晶顯示器)以及有機(jī)el顯示器等顯示裝置或打印機(jī)等印刷裝置等。此外,也可以由第2輸入部8和第2輸出部9構(gòu)成觸摸面板。另外,第2輸入部8也可以與輸入部(第1輸入部)1兼用,第2輸出部9也可以與輸出部(第1輸出部)3兼用。

學(xué)習(xí)部6連接于翻譯部7,使用由具備對譯語料庫制作裝置c的、變形形式的同義轉(zhuǎn)換文生成裝置m制作出的對譯語料庫來生成或者學(xué)習(xí)翻譯部7的翻譯模型。

翻譯部7將由第2輸入部8受理的第1語言的對象文翻譯成第2語言從而生成第2語言的翻譯文,并輸出給第2輸出部9。

具備這樣的各部6~9的翻譯裝置t例如由臺式、筆記本式、平板式等的計算機(jī)等的信息處理裝置構(gòu)成。

在這樣的機(jī)器翻譯系統(tǒng)s中,具備對譯語料庫制作裝置c的、變形形式的同義轉(zhuǎn)換文生成裝置m通過第1實(shí)施方式中說明的各工作來制作包括新的成對文的對譯語料庫(新對譯語料庫)。接下來,學(xué)習(xí)部6取得該制作出的新對譯語料庫,通過該取得的新對譯語料庫來生成或者學(xué)習(xí)翻譯部7的翻譯模型。該新對譯語料庫如第1實(shí)施方式中說明的那樣,包含更多的例文,因此能夠更高精度地生成或者學(xué)習(xí)翻譯部7的翻譯模型。而且,當(dāng)從第2輸入部8受理到對象文、并被指示進(jìn)行翻譯時,翻譯部7對對象文進(jìn)行翻譯,將翻譯文輸出給第2輸出部9。因?yàn)槿缟纤鲇蓪W(xué)習(xí)部6更高精度地生成或?qū)W習(xí)翻譯模型,所以翻譯部7能夠更高精度地進(jìn)行翻譯。

這樣的機(jī)器翻譯系統(tǒng)s具備安裝上述的同義轉(zhuǎn)換文生成方法以及同義轉(zhuǎn)換文生成程序的同義轉(zhuǎn)換文生成裝置m,因此能夠從一個原文制作一個或多個同義轉(zhuǎn)換文。而且,上述機(jī)器翻譯系統(tǒng)s具備對譯語料庫制作裝置c,因此能夠通過將原文作為第1文并使對所述原文的一個或多個同義轉(zhuǎn)換文與第2文成對來制作一個或多個新的成對文,并將其作為對譯語料庫的新的一部分,能夠制作新對譯語料庫。因此,上述機(jī)器翻譯系統(tǒng)s能夠使對譯語料庫的例文(成對文)自動地增加,能夠制作具有更多例文(成對文)的對譯語料庫,所以能夠更高精度地進(jìn)行翻譯。

此外,在上述的實(shí)施方式中,上述的同義轉(zhuǎn)換容許度也可以通過考慮到第2輸出部9所輸出的翻譯文的反饋處理而可變。圖13是用于說明所述機(jī)器翻譯系統(tǒng)的變形形式的圖。圖13的(a)表示同義轉(zhuǎn)換容許度變更前的同義轉(zhuǎn)換表ctb,圖13的(b)表示同義轉(zhuǎn)換容許度變更后的同義轉(zhuǎn)換表ctc,圖13的(c)表示在對同義轉(zhuǎn)換容許度進(jìn)行變更的情況下的同義轉(zhuǎn)換以及翻譯文。

例如,如圖13的(c)所示,對象文os4由用戶從第2輸入部8輸入到機(jī)器翻譯系統(tǒng)s,通過翻譯部7進(jìn)行翻譯,翻譯文ts1在第2輸出部9輸出。該翻譯文ts1被用戶判斷為作為對象文os4的翻譯文并不正確,翻譯文ts1并非正確的翻譯文這一意思由用戶從第2輸入部8輸入,將對象文os4的片段sd7作為第1片段sd17而將片段sd7替換成第2片段sd27得到的同義轉(zhuǎn)換文cs8由用戶從第2輸入部8輸入。該同義轉(zhuǎn)換文cs8通過翻譯部7進(jìn)行翻譯,翻譯文ts2在第2輸出部9輸出。該翻譯文ts2被用戶判斷為作為對象文os4的翻譯文是正確的,翻譯文ts2是正確的翻譯文這一意思由用戶從第2輸入部8輸入。在由第2輸入部8受理到對象文os4的翻譯文ts1并非正確的翻譯文這一意思、替換源(同義轉(zhuǎn)換源)的第1片段sd17、替換目標(biāo)(同義轉(zhuǎn)換目標(biāo))的第2片段sd27、對象文os4的翻譯文ts2是正確的翻譯文這一意思時,翻譯部7將這些數(shù)據(jù)輸出給同義轉(zhuǎn)換文生成裝置m,指示同義轉(zhuǎn)換文生成裝置m將同義轉(zhuǎn)換容許度變更為與這些數(shù)據(jù)相應(yīng)的同義轉(zhuǎn)換容許度。同義轉(zhuǎn)換文生成裝置m還具備圖2中用虛線表示的同義轉(zhuǎn)換容許度變更部27,該同義轉(zhuǎn)換容許度變更部27基于對象文os4的翻譯文ts1并非正確的翻譯文這一意思、同義轉(zhuǎn)換源的第1片段sd17、同義轉(zhuǎn)換目標(biāo)的第2片段sd27、對象文os4的翻譯文ts2是正確的翻譯文這一意思,變更同義轉(zhuǎn)換容許度。受理到這些數(shù)據(jù)以及指示的同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換容許度變更部27,檢索同義轉(zhuǎn)換信息存儲部21所存儲的同義轉(zhuǎn)換表ctb中的第1記錄和第2記錄,所述第1記錄在第1片段域211以及第2片段域212中分別登記有同義轉(zhuǎn)換源的第1片段sd17(=sd7)以及第2片段sd27,所述第2記錄在所述第1片段域211以及第2片段域212中分別登記有同義轉(zhuǎn)換目標(biāo)的第2片段sd27以及同義轉(zhuǎn)換源的第1片段sd17(=sd7)。在該檢索的結(jié)果為檢索到了第1記錄的情況下,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換容許度變更部27,將第1記錄的同義轉(zhuǎn)換容許度域213所登記的同義轉(zhuǎn)換容許度降低預(yù)先設(shè)定的預(yù)定值(第1預(yù)定值)。在所述檢索的結(jié)果為檢索到了第2記錄的情況下,同義轉(zhuǎn)換文生成裝置m通過同義轉(zhuǎn)換容許度變更部27,將第2記錄的同義轉(zhuǎn)換容許度域213所登記的同義轉(zhuǎn)換容許度增加預(yù)先設(shè)定的預(yù)定值(第2預(yù)定值)。在圖13所示的例子中,圖13的(a)所示的同義轉(zhuǎn)換表ctb變更為圖13的(b)所示的同義轉(zhuǎn)換表ctc。而且,在同義轉(zhuǎn)換文生成裝置m的同義轉(zhuǎn)換信息存儲部21中,存儲有同義轉(zhuǎn)換容許度變更后的同義轉(zhuǎn)換表ctc。此外,也可以代替將同義轉(zhuǎn)換容許度增加所述第2預(yù)定值,而刪除相應(yīng)的同義轉(zhuǎn)換對。

由此,得到了正確翻譯的同義轉(zhuǎn)換(第1片段→第2片段)的同義轉(zhuǎn)換容許度被降低,同義轉(zhuǎn)換更加被容許,另一方面,未得到正確翻譯的同義轉(zhuǎn)換(第2片段→第1片段)的同義轉(zhuǎn)換容許度(與得到了正確翻譯的同義轉(zhuǎn)換(第1片段→第2片段)相對的反向的同義轉(zhuǎn)換(第2片段→第1片段)的同義轉(zhuǎn)換容許度)被增加,同義轉(zhuǎn)換變得更加難以被容許。因此,同義轉(zhuǎn)換文生成裝置m能夠生成能更高精度地進(jìn)行翻譯的對譯語料庫的例文(同義轉(zhuǎn)換文)。

本說明書如上所述公開了各種技術(shù)方案的技術(shù),下面對其中的主要技術(shù)進(jìn)行總結(jié)。

一個技術(shù)方案涉及的同義轉(zhuǎn)換文生成方法包括:受理步驟,受理原文;以及同義轉(zhuǎn)換文生成步驟,通過將在所述受理步驟中受理的所述原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文,所述片段是通過按照預(yù)先設(shè)定的預(yù)定規(guī)則對語句進(jìn)行分割而形成的片段。優(yōu)選為,在另一技術(shù)方案中,在上述的同義轉(zhuǎn)換文生成方法中,所述同義轉(zhuǎn)換文生成步驟包括:同義轉(zhuǎn)換步驟,通過將所述原文所包含的一個所述片段同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個同義轉(zhuǎn)換候選文;以及判定步驟,判定通過所述同義轉(zhuǎn)換步驟進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi),執(zhí)行所述同義轉(zhuǎn)換步驟,直到通過所述判定步驟判定為不在所述容許限度的范圍內(nèi)為止,所述判定步驟中,將通過判定為在所述容許限度的范圍內(nèi)的所述同義轉(zhuǎn)換步驟生成的所述同義轉(zhuǎn)換候選文作為所述同義轉(zhuǎn)換文。

這樣的同義轉(zhuǎn)換文生成方法通過將原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文。因此,上述同義轉(zhuǎn)換文生成方法能夠從一個原文制作一個或多個同義轉(zhuǎn)換文來作為例文。

另外,在另一技術(shù)方案中,在上述的同義轉(zhuǎn)換文生成方法中,所述判定步驟中,基于同義轉(zhuǎn)換容許度,判定通過所述同義轉(zhuǎn)換步驟進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi),所述同義轉(zhuǎn)換容許度被分配于第1片段和作為所述第1片段的其他表達(dá)的第2片段的同義轉(zhuǎn)換對,是表示容許進(jìn)行從所述第1片段向所述第2片段的同義轉(zhuǎn)換的程度的指標(biāo)。

在這樣的同義轉(zhuǎn)換文生成方法中,對第1片段和第2片段的每個同義轉(zhuǎn)換對預(yù)先分配有作為表示容許進(jìn)行從第1片段向第2片段的同義轉(zhuǎn)換的程度的指標(biāo)的同義轉(zhuǎn)換容許度。因此,上述同義轉(zhuǎn)換文生成方法能夠定量地對同義轉(zhuǎn)換容許度和容許限度進(jìn)行比較判定。再者,在將同義轉(zhuǎn)換容許度設(shè)定為,越容許同義轉(zhuǎn)換,其值越小的情況下,例如通過預(yù)先對一般以較高頻率進(jìn)行說法變換的同義轉(zhuǎn)換對和/或同義詞的同義轉(zhuǎn)換對等的同義轉(zhuǎn)換容許度分配較小的值,上述同義轉(zhuǎn)換文生成方法能夠通過定量地對同義轉(zhuǎn)換容許度和容許限度進(jìn)行比較判定,生成意思與原文大致相同的同義轉(zhuǎn)換文。

另外,在另一技術(shù)方案中,在上述的同義轉(zhuǎn)換文生成方法中,所述判定步驟中,還基于語言的容許度,判定通過所述同義轉(zhuǎn)換步驟進(jìn)行的同義轉(zhuǎn)換是否在所述容許限度的范圍內(nèi),所述語言的容許度是表示容許將通過所述同義轉(zhuǎn)換步驟生成的同義轉(zhuǎn)換候選文作為在語言方面具有正確意思的語句的程度的指標(biāo)。優(yōu)選為,在上述的同義轉(zhuǎn)換文生成方法中,語言的容許度是所述同義轉(zhuǎn)換候選文的語言模型。另外,優(yōu)選為,在上述的同義轉(zhuǎn)換文生成方法中,語言的容許度是所述同義轉(zhuǎn)換候選文的語義向量。

在這樣的同義轉(zhuǎn)換文生成方法中,可進(jìn)一步基于語言的容許度來判定同義轉(zhuǎn)換是否在容許限度的范圍內(nèi),所述語言的容許度是表示容許同義轉(zhuǎn)換候選文作為在語言方面具有正確意思的語句的程度的指標(biāo)。因此,上述同義轉(zhuǎn)換文生成方法能夠減少將因同義轉(zhuǎn)換而變得在語言方面不具有正確意思的同義轉(zhuǎn)換候選文設(shè)為同義轉(zhuǎn)換文的情況,能夠獲得在語言方面更適合的同義轉(zhuǎn)換文。

另外,在另一技術(shù)方案中,在上述的同義轉(zhuǎn)換文生成方法中,還包括對譯語料庫制作步驟,該對譯語料庫制作步驟中制作對譯語料庫,所述對譯語料庫匯集有多個使第1語言的第1文和與所述第1語言不同的第2語言的第2文成對的成對文,所述受理步驟中,還受理將所述原文作為所述第1文的情況下的所述第2文,所述對譯語料庫制作步驟中,通過使在所述同義轉(zhuǎn)換文生成步驟中生成的對所述原文的一個或多個同義轉(zhuǎn)換文和在所述受理步驟中受理的所述第2文成對來制作一個或多個新的成對文,將制作出的所述一個或多個新的成對文作為所述對譯語料庫的新的一部分。

這樣的同義轉(zhuǎn)換文生成方法還包括對譯語料庫制作步驟,通過該對譯語料庫制作步驟,將原文作為第1文并使對所述原文的一個或多個同義轉(zhuǎn)換文和第2文成對由此制作一個或多個新的成對文,將其作為對譯語料庫的新的一部分。因此,上述同義轉(zhuǎn)換文生成方法能夠使對譯語料庫的例文(成對文)自動地增加,能夠制作具有更多例文(成對文)的對譯語料庫。

另外,另一技術(shù)方案涉及的同義轉(zhuǎn)換文生成裝置具備:輸入部,其受理原文;以及同義轉(zhuǎn)換文生成部,其通過將由所述輸入部受理的所述原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文,所述片段是通過按照預(yù)先設(shè)定的預(yù)定規(guī)則對語句進(jìn)行分割而形成的片段。

另外,另一技術(shù)方案涉及的同義轉(zhuǎn)換文生成程序用于使計算機(jī)執(zhí)行如下步驟:受理步驟,受理原文;以及同義轉(zhuǎn)換文生成步驟,通過將在所述受理步驟中受理的所述原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文,所述片段是通過按照預(yù)先設(shè)定的預(yù)定規(guī)則對語句進(jìn)行分割而形成的片段。

這樣的同義轉(zhuǎn)換文生成裝置以及同義轉(zhuǎn)換文生成程序通過將原文所包含的多個片段中的一個或多個片段,在容許進(jìn)行同義轉(zhuǎn)換的容許限度的范圍內(nèi)同義轉(zhuǎn)換成所述原文的語言的其他表達(dá),生成對所述原文的一個或多個同義轉(zhuǎn)換文。因此,上述同義轉(zhuǎn)換文生成裝置以及程序能夠從一個原文制作一個或多個同義轉(zhuǎn)換文來作為例文。

另外,另一技術(shù)方案涉及的機(jī)器翻譯系統(tǒng)具備:同義轉(zhuǎn)換文生成裝置,其受理原文,生成對所述原文的一個或多個同義轉(zhuǎn)換文;對譯語料庫制作裝置,其制作對譯語料庫,所述對譯語料庫匯集有多個使第1語言的第1文和與所述第1語言不同的第2語言的第2文成對的成對文;以及翻譯裝置,其基于由所述對譯語料庫制作裝置制作出的對譯語料庫,將作為翻譯對象的對象文在所述第1語言和所述第2語言之間進(jìn)行翻譯,所述對譯語料庫制作裝置通過將所述原文作為所述第1文并使由所述同義轉(zhuǎn)換文生成裝置生成的對所述原文的一個或多個同義轉(zhuǎn)換文和所述第2文成對來制作一個或多個新的成對文,將制作出的所述一個或多個新的成對文作為所述對譯語料庫的新的一部分,所述同義轉(zhuǎn)換文生成裝置實(shí)施上述的任一個同義轉(zhuǎn)換文生成方法。

這樣的機(jī)器翻譯系統(tǒng)具備實(shí)施上述的任一個同義轉(zhuǎn)換文生成方法的同義轉(zhuǎn)換文生成裝置,因此能夠從一個原文制作一個或多個同義轉(zhuǎn)換文。而且,上述機(jī)器翻譯系統(tǒng)具備對譯語料庫制作裝置,因此,通過將原文作為第1文并使對所述原文的一個或多個同義轉(zhuǎn)換文與第2文成對而能夠制作一個或多個新的成對文,將此設(shè)為對譯語料庫的新的一部分。為此,上述機(jī)器翻譯系統(tǒng)能夠使對譯語料庫的例文(成對文)自動地增加,能夠制作具有更多例文(成對文)的對譯語料庫,所以能夠更高精度地進(jìn)行翻譯。

為了表達(dá)本發(fā)明,在上述中參照附圖利用實(shí)施方式適當(dāng)且充分地說明了本發(fā)明,但應(yīng)該認(rèn)識到對于本領(lǐng)域技術(shù)人員來說容易對上述的實(shí)施方式進(jìn)行變更和/或改良。因此,只要本領(lǐng)域技術(shù)人員實(shí)施的變更方式或改良方式不脫離權(quán)利要求書所記載的權(quán)利要求的權(quán)利范圍,該變更方式或該改良方式就可被解釋為包含在該權(quán)利要求的權(quán)利范圍內(nèi)。

產(chǎn)業(yè)上的可利用性

本發(fā)明能夠提供從一個原文制作一個或多個同義轉(zhuǎn)換文的同義轉(zhuǎn)換文生成方法、同義轉(zhuǎn)換文生成裝置、同義轉(zhuǎn)換文生成程序以及使用了該方法、裝置和/或程序的機(jī)器翻譯系統(tǒng)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1