基于上下文的譯文自動(dòng)調(diào)序方法

文檔序號(hào)：6604731閱讀：198來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于上下文的譯文自動(dòng)調(diào)序方法
技術(shù)領(lǐng)域：
本發(fā)明涉及模式識(shí)別和自然語言處理技術(shù)領(lǐng)域，特別涉及一種基于上下文的譯文自動(dòng)調(diào)序方法。
背景技術(shù)：
現(xiàn)有的在線電子詞典，如金山詞霸，采用的技術(shù)是存儲(chǔ)已有的紙版詞典，如“簡明英漢詞典”、“現(xiàn)代英漢綜合大詞典”等。該方法存在的問題是，當(dāng)實(shí)現(xiàn)“即指即譯”功能時(shí)，只是簡單的按照詞典羅列出的英語單詞所對(duì)應(yīng)漢語翻譯詞順序，而無法根據(jù)當(dāng)前英語單詞所在的上下文，動(dòng)態(tài)的調(diào)整翻譯詞的順序。下面以英語名詞bank為例，進(jìn)行說明Welcome to Bank of America.This walk follows the Thames west from B arnes bridge，keeping tothe north bank of the Thames.很顯然，在一句話中，bank應(yīng)指“銀行”，而第二句話則為“河岸”。但現(xiàn)有的技術(shù)沒有實(shí)現(xiàn)自動(dòng)的調(diào)整翻譯詞順序。

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何實(shí)現(xiàn)對(duì)多義詞譯文的順序、即時(shí)自動(dòng)調(diào)整。( 二 )技術(shù)方案為了達(dá)到上述目的，本發(fā)明提供了一種基于上下文的譯文自動(dòng)調(diào)序方法，包括以下步驟Si，獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫，在每個(gè)句子中標(biāo) 注了其中多義詞的第二預(yù)設(shè)語種譯文；S2，提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征，然后對(duì)該多義詞的所有特征順序編號(hào)，根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式；S3，將向量表示形式的句子所形成的文件訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型；S4，利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率，然后將各個(gè) 譯文按正確概率從大到小排列輸出。其中，所述用于分類的數(shù)學(xué)模型為帶概率輸出的數(shù)學(xué)模型。其中，所述帶概率輸出的數(shù)學(xué)模型為支持向量機(jī)。其中，利用核函數(shù)進(jìn)行步驟S3的訓(xùn)練過程，所述核函數(shù)為支持向量機(jī)中的線性核。其中，所述相鄰詞為與多義詞緊挨的前后各三個(gè)詞。其中，所述第一預(yù)設(shè)語種為英文，第二預(yù)設(shè)語種為中文。(三)有益效果本發(fā)明的技術(shù)方案通過將動(dòng)態(tài)調(diào)序問題視作分類問題，利用多義詞出現(xiàn)的上下文的單詞為特征對(duì)數(shù)學(xué)模型進(jìn)行訓(xùn)練，實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn) 有的全文翻譯系統(tǒng)，例如在線詞典，可以提高此類系統(tǒng)的性能。

圖1是本發(fā)明實(shí)施例的方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明，但不用來限制本發(fā)明的范圍。本發(fā)明的主要思想是將動(dòng)態(tài)調(diào)序問題視作分類問題，利用多義詞出現(xiàn)的上下文的單詞為特征，來實(shí)現(xiàn)對(duì)翻譯詞順序的自動(dòng)調(diào)整。本發(fā)明實(shí)施例的方法的步驟如圖1所示Si、獲得訓(xùn)練語料庫。搜集大量的多義詞出現(xiàn)的句子。對(duì)多義詞在句子中的每一次出現(xiàn)，由人工標(biāo)注好正確的翻譯詞。經(jīng)過人工標(biāo)注的這些句子構(gòu)成訓(xùn)練語料庫?？梢詫?針對(duì)現(xiàn)代英語，主要選擇新聞文章(比如1999-2009，共計(jì)10年的紐約時(shí)報(bào)；或者英國國家語料庫、英文網(wǎng)站的文章等)，對(duì)文章中的每一個(gè)多義詞標(biāo)注正確的中文翻譯。這里涉及的一個(gè)問題是詞典的選擇，第一可以選擇任何一部已有的英漢詞典；第二可以選擇多部英漢詞典，綜合其中的翻譯詞。S2、特征提取。根據(jù)這些訓(xùn)練語料庫，提取每個(gè)多義詞每次出現(xiàn)的相鄰詞作為特征。之所以這么做，其語言學(xué)原理是“觀其伴，知其意”(You shall know a word by the company it ke印s)(參見文獻(xiàn)[Firth，1957])。其實(shí)除了多義詞出現(xiàn)的周圍的詞外，還可以提取許多特征，比如周圍詞的詞性；若多義詞是動(dòng)詞，則往往需要判斷在當(dāng)前句子中是否有賓語和主語，如果有是哪個(gè)詞等等。但本發(fā)明主要適用于在線詞典，它能夠獲得的上下文很短，且需要很快的響應(yīng)時(shí)間(秒級(jí))，而得到動(dòng)詞的主語和賓語，需要獲得比較長的上下文，且需要花費(fèi)額外時(shí)間對(duì)上下文進(jìn)行句法分析，因此這里僅選擇相鄰詞作為特征。這也是我們的一個(gè)特色。然后對(duì)同一多義詞的所有特征順序編號(hào)，根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式以bank為例，bank出現(xiàn)的一句話，對(duì)應(yīng)下面的一行16:142:1 521 59:1 63167:1
16:124:1 301 42:1 43159:1
21291 146:1148:1 1611202:…其中，每一行行首的數(shù)字表示類別號(hào)碼(比如“1”對(duì)應(yīng)“河岸”，“2”對(duì)應(yīng)“銀行”)。 “x:l”表示第X個(gè)特征在當(dāng)前句子中出現(xiàn)。這些向量表示，構(gòu)成多義名詞bank的訓(xùn)練文件。可將該文件命名為bank_n_train. txt。S3、訓(xùn)練模型。針對(duì)每個(gè)多義詞，利用這些特征，訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型。準(zhǔn) 確的說，是訓(xùn)練這些模型的參數(shù)，我們可以對(duì)所有的多義詞都使用相同的數(shù)學(xué)模型，比如支持向量機(jī)(Support VectorMachines, SVM)。但不同的多義詞，所用特征不同，訓(xùn)練出的參數(shù)各不相同。目前可以用于分類的數(shù)學(xué)模型非常多，比如貝葉斯、決策表、最大熵、支持向量機(jī)。在此需要一個(gè)帶概率輸出的數(shù)學(xué)模型，上述幾個(gè)模型都帶概率輸出，但實(shí)驗(yàn)表明支持向量機(jī)效果最好，所以選擇使用它。SVM的數(shù)學(xué)原理可以參考文獻(xiàn)[Vapnik，1995]。目前已經(jīng)有許多開源軟件實(shí)現(xiàn)了 SVM。在此采用一種實(shí)現(xiàn)版本lib-svm(參見文獻(xiàn)[Chang and Lin 2001])。訓(xùn)練時(shí)，只需輸入步驟S2中的文件bank_n_train. txt，然后調(diào)用lib-svm的命令svmtrain-tO-bl bank_n_train. txt bank_n. model其中“-t0”表示使用的是SVM中的線性核，“-bl”表示預(yù)測時(shí)需要概率信息。bank_ η. model是執(zhí)行該命令后，為名詞bank得到的模型文件。使用什么樣的核函數(shù)，將對(duì)預(yù)測結(jié) 果產(chǎn)生很大影響?？梢赃x擇的核函數(shù)很多，比如高斯核、多項(xiàng)式核，實(shí)驗(yàn)表明線性核效果最好。關(guān)于核函數(shù)可以參考文獻(xiàn)[Jin et al.，2008]。S4、完成調(diào)序。利用此分類模型，對(duì)多義詞在一個(gè)句子中的出現(xiàn)，預(yù)測各個(gè)翻譯詞可能為正確翻譯的概率，并按照概率從大到小順序排列。仍以bank為例，有了模型文件bank_n. model以后，我們就可以對(duì)bank的任意一次出現(xiàn)，進(jìn)行翻譯詞預(yù)測了。當(dāng)鼠標(biāo)指向bank時(shí)，獲取bank出現(xiàn)前后各三個(gè)詞，并用向量表示，不妨表示為1 8:1 12:1 13:1 46:1 53:1 69:1存入 bank_test. txt 然后調(diào)用1 ib-svm的命令svm-predict. exe~bl bank_test.txt bank_n. model bank_n. out則bank_n. out中就會(huì)存放bank的翻譯詞1和2對(duì)應(yīng)的概率，如1 0. 32 0. 7我們將根據(jù)這個(gè)結(jié)果進(jìn)行顯示“1.銀行2河岸”而不是詞典中默認(rèn)的順序“1.河岸2銀行”。因?yàn)榕卸轭悇e1的概率(0.3)(譯成“河岸”的概率)小于判定為2的概率 (0.7)(譯成“銀行”的概率)。如果兩個(gè)概率相等，都是0.5，可以仍然保持詞典順序不變。以上提到的參考文獻(xiàn)如下[Firth,1957]John R. Firth, A synopsis of linguistic theory 1930-55. In Studies in Linguistic Analysis (Special Volume of the PhilologicalSociety), Oxford. The Philological Society. 1957, pp.1-32.[Vapnik,1995]Vladimir N.Vapnik. The Nature of StatisticalLearning Theory. Springer-Verlag, New York,1995.[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.[Jin et al. ,2008]Peng Jin, Fuxin Li, Danqing Zhu, Yufang Wu andShiwen Yu. Exploiting External Knowledge Sources to ImproveKerne1-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing an (!Knowledge Engineering (IEEE NLP-KE). 2008. pp. 222-227.本發(fā)明實(shí)施例通過將動(dòng)態(tài)調(diào)序問題視作分類問題，利用多義詞出現(xiàn)的上下文的單詞作為特征對(duì)數(shù)學(xué)模型進(jìn)行訓(xùn)練，實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng)，例如在線詞典，可以提高此類系統(tǒng)的性能。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明技術(shù)原理的前提下，還可以做出若干改進(jìn)和潤飾，這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，包括以下步驟S1，獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫，在每個(gè)句子中標(biāo)注了其中多義詞的第二預(yù)設(shè)語種譯文；S2，提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征，然后對(duì)該多義詞的所有特征順序編號(hào)，根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式；S3，將向量表示形式的句子所形成的文件訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型；S4，利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率，然后將各個(gè)譯文按正確概率從大到小排列輸出。
2.如權(quán)利要求1所述的基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，所述用于分類的數(shù)學(xué)模型為帶概率輸出的數(shù)學(xué)模型。
3.如權(quán)利要求2所述的基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，所述帶概率輸出的數(shù)學(xué)模型為支持向量機(jī)。
4.如權(quán)利要求3所述的基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，利用核函數(shù)進(jìn) 行步驟S3的訓(xùn)練過程，所述核函數(shù)為支持向量機(jī)中的線性核。
5.如權(quán)利要求1所述的基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，所述相鄰詞為與多義詞緊挨的前后各三個(gè)詞。
6.如權(quán)利要求1 5任一項(xiàng)所述的基于上下文的譯文自動(dòng)調(diào)序方法，其特征在于，所述第一預(yù)設(shè)語種為英文，第二預(yù)設(shè)語種為中文。
全文摘要
本發(fā)明公開了一種基于上下文的譯文自動(dòng)調(diào)序方法，包括以下步驟獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫，在該語料庫的每個(gè)句子中標(biāo)注了其中多義詞的第二預(yù)設(shè)語種譯文；提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征，然后對(duì)該多義詞的所有特征順序編號(hào)，根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式；將向量表示形式的句子所形成的文件，訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型，利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率，然后將各個(gè)譯文按正確概率從大到小排列輸出。本發(fā)明實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng)，例如在線詞典，可以提高此類系統(tǒng)的性能。
文檔編號(hào)G06F17/28GK101882158SQ20101021024
公開日2010年11月10日申請(qǐng)日期2010年6月22日優(yōu)先權(quán)日2010年6月22日
發(fā)明者宋剛申請(qǐng)人:河南約克信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋剛
技術(shù)所有人：河南約克信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

程序上下文相關(guān)技術(shù)

應(yīng)用程序上下文相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于上下文的譯文自動(dòng)調(diào)序方法