專利名稱:基于上下文的譯文自動(dòng)調(diào)序方法
技術(shù)領(lǐng)域:
本發(fā)明涉及模式識(shí)別和自然語言處理技術(shù)領(lǐng)域,特別涉及一種基于上下文的譯文 自動(dòng)調(diào)序方法。
背景技術(shù):
現(xiàn)有的在線電子詞典,如金山詞霸,采用的技術(shù)是存儲(chǔ)已有的紙版詞典,如“簡明 英漢詞典”、“現(xiàn)代英漢綜合大詞典”等。該方法存在的問題是,當(dāng)實(shí)現(xiàn)“即指即譯”功能時(shí), 只是簡單的按照詞典羅列出的英語單詞所對(duì)應(yīng)漢語翻譯詞順序,而無法根據(jù)當(dāng)前英語單詞 所在的上下文,動(dòng)態(tài)的調(diào)整翻譯詞的順序。下面以英語名詞bank為例,進(jìn)行說明Welcome to Bank of America.This walk follows the Thames west from B arnes bridge,keeping tothe north bank of the Thames.很顯然,在一句話中,bank應(yīng)指“銀行”,而第二句話則為“河岸”。但現(xiàn)有的技術(shù)沒 有實(shí)現(xiàn)自動(dòng)的調(diào)整翻譯詞順序。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何實(shí)現(xiàn)對(duì)多義詞譯文的順序、即時(shí)自動(dòng)調(diào)整。( 二 )技術(shù)方案為了達(dá)到上述目的,本發(fā)明提供了一種基于上下文的譯文自動(dòng)調(diào)序方法,包括以 下步驟Si,獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫,在每個(gè)句子中標(biāo) 注了其中多義詞的第二預(yù)設(shè)語種譯文;S2,提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征,然后對(duì)該 多義詞的所有特征順序編號(hào),根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式;S3,將向量表示形式的句子所形成的文件訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型;S4,利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率,然后將各個(gè) 譯文按正確概率從大到小排列輸出。其中,所述用于分類的數(shù)學(xué)模型為帶概率輸出的數(shù)學(xué)模型。其中,所述帶概率輸出的數(shù)學(xué)模型為支持向量機(jī)。其中,利用核函數(shù)進(jìn)行步驟S3的訓(xùn)練過程,所述核函數(shù)為支持向量機(jī)中的線性 核。其中,所述相鄰詞為與多義詞緊挨的前后各三個(gè)詞。其中,所述第一預(yù)設(shè)語種為英文,第二預(yù)設(shè)語種為中文。(三)有益效果本發(fā)明的技術(shù)方案通過將動(dòng)態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的單詞為特征對(duì)數(shù)學(xué)模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn) 有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。
圖1是本發(fā)明實(shí)施例的方法流程圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施 例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本發(fā)明的主要思想是將動(dòng)態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的 單詞為特征,來實(shí)現(xiàn)對(duì)翻譯詞順序的自動(dòng)調(diào)整。本發(fā)明實(shí)施例的方法的步驟如圖1所示Si、獲得訓(xùn)練語料庫。搜集大量的多義詞出現(xiàn)的句子。對(duì)多義詞在句子中的每一 次出現(xiàn),由人工標(biāo)注好正確的翻譯詞。經(jīng)過人工標(biāo)注的這些句子構(gòu)成訓(xùn)練語料庫??梢詫?針對(duì)現(xiàn)代英語,主要選擇新聞文章(比如1999-2009,共計(jì)10年的紐約時(shí)報(bào);或者英國國家 語料庫、英文網(wǎng)站的文章等),對(duì)文章中的每一個(gè)多義詞標(biāo)注正確的中文翻譯。這里涉及的 一個(gè)問題是詞典的選擇,第一可以選擇任何一部已有的英漢詞典;第二可以選擇多部英漢 詞典,綜合其中的翻譯詞。S2、特征提取。根據(jù)這些訓(xùn)練語料庫,提取每個(gè)多義詞每次出現(xiàn)的相鄰詞作為特 征。之所以這么做,其語言學(xué)原理是“觀其伴,知其意”(You shall know a word by the company it ke印s)(參見文獻(xiàn)[Firth,1957])。其實(shí)除了多義詞出現(xiàn)的周圍的詞外,還可 以提取許多特征,比如周圍詞的詞性;若多義詞是動(dòng)詞,則往往需要判斷在當(dāng)前句子中是否 有賓語和主語,如果有是哪個(gè)詞等等。但本發(fā)明主要適用于在線詞典,它能夠獲得的上下文 很短,且需要很快的響應(yīng)時(shí)間(秒級(jí)),而得到動(dòng)詞的主語和賓語,需要獲得比較長的上下 文,且需要花費(fèi)額外時(shí)間對(duì)上下文進(jìn)行句法分析,因此這里僅選擇相鄰詞作為特征。這也是 我們的一個(gè)特色。然后對(duì)同一多義詞的所有特征順序編號(hào),根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化 為向量表示形式以bank為例,bank出現(xiàn)的一句話,對(duì)應(yīng)下面的一行16:142:1 521 59:1 63167:1
16:124:1 301 42:1 43159:1
21291 146:1148:1 1611202:…其中,每一行行首的數(shù)字表示類別號(hào)碼(比如“1”對(duì)應(yīng)“河岸”,“2”對(duì)應(yīng)“銀行”)。 “x:l”表示第X個(gè)特征在當(dāng)前句子中出現(xiàn)。這些向量表示,構(gòu)成多義名詞bank的訓(xùn)練文件。 可將該文件命名為bank_n_train. txt。S3、訓(xùn)練模型。針對(duì)每個(gè)多義詞,利用這些特征,訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型。準(zhǔn) 確的說,是訓(xùn)練這些模型的參數(shù),我們可以對(duì)所有的多義詞都使用相同的數(shù)學(xué)模型,比如支 持向量機(jī)(Support VectorMachines, SVM)。但不同的多義詞,所用特征不同,訓(xùn)練出的參 數(shù)各不相同。目前可以用于分類的數(shù)學(xué)模型非常多,比如貝葉斯、決策表、最大熵、支持向量 機(jī)。在此需要一個(gè)帶概率輸出的數(shù)學(xué)模型,上述幾個(gè)模型都帶概率輸出,但實(shí)驗(yàn)表明支持向量機(jī)效果最好,所以選擇使用它。SVM的數(shù)學(xué)原理可以參考文獻(xiàn)[Vapnik,1995]。目前已經(jīng)有許多開源軟件實(shí)現(xiàn)了 SVM。在此采用一種實(shí)現(xiàn)版本lib-svm(參見文獻(xiàn)[Chang and Lin 2001])。訓(xùn)練時(shí),只需輸入步驟S2中的文件bank_n_train. txt,然后調(diào)用lib-svm的命 令svmtrain-tO-bl bank_n_train. txt bank_n. model其中“-t0”表示使用的是SVM中的線性核,“-bl”表示預(yù)測時(shí)需要概率信息。bank_ η. model是執(zhí)行該命令后,為名詞bank得到的模型文件。使用什么樣的核函數(shù),將對(duì)預(yù)測結(jié) 果產(chǎn)生很大影響??梢赃x擇的核函數(shù)很多,比如高斯核、多項(xiàng)式核,實(shí)驗(yàn)表明線性核效果最 好。關(guān)于核函數(shù)可以參考文獻(xiàn)[Jin et al.,2008]。S4、完成調(diào)序。利用此分類模型,對(duì)多義詞在一個(gè)句子中的出現(xiàn),預(yù)測各個(gè)翻譯詞 可能為正確翻譯的概率,并按照概率從大到小順序排列。仍以bank為例,有了模型文件bank_n. model以后,我們就可以對(duì)bank的任意一 次出現(xiàn),進(jìn)行翻譯詞預(yù)測了。當(dāng)鼠標(biāo)指向bank時(shí),獲取bank出現(xiàn)前后各三個(gè)詞,并用向量 表示,不妨表示為1 8:1 12:1 13:1 46:1 53:1 69:1存入 bank_test. txt 然后調(diào)用1 ib-svm的命令svm-predict. exe~bl bank_test.txt bank_n. model bank_n. out則bank_n. out中就會(huì)存放bank的翻譯詞1和2對(duì)應(yīng)的概率,如1 0. 32 0. 7我們將根據(jù)這個(gè)結(jié)果進(jìn)行顯示“1.銀行2河岸”而不是詞典中默認(rèn)的順序“1.河 岸2銀行”。因?yàn)榕卸轭悇e1的概率(0.3)(譯成“河岸”的概率)小于判定為2的概率 (0.7)(譯成“銀行”的概率)。如果兩個(gè)概率相等,都是0.5,可以仍然保持詞典順序不變。以上提到的參考文獻(xiàn)如下[Firth,1957]John R. Firth, A synopsis of linguistic theory 1930-55. In Studies in Linguistic Analysis (Special Volume of the PhilologicalSociety), Oxford. The Philological Society. 1957, pp.1-32.[Vapnik,1995]Vladimir N.Vapnik. The Nature of StatisticalLearning Theory. Springer-Verlag, New York,1995.[Chang and Lin 2001]Chih-Chung Chang and Chih-Jen Lin,LIBSVM :a library for support vector machines.[Jin et al. ,2008]Peng Jin, Fuxin Li, Danqing Zhu, Yufang Wu andShiwen Yu. Exploiting External Knowledge Sources to ImproveKerne1-based Word Sense Disambiguation,Proceedings of IEEEInternational Conference on Natural Language Processing an (!Knowledge Engineering (IEEE NLP-KE). 2008. pp. 222-227.本發(fā)明實(shí)施例通過將動(dòng)態(tài)調(diào)序問題視作分類問題,利用多義詞出現(xiàn)的上下文的單 詞作為特征對(duì)數(shù)學(xué)模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。 以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾 也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,包括以下步驟S1,獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫,在每個(gè)句子中標(biāo)注了其中多義詞的第二預(yù)設(shè)語種譯文;S2,提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征,然后對(duì)該多義詞的所有特征順序編號(hào),根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式;S3,將向量表示形式的句子所形成的文件訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型;S4,利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率,然后將各個(gè)譯文按正確概率從大到小排列輸出。
2.如權(quán)利要求1所述的基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,所述用于分類 的數(shù)學(xué)模型為帶概率輸出的數(shù)學(xué)模型。
3.如權(quán)利要求2所述的基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,所述帶概率輸 出的數(shù)學(xué)模型為支持向量機(jī)。
4.如權(quán)利要求3所述的基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,利用核函數(shù)進(jìn) 行步驟S3的訓(xùn)練過程,所述核函數(shù)為支持向量機(jī)中的線性核。
5.如權(quán)利要求1所述的基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,所述相鄰詞為 與多義詞緊挨的前后各三個(gè)詞。
6.如權(quán)利要求1 5任一項(xiàng)所述的基于上下文的譯文自動(dòng)調(diào)序方法,其特征在于,所述 第一預(yù)設(shè)語種為英文,第二預(yù)設(shè)語種為中文。
全文摘要
本發(fā)明公開了一種基于上下文的譯文自動(dòng)調(diào)序方法,包括以下步驟獲取由包含多義詞的第一預(yù)設(shè)語種句子組成的訓(xùn)練語料庫,在該語料庫的每個(gè)句子中標(biāo)注了其中多義詞的第二預(yù)設(shè)語種譯文;提取所述訓(xùn)練語料庫的每個(gè)句子中同一多義詞的相鄰詞作為特征,然后對(duì)該多義詞的所有特征順序編號(hào),根據(jù)這些編號(hào)將每個(gè)句子轉(zhuǎn)化為向量表示形式;將向量表示形式的句子所形成的文件,訓(xùn)練一個(gè)用于分類的數(shù)學(xué)模型,利用該數(shù)學(xué)模型預(yù)測待測句子中多義詞的各個(gè)譯文的正確概率,然后將各個(gè)譯文按正確概率從大到小排列輸出。本發(fā)明實(shí)現(xiàn)了對(duì)多義詞譯文順序的即時(shí)自動(dòng)調(diào)整。適用于現(xiàn)有的全文翻譯系統(tǒng),例如在線詞典,可以提高此類系統(tǒng)的性能。
文檔編號(hào)G06F17/28GK101882158SQ20101021024
公開日2010年11月10日 申請(qǐng)日期2010年6月22日 優(yōu)先權(quán)日2010年6月22日
發(fā)明者宋剛 申請(qǐng)人:河南約克信息技術(shù)有限公司