亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

來源于單語和可用雙語語料庫的搭配翻譯的制作方法

文檔序號:6567754閱讀:354來源:國知局
專利名稱:來源于單語和可用雙語語料庫的搭配翻譯的制作方法
背景技術(shù)
本發(fā)明通常涉及自然語言處理。更具體地,本發(fā)明涉及搭配翻譯。
依存三元組(dependency triple)是一種詞匯上受到限制的、具有特殊句法或依存關(guān)系的詞語對,具有通式<w1,r,w2>,其中w1和w2是詞語,r是依存關(guān)系。例如,如<開啟,Obj,燈>的依存三元組是一個(gè)動賓(verb-object)依存三元組。在一個(gè)句子的詞語之間存在多種類型的依存關(guān)系,因此存在多種類型的依存三元組。搭配是依存三元組的一種類型,其中單個(gè)詞語w1和w2,通常分別被稱為“頭(head)”和“依存詞(dependant)”,滿足或超過一個(gè)選定的相關(guān)性閾值。搭配的常見類型包括主謂、動賓、名詞-形容詞和動詞-副詞的搭配。
觀察到,雖然在源語言和目標(biāo)語言之間存在巨大的差異,但在特定的源語言和目標(biāo)語言中的一些搭配類型之間仍然存在較強(qiáng)的對應(yīng)。例如,中文和英文是差異很大的語言,然而在主謂、動賓、名詞形容詞和動詞-副詞的搭配上又存在較強(qiáng)的對應(yīng)。這些搭配類型中的較強(qiáng)對應(yīng)使得希望采用搭配翻譯來將短語和句子從源語言翻譯成目標(biāo)語言。這樣,搭配翻譯對機(jī)器翻譯、交叉語言信息檢索、第二語言學(xué)習(xí)以及其它雙語自然語言處理應(yīng)用非常重要。常常會由于搭配的特殊性因此具有不可預(yù)測的翻譯而造成搭配翻譯錯誤。換句話說,源語言中的各個(gè)搭配可能具有相對于彼此的類似結(jié)構(gòu)和語義,但在目標(biāo)語言的結(jié)構(gòu)和語義上翻譯差異非常大。
例如,假定中文動詞“kan4(看)”是一個(gè)中文動賓搭配的頭,詞語“kan 4”根據(jù)“kan4”與之搭配的賓語或依存詞可以被譯為英文的“see”,“watch”,“l(fā)ook”或“read”。例如,“kan4”與中文詞“dian4ying3(電影)”搭配(其表示英文中的film或movie),或“dian4shi4(電視)”,其通常表示英文中的“television”。但是中文搭配“kan4 dian4ying3”和“kan4 dian4shi4”,根據(jù)句子,最好各自翻譯為英文的“see film”和“watch television”。因此,雖然搭配“kan4dian4ying3”和“kan4 dian4shi4”具有類似的結(jié)構(gòu)和語義,但詞語“kan 4”被譯成不同的英文。
在另一種情況中,“kan4”可以搭配詞語“shu1(書)”,它通常指的是英文中的“book”。但是,在許多句子中,搭配“kan4 shu1”最好地僅被譯為英文中的“read”,因此,在搭配翻譯中省略了賓語“book”。
值得注意的是,此處中文詞語是以拼音表示的,聲調(diào)被表示為羅馬字母表示的發(fā)音之后的數(shù)字。拼音是普通話中文發(fā)音的常用識別系統(tǒng)。
過去,搭配翻譯方法通常依賴于源語言和目標(biāo)語言的平行語料庫或雙語語料庫。但是,通常難以得到一個(gè)較大的對齊的雙語語料庫且其構(gòu)造相當(dāng)昂貴。相反,對源語言和目標(biāo)語言,更容易得到一個(gè)更大的單語語料庫。
近來,開發(fā)了采用單語語料庫的搭配翻譯方法。但是,這些方法通常不包括使用可用或在有限數(shù)量上可用的雙語語料庫。而且,采用單語語料庫的這些方法通常不考慮正在翻譯的搭配周圍的上下文詞語。
因此,仍然需要用于各種自然語言處理應(yīng)用的搭配翻譯和提取的改進(jìn)方法。
發(fā)明概述 本發(fā)明包括使用單語語料庫和可用的雙語語料庫構(gòu)造搭配翻譯模型。該搭配翻譯模型采用了一個(gè)與關(guān)于正在翻譯的搭配周圍的上下文詞語的期望最大化算法。在其它實(shí)施例中,搭配翻譯模型被用來標(biāo)識并提取搭配翻譯。在另一些實(shí)施例中,所構(gòu)造的翻譯模型和所提取的搭配翻譯用作句子翻譯。
附圖簡述

圖1是可在其中實(shí)現(xiàn)本發(fā)明的一個(gè)計(jì)算環(huán)境的框圖; 圖2是示出本發(fā)明三方面的總流程圖; 圖3是一個(gè)用于使用對搭配翻譯有用的概率信息擴(kuò)充詞匯知識庫的系統(tǒng)的框圖; 圖4是一個(gè)用于以所提取的搭配翻譯來進(jìn)一步擴(kuò)充詞匯知識庫的系統(tǒng)的框圖; 圖5是一個(gè)用于使用擴(kuò)充的詞匯知識庫來執(zhí)行句子翻譯的系統(tǒng)的框圖; 圖6是一個(gè)示出以對搭配翻譯有用的概率信息來擴(kuò)充詞匯知識庫的流程圖; 圖7是一個(gè)示出以所提取的搭配翻譯來進(jìn)一步擴(kuò)充詞匯知識庫的流程圖; 圖8是一個(gè)示出為句子翻譯使用擴(kuò)充的詞匯知識庫的流程圖。
說明性實(shí)施例的詳細(xì)描述 對于自然語言處理,包括機(jī)器翻譯和交叉語言信息檢索來說,自動搭配翻譯是一個(gè)非常重要的技術(shù)。
本發(fā)明的一個(gè)方面允許以翻譯搭配時(shí)有用的概率信息來擴(kuò)充詞匯知識庫。在另一方面,本發(fā)明包括利用已存儲的概率信息來提取搭配翻譯,以進(jìn)一步擴(kuò)充該詞匯知識庫。在另一方面,已獲得的詞匯概率信息和所提取的搭配翻譯都將用于后面的句子翻譯。
在進(jìn)一步具體描述本發(fā)明之前,對可用于實(shí)現(xiàn)本發(fā)明的一般計(jì)算裝置進(jìn)行描述是有幫助的。圖1示出了可在其上實(shí)現(xiàn)本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境100的示例。計(jì)算系統(tǒng)環(huán)境100只是合適的計(jì)算環(huán)境的一個(gè)示例,并不旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)該把計(jì)算環(huán)境100解釋為對示例性操作環(huán)境100中示出的任一組件或其組合有任何依賴性或要求。
本發(fā)明可用眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置來操作。適合在本發(fā)明中使用的公知的計(jì)算系統(tǒng)、環(huán)境和/或配置的示例包括,但不限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持或膝上型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)、電話系統(tǒng)、包含上述系統(tǒng)或設(shè)備中的任一個(gè)的分布式計(jì)算機(jī)環(huán)境等。
本發(fā)明可在諸如程序模塊等由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的通用語境中描述。一般而言,程序模塊包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型。本領(lǐng)域的技術(shù)人員可以可將此處提供的描述和附圖實(shí)現(xiàn)為處理器可執(zhí)行指令,該指令可以被寫在任何一種形式的計(jì)算機(jī)可讀介質(zhì)上。
本發(fā)明也可以在分布式計(jì)算環(huán)境中實(shí)現(xiàn),其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲器存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲介質(zhì)中。
參考圖1,用于實(shí)現(xiàn)本發(fā)明的一個(gè)示例性系統(tǒng)包括計(jì)算機(jī)110形式的通用計(jì)算設(shè)備。計(jì)算機(jī)110的組件可以包括,但不限于,處理單元120、系統(tǒng)存儲器130和將包括系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以是若干類型的總線結(jié)構(gòu)中的任一種,包括存儲器總線或存儲器控制器、外圍總線和使用各種總線體系結(jié)構(gòu)中的任一種的局部總線。作為示例,而非限制,這樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、擴(kuò)展的ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(VESA)局部總線和外圍部件互連(PCI)總線(也被稱為Mezzanine總線)。
計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是能夠被計(jì)算機(jī)110訪問的任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動和不可移動介質(zhì)。作為示例,而非限制,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)的用于存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動和不可移動介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁性存儲設(shè)備、或能用于存儲所需信息且可以由計(jì)算機(jī)110訪問的任何其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機(jī)制的已調(diào)制數(shù)據(jù)信號中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),且包含任何信息傳遞介質(zhì)。術(shù)語“已調(diào)制數(shù)據(jù)信號”指的是這樣一種信號,其一個(gè)或多個(gè)特征以在信號中編碼信息的方式被設(shè)定或更改。作為示例,而非限制,通信介質(zhì)包括諸如有線網(wǎng)絡(luò)或直接線連接的有線介質(zhì),以及諸如聲學(xué)、RF、紅外線和其它無線介質(zhì)的無線介質(zhì)。上述中任一個(gè)的組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計(jì)算機(jī)存儲介質(zhì),諸如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132?;据斎?輸出系統(tǒng)133(BIOS)包含有助于諸如啟動時(shí)在計(jì)算機(jī)110中的元件之間傳遞信息的基本例程,它通常存儲在ROM 131中。RAM 132通常包含處理單元120可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非限制,圖1示出了操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110也可以包括其它可移動/不可移動、易失性/非易失性計(jì)算機(jī)存儲介質(zhì)。僅作為示例,圖1示出了從不可移動、非易失性磁介質(zhì)中讀取或向其寫入的硬盤驅(qū)動器141,從可移動、非易失性磁盤152中讀取或向其寫入的磁盤驅(qū)動器151,以及從諸如CD ROM或其它光學(xué)介質(zhì)等可移動、非易失性光盤156中讀取或向其寫入的光盤驅(qū)動器155??梢栽谑纠圆僮鳝h(huán)境下使用的其它可移動/不可移動、易失性/非易失性計(jì)算機(jī)存儲介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動器141通常由諸如接口140的不可移動存儲器接口連接至系統(tǒng)總線121,磁盤驅(qū)動器151和光盤驅(qū)動器155通常由諸如接口150的可移動存儲器接口連接至系統(tǒng)總線121。
以上描述和在圖1中示出的驅(qū)動器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲介質(zhì)為計(jì)算機(jī)110提供了對計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲。例如,在圖1中,硬盤驅(qū)動器141被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137相同或不同。操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147在這里被標(biāo)注了不同的標(biāo)號是為了說明至少它們是不同的副本。
用戶可以通過諸如鍵盤162、麥克風(fēng)163和定點(diǎn)設(shè)備161(諸如鼠標(biāo)、跟蹤球或觸摸墊)的輸入設(shè)備向計(jì)算機(jī)110輸入命令和信息。其它輸入設(shè)備(未示出)可以包括操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等。這些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口160連接至處理單元120,但也可以由其它接口或總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器191或其它類型的顯示設(shè)備也經(jīng)由接口,諸如視頻接口190連接至系統(tǒng)總線121。除監(jiān)視器以外,計(jì)算機(jī)也可以包括其它外圍輸出設(shè)備,諸如揚(yáng)聲器197和打印機(jī)196,它們可以通過輸出外圍接口190連接。
計(jì)算機(jī)110可使用至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),諸如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接在網(wǎng)絡(luò)化環(huán)境下操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、手持式設(shè)備、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它常見的網(wǎng)絡(luò)節(jié)點(diǎn),且通常包括上文相對于計(jì)算機(jī)110描述的許多或所有元件。圖1中所示邏輯連接包括局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可以包括其它網(wǎng)絡(luò)。這樣的連網(wǎng)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170連接至LAN 171。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時(shí),計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或用于通過諸如因特網(wǎng)等WAN 173建立通信的其它裝置。調(diào)制解調(diào)器172可以是內(nèi)置或外置的,它可以通過用戶輸入接口160或其它合適的機(jī)制連接至系統(tǒng)總線121。在網(wǎng)絡(luò)化環(huán)境中,相對于計(jì)算機(jī)110描述的程序模塊或其部分可以存儲在遠(yuǎn)程存儲器存儲設(shè)備中。作為示例,而非限制,圖1示出了遠(yuǎn)程應(yīng)用程序185駐留在存儲器設(shè)備181上。可以理解,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。
背景搭配翻譯模型 根據(jù)貝葉斯的定理構(gòu)造了搭配翻譯模型。給定一個(gè)源語言(例如,中文)搭配或三元組ctri=(c1,rc,c2)及其候選的目標(biāo)語言(例如,英文)的三元組翻譯etri=(e1,re,e2)的集合,其最佳的英文依存三元組為êtri=(ê1,re,ê2)是最大化以下等式的一個(gè),等式(1)為 等式(1) 其中p(etri)被稱為語言或目標(biāo)語言模型,p(ctri|etri)被稱為翻譯或搭配翻譯模型。注意到,為方便起見,搭配和三元組可被互換使用。實(shí)際上,通常使用搭配而不是全部都是依存三元組,以限制訓(xùn)練語料庫的大小。
目標(biāo)語言模型p(etri)可以使用英語搭配或三元組數(shù)據(jù)庫進(jìn)行計(jì)算??墒褂弥T如內(nèi)插進(jìn)行的平滑來減少與如將在以下詳細(xì)描述的數(shù)據(jù)稀疏相關(guān)聯(lián)的問題。
可如下計(jì)算給定英文搭配或三元組在語料庫中出現(xiàn)的概率 等式(2) 其中freq(e1,re,e2)表示三元組etri的頻率,N表示訓(xùn)練語料庫中所有英文三元組的總計(jì)數(shù)。對于英文三元組etri=(e1,re,e2),如果假定兩個(gè)詞e1和e2在給定關(guān)系re下是條件獨(dú)立的(conditionally independent),則等式(2)可以如下重寫 p(etri)=p(re)p(e1|re)p(e2|re)等式(3) 其中 通配符*表示任何一個(gè)詞語或關(guān)系。使用等式(2)和(3),內(nèi)插語言模型如下 等式(4) 其中0<α<1。平滑因子α可如下計(jì)算 等式(5) 使用以下兩個(gè)假定來估計(jì)等式1的翻譯模型p(ctri|etri)。
假定1給定一個(gè)英文三元組etri,和相應(yīng)的中文依存關(guān)系rc,其中c1和c2是條件獨(dú)立的,翻譯模型可以表示如下 p(ctri|etri)=p(c1,rc,c2|etri)等式(6) =p(c1|rc,etri)p(c2|rc,etri)p(rc|etri) 假定2對于一個(gè)英文三元組etri,假定ci僅依存于ei(i∈{1,2}),且rc僅依存于re。等式(6)可以重寫為如下 p(ctri|etri)=p(c1|rc,etri)p(c2| rc,etri)p(re|etri)等式(7)注意到, =p(c1|e1)p(c2|e2)p(rc|re) p(c1|e1)和p(c2|e2)是三元組內(nèi)的翻譯概率;因此,它們不是不受限制的概率。以下,頭(p(c1|e1))和依存詞(p(c2|e2))之間的翻譯可以被分別表示為phead(c|e)和pdep(c|e)。
由于中文和英文在同一依存關(guān)系之間的對應(yīng)性較強(qiáng),為方便起見,假定對對應(yīng)的re和rc,p(rc|re)=1,對其它情況,p(rc|re)=0。在其它實(shí)施例中,p(rc|re)的變化范圍從0.8到1.0,p(rc|re)的變化范圍對應(yīng)地從0.2到0.0。
可采用呂雅娟和周明在第42屆計(jì)算語言學(xué)協(xié)會年會上發(fā)表的“Collocationtranslation acquisition using monolingual corpora”中所述的期望最大化(EM)算法(第295-302頁,2004年),迭代估計(jì)出概率值phead(c1|e1)和pdep(c2|e2)。在呂和周的論文中(2004),EM算法被表示為如下 其中ETri表示英文三元組集合,CTri表示中文三元組集合。
將翻譯概率phead(c|e)和pdep(c|e)初設(shè)為如下的統(tǒng)一分布 等式(8) 其中Γe表示英文字e的翻譯集合。使用上述EM算法迭代估計(jì)出詞語翻譯概率。
本發(fā)明的搭配翻譯模型 本發(fā)明的框架包括搭配翻譯模型的對數(shù)線性建模。本發(fā)明的模型中包括的是呂和周(2004)中描述的搭配翻譯模型的各個(gè)方面。然而,本發(fā)明的模型也采用來自正在翻譯的搭配周圍的上下文詞語的上下文信息。此外,在可用或者需要的情況下,本發(fā)明的框架集成了基于雙語語料庫的特征和基于單語語料庫的特征兩者。
給定一中文搭配ccol=(c1,rc,c2),其候選的英文翻譯的集合為ecol=(e1,rc,e2),翻譯概率可被估計(jì)為 等式(9) 其中,hm(col,ccol),m=1,...M是一組特征函數(shù)。注意到,本發(fā)明的翻譯模型可使用搭配而不是僅僅依存三元組來構(gòu)造。對于每一特征函數(shù)hm,存在模型參數(shù)λm,m=1,...,M。給定一組特征,參數(shù)λm可使用Franz Josef Osch和Hermann Ney在第40屆計(jì)算語言協(xié)會上的“Discriminative training and maximum entropy models forstatistical machine translation”中描述的IIS或GIS算法”(第295-302頁(2002))來估計(jì)。
用于選擇最可能的英文翻譯的判定規(guī)則為 等式(10) 在本發(fā)明的翻譯模型中,考慮至少三種特征函數(shù)或評分目標(biāo)語言評分、內(nèi)部搭配翻譯評分以及與上下文詞語翻譯評分,下面將做具體描述。
分配給目標(biāo)語言評分的特征函數(shù) 在本發(fā)明中,目標(biāo)語言的特征函數(shù)被定義為 h1(ecol,ccol)=logp(ecol)等式(11) 其中,上述p(ecol)通常被稱為目標(biāo)語言模型??墒褂藐P(guān)于背景搭配翻譯模型描述的目標(biāo)或英語語料庫來估計(jì)該目標(biāo)語言模型。
分配給內(nèi)部搭配翻譯評分的特征函數(shù) 內(nèi)部搭配翻譯評分可以被表示為如下的詞語翻譯概率 h2(ecol,ccol)=logp(e1|c1)等式(12) h3(ecol,ccol)=logp(e2|c2)等式(13) h4(ecol,ccol)=logp(c1|e1)等式(14) h5(ecol,ccol)=logp(c2|e2)等式(15) 注意到,在替換實(shí)施例中,可省略特征函數(shù)h4和h5。其逆向詞語翻譯概率p(ci|ei)i=1,2被稱為機(jī)器翻譯的源通道模型中的翻譯模型。實(shí)驗(yàn)表明,直接概率p(ei|ci)i=1,2通常會在搭配翻譯中產(chǎn)生更好的結(jié)果。在本發(fā)明中,直接概率p(ei|ci)被包括在搭配翻譯模型中作為特征函數(shù)。
根據(jù)呂和周所描述的方法(2004),可使用兩個(gè)單語語料庫來估計(jì)搭配詞語翻譯概率。假定在中英文之間存在三個(gè)主要依存關(guān)系的較強(qiáng)對應(yīng)動賓、名詞形容詞、動詞-副詞。然后使用結(jié)合雙語翻譯字典的EM算法來估計(jì)等式12至15中四個(gè)內(nèi)部搭配翻譯概率h2至h5。注意到,可以從呂和周(2004)中直接推導(dǎo)出h4和h5,而且可使用英語作為源語言,中文作為目標(biāo)語言,并應(yīng)用這里描述的EM算法類來似推導(dǎo)得出h2和h3。
此外,本模型中的相關(guān)翻譯評分可以視為如下表示的本模型的一個(gè)特征函數(shù) h6(ecol,ccol)=logp(re|rc)等式(16) 類似于呂和周(2004),假定對對應(yīng)的re和rc,p(re|rc)=0.9,對其它情況,p(re|rc)=0.1。在其它實(shí)施例中,對對應(yīng)的re和rc,p(re|rc)的變化范圍從0.8到1.0,其它情況對應(yīng)的變化范圍從0.2到0.0。在又一些實(shí)施例中,也一并省略了特征函數(shù)h6。
分配給上下文詞語翻譯評分的特征函數(shù) 在本發(fā)明的搭配翻譯模型中,搭配外的上下文詞語對搭配翻譯消除歧義性也是有用的。例如,在句子“我在電影院看了一場很有意思的電影”(I saw aninteresting film at the cinema),為翻譯搭配“看(saw)~電影(film)”,上下文詞語“電影院(cinema)”和“有意思的(interesting)”都有助于翻譯。該上下文詞語特征函數(shù)可以被表示為如下 h7(ecol,ccol)=logpc1(e1|D1)等式(17) h8(ecol,ccol)=logpc2(e2|D2)等式(18) 其中,D1是c1的上下文詞語集合,D2是c2的上下文詞語集合。此處,認(rèn)為c2是c1的上下文,c1是c2的上下文,即 D1={c1-m′,...,c1-1′,c11′,...,c1m′}∪c2 D2={c2-m′,...,c2-1′,c21′,...,c2m′}∪c1 其中是窗口1大小。
簡而言之,要被翻譯的詞語被表示為c(c=c1,or c=c2),e是c的候選翻譯,D=(c′1,...,c′n)是c的上下文。采用樸素貝葉斯假定,它可被簡化為如下 等式(19) 用英文語料庫可容易估計(jì)出p(e)的值。由于內(nèi)部搭配翻譯特征函數(shù)中已經(jīng)考慮了先驗(yàn)概率pc(e)=p(e|c),因此此處僅需要考慮上下文詞語翻譯評分計(jì)算中的第二個(gè)組成部分,即 等式(20) 等式(21) 現(xiàn)在,問題在于如何估計(jì)翻譯概率p(c′|e)。傳統(tǒng)上,可使用雙語語料庫進(jìn)行估計(jì)。在本發(fā)明中,提供了使用單語語料庫估計(jì)該概率的方法。
使用單語語料庫估計(jì)上下文詞語的翻譯概率 基本的思路是,假定英文中的所有實(shí)例(e′,e)都是根據(jù)分布獨(dú)立生成,則將中文上下文c′映射到對應(yīng)的英文上下文e′。這樣,可以結(jié)合如下的EM算法從英文單語語料庫中估計(jì)出翻譯概率p(c′|e) E-步驟 M-步驟 一開始, 等式(22)其中 C表示中文詞語集合,E表示英文詞語集合,Tc表示中文詞語c的翻譯集合。使用Em算法可有助于準(zhǔn)確將上下文從一種語言變換成另一種語言。
在某些實(shí)施例中,為避免零概率,p(c′|e)可以采用先驗(yàn)概率p(c′)進(jìn)行平滑,使得 p(c′|e)=αp′(c′|e)+(1-α)p(c′)等式(23) 其中,p′(c′|e)是由上述EM算法估計(jì)的概率,可對每一次實(shí)驗(yàn),將參數(shù)α設(shè)定為0.8,但也可使用類似的值。
將特征中導(dǎo)出的雙語語料庫集成到搭配翻譯模型中 對于特定的源和目標(biāo)語言對(例如,中文和西班牙文),某些雙語語料庫是可用的。本發(fā)明的搭配翻譯框架可以將這些有價(jià)值的雙語源集成到同一搭配翻譯模型中。
由于可以使用雙語語料庫估計(jì)出本發(fā)明的搭配翻譯模型中的所有翻譯特征,所以相對容易地推導(dǎo)出對應(yīng)的雙語語料庫。例如,雙語翻譯概率可被定義如下 h9(ecol,ccol)=logpbi(e1|c1) 等式(24) h10(ecol,ccol)=logpbi(e2|c2)等式(25) h11(ecol,ccol)=logpbi(c1|e1)等式(26) h12(ecol,ccol)=logpbi(c2|e2)等式(27) h13(ecol,ccol)=logpbi(e1|D1)等式(28) h14(ecol,ccol)=logpbi(e2|D2)等式(29) 可使用諸如Brown等人在Computational Linguistics上發(fā)表的“The mathematics ofmachine translationparameter estimation”(19(2),第263-313頁(1993))中所述的IBM模型的現(xiàn)有方法,從雙語語料庫中估計(jì)出這些概率值或信息。
通常,在雙語源可用時(shí)使用雙語源是有用的。雙語語料庫可以改進(jìn)翻譯概率估計(jì),因此,改善搭配翻譯的準(zhǔn)確性。本發(fā)明的建??蚣苁怯欣?,至少因?yàn)樗鼰o縫地集成了單語和可用的雙語源兩者。
注意到,在眾多實(shí)施例中,由于對適當(dāng)?shù)貥?gòu)造適當(dāng)?shù)拇钆浞g模型不是必需的,省略了此處所述的某些特征函數(shù)。例如,在一些實(shí)施例中,由于不必要而省略了特征函數(shù)h11和h12。在另一些實(shí)施例中,省略了h4和h5。在又一些實(shí)施例中,省略了基于依存關(guān)系的特征函數(shù)h6。最后,在其它實(shí)施例中,在搭配翻譯模型的構(gòu)造時(shí)省略了特征函數(shù)h4、h5、h6、h11和h12。
圖2是示出本發(fā)明中被具體化為單個(gè)方法200的至少三個(gè)一般方面的概觀流程圖。圖3、4和4是示出用于執(zhí)行各個(gè)方面的模塊的框圖。圖6、7和8示出了一般對應(yīng)于圖3、4和5中所示的框圖的方法。應(yīng)該理解的是,此處描述的框圖、流程圖、方法是為理解的目的而示出的,且并被認(rèn)為是限制。例如,為促進(jìn)實(shí)現(xiàn)本發(fā)明各方面,可以組合,分離或省略各模塊和步驟。
現(xiàn)在參考圖2,方法200中的步驟201包括以稍后將用于進(jìn)一步進(jìn)行自然語言處理尤其是文本和句子的翻譯的信息來擴(kuò)充詞匯知識庫。步驟201包括根據(jù)本發(fā)明構(gòu)造一個(gè)搭配翻譯模型的步驟202和利用本發(fā)明的搭配翻譯模型提取和/或獲得搭配翻譯的步驟204。方法200進(jìn)一步包括使用已構(gòu)造的搭配翻譯模型和已提取的搭配翻譯以執(zhí)行206處指示的所接收句子的句子翻譯的步驟208??梢匀绮襟E210所指示,迭代進(jìn)行句子翻譯。
圖3示出了一個(gè)包含詞匯知識庫構(gòu)造模塊300的系統(tǒng)的框圖。詞匯知識庫構(gòu)造模塊300包括搭配翻譯模型構(gòu)造模塊303,該模塊根據(jù)本發(fā)明構(gòu)造搭配翻譯模型305。搭配翻譯模型305擴(kuò)充了詞匯知識庫301,該知識庫將稍后用于執(zhí)行如圖4和圖5中所示的搭配翻譯提取和句子翻譯。圖6是示出根據(jù)本發(fā)明擴(kuò)充詞匯知識庫301的流程圖,并一般與圖3對應(yīng)。
詞匯知識庫構(gòu)造模塊300可以是計(jì)算機(jī)110上執(zhí)行,或者是在LAN 171或WAN 173連接的任何一臺遠(yuǎn)程計(jì)算機(jī)上存儲和執(zhí)行的應(yīng)用程序135。同樣地,詞匯知識庫301可以駐留在計(jì)算機(jī)110上的任意一個(gè)本地存儲裝置中,如硬盤驅(qū)動器141、或光盤CD、或遠(yuǎn)程駐留在LAN 171或WAN 173存儲器裝置中。詞匯知識庫構(gòu)造模塊300包括搭配翻譯模型構(gòu)造模塊303。
在步驟602,通過搭配翻譯模型構(gòu)造模塊303接收源即中文語言語料庫302。源語言語料庫302可包括使用任何一種自然語言的文本。然而,此處常常會使用中文作為說明性的源語言。在大多數(shù)實(shí)施例中,源語言語料庫302包括未處理或已預(yù)處理的數(shù)據(jù)或文本,例如從報(bào)紙、書籍、出版物和期刊、web源、語音至文本引擎等等獲取的文本。源語言語料庫302可從上述數(shù)據(jù)任一輸入裝置以及上述任一數(shù)據(jù)存儲裝置接收。
在步驟604,源語音搭配提取模塊304使用解析器306將中文語料庫302解析成依存三元組,以生成中文搭配或搭配數(shù)據(jù)庫308。在眾多實(shí)施例中,搭配提取模塊304使用例如基于對數(shù)似然比(Log Likelihood Ratio,LLR)度量的評分系統(tǒng)來生成源語言即中文搭配308,該評分系統(tǒng)用于從依存三元組中提取搭配。這樣的LLR評分在Ted Dunning在Computational Linguistics,10(1),第61-74頁(1993)中發(fā)表的“Accurate methods for the statistics of surprise and coincidence”中描述。在其它實(shí)施例中,源語言搭配提取模塊304生成更大的依存三元組集合。在其它實(shí)施例中,也可使用從依存三元組中提取搭配的其它方法,如基于共有詞語信息(mutual word information,WMI)的方法。
在步驟606,搭配翻譯模型構(gòu)造模塊303從上述任一輸入裝置以及上述任一數(shù)據(jù)存儲裝置接收目標(biāo)即英文語言語料庫310。也注意到,對英文的使用僅僅是說明性的,也可以使用其它目標(biāo)語言。
在步驟608,目標(biāo)語言搭配提取模塊312使用解析器341將英文語料庫310解析成依存三元組。與以上模塊304一樣,搭配提取模塊312可使用從依存三元組中提取搭配的任一種方法來生成目標(biāo)即英文搭配316。在其它實(shí)施例中,搭配提取模塊312可在無需進(jìn)一步過濾的情況下生成依存三元組。英文搭配或依存三元組316可被存儲在數(shù)據(jù)庫中以便進(jìn)一步處理。
在步驟610,參數(shù)估計(jì)模塊320接收英文搭配316,然后使用任何已知的估計(jì)搭配語言模型的方法以目標(biāo)即英文搭配概率訓(xùn)練器322來估計(jì)語言模型p(ecol)。目標(biāo)搭配概率訓(xùn)練器322一般基于目標(biāo)語言語料庫310中的每一搭配的計(jì)數(shù)和搭配的總數(shù)來估計(jì)各種搭配的概率,這在以上更詳細(xì)地描述了。在眾多實(shí)施例中,訓(xùn)練器322僅估計(jì)所選類型的搭配。如上所述,在中英文語言對動賓、名詞-形容詞和動詞-副詞具有尤其高的對應(yīng)性。為此,本發(fā)明的實(shí)施例可將訓(xùn)練的搭配類型限定為那些具有高度關(guān)系對應(yīng)性的類型。概率值324用于估計(jì)上述特征函數(shù)h1。
在步驟612,參數(shù)估計(jì)模塊320接收中文搭配308、英文搭配316、以及雙語字典(如漢英字典),并采用詞語翻譯概率訓(xùn)練器332估計(jì)詞語翻譯概率334。在大多數(shù)實(shí)施例中,詞語翻譯概率訓(xùn)練器332使用呂和周(2004)中描述的EM算法,來使用單語中文和英文語料庫估計(jì)詞語翻譯概率模塊。這樣的概率值pmon(e|c)用于估計(jì)上述的特征函數(shù)h4和h5。
在步驟614,原始源和目標(biāo)語言被逆轉(zhuǎn),例如,英文被認(rèn)為是源語言,而中文是目標(biāo)語言。參數(shù)估計(jì)模塊320接收到逆轉(zhuǎn)的源和目標(biāo)語言搭配,并借助于英漢字典來估計(jì)英文中文詞語翻譯概率模型。這樣的概率值pmon(c|e)被用于估計(jì)上述的特征參數(shù)h2和h3。
在步驟616,參數(shù)估計(jì)模塊320接收到中文搭配308、英文語料庫310,和雙語字典336,并使用根據(jù)本發(fā)明如上所述的EM算法構(gòu)造上下文翻譯概率模型342。以EM算法估計(jì)概率值p(c′|e1)和p(c′|e2),它們并被用于估計(jì)上述特征函數(shù)h7和h8。
在步驟618,估計(jì)347處指示的關(guān)系翻譯評分即概率p(re|rc)。一般,可假定在中文和英文的同一依存關(guān)系之間存在較強(qiáng)的對應(yīng)。因此,在大多數(shù)實(shí)施例中,假定如果re與re對應(yīng),則p(re|rc)=0.9,否則p(re|rc)=0.1。p(re|rc)的假定值可用于估計(jì)特征函數(shù)h6。但在其它實(shí)施例中,如果re與re對應(yīng),則p(re|rc)值變化范圍為0.8到1.0,其它情況為0.2到0。
在步驟620,搭配翻譯模型構(gòu)造模塊303接收雙語語料庫350。雙語語料庫350一般是一個(gè)平行的或句子對齊的源和目標(biāo)語言語料庫。在步驟622,雙語詞語翻譯概率訓(xùn)練器估計(jì)364處指示的的概率值p(re|rc)。注意到,目標(biāo)和源語言可以逆轉(zhuǎn)成模型概率值pbi(e|c)。pbi(c|e)和pbi(e|c)的值可用于估計(jì)上述特征函數(shù)h9到h12。
在步驟624,雙語上下文翻譯概率訓(xùn)練器352估計(jì)pbi(e1|D1)和pbi(e2|D2)的值。這樣的概率值可用于估計(jì)上述特征函數(shù)h13和h14。
在估計(jì)了所有參數(shù)后,搭配翻譯模型305可以用于在線搭配翻譯。它也可以用于離線搭配翻譯字典獲取?,F(xiàn)在參考圖2、4和7,圖4示出了一個(gè)系統(tǒng),該系統(tǒng)執(zhí)行提取搭配翻譯以使用特定源和目標(biāo)語言對的搭配翻譯字典進(jìn)一步擴(kuò)充詞匯知識庫201的步驟204。圖7一般與圖4對應(yīng),示出了使用詞匯搭配翻譯模型305來提取和/或獲取搭配翻譯。
在步驟702,搭配提取模塊304接收源語言語料庫。在步驟704,搭配提取模塊304使用任何一種已知的從自然語言文本中提取搭配的方法來從源語言語料庫302中提取源語言搭配308。在眾多實(shí)施例中,搭配提取模塊304包括對數(shù)似然比(LLR)評分器306。LLR評分器306對依存三元組ctri=(c1,rc,c2)進(jìn)行評分,以標(biāo)識308處指出的源語言搭配ccol=(c1,rc,c2)。在眾多實(shí)施例中,對數(shù)似然比(LLR)評分器306如下計(jì)算LLR評分 Logl=aloga+blogb+clogc+dlogd -(a+b)log(a+b)-(a+c)log(a+c) -(b+d)log(b+d)-(c+d)log(c+d) +NlogN 其中,N是所有中文三元組的總數(shù),且 a=f(c1,rc,c2), b=f(c1,rc,*)-f(c1,rc,c2), c=f(*,rc,c2)-f(c1,rc,c2), d=N-a-b-c. 注意到,f指示特定三元組的計(jì)數(shù)或頻率,*是指示任何中文詞語的“通配符”。標(biāo)識出頻率和LLR值大于所選閾值的依存三元組,并將其作為源語言搭配308。
如上所述,在多個(gè)實(shí)施例中,取決于正在處理的源和目標(biāo)語言對,僅提取特定類型的搭配。例如,可為中英文語言對,提取動賓(VO),名詞-形容詞(AN),動詞-副詞(AV)搭配。在一個(gè)實(shí)施例中,也加入了主謂(SV)搭配。選擇特定搭配類型時(shí)的一個(gè)重要考慮在于源語言和一個(gè)或多個(gè)目標(biāo)語言之間的較強(qiáng)對應(yīng)性。還注意到,LLR評分僅是用于確定搭配的一種方法,并不旨在是限定。還可以使用從依存三元組中標(biāo)識搭配的任何一種已知方法(例如加權(quán)共有信息(WMI))。
在步驟706,搭配翻譯提取模塊400接收搭配翻譯模型305,后者包括上述的概率值Pmon(c′|e)、Pmon(e|c)、Pmon(c|e)、P(ecol)、Pbi(c′|e)、Pbi(e|c)、Pbi(c|e)和P(re|rc)。
在步驟708,搭配翻譯模塊402將中文搭配308翻譯成目標(biāo)即英文搭配。首先403使用搭配翻譯模型中的概率來計(jì)算特征函數(shù)。在大多數(shù)實(shí)施例中,特征函數(shù)與上述相關(guān)聯(lián)的概率函數(shù)具有對數(shù)線性關(guān)系。然后,404使用搭配計(jì)算特征函數(shù),使得中文搭配308中的各個(gè)中文搭配ccol被翻譯成最可能的英文搭配êcol,如404及以下所指示 在多個(gè)實(shí)施例,執(zhí)行進(jìn)一步過濾以確保僅提取高度可靠的搭配翻譯。為此,搭配翻譯提取模塊400可包括上下文冗余過濾器406和/或雙向翻譯約束過濾器410。注意到,在不同的上下文中,一個(gè)搭配可能被譯成不同的譯文。例如,“看~電影”或“kan4dian1ying3”(拼音)可根據(jù)不同的上下文接收若干譯文,例如,“see film”、“watch film”和“l(fā)ook film”。
在步驟710,上下文冗余過濾器406對所提取的中英文搭配對進(jìn)行過濾。在大多數(shù)實(shí)施例中,上下文冗余過濾器406計(jì)算最高頻率譯文計(jì)數(shù)與所有譯文計(jì)數(shù)的比率。如果該比率滿足所選閾值,則該搭配及其對應(yīng)的譯文將被作為如步驟408所指示的中文搭配翻譯候選。
在步驟712,雙向翻譯約束過濾器410對翻譯候選408進(jìn)行過濾,以生成可在搭配翻譯字典中使用以便稍后處理的所提取的搭配翻譯416。步驟712包括以英文中文搭配翻譯模型提取如412所示的英文搭配翻譯候選。這樣的英文中文翻譯模型可通過諸如步驟614(圖6中所示)等先前步驟來構(gòu)造,其中,中文被認(rèn)為是目標(biāo)語言,而英文被認(rèn)為是源語言。提取這些出現(xiàn)在翻譯候選集合408、414兩者中的搭配翻譯作為最終的搭配翻譯416。
圖5是用于使用根據(jù)本發(fā)明構(gòu)造的搭配翻譯字典和搭配翻譯模型來執(zhí)行句子翻譯的系統(tǒng)的框圖。圖8一般對應(yīng)于圖5,示出了使用本發(fā)明的搭配翻譯字典和搭配翻譯模型的句子翻譯。
在步驟802,句子翻譯模塊500通過關(guān)于圖1所述的任何一個(gè)輸入裝置或存儲裝置接收源即中文句子。在步驟804,句子翻譯模塊500接收或訪問搭配翻譯字典416。在步驟805,句子翻譯模塊500接收或訪問搭配翻譯模型305。在步驟806,包括至少一個(gè)依存性解析器的解析器504將源語言句子502解析成經(jīng)解析的中文句子506。
在步驟808,搭配翻譯模塊500基于在中文和目標(biāo)即英文之間具有高度對應(yīng)性的搭配的類型來選擇中文搭配。在某些實(shí)施例中,這樣的搭配類型包括如步驟511所示的動賓,名詞-形容詞,動詞-副詞搭配。
在步驟810,搭配翻譯模塊500用搭配翻譯字典416將中文搭配511翻譯成框513處所示的目標(biāo)即英文搭配514。在步驟810,對于511中使用搭配翻譯字典無法找到翻譯的搭配,搭配翻譯模塊500使用搭配翻譯模型305將這些中文搭配翻譯成目標(biāo)即英文搭配514。在步驟812,英文語法模塊516接收英文搭配514,并基于適當(dāng)?shù)挠⑽恼Z法規(guī)則517來構(gòu)造英文句子518。英文句子518然后可被返回到應(yīng)用層,或被進(jìn)一步處理,如步驟520所示。
盡管參考特定的實(shí)施例描述了本發(fā)明,但本領(lǐng)域的技術(shù)人員應(yīng)該認(rèn)識到,可在形式和細(xì)節(jié)上作出改變,而不背離本發(fā)明的精神和范圍。
權(quán)利要求
1.一種包括可由計(jì)算機(jī)讀取的指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)所述指令被執(zhí)行時(shí),使所述計(jì)算機(jī)構(gòu)造一個(gè)搭配翻譯模型,包括以下步驟
從單語源語料庫中提取源語言搭配;
從單語目標(biāo)語料庫中提取目標(biāo)語言搭配;
使用至少所述源和目標(biāo)語言搭配來構(gòu)造搭配翻譯模型,其中所述搭配語言模型是基于一組特征函數(shù)的,其中所述特征函數(shù)之一包括圍繞所提取的源語言搭配的上下文詞語的概率信息。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述搭配翻譯模型是基于與所述特征函數(shù)中的至少某些的一種對數(shù)線性關(guān)系的。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述上下文特征函數(shù)使用期望最大化算法來估計(jì)概率值。
4.根據(jù)權(quán)利要求3所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述期望最大化算法使用單語源和目標(biāo)語言語料庫來估計(jì)參數(shù)。
5.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述特征函數(shù)之一包括目標(biāo)語言搭配語言模型。
6.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述特征函數(shù)之一包括源到目標(biāo)語言詞語翻譯概率信息的詞語翻譯模型。
7.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述特征函數(shù)之一包括目標(biāo)到源語言詞語翻譯概率信息的詞語翻譯模型。
8.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括接收所述源和目標(biāo)語言對的雙語語料庫。
9.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述特征函數(shù)之一包括使用所述雙語語料庫訓(xùn)練的詞語翻譯語言模型。
10.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述特征函數(shù)之一包括使用所述雙語語料庫訓(xùn)練的上下文翻譯模型。
11.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括以下步驟
接收源語言語料庫;
將所述源語言語料庫解析成源語言依存三元組;
從所解析的源語言依存三元組中提取所述源語言搭配;
訪問所述搭配翻譯模型,以提取與所提取的源語言搭配中的某些相對應(yīng)的搭配翻譯。
12.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所提取的源語言搭配中的某些是基于在所述源和目標(biāo)語言之間具有高度對應(yīng)性的搭配的類型來選擇的。
13.一種提取搭配翻譯的方法,包括以下步驟
接收源語言語料庫;
接收目標(biāo)語言語料庫;
從所述源語言語料庫中提取源語言搭配;
通過使用期望最大化算法來估計(jì)圍繞所提取的源語言搭配的上下文詞語的上下文詞語翻譯概率值,以便對搭配翻譯概率信息建模。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述估計(jì)上下文詞語概率值包括,以所選的窗口大小來選擇上下文詞語。
15.根據(jù)權(quán)利要求13所述的方法,其特征在于,還包括以下步驟
接收使用所述源和目標(biāo)語言對的雙語語料庫;
使用所接收的雙語語料庫來估計(jì)詞語翻譯概率值。
16.根據(jù)權(quán)利要求13所述的方法,其特征在于,還包括使用已建模的搭配翻譯概率信息來提取搭配翻譯字典。
17.根據(jù)權(quán)利要求16所述的方法,其特征在于,所述提取搭配翻譯字典還包括基于上下文冗余和雙向翻譯約束中的至少其中之一進(jìn)行過濾。
18.一種提取搭配翻譯的系統(tǒng),包括
適于構(gòu)造源到目標(biāo)語言搭配翻譯模型的一模塊,其中所述搭配翻譯模型包括使用基于期望最大化算法迭代估計(jì)的所選源語言上下文的概率值。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,還包括
適于使用所述搭配翻譯模型來提取搭配翻譯字典的第二模塊,其中所述第二模塊包括適于基于上下文冗余來過濾搭配翻譯以生成搭配翻譯候選的子模塊。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其特征在于,所述第二模塊還包括用于基于雙向約束過濾搭配翻譯候選以生成搭配翻譯字典的子模塊。
全文摘要
提供了用于提取搭配翻譯的方法和系統(tǒng)。該方法包括使用單語源和目標(biāo)語言語料庫以及可用的雙語語料庫來構(gòu)造一個(gè)搭配翻譯模型。搭配翻譯模型采用關(guān)于圍繞搭配的上下文詞語的期望最大化算法。該搭配翻譯模型稍后可用于提取一個(gè)搭配翻譯字典?;谏舷挛娜哂嗪?或雙向翻譯約束的可任選過濾器可用于確保該字典中僅包含高度可靠的搭配翻譯。所構(gòu)造的搭配翻譯模型和所提取的搭配翻譯字典可稍后用于進(jìn)一步的自然語言處理,諸如句子翻譯。
文檔編號G06F17/28GK101194253SQ200680020698
公開日2008年6月4日 申請日期2006年6月14日 優(yōu)先權(quán)日2005年6月14日
發(fā)明者Y·魯, J·高, M·周, J·T·陳, M·李 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1