專利名稱:全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)翻譯方法,更確切地說(shuō)是涉及一種在計(jì)算機(jī)網(wǎng)絡(luò)中適于各網(wǎng)絡(luò)終端以不同自然語(yǔ)言進(jìn)行信息傳遞交流的機(jī)器翻譯方法。
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)以其四通八達(dá)、無(wú)處不到的優(yōu)勢(shì)而迅速開創(chuàng)出一個(gè)全球化的網(wǎng)絡(luò)信息時(shí)代。但由于不同自然語(yǔ)言之間語(yǔ)義信息的傳遞交流障礙,已明顯制約了網(wǎng)絡(luò)及網(wǎng)絡(luò)信息的使用效率,如何通過(guò)機(jī)器翻譯處理使各網(wǎng)絡(luò)終端用戶僅使用自己的自然語(yǔ)言在網(wǎng)絡(luò)上進(jìn)行語(yǔ)義信息傳遞,對(duì)于節(jié)省網(wǎng)絡(luò)空間、提高網(wǎng)絡(luò)信息的傳遞效率和實(shí)現(xiàn)網(wǎng)絡(luò)信息資源的大眾化國(guó)際共享,都無(wú)疑具有重要的現(xiàn)實(shí)意義和很高的商業(yè)價(jià)值。
目前在機(jī)器翻譯領(lǐng)域,一方面由人工智能教科書上系統(tǒng)介紹的機(jī)器翻譯方法在實(shí)際的產(chǎn)品開發(fā)中很少被使用,另一方面,在已開發(fā)出的機(jī)器中所應(yīng)用的機(jī)器翻譯方法又不能達(dá)到預(yù)期的目標(biāo),上述現(xiàn)象說(shuō)明基礎(chǔ)理論研究嚴(yán)重滯后;所有的機(jī)器翻譯技術(shù)方法都具有普遍共性的缺陷;預(yù)期目標(biāo)本身不具有現(xiàn)實(shí)性。進(jìn)入90年代以來(lái),出現(xiàn)了大致兩類新興的機(jī)器翻譯方法并逐漸成為自然語(yǔ)言信息處理的技術(shù)主流。一種是以對(duì)大規(guī)模真實(shí)文本的統(tǒng)計(jì)分析為基本手段建設(shè)語(yǔ)料庫(kù),另一種是人機(jī)對(duì)話及自然語(yǔ)言受限的機(jī)器翻譯方法。
大規(guī)模真實(shí)文本的統(tǒng)計(jì)分析是通過(guò)對(duì)大規(guī)模真實(shí)文本進(jìn)行符號(hào)、句型、詞性、語(yǔ)義等多角度的信息取樣分析,從而為任何一種自然語(yǔ)言中的符號(hào)串提供多種匹配模式,因而是一種基于經(jīng)驗(yàn)的語(yǔ)言信息處理方法。從方法論上說(shuō)用這種自然語(yǔ)言信息處理方法所獲得的統(tǒng)計(jì)結(jié)果具有客觀真實(shí)性及良好的可應(yīng)用性,但從應(yīng)用角度分析,這種語(yǔ)言信息處理方法仍然是一種提供匹配模式的方法,與傳統(tǒng)的句型模式匹配方法無(wú)本質(zhì)區(qū)別。理論上是可以將源語(yǔ)的多種匹配分析結(jié)果作疊加處理并通過(guò)與譯出目標(biāo)語(yǔ)的多種匹配分析結(jié)果建立匹配關(guān)系,而直接完成自然語(yǔ)言的自動(dòng)翻譯,但現(xiàn)實(shí)狀況是,自然語(yǔ)言系統(tǒng)具有隨機(jī)開放特性,任何統(tǒng)計(jì)方法都只能提供概率性知識(shí),不可能對(duì)自然語(yǔ)言詞匯及其概念定義進(jìn)行準(zhǔn)入限制,不可能確定各種省略表達(dá)部分的確切內(nèi)容,也不可能解決生成目標(biāo)語(yǔ)后的新增歧義。因此,大規(guī)模真實(shí)文本的統(tǒng)計(jì)分析雖然對(duì)于利用計(jì)算機(jī)進(jìn)行各種自然語(yǔ)言信息處理來(lái)說(shuō)確是有意義的基礎(chǔ)工作,但對(duì)于機(jī)器翻譯來(lái)說(shuō),這種技術(shù)手段還需要組合在一種全面有效的對(duì)象處理系統(tǒng)方法中才能充分實(shí)現(xiàn)其應(yīng)用價(jià)值。
人機(jī)對(duì)話及自然語(yǔ)言受限的機(jī)器翻譯方法也有傳統(tǒng)及新型兩種技術(shù)方案。傳統(tǒng)方法包括由用戶在輸入端調(diào)整機(jī)器翻譯詞典和調(diào)整源語(yǔ)言表達(dá)方式,同時(shí)調(diào)整譯文結(jié)果,該方法雖可獲得較好的機(jī)器翻譯質(zhì)量,但要求用戶熟練掌握機(jī)器翻譯的源語(yǔ)和目標(biāo)語(yǔ)并需付出相當(dāng)高的人機(jī)對(duì)話學(xué)習(xí)成本及操作成本,與人工翻譯不差上下。新型方案的人機(jī)對(duì)話方案只要求用戶熟練掌握母語(yǔ)和學(xué)會(huì)規(guī)范表達(dá),適應(yīng)機(jī)器翻譯系統(tǒng)給出的源語(yǔ)表達(dá)規(guī)范,以滿足機(jī)器翻譯在源語(yǔ)分析方面的要求,但即使是規(guī)范的自然語(yǔ)言表達(dá)也仍然存在一詞多義和句法歧義,其判別還需借助語(yǔ)境語(yǔ)義分析,因此僅依靠建立源語(yǔ)表達(dá)規(guī)范,是不能真正解決源語(yǔ)信息求解中的所有問(wèn)題的。即使通過(guò)人機(jī)對(duì)話使受限的自然語(yǔ)言機(jī)器翻譯系統(tǒng)完成源語(yǔ)信息求解的任務(wù),但如果不能有效解決目標(biāo)語(yǔ)生成后的新增歧義問(wèn)題,是難以保證機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量的。
本發(fā)明的目的是設(shè)計(jì)一種全息全選全程模板式人機(jī)對(duì)話機(jī)器翻譯方法,以全面解決計(jì)算機(jī)網(wǎng)絡(luò)多語(yǔ)種信息傳遞交流障礙問(wèn)題,試圖取得機(jī)器翻譯技術(shù)的實(shí)質(zhì)性突破。這種突破必須滿足以下條件1.對(duì)自然語(yǔ)言普通詞匯及其概念定義進(jìn)行有效的準(zhǔn)入限制;2.不依賴上下文語(yǔ)境進(jìn)行語(yǔ)義分析;3.通過(guò)直譯手段實(shí)現(xiàn)語(yǔ)義信息準(zhǔn)確傳遞;4.找到生成目標(biāo)語(yǔ)后的新增歧義解決辦法;5.用戶只需熟練掌握母語(yǔ);6.利用大規(guī)模真實(shí)文本統(tǒng)計(jì)分析的手段與成果,充分實(shí)現(xiàn)人機(jī)優(yōu)勢(shì)互補(bǔ);7.滿足向多種目標(biāo)語(yǔ)言轉(zhuǎn)換的需要。
本發(fā)明的目的是這樣實(shí)現(xiàn)的,全息全選全程人機(jī)對(duì)話機(jī)器翻譯方法,其特征在于包括下述步驟a.建立一個(gè)以句子為對(duì)象的包括各種自然語(yǔ)言必要信息要素的自然語(yǔ)言翻譯人機(jī)對(duì)話模板;b.由對(duì)話模板提供對(duì)不同自然語(yǔ)言進(jìn)行統(tǒng)一通約受限后的所有備選信息項(xiàng);c.先由翻譯系統(tǒng)對(duì)統(tǒng)一通約受限后的所有備選信息頂進(jìn)行自動(dòng)優(yōu)選,再由用戶在全息對(duì)話模板上對(duì)優(yōu)選結(jié)果進(jìn)行人工調(diào)整和確認(rèn);d.由翻譯系統(tǒng)根據(jù)確定信息項(xiàng)進(jìn)行譯出目標(biāo)語(yǔ)轉(zhuǎn)換生成,將源語(yǔ)輸入方的選項(xiàng)結(jié)果隨譯文提供給用戶查詢。
所述步驟b的不同自然語(yǔ)言統(tǒng)一通約受限方法是對(duì)基礎(chǔ)概念進(jìn)行強(qiáng)制性對(duì)齊,不能用基礎(chǔ)概念進(jìn)行統(tǒng)一的自然語(yǔ)言詞匯或概念,在對(duì)話模板中提供空白信息項(xiàng)。
所述步驟a的所有必要信息要素包括由概念定義、時(shí)態(tài)信息及語(yǔ)態(tài)信息組成的普通信息項(xiàng)和句法信息項(xiàng)。
所述步驟c的對(duì)自動(dòng)優(yōu)選結(jié)果進(jìn)行人工調(diào)整和確認(rèn)的方法是由用戶在全息對(duì)話模板上對(duì)不確定信息進(jìn)行人工選擇。
所述步驟a的以句子為對(duì)象的人機(jī)對(duì)話模板是包括有三維空間定位句法的對(duì)話框架。
所述步驟a的以句子為對(duì)象的人機(jī)對(duì)話模板是虛擬的。
所述步驟b的不同自然語(yǔ)言統(tǒng)一通約受限包括1.統(tǒng)一合并功能同一、對(duì)象不同一的句法概念;2.盡量刪除可缺少的句法概念;3.通過(guò)對(duì)主要語(yǔ)種詞匯使用頻率的統(tǒng)計(jì)分析和同義歸并,建立多語(yǔ)通用基礎(chǔ)概念;4.以各種自然語(yǔ)言的基礎(chǔ)概念近義詞作為近義附碼,當(dāng)不同自然語(yǔ)言出現(xiàn)近義詞對(duì)應(yīng)空缺時(shí),由基礎(chǔ)概念詞進(jìn)行近義替換;5.不能用基礎(chǔ)概念進(jìn)行統(tǒng)一表達(dá)的自然語(yǔ)言詞匯或概念,由對(duì)話模板提供空白信息項(xiàng);6.對(duì)話模板中提供用戶選擇的是經(jīng)簡(jiǎn)化通約后的信息項(xiàng)。
不同自然語(yǔ)言統(tǒng)一通約受限方法還包括有詞匯概念通約,是1.以內(nèi)涵為中心的模糊通約和2.不考慮詞性差異的概念統(tǒng)一通約。
所述步驟c中,用戶可單項(xiàng)或多項(xiàng)地在全息對(duì)話模板上對(duì)優(yōu)選結(jié)果進(jìn)行人式調(diào)整和確認(rèn)選擇。
本發(fā)明全息全選全程模板式人機(jī)對(duì)話機(jī)器翻譯方法的技術(shù)特點(diǎn)是人機(jī)對(duì)話的基本點(diǎn)是由用戶對(duì)模板信息直接進(jìn)行選擇,對(duì)用戶而言只需掌握母語(yǔ),基本無(wú)學(xué)習(xí)成本;本方法是在充分考慮計(jì)算機(jī)對(duì)信息處理的實(shí)際邊界能力并以語(yǔ)義信息傳遞的準(zhǔn)確性為中心任務(wù)及實(shí)際目標(biāo)而作出的;本方法充分利用了人機(jī)優(yōu)勢(shì)互補(bǔ),翻譯內(nèi)容不受語(yǔ)言環(huán)境和應(yīng)用領(lǐng)域限制;本方法通過(guò)建立統(tǒng)一受限標(biāo)準(zhǔn)和全息全選全程的人機(jī)對(duì)話,提供了一攬子解決機(jī)器翻譯基本技術(shù)障礙的系統(tǒng)方案,為根本改善機(jī)器翻譯質(zhì)量提供了全方位的技術(shù)保證;本方法可充分利用大規(guī)模語(yǔ)料庫(kù)建設(shè)的成果,對(duì)自然語(yǔ)言簡(jiǎn)潔實(shí)用的處理方法,使其具有良好的可實(shí)施性;雖然在源語(yǔ)信息求解階段,用戶看不懂的語(yǔ)言不可能進(jìn)行人機(jī)對(duì)話,但可在保證翻譯質(zhì)量的前提下實(shí)現(xiàn)一種語(yǔ)言輸入得到多語(yǔ)種譯出結(jié)果。
本發(fā)明的全息全選全程模板式人機(jī)對(duì)話機(jī)器翻譯方法在網(wǎng)絡(luò)信息交流領(lǐng)域具有普遍應(yīng)用的價(jià)值,在打開網(wǎng)絡(luò)在線機(jī)器翻譯服務(wù)方面有廣闊的國(guó)際市場(chǎng)。
圖1是以句子為對(duì)象的自然語(yǔ)言全息模型結(jié)構(gòu)示意2-1、2-2、2-3、2-4是四種全息全選全程對(duì)話模板結(jié)構(gòu)示意3是句法信息的空間定位結(jié)構(gòu)示意4是普通概念統(tǒng)一受限編碼框架結(jié)構(gòu)示意5是源語(yǔ)選項(xiàng)結(jié)果查詢結(jié)構(gòu)示意圖下面結(jié)合一句子的中英全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯實(shí)施過(guò)程進(jìn)一步說(shuō)明本發(fā)明的技術(shù)。該句子為“我在銀行附近看見一個(gè)帶望遠(yuǎn)鏡的男孩”,“Isaw a boy with a telescope near the bank.”首先建立一個(gè)以句子為對(duì)象的自然語(yǔ)言全息對(duì)話模型,在這個(gè)模型中包括各種自然語(yǔ)言文字符號(hào)系統(tǒng)所有必要的語(yǔ)言信息要素,為所要進(jìn)行的人機(jī)對(duì)話作自然語(yǔ)言詞匯及其概念定義的有效準(zhǔn)入限制。該模型如圖1所示,以句子為對(duì)象的人機(jī)對(duì)話模板是一種包括三椎空間定位句法的對(duì)話框架。
圖1中所有必要的語(yǔ)言信息要素包括由概念義項(xiàng)信息項(xiàng)、時(shí)態(tài)信息項(xiàng)和語(yǔ)態(tài)信息項(xiàng)構(gòu)成的普通信息項(xiàng)和由句法成分項(xiàng)構(gòu)成的句法信息項(xiàng)。從機(jī)譯詞典中調(diào)出示例句子中各符號(hào)串的相應(yīng)信息項(xiàng)內(nèi)容并填入模型中,如圖2-1中所示。
要根本改善機(jī)器翻譯質(zhì)量、提高機(jī)器翻譯系統(tǒng)的實(shí)用價(jià)值,必須對(duì)模板對(duì)話信息項(xiàng)進(jìn)行通約受限。
為了準(zhǔn)確傳遞語(yǔ)義信息,最好采用直譯手段,這是因?yàn)闄C(jī)器翻譯系統(tǒng)不可能隨機(jī)調(diào)整目標(biāo)語(yǔ)句子的詞匯和句型。但要想保證直譯的譯文質(zhì)量,必須保證詞匯信息項(xiàng)和句法信息項(xiàng)能在源語(yǔ)與目標(biāo)語(yǔ)間作等價(jià)交換。因此本發(fā)明對(duì)不同自然語(yǔ)言間的差異通過(guò)建立系統(tǒng)的通約受限原則進(jìn)行統(tǒng)一整合處理。這種通約受限原則包括句法信息通約和普通信息通約。
本發(fā)明設(shè)計(jì)的句法信息通約原則包括統(tǒng)一合并功能同一、對(duì)象不同一的句法信息;盡量刪除在語(yǔ)義聚合關(guān)系分析中并非不可缺少的句法概念,如英語(yǔ)語(yǔ)法中的直接賓語(yǔ)與間接賓語(yǔ)。本發(fā)明在對(duì)話模板上只提供經(jīng)簡(jiǎn)化通約后的句法信息概念,作為不同自然語(yǔ)言的標(biāo)準(zhǔn)句法信息項(xiàng)供用戶選擇。
本發(fā)明設(shè)計(jì)的普通信息通約如圖4中所示,是通過(guò)對(duì)大語(yǔ)種詞匯使用頻率的統(tǒng)計(jì)分析和同義歸并而確定一個(gè)基礎(chǔ)概念集。但實(shí)際操作時(shí),不是每一種自然語(yǔ)言的基礎(chǔ)概念都是完整的,當(dāng)出現(xiàn)空缺時(shí),則要采用該語(yǔ)言對(duì)這一概念進(jìn)行解釋性描述,使基礎(chǔ)概念強(qiáng)制性對(duì)齊。如英文詞匯orphan的動(dòng)詞義項(xiàng)被定為基礎(chǔ)概念,而中文中沒(méi)有對(duì)應(yīng)詞,則用“使成為孤兒”進(jìn)行解釋性描述。此外,一種自然語(yǔ)言中某個(gè)詞匯的全部近義概念也不可能在其它自然語(yǔ)言中全部找到對(duì)應(yīng)概念,因此在當(dāng)某種自然語(yǔ)言的近義概念出現(xiàn)對(duì)應(yīng)空缺時(shí)則由基礎(chǔ)概念詞進(jìn)行近義替換(人工翻譯中近義替換也是不可避免的)。經(jīng)過(guò)上述兩項(xiàng)通約處理后仍不能處理的則作為冗余信息在全息模型中提供空白信息項(xiàng)。本發(fā)明在確定不同自然語(yǔ)言詞匯的概念定義時(shí),采用以內(nèi)涵為中心的模糊通約(如中文的“學(xué)?!迸c英文的”school”);不考慮詞性差異的概念統(tǒng)一通約(如不考慮英文詞匯become的所有時(shí)態(tài)變形)和對(duì)多種語(yǔ)言中都使用的概念作優(yōu)先考慮的概率通約處理,為了豐富語(yǔ)言的表達(dá)力,任何語(yǔ)言都需要有同一概念的近義詞,因此以詞匯的使用概率作為普通概念冗余標(biāo)準(zhǔn),優(yōu)先多種語(yǔ)言中都使用的概念,其次是在一種自然語(yǔ)言使用概率高的詞匯。對(duì)于不滿足上述兩種情況的詞匯則作為冗余概念處理。如漢語(yǔ)中“看”的近義詞“脧”、“內(nèi)顧”、“諦視”等都作為冗余概念。經(jīng)過(guò)通約受限處理后的詞匯信息才作為全息模板中的詞匯備選項(xiàng)提供給不同自然語(yǔ)言用戶進(jìn)行選擇,以保證不同自然語(yǔ)言普通概念信息間能夠等價(jià)互換。
本發(fā)明的對(duì)多種自然語(yǔ)言概念系統(tǒng)進(jìn)行強(qiáng)制性通約受限的方法,與傳統(tǒng)的中間語(yǔ)言方法間有著本質(zhì)區(qū)別傳統(tǒng)的中間語(yǔ)言技術(shù)面對(duì)的是完全不受限的自然語(yǔ)言系統(tǒng),通過(guò)建立多種自然語(yǔ)言間的中間概念體系來(lái)實(shí)現(xiàn)多語(yǔ)互譯,但各種自然語(yǔ)言概念體系的開放性使中間語(yǔ)言體系不可能具有周延性;強(qiáng)制性的通約受限方法是通過(guò)人機(jī)對(duì)話方式對(duì)詞匯及義項(xiàng)作必要的限制和通約,對(duì)各種自然語(yǔ)言概念體系之間的差異和開放性進(jìn)行合理限制,以保證多種自然語(yǔ)言的詞匯概念及句法概念能成功地進(jìn)行等價(jià)互換。
在普通信息項(xiàng)的選擇中要充分利用人機(jī)優(yōu)勢(shì)互補(bǔ),計(jì)算機(jī)自動(dòng)優(yōu)選所遵循的基本原則是通過(guò)大規(guī)模的對(duì)真實(shí)文本的統(tǒng)計(jì)分析,排列出多義詞的詞匯信息項(xiàng)使用頻率順序,以縮小用戶選項(xiàng)的搜尋范圍;通過(guò)大規(guī)模的對(duì)真實(shí)文本的統(tǒng)計(jì)分析,根據(jù)句法信息項(xiàng)與詞匯信息項(xiàng)間的相關(guān)性特性來(lái)優(yōu)選詞匯信息項(xiàng),以進(jìn)一步縮小信息項(xiàng)選擇范圍,如凡可做主語(yǔ)的詞匯都優(yōu)選其名詞義項(xiàng),圖2中我、望遠(yuǎn)鏡、銀行等;通過(guò)大規(guī)模的對(duì)真實(shí)文本的統(tǒng)計(jì)分析,獲得詞匯搭配的概率信息,進(jìn)一步優(yōu)選詞匯信息項(xiàng),如漢語(yǔ)“好漂亮的一朵花”,其中的“好”是多義詞,而在形容詞“漂亮”前的“好”字的最可能的義項(xiàng)解是程度副詞“非?!保粚?duì)于顯性表達(dá)詞性信息的文字符號(hào),通過(guò)詞性即可推導(dǎo)出所選詞匯信息項(xiàng)來(lái)縮小信息項(xiàng)選擇范圍,如英語(yǔ)中“spring”的詞根雖然是多義的,但其動(dòng)詞的過(guò)去式“sprang”則已明確限制了義項(xiàng)選擇范圍。
通過(guò)以上技術(shù)手段的自動(dòng)選項(xiàng)處理,已能夠?qū)⒂脩魧?shí)際所需的大多數(shù)詞匯信息項(xiàng)排在首位,由于表達(dá)語(yǔ)義所需要的詞匯信息項(xiàng)是在用戶心中的,因此對(duì)用戶而言,大多數(shù)的普通信息項(xiàng)選擇只是一個(gè)對(duì)模型中各首選信息項(xiàng)的確認(rèn)過(guò)程。各種自然語(yǔ)言中,無(wú)論是隱性表達(dá)還是顯性表達(dá)的句法信息,大體上包括詞性信息、句法成分信息和上位語(yǔ)義信息,其中句法成分信息是唯一具有完整組織能力的,并具有普遍共性的句法組織系統(tǒng),因此,只要確定句法成分信息項(xiàng),實(shí)際上已經(jīng)確定了一個(gè)自然語(yǔ)言符號(hào)串的語(yǔ)義聚合關(guān)系。在句法信息項(xiàng)的選擇中也要充分利用人機(jī)優(yōu)勢(shì)互補(bǔ),其所遵循的基本原則是通過(guò)大規(guī)模的對(duì)真實(shí)文本的統(tǒng)計(jì)分析獲得詞序、詞性、上位語(yǔ)義信息與句法信息之間的匹配關(guān)系,以自動(dòng)優(yōu)選句法信息項(xiàng)。如一個(gè)詞匯的詞序?yàn)?,詞性為名詞,上位語(yǔ)義為行為主體,則可判定為主語(yǔ);用戶通過(guò)選項(xiàng)操作最終確定句法成分信息項(xiàng)。
通過(guò)全選式人機(jī)對(duì)話過(guò)程最后確定詞匯信息項(xiàng)和句法信息項(xiàng),求解自然語(yǔ)言的信息。由用戶直接在全息對(duì)話模型上選擇各自然語(yǔ)言符號(hào)串實(shí)際攜帶的詞匯信息項(xiàng)和句法信息項(xiàng),是最簡(jiǎn)單的人機(jī)對(duì)話方式,其具體方法可以是對(duì)所確定的項(xiàng)進(jìn)行黑體標(biāo)注處理,如圖2中所示。
通過(guò)在全息模型中對(duì)句子中詞匯信息項(xiàng)和句法信息項(xiàng)的人機(jī)互補(bǔ)選擇、確認(rèn),已能夠完成自然語(yǔ)言的信息求解任務(wù),因此不再需要依賴上下文語(yǔ)境對(duì)句子進(jìn)行語(yǔ)義分析,對(duì)于用戶來(lái)說(shuō),分析和確定抽象的句法關(guān)系遠(yuǎn)比判斷多義詞信息項(xiàng)困難,因此,為了降低句法成分信息項(xiàng)的選擇難度,實(shí)際操作時(shí)可象圖3中所示的那樣將呈線性排列的句法成分信息項(xiàng)轉(zhuǎn)換成空間定位表達(dá)方式,協(xié)助進(jìn)行句法成分信息項(xiàng)人機(jī)對(duì)話的選擇。以句法信息的修飾區(qū)、核心區(qū)及補(bǔ)充區(qū)為橫座標(biāo),以句法信息的主語(yǔ)區(qū)、謂語(yǔ)區(qū)及賓語(yǔ)區(qū)為縱座標(biāo),作出句法信息對(duì)話框架,由用戶在框架中對(duì)“with a telescope”的修飾對(duì)象進(jìn)行選擇。
在實(shí)際的人機(jī)對(duì)話過(guò)程中也可以采用模板部分顯示方法和模板虛擬方法,如圖2-2所示的句法信息全顯(圖中?號(hào)表示由用戶再選擇),圖2-3所示的詞匯信息(帶)的單個(gè)全選和圖2-4所示的“I see a boy with a telescope near the bank”的虛擬對(duì)話模板后的對(duì)話顯示方法本發(fā)明的方法通過(guò)對(duì)語(yǔ)法概念和普通概念的系統(tǒng)通約受限,以及在受限信息項(xiàng)范圍內(nèi)進(jìn)行人機(jī)互補(bǔ)信息全選,已經(jīng)具有了向多種自然語(yǔ)言表達(dá)形式作自動(dòng)轉(zhuǎn)換的必要信息,但總有被用戶省略的句法成分,從邏輯上說(shuō)只要確定了已有文字符號(hào)的所有信息項(xiàng),大多數(shù)省略部分可由用戶在閱讀信息時(shí)根據(jù)上下文語(yǔ)境自動(dòng)添加(如主詞、賓詞省略),但為了準(zhǔn)確傳遞語(yǔ)義,對(duì)不可省略的句子成分還要通過(guò)全息對(duì)話模型進(jìn)行添加,以保證機(jī)器翻譯質(zhì)量(如在一個(gè)句子的備選信息項(xiàng)中已經(jīng)選了主詞和賓詞,則不可省略相關(guān)動(dòng)詞)。
參見圖5,圖中示出在找到生成目標(biāo)語(yǔ)后發(fā)現(xiàn)新增歧義的解決辦法。將經(jīng)過(guò)全息對(duì)話的中間翻譯結(jié)果隨譯文提供給目標(biāo)語(yǔ)用戶作直接查詢,可實(shí)現(xiàn)目標(biāo)語(yǔ)新增歧義的全面消解。被查詢信息的顯示模板也可以采用圖2-2、2-3、2-4所示的形式。如果用戶有意保留語(yǔ)言表達(dá)的模糊性或雙關(guān)性,則可在選擇信息項(xiàng)時(shí)作多項(xiàng)同時(shí)選擇。
語(yǔ)義信息傳遞質(zhì)量是全球化網(wǎng)絡(luò)信息時(shí)代機(jī)器翻譯技術(shù)贏得巨大國(guó)際市場(chǎng)的根本障礙,要想取得實(shí)質(zhì)性突破,人機(jī)對(duì)話是不可避免的,本發(fā)明人機(jī)對(duì)話優(yōu)勢(shì)互補(bǔ)的翻譯方案可切實(shí)提高翻譯質(zhì)量,具有實(shí)用價(jià)值。由于本方法具有語(yǔ)言信息傳遞準(zhǔn)確、不受語(yǔ)言環(huán)境限制、用戶操作使用方便、可同步轉(zhuǎn)換生成多種目標(biāo)語(yǔ)、對(duì)話方案多語(yǔ)通用及技術(shù)手段簡(jiǎn)單可靠等優(yōu)點(diǎn),因而在網(wǎng)絡(luò)信息交流領(lǐng)域?qū)?huì)具有普遍應(yīng)用價(jià)值,在網(wǎng)絡(luò)的在線機(jī)譯服務(wù)方面也會(huì)有廣闊的市場(chǎng)。
權(quán)利要求
1.一種全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于包括下述步驟a.建立一個(gè)以句子為對(duì)象的包括各種自然語(yǔ)言必要信息要素的自然語(yǔ)言翻譯人機(jī)對(duì)話模板;b.由對(duì)話模板提供對(duì)不同自然語(yǔ)言進(jìn)行統(tǒng)一通約受限后的所有備選信息項(xiàng);c.先由翻譯系統(tǒng)對(duì)統(tǒng)一通約受限后的所有備選信息頂進(jìn)行自動(dòng)優(yōu)選,再由用戶在全息對(duì)話模板上對(duì)優(yōu)選結(jié)果進(jìn)行人工調(diào)整和確認(rèn);d.由翻譯系統(tǒng)根據(jù)確定信息項(xiàng)進(jìn)行譯出目標(biāo)語(yǔ)轉(zhuǎn)換生成,將源語(yǔ)輸入方的選項(xiàng)結(jié)果隨譯文提供給用戶查詢。
2.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟b的不同自然語(yǔ)言統(tǒng)一通約受限方法是對(duì)基礎(chǔ)概念進(jìn)行強(qiáng)制性對(duì)齊,不能用基礎(chǔ)概念進(jìn)行統(tǒng)一的自然語(yǔ)言詞匯或概念,在對(duì)話模板中提供空白信息項(xiàng)。
3.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征+在于所述步驟a的所有必要信息要素包括由概念定義、時(shí)態(tài)信息及語(yǔ)態(tài)信息組成的普通信息項(xiàng)和句法信息項(xiàng)。
4.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟c的對(duì)自動(dòng)優(yōu)選結(jié)果進(jìn)行人工調(diào)整和確認(rèn)的方法是由用戶在全息對(duì)話模板上對(duì)不確定信息進(jìn)行人工選擇。
5.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟a的以句子為對(duì)象的人機(jī)對(duì)話模板是包括有三維空間定位句法的對(duì)話框架。
6.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟a的以句子為對(duì)象的人機(jī)對(duì)話模板是虛擬的。
7.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟b的不同自然語(yǔ)言統(tǒng)一通約受限包括a.統(tǒng)一合并功能同一、對(duì)象不同一的句法概念;b.盡量刪除可缺少的句法概念;c.通過(guò)對(duì)主要語(yǔ)種詞匯使用頻率的統(tǒng)計(jì)分析和同義歸并,建立多語(yǔ)通用基礎(chǔ)概念;d.以各種自然語(yǔ)言的基礎(chǔ)概念近義詞作為近義附碼,當(dāng)不同自然語(yǔ)言出現(xiàn)近義詞對(duì)應(yīng)空缺時(shí),由基礎(chǔ)概念詞進(jìn)行近義替換;e.不能用基礎(chǔ)概念進(jìn)行統(tǒng)一表達(dá)的自然語(yǔ)言詞匯或概念,由對(duì)話模板提供空白信息項(xiàng);f.對(duì)話模板中提供用戶選擇的是經(jīng)簡(jiǎn)化通約后的信息項(xiàng)。
8.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于不同自然語(yǔ)言統(tǒng)一通約受限方法還包括有詞匯概念通約,是a.以內(nèi)涵為中心的模糊通約和b.不考慮詞性差異的概念統(tǒng)一通約。
9.根據(jù)權(quán)利要求1所述的全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。其特征在于所述步驟c中,用戶可單項(xiàng)或多項(xiàng)地在全息對(duì)話模板上對(duì)優(yōu)選結(jié)果進(jìn)行人式調(diào)整和確認(rèn)選擇。
全文摘要
本發(fā)明涉及一種全息全選全程模板式人機(jī)對(duì)話語(yǔ)言翻譯方法。該方法包括首先建立一個(gè)以句子為對(duì)象的自然語(yǔ)言全息受限對(duì)話模型,模型中包含有理解各種自然語(yǔ)言文字符號(hào)系統(tǒng)的所有必要語(yǔ)言信息要素,再在模型上通過(guò)全程全選式人機(jī)對(duì)話確定任意自然語(yǔ)言符號(hào)串實(shí)際攜帶的詞匯信息項(xiàng)和句法信息項(xiàng),完成源語(yǔ)信息求解和譯文語(yǔ)義查詢。該方法不依賴上下文語(yǔ)境作語(yǔ)義分析并充分利用人機(jī)優(yōu)勢(shì)互補(bǔ)的作用,用于在全球化網(wǎng)絡(luò)通信中掃除語(yǔ)義信息傳遞障礙。
文檔編號(hào)G06F17/27GK1231453SQ9810115
公開日1999年10月13日 申請(qǐng)日期1998年4月6日 優(yōu)先權(quán)日1998年4月6日
發(fā)明者劉莎 申請(qǐng)人:劉莎