專利名稱:基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于本體的翻譯方法,尤其涉及一種基于領(lǐng)域本體的名片 信息中譯英自動(dòng)翻譯方法。
背景技術(shù):
機(jī)器翻譯涉及到語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知心理學(xué)等多種學(xué)科,是計(jì)算語(yǔ) 言學(xué)中非常重要的分支。但它在語(yǔ)言學(xué)和計(jì)算機(jī)實(shí)現(xiàn)方面都存在著一些尚待解 決的難題,比如自然語(yǔ)言的多義問(wèn)題、譯文的詞序問(wèn)題、介詞處理問(wèn)題、上下 文的關(guān)聯(lián)問(wèn)題、機(jī)器翻譯所需知識(shí)的獲取和表達(dá)及中譯外機(jī)器翻譯的漢語(yǔ)分詞 歧義等問(wèn)題。這些問(wèn)題依然限制著譯文的質(zhì)量,也不是用規(guī)則能夠完全解決的, 因而使機(jī)器翻譯的結(jié)果難以令人滿意。特別是漢語(yǔ)的機(jī)器翻譯,存在的問(wèn)題相當(dāng)多。漢語(yǔ)和許多印歐語(yǔ)系語(yǔ)言不 同,漢語(yǔ)在詞形上屬于孤立語(yǔ),釆用連續(xù)書寫形式,詞與詞之間無(wú)自然界限, 無(wú)詞尾形式標(biāo)志,無(wú)形態(tài)變化,這種"三無(wú)"現(xiàn)象使得人們?cè)陂喿x時(shí)要借助大 腦思維切分詞語(yǔ),而用計(jì)算機(jī)理解和處理書面漢語(yǔ)時(shí),就必須先進(jìn)行自動(dòng)切分 詞語(yǔ)的工作,而漢語(yǔ)語(yǔ)義及結(jié)構(gòu)上的復(fù)雜性與多變性和"三無(wú)"現(xiàn)象的存在, 給漢語(yǔ)自動(dòng)分詞帶來(lái)了極大困難。我國(guó)中文信息處理發(fā)展己經(jīng)經(jīng)過(guò)了很多年, 但是關(guān)于"詞"如何進(jìn)行抽象定義和判定的問(wèn)題到現(xiàn)在也沒(méi)有很好的解決。雖 然我國(guó)已制定了《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》,但仍然有一些情況很難判斷。自80年代初提出漢語(yǔ)自動(dòng)分詞以來(lái),已經(jīng)研究出了許多分詞方法。如最大 匹配MM方法、RMM方法、逐詞遍歷法、設(shè)立切分標(biāo)記法、OM方法、有窮多 層次列舉法、二次掃描法、基于詞頻統(tǒng)計(jì)的分詞方法、基于期望的分詞方法、 雙向掃描法、鄰接約束法、最少分詞詞頻選擇方法、神經(jīng)元網(wǎng)絡(luò)方法等。這些方法對(duì)常規(guī)句子的處理, 一般具有很高的精度,但在處理歧義切分方面,都存 在明顯的缺陷。歧義切分是漢語(yǔ)分詞中不可避免的現(xiàn)象,也是自然語(yǔ)言處理中 的一個(gè)難點(diǎn)。另外,中文的使用習(xí)慣會(huì)產(chǎn)生大量的信息省略,這是一種信息損 失。會(huì)導(dǎo)致誤解以及錯(cuò)誤的傳播,而當(dāng)中文翻譯為英文的時(shí)候,由于二者之間 有很多語(yǔ)法上得差異,所以為了保證翻譯的正確率和完整性,必須要找回這些 信息損失,而要想找回這些損失的信息,必須具備大量的知識(shí)儲(chǔ)備,而計(jì)算機(jī) 并不具備,因而它們無(wú)法準(zhǔn)確的理解文本所要表達(dá)的信息,所以建立在這種錯(cuò) 誤理解基礎(chǔ)上的翻譯必然會(huì)大打折扣。在翻譯系統(tǒng)中最重要的就是檢索匹配, 只要保持高的檢索匹配正確率,才能提高翻譯的準(zhǔn)確率,而通常的檢索方法釆 用的是詞形匹配,而不是語(yǔ)義匹配。這樣自然會(huì)降低檢索的準(zhǔn)確率。產(chǎn)生這些 問(wèn)題的根源在于這種詞形查詢對(duì)于計(jì)算機(jī)而言沒(méi)有任何含義,或者說(shuō)沒(méi)有語(yǔ)義, 因而檢索的結(jié)果不能完全滿足用戶檢索的意圖。另外,自然語(yǔ)言是一種不斷發(fā)展、不斷變化、約定俗成的交流工具,因而 具有很大的隨意性。將這些千變?nèi)f化的現(xiàn)象條理化,以有限的規(guī)則來(lái)應(yīng)付無(wú)邊 無(wú)際的自然語(yǔ)言,也很難實(shí)現(xiàn)信息的準(zhǔn)確翻譯。特別是,很多語(yǔ)句需要借助上、 下文的關(guān)聯(lián)信息才能進(jìn)行,這些都是造成機(jī)器翻譯不準(zhǔn)確的因素,因此,目前, 雖然機(jī)器翻譯技術(shù)可以部分幫助人們完成一些翻譯工作,但這些幫助都相當(dāng)有 限。發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體的名片信息中譯 英自動(dòng)翻譯方法,能提供準(zhǔn)確的名片信息翻譯,非常實(shí)用。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法,以詞料庫(kù)、語(yǔ)料庫(kù)為 基礎(chǔ),為名片中所包括信息建立領(lǐng)域本體庫(kù),所述領(lǐng)域本體庫(kù)中至少包括地址 領(lǐng)域類、戶名領(lǐng)域類、單位名稱類,其中,所述聯(lián)系地址類至少包括地址分 割符、前綴詞匯、地址小節(jié)和地址,為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值,同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例;所述戶名領(lǐng)域類至少包括地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名、戶名,為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名設(shè)置屬 性及屬性值,同時(shí)為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名建立實(shí)例;所述屬性及屬性值是依據(jù)所述詞料庫(kù)、語(yǔ)料庫(kù)訓(xùn)練而得到的語(yǔ)義而設(shè)置 的;單位名稱類是收集單位名稱,并建立之間的語(yǔ)義聯(lián)系;即領(lǐng)域本體庫(kù)是基 于語(yǔ)義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫(kù);以英漢詞典、漢英詞典和漢英語(yǔ)法規(guī)則建立單詞、 詞句的語(yǔ)法翻譯實(shí)例,同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫(kù)中的各元素所建立實(shí)例 之間的對(duì)應(yīng)關(guān)系;該方法還包括以下步驟A、 向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián) 系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入;B、 獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳 真的參數(shù)值,對(duì)于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字 參數(shù)不譯;對(duì)于聯(lián)系人名稱,判斷是否為漢語(yǔ),若是按名和姓進(jìn)行切分,查找 所述翻譯本體庫(kù)是否有匹配的名,若有則譯為相應(yīng)英文,否則譯為拼音,如果不是漢語(yǔ)則不譯;對(duì)于職位,則直接輸入到翻譯本體庫(kù)進(jìn)行匹配,若匹配則將 對(duì)應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻譯為漢語(yǔ)拼音;對(duì)于聯(lián)系地址,則以 用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行 匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名稱進(jìn) 行切詞,再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯 規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng)域本 體庫(kù)進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢語(yǔ)拼 音,根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯;對(duì)于單位名稱則輸入到單 位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語(yǔ)拼音作 為翻譯結(jié)果;C、 將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電 話、傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶修正的詞句結(jié)果保存到翻譯本體庫(kù)中的對(duì)應(yīng)實(shí)例中,并更新實(shí)例中該修正 詞句的翻譯結(jié)果。其中,步驟B還包括對(duì)待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即獲得其固有 的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動(dòng)辨認(rèn)出本體中 的對(duì)象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。其中,所述建立本體庫(kù),包括a、 本體建模,發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理;b、 為本體模型中各元素添加實(shí)例,即進(jìn)行語(yǔ)義標(biāo)注;c、 將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,進(jìn)行語(yǔ)義標(biāo)注;d、 通過(guò)智能推理優(yōu)化本體庫(kù)。 其中,步驟B還包括對(duì)于輸入到領(lǐng)域本體庫(kù)中不匹配的詞句,向用戶返回不匹配結(jié)果并提供用 戶的切詞輸入,在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫(kù)中進(jìn)行再次匹 配;所述不匹配包括切詞不匹配及翻譯實(shí)例中無(wú)匹配結(jié)果。其中,所述詞料庫(kù)、語(yǔ)料庫(kù)由自然語(yǔ)言數(shù)據(jù)庫(kù)訓(xùn)練而來(lái),所述自然語(yǔ)言數(shù) 據(jù)庫(kù)至少包括字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信息。其中,步驟A還可以為直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、 職位、單位名稱、聯(lián)系電話、傳真的信息。本發(fā)明通過(guò)采用信息量較少的名片作為自動(dòng)翻譯對(duì)象,翻譯難度相對(duì)較低, 處理好名片信息中的地址、單位名稱等翻譯問(wèn)題,即可實(shí)現(xiàn)名片信息的準(zhǔn)確翻 譯。本發(fā)明利用領(lǐng)域本體庫(kù)作為翻譯關(guān)系數(shù)據(jù)庫(kù),本體庫(kù)中的收錄的詞句均包 含有語(yǔ)義信息,可實(shí)現(xiàn)查詢?cè)~句的準(zhǔn)確匹配,由于本體庫(kù)中的實(shí)例信息等均是 可動(dòng)態(tài)維護(hù)的,因此,所提供的英文翻譯準(zhǔn)確率相當(dāng)高。本發(fā)明有較高的實(shí)用 性。
圖l為本體庫(kù)的建立流程圖;圖2為本體庫(kù)的結(jié)構(gòu)示意圖;圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法的流程圖; 圖4為本發(fā)明地址的語(yǔ)法分析結(jié)構(gòu)示意圖; 圖5為本發(fā)明戶名的語(yǔ)法分析結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。本體論起源于古代西方哲學(xué),自上個(gè)世紀(jì)八十年代起,本體論的思想被引 入人工智能領(lǐng)域,人們開(kāi)始逐步對(duì)現(xiàn)實(shí)世界進(jìn)行建模,從某個(gè)領(lǐng)域中抽象出概 念以及概念間關(guān)系的集合,即形成該領(lǐng)域的本體。本體有助于改變不同團(tuán)體或 系統(tǒng)對(duì)領(lǐng)域內(nèi)同 一概念釆用不同術(shù)語(yǔ)描述的狀況,因而被廣泛應(yīng)用在數(shù)字圖書 館,信息集成等諸多領(lǐng)域。在不同的應(yīng)用中,本體的定義是不同的,本發(fā)明中, 本體是基于知識(shí)共享的背景,是概念化的明確規(guī)約。本體通過(guò)對(duì)概念的嚴(yán)格定 義和概念之間的關(guān)系來(lái)確定概念的精確含義,以表示共同認(rèn)可的、可共享的知 識(shí)。因此把現(xiàn)實(shí)世界中某個(gè)應(yīng)用領(lǐng)域抽象或概括成一組概念及概念之間的關(guān)系, 構(gòu)造出這個(gè)領(lǐng)域的本體,會(huì)使計(jì)算機(jī)對(duì)該領(lǐng)域的信息處理大為方便。從而也解 決了詞句歧義的問(wèn)題。本體為特定領(lǐng)域的人和應(yīng)用系統(tǒng)的交流提供了 一種通用 的知識(shí)共享模式,使用本體技術(shù)可以更好的表達(dá)出事物之間特有的屬性,而事 物本身在本體中的就是以類的表現(xiàn)形式,而通過(guò)嚴(yán)格屬性的定義和提取,在系 統(tǒng)特定的領(lǐng)域之內(nèi),便提供了一個(gè)通用的,認(rèn)可的標(biāo)準(zhǔn),從而使系統(tǒng)在檢索查 詢對(duì)應(yīng)的詞匯時(shí),提高了準(zhǔn)確率和效率。作為領(lǐng)域本體,它是用于描述指定領(lǐng)域的一種專門本體。它給出了領(lǐng)域?qū)?體概念及相互關(guān)系,領(lǐng)域活動(dòng)以及該領(lǐng)域所具有的特征和規(guī)律的一種形式化描 述。從開(kāi)發(fā)者的角度看,領(lǐng)域本體定義了開(kāi)發(fā)者之間需要共享的領(lǐng)域信息的公 共詞匯;從系統(tǒng)的角度看,領(lǐng)域本體定義了能被機(jī)器理解的領(lǐng)域概念及其關(guān)系。如果把每一個(gè)知識(shí)領(lǐng)域抽象成一套概念體系,在具體化為一個(gè)詞表來(lái)表示,包 括每 一個(gè)詞的明確含義、詞與詞之間的關(guān)系以及該領(lǐng)域的 一 些公理知識(shí)的陳述 等,并且能夠與這個(gè)知識(shí)領(lǐng)域的專家達(dá)成某種共識(shí),即能共享這套詞表,所有這 些就構(gòu)成了該領(lǐng)域的 一 個(gè)本體。圖l為本體庫(kù)的建立流程圖,如圖l所示,本體庫(kù)的建立包括以下步驟 步驟101:本體建模。建模主要集中在領(lǐng)域知識(shí)的抽象表示上,即發(fā)現(xiàn)領(lǐng) 域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理等。對(duì)于領(lǐng)域中的實(shí)例,在 建模時(shí)一般不需要考慮它們,除非建模時(shí)就能確定該本體所涉及的所有實(shí)例。 實(shí)際上,通常的本體都具有一定的通用性,表示特定領(lǐng)域內(nèi)的知識(shí),但由于領(lǐng) 域內(nèi)可能的實(shí)例數(shù)目無(wú)窮無(wú)盡且動(dòng)態(tài)變化,因此,只有本體和一個(gè)具體的應(yīng)用 結(jié)合時(shí)考慮實(shí)例才有意義。即建立初步的以類、類屬性以及屬性值,建立一個(gè) 初步的本體模型。步驟102:為本體模型中各元素添加實(shí)例,即進(jìn)行語(yǔ)義標(biāo)注,該步驟可視 為豐富本體的過(guò)程。如果從語(yǔ)義Web的角度看,語(yǔ)義標(biāo)注便是語(yǔ)義信息的發(fā)布 過(guò)程用戶依據(jù)一定的本體,為頁(yè)面添加語(yǔ)義信息。然而,語(yǔ)義Web中的標(biāo)注 問(wèn)題由于受到多方面因素的影響,變得很復(fù)雜。語(yǔ)義Web上的語(yǔ)義信息能像頁(yè) 面本身的創(chuàng)建一樣,由用戶或權(quán)威機(jī)構(gòu)共同完成。對(duì)于涉及專業(yè)領(lǐng)域的本體可 由領(lǐng)域中的權(quán)威機(jī)構(gòu)統(tǒng)一制定。步驟103:將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,這正是語(yǔ) 義標(biāo)注(SemanticA皿otation)所要做的工作。和數(shù)據(jù)庫(kù)類比,語(yǔ)義標(biāo)注就如同 為建立好的數(shù)據(jù)庫(kù)表添加具體的紀(jì)錄。從語(yǔ)義Web的角度來(lái)看,在傳統(tǒng)Web 上添加語(yǔ)義信息,將Web的狀態(tài)從機(jī)器可讀提高到機(jī)器可理解,這是整個(gè)語(yǔ)義 Web實(shí)現(xiàn)的基礎(chǔ)。步驟104:通過(guò)智能推理優(yōu)化本體庫(kù)。語(yǔ)義標(biāo)注推動(dòng)了語(yǔ)義Web走向?qū)嶋H 應(yīng)用,智能Agent能夠根據(jù)Web上的語(yǔ)義信息實(shí)現(xiàn)智能推理任務(wù),并能提高信 息檢索的精確性。語(yǔ)義推理時(shí),要考慮命題的真假意義。這與人們通常推理的 習(xí)慣是一致的,因?yàn)樵谕评頃r(shí),人們自然或不自然地要考慮到所討論命題的真與假。比如,數(shù)學(xué)推理都是在假設(shè)前提為真的情況下,證明結(jié)論也為真。在證 明過(guò)程中,總是認(rèn)為命題非真即假,也就是說(shuō)推理是涉及命題語(yǔ)義的。命題的 真與假蘊(yùn)含著人們的思維。而計(jì)算機(jī)不具有思維能力。所以,涉及命題真值的 語(yǔ)義推理本身不適于作為計(jì)算機(jī)推理的算法。如果推理時(shí)不考慮命題的語(yǔ)義,僅注重符號(hào)化后命題(或公式)的形式,只要滿足某種形式,就可以得到某一 結(jié)論。由于計(jì)算機(jī)不具有判別命題真假的思維能力,而識(shí)別公式的形式卻是其 容易完成的工作。所以,語(yǔ)法推理作為計(jì)算機(jī)推理的理論基礎(chǔ)是非常自然的。 在所建立的推理規(guī)則系統(tǒng)之上,通過(guò)識(shí)別、判定公式的形式而展開(kāi)的語(yǔ)法推理 是最適合計(jì)算機(jī)推理的方法。在研究推理方面,還沒(méi)有其他方法比語(yǔ)法推理的 思想更能被計(jì)算機(jī)所接受。因此,語(yǔ)法推理是智能推理研究的一種有效方法。 本發(fā)明的本體庫(kù)優(yōu)化方式即采用語(yǔ)法推理的方式來(lái)實(shí)現(xiàn),實(shí)現(xiàn)的手段有很多種, 這里不再一一舉例說(shuō)明。需要指出的是,步驟104是一種本體庫(kù)維護(hù)手段,在所建立本體庫(kù)的基礎(chǔ)上實(shí)現(xiàn)的一種優(yōu)化,這種優(yōu)化是非常謹(jǐn)慎的一種維護(hù)。以下以地點(diǎn)這一主體,說(shuō)明基于圖1所示流程建立本體庫(kù)是如何實(shí)現(xiàn)的。 當(dāng)然,這里的示例僅為說(shuō)明性的,不是對(duì)本發(fā)明本體庫(kù)建立的限制。圖2為本體庫(kù)的結(jié)構(gòu)示意圖,如圖2所示,本體庫(kù)是一種基于關(guān)聯(lián)關(guān)系建 立起來(lái)的一種關(guān)系數(shù)據(jù)庫(kù),這種關(guān)聯(lián)關(guān)系是基于語(yǔ)義的任何關(guān)聯(lián)關(guān)系,例如, 對(duì)于一個(gè)地點(diǎn),與其關(guān)聯(lián)的信息可能包括該地點(diǎn)所屬的地理區(qū)域,其電話是什 么,郵編是什么,該地點(diǎn)屬于囯家單位、企業(yè)還是學(xué)校等,該地點(diǎn)周邊設(shè)施是 什么、有哪些等,該地點(diǎn)的標(biāo)識(shí)是什么?確切的地址是什么?與所述地點(diǎn)相關(guān) 的信息還會(huì)有其他的關(guān)聯(lián)關(guān)系,例如說(shuō)對(duì)于上述地點(diǎn)的郵編,共用這些郵編的 地址還有哪些,各是什么等,與上述地點(diǎn)電話號(hào)碼相關(guān)的任何其他信息,也與 上述的電話號(hào)碼有關(guān)聯(lián)關(guān)系。圖2所示的本體的描述僅是說(shuō)明性的一般描述, 并不意味著對(duì)本體的限定。所以使用本體技術(shù)后,當(dāng)計(jì)算機(jī)進(jìn)行信息查詢的時(shí),會(huì)通過(guò)其附帶的大量 的語(yǔ)義信息,增加了匹配成功的機(jī)會(huì),也就由此提高了準(zhǔn)確率。本發(fā)明的名片信息翻譯方法,正是基于領(lǐng)域本體庫(kù)進(jìn)行的,特別是名片中 地址及戶名信息的翻譯,以下詳細(xì)介紹之。圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法的流程圖,如 圖3所示,本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法包括以下步驟:步驟201:為名片中所包括信息建立領(lǐng)域本體庫(kù)及翻譯本體庫(kù)。如前述的 那樣,領(lǐng)域本體庫(kù)是一種關(guān)系數(shù)據(jù)庫(kù),其中,所述領(lǐng)域本體庫(kù)中至少包括地址 領(lǐng)域類、戶名領(lǐng)域類、單位名稱類。以下詳細(xì)介紹本發(fā)明的領(lǐng)域本體模型的構(gòu) 成。由領(lǐng)域中的術(shù)語(yǔ)組成的詞典是一個(gè)領(lǐng)域上的分類空間,其目的為了概念的 導(dǎo)航、搜索、信息獲取。而分類空間的語(yǔ)義很弱,刻畫了概念化的術(shù)語(yǔ)的簡(jiǎn)單 的語(yǔ)義關(guān)系,沒(méi)有捕獲和表現(xiàn)復(fù)雜的語(yǔ)義概念,本發(fā)明試圖表達(dá)精確的、復(fù)雜 的、 一致的、豐富的概念語(yǔ)義。構(gòu)建領(lǐng)域本體,要使用本體建模元語(yǔ),把領(lǐng)域 詞典映射到本體概念體系中。本體中,類是一種經(jīng)過(guò)組織的結(jié)構(gòu)化的知識(shí)表示 方法,每個(gè)類形成一個(gè)獨(dú)立的知識(shí)單元,類表示對(duì)知識(shí)的描述很直觀,能反映對(duì)地址和戶名進(jìn)行語(yǔ)法分析,需要了解二者的組成和結(jié)構(gòu)。確定構(gòu)成地址 及戶名各個(gè)組成部分在地址戶名中的關(guān)系,以及各自在地址及戶名中的作用。 并將這種關(guān)系和作用利用適合在本體模型中的層次結(jié)構(gòu)加以表示。這里,地址 和戶名的信息來(lái)自于字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信 息,信息來(lái)源愈廣,本體庫(kù)中提取的語(yǔ)義愈豐富,因此, 一切具有語(yǔ)義訓(xùn)練的 素材均作為本體庫(kù)的元素。圖4為本發(fā)明地址的語(yǔ)法分析結(jié)構(gòu)示意圖,如圖4所示,地址是由一個(gè)或 者一個(gè)以上的獨(dú)立的地址小節(jié)即子地址(sa, sub address )組成。地址小節(jié)由一 個(gè)地址前綴(av, address vocabulary )詞匯和 一 個(gè)地址分割符(as, address segmentation)組成。本發(fā)明中,地址、地址小節(jié)、地址前綴和地址分割符的組 成關(guān)系可概括為地址前綴>地址分割符>地址小節(jié)>地址。為了直觀的描述問(wèn) 題,在此給出典型的分析例句。針對(duì)地址"山東省日照巿海曲路88號(hào)"的語(yǔ)法分析為"[山東/av省/as]/sa[日照/av市/as]/sa[海曲/av路/as]/sa[88/av號(hào)/as]/sa"。 本發(fā)明中,地址、地址小節(jié)、地址前綴和地址分割符即是地址領(lǐng)域的類。圖5為本發(fā)明戶名的語(yǔ)法分析結(jié)構(gòu)示意圖,如圖5所示,戶名是由一個(gè)主 戶名(name)加上O個(gè)或者多個(gè)子戶名(sub name)組成。子戶名由三部分組 成地址標(biāo)識(shí)(al, address label )、戶名自定義稱謂(si , self label)和戶名標(biāo) 識(shí)(name label )。所以戶名的組成關(guān)系可概括為地址標(biāo)示>地址自定義稱謂> 戶名標(biāo)識(shí)>子戶名>戶名。為了直觀的描述問(wèn)題,在此給出戶名典型的分析例句。 針對(duì)戶名"北京郵電大學(xué)"的語(yǔ)法分析為"北京al郵電sl大學(xué)nl"。地址標(biāo)識(shí)、 戶名自定義稱謂和戶名標(biāo)識(shí)是戶名領(lǐng)域的類。其中, 一個(gè)完整的地址是由一個(gè)或一個(gè)以上的地址字節(jié)組成,而每個(gè)地址 字節(jié)又是有一個(gè)或者一個(gè)以上的地址分隔符和地址前綴組成。 一個(gè)地址分隔符 必須具備一個(gè)地址前綴,所以二者之間具有約東的關(guān)系。即為must—have關(guān)系。為地址前綴、地址分割符、地址小節(jié)、地址標(biāo)示、地址自定義稱謂、戶名 標(biāo)識(shí)以及子戶名設(shè)置屬性,并設(shè)置屬性值。這些屬性值是通過(guò)現(xiàn)有語(yǔ)料庫(kù)進(jìn)行 訓(xùn)練所得的語(yǔ)義關(guān)聯(lián)關(guān)系。關(guān)于屬性值,需要利用對(duì)本體的自動(dòng)推理來(lái)獲得, 主要就是依靠為每一個(gè)類建立的固有的屬性,成為與其他類區(qū)分的特性,通過(guò) 推理機(jī),利用特有的屬性可以自動(dòng)的辨認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類,從 而自動(dòng)起到分析推理的作用。本發(fā)明的領(lǐng)域本體庫(kù)中存儲(chǔ)了上述的具有語(yǔ)義關(guān) 聯(lián)的地址項(xiàng),所述地址項(xiàng)由領(lǐng)域本體庫(kù)的開(kāi)發(fā)人員輸入,并建立它們之間的語(yǔ) 義關(guān)聯(lián)關(guān)系,這些地址項(xiàng)足夠多,對(duì)于符合前述語(yǔ)義分析的,按前述方式存儲(chǔ) 即可,而對(duì)于特殊的地址項(xiàng),作為新的地址項(xiàng),存儲(chǔ)到領(lǐng)域本體庫(kù)中,同時(shí)建 立該存儲(chǔ)地址項(xiàng)的語(yǔ)義關(guān)聯(lián)項(xiàng)。對(duì)于地址前綴、地址分割符、地址小節(jié)、地址 標(biāo)示、地址自定義稱謂、戶名標(biāo)識(shí)以及子戶名,本發(fā)明還為其設(shè)置相應(yīng)的實(shí)例, 即記載其語(yǔ)義相關(guān)的信息,例如,對(duì)于"北京郵電大學(xué)"這一戶名,還有"北 京海淀西土城路10號(hào)"電話號(hào)碼"010- 62283100"等多項(xiàng)信息與其語(yǔ)義關(guān)聯(lián)。 這些地址項(xiàng)下的實(shí)例有助于實(shí)現(xiàn)語(yǔ)義的檢索,以及驗(yàn)證領(lǐng)域本體中所收錄信息 的準(zhǔn)確性。對(duì)于單位名稱類同樣以所收集到的所有單位名稱作為其元素,同時(shí)建立單 位名稱的語(yǔ)義關(guān)聯(lián)關(guān)系,即為每個(gè)單位名稱建立實(shí)例,例如單位簡(jiǎn)介、單位的地址、聯(lián)系方式等信息。領(lǐng)域本體庫(kù)中不僅包括完整的地址、戶名及單位名稱等,還包括核心詞句項(xiàng),如北京、主要省巿、各大學(xué)名稱、各囯家機(jī)關(guān)名稱等,也就是說(shuō),建立的 領(lǐng)域本體庫(kù)所搜集的信息量愈大,其功用就愈強(qiáng),本發(fā)明所獲得的翻譯結(jié)果也更準(zhǔn)確。本發(fā)明的本體庫(kù)可通過(guò)prot6g6 2000來(lái)建立。prot6g6 2000是斯坦福 大學(xué)的Stanford Medical Informatics開(kāi)發(fā)的一個(gè)開(kāi)放源碼的本體編輯器,其由 Java編寫。本發(fā)明在prot6g6 2000的基礎(chǔ)上,結(jié)合前述的本體建立方法,建 立本發(fā)明的領(lǐng)域本體庫(kù)。建立領(lǐng)域本體庫(kù)后,還需要建立翻譯本體庫(kù),以實(shí)現(xiàn)對(duì)領(lǐng)域本體庫(kù)的支持。 翻譯本體庫(kù)以英漢互譯詞典、各種英漢互譯的語(yǔ)法規(guī)則為輸入語(yǔ)料庫(kù),建立漢語(yǔ)翻譯的翻譯本體庫(kù),以實(shí)現(xiàn)對(duì)前述領(lǐng)域本體庫(kù)的支持,也即在前述領(lǐng)域本體 庫(kù)中增加了各類元素的英文語(yǔ)義項(xiàng),建立了英漢互相關(guān)聯(lián)的關(guān)系。本發(fā)明的翻 譯本體庫(kù)包括基礎(chǔ)詞匯庫(kù)和臨時(shí)詞匯庫(kù),基礎(chǔ)詞匯庫(kù)用于翻譯時(shí)查詢,臨時(shí)詞 匯庫(kù)用于只有查詢權(quán)限使用人員添加詞匯,經(jīng)管理員確認(rèn)才能導(dǎo)入基礎(chǔ)詞匯庫(kù), 以實(shí)現(xiàn)對(duì)翻譯本體庫(kù)的動(dòng)態(tài)維護(hù)。步驟202:向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵 編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入。為了提高本 發(fā)明翻譯結(jié)果的準(zhǔn)確程度,需向用戶提供帶有一定輸入要求的界面,即向用戶 說(shuō)明哪里是地址輸入接口,哪里是郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系 電話、傳真的輸入接口。用戶名片信息的輸入也可以直接輸入電子名片信息, 直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片,然后直接提取聯(lián)系地址、郵編、聯(lián)系人名 稱、職位、單位名稱、聯(lián)系電話、傳真的信息;步驟203:獲取用戶輸入的參數(shù)值,進(jìn)行切分和語(yǔ)法分析,進(jìn)行匹配翻譯。 對(duì)于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字參數(shù)不譯。對(duì)于用戶輸入的阿拉伯?dāng)?shù)字,無(wú)需翻譯,僅將郵編、聯(lián)系電話、傳真等詞匯進(jìn)行 翻譯即可,因此,上述詞匯的翻譯準(zhǔn)確率是完全可以保證的,也不是名片信息 翻譯的重點(diǎn)。對(duì)于聯(lián)系人名稱,判斷是否為漢語(yǔ)輸入,若是漢語(yǔ)輸入,則對(duì)輸 入的姓名按姓和名進(jìn)行切詞,并將用戶的名輸入到翻譯本體庫(kù)中進(jìn)行匹配,若 有匹配項(xiàng),則按匹配項(xiàng)翻譯為英文,若沒(méi)有匹配項(xiàng),則譯為拼音,若不是漢語(yǔ) 輸入則不譯。對(duì)于聯(lián)系人的姓名,由于漢語(yǔ)名片針對(duì)的基本全是漢語(yǔ)名稱,可 直接將其譯為拼音,對(duì)于一些外文直譯的名稱如約翰、湯姆、瑪麗等名稱,翻 譯為相應(yīng)的英文。對(duì)于非漢語(yǔ)輸入的信息,直接輸出。對(duì)于職位,則直接輸入 到翻譯本體庫(kù)進(jìn)行匹配,若匹配則將對(duì)應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻 譯為漢語(yǔ)拼音。對(duì)于職位,仍然只是詞匯的翻譯,因此準(zhǔn)確率也比較高,并且 也沒(méi)有技術(shù)難度,匹配出直譯即可,本發(fā)明借助翻譯本體庫(kù),可以實(shí)現(xiàn)語(yǔ)義的 檢索匹配,翻譯結(jié)果出錯(cuò)率大大降低,準(zhǔn)確率相當(dāng)高。對(duì)于單位名稱則輸入到 單位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語(yǔ)拼音 作為翻譯結(jié)果。單位名稱也具有特殊性, 一般包括公司、機(jī)關(guān)、大學(xué)等,通過(guò) 對(duì)其建立本體庫(kù),基本可實(shí)現(xiàn)準(zhǔn)確匹配,只要對(duì)單位名稱本體庫(kù)維護(hù)及時(shí),翻 譯準(zhǔn)確率也是可以保證的。沒(méi)有匹配項(xiàng)或其中的詞匯沒(méi)有匹配項(xiàng)的,以漢語(yǔ)拼 音作為其翻譯結(jié)果。對(duì)于名片信息翻譯而言,聯(lián)系地址無(wú)疑是其中語(yǔ)義最多, 需要切詞并進(jìn)行語(yǔ)法分析的,因此是整個(gè)名片信息翻譯的重點(diǎn)。對(duì)于聯(lián)系地址, 則以用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類 進(jìn)行匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名 稱進(jìn)行切詞,再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng) 域本體庫(kù)進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢 語(yǔ)拼音,根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯。本發(fā)明中,對(duì)待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即 獲得其固有的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動(dòng)辨 認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。本發(fā)明匹配過(guò)程可采用Racer Pro推理機(jī)實(shí)現(xiàn)。以下通過(guò)一個(gè)示例說(shuō)明本 發(fā)明的原理,定義A—個(gè)個(gè)體a, A有屬性(比如說(shuō)eat) allvaluefromB,則可 以推理出類B的實(shí)例b, a (eat) b。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的推 理過(guò)程是為了更好地實(shí)現(xiàn)本發(fā)明的匹配過(guò)程,以確定待匹配信息的準(zhǔn)確分類, 以迅速準(zhǔn)確地實(shí)現(xiàn)對(duì)其的匹配。地址信息中, 一般都包括有地址標(biāo)志性詞匯、帶有這些標(biāo)志性詞匯的常用 詞匯。地址標(biāo)志性詞匯如省、巿、路、區(qū)、縣等。包含這些標(biāo)志性詞匯的常用 詞匯如省政府、巿政府等。還有一些直接以信箱作為聯(lián)系地址的,如北京巿128 信箱等。切詞即是按語(yǔ)法規(guī)則實(shí)現(xiàn)準(zhǔn)確斷句,把一個(gè)大名稱分成不可再分的子 名稱,如中國(guó)銀行北京分行皂君廟支行,其中,用公司即可分割這個(gè)大名稱為 中國(guó)銀行、北京分行、皂君廟支行。名詞的切割,離不開(kāi)領(lǐng)域本體庫(kù),例如前 述的中國(guó)銀行,之所以沒(méi)有將其切分為中國(guó)+銀行,是因?yàn)轭I(lǐng)域本體庫(kù)中的地 址項(xiàng)中,根據(jù)語(yǔ)義關(guān)聯(lián)的特征,可明確地識(shí)別出"中國(guó)銀行"的字眼。對(duì)于切 割后的地址名稱,進(jìn)行逐個(gè)匹配,匹配成功則查找出其對(duì)應(yīng)的英語(yǔ)實(shí)例,得到 該切割詞的英文翻譯結(jié)果,對(duì)于未匹配的切割詞,可返回用戶處確認(rèn)切割詞的 結(jié)果,在錯(cuò)誤時(shí)由用戶進(jìn)行修正,以修正后的結(jié)果重新進(jìn)行匹配。最后將所接 受的修正結(jié)果更新到領(lǐng)域本體庫(kù)。對(duì)于小名稱, 一般格式為地址標(biāo)識(shí)+公司名稱+公司性質(zhì)。如北京郵電大 學(xué),即可用地址名前向匹配北京,用公司性質(zhì)匹配大學(xué),留下名稱,若在字庫(kù) 中找到,則翻譯為英文,否則用拼音代替,若該名稱長(zhǎng)度大于4,則認(rèn)為翻譯 正確度不為100%。維護(hù)的關(guān)鍵點(diǎn)在于公司性質(zhì)的添加。為保證翻譯的準(zhǔn)確度,在進(jìn)行地址切詞后,可返回切詞結(jié)果,由用戶確認(rèn), 在用戶確認(rèn)或修正后再進(jìn)行匹配檢索。當(dāng)所有的切割分詞翻譯結(jié)果返回后,根據(jù)切詞獲知待翻譯地址的語(yǔ)法結(jié)構(gòu), 根據(jù)設(shè)定的語(yǔ)法翻譯規(guī)則翻譯所述地址。本發(fā)明僅建立地址的語(yǔ)法規(guī)則本體庫(kù) 即可。以下以"北京巿西土城路十號(hào)"為例說(shuō)明本發(fā)明的翻譯過(guò)程。采用從前到后最大匹配的方法進(jìn)行匹配。如"北京巿西土城路十號(hào)",如果沒(méi)有匹配到詞典 中的詞匯,則進(jìn)行分詞處理。將兩個(gè)字放一塊作為一個(gè)詞,然后"巿"進(jìn)行匹 配,但是"巿西"沒(méi)有匹配到則將"市"作為一個(gè)詞匯,同理上述地址可分詞 為"北京市西土城路十號(hào)"。根據(jù)領(lǐng)域本體庫(kù)的語(yǔ)義關(guān)聯(lián)關(guān)系,對(duì)這 些切詞結(jié)果進(jìn)行處理,查找到"巿"為地址分割符后,則將"北京巿"作為切 割詞,對(duì)于"路",也是地址分割符,則將"西土城路"作為切割詞,同理,"十 號(hào)"也會(huì)作為切割詞,當(dāng)然,如果多字含義的整體詞出現(xiàn)時(shí)如"北京郵電大學(xué)", 不會(huì)切割為"北京郵電大學(xué)",根據(jù)領(lǐng)域本體庫(kù)的特點(diǎn),將很容易識(shí)別為一個(gè) 整體詞并直接將其對(duì)應(yīng)的英文作為譯文輸出,對(duì)于地址項(xiàng)中的數(shù)字,則會(huì)連續(xù) 去查找數(shù)字,直到把連續(xù)的幾個(gè)數(shù)字找出來(lái),作為一個(gè)詞匯。如"北京巿西土 城路十號(hào)二十九樓",當(dāng)看到"二"時(shí),會(huì)連接把"十九"找出來(lái),將"二十九" 作為一個(gè)詞。根據(jù)上文定義的類和屬性,以及類之間的關(guān)系,對(duì)已經(jīng)分好的詞匯進(jìn)行分 析,對(duì)于違反語(yǔ)法規(guī)則的進(jìn)行調(diào)整使其符合語(yǔ)法規(guī)則。對(duì)于每個(gè)分詞用以下結(jié)構(gòu)來(lái)標(biāo)注 Type DivWordword As String 〃分出的詞匯wType As Byte 〃詞匯類別property as Byte 〃屬性 End Type其中根據(jù)上文定義的本體類的屬性,wType由以下值 Public Const ADDR_DIV—WORD As Byte = 1 〃地址分割符 Public Const ADDR—WORD As Byte = 2 〃地址前綴 針對(duì)上邊兩種詞匯類別又有不同的屬性對(duì)應(yīng)之。對(duì)于地址分割符,有地址 前綴后置(property二 1),比如"五號(hào)"翻譯為"No.5"即把5放到地址分割符"No." 的后面。對(duì)于地址前綴,有英文詞匯對(duì)照的中文地址詞匯則property=l;未找 到需翻譯為拼音的詞匯則property=2;如果發(fā)現(xiàn)是數(shù)字則property=5。然后采用按照規(guī)則進(jìn)行調(diào)整,如果發(fā)現(xiàn)兩個(gè)地址分割符是相鄰的則說(shuō)明是 不符合語(yǔ)法規(guī)則的需要進(jìn)行調(diào)整。則查看后面的那個(gè)地址分割符的信息,對(duì)于 pr0perty=2的地址分割符,則直接忽略上一個(gè)地址,否則把上一個(gè)地址分割符 修改為拼音詞匯即令wtype = ADDR—WORD。例如"二十九號(hào)樓",對(duì)于這個(gè)來(lái) 說(shuō)分成"二十九號(hào)樓",發(fā)現(xiàn)"號(hào)""樓"都是地址分割符,則需要看樓的 屬性,如果為2,則忽略"號(hào)"按照"二十九樓"翻譯,否則把"號(hào)"作為拼 音來(lái)翻譯。步驟204:輸出翻譯結(jié)果并接收用戶的修訂,將修訂結(jié)果存儲(chǔ)到指定數(shù)據(jù) 庫(kù)中。將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、 傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶 修正的詞句結(jié)果保存數(shù)據(jù)庫(kù)中。即將步驟203中的翻譯結(jié)果輸出給用戶,用戶 根據(jù)輸出結(jié)果進(jìn)行相應(yīng)修訂,對(duì)用戶所作的修訂進(jìn)行存儲(chǔ),以作為新的語(yǔ)料, 有待用戶根據(jù)這些新語(yǔ)料對(duì)本體庫(kù)作進(jìn)一步的維護(hù)。以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法,其特征在于,以詞料庫(kù)、語(yǔ)料庫(kù)為基礎(chǔ),為名片中所包括信息建立領(lǐng)域本體庫(kù),所述領(lǐng)域本體庫(kù)中至少包括地址領(lǐng)域類、戶名領(lǐng)域類、單位名稱類,其中,所述聯(lián)系地址類至少包括地址分割符、前綴詞匯、地址小節(jié)和地址,為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值,同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例;所述戶名領(lǐng)域類至少包括地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名、戶名,為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名設(shè)置屬性及屬性值,同時(shí)為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名建立實(shí)例;所述屬性及屬性值是依據(jù)所述詞料庫(kù)、語(yǔ)料庫(kù)訓(xùn)練而得到的語(yǔ)義而設(shè)置的;單位名稱類是收集單位名稱,并建立之間的語(yǔ)義聯(lián)系;即領(lǐng)域本體庫(kù)是基于語(yǔ)義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫(kù);以英漢詞典、漢英詞典和漢英語(yǔ)法規(guī)則建立單詞、詞句的語(yǔ)法翻譯實(shí)例,同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫(kù)中的各元素所建立實(shí)例之間的對(duì)應(yīng)關(guān)系;該方法還包括以下步驟A、向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入;B、獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的參數(shù)值,對(duì)于郵編、聯(lián)系電話、傳真的信息,進(jìn)行直譯,用戶輸入的數(shù)字參數(shù)不譯;對(duì)于聯(lián)系人名稱,判斷是否為漢語(yǔ),若是按名和姓進(jìn)行切分,查找所述翻譯本體庫(kù)是否有匹配的名,若有則譯為相應(yīng)英文,否則譯為拼音,如果不是漢語(yǔ)則不譯;對(duì)于職位,則直接輸入到翻譯本體庫(kù)進(jìn)行匹配,若匹配則將對(duì)應(yīng)的英文翻譯作為輸出,不匹配時(shí)則翻譯為漢語(yǔ)拼音;對(duì)于聯(lián)系地址,則以用戶輸入的參數(shù)值為查詢條件,在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行匹配,若存在匹配項(xiàng),則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名稱進(jìn)行切詞,再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例,再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯;若不存在匹配項(xiàng),則直接進(jìn)行切詞,將每個(gè)切詞輸入到領(lǐng)域本體庫(kù)進(jìn)行匹配,若匹配則獲得每個(gè)切詞的翻譯結(jié)果,若不匹配則翻譯為漢語(yǔ)拼音,根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯;對(duì)于單位名稱則輸入到單位名稱類中進(jìn)行匹配,匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯,否則以漢語(yǔ)拼音作為翻譯結(jié)果;C、將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸出,并接收用戶的修正,修正結(jié)果作為翻譯結(jié)果輸出;則將用戶修正的詞句結(jié)果保存到翻譯本體庫(kù)中的對(duì)應(yīng)實(shí)例中,并更新實(shí)例中該修正詞句的翻譯結(jié)果。
2、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法, 其特征在于,步驟B還包括對(duì)待檢索信息進(jìn)行匹配時(shí),獲取所述待檢索信息的屬性值,即獲得其固有 的屬性,根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理,以自動(dòng)辨認(rèn)出本體中 的對(duì)象具體屬于哪個(gè)類,可以在所確定的較明確的分類中完成準(zhǔn)確搜索。
3、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法, 其特征在于,所述建立本體庫(kù),包括a、 本體建模,發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理;b、 為本體模型中各元素添加實(shí)例,即進(jìn)行語(yǔ)義標(biāo)注;c、 將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系,進(jìn)行語(yǔ)義標(biāo)注;d、 通過(guò)智能推理優(yōu)化本體庫(kù)。
4、 根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法, 其特征在于,步驟B還包括對(duì)于輸入到領(lǐng)域本體庫(kù)中不匹配的詞句,向用戶返回不匹配結(jié)果并提供用 戶的切詞輸入,在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫(kù)中進(jìn)行再次匹 配;所述不匹配包括切詞不匹配及翻譯實(shí)例中無(wú)匹配結(jié)果。
5、 根據(jù)權(quán)利要求1所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法, 其特征在于,所述詞料庫(kù)、語(yǔ)料庫(kù)由自然語(yǔ)言數(shù)據(jù)庫(kù)訓(xùn)練而來(lái),所述自然語(yǔ)言 數(shù)據(jù)庫(kù)至少包括字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信息。6、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法, 其特征在于,步驟A還可以為直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、 職位、單位名稱、聯(lián)系電話、傳真的信息。
全文摘要
本發(fā)明公開(kāi)了一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法,包括為名片中所包括信息建立領(lǐng)域本體庫(kù)及翻譯本體庫(kù);向用戶提供名片信息輸入界面,接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入,或直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片,提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息;獲取用戶輸入的參數(shù)值,進(jìn)行切分和語(yǔ)法分析,進(jìn)行匹配翻譯;以及輸出翻譯結(jié)果并接收用戶的修訂,將修訂結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。本發(fā)明所提供的英文翻譯準(zhǔn)確率相當(dāng)高,實(shí)用性強(qiáng)。
文檔編號(hào)G06F17/28GK101216819SQ20071030451
公開(kāi)日2008年7月9日 申請(qǐng)日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者孟祥武, 張玉潔 申請(qǐng)人:北京郵電大學(xué)