基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法

文檔序號(hào)：6615758閱讀：235來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種基于本體的翻譯方法，尤其涉及一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法。
背景技術(shù)：
機(jī)器翻譯涉及到語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知心理學(xué)等多種學(xué)科，是計(jì)算語(yǔ) 言學(xué)中非常重要的分支。但它在語(yǔ)言學(xué)和計(jì)算機(jī)實(shí)現(xiàn)方面都存在著一些尚待解決的難題，比如自然語(yǔ)言的多義問(wèn)題、譯文的詞序問(wèn)題、介詞處理問(wèn)題、上下文的關(guān)聯(lián)問(wèn)題、機(jī)器翻譯所需知識(shí)的獲取和表達(dá)及中譯外機(jī)器翻譯的漢語(yǔ)分詞歧義等問(wèn)題。這些問(wèn)題依然限制著譯文的質(zhì)量，也不是用規(guī)則能夠完全解決的, 因而使機(jī)器翻譯的結(jié)果難以令人滿意。特別是漢語(yǔ)的機(jī)器翻譯，存在的問(wèn)題相當(dāng)多。漢語(yǔ)和許多印歐語(yǔ)系語(yǔ)言不同，漢語(yǔ)在詞形上屬于孤立語(yǔ)，釆用連續(xù)書寫形式，詞與詞之間無(wú)自然界限，無(wú)詞尾形式標(biāo)志，無(wú)形態(tài)變化，這種"三無(wú)"現(xiàn)象使得人們?cè)陂喿x時(shí)要借助大腦思維切分詞語(yǔ)，而用計(jì)算機(jī)理解和處理書面漢語(yǔ)時(shí)，就必須先進(jìn)行自動(dòng)切分詞語(yǔ)的工作，而漢語(yǔ)語(yǔ)義及結(jié)構(gòu)上的復(fù)雜性與多變性和"三無(wú)"現(xiàn)象的存在，給漢語(yǔ)自動(dòng)分詞帶來(lái)了極大困難。我國(guó)中文信息處理發(fā)展己經(jīng)經(jīng)過(guò)了很多年，但是關(guān)于"詞"如何進(jìn)行抽象定義和判定的問(wèn)題到現(xiàn)在也沒(méi)有很好的解決。雖然我國(guó)已制定了《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》，但仍然有一些情況很難判斷。自80年代初提出漢語(yǔ)自動(dòng)分詞以來(lái)，已經(jīng)研究出了許多分詞方法。如最大匹配MM方法、RMM方法、逐詞遍歷法、設(shè)立切分標(biāo)記法、OM方法、有窮多層次列舉法、二次掃描法、基于詞頻統(tǒng)計(jì)的分詞方法、基于期望的分詞方法、雙向掃描法、鄰接約束法、最少分詞詞頻選擇方法、神經(jīng)元網(wǎng)絡(luò)方法等。這些方法對(duì)常規(guī)句子的處理，一般具有很高的精度，但在處理歧義切分方面，都存在明顯的缺陷。歧義切分是漢語(yǔ)分詞中不可避免的現(xiàn)象，也是自然語(yǔ)言處理中的一個(gè)難點(diǎn)。另外，中文的使用習(xí)慣會(huì)產(chǎn)生大量的信息省略，這是一種信息損失。會(huì)導(dǎo)致誤解以及錯(cuò)誤的傳播，而當(dāng)中文翻譯為英文的時(shí)候，由于二者之間有很多語(yǔ)法上得差異，所以為了保證翻譯的正確率和完整性，必須要找回這些信息損失，而要想找回這些損失的信息，必須具備大量的知識(shí)儲(chǔ)備，而計(jì)算機(jī) 并不具備，因而它們無(wú)法準(zhǔn)確的理解文本所要表達(dá)的信息，所以建立在這種錯(cuò) 誤理解基礎(chǔ)上的翻譯必然會(huì)大打折扣。在翻譯系統(tǒng)中最重要的就是檢索匹配，只要保持高的檢索匹配正確率，才能提高翻譯的準(zhǔn)確率，而通常的檢索方法釆用的是詞形匹配，而不是語(yǔ)義匹配。這樣自然會(huì)降低檢索的準(zhǔn)確率。產(chǎn)生這些問(wèn)題的根源在于這種詞形查詢對(duì)于計(jì)算機(jī)而言沒(méi)有任何含義，或者說(shuō)沒(méi)有語(yǔ)義，因而檢索的結(jié)果不能完全滿足用戶檢索的意圖。另外，自然語(yǔ)言是一種不斷發(fā)展、不斷變化、約定俗成的交流工具，因而具有很大的隨意性。將這些千變?nèi)f化的現(xiàn)象條理化，以有限的規(guī)則來(lái)應(yīng)付無(wú)邊無(wú)際的自然語(yǔ)言，也很難實(shí)現(xiàn)信息的準(zhǔn)確翻譯。特別是，很多語(yǔ)句需要借助上、下文的關(guān)聯(lián)信息才能進(jìn)行，這些都是造成機(jī)器翻譯不準(zhǔn)確的因素，因此，目前，雖然機(jī)器翻譯技術(shù)可以部分幫助人們完成一些翻譯工作，但這些幫助都相當(dāng)有限。發(fā)明內(nèi)容有鑒于此，本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，能提供準(zhǔn)確的名片信息翻譯，非常實(shí)用。為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，以詞料庫(kù)、語(yǔ)料庫(kù)為基礎(chǔ)，為名片中所包括信息建立領(lǐng)域本體庫(kù)，所述領(lǐng)域本體庫(kù)中至少包括地址領(lǐng)域類、戶名領(lǐng)域類、單位名稱類，其中，所述聯(lián)系地址類至少包括地址分割符、前綴詞匯、地址小節(jié)和地址，為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值，同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例；所述戶名領(lǐng)域類至少包括地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名、戶名，為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名設(shè)置屬性及屬性值，同時(shí)為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名建立實(shí)例；所述屬性及屬性值是依據(jù)所述詞料庫(kù)、語(yǔ)料庫(kù)訓(xùn)練而得到的語(yǔ)義而設(shè)置的；單位名稱類是收集單位名稱，并建立之間的語(yǔ)義聯(lián)系；即領(lǐng)域本體庫(kù)是基于語(yǔ)義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫(kù)；以英漢詞典、漢英詞典和漢英語(yǔ)法規(guī)則建立單詞、詞句的語(yǔ)法翻譯實(shí)例，同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫(kù)中的各元素所建立實(shí)例之間的對(duì)應(yīng)關(guān)系；該方法還包括以下步驟A、向用戶提供名片信息輸入界面，接收用戶名片的聯(lián)系地址、郵編、聯(lián) 系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入；B、獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的參數(shù)值，對(duì)于郵編、聯(lián)系電話、傳真的信息，進(jìn)行直譯，用戶輸入的數(shù)字參數(shù)不譯；對(duì)于聯(lián)系人名稱，判斷是否為漢語(yǔ)，若是按名和姓進(jìn)行切分，查找所述翻譯本體庫(kù)是否有匹配的名，若有則譯為相應(yīng)英文，否則譯為拼音，如果不是漢語(yǔ)則不譯；對(duì)于職位，則直接輸入到翻譯本體庫(kù)進(jìn)行匹配，若匹配則將對(duì)應(yīng)的英文翻譯作為輸出，不匹配時(shí)則翻譯為漢語(yǔ)拼音；對(duì)于聯(lián)系地址，則以用戶輸入的參數(shù)值為查詢條件，在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行匹配，若存在匹配項(xiàng)，則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名稱進(jìn) 行切詞，再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例，再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯；若不存在匹配項(xiàng)，則直接進(jìn)行切詞，將每個(gè)切詞輸入到領(lǐng)域本體庫(kù)進(jìn)行匹配，若匹配則獲得每個(gè)切詞的翻譯結(jié)果，若不匹配則翻譯為漢語(yǔ)拼音，根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯；對(duì)于單位名稱則輸入到單位名稱類中進(jìn)行匹配，匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯，否則以漢語(yǔ)拼音作為翻譯結(jié)果；C、將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸出，并接收用戶的修正，修正結(jié)果作為翻譯結(jié)果輸出；則將用戶修正的詞句結(jié)果保存到翻譯本體庫(kù)中的對(duì)應(yīng)實(shí)例中，并更新實(shí)例中該修正詞句的翻譯結(jié)果。其中，步驟B還包括對(duì)待檢索信息進(jìn)行匹配時(shí)，獲取所述待檢索信息的屬性值，即獲得其固有的屬性，根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理，以自動(dòng)辨認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類，可以在所確定的較明確的分類中完成準(zhǔn)確搜索。其中，所述建立本體庫(kù)，包括a、本體建模，發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理；b、為本體模型中各元素添加實(shí)例，即進(jìn)行語(yǔ)義標(biāo)注；c、將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系，進(jìn)行語(yǔ)義標(biāo)注；d、通過(guò)智能推理優(yōu)化本體庫(kù)。其中，步驟B還包括對(duì)于輸入到領(lǐng)域本體庫(kù)中不匹配的詞句，向用戶返回不匹配結(jié)果并提供用戶的切詞輸入，在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫(kù)中進(jìn)行再次匹配；所述不匹配包括切詞不匹配及翻譯實(shí)例中無(wú)匹配結(jié)果。其中，所述詞料庫(kù)、語(yǔ)料庫(kù)由自然語(yǔ)言數(shù)據(jù)庫(kù)訓(xùn)練而來(lái)，所述自然語(yǔ)言數(shù) 據(jù)庫(kù)至少包括字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信息。其中，步驟A還可以為直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片，提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息。本發(fā)明通過(guò)采用信息量較少的名片作為自動(dòng)翻譯對(duì)象，翻譯難度相對(duì)較低，處理好名片信息中的地址、單位名稱等翻譯問(wèn)題，即可實(shí)現(xiàn)名片信息的準(zhǔn)確翻譯。本發(fā)明利用領(lǐng)域本體庫(kù)作為翻譯關(guān)系數(shù)據(jù)庫(kù)，本體庫(kù)中的收錄的詞句均包含有語(yǔ)義信息，可實(shí)現(xiàn)查詢?cè)~句的準(zhǔn)確匹配，由于本體庫(kù)中的實(shí)例信息等均是可動(dòng)態(tài)維護(hù)的，因此，所提供的英文翻譯準(zhǔn)確率相當(dāng)高。本發(fā)明有較高的實(shí)用性。

圖l為本體庫(kù)的建立流程圖；圖2為本體庫(kù)的結(jié)構(gòu)示意圖；圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法的流程圖；圖4為本發(fā)明地址的語(yǔ)法分析結(jié)構(gòu)示意圖；圖5為本發(fā)明戶名的語(yǔ)法分析結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。本體論起源于古代西方哲學(xué)，自上個(gè)世紀(jì)八十年代起，本體論的思想被引入人工智能領(lǐng)域，人們開(kāi)始逐步對(duì)現(xiàn)實(shí)世界進(jìn)行建模，從某個(gè)領(lǐng)域中抽象出概念以及概念間關(guān)系的集合，即形成該領(lǐng)域的本體。本體有助于改變不同團(tuán)體或系統(tǒng)對(duì)領(lǐng)域內(nèi)同一概念釆用不同術(shù)語(yǔ)描述的狀況，因而被廣泛應(yīng)用在數(shù)字圖書館，信息集成等諸多領(lǐng)域。在不同的應(yīng)用中，本體的定義是不同的，本發(fā)明中，本體是基于知識(shí)共享的背景，是概念化的明確規(guī)約。本體通過(guò)對(duì)概念的嚴(yán)格定義和概念之間的關(guān)系來(lái)確定概念的精確含義，以表示共同認(rèn)可的、可共享的知識(shí)。因此把現(xiàn)實(shí)世界中某個(gè)應(yīng)用領(lǐng)域抽象或概括成一組概念及概念之間的關(guān)系，構(gòu)造出這個(gè)領(lǐng)域的本體，會(huì)使計(jì)算機(jī)對(duì)該領(lǐng)域的信息處理大為方便。從而也解決了詞句歧義的問(wèn)題。本體為特定領(lǐng)域的人和應(yīng)用系統(tǒng)的交流提供了一種通用的知識(shí)共享模式，使用本體技術(shù)可以更好的表達(dá)出事物之間特有的屬性，而事物本身在本體中的就是以類的表現(xiàn)形式，而通過(guò)嚴(yán)格屬性的定義和提取，在系統(tǒng)特定的領(lǐng)域之內(nèi)，便提供了一個(gè)通用的，認(rèn)可的標(biāo)準(zhǔn)，從而使系統(tǒng)在檢索查詢對(duì)應(yīng)的詞匯時(shí)，提高了準(zhǔn)確率和效率。作為領(lǐng)域本體，它是用于描述指定領(lǐng)域的一種專門本體。它給出了領(lǐng)域?qū)?體概念及相互關(guān)系，領(lǐng)域活動(dòng)以及該領(lǐng)域所具有的特征和規(guī)律的一種形式化描述。從開(kāi)發(fā)者的角度看，領(lǐng)域本體定義了開(kāi)發(fā)者之間需要共享的領(lǐng)域信息的公共詞匯；從系統(tǒng)的角度看，領(lǐng)域本體定義了能被機(jī)器理解的領(lǐng)域概念及其關(guān)系。如果把每一個(gè)知識(shí)領(lǐng)域抽象成一套概念體系，在具體化為一個(gè)詞表來(lái)表示，包括每一個(gè)詞的明確含義、詞與詞之間的關(guān)系以及該領(lǐng)域的一些公理知識(shí)的陳述等，并且能夠與這個(gè)知識(shí)領(lǐng)域的專家達(dá)成某種共識(shí)，即能共享這套詞表，所有這些就構(gòu)成了該領(lǐng)域的一個(gè)本體。圖l為本體庫(kù)的建立流程圖，如圖l所示，本體庫(kù)的建立包括以下步驟步驟101:本體建模。建模主要集中在領(lǐng)域知識(shí)的抽象表示上，即發(fā)現(xiàn)領(lǐng) 域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理等。對(duì)于領(lǐng)域中的實(shí)例，在建模時(shí)一般不需要考慮它們，除非建模時(shí)就能確定該本體所涉及的所有實(shí)例。實(shí)際上，通常的本體都具有一定的通用性，表示特定領(lǐng)域內(nèi)的知識(shí)，但由于領(lǐng) 域內(nèi)可能的實(shí)例數(shù)目無(wú)窮無(wú)盡且動(dòng)態(tài)變化，因此，只有本體和一個(gè)具體的應(yīng)用結(jié)合時(shí)考慮實(shí)例才有意義。即建立初步的以類、類屬性以及屬性值，建立一個(gè) 初步的本體模型。步驟102:為本體模型中各元素添加實(shí)例，即進(jìn)行語(yǔ)義標(biāo)注，該步驟可視為豐富本體的過(guò)程。如果從語(yǔ)義Web的角度看，語(yǔ)義標(biāo)注便是語(yǔ)義信息的發(fā)布過(guò)程用戶依據(jù)一定的本體，為頁(yè)面添加語(yǔ)義信息。然而，語(yǔ)義Web中的標(biāo)注問(wèn)題由于受到多方面因素的影響，變得很復(fù)雜。語(yǔ)義Web上的語(yǔ)義信息能像頁(yè) 面本身的創(chuàng)建一樣，由用戶或權(quán)威機(jī)構(gòu)共同完成。對(duì)于涉及專業(yè)領(lǐng)域的本體可由領(lǐng)域中的權(quán)威機(jī)構(gòu)統(tǒng)一制定。步驟103:將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系，這正是語(yǔ) 義標(biāo)注(SemanticA皿otation)所要做的工作。和數(shù)據(jù)庫(kù)類比，語(yǔ)義標(biāo)注就如同為建立好的數(shù)據(jù)庫(kù)表添加具體的紀(jì)錄。從語(yǔ)義Web的角度來(lái)看，在傳統(tǒng)Web 上添加語(yǔ)義信息，將Web的狀態(tài)從機(jī)器可讀提高到機(jī)器可理解，這是整個(gè)語(yǔ)義 Web實(shí)現(xiàn)的基礎(chǔ)。步驟104:通過(guò)智能推理優(yōu)化本體庫(kù)。語(yǔ)義標(biāo)注推動(dòng)了語(yǔ)義Web走向?qū)嶋H 應(yīng)用，智能Agent能夠根據(jù)Web上的語(yǔ)義信息實(shí)現(xiàn)智能推理任務(wù)，并能提高信息檢索的精確性。語(yǔ)義推理時(shí)，要考慮命題的真假意義。這與人們通常推理的習(xí)慣是一致的，因?yàn)樵谕评頃r(shí)，人們自然或不自然地要考慮到所討論命題的真與假。比如，數(shù)學(xué)推理都是在假設(shè)前提為真的情況下，證明結(jié)論也為真。在證明過(guò)程中，總是認(rèn)為命題非真即假，也就是說(shuō)推理是涉及命題語(yǔ)義的。命題的真與假蘊(yùn)含著人們的思維。而計(jì)算機(jī)不具有思維能力。所以，涉及命題真值的語(yǔ)義推理本身不適于作為計(jì)算機(jī)推理的算法。如果推理時(shí)不考慮命題的語(yǔ)義，僅注重符號(hào)化后命題(或公式)的形式，只要滿足某種形式，就可以得到某一結(jié)論。由于計(jì)算機(jī)不具有判別命題真假的思維能力，而識(shí)別公式的形式卻是其容易完成的工作。所以，語(yǔ)法推理作為計(jì)算機(jī)推理的理論基礎(chǔ)是非常自然的。在所建立的推理規(guī)則系統(tǒng)之上，通過(guò)識(shí)別、判定公式的形式而展開(kāi)的語(yǔ)法推理是最適合計(jì)算機(jī)推理的方法。在研究推理方面，還沒(méi)有其他方法比語(yǔ)法推理的思想更能被計(jì)算機(jī)所接受。因此，語(yǔ)法推理是智能推理研究的一種有效方法。本發(fā)明的本體庫(kù)優(yōu)化方式即采用語(yǔ)法推理的方式來(lái)實(shí)現(xiàn)，實(shí)現(xiàn)的手段有很多種，這里不再一一舉例說(shuō)明。需要指出的是，步驟104是一種本體庫(kù)維護(hù)手段，在所建立本體庫(kù)的基礎(chǔ)上實(shí)現(xiàn)的一種優(yōu)化，這種優(yōu)化是非常謹(jǐn)慎的一種維護(hù)。以下以地點(diǎn)這一主體，說(shuō)明基于圖1所示流程建立本體庫(kù)是如何實(shí)現(xiàn)的。當(dāng)然，這里的示例僅為說(shuō)明性的，不是對(duì)本發(fā)明本體庫(kù)建立的限制。圖2為本體庫(kù)的結(jié)構(gòu)示意圖，如圖2所示，本體庫(kù)是一種基于關(guān)聯(lián)關(guān)系建立起來(lái)的一種關(guān)系數(shù)據(jù)庫(kù)，這種關(guān)聯(lián)關(guān)系是基于語(yǔ)義的任何關(guān)聯(lián)關(guān)系，例如，對(duì)于一個(gè)地點(diǎn)，與其關(guān)聯(lián)的信息可能包括該地點(diǎn)所屬的地理區(qū)域，其電話是什么，郵編是什么，該地點(diǎn)屬于囯家單位、企業(yè)還是學(xué)校等，該地點(diǎn)周邊設(shè)施是什么、有哪些等，該地點(diǎn)的標(biāo)識(shí)是什么？確切的地址是什么？與所述地點(diǎn)相關(guān) 的信息還會(huì)有其他的關(guān)聯(lián)關(guān)系，例如說(shuō)對(duì)于上述地點(diǎn)的郵編，共用這些郵編的地址還有哪些，各是什么等，與上述地點(diǎn)電話號(hào)碼相關(guān)的任何其他信息，也與上述的電話號(hào)碼有關(guān)聯(lián)關(guān)系。圖2所示的本體的描述僅是說(shuō)明性的一般描述，并不意味著對(duì)本體的限定。所以使用本體技術(shù)后，當(dāng)計(jì)算機(jī)進(jìn)行信息查詢的時(shí)，會(huì)通過(guò)其附帶的大量的語(yǔ)義信息，增加了匹配成功的機(jī)會(huì)，也就由此提高了準(zhǔn)確率。本發(fā)明的名片信息翻譯方法，正是基于領(lǐng)域本體庫(kù)進(jìn)行的，特別是名片中地址及戶名信息的翻譯，以下詳細(xì)介紹之。圖3為本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法的流程圖，如圖3所示，本發(fā)明基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法包括以下步驟:步驟201:為名片中所包括信息建立領(lǐng)域本體庫(kù)及翻譯本體庫(kù)。如前述的那樣，領(lǐng)域本體庫(kù)是一種關(guān)系數(shù)據(jù)庫(kù)，其中，所述領(lǐng)域本體庫(kù)中至少包括地址領(lǐng)域類、戶名領(lǐng)域類、單位名稱類。以下詳細(xì)介紹本發(fā)明的領(lǐng)域本體模型的構(gòu) 成。由領(lǐng)域中的術(shù)語(yǔ)組成的詞典是一個(gè)領(lǐng)域上的分類空間，其目的為了概念的導(dǎo)航、搜索、信息獲取。而分類空間的語(yǔ)義很弱，刻畫了概念化的術(shù)語(yǔ)的簡(jiǎn)單的語(yǔ)義關(guān)系，沒(méi)有捕獲和表現(xiàn)復(fù)雜的語(yǔ)義概念，本發(fā)明試圖表達(dá)精確的、復(fù)雜的、一致的、豐富的概念語(yǔ)義。構(gòu)建領(lǐng)域本體，要使用本體建模元語(yǔ)，把領(lǐng)域詞典映射到本體概念體系中。本體中，類是一種經(jīng)過(guò)組織的結(jié)構(gòu)化的知識(shí)表示方法，每個(gè)類形成一個(gè)獨(dú)立的知識(shí)單元，類表示對(duì)知識(shí)的描述很直觀，能反映對(duì)地址和戶名進(jìn)行語(yǔ)法分析，需要了解二者的組成和結(jié)構(gòu)。確定構(gòu)成地址及戶名各個(gè)組成部分在地址戶名中的關(guān)系，以及各自在地址及戶名中的作用。并將這種關(guān)系和作用利用適合在本體模型中的層次結(jié)構(gòu)加以表示。這里，地址和戶名的信息來(lái)自于字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信息，信息來(lái)源愈廣，本體庫(kù)中提取的語(yǔ)義愈豐富，因此，一切具有語(yǔ)義訓(xùn)練的素材均作為本體庫(kù)的元素。圖4為本發(fā)明地址的語(yǔ)法分析結(jié)構(gòu)示意圖，如圖4所示，地址是由一個(gè)或者一個(gè)以上的獨(dú)立的地址小節(jié)即子地址(sa, sub address )組成。地址小節(jié)由一個(gè)地址前綴(av, address vocabulary )詞匯和一個(gè)地址分割符(as, address segmentation)組成。本發(fā)明中，地址、地址小節(jié)、地址前綴和地址分割符的組成關(guān)系可概括為地址前綴>地址分割符>地址小節(jié)>地址。為了直觀的描述問(wèn) 題，在此給出典型的分析例句。針對(duì)地址"山東省日照巿海曲路88號(hào)"的語(yǔ)法分析為"[山東/av省/as]/sa[日照/av市/as]/sa[海曲/av路/as]/sa[88/av號(hào)/as]/sa"。本發(fā)明中，地址、地址小節(jié)、地址前綴和地址分割符即是地址領(lǐng)域的類。圖5為本發(fā)明戶名的語(yǔ)法分析結(jié)構(gòu)示意圖，如圖5所示，戶名是由一個(gè)主戶名(name)加上O個(gè)或者多個(gè)子戶名(sub name)組成。子戶名由三部分組成地址標(biāo)識(shí)(al, address label )、戶名自定義稱謂(si , self label)和戶名標(biāo) 識(shí)(name label )。所以戶名的組成關(guān)系可概括為地址標(biāo)示>地址自定義稱謂> 戶名標(biāo)識(shí)>子戶名>戶名。為了直觀的描述問(wèn)題，在此給出戶名典型的分析例句。針對(duì)戶名"北京郵電大學(xué)"的語(yǔ)法分析為"北京al郵電sl大學(xué)nl"。地址標(biāo)識(shí)、戶名自定義稱謂和戶名標(biāo)識(shí)是戶名領(lǐng)域的類。其中，一個(gè)完整的地址是由一個(gè)或一個(gè)以上的地址字節(jié)組成，而每個(gè)地址字節(jié)又是有一個(gè)或者一個(gè)以上的地址分隔符和地址前綴組成。一個(gè)地址分隔符必須具備一個(gè)地址前綴，所以二者之間具有約東的關(guān)系。即為must—have關(guān)系。為地址前綴、地址分割符、地址小節(jié)、地址標(biāo)示、地址自定義稱謂、戶名標(biāo)識(shí)以及子戶名設(shè)置屬性，并設(shè)置屬性值。這些屬性值是通過(guò)現(xiàn)有語(yǔ)料庫(kù)進(jìn)行訓(xùn)練所得的語(yǔ)義關(guān)聯(lián)關(guān)系。關(guān)于屬性值，需要利用對(duì)本體的自動(dòng)推理來(lái)獲得，主要就是依靠為每一個(gè)類建立的固有的屬性，成為與其他類區(qū)分的特性，通過(guò) 推理機(jī)，利用特有的屬性可以自動(dòng)的辨認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類，從而自動(dòng)起到分析推理的作用。本發(fā)明的領(lǐng)域本體庫(kù)中存儲(chǔ)了上述的具有語(yǔ)義關(guān) 聯(lián)的地址項(xiàng)，所述地址項(xiàng)由領(lǐng)域本體庫(kù)的開(kāi)發(fā)人員輸入，并建立它們之間的語(yǔ) 義關(guān)聯(lián)關(guān)系，這些地址項(xiàng)足夠多，對(duì)于符合前述語(yǔ)義分析的，按前述方式存儲(chǔ) 即可，而對(duì)于特殊的地址項(xiàng)，作為新的地址項(xiàng)，存儲(chǔ)到領(lǐng)域本體庫(kù)中，同時(shí)建立該存儲(chǔ)地址項(xiàng)的語(yǔ)義關(guān)聯(lián)項(xiàng)。對(duì)于地址前綴、地址分割符、地址小節(jié)、地址標(biāo)示、地址自定義稱謂、戶名標(biāo)識(shí)以及子戶名，本發(fā)明還為其設(shè)置相應(yīng)的實(shí)例，即記載其語(yǔ)義相關(guān)的信息，例如，對(duì)于"北京郵電大學(xué)"這一戶名，還有"北京海淀西土城路10號(hào)"電話號(hào)碼"010- 62283100"等多項(xiàng)信息與其語(yǔ)義關(guān)聯(lián)。這些地址項(xiàng)下的實(shí)例有助于實(shí)現(xiàn)語(yǔ)義的檢索，以及驗(yàn)證領(lǐng)域本體中所收錄信息的準(zhǔn)確性。對(duì)于單位名稱類同樣以所收集到的所有單位名稱作為其元素，同時(shí)建立單位名稱的語(yǔ)義關(guān)聯(lián)關(guān)系，即為每個(gè)單位名稱建立實(shí)例，例如單位簡(jiǎn)介、單位的地址、聯(lián)系方式等信息。領(lǐng)域本體庫(kù)中不僅包括完整的地址、戶名及單位名稱等，還包括核心詞句項(xiàng)，如北京、主要省巿、各大學(xué)名稱、各囯家機(jī)關(guān)名稱等，也就是說(shuō)，建立的領(lǐng)域本體庫(kù)所搜集的信息量愈大，其功用就愈強(qiáng)，本發(fā)明所獲得的翻譯結(jié)果也更準(zhǔn)確。本發(fā)明的本體庫(kù)可通過(guò)prot6g6 2000來(lái)建立。prot6g6 2000是斯坦福大學(xué)的Stanford Medical Informatics開(kāi)發(fā)的一個(gè)開(kāi)放源碼的本體編輯器，其由 Java編寫。本發(fā)明在prot6g6 2000的基礎(chǔ)上，結(jié)合前述的本體建立方法，建立本發(fā)明的領(lǐng)域本體庫(kù)。建立領(lǐng)域本體庫(kù)后，還需要建立翻譯本體庫(kù)，以實(shí)現(xiàn)對(duì)領(lǐng)域本體庫(kù)的支持。翻譯本體庫(kù)以英漢互譯詞典、各種英漢互譯的語(yǔ)法規(guī)則為輸入語(yǔ)料庫(kù)，建立漢語(yǔ)翻譯的翻譯本體庫(kù)，以實(shí)現(xiàn)對(duì)前述領(lǐng)域本體庫(kù)的支持，也即在前述領(lǐng)域本體庫(kù)中增加了各類元素的英文語(yǔ)義項(xiàng)，建立了英漢互相關(guān)聯(lián)的關(guān)系。本發(fā)明的翻譯本體庫(kù)包括基礎(chǔ)詞匯庫(kù)和臨時(shí)詞匯庫(kù)，基礎(chǔ)詞匯庫(kù)用于翻譯時(shí)查詢，臨時(shí)詞匯庫(kù)用于只有查詢權(quán)限使用人員添加詞匯，經(jīng)管理員確認(rèn)才能導(dǎo)入基礎(chǔ)詞匯庫(kù)，以實(shí)現(xiàn)對(duì)翻譯本體庫(kù)的動(dòng)態(tài)維護(hù)。步驟202:向用戶提供名片信息輸入界面，接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入。為了提高本發(fā)明翻譯結(jié)果的準(zhǔn)確程度，需向用戶提供帶有一定輸入要求的界面，即向用戶說(shuō)明哪里是地址輸入接口，哪里是郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的輸入接口。用戶名片信息的輸入也可以直接輸入電子名片信息，直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片，然后直接提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息；步驟203:獲取用戶輸入的參數(shù)值，進(jìn)行切分和語(yǔ)法分析，進(jìn)行匹配翻譯。對(duì)于郵編、聯(lián)系電話、傳真的信息，進(jìn)行直譯，用戶輸入的數(shù)字參數(shù)不譯。對(duì)于用戶輸入的阿拉伯?dāng)?shù)字，無(wú)需翻譯，僅將郵編、聯(lián)系電話、傳真等詞匯進(jìn)行翻譯即可，因此，上述詞匯的翻譯準(zhǔn)確率是完全可以保證的，也不是名片信息翻譯的重點(diǎn)。對(duì)于聯(lián)系人名稱，判斷是否為漢語(yǔ)輸入，若是漢語(yǔ)輸入，則對(duì)輸入的姓名按姓和名進(jìn)行切詞，并將用戶的名輸入到翻譯本體庫(kù)中進(jìn)行匹配，若有匹配項(xiàng)，則按匹配項(xiàng)翻譯為英文，若沒(méi)有匹配項(xiàng)，則譯為拼音，若不是漢語(yǔ) 輸入則不譯。對(duì)于聯(lián)系人的姓名，由于漢語(yǔ)名片針對(duì)的基本全是漢語(yǔ)名稱，可直接將其譯為拼音，對(duì)于一些外文直譯的名稱如約翰、湯姆、瑪麗等名稱，翻譯為相應(yīng)的英文。對(duì)于非漢語(yǔ)輸入的信息，直接輸出。對(duì)于職位，則直接輸入到翻譯本體庫(kù)進(jìn)行匹配，若匹配則將對(duì)應(yīng)的英文翻譯作為輸出，不匹配時(shí)則翻譯為漢語(yǔ)拼音。對(duì)于職位，仍然只是詞匯的翻譯，因此準(zhǔn)確率也比較高，并且也沒(méi)有技術(shù)難度，匹配出直譯即可，本發(fā)明借助翻譯本體庫(kù)，可以實(shí)現(xiàn)語(yǔ)義的檢索匹配，翻譯結(jié)果出錯(cuò)率大大降低，準(zhǔn)確率相當(dāng)高。對(duì)于單位名稱則輸入到單位名稱類中進(jìn)行匹配，匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯，否則以漢語(yǔ)拼音作為翻譯結(jié)果。單位名稱也具有特殊性，一般包括公司、機(jī)關(guān)、大學(xué)等，通過(guò) 對(duì)其建立本體庫(kù)，基本可實(shí)現(xiàn)準(zhǔn)確匹配，只要對(duì)單位名稱本體庫(kù)維護(hù)及時(shí)，翻譯準(zhǔn)確率也是可以保證的。沒(méi)有匹配項(xiàng)或其中的詞匯沒(méi)有匹配項(xiàng)的，以漢語(yǔ)拼音作為其翻譯結(jié)果。對(duì)于名片信息翻譯而言，聯(lián)系地址無(wú)疑是其中語(yǔ)義最多，需要切詞并進(jìn)行語(yǔ)法分析的，因此是整個(gè)名片信息翻譯的重點(diǎn)。對(duì)于聯(lián)系地址，則以用戶輸入的參數(shù)值為查詢條件，在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行匹配，若存在匹配項(xiàng)，則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名稱進(jìn)行切詞，再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例，再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯；若不存在匹配項(xiàng)，則直接進(jìn)行切詞，將每個(gè)切詞輸入到領(lǐng) 域本體庫(kù)進(jìn)行匹配，若匹配則獲得每個(gè)切詞的翻譯結(jié)果，若不匹配則翻譯為漢語(yǔ)拼音，根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯。本發(fā)明中，對(duì)待檢索信息進(jìn)行匹配時(shí)，獲取所述待檢索信息的屬性值，即獲得其固有的屬性，根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理，以自動(dòng)辨認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類，可以在所確定的較明確的分類中完成準(zhǔn)確搜索。本發(fā)明匹配過(guò)程可采用Racer Pro推理機(jī)實(shí)現(xiàn)。以下通過(guò)一個(gè)示例說(shuō)明本發(fā)明的原理，定義A—個(gè)個(gè)體a， A有屬性(比如說(shuō)eat) allvaluefromB,則可以推理出類B的實(shí)例b， a (eat) b。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，本發(fā)明的推理過(guò)程是為了更好地實(shí)現(xiàn)本發(fā)明的匹配過(guò)程，以確定待匹配信息的準(zhǔn)確分類，以迅速準(zhǔn)確地實(shí)現(xiàn)對(duì)其的匹配。地址信息中，一般都包括有地址標(biāo)志性詞匯、帶有這些標(biāo)志性詞匯的常用詞匯。地址標(biāo)志性詞匯如省、巿、路、區(qū)、縣等。包含這些標(biāo)志性詞匯的常用詞匯如省政府、巿政府等。還有一些直接以信箱作為聯(lián)系地址的，如北京巿128 信箱等。切詞即是按語(yǔ)法規(guī)則實(shí)現(xiàn)準(zhǔn)確斷句，把一個(gè)大名稱分成不可再分的子名稱，如中國(guó)銀行北京分行皂君廟支行，其中，用公司即可分割這個(gè)大名稱為中國(guó)銀行、北京分行、皂君廟支行。名詞的切割，離不開(kāi)領(lǐng)域本體庫(kù)，例如前述的中國(guó)銀行，之所以沒(méi)有將其切分為中國(guó)+銀行，是因?yàn)轭I(lǐng)域本體庫(kù)中的地址項(xiàng)中，根據(jù)語(yǔ)義關(guān)聯(lián)的特征，可明確地識(shí)別出"中國(guó)銀行"的字眼。對(duì)于切割后的地址名稱，進(jìn)行逐個(gè)匹配，匹配成功則查找出其對(duì)應(yīng)的英語(yǔ)實(shí)例，得到該切割詞的英文翻譯結(jié)果，對(duì)于未匹配的切割詞，可返回用戶處確認(rèn)切割詞的結(jié)果，在錯(cuò)誤時(shí)由用戶進(jìn)行修正，以修正后的結(jié)果重新進(jìn)行匹配。最后將所接受的修正結(jié)果更新到領(lǐng)域本體庫(kù)。對(duì)于小名稱，一般格式為地址標(biāo)識(shí)+公司名稱+公司性質(zhì)。如北京郵電大學(xué)，即可用地址名前向匹配北京，用公司性質(zhì)匹配大學(xué)，留下名稱，若在字庫(kù) 中找到，則翻譯為英文，否則用拼音代替，若該名稱長(zhǎng)度大于4，則認(rèn)為翻譯正確度不為100%。維護(hù)的關(guān)鍵點(diǎn)在于公司性質(zhì)的添加。為保證翻譯的準(zhǔn)確度，在進(jìn)行地址切詞后，可返回切詞結(jié)果，由用戶確認(rèn)，在用戶確認(rèn)或修正后再進(jìn)行匹配檢索。當(dāng)所有的切割分詞翻譯結(jié)果返回后，根據(jù)切詞獲知待翻譯地址的語(yǔ)法結(jié)構(gòu)，根據(jù)設(shè)定的語(yǔ)法翻譯規(guī)則翻譯所述地址。本發(fā)明僅建立地址的語(yǔ)法規(guī)則本體庫(kù) 即可。以下以"北京巿西土城路十號(hào)"為例說(shuō)明本發(fā)明的翻譯過(guò)程。采用從前到后最大匹配的方法進(jìn)行匹配。如"北京巿西土城路十號(hào)"，如果沒(méi)有匹配到詞典中的詞匯，則進(jìn)行分詞處理。將兩個(gè)字放一塊作為一個(gè)詞，然后"巿"進(jìn)行匹配，但是"巿西"沒(méi)有匹配到則將"市"作為一個(gè)詞匯，同理上述地址可分詞為"北京市西土城路十號(hào)"。根據(jù)領(lǐng)域本體庫(kù)的語(yǔ)義關(guān)聯(lián)關(guān)系，對(duì)這些切詞結(jié)果進(jìn)行處理，查找到"巿"為地址分割符后，則將"北京巿"作為切割詞，對(duì)于"路"，也是地址分割符，則將"西土城路"作為切割詞，同理，"十號(hào)"也會(huì)作為切割詞，當(dāng)然，如果多字含義的整體詞出現(xiàn)時(shí)如"北京郵電大學(xué)"，不會(huì)切割為"北京郵電大學(xué)"，根據(jù)領(lǐng)域本體庫(kù)的特點(diǎn)，將很容易識(shí)別為一個(gè) 整體詞并直接將其對(duì)應(yīng)的英文作為譯文輸出，對(duì)于地址項(xiàng)中的數(shù)字，則會(huì)連續(xù) 去查找數(shù)字，直到把連續(xù)的幾個(gè)數(shù)字找出來(lái)，作為一個(gè)詞匯。如"北京巿西土城路十號(hào)二十九樓"，當(dāng)看到"二"時(shí)，會(huì)連接把"十九"找出來(lái)，將"二十九" 作為一個(gè)詞。根據(jù)上文定義的類和屬性，以及類之間的關(guān)系，對(duì)已經(jīng)分好的詞匯進(jìn)行分析，對(duì)于違反語(yǔ)法規(guī)則的進(jìn)行調(diào)整使其符合語(yǔ)法規(guī)則。對(duì)于每個(gè)分詞用以下結(jié)構(gòu)來(lái)標(biāo)注 Type DivWordword As String 〃分出的詞匯wType As Byte 〃詞匯類別property as Byte 〃屬性 End Type其中根據(jù)上文定義的本體類的屬性，wType由以下值 Public Const ADDR_DIV—WORD As Byte = 1 〃地址分割符 Public Const ADDR—WORD As Byte = 2 〃地址前綴針對(duì)上邊兩種詞匯類別又有不同的屬性對(duì)應(yīng)之。對(duì)于地址分割符，有地址前綴后置(property二 1),比如"五號(hào)"翻譯為"No.5"即把5放到地址分割符"No." 的后面。對(duì)于地址前綴，有英文詞匯對(duì)照的中文地址詞匯則property=l;未找到需翻譯為拼音的詞匯則property=2;如果發(fā)現(xiàn)是數(shù)字則property=5。然后采用按照規(guī)則進(jìn)行調(diào)整，如果發(fā)現(xiàn)兩個(gè)地址分割符是相鄰的則說(shuō)明是不符合語(yǔ)法規(guī)則的需要進(jìn)行調(diào)整。則查看后面的那個(gè)地址分割符的信息，對(duì)于 pr0perty=2的地址分割符，則直接忽略上一個(gè)地址，否則把上一個(gè)地址分割符修改為拼音詞匯即令wtype = ADDR—WORD。例如"二十九號(hào)樓"，對(duì)于這個(gè)來(lái) 說(shuō)分成"二十九號(hào)樓"，發(fā)現(xiàn)"號(hào)""樓"都是地址分割符，則需要看樓的屬性，如果為2，則忽略"號(hào)"按照"二十九樓"翻譯，否則把"號(hào)"作為拼音來(lái)翻譯。步驟204:輸出翻譯結(jié)果并接收用戶的修訂，將修訂結(jié)果存儲(chǔ)到指定數(shù)據(jù) 庫(kù)中。將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸出，并接收用戶的修正，修正結(jié)果作為翻譯結(jié)果輸出；則將用戶修正的詞句結(jié)果保存數(shù)據(jù)庫(kù)中。即將步驟203中的翻譯結(jié)果輸出給用戶，用戶根據(jù)輸出結(jié)果進(jìn)行相應(yīng)修訂，對(duì)用戶所作的修訂進(jìn)行存儲(chǔ)，以作為新的語(yǔ)料，有待用戶根據(jù)這些新語(yǔ)料對(duì)本體庫(kù)作進(jìn)一步的維護(hù)。以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1、一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，以詞料庫(kù)、語(yǔ)料庫(kù)為基礎(chǔ)，為名片中所包括信息建立領(lǐng)域本體庫(kù)，所述領(lǐng)域本體庫(kù)中至少包括地址領(lǐng)域類、戶名領(lǐng)域類、單位名稱類，其中，所述聯(lián)系地址類至少包括地址分割符、前綴詞匯、地址小節(jié)和地址，為地址分割符、前綴詞匯、地址小節(jié)和地址設(shè)置屬性及屬性值，同時(shí)為所述地址分割符、前綴詞匯、地址小節(jié)和地址建立實(shí)例；所述戶名領(lǐng)域類至少包括地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名、戶名，為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名設(shè)置屬性及屬性值，同時(shí)為所述地址標(biāo)識(shí)、地址自定義稱謂、戶名標(biāo)識(shí)和子戶名建立實(shí)例；所述屬性及屬性值是依據(jù)所述詞料庫(kù)、語(yǔ)料庫(kù)訓(xùn)練而得到的語(yǔ)義而設(shè)置的；單位名稱類是收集單位名稱，并建立之間的語(yǔ)義聯(lián)系；即領(lǐng)域本體庫(kù)是基于語(yǔ)義關(guān)聯(lián)的關(guān)系數(shù)據(jù)庫(kù)；以英漢詞典、漢英詞典和漢英語(yǔ)法規(guī)則建立單詞、詞句的語(yǔ)法翻譯實(shí)例，同時(shí)建立翻譯實(shí)例與領(lǐng)域本體庫(kù)中的各元素所建立實(shí)例之間的對(duì)應(yīng)關(guān)系；該方法還包括以下步驟A、向用戶提供名片信息輸入界面，接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入；B、獲取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的參數(shù)值，對(duì)于郵編、聯(lián)系電話、傳真的信息，進(jìn)行直譯，用戶輸入的數(shù)字參數(shù)不譯；對(duì)于聯(lián)系人名稱，判斷是否為漢語(yǔ)，若是按名和姓進(jìn)行切分，查找所述翻譯本體庫(kù)是否有匹配的名，若有則譯為相應(yīng)英文，否則譯為拼音，如果不是漢語(yǔ)則不譯；對(duì)于職位，則直接輸入到翻譯本體庫(kù)進(jìn)行匹配，若匹配則將對(duì)應(yīng)的英文翻譯作為輸出，不匹配時(shí)則翻譯為漢語(yǔ)拼音；對(duì)于聯(lián)系地址，則以用戶輸入的參數(shù)值為查詢條件，在領(lǐng)域本體庫(kù)的地址領(lǐng)域類、戶名領(lǐng)域類進(jìn)行匹配，若存在匹配項(xiàng)，則按領(lǐng)域本體庫(kù)中的切詞方式對(duì)聯(lián)系地址及單位名稱進(jìn)行切詞，再查找這些切詞對(duì)應(yīng)的翻譯實(shí)例，再根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯；若不存在匹配項(xiàng)，則直接進(jìn)行切詞，將每個(gè)切詞輸入到領(lǐng)域本體庫(kù)進(jìn)行匹配，若匹配則獲得每個(gè)切詞的翻譯結(jié)果，若不匹配則翻譯為漢語(yǔ)拼音，根據(jù)實(shí)例中訓(xùn)練的英文語(yǔ)法翻譯規(guī)則進(jìn)行翻譯；對(duì)于單位名稱則輸入到單位名稱類中進(jìn)行匹配，匹配成功則按設(shè)定的規(guī)則進(jìn)行翻譯，否則以漢語(yǔ)拼音作為翻譯結(jié)果；C、將翻譯后的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸出，并接收用戶的修正，修正結(jié)果作為翻譯結(jié)果輸出；則將用戶修正的詞句結(jié)果保存到翻譯本體庫(kù)中的對(duì)應(yīng)實(shí)例中，并更新實(shí)例中該修正詞句的翻譯結(jié)果。
2、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，步驟B還包括對(duì)待檢索信息進(jìn)行匹配時(shí)，獲取所述待檢索信息的屬性值，即獲得其固有的屬性，根據(jù)這些匹配項(xiàng)的屬性值利用推理機(jī)進(jìn)行推理，以自動(dòng)辨認(rèn)出本體中的對(duì)象具體屬于哪個(gè)類，可以在所確定的較明確的分類中完成準(zhǔn)確搜索。
3、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，所述建立本體庫(kù)，包括a、本體建模，發(fā)現(xiàn)領(lǐng)域內(nèi)的概念、概念的繼承層次、潛在的關(guān)系和公理；b、為本體模型中各元素添加實(shí)例，即進(jìn)行語(yǔ)義標(biāo)注；c、將現(xiàn)實(shí)應(yīng)用中涉及的實(shí)例和抽象的本體概念相聯(lián)系，進(jìn)行語(yǔ)義標(biāo)注；d、通過(guò)智能推理優(yōu)化本體庫(kù)。
4、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，步驟B還包括對(duì)于輸入到領(lǐng)域本體庫(kù)中不匹配的詞句，向用戶返回不匹配結(jié)果并提供用戶的切詞輸入，在用戶輸入切詞輸入后將切詞結(jié)果在領(lǐng)域本體庫(kù)中進(jìn)行再次匹配；所述不匹配包括切詞不匹配及翻譯實(shí)例中無(wú)匹配結(jié)果。
5、根據(jù)權(quán)利要求1所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，所述詞料庫(kù)、語(yǔ)料庫(kù)由自然語(yǔ)言數(shù)據(jù)庫(kù)訓(xùn)練而來(lái)，所述自然語(yǔ)言數(shù)據(jù)庫(kù)至少包括字典、詞典、習(xí)慣用語(yǔ)、報(bào)刊、書籍、互聯(lián)網(wǎng)web頁(yè)面信息。6、根據(jù)權(quán)利要求l所述的基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，其特征在于，步驟A還可以為直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片，提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息。
全文摘要
本發(fā)明公開(kāi)了一種基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法，包括為名片中所包括信息建立領(lǐng)域本體庫(kù)及翻譯本體庫(kù)；向用戶提供名片信息輸入界面，接收用戶名片的聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息輸入，或直接調(diào)用數(shù)據(jù)庫(kù)中的用戶電子名片，提取聯(lián)系地址、郵編、聯(lián)系人名稱、職位、單位名稱、聯(lián)系電話、傳真的信息；獲取用戶輸入的參數(shù)值，進(jìn)行切分和語(yǔ)法分析，進(jìn)行匹配翻譯；以及輸出翻譯結(jié)果并接收用戶的修訂，將修訂結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中。本發(fā)明所提供的英文翻譯準(zhǔn)確率相當(dāng)高，實(shí)用性強(qiáng)。
文檔編號(hào)G06F17/28GK101216819SQ20071030451
公開(kāi)日2008年7月9日申請(qǐng)日期2007年12月28日優(yōu)先權(quán)日2007年12月28日
發(fā)明者孟祥武, 張玉潔申請(qǐng)人:北京郵電大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張玉潔;孟祥武
技術(shù)所有人：北京郵電大學(xué)
我是此專利的發(fā)明人

上一篇：用于在線幫助的透明窗體隱私保護(hù)的裝置和方法
上一篇：電子卡發(fā)放方法、裝置及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

領(lǐng)域本體相關(guān)技術(shù)

領(lǐng)域本體構(gòu)建相關(guān)技術(shù)

名片信息相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于領(lǐng)域本體的名片信息中譯英自動(dòng)翻譯方法