專利名稱:漢字/拼音/英文翻譯方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于在簡體中文字、繁體中文字、拼音和英文之間翻譯的方法。
背景技術(shù):
諸如漢語的基于漢藏語系的語言與諸如英語的基于拉丁語系的語言有很大不同。中文不包括字母表。相反,中文包括超過6萬個(gè)獨(dú)立漢字。6萬個(gè)漢字的每個(gè)具有不同的含義。認(rèn)識(shí)大約1200個(gè)漢字就足夠閱讀中文報(bào)紙。中文學(xué)院畢業(yè)生認(rèn)識(shí)大約3000個(gè)漢字。
中文在字的概念上也與基于拉丁語系的語言不同。在中文中,漢字串不包括空格,一個(gè)字結(jié)束和另一個(gè)開始的理解完全基于上下文。漢字在含義、發(fā)音和在它們被書寫的方式上非常準(zhǔn)確。如果一個(gè)漢字在串中向其插入漢字,則增強(qiáng)了第一個(gè)漢字的含義,但是通常它不被改變。
漢字總是發(fā)單個(gè)音節(jié)。沒有兩音節(jié)的漢字。每個(gè)漢字具有5個(gè)基音之一。這5個(gè)基音為中文帶來了歌唱的質(zhì)量,因?yàn)橐恍h字以高音調(diào)發(fā)音,一些以低音調(diào)發(fā)音,一些以升調(diào)或降調(diào)發(fā)音。音調(diào)對語言是重要的,沒有音調(diào),中文將不容易被理解。例如,漢字“ma”根據(jù)音調(diào)可以或者表示“媽”或“馬”或“嗎”。在中國有許多方言。從一種方言到另一種方言,口語基本上不可理解。但是,僅僅有一種中文文字。中文文字被所有的方言理解。其它漢藏語系語言,諸如日文、韓語和越南語與中文一樣使用多個(gè)字符。但是,這些語言沒有共同的書寫或口語含義,這類似于英語、西班牙語和法語使用公共的字母表但是不可互換的方式。
在1949年中國共產(chǎn)革命之后,共產(chǎn)黨對中文作出了幾個(gè)改變。首先,傳統(tǒng)的“從上向下”和“從右向左”的書寫中文的方法被屏棄。中華人民共和國(PRC或中國大陸)現(xiàn)在按照西文,“從左向右”然后“從上向下”被書寫。其次,選擇了單一的方言普通話,它現(xiàn)在在所有的學(xué)校中作為基本中文被教授。第三,PRC改變了大約四分之一的漢字以將它們減少到大約幾行或幾劃。這種形式的中文被稱為“簡體中文”。在PRC,簡體中文現(xiàn)在被廣泛使用,但是臺(tái)灣和香港仍然使用稱為“繁體中文”的更費(fèi)事形式的中文。PRC也采用由多數(shù)西方國家使用的阿拉伯?dāng)?shù)字系統(tǒng),并且因特網(wǎng)的出現(xiàn)正在使得英語出現(xiàn)在許多中文語句中。
PRC也引入了“拼音”,中文的語音版本來幫助孩子學(xué)習(xí)這種語言。拼音使用英文的26個(gè)字母外加在一些元音上的4個(gè)音調(diào)來指示如何發(fā)音漢字。當(dāng)學(xué)生被教授使用漢字時(shí)通常從大約4歲到大約7歲使用拼音。拼音對于從外語常用語手冊來說漢語的旅游者和商人也是很有益的。另外,拼音對于計(jì)算機(jī)用戶是普及的,因?yàn)樗菑逆I盤輸入漢字的最簡單方式。
在計(jì)算機(jī)中,所有的漢藏語系語言被16比特的字符表示,而英語和拉丁語系語言被8比特的字符表示。傳統(tǒng)上,從每種語言產(chǎn)生獨(dú)立的編碼。英語和其它拉丁語系語言使用ASCII編碼。簡體中文使用GB2312編碼。繁體中文使用Big 5編碼,等等。換句話說,使用Big 5編碼的計(jì)算機(jī)不能讀取GB2312或ASCII編碼的計(jì)算機(jī)代碼。這種編碼的多樣性是混亂的,并且在不同的編碼之間沒有標(biāo)準(zhǔn)化。Unicode協(xié)會(huì)已經(jīng)開發(fā)了一種單一的編碼,它并入了世界上所有的主要語言。存在使用Unicode和替代在計(jì)算機(jī)應(yīng)用中的所有其它編碼的強(qiáng)大動(dòng)向。Unicode對于在計(jì)算機(jī)內(nèi)的每個(gè)字符使用16個(gè)比特。Unicode具有65,000個(gè)不同的字符,并且每種主要語言被映射為這個(gè)Unicode范圍的不同部分。因此,Unicode可以用作所有的世界語言的單一編碼方案。
但是,Unicode的問題之一是可以使用在Unicode內(nèi)不同的方案來表示獨(dú)立的字符、字母或符號(hào)。兩種最常見的編碼方案是UTF-8和UCS-2。UTF-8是二進(jìn)制(基于2)Unicode編碼方案,它將每個(gè)字符、字母或符號(hào)表示為一個(gè)、兩個(gè)或三個(gè)字節(jié),每個(gè)字節(jié)為8個(gè)比特。相反,UCS-2是16進(jìn)制(基于16)的Unicode編碼方案,它將每個(gè)字符、字母或符號(hào)表示為8個(gè)16進(jìn)制數(shù)字。一個(gè)16進(jìn)制數(shù)字等同于4個(gè)比特,1個(gè)字節(jié)可以由兩個(gè)16進(jìn)制數(shù)字表達(dá)。下面的表1顯示在UTF-8和UCS-2之間的差別。
表1用戶可以根據(jù)用戶期望的需要來選擇使用USC-2方案或UTF-8方案來編碼。例如,當(dāng)從一個(gè)位置向另一個(gè)發(fā)送數(shù)據(jù)時(shí),由于在可變字節(jié)流長度(即,1-3字節(jié),如表1所示)中固有的發(fā)送效率,UTF-8是優(yōu)選的編碼方案。但是,當(dāng)在數(shù)據(jù)庫中存儲(chǔ)同一信息時(shí),UCS-2是優(yōu)選的編碼方案,因?yàn)榫鶆虻臄?shù)據(jù)長度使得可以進(jìn)行較快的搜索和比較操作(即8個(gè)16進(jìn)制數(shù)字,如表1所示)。在UCS-2和UTF-8之間的轉(zhuǎn)換功能是可以獲得的,這由在此通過引用而被并入的、題目為“在數(shù)據(jù)庫引擎中的表級(jí)Unicode處理”的美國專利申請公布2003/0078921來證明。
在開發(fā)Unicode之前,在簡體中文和繁體中文之間的計(jì)算機(jī)化的文字翻譯器是不可能的,因?yàn)镚B2312代碼不能明白Big 5代碼,反之亦然。需要從簡體中文向繁體中文的翻譯或從繁體中文向簡體中文的翻譯的用戶被迫查找在印刷的字典中的翻譯。如果用戶期望計(jì)算機(jī)實(shí)現(xiàn)的翻譯,則用戶被迫使用拼音、英文或一些其它的語言來作為在簡體中文和繁體中文之間的中介。
類似地,現(xiàn)有技術(shù)的翻譯程序還不能使用正確的音調(diào)來顯示拼音。帶有音調(diào)的元音指示適當(dāng)?shù)囊粽{(diào),是正確地發(fā)音元音所必須的。在計(jì)算機(jī)中,傳統(tǒng)上使用ASCII來編碼拼音。但是,現(xiàn)有技術(shù)的翻譯程序不能顯示帶有音調(diào)的拼音,因?yàn)锳SCII不與Big 5或GB2312兼容。相反,現(xiàn)有技術(shù)程序利用由Big 5和GB2312支持的數(shù)字和英文元音來產(chǎn)生拼音的混合版本。例如,現(xiàn)有技術(shù)已經(jīng)采用了數(shù)字來說明四種類型的音調(diào)和無音調(diào)。表2顯示了現(xiàn)有技術(shù)在拼音中使用數(shù)字來表示音調(diào)。
因此,現(xiàn)有技術(shù)將字guó顯示為guo2,將mā顯示為ma1,等等。拼音的現(xiàn)有技術(shù)混合版本對于開始的讀者難于明白,因?yàn)樽x者必須作出在數(shù)字和音調(diào)的正確類型和位置之間的認(rèn)知跳躍。因此需要一種在簡體中文、繁體中文、拼音和英文之間翻譯的自動(dòng)方法。這個(gè)需要延伸到用于以正確的音調(diào)標(biāo)記來顯示拼音的方法。
發(fā)明內(nèi)容
本發(fā)明是用于在簡體中文字、繁體中文字、拼音字和英文字之間翻譯的方法。本發(fā)明的軟件實(shí)施例是可以在萬維網(wǎng)網(wǎng)頁上工作的計(jì)算機(jī)程序或作為在獨(dú)立計(jì)算機(jī)上的程序的計(jì)算機(jī)程序。本發(fā)明的軟件實(shí)施例包括翻譯機(jī)程序(TP)。TP接受Big 5、GB2312、ASCII或任何Unicode編碼方案的字符或字,并且將所述字符或字翻譯為Unicode。TP然后確定是否用戶輸入是繁體中文字、簡體中文字、拼音或英文字。TP按照需要將用戶輸入翻譯為繁體中文字、簡體中文字、帶有音調(diào)的拼音字和英文字。TP使用簡體中文/繁體中文轉(zhuǎn)換表來在簡體中文字和繁體中文字之間翻譯。TP也使用繁體中文/拼音/英文字典來在繁體中文字、拼音和英文之間翻譯。TP然后顯示簡體中文字、繁體中文字、帶有音調(diào)的拼音字和英文字。如果被輸入的字符是繁體中文字并且沒有相應(yīng)簡體中文字,則TP顯示一個(gè)消息來指示繁體中文字沒有簡體中文字的等同物。
在所附的權(quán)利要求中給出了相信具有新穎性的特征。但是,通過下面結(jié)合附圖詳細(xì)描述說明性的實(shí)施例,本發(fā)明本身以及優(yōu)選使用方式、另外的目的及其優(yōu)點(diǎn)將最佳地被理解。
圖1是用于實(shí)現(xiàn)本發(fā)明的計(jì)算機(jī)網(wǎng)絡(luò)的圖示;圖2是用于實(shí)現(xiàn)本發(fā)明的存儲(chǔ)器的圖示;圖3是本發(fā)明的翻譯器程序(TP)的邏輯的圖示;圖4是本發(fā)明的圖形用戶界面(GUI)的圖示。
具體實(shí)施例方式
在此使用的術(shù)語“帶有音調(diào)的拼音”指的是中文的拼音語音版本,其中在適當(dāng)?shù)牧_馬字母上帶有合適的音調(diào)。
在此使用的術(shù)語“ASCII”是用于信息交換的美國標(biāo)準(zhǔn)代碼的縮寫,指的是用于在QWERY鍵盤上提供的羅馬字母、阿拉伯?dāng)?shù)字、控制字符、各種符號(hào)的編碼語言。
在此使用的術(shù)語“Big 5”指的是用于繁體中文字集的編碼語言。
在此使用的術(shù)語“計(jì)算機(jī)”指的是能夠與用戶或其它計(jì)算機(jī)交互的、包括處理器、存儲(chǔ)器和操作系統(tǒng)的機(jī)器,應(yīng)當(dāng)包括但不限于臺(tái)式計(jì)算機(jī)、筆記本計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、服務(wù)器、手持計(jì)算機(jī)和類似的器件。
在此使用的術(shù)語“GB2312”指的是用于簡體中文字集的編碼語言。
在此使用的術(shù)語“混合拼音”指的是中文的拼音語音版本,其中在適當(dāng)?shù)牧_馬字母上沒有合適的音調(diào),但是相反在字中或尾部帶有數(shù)字來表示語調(diào)標(biāo)記。
在此使用的術(shù)語“沒有音調(diào)的拼音”指的是中文的拼音語音版本,其中在適當(dāng)?shù)牧_馬字母上沒有合適的音調(diào)。
在此使用的“Unicode”指的是由Unicode協(xié)會(huì)開發(fā)的編碼語言,包括世界上多數(shù)語言,其中包括簡體中文字集和繁體中文字集。
圖1是與本發(fā)明相關(guān)聯(lián)的計(jì)算機(jī)網(wǎng)絡(luò)90。計(jì)算機(jī)網(wǎng)絡(luò)90包括與網(wǎng)絡(luò)96電子連接的本地機(jī)器95。本地機(jī)器95經(jīng)由網(wǎng)絡(luò)96電子連接到遠(yuǎn)程機(jī)器94和遠(yuǎn)程機(jī)器93。本地機(jī)器95也經(jīng)由網(wǎng)絡(luò)96電子連接到服務(wù)器91和數(shù)據(jù)庫92。網(wǎng)絡(luò)96可以是諸如局域網(wǎng)(LAN)這樣的簡化網(wǎng)絡(luò)連接,或者可以是諸如廣域網(wǎng)(WAN)或因特網(wǎng)這樣的較大網(wǎng)絡(luò)。而且,圖1中所述的計(jì)算機(jī)網(wǎng)絡(luò)90意欲作為可以包括本發(fā)明的可能操作網(wǎng)絡(luò)的表示,不意欲作為結(jié)構(gòu)的限定。
包括處理器、存儲(chǔ)器和輸入/輸出器件的連接和定位的計(jì)算機(jī)的內(nèi)部配置是本領(lǐng)域內(nèi)公知的。本發(fā)明是可以在計(jì)算機(jī)程序中實(shí)現(xiàn)的方法。參見圖2,本發(fā)明的方法通過翻譯器程序(TP)200以軟件實(shí)現(xiàn)。在此所述的TP 200可以被存儲(chǔ)在圖1中所述的任何計(jì)算機(jī)的存儲(chǔ)器中?;蛘?,TP 200可以被存儲(chǔ)在外部存儲(chǔ)器,諸如可拆卸盤或CD-ROM。存儲(chǔ)器100指的是在圖1的計(jì)算機(jī)之一內(nèi)的存儲(chǔ)器。存儲(chǔ)器100也包括Unicode翻譯器程序102、簡體中文/繁體中文轉(zhuǎn)換表104和繁體中文/拼音/英文字典108。本發(fā)明可以通過存儲(chǔ)器100連接到Unicode翻譯器程序102、簡體中文/繁體中文轉(zhuǎn)換表104和繁體中文/拼音/英文字典108。作為本發(fā)明的一部分,存儲(chǔ)器100可以配置TP 200。處理器106可以執(zhí)行在TP 200內(nèi)包括的指令。
在替代的實(shí)施例中,TP 200可以被存儲(chǔ)在其它計(jì)算機(jī)的存儲(chǔ)器中。在其它計(jì)算機(jī)的存儲(chǔ)器中存儲(chǔ)TP 200使得處理器工作負(fù)荷被分布在多個(gè)處理器上而不是單個(gè)處理器上。TP 200在各種存儲(chǔ)器上的進(jìn)一步配置是本領(lǐng)域內(nèi)的技術(shù)人員公知的。
在所述優(yōu)選實(shí)施例中,本發(fā)明是可以從因特網(wǎng)訪問的網(wǎng)頁。本發(fā)明的TP200的邏輯的流程圖被圖解在圖3中。TP 200是用于在簡體中文字、繁體中文字、拼音和英文之間翻譯的程序。當(dāng)用戶訪問萬維網(wǎng)網(wǎng)頁時(shí),TP 200開始(202)。用戶然后輸入用戶的輸入,包括漢字、拼音或英文字(204)。在步驟204輸入的用戶輸入可以是繁體中文字、簡體中文字、帶有音調(diào)的拼音字、沒有音調(diào)的拼音字、混合拼音字或英文字。而且,在步驟204的輸入可以是以GB2312、Big 5或任何Unicode格式。TP 200接受GB2312、Big 5或Unicode編碼(即UTF-8),因?yàn)門P 200將字符數(shù)據(jù)翻譯為UCS-2數(shù)據(jù)(206)。TP 200可以利用圖2中的Unicode翻譯程序102來將輸入的字符翻譯為USC-2數(shù)據(jù)。在混合拼音或無音調(diào)的拼音和繁體中文或簡體中文之間的翻譯程序是本領(lǐng)域內(nèi)的普通技術(shù)人員所公知的。雖然GB2312和Big 5彼此不兼容,但是GB2312和Big 5都與Unicode兼容。換句話說,以GB2312編碼的萬維網(wǎng)網(wǎng)頁不識(shí)別Big 5字符,以Big 5編碼的萬維網(wǎng)網(wǎng)頁不識(shí)別GB2312字符。但是,以Unicode編碼的萬維網(wǎng)網(wǎng)頁識(shí)別GB2312字符和Big 5字符,因?yàn)閁nicode包括GB2312字符和Big 5字符。
TP 200然后確定用戶的輸入是否是簡體中文字(212)。如果用戶的輸入不是簡體中文字,則TP 200進(jìn)行到步驟216。如果用戶的輸入是簡體中文字,則TP 200使用簡體中文/繁體中文轉(zhuǎn)換表208來確定簡體中文字的相應(yīng)繁體中文字(214)。簡體中文/繁體中文轉(zhuǎn)換表208是以Unicode編碼的JAVATM散列表,它包括在所有的簡體中文字和它們的等同繁體中文字之間的交叉引用。簡體中文/繁體中文轉(zhuǎn)換表208可以是類似于圖2中的簡體中文/繁體中文轉(zhuǎn)換表104。在散列表中的數(shù)據(jù)是以UCS-2 Unicode格式的。因?yàn)榇嬖诖蠹s1,250個(gè)簡體中文字,散列表包括大約2500項(xiàng)-每個(gè)用于每個(gè)簡體中文字和相應(yīng)繁體中文字。
在步驟214,TP 200也使用繁體中文/拼音/英文字典210來確定繁體中文字的帶有音調(diào)的拼音和英文翻譯。繁體中文/拼音/英文字典210是以Unicode編碼的字典,包括用于具有帶有音調(diào)的拼音和英文翻譯的所有繁體中文字的項(xiàng)目。當(dāng)給定的用戶輸入具有多個(gè)含義時(shí),繁體中文/拼音/英文字典210給出所述用戶輸入的最常用的字。繁體中文/拼音/英文字典210可以是類似于圖2的繁體中文/拼音/英文字典108。TP 200然后進(jìn)行到步驟230。
返回步驟216,TP 200然后進(jìn)行確定是否用戶輸入是繁體中文字(216)。如果用戶輸入不是繁體中文字,則TP 200進(jìn)行到步驟220。如果用戶輸入是繁體中文字,則TP 200使用簡體中文/繁體中文轉(zhuǎn)換表208來確定等同于繁體中文字的簡體中文字(218)。在步驟218,TP 200也使用繁體中文/拼音/英文字典210來確定繁體中文字的帶有音調(diào)的拼音和英文翻譯。TP 200然后進(jìn)行到步驟230。如果所輸入的字符是繁體中文字并且沒有相應(yīng)簡體中文字,則TP 200顯示一個(gè)消息來指示繁體中文字沒有相應(yīng)簡體中文字。
返回步驟220,TP 200確定是否用戶輸入是拼音字(220)。如果用戶輸入不是拼音字,則TP 200進(jìn)行到步驟224。如果用戶輸入是拼音字,則TP 200使用繁體中文/拼音/英文字典210以確定拼音字的繁體中文字和英文翻譯(222)。在步驟222,TP 200也使用簡體中文/繁體中文轉(zhuǎn)換表208來確定拼音字的繁體中文字的相應(yīng)簡體中文字。TP 200然后進(jìn)行到步驟230。
返回步驟224,TP 200然后進(jìn)行確定是否用戶輸入是英文字(224)。如果用戶輸入不是英文字,則TP 200進(jìn)行到步驟228。如果用戶輸入是英文字,則TP 200使用繁體中文/拼音/英文字典210來確定所述英文字的繁體中文字和帶有音調(diào)的拼音翻譯(226)。在步驟226,TP 200也使用簡體中文/繁體中文轉(zhuǎn)換表208來確定所述英文字的繁體中文字的相應(yīng)簡體中文字。TP 200然后進(jìn)行到步驟230。
在步驟228,TP 200顯示一個(gè)差錯(cuò)消息所輸入的字符不是可識(shí)別的簡體中文字、繁體中文字、拼音字或英文字(228),并且結(jié)束(232)。
在步驟230,TP 200顯示簡體中文字、繁體中文字、拼音字或英文字(230)。TP 200可以選用地首先顯示用戶輸入,然后在用戶輸入后面顯示被翻譯的字符和字。TP 200然后結(jié)束(232)。
轉(zhuǎn)向圖4,其中圖解了本發(fā)明的圖形用戶界面(GUI)300的實(shí)施例。GUI300是本發(fā)明的萬維網(wǎng)頁面實(shí)施例的內(nèi)容的示例。GUI 300也是在單個(gè)計(jì)算機(jī)上可運(yùn)行的、本發(fā)明的獨(dú)立計(jì)算機(jī)程序?qū)嵤├娘@示的示例。GUI 300包括用戶輸入字段302。用戶可以利用計(jì)算機(jī)的復(fù)制和粘貼操作來向用戶輸入?yún)^(qū)302中輸入字符。在復(fù)制和粘貼操作中,用戶加亮所期望的字符,從菜單選擇“復(fù)制”,將光標(biāo)放置到用戶輸入?yún)^(qū)302中,并且從菜單選擇“粘貼”。被加亮的字符然后顯示在用戶輸入字段302中。本領(lǐng)域內(nèi)的普通技術(shù)人員知道用于在計(jì)算機(jī)上實(shí)現(xiàn)復(fù)制和粘貼操作的方法。用戶也可以通過本領(lǐng)域內(nèi)普通技術(shù)人員所知道的方法來向用戶輸入?yún)^(qū)302中輸入字符。
作為本發(fā)明的一部分,當(dāng)用戶使用復(fù)制和粘貼操作來向用戶輸入?yún)^(qū)302中輸入字符時(shí),TP 200將識(shí)別所輸入的字符而不論在被加亮的“復(fù)制”文本中使用的編碼格式如何。例如,用戶可能正在觀看以繁體中文所寫的另一個(gè)萬維網(wǎng)頁面,并且遇到用戶不認(rèn)識(shí)的一個(gè)字。用戶可以隨后加亮不認(rèn)識(shí)的字,復(fù)制所述字,在用戶輸入?yún)^(qū)302中粘貼所述字,單擊提交按鍵304來確定與所述繁體字相當(dāng)?shù)暮嗴w字。本發(fā)明接受在其他萬維網(wǎng)頁面中使用的Big 5編碼,因?yàn)锽ig 5與Unicode兼容。在另一個(gè)示例中,用戶可能正在觀看以簡體中文所寫的另一個(gè)萬維網(wǎng)頁面,并且遇到用戶不認(rèn)識(shí)的一個(gè)字。用戶可以隨后加亮不認(rèn)識(shí)的字,復(fù)制所述字,在用戶輸入?yún)^(qū)302中粘貼所述字,單擊提交按鍵304來確定與所述簡體字相當(dāng)?shù)姆斌w字。本發(fā)明接受在其他萬維網(wǎng)頁面中使用的GB2312編碼,因?yàn)镚B2312與Unicode兼容。如果使用Big 5或GB2312編碼來實(shí)現(xiàn)本發(fā)明,則本發(fā)明將依賴于編碼語言而被限于簡體中文或繁體中文。用戶也可以使用復(fù)制和粘貼功能來輸入ASCII或Unicode格式的英文字、帶有語調(diào)的拼音、混合拼音或不帶有語調(diào)的拼音。
在用戶已經(jīng)在用戶輸入?yún)^(qū)302中插入了字符或字后,用戶可以單擊提交按鍵304。提交按鍵304指令TP 200分析在用戶輸入?yún)^(qū)302中的字符。如圖4中所示,用戶已經(jīng)輸入了簡化中文字符guó,它表示國。TP 200在用戶輸入?yún)^(qū)域302下顯示簡體中文字306、相應(yīng)繁體中文字308、適當(dāng)加有音調(diào)的拼音310和英文翻譯312。用戶可以輸入所期望的多個(gè)字符,并且隨意繼續(xù)利用本發(fā)明。
參照上述說明,應(yīng)當(dāng)明白,包括大小、材料、形狀、形式、功能和操作方式的本發(fā)明的部分的最佳空間關(guān)系被認(rèn)為是對于本領(lǐng)域內(nèi)的技術(shù)人員顯然和明顯的,并且本發(fā)明意欲包括附圖中所述的內(nèi)容和說明書中所述的內(nèi)容的所有等同關(guān)系。通過記錄或刪除在本說明書中包括的一些步驟,本發(fā)明的新穎精神仍然可以得到體現(xiàn)。本發(fā)明的精神不意欲被以除了由所附的權(quán)利要求的適當(dāng)結(jié)構(gòu)之外的任何方式限定。
權(quán)利要求
1.一種方法,包括使用Unicode來確定簡體中文字的相應(yīng)繁體中文字;使用Unicode來將簡體中文字翻譯為帶有音調(diào)的拼音字和英文字。
2.按照權(quán)利要求1的方法,還包括將簡體中文字接受為用戶輸入,其中以GB2312或Unicode來編碼所述簡體中文字。
3.按照權(quán)利要求1的方法,還包括將簡體中文字從GB2312翻譯為Unicode。
4.按照權(quán)利要求1的方法,還包括訪問轉(zhuǎn)換表以確定繁體中文字。
5.按照權(quán)利要求4的方法,其中所述轉(zhuǎn)換表是JAVA散列表。
6.按照權(quán)利要求1的方法,還包括訪問一個(gè)字典以確定帶有音調(diào)的拼音字和英文字。
7.按照權(quán)利要求1的方法,其中不使用中間語言來確定繁體中文字。
8.按照權(quán)利要求1的方法,還包括顯示簡體中文字、繁體中文字、帶有音調(diào)的拼音字、英文字。
9.一種方法,包括使用Unicode來確定繁體中文字的相應(yīng)簡體中文字;使用Unicode來將繁體中文字翻譯為帶有音調(diào)的拼音字和英文字。
10.按照權(quán)利要求9的方法,還包括將繁體中文字接受為用戶輸入,其中以Big 5或Unicode來編碼所述簡體中文字。
11.按照權(quán)利要求9的方法,還包括將繁體中文字從Big 5翻譯為Unicode。
12.按照權(quán)利要求9的方法,還包括訪問轉(zhuǎn)換表以確定簡體中文字。
13.按照權(quán)利要求12的方法,其中所述轉(zhuǎn)換表是JAVA散列表。
14.按照權(quán)利要求9的方法,還包括訪問一個(gè)字典以確定帶有音調(diào)的拼音字和英文字。
15.按照權(quán)利要求9的方法,其中不使用中間語言來確定簡體中文字。
16.按照權(quán)利要求9的方法,還包括顯示繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字。
17.一種方法,包括使用Unicode來將拼音字翻譯為繁體中文字、簡體中文字和英文字。
18.按照權(quán)利要求17的方法,其中拼音字是未加音調(diào)的拼音字到混合拼音字。
19.按照權(quán)利要求17的方法,還包括訪問字典以確定繁體中文字和英文字。
20.按照權(quán)利要求17的方法,還包括訪問轉(zhuǎn)換表以確定簡體中文字。
21.按照權(quán)利要求20的方法,其中所述轉(zhuǎn)換表是JAVA散列表。
22.按照權(quán)利要求17的方法,其中不使用中間語言來確定簡體中文字。
23.按照權(quán)利要求17的方法,還包括顯示繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字。
24.一種方法,包括使用Unicode來將英文字翻譯為繁體中文字、簡體中文字和帶有音調(diào)的拼音字。
25.按照權(quán)利要求24的方法,還包括訪問字典以確定繁體中文字和帶有音調(diào)的拼音字。
26.按照權(quán)利要求24的方法,還包括訪問轉(zhuǎn)換表以確定簡體中文字。
27.按照權(quán)利要求26的方法,其中所述轉(zhuǎn)換表是JAVA散列表。
28.按照權(quán)利要求24的方法,其中不使用中間語言來確定簡體中文字。
29.按照權(quán)利要求24的方法,還包括顯示英文字、繁體中文字、簡體中文字、帶有音調(diào)的拼音字。
30.一種在計(jì)算機(jī)上可操作的程序產(chǎn)品,所述程序產(chǎn)品包括一種計(jì)算機(jī)可用介質(zhì);其中所述計(jì)算機(jī)可用介質(zhì)包括下述指令用于使用Unicode來確定簡體中文字的相應(yīng)繁體中文字的指令;用于使用Unicode來將簡體中文字翻譯為帶有音調(diào)的拼音字和英文字的指令。
31.按照權(quán)利要求30的程序產(chǎn)品,還包括用于將簡體中文字接受為用戶輸入的指令,其中以GB2312或Unicode來編碼所述簡體中文字。
32.按照權(quán)利要求30的程序產(chǎn)品,還包括用于將簡體中文字從GB2312翻譯為Unicode的指令。
33.按照權(quán)利要求30的程序產(chǎn)品,還包括用于訪問轉(zhuǎn)換表以確定繁體中文字的指令。
34.按照權(quán)利要求33的程序產(chǎn)品,其中所述轉(zhuǎn)換表是JAVA散列表。
35.按照權(quán)利要求30的程序產(chǎn)品,還包括用于訪問一個(gè)字典以確定帶有音調(diào)的拼音字和英文字的指令。
36.按照權(quán)利要求30的程序產(chǎn)品,其中不使用中間語言來確定繁體中文字。
37.按照權(quán)利要求30的程序產(chǎn)品,還包括用于顯示簡體中文字、繁體中文字、帶有音調(diào)的拼音字、英文字的指令。
38.一種在計(jì)算機(jī)上可操作的程序產(chǎn)品,所述程序產(chǎn)品包括一種計(jì)算機(jī)可用介質(zhì);其中所述計(jì)算機(jī)可用介質(zhì)包括下述指令用于使用Unicode來確定繁體中文字的相應(yīng)簡體中文字的指令;用于使用Unicode來將繁體中文字翻譯為帶有音調(diào)的拼音字和英文字的指令。
39.按照權(quán)利要求38的程序產(chǎn)品,還包括用于將繁體中文字接受為用戶輸入的指令,其中以Big 5或Unicode來編碼所述簡體中文字。
40.按照權(quán)利要求38的程序產(chǎn)品,還包括用于將繁體中文字從Big 5翻譯為Unicode的指令。
41.按照權(quán)利要求38的程序產(chǎn)品,還包括用于訪問轉(zhuǎn)換表以確定簡體中文字的指令。
42.按照權(quán)利要求38的程序產(chǎn)品,其中所述轉(zhuǎn)換表是JAVA散列表。
43.按照權(quán)利要求38的程序產(chǎn)品,還包括用于訪問一個(gè)字典以確定帶有音調(diào)的拼音字和英文字的指令。
44.按照權(quán)利要求38的程序產(chǎn)品,其中不使用中間語言來確定簡體中文字。
45.按照權(quán)利要求38的程序產(chǎn)品,還包括用于顯示繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字的指令。
46.一種在計(jì)算機(jī)上可操作的程序產(chǎn)品,所述程序產(chǎn)品包括一種計(jì)算機(jī)可用介質(zhì);其中所述計(jì)算機(jī)可用介質(zhì)包括下述指令有使用Unicode來將拼音字翻譯為繁體中文字、簡體中文字和英文字的指令。
47.按照權(quán)利要求46的程序產(chǎn)品,其中拼音字是未加音調(diào)的拼音字到混合拼音字。
48.按照權(quán)利要求46的程序產(chǎn)品,還包括用于訪問字典以確定繁體中文字和英文字的指令。
49.按照權(quán)利要求46的程序產(chǎn)品,還包括用于訪問轉(zhuǎn)換表以確定簡體中文字的指令。
50.按照權(quán)利要求49的程序產(chǎn)品,其中所述轉(zhuǎn)換表是JAVA散列表。
51.按照權(quán)利要求46的程序產(chǎn)品,其中不使用中間語言來確定簡體中文字。
52.按照權(quán)利要求46的程序產(chǎn)品,還包括用于顯示繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字的指令。
53.一種在計(jì)算機(jī)上可操作的程序產(chǎn)品,所述程序產(chǎn)品包括一種計(jì)算機(jī)可用介質(zhì);其中所述計(jì)算機(jī)可用介質(zhì)包括下述指令用于使用Unicode來將英文字翻譯為繁體中文字、簡體中文字和帶有音調(diào)的拼音字的指令。
54.按照權(quán)利要求53的程序產(chǎn)品,還包括用于訪問字典以確定繁體中文字和帶有音調(diào)的拼音字的指令。
55.按照權(quán)利要求53的程序產(chǎn)品,還包括用于訪問轉(zhuǎn)換表以確定簡體中文字的指令。
56.按照權(quán)利要求55的程序產(chǎn)品,其中所述轉(zhuǎn)換表是JAVA散列表。
57.按照權(quán)利要求53的程序產(chǎn)品,其中不使用中間語言來確定簡體中文字。
58.按照權(quán)利要求53的程序產(chǎn)品,還包括用于顯示英文字、繁體中文字、簡體中文字、帶有音調(diào)的拼音字的指令。
全文摘要
公開一種在簡體中文字、繁體中文字、拼音字和英文字之間翻譯的方法。本發(fā)明包括翻譯器程序(TP)。TP接受以Big 5、GB2312、ASCII或任何Unicode編碼方案的字符或字,并且將所述字符或字翻譯為Unicode。TP按照要求將用戶輸入翻譯為繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字。TP然后顯示繁體中文字、簡體中文字、帶有音調(diào)的拼音字、英文字。如果輸入的字符是繁體中文字并且沒有相應(yīng)簡體中文字,則TP顯示一個(gè)消息來指示繁體中文字沒有相應(yīng)簡體中文字。
文檔編號(hào)G06F17/28GK1558341SQ200410034358
公開日2004年12月29日 申請日期2004年4月12日 優(yōu)先權(quán)日2003年7月10日
發(fā)明者陳彥甫, 約翰·W·鄧斯莫伊爾, W 鄧斯莫伊爾 申請人:國際商業(yè)機(jī)器公司