專利名稱:處理中文文本的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計算機(jī)處理中文文本的改進(jìn)型系統(tǒng)和方法,尤其涉及利用計算機(jī)處理語音中文文本和漢字的改進(jìn)型系統(tǒng)和方法。
在計算機(jī)上錄入(輸入)和處理中文文本是一個非常困難的問題。中文字符的龐大數(shù)量是該困難的一個實(shí)例。在中文的方塊字(漢字)書寫系統(tǒng)中,存在3000至6000個常用的中文字符(漢字)。如果包括相對不常用的字符,存在1萬以上的漢字。在該困難之外在中文中還存在文本標(biāo)準(zhǔn)化、多同音異義字以及麻煩定義的詞的邊界等問題,從而妨礙了利用計算機(jī)有效地處理漢字文本。盡管經(jīng)過幾十年的深入并且已有數(shù)百種不同的方法,漢字的計算機(jī)輸入及處理是妨礙在中國使用計算機(jī)尤其在文本處理上的主要障礙。
目前可以得到的中文文本輸入及處理的計算機(jī)系統(tǒng)可以分成三類。
第一類系統(tǒng)基于把方塊字分解成簡單的圖形成分。鍵盤上的不同鍵分配為代表漢字的不同的簡單圖形成分。這樣,通過幾次擊鍵可以鍵入作為這些簡單圖形成分的組合的各個字符。這種方法的例子包括臺灣的Changji法和中國大陸的五筆字型法。這種方法的主要缺點(diǎn)是對漢字成分的鍵位分配是人為的。在Changji法和五筆字型法中,對代碼的分配必須機(jī)械地記憶。記住代表各成分的各鍵是困難和費(fèi)時的。此外,在許多情況下把漢字分解成簡單成分不是唯一的。盡管這些方法由專業(yè)的錄入員所采用,并且得到很好訓(xùn)練的打字員表現(xiàn)出高速度,但計算機(jī)專家和其它的專業(yè)人員不大使用這些方法,更不用說一般的人們了。從而,這些方法趨于限制講中文的一般人員使用計算機(jī)。
第二類和第三類系統(tǒng)遇到中文處理中的“同音異義字問題”。
第二類系統(tǒng)是語音輸入(即中國大陸的拼音和臺灣的“語音符號”或BPMF),這是除專業(yè)打字員外各個人最常采用的方法。中文的漢字書寫系統(tǒng)是對該方法概念上的和實(shí)踐上的壁壘。
因?yàn)楹蛶兹f個字符相比只有大約1300個不同的語音音節(jié),一個語音音節(jié)可能對應(yīng)著許多不同的漢字。例如,普遍話中“yi”的發(fā)音可以對應(yīng)100多個漢字。當(dāng)把語音音節(jié)轉(zhuǎn)換為漢字時這將產(chǎn)生不定性。
為了解決“同音異義問題”,大部分語音輸入系統(tǒng)采用多種選擇法。例子請見83年5月5日授權(quán)的J.Heinzl等人的德國專利3,142,138;91年9月10日授權(quán)的K.C.Hsieh的美國專利5,047,932以及91年3月8日授權(quán)的Tan Shanguang的中國專利1,064,957。在鍵入一個語音音節(jié)之后,計算機(jī)顯示具有相同發(fā)音的所有可能的漢字。在某些情況下,在屏幕上不可能有顯示具有相同發(fā)音的所有可能字符的足夠空間。這些情況要求上下滾動。因此,這些基于各個音節(jié)的語音方法是很慢的。
現(xiàn)有技術(shù)中已公開根據(jù)推演相鄰漢字的概率來對多種選擇方法進(jìn)行改進(jìn)。例子見92年4月1日授權(quán)的R.W.Sproat的英國專利2,248,328。概率方法可以進(jìn)一步和語法限制結(jié)合起來。例子見Computer Processing of Chinese and OrientalLanguages,Vol.6,Num 1,Page 85,June 1992中K.T.Lua等人的論文。但是,這些方法的變換準(zhǔn)確性(語音到漢字)典型地限于80%左右。
第三類系統(tǒng)把語音-字符輸入方法和外加的非語音符號結(jié)合起來。把非語音的符號加到語音符號上以人為地區(qū)別發(fā)音相同的字符。例子包括帶有字根標(biāo)志的語音拼寫(85年11月20日授權(quán)的C.C.Chen的英國專利2,158,776)和帶有筆劃數(shù)的語音拼寫(92年11月25日授權(quán)的G.Xie的中國專利1,066,518)。這些方法要求記住人為的規(guī)則或者要求計算筆劃數(shù),后者明顯的降低了輸入速度。
除了“同音異義問題之外”,在處理中文時存在著“詞邊界問題”。
盡管現(xiàn)代漢語中多于80%的詞具有多音節(jié)(即兩個或更多的漢字),但在書寫系統(tǒng)中各詞是不分開的(與所有的歐語甚至與朝鮮語相反)。此外,語音中文的輸入通常是在不考慮詞的邊界而一個音節(jié)接著一個音節(jié)地執(zhí)行的。
盡管廣泛地承認(rèn)多音節(jié)詞并且缺乏標(biāo)準(zhǔn)的方式在詞的邊界界定詞,在中文中詞的定義甚至詞的實(shí)體是有爭論的。另外,因?yàn)閭鹘y(tǒng)上中文書寫成不帶詞間間隔的連續(xù)漢字串,普通的中國人不具有一個“詞”意味著什么的清楚概念。在許多情況中不清楚什么地方應(yīng)該放上詞的邊界或者定界符如空格。爭論可用下述情況舉例說明。
1.復(fù)合名詞。在英文中,二個獨(dú)立的實(shí)詞可以相結(jié)合以形成一個復(fù)合名詞,例如,blackoard,rattlesnake。在英文中存在著是否應(yīng)該把這些復(fù)合字符串對待為一個詞或兩個詞的爭論。在中國因?yàn)闆]有廣泛接受的先例,關(guān)于復(fù)合名詞的爭論要劇烈得多。例如,當(dāng)在中文拼音詞典中例舉詞“nanguangboyuan”(男廣播員)時,不同的人可能把它考慮成二個詞(nan guangboyuan)甚至三個詞(nan guangbo yuan)。
2.詞綴。所有的中文動詞可以帶有“詞綴單元”-le(了)、-guo(過)或者-zhe(著),這些詞綴單元使動詞成為過去、完成或進(jìn)行時態(tài)。所有的形容詞可以附加-de(的)。但是這些句法單元也當(dāng)作稱之為助詞的獨(dú)立詞出現(xiàn)。不同的語言學(xué)校對待這些句法單元是不同的。一些學(xué)校把這些句法單元處理為“專有的”詞綴,即是其所附加的詞中的一部分。另外一些學(xué)校把它們處理為獨(dú)立的助詞,即分開的詞。
一個詞綴是詞的一部分而一個助詞是一個獨(dú)立的詞。例如,盡管大部分語言學(xué)家把名詞詞尾-hua、-jia、-yuan、-xing和zhuyi考慮為單個詞中的詞綴,一些語言學(xué)家認(rèn)為它們是單獨(dú)的助詞(分開的詞)。另一方面,諸如-z,-r和-tou的詞尾總是被處理為名詞的詞綴,而不是單獨(dú)的助詞。
3.復(fù)合動詞。中文中有一族和德語中的可分割的動詞(diezerbrechbar Zeiwort)如aufzichen、heraufziehen等。非常類似的動詞。這些“可分割的”動詞可以采用中綴-zu-和-ge-變成不定式或過去分詞。
在中文中,類似的復(fù)合動詞可以具有中綴-de-或者-bu-,以表示“能力”或否定。例子是taiqilai(抬起來),它具有taideqilai(抬得起來)及taibuqilai(抬不起來)的變體,和上面的德文動詞非常相似。另外,詞組“taiqi tou lai”、“taideqi tou lai”和“taibuqi tou lai”是使用復(fù)合動詞的類似句子結(jié)構(gòu)(如“zie hendein Kapf auf”。從這個觀點(diǎn)上,“taiqilai”應(yīng)該是一個詞。但是,許多語言學(xué)家認(rèn)為這些音節(jié)是單獨(dú)的詞(tai、qi、lai)并且分開寫它們。
如上面舉例說明的那樣,在中文中經(jīng)常不清楚詞的邊界應(yīng)該在何處。
雖然存在爭論,許多多音節(jié)詞被普通地承認(rèn)為是最小的語言單元或詞素,例如(1)名詞“gada”、“putao”、“feiji”等;(2)動詞“zhuanyou”、“xing wu”等,以及(3)形容詞“heised”“pangdad”等。同時普遍認(rèn)可由多個詞組成的許多短語。例如,盡管有時可以把“dianzigongye”當(dāng)作一個詞,沒有人會把短語“fazhan dianzi gongye”認(rèn)為是一個單個的詞。存在著普遍認(rèn)為是一個詞的通俗4音節(jié)成語,盡管在不同的拼音書寫格式中可能要用或者不用連字符。對于這些種類的詞,普遍承認(rèn)唯一的詞的邊界。
如上面所述,由于中文中缺少普遍認(rèn)可的正字法規(guī)則以及缺少詞分隔習(xí)慣,使得開發(fā)易于在中文文本的計算機(jī)輸入和處理中使用的一種標(biāo)準(zhǔn)成為非常困難-各個語言學(xué)校不會普遍地遵循。即使遵守狹窄的對詞的定義(即把許多復(fù)合詞處理為短語并把許多詞綴處理為助詞),仍然存在著某些不定性。通過對詞進(jìn)行廣義地定義(即把許多復(fù)合詞對待為單個單元并把許多詞綴認(rèn)可為詞的一部分),識別的準(zhǔn)確性將得到提高,但是需要存儲到計算機(jī)的存儲器的詞匯量將會太大,以至于不能包括各個單元詞以及各個帶有所有詞綴組合的詞。
為非中國人提供的中文會話教科書是用一種稱為拼音的拼音格式書寫的,其中把多音節(jié)詞看作為基本單元。拼音采用羅馬字母并且具有以多音節(jié)詞為形式列舉的詞匯表。中文拼音詞典是在1964年出版的。其修改版于1989年在中國北京由語言出版社出版,其含有約60000個詞條。在1984年頒布了定義詞的邊界的按拼音格式書寫的中文的正字法規(guī)則。
本發(fā)明的一個目的是提供一種改進(jìn)型的計算機(jī)系統(tǒng),用于在計算機(jī)上輸入和處理語音中文和漢字。
本發(fā)明的另一個目的是提供一種準(zhǔn)確的計算機(jī)系統(tǒng),其具有相對少的詞匯量(存儲器)要求,并且提供一種把輸入的中文語音(拼音或BPMF)轉(zhuǎn)換成書寫字符(漢字)的進(jìn)程,該進(jìn)程同時能適應(yīng)中文中分隔詞的各種不同的語法理論和/或各種不同的個人習(xí)慣。
本發(fā)明的另一個目的是對計算機(jī)鍵盤提供方便及有效的設(shè)計以便利中文文本的輸入和處理。
本發(fā)明的另一個目的是提供一種擴(kuò)充ASCII代碼的設(shè)計,以在不抵觸GB2312-80格式(中文字符通信的中國政府標(biāo)準(zhǔn))的英文和方塊字符(漢字)流的前提下方便以中文語音為基礎(chǔ)的信息流的存儲、打印及傳送。
本發(fā)明的另一個目的提供一種具有自動錯誤檢測及修正功能的語音中文的計算機(jī)處理系統(tǒng)。
本發(fā)明的另一個目的是提供一種允許對中文及非中文(如英文)的混合文本進(jìn)行處理的語音中文計算機(jī)處理系統(tǒng)。
本發(fā)明是一種用于準(zhǔn)確地和有效地把語音中文(拼音和BPMF)輸入到計算機(jī)系統(tǒng)里的和用于準(zhǔn)確地把語音輸入轉(zhuǎn)換成漢字形式的系統(tǒng)和方法。本系統(tǒng)具有一個帶著若干發(fā)音符號(并且與ASCII編碼相應(yīng))鍵的新穎鍵盤,它允許用戶借助一個表示音節(jié)聲調(diào)的發(fā)音符號來注釋各個輸入的語音文本音節(jié)。在鍵擊一個發(fā)音符號(或定界符)鍵時系統(tǒng)上所執(zhí)行的一個進(jìn)程判定已輸入一個音節(jié)。然后把輸入的語音音節(jié)和一個可接受的語音音節(jié)及縮語表進(jìn)行比較。如果輸入的音節(jié)在表上,則把正確拼寫和正確聲調(diào)的這個音節(jié)存儲在存儲器里并且顯示在圖形顯示器的語音部分上。該進(jìn)程連續(xù)處理相繼的音節(jié)直到輸入一個定界符為止。
一旦遇到定界符,詞串(定義為兩個定界符之間的字符串)得到處理以確定代表詞串中的詞的適當(dāng)?shù)臐h字字符。該詞串(或該詞串中的各個詞)與語音詞的詞典相比較。如果該詞串具有唯一的漢字轉(zhuǎn)換(譯文),把漢字轉(zhuǎn)換存儲在存儲器里并且顯示在圖形接口的漢字部分上。如果該詞串不和該字典相匹配,則進(jìn)行詞法分析,即從詞串移去任何標(biāo)準(zhǔn)的詞綴(如從詞綴表中進(jìn)行識別)。剩下的詞串(根)被重新分析。如果詞根仍舊不和該字典相匹配,把詞根(剩下的詞串)分解成組元成分/詞。如果組元成分和詞典唯一性地匹配,則把這些唯一性的組元成分/詞的漢字轉(zhuǎn)換存儲在存儲器里并且顯示在圖形接口的漢字部分上。
如果輸入的詞或者組元成分/詞具有不明確的轉(zhuǎn)換(在詞典中非唯一地匹配),則進(jìn)行句法分析。詞串里的名詞被分類為功能詞(功能詞/詞綴表上的并且不帶有聲調(diào)音節(jié)的詞)或表意詞(具有至少一個聲調(diào)音節(jié)的詞)中的一種(注意對本發(fā)明來說,以相同的方式使用和處理功能詞、助詞和詞綴)。功能詞被清楚地翻譯并且同時用來確定輸入的剩余詞串(根)的結(jié)構(gòu)。接著借助已翻譯過的功能詞在表意詞的基礎(chǔ)上減小或去掉任何表意詞的不明確性。通過一種統(tǒng)計模型消除表意詞的任何剩余不明確性。
可以用不同于鍵盤的設(shè)備如經(jīng)過網(wǎng)絡(luò)、磁介質(zhì)或聲學(xué)系統(tǒng)把語音文本輸入到系統(tǒng)中。通過利用專門的字符如空格來定界非中文的詞,可以處理包括中文及非中文詞的混合文本。
圖1是本發(fā)明的一種最佳實(shí)施方式的方塊圖。
圖2A表示本發(fā)明中所使用的鍵盤的一種最佳實(shí)施方式。
圖2B表示帶有聲調(diào)鍵的鍵盤的一部分的備擇實(shí)施方式。
圖2C和2D表示本系統(tǒng)中所使用的鍵盤的備擇最佳實(shí)施方式,其中各個鍵盤有從空格鍵上分隔出來的用作為聲調(diào)鍵的部分。
圖3是一種ASCII代碼數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)施方式,它包括在較低7位里的聲調(diào)發(fā)音符號和包括在較高7位中帶有聲調(diào)發(fā)音符號的所有可用的元音。
圖4是一個流程圖,表示用于鍵盤輸入的最佳處理,其把拼音詞記錄到存儲器里。
圖5是一個流程圖,表示用于以拼音格式書寫的中文詞的詞法分析及分解的進(jìn)程。
圖6是一個流程圖,表示處理帶有不明確詞串的拼音輸入的最佳句法方法。
圖7是一個表,該表帶有對每個音節(jié)各具有一個代碼格式的中文音節(jié)的最佳列表。
圖8是一個表,其帶有把中文功能詞、助詞和詞綴處理為功能詞的最佳列表。
圖1表示本系統(tǒng)1000的一種最佳實(shí)施方式的方塊圖。系統(tǒng)1000包括能夠顯示中文字符和英文文本的圖形接口1020、CPU1010、主存儲器1100和存儲設(shè)備1200。鍵盤簡要表1070存儲在主存儲器1100和/或存儲設(shè)備1200里。系統(tǒng)1000具有一個如鼠標(biāo)器的指點(diǎn)器1031,該系統(tǒng)可和網(wǎng)絡(luò)1090連接。一臺IBMRS/6000是CPU1010、存儲器(1100、1200)和圖形接口1020的一種實(shí)施方式。
圖中還顯示了新穎的鍵盤1030。該鍵盤包括聲調(diào)發(fā)音符號鍵1050和標(biāo)準(zhǔn)羅馬字符的音節(jié)輸入鍵1040。備擇的各聲調(diào)鍵1060A、B也是可能的。各聲調(diào)鍵1060A可以放在分隔開的空格鍵上。各聲調(diào)鍵1060N可以加在標(biāo)準(zhǔn)的各箭頭鍵上。在對圖2A-2D的說明中將討論這種新穎鍵盤的備擇最佳實(shí)施方式。
在存儲設(shè)備1200和/或主存儲器1100里包括用于把對鍵盤1030的鍵擊轉(zhuǎn)換為編碼后(如ASCII)的字符及發(fā)音符號的新穎數(shù)據(jù)結(jié)構(gòu),編碼后的字符及發(fā)音符號存儲在(即記錄在)存儲器(1100、1200)里。在存儲器1200里還存儲著數(shù)據(jù)結(jié)構(gòu)700、800和950。它們包括中文音節(jié)表700、功能詞/詞綴表800和中文詞典或詞匯表950。
在存儲器(1100、1200)里包括新穎的的進(jìn)程400、500和600。進(jìn)程400是一種把語音中文輸入到系統(tǒng)1000里并且有選擇地規(guī)定詞的邊界的方法(請注意在本公開中在不丟失廣義性的前提下將把語音中文看作是拼音)。進(jìn)程500是一種方法,用于對拼音文本/詞群串進(jìn)行詞法分析以確定唯一性的漢字轉(zhuǎn)換。進(jìn)程600是由進(jìn)程500使用的一種句法分析方法,用于解決模棱兩可的串/詞,即那些具有多于一種漢字轉(zhuǎn)換的串/詞。在圖3、7和8中分別說明數(shù)據(jù)結(jié)構(gòu)300、700和800。進(jìn)程400、500和600分別在圖4、5主6中說明。
典型地,用戶使用鍵盤1030把帶有適當(dāng)發(fā)音符號(見下文)的拼音文本輸入錄入到系統(tǒng)1000里。利用數(shù)據(jù)結(jié)構(gòu)300和進(jìn)程400,系統(tǒng)1000把拼音字符1022(羅馬字母、發(fā)音符號、標(biāo)點(diǎn)符號等)顯示在圖形接口1020上分隔開的屏幕上的第一部分1021中。利用進(jìn)程500和600,系統(tǒng)1000分析拼音輸入、把拼音轉(zhuǎn)換成漢字并且在圖形接口1020的第二部分1024上顯示漢字字符1025。請注意通過利用進(jìn)程500和600以及其它的語言翻譯設(shè)備1034,系統(tǒng)1000可以把已錄入的編碼后或帶有發(fā)音符號的拼音1022翻譯成其它語言,如英文。
系統(tǒng)1000還可以包括不同于鍵盤1030的其它允許輸入文本的部件,例如可以通過網(wǎng)絡(luò)1090傳送字符串。其它的輸入設(shè)備包括用于音頻文本輸入的部件1033。這些部件應(yīng)該帶有適當(dāng)?shù)尿?qū)動程序以和系統(tǒng)1000連接。請見1995年3月15日Chen等提出的名稱為“Statistical Acoustic Processing Method And ApparatusFor Speech Recognition Using A Toned Phoneme System”的美國專利申請?zhí)?8/404,786,該申請全面地作為本文的參考文獻(xiàn)。還可以用其它熟知的方法,包括磁媒體1032如軟盤,把編碼的拼音串或帶有適當(dāng)發(fā)音符號的拼音串輸入到系統(tǒng)1000里。
在輸入文本時,發(fā)音符號用于劃分中文拼音表示中的重讀音節(jié)(及某些實(shí)施方式中的非重讀音節(jié))和聲調(diào)等級(見進(jìn)程400)。發(fā)音符號是表示音節(jié)的聲調(diào)的一種符號。在本發(fā)明中,帶有聲調(diào)的詞的音節(jié)是用一個指明該音節(jié)具有聲調(diào)的發(fā)音符號注釋的。并且,該發(fā)音符號還指示聲調(diào)的類型。在普通話(標(biāo)準(zhǔn)中文)中有四種類型的聲調(diào)。它們是陽平、上聲、陰平和去聲。一些語言學(xué)家包括稱為“無聲調(diào)”的第五聲(發(fā)音符號)。
在把文本400輸入到系統(tǒng)1000期間,把聲調(diào)發(fā)音符號加到重讀音節(jié)上。借助這種編碼或劃分,在對該文本的進(jìn)一步處理(500,600)中表意詞和功能詞、助詞及詞綴之間的差別立即變得清楚了。(帶有重讀音節(jié)的詞是表意詞,而功能詞、助詞及詞綴全都列舉在800中。)在一種備擇的實(shí)施方式中,在每個不重讀(無聲調(diào))的中文音節(jié)(包括功能詞、助詞及詞綴)的后面加上一個“無聲調(diào)”發(fā)音符號。在輸入“混合的語言/文本”時,即在輸入的中文文本中包括英文或其他非中文文本時,這種實(shí)施方式是有用的。因?yàn)榉侵形牡奈谋臼遣焕冒l(fā)音符號編碼(劃分)的,可以把中文詞/音節(jié)(用包括無聲調(diào)發(fā)音符號在內(nèi)的發(fā)音符號標(biāo)志)和未標(biāo)志的非中文文本區(qū)別開來。非中文的文本還用專門的定界符,例如用詞之間的空格,受到定界。
在進(jìn)一步的語言處理期間,即翻譯、分析和/或打印期間,本發(fā)明利用在音節(jié)串中劃分重讀音節(jié)的以及指示各個重讀音節(jié)的聲調(diào)類型的發(fā)音符號把中文的語音表達(dá)(拼音)從語法上分析成詞和句子(見進(jìn)程500和600)。通過在存在著功能詞、助詞和/或詞綴的上劃分開中文句子的語音表達(dá),利用各種規(guī)則對語音表達(dá)進(jìn)行語法分析。因?yàn)樵诟鞣N中文方言中只存在相當(dāng)小數(shù)量(即100之內(nèi))的已知的確定的功能詞(以及助詞/詞綴),系統(tǒng)1000有效地進(jìn)行這項(xiàng)工作。這樣,存儲所有有用的功能詞及助詞/詞綴800所需的計算機(jī)存儲器量是相對少的。
系統(tǒng)1000準(zhǔn)確地確定詞義和句子結(jié)構(gòu)(見進(jìn)程500和600)。首先翻譯在意義、用法和聲調(diào)(無聲調(diào))上具有唯一的和明確的譯文的功能詞(以及助詞/詞綴)。功能詞(以及助詞/詞綴)還用于定義句子結(jié)構(gòu)。利用對功能詞(以及助詞/詞綴)的翻譯和所確定的句子結(jié)構(gòu),可以確定句中其它(表意)詞的意義。
而且,對本發(fā)明來說,是以相同的方式使用和處理功能詞、助詞和詞綴的。這是因?yàn)樵谥形臅鴮懼杏捎诓淮嬖诿黠@的詞邊界通常是不作區(qū)別的。功能詞、助詞和詞綴還具有類似的聲調(diào)結(jié)構(gòu)。功能詞、助詞和詞綴的最佳列表存儲在系統(tǒng)的存儲器(1100、1200)里并示于下面的圖8。
本發(fā)明的一個新穎特點(diǎn)是一種新型的鍵盤,這種鍵盤是特地為拼音中文輸入和/或?yàn)榛旌衔谋咎幚?拼音中文和非中文語言如英文的混合文本)設(shè)計的。這種鍵盤提供一種輸入帶有發(fā)音符號的拼音音節(jié)的途徑。圖2A-2D是專門設(shè)計用于拼音輸入的鍵盤1030的備擇最佳實(shí)施方式的幾個例子。這些鍵盤1030可使方便及快速地把拼音輸入到系統(tǒng)1000里。標(biāo)準(zhǔn)的美國英文鍵盤對拼音輸入是不方便的并且也不提供輸入聲調(diào)/發(fā)音符號的能力。
圖2A是一種新穎鍵盤(1030、2000)的圖,這種鍵盤是對美國英文鍵盤的一種新穎修改。在該特別的最佳實(shí)施方式里,一些鍵用作為聲調(diào)(發(fā)音符號)鍵1050,而其它的鍵1040以傳統(tǒng)的方式用作為輸入拼音字符以及其它語言(英語)字符的音節(jié)鍵1040。在一種最佳實(shí)施方式中,一些很少使用的標(biāo)點(diǎn)符號鍵被分配為聲調(diào)鍵1050。作為一種不受限制的例子“〔,{”鍵分配為陽平(發(fā)音符號)鍵2040;“〕,}”鍵分配為上聲(發(fā)音符號)鍵2050;“\,|”鍵分配為陰平(發(fā)音符號)鍵2060;“″,′”鍵分配為去聲(發(fā)音符號)鍵2070。對處理純粹的拼音文本,這四種發(fā)音符號鍵(2040-2070)是足夠的,因?yàn)槟苡貌粠Оl(fā)音符號來編碼或標(biāo)志無聲調(diào)的拼音音節(jié)和功能詞(以及助詞和詞綴)。但是,在用來處理和非中文(英文)文本相結(jié)合的拼音文本的實(shí)施方式(以及其它最佳實(shí)施方式)中,添加了另一個發(fā)音符號鍵即無聲調(diào)(發(fā)音符號)鍵2010。例如,可以把“alt鍵”2010中的一個用于這種作用。因?yàn)樵谔幚砘旌衔谋?中文和非中文在一起)的過程中將頻繁地使用無聲調(diào)鍵,可以在標(biāo)準(zhǔn)英文鍵盤的第二個“alt鍵”的位置上增加第二個無聲調(diào)鍵,以使可用別的指頭接觸。在該實(shí)施方式中,“alt鍵”應(yīng)該重新分配到雙“控制鍵”2030中的一個上??梢匀菀椎匦薷挠⑽逆I盤以對鍵進(jìn)行等效的備擇分配來提供發(fā)音符號輸入1050。
圖2B是修改后的英文鍵盤1030的一種備擇最佳實(shí)施方式2100,它具有在拼音文本處理中用于輸入各發(fā)音符號的各發(fā)音符號鍵1060B。在該實(shí)施方式2100中,對英文鍵盤1050的標(biāo)準(zhǔn)“箭頭鍵”上增加了各發(fā)音符號鍵1060。同樣,應(yīng)該增加的發(fā)音符號鍵包括陽平(發(fā)音符號)鍵2120、上聲(發(fā)音符號)鍵2130、陰平(發(fā)音符號)鍵2140以及去聲(發(fā)音符號)鍵2150。對于混合文本(或其它)處理應(yīng)該增加可選的無聲調(diào)(發(fā)音符號)鍵2110。
圖2C是鍵盤1030的另一種備擇的最佳實(shí)施方式2200的圖。該實(shí)施方式2200具有分隔開的空格杠2270,這樣允許美國英文鍵盤布局1040上的所有鍵(或者一、二個鍵之外的所有鍵)保持完整不變。在一種最佳實(shí)施方式里,空格杠2270分隔成四部分(2230、2240、2250、2260)。空格杠的最左部分2230分配給上聲(發(fā)音符號)2230。靠著最左部分2230的大的部分2260用作為空格杠2260。右手側(cè)的兩個較小部分(2240,2250)分別分配給“下聲”2250和“陰平”2240(發(fā)音部分)。陽平(發(fā)音符號)2220分配在“alt鍵”中的一個上。
這種排列是基于人機(jī)工程學(xué)的。在彈鋼琴時大姆指是最重要的指頭,但在打字中則用得少得多。該中文鍵盤的設(shè)計將在聲調(diào)輸入中更加有效地使用姆指。新的空格杠2260安排在鍵盤的中央,也就是在“F”和“J”鍵之間??梢杂脙蓚€姆指方便地觸壓它。這樣,空格杠的尺寸上完全不會在混合文本的處理中影響英文的打字。通過向掌心彎曲拇指,可以容易地接觸四個聲調(diào)鍵(2220、2230、2240、2250)。
對于純粹的拼音輸入,不需要無聲調(diào)鍵2210。在該實(shí)施方式中,“空格杠”鍵2260用作為僅輸入拼音情況下的“無聲調(diào)”鍵。在圖2C中,去聲2250和陰平2240的位置相對于一般的語言次序(第三聲和第四聲)是顛倒的,這是因?yàn)槿ヂ暿褂妙l度大的是陰平的兩倍。這種顛倒將減少疲勞并且提高效率。
對于混合文本處理(中文和非中文一起)以及某些純中文文本處理的最佳實(shí)施方式,增加了無聲調(diào)鍵2210。在本最佳實(shí)施方式里,把無聲調(diào)鍵(發(fā)音符號)2210指定在另一個“alt鍵”上??刂奇I2280中的一個指定為“alt鍵”。
圖2D表示鍵盤1030的另一種最佳實(shí)施方式2300。這種實(shí)施方式采用如鍵盤2200中那樣布置的帶有上聲2330、去聲2350和陰平2340的分隔開的空格杠2370。但是,在這種鍵盤2300里,空格杠2370的最大的中央部分2310指定為無聲調(diào)(發(fā)音符號)2310。在一個“alt鍵”的位置上設(shè)定空格作用2360。當(dāng)鍵盤2300用于輸入混合文本時,這種鍵盤是特別有用的。另一個“alt鍵”分配為陽平(發(fā)音符號)2320。同樣“控制鍵”中的一個分配為一個“alt鍵”2380。這種實(shí)施方式把無聲調(diào)鍵2310定位在可由兩個姆指接觸的非常方便的位置上。當(dāng)系統(tǒng)1000處理混合文本時由于將頻繁地使用無聲調(diào)鍵2310,這是很有幫助的。
通過在幾個鍵上增添附加的標(biāo)志可以增強(qiáng)鍵盤2300。例如,在中文中,左引號標(biāo)記2338和右引號標(biāo)記2339是不同的并各賦予了一個鍵。和著重號2344、撇號2345和小數(shù)點(diǎn)號2337一起還增加了左標(biāo)題號2341和右標(biāo)題號2342。當(dāng)輸入混合文本時同樣也使用這些標(biāo)志。在中文中用作為一種定界符的分號2336也具有一個鍵位置。
利用熟知的方法進(jìn)行鍵的分配及再分配。例如,鍵盤1030的簡要表是系統(tǒng)1000的存儲器(1100,1200)中的一個定義各鍵作用的文件1070。在RS/6000中它稱為“鍵盤翻譯表1070”。該表1070把一個字符,典型地以ASCII代碼,或一個控制指定給鍵盤1030上的每個鍵。通過改變該表1070里所分配的鍵代碼,可改變鍵盤1030上各鍵的作用。
用戶通過使用鍵盤1030錄入(輸入)拼音或混合文本。在用戶輸入一個中文(拼音)音節(jié)之后,用戶輸入和該音節(jié)有關(guān)的適當(dāng)發(fā)音符號。當(dāng)輸入純拼音時,對于非重讀音節(jié)(以及功能詞)不輸入發(fā)音符號(或備擇的空格)。當(dāng)輸入混合文本時(或在用于輸入拼音的備擇最佳實(shí)施方式中),用戶在每個非重讀音節(jié)(以及功能詞)之后輸入一個無聲調(diào)發(fā)音符號。在非中文的詞的后面輸入空格(或等效的詞邊界定界符)。空格把拼音(中文)詞和普遍接受的詞邊界劃分開來提高了系統(tǒng)1000的準(zhǔn)確性。但是,為使本發(fā)明工作,不必要求對中文詞進(jìn)行定界。見進(jìn)程400。
拼音(或混合文本)輸入存儲在系統(tǒng)1000的存儲器(1100,1200)里。在一種最佳實(shí)施方式里,輸入以ACCII格式編碼。對具有英文字符代碼和/或GB2312-80漢字代碼的標(biāo)準(zhǔn)ASCII代碼表進(jìn)行修改以包括發(fā)音符號。在一種最佳實(shí)施方式中,對每個普遍的重讀元音的大寫和小寫編碼了陽平、上聲、陰平和去聲發(fā)音符號,從而在被顯示/被打開的拼音音節(jié)里的元音上可以顯示/打開適當(dāng)?shù)陌l(fā)音符號。
圖3是用于拼音或混合輸入的ASCII編碼的數(shù)據(jù)結(jié)構(gòu)300的一種最佳實(shí)施方式。存儲塊300里具有256個單元。這些單元從0至255計數(shù)。該數(shù)字也是指定給每個ASCII代碼的單元的ASCII代碼。
ASCII代碼是由單個信息字節(jié)、低7位區(qū)(代表單元0-127)和高7位區(qū)(代表單元128-255)構(gòu)成的。每個字符、標(biāo)點(diǎn)符號或控制功能分配到一個存儲單元上。例如,大寫羅馬字母“B”分配在位置66,“換碼”功能分配到位置27,而“!”分配到位置33。
盡管羅馬字母、標(biāo)點(diǎn)符號和數(shù)字的編碼是很好定義的,在ASCII代碼中存在許多可選的空位。在這些可選的空位上各個國家可以指定特殊的符號。
每個發(fā)音符號是由一個聲調(diào)代碼或標(biāo)志表示的。在一種最佳實(shí)施方式里,五個(或四個)聲調(diào)代碼(標(biāo)志)的每一個是用數(shù)字(ASCII代碼)分配到所有ASCII代碼數(shù)據(jù)結(jié)構(gòu)300的下半部(從0到127的七位)里的存儲位置上。這些存儲位置是用于通信的。從而,通過把0到127之間的數(shù)字分配給發(fā)音符號ASCII代碼,可以在網(wǎng)絡(luò)1090上傳輸各聲調(diào)代碼。在圖3中所示的這種不受限制的例子里,分別把無聲調(diào)代碼(標(biāo)志)301、陽平代碼302、上聲代碼303、陰平代碼304和去聲代碼305分配到帶有ASCII代碼2、3、4、5和6的位置上。在美國ASCII編碼中這些單元是撲克的位置。
在該最佳實(shí)施方式里,對每個元音(大定及小寫)可以具有的每個發(fā)音符號(陽平、上聲、陰平和去聲)也分配了一個單元和一個ASCII代碼。無聲調(diào)情況可以使用定位在ASCII代碼的低7位區(qū)的英文元音。另外,略去帶有發(fā)音符號的大寫“I”和大寫“U”,因?yàn)檎Z音音節(jié)不從這些元音開始。從而存在要分配ASCII代碼的發(fā)音符號的32個元音符號。這些帶有發(fā)音符號的元音在數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)印在數(shù)字128-255之間被分配了ASCII代碼(128-159)。
在給定帶有發(fā)音符號的元音之后,當(dāng)在圖形接口1020上顯示拼音音節(jié)和打印拼音音節(jié)時,唯一性的ASCII代碼是有幫助的。系統(tǒng)1000利用其后面跟著發(fā)音符號的所輸入拼音音節(jié),借助把發(fā)音符號適當(dāng)?shù)胤旁谠撘艄?jié)的元音之上來顯示/打印正確拼寫的音節(jié)。從而,通過使用帶有在數(shù)據(jù)結(jié)構(gòu)300的位置128-159中分配的發(fā)音符號的元音,系統(tǒng)1000能夠用傳統(tǒng)的方式-發(fā)音符號在元音的上方-來打印/顯示拼音音節(jié)。例如,通過鍵擊Pin’輸入的拼音音節(jié)將顯示/打印為Pi′n 。
把帶有發(fā)音符號的元音排列在數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)并具有ASCII代碼128至159的優(yōu)點(diǎn)是中國國家標(biāo)準(zhǔn)(GB)代碼只使用從160至255的ASCII代碼數(shù)據(jù)結(jié)構(gòu)300的上半?yún)^(qū)。這樣,帶著發(fā)音符號的拼音元音可以和GB(國標(biāo))代碼(以及ASCII代碼的低7位)一起存儲和發(fā)送。
圖4表示一種把拼音音節(jié)輸入到諸如計算機(jī)存儲器1100,1200(或顯示器1020)的確實(shí)介質(zhì)上的新穎進(jìn)程400。在最佳實(shí)施方式中,進(jìn)程400帶有拼寫檢查器和自動錯誤檢測及修正進(jìn)程,后者用于檢測經(jīng)擊鍵(或其它方法)輸入到系統(tǒng)1000里的音節(jié)。進(jìn)程400還允許在最少的工作下輸入、處理及存儲中文和非中文(如英文)的混合文本。由系統(tǒng)1000執(zhí)行的輸入進(jìn)程400是一個輸入單元。
在步驟401中,用戶通過鍵擊鍵盤1030輸入一個音節(jié)(中文和非中文)。如果音節(jié)是中文,在該音節(jié)的后面輸入一個表示音節(jié)音調(diào)的發(fā)音符號。(這里在文本輸入時使用無聲調(diào)發(fā)音符號。)在非中文如英文的詞的后面不輸入發(fā)音符號。并且在步驟402可以識別非中文的詞,因?yàn)樗鼈兪怯商囟ǖ亩ń绶缈崭窠缍ǖ摹?br>
在純中文文本的情況下,在某些實(shí)施方式中不必在無聲調(diào)音節(jié)或功能詞的后面輸入發(fā)音符號。盡管在純中文文本輸入中不是必須的,但在周知的常規(guī)區(qū)分詞的地方通過在中文詞之間輸入表示詞邊界的定界符可改善系統(tǒng)1000的準(zhǔn)確性。這可以通過在詞邊界輸入像空格或其它代碼(例如雙發(fā)音符號,“esc”)的定界符來實(shí)現(xiàn)。在這種情況中,在步驟403中可以參考一個具有良好設(shè)定的詞區(qū)分的中文詞列表,以把這些中文詞和非中文的音節(jié)/詞區(qū)分開來。
當(dāng)?shù)竭_(dá)一個音節(jié)(或非中文的詞)的結(jié)尾時,系統(tǒng)1000讀一個發(fā)音符號,例如按下的聲調(diào)鍵1060(或空格)。在某些備擇的實(shí)施方式里在處理純中文文本時,可以略去無聲調(diào)發(fā)音符號。在這些情況中,某些無聲調(diào)(以及無標(biāo)志)的音節(jié)將附加到另一個音節(jié)上。為了語法發(fā)析這些字節(jié)404,把該串和音節(jié)字典700進(jìn)行比較。首先把詞典700里的最長音節(jié)和輸入的串行進(jìn)行比較。如果己輸入串的一部分和最長串相匹配,該相匹配的串用作為一個輸入的音節(jié)并且從輸入的串中檢測出來,對輸入串的剩余部分重復(fù)這個進(jìn)程。如果沒有找到和音節(jié)字典700里的最長串的匹配,則和音節(jié)字典700里的次長音節(jié)串進(jìn)行比較。反復(fù)這個進(jìn)展直至該輸入串的所有音節(jié)都得到匹配。這種進(jìn)程稱為“最長串匹配”算法并且它的例子是周知的。請見1993年10月第44卷第9期的Journal of the American Society for Information Science的第532至542頁上Z.Wu和G.Tseng的“Chinese text segmentation fortext retrievalachievements and problems”,該文章全文作為本文的參考文獻(xiàn)。
在一些輸入純中文文本的最佳實(shí)施方式里和混合文本的處理里,無聲調(diào)鍵用于標(biāo)記中文里的非重讀音節(jié)。在這些實(shí)施方式里,對所有的中文音節(jié)編碼(標(biāo)志)并且由一個發(fā)音符號明確地界定。從而,中文音節(jié)的邊界被明確地標(biāo)志。這種實(shí)施方式允許采用中文音節(jié)縮寫,因?yàn)檫@些縮寫也是明確地界定的,并且通過增添到音節(jié)列表700中得到唯一的標(biāo)識。采用音節(jié)縮寫大大地減少輸入語音中文文本所需的鍵擊次數(shù)。
在混合文本處理中所采用的步驟402里,系統(tǒng)1000確定該音節(jié)是否是一個中文音節(jié)。如果在音節(jié)之后有一個發(fā)音符號(包括無聲調(diào)發(fā)音符號),該音節(jié)是中文(步驟404)。如果沒有發(fā)音符號,該音節(jié)(詞)不是中文,例如是英文(步驟403)。還可以通過非中文詞的定界符來標(biāo)識非中文詞(步驟403)。通過處理這些語言的已知系統(tǒng),非中文詞可以得到進(jìn)一步的處理,例如拼寫檢查。
在按過一個聲調(diào)鍵(四個聲調(diào)鍵中的一個或“無聲調(diào)”鍵)之后,計算機(jī)辨識出前面的字母代表拼音音節(jié)404并且該音節(jié)是拼寫檢查過的音節(jié)405、檢查出為一種縮寫的音節(jié)或者是一種替代的拼寫407、或者是經(jīng)過錯誤檢查的音節(jié)408。這些步驟(405、407和408)利用圖7中所示的中文音節(jié)列表數(shù)據(jù)結(jié)構(gòu)700。
圖7中的中文音節(jié)表700是用于普通話中文的一種最佳音節(jié)表。因?yàn)樵谄胀ㄔ捓锟偣矁H有略超過1300個的音節(jié)(包括不同的聲調(diào)),用二字節(jié)代碼空間(65536個位子)的一小部分對這些音節(jié)編碼是方便的。向每一個音節(jié)指定唯一的二字節(jié)代碼或“短整數(shù)”。具體地,在中文音節(jié)表700中向代表各個音節(jié)的ASCII代碼串指定了一個二字節(jié)代碼。例如,對普通話拼音音節(jié)Pi’n分配了三字節(jié)代碼“814”。每個音節(jié)對應(yīng)一種標(biāo)準(zhǔn)的拼音格式,其聲調(diào)發(fā)音符號包括在適當(dāng)元音的上方。為了將縮寫添加到列表700中,該縮寫被賦予和其所縮寫音節(jié)相同的二字節(jié)代碼。例如,縮寫“d”應(yīng)該指定為212,即“d”代表的所縮寫的音節(jié)“de”在音節(jié)表700中的代碼。音節(jié)表700在存儲器(1100,1200)的空間中占據(jù)相對小的空間。
在遇到中文音節(jié)404之后,系統(tǒng)1000搜索中文音節(jié)表700以尋找匹配。如果發(fā)現(xiàn)匹配,利用標(biāo)準(zhǔn)拼寫405即中文音節(jié)表700中的拼寫錄入該音節(jié)404,并且用中文音節(jié)表700上所匹配詞的二音節(jié)代碼代替所鍵入的字符串。例如,如果輸入中文字節(jié)Pin’,系統(tǒng)1000用ASCII代碼串{80,105,110,6}代表這些擊鍵。見圖3。當(dāng)檢驗(yàn)中文音節(jié)表700尋找匹配404時,該系統(tǒng)發(fā)現(xiàn)該字符串對應(yīng)于由二字節(jié)代碼814代表的Pi’n。見圖7。從而二位字節(jié)代碼814在存儲器里代替該音節(jié)的ASCII代碼串。這樣,如果檢測出標(biāo)準(zhǔn)的拼寫405,該完整的音節(jié)按1300個中文音節(jié)中的一個(通過一個二字節(jié)代碼)存儲412在存儲器1010/1020里并且顯示在監(jiān)視器上411,顯示時聲調(diào)發(fā)音符號正確地位于元音的上方。該拼音顯示411表示在圖形接口1020顯示拼音的區(qū)域1021上。
以類似的方式,如果用戶輸入中文音節(jié)的縮寫或者速記拼寫,把代表速記拼寫的ASCII碼在步驟406和中文音節(jié)表700里的表目進(jìn)行比較。如果存在匹配,在步驟407通過用對應(yīng)于適當(dāng)非縮寫拼音音節(jié)的二字節(jié)代碼來代替該速記拼寫的所輸入的ASCII代碼,把速記(縮寫)音節(jié)轉(zhuǎn)換成適當(dāng)?shù)姆强s寫拼音音節(jié)。此外,在中文音節(jié)表700中添加了帶有代碼的縮寫,這樣將打印被縮寫的完整音節(jié)。
下面是中文音節(jié)的一些縮寫或者速記拼寫的例子。例如,在沒有任何混亂的前提下,“zi”、“si”、“ci”、“ji”、“qi”和“xi”可以拼寫為“z”、“s”、“c”、“j”、“q”和“x”。類似地,在不造成混亂的前提下,“yi”、“wu”、“yu”可以拼寫為“i”、“u”“v”。在不混淆的前提下,可以把“shg”、“xg”、“qag”和“jo”等分識別為“sheng”、“xing”、“qiang”和“jiao”等。
在帶有音節(jié)分隔標(biāo)記的音節(jié)中,音節(jié)分隔標(biāo)記,例如“xi’an”中的分隔標(biāo)記,在打字中是完全可避免的,盡管在顯示時它是應(yīng)該出現(xiàn)的。利用本系統(tǒng)1000和進(jìn)程400,上述速記打字的例子是如此方便的以至于無須學(xué)習(xí)它。在很少的學(xué)習(xí)下速寫音節(jié)的數(shù)量可以得到擴(kuò)大(增添到中文音節(jié)表700上)。
如果在步驟408檢測出錯誤的拼寫,即存在與表700的不匹配,在步驟409顯示最有可能的音節(jié)。這是通過出現(xiàn)一個可能選擇的菜單,即從中文音節(jié)表700中選擇的各種最佳匹配1023,來實(shí)現(xiàn)的。在步驟409用戶通過使用選擇設(shè)備如鼠標(biāo)器1031或鍵盤從該菜單中選擇適當(dāng)?shù)囊艄?jié)。如上面一樣,計算機(jī)把該所選的音節(jié)編碼成二字節(jié)值并且在步驟412把它存儲到存儲器里。
如果在步驟413沒有遇到定界符,如空格杠、回車或標(biāo)點(diǎn)符號鍵,在步驟415進(jìn)程400對下一個音節(jié)進(jìn)行重復(fù)。如果遇到一個定界符,在步驟414把該完整的串作為一個詞串存儲起來。在監(jiān)視器上,在圖形接口1020的拼音部分1021中顯示該詞串的正確拼音拼寫。請注意在輸入定界符的情況下定界符之間的詞串414被對待為單個詞(按照普遍接受的慣例)并且該詞將具有由這些定界符編碼的或標(biāo)志的唯一詞邊界。但是,如果未曾把定界符放置在各個組成詞的邊界上,例如不存在劃分組合各詞的普遍接受的詞邊界時,詞串414可以包括二個或更多的詞(組元)和/或詞綴。
在步驟414,以拼音格式編碼的文本也可以利用具有專門只讀存儲器ROM1081的打印機(jī)1080打印成拼音音節(jié),該打印機(jī)把表700的二字節(jié)代碼轉(zhuǎn)換成具有聲調(diào)符號的羅馬字母串,這些聲調(diào)符號位于所需音節(jié)的適當(dāng)元音上。這樣該文本變成拼音格式下的連續(xù)和可讀的打印結(jié)果,與所有的非中國人使用的會話中文教科書上的格式一樣。
圖5和圖6對例如通過進(jìn)程400輸入到系統(tǒng)1000里的拼音文本的處理方法的流程圖。在一種最佳實(shí)施方式里,拼音文本1022是通過對該系統(tǒng)的鍵盤1030的鍵擊輸入的,并且如上面所討論的那樣拼音文本1022顯示在圖形接口1020的拼音區(qū)1021中。同時,通過進(jìn)程500把上面步驟414中按詞的形式存儲的拼音輸入轉(zhuǎn)化成漢字形式并且顯示1025在圖形接口1020的漢字部分1024中。這樣,經(jīng)過鍵盤1030輸入拼音文本和發(fā)音符號的用戶在圖形接口1020的拼音部分1021上看見拼音文本1022(通過進(jìn)程400該拼音文本帶有置放在適當(dāng)元音上的發(fā)音符號)并且通過進(jìn)程500看見顯示在圖形接口的漢字部分1024上的輸入拼音的正確漢字譯文1025。在備擇的實(shí)施方式里,可以通過不同于鍵盤1030的其它方式如經(jīng)過網(wǎng)絡(luò)1090、音頻系統(tǒng)1033或象軟盤的磁媒體1032把帶有發(fā)音符號的拼音文本輸入到系統(tǒng)1000里。
進(jìn)程500把拼音輸入翻譯成漢字。系統(tǒng)1000可以按其它的方式處理拼音和漢字。例如,拼音文本1022和/或漢字文本1025可以被打印。備擇地,拼音文本1022和/或漢字文本1025可以輸入到已知的語言翻譯器1034中并且翻譯成為象英文的其它語言。
進(jìn)程500和600充分地利用詞邊界以及重讀音節(jié)上的發(fā)音符號編碼(標(biāo)記)。這兩個進(jìn)程一起處理各種各樣不同風(fēng)格的拼音書寫理論和習(xí)慣,并且達(dá)到高轉(zhuǎn)換準(zhǔn)確性。例如,如果中文詞是在很好確定的邊界上劃定的,該輸入的詞501將識別成唯一的詞511。如果該詞不是和/或不能和其它的“詞”區(qū)分開,則在系統(tǒng)1000上執(zhí)行進(jìn)程500的詞法單元,以在詞法上分析和或分解該詞串。從而本發(fā)明能夠確定該詞串中的組元詞。這是通過利用詞匯表950和利用上面說明過的“最長串匹配”算法來實(shí)現(xiàn)的。
本發(fā)明還能夠從下述兩種習(xí)慣的一種中把拼音準(zhǔn)確地處理成漢字1.詞綴包括在詞的一部分中或者2.詞綴作為與詞分離的助詞。在一種最佳實(shí)施方式中,第二種類型的詞綴(助詞)被處理為功能詞。對于習(xí)慣1,進(jìn)程500執(zhí)行詞法分析,即去掉未識別詞中包括的標(biāo)準(zhǔn)詞綴(習(xí)慣1)并且對不帶有該詞綴的剩余詞串(根)進(jìn)行分析。在以后的處理中該去掉的詞綴被對待為一個功能詞。
進(jìn)程500利用詞法處理輸入的詞串。詞法是一種語言中對詞的結(jié)構(gòu)的研究。在這里詞的結(jié)構(gòu)尤其涉及詞綴以及詞的意義是怎樣受到詞綴的影響的。在大多數(shù)的歐洲語言如英文、德文、西班牙文、芬蘭文和匈牙利文的綴字法中,詞意的改變?nèi)Q于詞綴是如何利用的。例如,在英文表達(dá)方式“Calvin and Dorothy’sDepartment Store”中,其中的“s”屬于“Calvin and Dorothy”但是只附在“Dorothy”之后。
進(jìn)程500首先分析輸入的如來自步驟414的詞或詞串的詞法。在步驟510該算法把輸入的詞(串)501和已知的詞匯表950進(jìn)行比較。詞匯表950是一個帶有相關(guān)漢字譯文的語音中文詞和/或縮寫拼音(拼音和/或BPMF)的表。也可以使用中文詞詞典950。這樣的詞典950是周知的。例如,請見“語文出版社”1989年出版的“漢語拼音詞匯”。通過和其它已知的詞典相結(jié)合和/或增添來自其它來源的帶有相應(yīng)漢字轉(zhuǎn)換的中文詞可以改進(jìn)上述這樣的詞典。
如果輸入的詞501(詞或詞串)和詞匯表510的一個或多個詞匹配,在步驟511進(jìn)行唯一性檢驗(yàn)。如果不存在混淆,即只和詞匯表510里的單個詞匹配,該詞轉(zhuǎn)化成漢字格式并且在步驟550顯示在漢字部分1024中。如果是不明確的(也就是說,對應(yīng)于輸入詞的拼音501在詞匯表(510,950)中存在多于一個的漢字形式),則把不同的詞存儲起來以做進(jìn)一步的考慮(步驟540)。
如果輸入的詞501不在詞匯表中,對輸入的詞(串)501進(jìn)行詞法分析。在步驟522,對輸入詞的一部分與功能詞素或詞綴表進(jìn)行比較。在圖8中提供了最佳詞綴表800。如果找到一個標(biāo)準(zhǔn)的詞綴,即該詞綴在詞綴表800上,在步驟524去掉所發(fā)現(xiàn)的詞綴并且對所輸入詞的剩余部分(根)再次與詞典950進(jìn)行比較。如果這個詞的根在詞匯表中,則執(zhí)行步驟511。如果該根不在詞匯表上(步驟510)但是在根中存在更多的詞綴(步驟522),對根中所含有的任何其它的標(biāo)準(zhǔn)詞根重復(fù)步驟524。
如果步驟522未識別出標(biāo)準(zhǔn)詞綴,即輸入詞501中的串都不在詞綴表800上,在步驟530分解詞串/根。在一種最佳實(shí)施方式里,通過把根和詞匯表950進(jìn)行比較利用上述的“最長匹配法”對根進(jìn)行分解。
如果詞串包括多于一個的組元,對每個組元進(jìn)行唯一性搜索(步驟531)。如果一個組元是唯一的(步驟531),該詞被認(rèn)為是一個復(fù)合詞,并且在步驟550顯示和記錄對應(yīng)的漢字串。如果該詞是不明確的(步驟531),例如輸入詞501的一個或多個組元具有多于一個的漢字轉(zhuǎn)換和/或存在著多于一種的分解該詞串的方式,這些不同的選擇被存儲起來以在步驟540進(jìn)行進(jìn)一步的考慮。
在步驟540,整個短語(或從句、或句子),即輸入的詞串501,被確定為是由短語定界符如標(biāo)點(diǎn)符號、回車或用戶指定的其它短語定界符分界的字符串。對整個短語進(jìn)行分析以確定不明確詞(多個詞)的意義。見下面圖6中的進(jìn)程600。在步驟540之后,在步驟550顯示漢字形式的整個句子(從句、短語)。如果存在著錯誤(步驟560),在步驟561用戶人工地改正圖形接口1024上所顯示(560)的文本中的短語、句子或從句。
為了幫助對下面所給出的本發(fā)明所采用的句法分析(進(jìn)程600)的說明,現(xiàn)在對講話的聲學(xué)(聲調(diào)和重音)、功能詞、助詞、詞綴以及表意詞的語音特性上的發(fā)現(xiàn)作出討論。
在口語中文中存在著經(jīng)常被忽視的重要的語音現(xiàn)象。在中文中,和世界上所有的口語語言一樣,除了由各個音節(jié)構(gòu)成的串提供信息之外還在存在著由講話的聲學(xué)所提供的大量信息。在中文中,每個詞具有一種重讀結(jié)構(gòu),形成該詞的講話聲學(xué),在理解詞義上它常常是關(guān)鍵性的。音節(jié)如何組合在一起構(gòu)成一個詞可以影響重讀結(jié)構(gòu)、講話聲學(xué)以及對詞的理解。
而且,詞的分隔(音節(jié)組合)和詞的相稱的重讀結(jié)構(gòu)(講話聲學(xué))是口語語言中所傳遞的信息的一部分。對于中文,作為講話聲學(xué)中的一部分的聲調(diào)同樣是重要的。在中文中,音節(jié)的聲調(diào)僅在重讀音節(jié)中才是重要的。對于不具有重音的音節(jié),聲調(diào)或者明顯減弱或者完全喪失。
進(jìn)而請注意大多數(shù)語言包括中文存在功能詞和表意詞。表意詞包括一種語言中的所有名詞、所有助詞、所有形容詞和大部分副詞。例如,“man、run、fast、quickly”是表意詞。功能詞包括冠詞、介詞和一些連接詞。例如,“a、the、to、from、and、but等”是功能詞。表示為單獨(dú)的不定詞的詞綴具有功能詞的特性。
中文中的功能詞是不重讀的詞,它們主要表達(dá)語法關(guān)系和/或其它詞的功能而不表達(dá)詞匯意義。功能詞包括介詞、助動詞、連接詞、副詞、感嘆詞、冠詞和一些代詞。在中文中,功能詞(冠詞、前置詞、后置詞等)、以助詞為形式的詞綴以及多音節(jié)詞中的任一詞綴總是不重讀的。功能詞(以及助詞形式里的詞綴和多音節(jié)詞里的詞綴)不具有聲調(diào)或者具有明顯減弱的聲調(diào)。
表意詞是具有完整詞匯意義的詞。在中文中,表意詞包括所有的名詞、所有主要動詞、所有形容詞以及大部分副詞。表意詞包括中文中所有不是功能詞的詞。表意詞的重讀結(jié)構(gòu)取決于方言。
迄今為止,還沒有判明一個正在聽一種語言的人為了理解該語言的詞是如何直覺地辨別表意詞和功能詞的。在中文語言中這一點(diǎn)尤其是正確的。因?yàn)樵谥形闹泄δ茉~及詞綴的聲調(diào)是非常弱的或者完全消失的并且由于在中文語言中存在有限數(shù)量的已知的和確定的功能詞,正在聽口語中文的人們直覺地利用功能詞來理解正在說什么。
為了進(jìn)一步闡述功能詞、表意詞和聲調(diào)在理解中文語言上的重要性,現(xiàn)在確定表意詞的重讀結(jié)構(gòu)和功能詞(詞綴)的使用。
上海方言代表著表意詞的重讀結(jié)構(gòu)以及功能詞使用的最清晰例子。每一個表意詞是從一個具有顯著聲調(diào)的重讀音節(jié)開始的。該詞中的所有其它音節(jié)完全不具有重音,從而第一個音節(jié)之后的其它音節(jié)的聲調(diào)是減弱的。例如,在上海話中,名詞“wenti”(問題)和“dianhua”(電話)總是在第一個音節(jié)上重讀。
上海方言里的功能詞沒有重音。當(dāng)一個功能詞跟在一個表意詞的后面時,有時可以把這個功能詞解釋為是這個表意詞的一個后綴(即一個詞綴)而不是一個助詞。但是,該發(fā)現(xiàn)的一部分在于從人類聽眾的觀點(diǎn)出發(fā),這兩種解釋(功能詞是一個助詞或是一個后綴)在本質(zhì)上是沒有不同的。
在北京方言和普通話中重音結(jié)構(gòu)略為不同。
在北京方言的大部分情況中,表意詞的重音在第一個音節(jié)上。但是,存在著許多重音位于最后的音節(jié)而不是在第一個音節(jié)上的情況。
普通話是標(biāo)準(zhǔn)的中國話。在普通話中,一個詞的重音通常在第一音節(jié)上。在某些帶有多于3個音節(jié)的詞里,可觀察到“框架式”重音結(jié)構(gòu)。也就是說,第一個和最后一個音節(jié)是重讀的,它們之間的所有其它音節(jié)沒有重音而且具有很弱的(或者沒有)聲調(diào)。普通話中的多音節(jié)表意詞具有至少一個重音,通常在第一音節(jié)上。例如,在音節(jié)串“taiqilai”(抬起來)中,只有第一個音節(jié)“tai”(抬)具有重音。對于剩下的兩個音節(jié),不僅聲量大大減小而且聲調(diào)明顯地減弱或者完全消失。在短語“taibuqi toulai”中,只有兩個音節(jié)“tai”和“tou”具有重音。剩下的音節(jié)“bu”、“qi”和“l(fā)ai”是弱的,并且是無重音的或幾乎無重音的(無重音意味著沒有音調(diào))。請注意“l(fā)ai”是一個詞綴并沒有聲調(diào),并且在慣例中它書寫成一個單獨(dú)的助詞。
在北京方言和普通話中,作為一種規(guī)律,功能詞不具有重音并且功能詞的聲調(diào)是弱的或消失的(退化)。
該發(fā)現(xiàn)表明中文口語的聽眾直覺地利用表意詞的重音結(jié)構(gòu)(帶有聲調(diào)的音節(jié)和不帶聲調(diào)的音節(jié))以及無聲調(diào)的功能詞(以及詞綴)來標(biāo)志詞的邊界、對詞分類并且確定詞的意義。這種自然語音現(xiàn)象是和中文語言學(xué)原理里的不同觀點(diǎn)是無關(guān)的,和/或一個人如何用中文書寫詞或短語也是無關(guān)的。本發(fā)明根據(jù)這種現(xiàn)象推導(dǎo)出規(guī)律并且應(yīng)用這些規(guī)律,并且借助適當(dāng)?shù)奶幚韥韺?shí)現(xiàn)這些規(guī)律以便提高處理(輸入、分析、翻譯及書寫)語音中文的準(zhǔn)確性。
在完成迄今為止現(xiàn)有技術(shù)中尚未認(rèn)識到的對語音關(guān)系的發(fā)現(xiàn)的上述討論之后,下面的討論將說明這些關(guān)系是怎樣用于用由進(jìn)程600完成的句法分析中的。
一種新穎的句法分析方法在圖6中表示為進(jìn)程600。該進(jìn)程利用上面所發(fā)現(xiàn)的和所公開的原理分析整個短語(或從句、或句子)。
詞串(從句或句子)501由象標(biāo)點(diǎn)符號、回車或用戶指定的任何輸入的短語定界符劃分。在一種最佳實(shí)施方式里,這些定界符或短語分界符包括空格(鍵2360)、頓號(鍵2336)、中文句號2335、左引號(鍵2338)、右引號(鍵2339)、左標(biāo)題號(鍵2341)、右標(biāo)題號(鍵2342)、驚嘆號(鍵2311)、逗號(鍵2312)、斜道(鍵2313)、左圓括號(鍵2314)、右圓括號(右鍵2315上)、冒號(在鍵2316上)、分號(鍵2316)、著重號(鍵2344)以及問號(鍵2317)。對任何聲調(diào)鍵(2310、2320、2330、2340以及2350)的二次鍵擊也可以是短語定界符(這里括號中所表示的鍵指明鍵盤實(shí)施方式2300中輸入該短語定界符的鍵。)。這些短語定界符明確地定義詞邊界,即一個短語501的結(jié)束和另一個短語501的開始。
如步驟511和531里規(guī)定的具有一個或多個模棱兩可詞的短語在步驟601輸入到進(jìn)程600中。句法單元是在系統(tǒng)1000上執(zhí)行的進(jìn)程600。
首先,通過任何聲調(diào)發(fā)音符號的存在對短語601的詞組元進(jìn)行分類。帶有至少一個發(fā)音符號的詞610是表意詞620。但是,不帶發(fā)音符號的詞611可能是不經(jīng)心地略去其發(fā)音符號的表意詞、非中文詞、功能詞、詞綴或書寫成為獨(dú)立助詞的詞綴。在所輸入的混合文本中,非中文詞是通過空格(或者其它等效的字符如“Esc”)劃分的,從而得以識別。
為了確定不帶發(fā)音符號的詞611是否是功能詞,把詞611和功能詞表800進(jìn)行比較。功能詞的數(shù)量是有限的,根據(jù)大多數(shù)語言學(xué)家的觀點(diǎn)在100個之內(nèi)。如果詞611在功能詞表800上,它是一個功能詞。各個功能詞的意義是唯一性地定義的。在圖8中提供了一種最佳功能詞表800。
以類似的方式,不帶發(fā)音符號的詞611與詞綴表(同樣包括在表800中)進(jìn)行比較以確定它們是否是詞綴和/或書寫成為獨(dú)立助詞的詞綴。這些獨(dú)立助詞的意義是唯一定義的,助詞/詞綴的最佳列表同樣是相對短的,具有20個之內(nèi)的條目。帶有它們的漢字轉(zhuǎn)換(譯文)的助詞/詞綴包含在圖8的功能詞表上。
列舉功能詞、助詞和詞綴的數(shù)據(jù)結(jié)構(gòu)800占據(jù)計算機(jī)存儲器(1100,1200)中相對很少的空間。
一旦識別了并且從而唯一性地確定了所有的功能詞(和/或助詞及詞綴),在步驟630中分析短語/句子結(jié)構(gòu)。因?yàn)楣δ茉~(助詞/詞綴)的意義和功能是已知的,在任一特定功能詞(詞綴)之前和之后的詞的類型是受限制的。這樣,在步驟640通過利用模棱兩可的表意詞與一個或多個功能詞(助詞/詞綴)的關(guān)系,可以進(jìn)一步減少或去掉表意詞的意義不明確性。例如,如果在進(jìn)程500的步驟540中對一個模棱兩可的表意詞存在五種可能被識別的詞,通過弄清該模棱兩可詞前面或后面的功能詞(詞綴)可能可去掉這些可能的詞中的一部分或者除了一個之外的全部。
例如,在圖8中列舉了看作是功能詞的介詞810。介詞后面必須跟著名詞或者名詞短語。如果在這些介詞后面的表意詞具有一種非名詞或非名詞短語的譯文,去掉這種模棱兩可的譯文。
時態(tài)助詞820(le、zhe、guo)通常在動詞之后。因此,在其后面帶著這些助詞的任何模棱兩可的表意詞翻譯為動詞。如果該表意詞的某些備擇的譯文不是動詞,刪除它們。
關(guān)系助詞830(de、zhi)通常跟著名詞或形容詞。因此后面帶著這些助詞的任何模棱兩可的表意詞翻譯為名詞或形容詞。其它備擇的不明確譯文可被刪除。
連接詞(he、ji和gen)840是功能詞并且通常處在名詞之間。從而,這些連接詞兩側(cè)的任何模棱兩可的表意詞翻譯成名詞,去掉其它備擇的不明確譯文。
連接詞850是通常處在短語之間的功能詞。這些連接詞850兩側(cè)的表意詞看作是短語的一部分。
名詞詞尾860通常是名詞一部分的詞綴。在這些詞尾860之前的表意詞翻譯成名詞,去掉其它備擇的不明確譯文。
存在著前面必須加上形容詞或副詞的形容詞及副詞詞870。尾去掉這些詞尾(助詞)之前的其譯文不是形容詞或副詞的任何表意詞。
還存在形容詞及副詞前綴870,包括hen-、zui-、bu-和geng-。這些助詞/詞綴必須跟著形容詞或副詞。如果任何在這些前綴(助詞)后面的表意詞具有不是形容詞或副詞的譯文,去掉這些模棱兩可的譯文。
這些規(guī)律可能產(chǎn)生錯誤翻譯從而需要人工修正的例外情況是很少的。
請注意表800不包括功能詞、助詞和詞綴的縮寫。在備擇的實(shí)施方式中可包括縮寫。
如果在640中仍然存在模棱兩可,即仍存在多于一個可能的表意詞,在步驟641中應(yīng)用短語中有關(guān)詞出現(xiàn)的統(tǒng)計表來預(yù)言剩余的表意候選詞中的最可能的詞。這樣的統(tǒng)計模型641在語音識雖技術(shù)上是周知的。例如見1993年出版的Rabiner和Juang所著的Fundamentals of Speech Recognition中的447-450頁,該書是本文的參考資料。
在一種最佳實(shí)施方式中,在步驟560中結(jié)果顯示在圖形接口1020的漢字部分1024中。如果存在不能明確地判定的詞,在圖形接口1020上向用戶顯示剩余的候選詞以通過指點(diǎn)器1031進(jìn)行選擇。此外,在步驟650所顯示的結(jié)果1025受到用戶的人工修改650。在備擇的實(shí)施方式里,最后的顯示可在打印機(jī)上打印或者在網(wǎng)絡(luò)連接1090上發(fā)送。步驟650中的顯示結(jié)果還可以是其它計算機(jī)系統(tǒng)的漢字輸入,例如把漢字文本翻譯成其它語言的翻譯機(jī)1034。
通過運(yùn)用進(jìn)程500和600,即使名詞沒有按照普遍接收的慣例分開或者沒有在邊界處劃分,系統(tǒng)1000可以確定輸入的詞501中的各組元詞的意義以及對應(yīng)的漢字譯文。
給出本公開之后熟練的技術(shù)人員可以在本發(fā)明的意圖之內(nèi)建立替代的等效實(shí)施方式。例如,象圖2D中的鍵盤可以設(shè)計為包括BPMF拼音字母表中的37個字符。該拼音字母表的各鍵(位置)的分配取決于用戶/廠家的選擇。37個字符的ASCII代碼分配可以在圖3的上半7位區(qū)中完成。在鍵盤上和在ASCII代碼表中也可以提供BPMF的發(fā)音符號。但是,某些修改可能是必須的。例如,可能要設(shè)置陽平聲調(diào)的發(fā)音符號。用于BPMF的音節(jié)表700和功能詞、助詞和詞綴表800與拼音情況具有一對一的對應(yīng)。圖4、5和7中所示的各進(jìn)程仍然適用。
權(quán)利要求
1.一種用于把中文文本輸入到計算機(jī)系統(tǒng)里的鍵盤,該鍵盤包括一組音節(jié)輸入鍵,各個音節(jié)輸入鍵代表一個或多個字符;以及一組聲調(diào)鍵,各個聲調(diào)鍵代表一個或多個聲調(diào)。
2.如權(quán)利要求1的鍵盤,其中存在由該組聲調(diào)鍵代表的四種聲調(diào),這四種發(fā)音符號包括陽平聲調(diào)、上聲聲調(diào)、陰平聲調(diào)和去聲聲調(diào)。
3.如權(quán)利要求1的鍵盤,其中存在由該組聲調(diào)鍵代表的五種聲調(diào),這五種發(fā)音符號包括無聲調(diào)、陽平聲調(diào)、上聲聲調(diào)、陰平聲調(diào)和去聲聲調(diào)。
4.如權(quán)利要求1的鍵盤,其中該鍵盤是美國英文鍵盤并且該組聲調(diào)鍵替代美國英文鍵盤上的一個或多個標(biāo)點(diǎn)符號鍵。
5.如權(quán)利要求1的鍵盤,其中該鍵盤是帶有該組聲調(diào)鍵的美國英文鍵盤,該組聲調(diào)鍵用該鍵盤上的“箭頭”鍵組組合。
6.如權(quán)利要求1的鍵盤,其中該鍵盤的空格杠分隔成二個或更多的部分并且一個或更多的部分是代表一個或多個聲調(diào)的聲調(diào)鍵。
7.如權(quán)利要求6的鍵盤,其中空格杠的各部分包括一個或多個左部分、一個或多個右部分以及在左右各部分之間的中間部分。
8.如權(quán)利要求7的鍵盤,其中該中間部分是空格鍵并且一個或多個左、右部分是代表一個或多個聲調(diào)的聲調(diào)鍵。
9.如權(quán)利要求7的鍵盤,其中該中間部分代表無聲調(diào)發(fā)音符號并且一個或多個左、右部分代表一個或多個聲調(diào)。
10.如權(quán)利要求9的鍵盤,其中左部分中的一個代表上聲聲調(diào),第一右部分代表去聲音調(diào),而第二右部分代表陰平聲調(diào)。
11.一種用于處理中文文本的計算機(jī)系統(tǒng),包括一個計算機(jī)存儲器;一個輸入裝置,用于把多個中文語音音節(jié)輸入到該系統(tǒng)中,各個音節(jié)具有一個或多個字符,該輸入裝置用發(fā)音符號標(biāo)記一個或多個重讀音節(jié),該發(fā)音符號指示該重讀音節(jié)的聲調(diào);一個輸入單元,其為該輸入裝置輸入的各個字符和各個發(fā)音符號分別提供字符代碼和聲調(diào)代碼,該輸入單元把音節(jié)識別成用聲調(diào)代碼標(biāo)志的字符代碼串;一個音節(jié)表,其具有多個各與一個或多個音節(jié)串代碼關(guān)聯(lián)的音節(jié)串,該輸入單元把由發(fā)音符號代碼標(biāo)志的字符代碼串和一個音節(jié)串代碼進(jìn)行匹配,并且把和由該聲調(diào)代碼標(biāo)志的該字符代碼串匹配的該音節(jié)串代碼所關(guān)聯(lián)的用于該音節(jié)串的音節(jié)表示存儲到該計算機(jī)存儲器里。
12.如權(quán)利要求11的系統(tǒng),其中中文文本是拼音。
13.如權(quán)利要求11的系統(tǒng),其中中文文本是BPMF。
14.如權(quán)利要求11的系統(tǒng),其中該輸入裝置是一個帶有一個或多個用于發(fā)音符號的鍵的鍵盤。
15.如權(quán)利要求11的系統(tǒng),其中該輸入裝置是一個用來輸入口語中文的聲學(xué)設(shè)備。
16.如權(quán)利要求11的系統(tǒng),其中該系統(tǒng)進(jìn)一步包括一個打印機(jī),并且存儲在計算機(jī)存儲器里的音節(jié)表示變換成在該打印機(jī)上打印的打印音節(jié)。
17.如權(quán)利要求11的系統(tǒng),其中該系統(tǒng)進(jìn)一步包括一個圖形用戶接口,并且音節(jié)表示轉(zhuǎn)換成在該圖形用戶接口上顯示的音節(jié)文本。
18.如權(quán)利要求11的系統(tǒng),其中一個或多個音節(jié)串代碼表示有關(guān)音節(jié)串的縮寫。
19.如權(quán)利要求11的系統(tǒng),其中若沒有和由聲調(diào)代碼標(biāo)志的字符代碼串相匹配的音節(jié)串代碼時該輸入單元在圖形接口上向用戶提供一個最佳匹配表。
20.如權(quán)利要求11的系統(tǒng),其中在字符代碼串未由聲調(diào)代碼標(biāo)志的情況下該輸入單元把字符代碼串識別成非中文音節(jié)。
21.一種用于處理中文文本的計算機(jī)系統(tǒng),包括一個輸入裝置,用于輸入語音中文短語,該短語具有一個或更多的詞,每個詞具有一個或更多的音節(jié),每個音節(jié)具有一個或更多的字符,該短語是在第一和第二短語定界符之間的一個字符串;一個詞綴表,其具有多個語音中文詞綴條目;一個中文詞匯表,該詞匯表是一個帶有漢字譯文的多個語音中文詞的列表,以及一個詞法單元,其從短語中去掉一個或多個詞綴以建立一個詞根,所去掉的詞綴是該詞綴列表中的一個詞綴,該語法單元把詞根和詞匯表中的一個或多個詞進(jìn)行比較以尋找匹配,并且把和該詞根匹配的該詞匯表中該詞的漢字譯文存儲到計算機(jī)存儲器里。
22.如權(quán)利要求21的系統(tǒng),進(jìn)一步包括一個句法單元,該句法單元把詞根分析為重讀詞和非重讀詞,重讀詞由發(fā)音符號標(biāo)志而非重讀詞不由發(fā)音符號標(biāo)志。
23.如權(quán)利要求22的系統(tǒng),其中各表目包括詞綴、功能詞和助詞,各個表目具有漢字譯文,該句法單元把非重讀詞和一個或多個表目相匹配,與非重讀詞匹配的表目是一個相匹配的表目,并且該句法單元把相匹配的表目的漢字譯文用作為該短語中非重讀詞的漢字譯文。
24.如權(quán)利要求23的系統(tǒng),其中該句法單元進(jìn)一步把一個或多個重讀詞解釋為一個模棱兩可的表意詞,由于在該詞匯表中對該模棱兩可的表意詞存在多于一種的漢字譯文,該模棱兩可的表意詞具有不明確性,而該句法單元通過利用該模棱兩可的表意詞與該短語中的一個或多個非重讀詞的關(guān)系去掉這種不明確性。
25.如權(quán)利要求22的系統(tǒng),其中第一和第二短語定界符為下述中的任一種回車、空格、頓號、中文句號、左引號、右引號、左標(biāo)題號、右標(biāo)題號、驚嘆號、逗號、斜號、左括號、右括號、冒號、分號、著重號、問號以及對一個聲調(diào)鍵的二次或更多次的鍵擊。
26.如權(quán)利要求22的系統(tǒng),其中如果詞不和詞匯表中的一個詞匹配該詞法單元把該詞分解為組元詞,并且句法單元對各組元詞進(jìn)行分析。
27.一種把中文文本輸入到計算機(jī)系統(tǒng)里的裝置,該裝置包括一組音節(jié)輸入鍵裝置,每個音節(jié)輸入鍵裝置代表一個或多個字符;以及一組聲調(diào)鍵裝置,每個聲調(diào)鍵裝置代表一種或多種聲調(diào)值。
28.一種處理中文文本的計算機(jī)系統(tǒng),包括一個計算機(jī)存儲裝置;一個輸入裝置,用于把多個中文拼音音節(jié)輸入到該系統(tǒng)里,每個音節(jié)具有一個或多個字符,該輸入裝置用發(fā)音符號標(biāo)志一個或多個重讀音節(jié),發(fā)音符號指示該重讀音節(jié)的聲調(diào)類型;一個輸入處理裝置,其向該輸入裝置輸入的各個字符提供字符代碼及向各個發(fā)音符號提供聲調(diào)代碼,該輸入處理裝置把音節(jié)識別成由聲調(diào)代碼標(biāo)志的字符代碼串;一個音節(jié)表裝置,其具有多個各和一個或多個音節(jié)串代碼關(guān)聯(lián)的音節(jié)串,該輸入處理裝置把由聲調(diào)代碼標(biāo)志的字符代碼串與一個音節(jié)串代碼相匹配,并且把與由該聲調(diào)代碼標(biāo)志的該字符代碼串相匹配的該音節(jié)串代碼所關(guān)聯(lián)的用于該音節(jié)串的音節(jié)表示存儲到該計算機(jī)存儲器裝置里。
29.一種把語音中文的音節(jié)和詞存儲到計算機(jī)系統(tǒng)的計算機(jī)存儲器里的方法,其包括步驟a.利用一個輸入裝置把一個或多個字符輸入到該計算機(jī)系統(tǒng)里,一個音節(jié)具有一個或多個字符,一個詞具有一個或多個音節(jié),而一個短語具有一個或多個詞,短語的各詞位于兩個短語定界符之間,各音節(jié)是用代表該音節(jié)的聲調(diào)的發(fā)音符號標(biāo)記的并且各音節(jié)處于兩個發(fā)音符號之間,該輸入是對各個輸入字符的字符代碼的存儲并且是對標(biāo)志一個音節(jié)的各個發(fā)音符號的聲調(diào)代碼的存儲;b.把一個或多個音節(jié)識別成中文音節(jié),中文音節(jié)是一個或多個字符代碼與一個聲調(diào)代碼的串;c.把中文串和音節(jié)表進(jìn)行匹配,該音節(jié)表具有多個各和一個或多個音節(jié)串代碼關(guān)聯(lián)的音節(jié)串;以及d.把相匹配的音節(jié)串存儲到該計算機(jī)存儲器里,該相匹配的音節(jié)串是與該串匹配的音節(jié)串代碼關(guān)聯(lián)的音節(jié)串。
30.如權(quán)利要求29的方法,其中重復(fù)步驟a-d直至輸入一個短語定界符,在該計算機(jī)存儲器里存儲的一個或多個相匹配的音節(jié)串是一個詞串。
31.一種利用詞法處理對詞串進(jìn)行處理的方法,其包括步驟從該詞串去掉一個或多個詞綴以構(gòu)成一個詞根,所去掉的詞綴是一個詞綴表上的詞綴之一;把該詞根和一個詞匯表上的一個或多個詞進(jìn)行比較以尋找匹配,該詞匯表具有多個詞,每個詞帶有一個或多個漢字譯文,與該詞根匹配的該詞匯表上的該詞為詞根匹配;并且在計算機(jī)存儲器里存儲該詞根匹配的漢字譯文。
32.如權(quán)利要求31的方法,其中一個或多個詞根是不匹配的詞根,該不匹配的詞根不在該詞匯表上具有匹配,并且把該不匹配的詞根分解成組元詞。
33.一種句法上分析中文語音音節(jié)短語的方法,其包括步驟把該中文短語分析成重讀詞和非重讀詞,重讀詞帶有用指示該音節(jié)的聲調(diào)的發(fā)音符號標(biāo)志的一個或多個音節(jié),非重讀詞不帶有用發(fā)音符號標(biāo)志的音節(jié);把非重讀詞和一個或多個條目進(jìn)行匹配,這些條目可以是詞綴表上的零個或多個詞綴、功能詞和助詞,每個條目具有漢字譯文;利用各個漢字譯文把非重讀詞翻譯成漢字。
34.如權(quán)利要求33的方法,進(jìn)而包括步驟把一個或多個重讀詞解釋為表意詞,零個或多個表意詞可以是模棱兩可的表意詞,模棱兩可的表意詞在詞匯表上具有多于一個的漢字譯文。
35.如權(quán)利要求34的方法,其中刪除掉一個或多個譯文,因?yàn)樗鶆h除的譯文不和非重讀詞中的一個有關(guān)系。
36.一種通過字母數(shù)字鍵盤輸入語音中文串的方法,其包括步驟把中文的語音表示輸入到一個計算機(jī)系統(tǒng)的一個輸入設(shè)備上,該語音表示具有一個或多個各由一個或多個語音音節(jié)構(gòu)成的詞,這些音節(jié)中的一個或多個是重讀音節(jié)并且這些音節(jié)中的一個或多個是非重讀音節(jié);以及用一個指示該重讀音節(jié)的聲調(diào)類型的發(fā)音符號標(biāo)記重讀音節(jié)。
37.一種計算機(jī)可讀的程序存儲設(shè)備,其具體包括由該計算機(jī)執(zhí)行的指令程序以完成把語音中文的音節(jié)和詞存儲到該計算機(jī)的計算機(jī)存儲器里的一種方法的各個步驟,該方法包括步驟a.利用一個輸入裝置把一個或多個字符輸入到該計算機(jī)系統(tǒng)里,一個音節(jié)具有一個或多個字符,一個詞具有一個或多個音節(jié),而一個短語具有一個或多個詞,短語的多個詞位于兩個短語定界符之間,各音節(jié)是用代表該音節(jié)的聲調(diào)的發(fā)音符號標(biāo)記的并且各音節(jié)處于兩個發(fā)音符號之間,該輸入是對各個輸入字符的字符代碼的存儲以及對各個標(biāo)志一個音節(jié)的發(fā)音符號的聲調(diào)代碼的存儲。b.把一個或多個音節(jié)識別成中文音節(jié),中文音節(jié)是一個或多個字符代碼與一個聲調(diào)代碼的串;c.把該中文串和音節(jié)表進(jìn)行匹配,該音節(jié)表具有多個各和一個或多個音節(jié)串代碼關(guān)聯(lián)的音節(jié)串;以及d.把相匹配的音節(jié)串存儲到該計算機(jī)存儲器里,該相匹配的音節(jié)串是與該串的音節(jié)串代碼關(guān)聯(lián)的音節(jié)串。
全文摘要
將語音中文(拼音和BPMF)輸入到計算機(jī)系統(tǒng)里并準(zhǔn)確地轉(zhuǎn)換為漢字形式。該系統(tǒng)具有帶著發(fā)音符號鍵(以及對應(yīng)的ASCII編碼)的新穎鍵盤,從而允許用戶利用指示音節(jié)聲調(diào)的發(fā)音符號注釋各個所輸入的語音文本音節(jié)。系統(tǒng)上所執(zhí)行的一個進(jìn)程確定音節(jié)是否在鍵擊一個發(fā)音符號(或定界符)時已經(jīng)輸入。然后把已輸入的語音音節(jié)和可接受的語音音節(jié)及縮寫表進(jìn)行比較。所輸入的音節(jié)在該表中存儲和顯示正確拼寫及重讀的音節(jié)。
文檔編號G06F3/00GK1143769SQ9610587
公開日1997年2月26日 申請日期1996年5月10日 優(yōu)先權(quán)日1995年8月16日
發(fā)明者辰君·朱利安·陳 申請人:國際商業(yè)機(jī)器公司