專利名稱:字處理方法、裝置及存儲介質(zhì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種字處理方法和裝置,特別是涉及一種漢字拼音的處理方法和裝置,以及一種存儲介質(zhì)。
背景技術(shù):
正如我們所知,漢字在世界上非常獨有和特別。通常,漢字由許多筆劃組成。對于初學(xué)者或外國人而言,漢字的讀音是很難的。為了容易地掌握每個漢字的讀音,使用了一些英文字母代表它的讀音。
在中國的普通話中,我們將代表每個漢字讀音的英文字母稱作拼音(Pin Yin)。通常漢字的拼音包括兩部分以及聲調(diào)。拼音的起始部分稱為聲母(Sheng Mu)。拼音的最后部分稱為韻母(Yun Mu)。此外,中國人對漢字發(fā)音時總是使用聲調(diào)。表示漢字有五種不同類型的聲調(diào)。它們被稱為一聲(1)、二聲(2)、三聲(3)、四聲(4)和輕聲(5)。每個漢字至少有一個聲調(diào)。某些漢字有超過兩個的聲調(diào)。
圖1示出帶有拼音的兩個漢字。
參照圖1,這兩個漢字“蘋果”在中文里表示“蘋果”。漢字“蘋”的聲母為“P”,該漢字的韻母為“ing”。該漢字為二聲。因此,這個漢字的讀音可以表示為“Ping2”。使用同樣的方法,漢字“果”可以表示為“guo3”。其中,“g”是它的聲母,“uo”是它的韻母,3是它的聲調(diào)。
漢字的拼音被運用在人們生活的每個方面。尤其是,隨著現(xiàn)代科學(xué)的飛速發(fā)展,在我們的日常生活中電子詞典非常受歡迎。在電子詞典的TTS系統(tǒng)中,需要存儲每個漢字的拼音。存儲幾千個漢字的拼音的原始信息將耗費大量存儲器。
例如,拼音串“chuang4”在存儲器中需要七個字節(jié)。通常,電子詞典需要很大的存儲器。
因此,在本領(lǐng)域需要開發(fā)一種方法和裝置,其能夠減少存儲漢字拼音的存儲空間并能提供一種方便的拼音查詢方法。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種處理漢字拼音的方法、裝置以及存儲介質(zhì)。這種處理漢字拼音的方法和裝置能夠極大地節(jié)省用于存儲文件中所有漢字拼音的存儲空間。
本發(fā)明的第二個目的是提供一種對漢字拼音進行高壓縮率的編碼和解碼的方法和裝置。
為了達到上述目的,本發(fā)明提供了一種漢字拼音的編碼方法,包括以下步驟輸入步驟,用于輸入文件中每個漢字的拼音;計算步驟,用于計算每個韻母以及每個聲母與聲調(diào)的組合的出現(xiàn)概率;以及編碼步驟,用于根據(jù)每個韻母以及每個聲母與聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
本發(fā)明還提供了一種漢字拼音的編碼方法,包括如下步驟輸入步驟,用于輸入文件中每個漢字的拼音;計算步驟,用于計算每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率;以及編碼步驟,用于根據(jù)每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率,對文件中的每個漢字的拼音進行編碼。
本發(fā)明還提供了一種漢字拼音的解碼方法,包括以下步驟讀取步驟,用于讀取文件中已被編碼的漢字拼音;提取步驟,用于提取漢字拼音的二進制編碼;以及確定步驟,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明還提供了一種漢字拼音的解碼方法,包括以下步驟讀取步驟,用于讀取文件中漢字的已被編碼的拼音;提取步驟,用于提取漢字拼音的二進制編碼;以及確定步驟,用于根據(jù)聲母和每個韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明還提供了一種漢字拼音的編碼裝置,包括輸入裝置,用于輸入文件中每個漢字的拼音;計算裝置,用于計算每個韻母和每個聲母與聲調(diào)的組合出現(xiàn)的概率;以及編碼裝置,用于根據(jù)每個韻母和每個聲母與聲調(diào)的組合出現(xiàn)的概率,對文件中每個漢字的拼音進行編碼。
本發(fā)明還提供了一種漢字拼音的編碼裝置,包括輸入裝置,用于輸入文件中每個漢字的拼音;計算裝置,用于計算每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率;以及編碼裝置,用于根據(jù)每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
本發(fā)明還提供了一種漢字拼音的解碼裝置,包括讀取裝置,用于讀取文件中已被編碼的漢字拼音;提取裝置,用于提取漢字拼音的二進制編碼;以及確定裝置,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明還提供了一種漢字拼音的解碼裝置,包括讀取裝置,用于讀取文件中漢字的已被編碼的拼音;提取裝置,用于提取漢字拼音的二進制編碼;以及確定裝置,用于根據(jù)聲母表和韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明還提供了一種存儲介質(zhì),用于存儲將漢字拼音編碼的程序代碼,該程序代碼包括
輸入代碼,用于輸入文件中每個漢字的拼音;計算代碼,用于計算每個韻母和每個聲母與聲調(diào)的組合出現(xiàn)的概率;以及編碼代碼,用于根據(jù)每個韻母和每個聲母與聲調(diào)的組合出現(xiàn)的概率,對文件中每個漢字的拼音進行編碼。
本發(fā)明還提供了一種存儲介質(zhì),用于存儲漢字拼音編碼的程序代碼,該程序代碼包括輸入代碼,用于輸入文件中每個漢字的拼音;計算代碼,用于計算每個聲母以及每個韻母和聲調(diào)的組合的出現(xiàn)概率;以及編碼代碼,用于根據(jù)每個聲母以及每個韻母和聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
本發(fā)明還提供了一種存儲介質(zhì),用于存儲將漢字拼音解碼的程序代碼,該程序代碼包括讀取代碼,用于讀取文件中已被編碼的漢字拼音;提取代碼,用于提取漢字拼音的二進制編碼;以及確定代碼,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明還提供了一種存儲介質(zhì),用于存儲漢字拼音解碼的程序代碼,該程序代碼包括讀取代碼,用于讀取文件中漢字已被編碼的拼音;提取代碼,用于提取漢字拼音的二進制碼;以及確定代碼,用于根據(jù)聲母表和韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
本發(fā)明的另一目的是提供一種具有新穎功能的處理漢字拼音的方法和裝置。通過后面的實施例和各附圖,本發(fā)明的其它目的和特征將變得清楚。附圖中相同的參考數(shù)字代表相同或相似的組成部分。
作為參考并構(gòu)成說明書一部分的各附圖,闡釋了本發(fā)明的實施例,其與文字說明一起,用于解釋本發(fā)明的原理。
圖1示出帶有拼音的兩個漢字;圖2是流程圖,示出了本發(fā)明對漢字拼音進行編碼的過程;圖3示出所有漢字拼音的韻母表;圖4示出所有漢字拼音的聲母與聲調(diào)的組合的表;圖5示出所有漢字拼音的聲母表;圖6示出所有漢字拼音的韻母和聲調(diào)的組合的表;圖7是流程圖,示出了本發(fā)明對漢字拼音進行解碼的過程;圖8是本發(fā)明的對漢字拼音進行編碼的裝置的結(jié)構(gòu)框圖;以及圖9是本發(fā)明的對漢字拼音進行解碼的裝置的結(jié)構(gòu)框圖。
具體實施例方式
參照附圖,將對本發(fā)明的實施例作出詳細(xì)的說明。
實施例1在本實施例中,使用具有TTS系統(tǒng)的電子詞典解釋漢字拼音處理的方法。該電子詞典包括幾乎所有漢字的全部拼音信息。
圖2是流程圖,示出了本發(fā)明對漢字拼音進行編碼的過程。
參照圖2,編碼過程開始于步驟S201。然后,在步驟S202,電子詞典中包含的漢字的所有拼音信息被讀取和輸入。在本實施例中,漢字的拼音信息被存儲在文件“NewWholePinyin.txt”中。
例如,在該文件的一部分中,包括這樣一句用拼音寫成的句子,“ping2 guo3 shu3 luo4 ye4 qiao2 mu4”,其是漢字“蘋果屬落葉喬木”的讀音。字母“p,g sh,l,y,q和m”是拼音的聲母,字母“ing,uo,u,uo,e iao和u”是拼音的韻母。數(shù)字“2,3,3,4,4,2和4”是這些漢字拼音的聲調(diào)。這樣,這些漢字拼音的聲母與聲調(diào)的組合為“p2,g3,sh3,14,y4,q2,和m4”。并且,這些漢字拼音的韻母與聲調(diào)的組合為“ing2,uo3,u3,uo4,e4,iao2和u4”。
本實施例的電子詞典中的拼音信息可以任何文件并可采用任何形式,如RAM,ROM,EPROM,HDD以及類似的形式等等存儲。漢字拼音的不同存儲介質(zhì)和不同存儲結(jié)構(gòu)不構(gòu)成對本發(fā)明的限制。
存儲在電子詞典中的文件內(nèi)的漢字的所有拼音信息被讀出后,流程進入步驟S203。在步驟S203,能夠確定文件中漢字的所有拼音信息的每個韻母以及聲母與聲調(diào)的組合的出現(xiàn)概率。
在本實施例中,使用常用的統(tǒng)計方法,能夠確定文件“NewWholePinyin.txt”中所有漢字拼音的韻母的出現(xiàn)概率。從出現(xiàn)概率最高的到出現(xiàn)概率最低的,韻母被排列為“a,i,ao,ou,...,en,ang”。
此外,也能夠確定文件“NewWholePinyin.txt”中所有漢字拼音的聲母與聲調(diào)的組合的出現(xiàn)概率。從出現(xiàn)概率最高的到出現(xiàn)概率最低的,聲母與聲調(diào)的組合被排列為“b1,q4,r3,d4,...,c2,b5,...,s5”。
然后,流程進入步驟S204。在步驟S204,根據(jù)韻母和聲母與聲調(diào)的組合的出現(xiàn)概率,得到拼音的韻母表和聲母與聲調(diào)的組合的表。
圖3示出所有漢字拼音的韻母表。
如圖3所示,漢字拼音的韻母按其出現(xiàn)概率排列。所有的漢字拼音有37種韻母。該37種不同的韻母按出現(xiàn)概率最高的到出現(xiàn)概率最低的排列。
在圖3中,韻母被排列為“a,i,ao,ou,...,en,ang”。
圖4示出所有漢字拼音的聲母與聲調(diào)的組合的表。
如圖4所示,漢字拼音的聲母與聲調(diào)的組合按其出現(xiàn)概率排列。正如我們所知,拼音有24種不同的聲母,并且所有的漢字有5種聲調(diào)。這些不同的聲母和聲調(diào)能夠構(gòu)成120種不同的組合。該120種不同的聲母與聲調(diào)的組合,按照出現(xiàn)概率最高的到出現(xiàn)概率最低的排列。
在圖4中,聲母與聲調(diào)的組合被排列為“b1,q4,r3,d4,...,c2,b5,...,s5”。
返回到圖2,在步驟S204后,流程進入步驟S205。在步驟S205,對每個漢字的拼音進行編碼。
如上所述,對于所有漢字的拼音,有37種不同的韻母和120種聲母與聲調(diào)的組合。
首先,使用兩個字節(jié)為每個漢字的讀音編碼。一個字節(jié)用于存儲韻母,另一個字節(jié)用于存儲聲母與聲調(diào)的組合。這樣,存儲一個漢字的拼音使用了16比特。第一個8比特用于韻母,第二個8比特用于聲母與聲調(diào)的組合。
與使用一個字節(jié)存儲一個英文字母的常用方法相比,本方法將使用最少的編碼表示漢字的拼音。例如,對于字“zhongl”,通常需要6個字節(jié)表示該字。但是,使用本發(fā)明,2個字節(jié)就足夠表示它。這樣,使用本發(fā)明,大大減少了存儲空間。
為了進一步提高被編碼拼音的壓縮率,減少整個編碼種類,以及減少存儲空間,韻母的所有編碼應(yīng)該包含在聲母與聲調(diào)的組合的編碼中。這樣,要求韻母的每個編碼與相應(yīng)的聲母與聲調(diào)的組合的編碼相同。
參照圖4,從出現(xiàn)概率最高的到出現(xiàn)概率最低的,聲母與聲調(diào)的組合被排列為“b1,q4,r3,d4,...,c2,b5,...,s5”。在本實施例中,這些聲母與聲調(diào)的組合被編碼為“10010101,10010100,10011000,10000100,...,11110001,111001000,...,10001000”。即“b1”的出現(xiàn)概率最高且被編碼為“10010101”,“q4”的出現(xiàn)概率次高且被編碼為“10010100”,等等。
為了減少編碼種類,韻母的編碼從用于聲母與聲調(diào)的組合的前37個編碼中選取。
由于從出現(xiàn)概率最高到出現(xiàn)概率最低,圖3中的韻母被排列為“a,i,ao,ou,...,en,ang”。因此,這些韻母被編碼為“10010101,10010100,10011000,10000100,...,11110001,11000010”。即“a”的出現(xiàn)概率最高并被編碼為與“b1”的編碼一樣,“i”的出現(xiàn)概率次高并被編碼為與“q4”的編碼一樣,等等。
對于拼音“qi4”,它的拼音可被編碼為“1001010010010100”。
全部韻母和聲母與聲調(diào)的組合被編碼后,韻母表和聲母與聲調(diào)的組合的表可被存儲于存儲器中,例如ROM、RAM、EPROM等等。
根據(jù)上面的兩個表,存儲在電子詞典的文件“NewWholePinyin.txt”中的每個漢字的拼音可據(jù)此被編碼。
然后,流程進入步驟S206。在步驟S206,使用常用的壓縮方法,如霍夫曼(Huffman)方法,將文件中已被編碼的拼音壓縮。根據(jù)本實施例,鑒于僅使用了少量的編碼表示所有漢字的拼音,大大提高了壓縮率。
步驟S206之后,流程進入步驟S207。在步驟S207,存儲在電子詞典的文件“NewWholePinyin.txt”中的被壓縮了的拼音被輸出到一個存儲設(shè)備中以便作進一步的處理。
然后,流程結(jié)束于步驟S208。
實施例2在實施例1中,根據(jù)韻母表和聲母與聲調(diào)的組合的表對本發(fā)明進行了描述。但是,這并不構(gòu)成對本發(fā)明的限制。本發(fā)明的目的也可以通過形成一個聲母表和一個韻母與聲調(diào)的組合的表來實現(xiàn)。
在本實施例中,漢字拼音的信息也被存儲在文件“NewWholePinyin.txt”中。電子詞典中包含的漢字的所有拼音信息被讀取和輸入。
存儲在電子詞典的文件中的漢字的所有拼音信息被讀取后,則可確定文件中漢字的全部拼音信息的每個聲母、韻母與聲調(diào)的組合的出現(xiàn)概率。
在本實施例中,使用常用的統(tǒng)計方法,能夠確定在該文件“NewWholePinyin.txt”中所有漢字拼音的聲母的出現(xiàn)概率。從出現(xiàn)概率最高的到出現(xiàn)概率最低的,聲母被排列為“b,q,r,d,...,c,zh”。
此外,能夠確定該文件“NewWholePinyin.txt”中所有漢字拼音的韻母與聲調(diào)的組合的出現(xiàn)概率。從出現(xiàn)概率最高的到出現(xiàn)概率最低的,韻母與聲調(diào)的組合被排列為“a1,i2,ao3,ou4,...,un2,eng 5,...,ang5”。
然后,根據(jù)聲母和韻母與聲調(diào)的組合的出現(xiàn)概率,得到聲母表和韻母與聲調(diào)的組合的表。
圖5示出所有漢字拼音的聲母表。
如圖5所示,漢字拼音的聲母根據(jù)其出現(xiàn)概率排列。漢字拼音有24種不同的聲母。這24種不同的聲母按照從出現(xiàn)概率最高的到出現(xiàn)概率最低的排列。
在圖5中,聲母被排列為“b,q,r,d,...,c,zh”。
圖6示出所有漢字拼音的韻母和聲調(diào)的組合表。
如圖6所示,漢字拼音的韻母和聲調(diào)的組合根據(jù)其出現(xiàn)概率排列。正如我們所知,拼音有37種不同的韻母并且所有漢字有5種聲調(diào)。這些不同的韻母和聲調(diào)能夠構(gòu)成185種不同的組合。這185種不同的韻母和聲調(diào)的組合按照從出現(xiàn)概率最高的到出現(xiàn)概率最低的排列。
在圖6中,韻母與聲調(diào)的組合被排列為“a1,i2,ao3,ou4,...,un2,eng5,...,ang5”。
使用上述相同的方法,將每個漢字的拼音編碼。
首先,使用兩個字節(jié)給每個漢字的讀音編碼。一個字節(jié)用于存儲聲母,另一個字節(jié)用于存儲韻母與聲調(diào)的組合。這樣,使用16比特存儲一個漢字的讀音。第一個8比特用于聲母,第二個8比特用于韻母與聲調(diào)的組合。
與使用一個字節(jié)存儲一個英文字母的常用方法相比,該方法使用少量編碼表示漢字的拼音。使用該方法,2個字節(jié)足以表示拼音。
為了進一步提高已被編碼拼音的壓縮率,減少整個編碼種類,以及減少存儲空間,聲母的所有編碼應(yīng)該包含在韻母與聲調(diào)的組合的編碼中。這樣,要求聲母的每個編碼與對應(yīng)的韻母與聲調(diào)的組合的編碼相同。
參照圖6,從出現(xiàn)概率最高的到出現(xiàn)概率最低的,韻母與聲調(diào)的組合被排列為“a1,i2,ao3,ou4,ang5,...,un2和eng5”。在本實施例中,這些韻母與聲調(diào)的組合被編碼為“10010101,10010100,10011000,10000100,...,11000001,11000010,...,100001000”。即“a1”的出現(xiàn)概率最高且被編碼為“10010101”,“i2”的出現(xiàn)概率次高且被編碼為“10010100”,等等。
為了減少編碼種類,聲母的編碼從用于韻母與聲調(diào)的組合的編碼的前24個編碼中選取。
鑒于按從出現(xiàn)概率最高的到出現(xiàn)概率最低的,圖5中的聲母被排列為“b,q,r,d,...,c,zh”。因此,這些聲母被編碼為“10010101,10010100,10011000,10000100,...,”。即“b”的出現(xiàn)概率最高且被編碼為與“a1”的編碼一樣,“q”的出現(xiàn)概率次高且被編碼為與“i2”的編碼一樣,等等。
對于拼音“qi2”,它的讀音可被編碼為“1001010010010100”。
在全部聲母和韻母與聲調(diào)的組合被編碼后,聲母表和韻母與聲調(diào)的組合的表可被存儲于存儲器中,例如ROM、RAM、EPROM,等等。
根據(jù)上面的兩個表,存儲在電子詞典中的文件“NewWholePinyin.txt”中每個漢字的拼音據(jù)此被編碼。
然后,使用實施例1中說明的方法,存儲在電子詞典中的文件“NewWholePinyin.txt”中的被編碼的拼音可使用常用的方法被壓縮并被輸出到存儲裝置中,以便作進一步的處理。
實施例3圖7是流程圖,示出了本發(fā)明對漢字拼音進行解碼的過程。
參照圖7,解碼過程開始于步驟S701。然后,在步驟S702中,首先讀取存儲在文件中的漢字的已被編碼的拼音(如在實施例1和2中被編碼的拼音)。
步驟S702之后,流程進入步驟S703。在步驟S703中,檢查已被編碼的拼音是否已經(jīng)被壓縮,如果是,流程進入步驟S704。否則,流程跳至步驟S705。
在步驟S704,使用常用的方法,例如霍夫曼方法,將被壓縮的已被編碼的拼音解壓縮。然后,流程進入步驟S705。在步驟S705,提取每個漢字拼音的編碼。
在本實施例中,例如,在步驟S705提取出漢字拼音的二進制編碼“1101010010010100”。
然后,流程進入步驟S706。在步驟S706,如果拼音的編碼由如圖3和圖4示出的韻母表和聲母與聲調(diào)的組合的表中的編碼組成,則將得到的漢字拼音的編碼與實施例1中確定的韻母表和聲母與聲調(diào)的組合的表相比較。
通過與韻母表和聲母與聲調(diào)的組合的表相比較,確定了編碼對應(yīng)的拼音。
在本實施例中,第一個8比特“10010100”被解碼為“i”。第二個8比特“10010100”被解碼為“q4”。這樣,二進制編碼“1001010010010100”對應(yīng)的拼音被確定為“qi4”。
根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定漢字的拼音后,流程進入步驟S707。
在步驟S707中,被確定的漢字的拼音被輸出到一輸出設(shè)備中,如終端、顯示器或TTS系統(tǒng)。在TTS系統(tǒng)中,能夠處理被確定的拼音的讀音。
然后,流程結(jié)束于步驟S708。
上述說明是參考韻母表和聲母與聲調(diào)的組合的表描述的。但是,本發(fā)明不限于此。
如果使用了聲母表和韻母與聲調(diào)的組合的表(例如實施例2中的聲母表和韻母與聲調(diào)的組合的表)對文件中漢字的拼音進行編碼,則該聲母表和韻母與聲調(diào)的組合的表還能夠被使用。詳細(xì)解釋在這里略去。
圖8是本發(fā)明的對漢字拼音進行編碼的裝置的結(jié)構(gòu)框圖。
如圖8所示,本發(fā)明的拼音編碼裝置包括輸入裝置801,計算裝置802,表形成裝置803,編碼裝置804,壓縮裝置805,存儲裝置806以及輸出裝置807。本圖中該裝置的關(guān)鍵部件為計算裝置802,表形成裝置803,編碼裝置804以及壓縮裝置805。
參照圖8,輸入裝置801與存儲裝置806相連。輸入裝置801接收電子詞典中包含的漢字的所有拼音信息并存儲到存儲裝置806中。存儲裝置806可以使用任何形式,如RAM,硬盤,EPROM,等等。用于拼音的不同存儲介質(zhì)和不同存儲結(jié)構(gòu)不構(gòu)成對本發(fā)明的限制。
輸入裝置801也與計算裝置802相連。使用常用的統(tǒng)計方法,能夠計算出文件中漢字的全部拼音信息中每個韻母以及聲母與聲調(diào)的組合出現(xiàn)的概率。
計算裝置802也與表形成裝置803相連。使用圖2中示出的方法,表形成裝置803可以根據(jù)拼音中每個韻母和聲母與聲調(diào)的組合的出現(xiàn)概率,形成韻母表和聲母與聲調(diào)的組合的表。
編碼裝置804與存儲裝置806以及表形成裝置803相連。根據(jù)表形成裝置803的得到的韻母表以及聲母與聲調(diào)的組合的表,編碼裝置804讀出存儲在存儲裝置806中的全部拼音,并使用16比特對每個漢字的拼音編碼。第一個8比特用于漢字的韻母。第二個8比特用于聲母與聲調(diào)的組合。這樣,使用二進制碼將文件中的全部拼音編碼。
編碼裝置804與輸出裝置807和存儲裝置806相連。已被編碼的拼音可被存儲在存儲裝置806中以便作進一步處理。已被編碼的拼音也可被送入輸出裝置807中以便作進一步處理。
編碼裝置804還與壓縮裝置805相連。使用常用的壓縮方法,例如霍夫曼方法,本發(fā)明被編碼的拼音能夠被極大地壓縮。該文件中被壓縮的拼音被存儲在存儲裝置806中或被輸出到輸出裝置807中以便作進一步處理。
上述表形成裝置803形成韻母表以及聲母與聲調(diào)的組合的表。但是,這不構(gòu)成對本發(fā)明的限制。
使用常用的統(tǒng)計方法,本發(fā)明的計算裝置802也能夠確定聲母以及韻母與聲調(diào)的組合的出現(xiàn)概率。根據(jù)已確定的聲母以及韻母與聲調(diào)的組合的出現(xiàn)概率,表形成裝置803也能夠形成如圖5和6所示的聲母表以及韻母與聲調(diào)的組合的表。
圖9是本發(fā)明對漢字拼音進行解碼的裝置的結(jié)構(gòu)框圖。
如圖9所示,本發(fā)明的拼音的解碼裝置包括讀取裝置901,解壓縮裝置902,提取裝置903,確定裝置905,表904以及輸出裝置906。
參照圖9,讀取裝置901首先從存儲裝置或輸出裝置,如圖8中示出的存儲裝置806或輸出裝置807中讀取文件中已被編碼的漢字拼音。
讀取裝置901與解壓縮裝置902以及提取裝置903相連。如果使用常用方法,如霍夫曼方法,對由讀取裝置901讀出的已被編碼的拼音進行壓縮,解壓縮裝置902將對其解壓縮。漢字拼音的解壓縮碼被送入提取裝置903。
讀取裝置901還與提取裝置903相連。如果已被編碼的拼音未被壓縮,漢字拼音的編碼被直接送入提取裝置903。
提取裝置903與確定裝置905相連。如果由提取裝置903提取的已被編碼的拼音由如圖3和圖4所示的韻母表和聲母與聲調(diào)的組合的表組成,確定裝置905則將得到的拼音編碼與表形成裝置803形成的韻母表和聲母與聲調(diào)的組合的表相比較。但是,如果由提取裝置903提取的已被編碼的拼音由聲母表和韻母與聲調(diào)的組合的表組成,確定裝置905則將得到的拼音編碼與表形成裝置803形成的聲母表和韻母與聲調(diào)的組合的表相比較。這樣,由確定裝置905確定了編碼對應(yīng)的拼音。
確定裝置905確定了漢字的拼音后,漢字的拼音被輸出到輸出裝置906。輸出漢字拼音的不同輸出設(shè)備不構(gòu)成對本發(fā)明的限制。輸出裝置906可以是終端、顯示器或TTS系統(tǒng)。在TTS系統(tǒng)中,可以對被確定的拼音的讀音進行處理。
本發(fā)明的目的也可通過提供存儲介質(zhì)實現(xiàn)。該存儲介質(zhì)記錄軟件程序的程序代碼,該軟件程序能夠執(zhí)行上述系統(tǒng)實施例或裝置實施例的功能,并能通過系統(tǒng)或裝置中的計算機(或者CPU或MPU)讀出并且執(zhí)行存儲在存儲介質(zhì)中的程序代碼。在這種情況下,從存儲介質(zhì)中讀出的程序代碼自身執(zhí)行上述實施例中的功能,并且存儲程序代碼的存儲介質(zhì)構(gòu)成本發(fā)明。
關(guān)于提供程序代碼的存儲介質(zhì),可以使用例如,軟盤、硬盤、光盤、磁光盤、CD-ROM、CD-R、磁帶、非易失性存儲卡、ROM以及類似存儲介質(zhì)。
上述實施例的功能不僅能夠通過由計算機執(zhí)行讀出的程序代碼來完成,而且可以通過由計算機中運行的OS(操作系統(tǒng))根據(jù)程序代碼的指示,執(zhí)行部分或者全部實際處理操作來完成。
由上述可知,本發(fā)明的方法提供了一種對漢字拼音編碼和解碼的可靠方法。該方法能夠極大地降低對漢字拼音存儲的存儲空間的要求。
本發(fā)明包括一種情況,即從存儲介質(zhì)中讀出的程序代碼被寫入插在計算機中的功能擴展卡或與計算機相連的功能擴展單元提供的存儲器后,功能擴展卡或單元中包含的CPU或類似裝置根據(jù)程序代碼的指令,執(zhí)行部分或全部程序并實現(xiàn)上述實施例的功能。
本發(fā)明應(yīng)用于上述存儲介質(zhì)的情況下,存儲介質(zhì)存儲與實施例中說明的流程圖(圖2至圖7)對應(yīng)的程序代碼。
上述實施例針對的是漢字拼音的編碼與處理,但是,本發(fā)明不限于漢字拼音的編碼,對于其它編碼方法,例如,對其他語言的讀音的編碼也是適用的。
不脫離本發(fā)明的構(gòu)思和范圍可以作出許多其它改變和改型。應(yīng)當(dāng)理解,本發(fā)明不限于特定的實施例,本發(fā)明的范圍由所附權(quán)利要求限定。
權(quán)利要求
1.一種漢字拼音的編碼方法,包括如下步驟輸入步驟,用于輸入文件中每個漢字的拼音;計算步驟,用于計算每個韻母和每個聲母與聲調(diào)的組合的出現(xiàn)概率;以及編碼步驟,用于根據(jù)每個韻母和每個聲母與聲調(diào)的組合的出現(xiàn)概率,對文件中的每個漢字的拼音進行編碼。
2.根據(jù)權(quán)利要求1所述的漢字拼音的編碼方法,還包括形成韻母表的步驟,其中拼音的韻母根據(jù)其在文件中的出現(xiàn)概率排列。
3.根據(jù)權(quán)利要求2所述的漢字拼音的編碼方法,還包括形成聲母與聲調(diào)的組合的表的步驟,其中聲母與聲調(diào)的組合根據(jù)其在文件中的出現(xiàn)概率排列。
4.根據(jù)權(quán)利要求3所述的漢字拼音的編碼方法,其中拼音的每個韻母使用8比特編碼,每個聲母與聲調(diào)的組合使用8比特編碼,拼音的韻母的全部編碼包括在聲母與聲調(diào)的組合使用的編碼中。
5.根據(jù)權(quán)利要求4所述的漢字拼音的編碼方法,其中從最大的出現(xiàn)概率開始,具有相同的次序的韻母和聲母與聲調(diào)的組合被賦予相同的編碼。
6.根據(jù)權(quán)利要求1至5中的任一項所述的漢字拼音的編碼方法,還包括壓縮步驟,用于使用常規(guī)方法,如霍夫曼方法將已被編碼的漢字拼音進行壓縮。
7.根據(jù)權(quán)利要求6所述的漢字拼音的編碼方法,還包括輸出步驟,用于輸出壓縮的漢字拼音,以便作進一步的處理。
8.一種漢字拼音的編碼方法,包括如下步驟輸入步驟,用于輸入文件中每個漢字的拼音;計算步驟,用于計算每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率;以及編碼步驟,用于根據(jù)每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率,對文件中的每個漢字的拼音進行編碼。
9.一種漢字拼音的解碼方法,包括以下步驟讀取步驟,用于讀取文件中漢字的已被編碼的拼音;提取步驟,用于提取漢字拼音的二進制編碼;以及確定步驟,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
10.根據(jù)權(quán)利要求9所述的漢字拼音的解碼方法,還包括輸出步驟,用于輸出已確定的漢字的拼音以便作進一步的處理。
11.根據(jù)權(quán)利要求10所述的漢字拼音的解碼方法,還包括解壓縮步驟,用于使用常規(guī)方法,如霍夫曼方法,對漢字的已被編碼的拼音進行解壓縮。
12.一種漢字拼音的解碼方法,包括以下步驟讀取步驟,用于讀取文件中漢字的已被編碼的拼音;提取步驟,用于提取漢字拼音的二進制編碼;以及確定步驟,用于根據(jù)聲母和每個韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
13.一種漢字拼音的編碼裝置,包括輸入裝置,用于輸入文件中每個漢字的拼音;計算裝置,用于計算每個韻母和每個聲母與聲調(diào)的組合的出現(xiàn)概率;以及編碼裝置,用于根據(jù)每個韻母和每個聲母與聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
14.根據(jù)權(quán)利要求13所述的漢字拼音的編碼裝置,還包括表形成裝置,用于形成韻母表,該表中拼音的韻母根據(jù)其在文件中出現(xiàn)的概率排列。
15.根據(jù)權(quán)利要求14所述的漢字拼音的編碼裝置,其中表形成裝置形成聲母與聲調(diào)的組合的表,該表中聲母與聲調(diào)的組合根據(jù)其在文件中出現(xiàn)的概率排列。
16.根據(jù)權(quán)利要求15所述的漢字拼音的編碼裝置,其中拼音的每個韻母使用8比特編碼,每個聲母與聲調(diào)的組合使用8比特編碼,拼音的韻母的全部編碼包括在聲母與聲調(diào)的組合使用的編碼中。
17.根據(jù)權(quán)利要求16所述的漢字拼音的編碼裝置,其中從最大的出現(xiàn)概率開始,具有相同的次序的韻母和聲母與聲調(diào)的組合被賦予相同的編碼。
18.根據(jù)權(quán)利要求13至17中的任一項所述的漢字拼音的編碼裝置,還包括壓縮裝置,用于使用常規(guī)方法,如霍夫曼方法將已被編碼的漢字拼音進行壓縮。
19.根據(jù)權(quán)利要求18所述的漢字拼音的編碼裝置,還包括輸出裝置,用于輸出壓縮的漢字拼音,以便作進一步的處理。
20.一種漢字拼音的編碼裝置,包括輸入裝置,用于輸入文件中每個漢字的拼音;計算裝置,用于計算每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率;以及編碼裝置,用于根據(jù)每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
21.一種漢字拼音的解碼裝置,包括讀取裝置,用于讀取文件中漢字的已被編碼的拼音;提取裝置,用于提取漢字拼音的二進制編碼;以及確定裝置,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
22.根據(jù)權(quán)利要求21所述的漢字拼音的解碼裝置,還包括輸出裝置,用于輸出已確定的漢字的拼音,以便作進一步的處理。
23.根據(jù)權(quán)利要求22所述的漢字拼音的解碼裝置,還包括解壓縮裝置,用于使用常規(guī)方法,如霍夫曼方法,將漢字的已被編碼的拼音解壓縮。
24.一種漢字拼音的解碼裝置,包括讀取裝置,用于讀取文件中漢字的已被編碼的拼音;提取裝置,用于提取漢字拼音的二進制編碼;以及確定裝置,用于根據(jù)聲母表和韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
25.一種存儲介質(zhì),用于存儲漢字拼音編碼的程序代碼,該程序代碼包括輸入代碼,用于輸入文件中每個漢字的拼音;計算代碼,用于計算每個韻母以及每個聲母和聲調(diào)的組合的出現(xiàn)概率;以及編碼代碼,用于根據(jù)每個韻母以及每個聲母和聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
26.一種存儲介質(zhì),用于存儲漢字拼音編碼的程序代碼,該程序代碼包括輸入代碼,用于輸入文件中每個漢字的拼音;計算代碼,用于計算每個聲母以及每個韻母和聲調(diào)的組合的出現(xiàn)概率;以及編碼代碼,用于根據(jù)每個聲母以及每個韻母和聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。
27.一種存儲介質(zhì),用于存儲漢字拼音解碼的程序代碼,該程序代碼包括讀取代碼,用于讀取文件中漢字已被編碼的拼音;提取代碼,用于提取漢字拼音的二進制碼;以及確定代碼,用于根據(jù)韻母表和聲母與聲調(diào)的組合的表,確定文件中漢字的拼音。
28.一種存儲介質(zhì),用于存儲漢字拼音解碼的程序代碼,該程序代碼包括讀取代碼,用于讀取文件中漢字已被編碼的拼音;提取代碼,用于提取漢字拼音的二進制碼;以及確定代碼,用于根據(jù)聲母表和韻母與聲調(diào)的組合的表,確定文件中漢字的拼音。
29.存儲介質(zhì),存儲用于執(zhí)行根據(jù)權(quán)利要求1至12中的任一項所述方法的程序。
30.記錄介質(zhì),根據(jù)權(quán)利要求1至12中的任一項所述的方法在其上形成。
全文摘要
本發(fā)明公開了一種漢字拼音的處理方法、裝置以及存儲介質(zhì)。該方法包括,輸入步驟,用于輸入文件中每個漢字的拼音;計算步驟,用于計算每個韻母和每個聲母與聲調(diào)的組合的出現(xiàn)概率;以及編碼步驟,用于根據(jù)每個韻母以及每個聲母與聲調(diào)的組合的出現(xiàn)概率,對文件中每個漢字的拼音進行編碼。本方法也可基于每個聲母和每個韻母與聲調(diào)的組合的出現(xiàn)概率,對漢字拼音進行處理。根據(jù)本發(fā)明,可以得到一種可靠的和快速的處理漢字拼音的方法。拼音的壓縮率能夠得到極大地改善,需要較少的空間存儲文件中的拼音。
文檔編號G06F3/023GK1512308SQ0215954
公開日2004年7月14日 申請日期2002年12月27日 優(yōu)先權(quán)日2002年12月27日
發(fā)明者楊大為, 金浩, 劉賀飛, 秦曉亮 申請人:佳能株式會社