專利名稱:一種識(shí)別中文文本編碼形式的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索漢字字符識(shí)別技術(shù)領(lǐng)域,尤其涉及一種識(shí)別中文文本編碼形式的方法。
背景技術(shù):
由于歷史和地域等多方面的原因,漢字字符在計(jì)算機(jī)內(nèi)存儲(chǔ)和處理時(shí)有多種編碼形式。其中最常見的有三種1、我國大陸制定的國標(biāo)碼,包括GB2313、GBK和GB18030等;2、我國港澳臺(tái)等地區(qū)制定的繁體漢字編碼,包括BIG-5、BIG-5E和HKCS等;3、漢字編碼的國際標(biāo)準(zhǔn),包括ISO 10646、Unicode等。
漢字編碼向ISO 10646的過渡是一個(gè)較長(zhǎng)的過程,在此期間各種不同的漢字編碼形式都將同存,這必然要求操作系統(tǒng)或應(yīng)用程序能夠自動(dòng)識(shí)別漢字字符的編碼,并實(shí)現(xiàn)編碼的轉(zhuǎn)換。
例如Internet上各網(wǎng)頁可能采用不同的漢字編碼,很多網(wǎng)頁并沒有標(biāo)明編碼類型,這必然要求瀏覽器能夠自動(dòng)識(shí)別網(wǎng)頁的漢字編碼;不同的編輯器都有默認(rèn)的編碼形式,當(dāng)一個(gè)文本文件的編碼不是編輯器的默認(rèn)編碼時(shí),如果編輯器不能自動(dòng)識(shí)別其編碼,將顯示出亂碼。
我國與世界各地經(jīng)濟(jì)、文化等各領(lǐng)域的交流日益頻繁,大陸地區(qū)與港澳臺(tái)地區(qū)的交流也日益增多,各種不同的漢字編碼形式給交流帶來了障礙,也要求操作系統(tǒng)或應(yīng)用程序能夠自動(dòng)識(shí)別文本信息的漢字編碼。
常用的編碼識(shí)別方法有(1)基于內(nèi)碼分布的識(shí)別方法。這是因特網(wǎng)上公開的編碼識(shí)別方法,主要用來識(shí)別GB碼和BIG5碼。該方法首先將待識(shí)別文本轉(zhuǎn)換為無符號(hào)整數(shù),累加待識(shí)別文件中所有漢字的第一個(gè)字節(jié)(也可以是第二個(gè)字節(jié)或兩個(gè)字節(jié)),求得待識(shí)別文本所有漢字字符的編碼平均值,與訓(xùn)練得到的閾值(184)比較,如果待識(shí)別文件編碼平均值大于184則為GB碼,否則為BIG5碼。這種方法使用簡(jiǎn)單,但只能識(shí)別長(zhǎng)文本漢字編碼,對(duì)漢字與ASCII共存的文本也不能有效識(shí)別。
(2)基于各編碼非重疊區(qū)的識(shí)別方法。雖然各種不同的漢字編碼有交叉重疊的部分,但也一般不是完全一致。如果待識(shí)別文本中出現(xiàn)了只存在于某種編碼空間的字符,則可以排除其它編碼形式的可能性。該方法局限性非常大,不能保證識(shí)別成功,只能作為其它編碼識(shí)別方法的輔助識(shí)別方法。
(3)基于標(biāo)點(diǎn)符號(hào)的識(shí)別方法。各標(biāo)點(diǎn)符號(hào)在各種編碼類型中的編碼均不相同,并且所有常用標(biāo)點(diǎn)符號(hào)在各編碼類型中對(duì)應(yīng)的編碼集合之間互不相交,這樣可以通過統(tǒng)計(jì)標(biāo)點(diǎn)符號(hào)在各種編碼類型出現(xiàn)的概率識(shí)別文本的編碼類型。這種方法同樣只適用于識(shí)別長(zhǎng)文本,對(duì)沒有標(biāo)點(diǎn)符號(hào)的孤立短文本無效。
(4)基于字頻統(tǒng)計(jì)的識(shí)別方法。漢字字符的使用頻次差別很大,1000個(gè)最常用漢字使用頻率占90.4%,2500個(gè)最常用漢字使用頻率占97.97%。因此,待識(shí)別文本中含有某種編碼的常用字越多,則為該編碼的可能性越大。該方法同樣也只適用于識(shí)別長(zhǎng)文本,對(duì)于短文本編碼的識(shí)別準(zhǔn)確率很低。
(5)基于用語習(xí)慣差異的識(shí)別方法。兩岸漢字編碼不同,用語習(xí)慣也有差異。例如大陸習(xí)慣說“軟件”,港澳臺(tái)習(xí)慣說“軟體”,根據(jù)這些差異可以識(shí)別漢字編碼。這種思路開銷較大,同時(shí)這種差異性并不總是反映編碼類型,臺(tái)灣人有時(shí)候也會(huì)照顧大陸讀者而說“軟件”,大陸人有時(shí)候也會(huì)照顧臺(tái)灣讀者而說“軟體”,并且這些存在差異的用語數(shù)量較少,在短文本中不一定會(huì)出現(xiàn),因此該方法對(duì)短文本識(shí)別效果也不佳。
也有人用若干種方法分別對(duì)待識(shí)別文本進(jìn)行編碼識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行投票,投票結(jié)果形成最終的編碼識(shí)別結(jié)果。這種投票器的方法需要較多的時(shí)間,對(duì)短文本的識(shí)別準(zhǔn)確率也不高。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題有鑒于此,本發(fā)明的主要目的在于提供一種識(shí)別中文文本編碼形式的方法,以提高漢字字符編碼識(shí)別的速度和準(zhǔn)確率,有效識(shí)別短文本的漢字字符編碼形式。
(二)技術(shù)方案為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的
一種識(shí)別中文文本編碼形式的方法,該方法包括A、在各種編碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換;B、判斷待識(shí)別中文文本是否只能按照某種編碼形式轉(zhuǎn)換為整數(shù)ID序列,如果是,則執(zhí)行步驟D;否則,執(zhí)行步驟C;C、對(duì)在各種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列分別進(jìn)行分詞,判斷在某種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列是否包含詞典中一個(gè)或多個(gè)詞語,如果是,則執(zhí)行步驟D;D、確定該待識(shí)別中文文本的編碼形式為該種編碼形式。
所述各種編碼形式至少包括GB碼、BIG5碼和Unicode碼,所述步驟A包括在GB碼、BIG5碼和Unicode碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換。
在步驟B中所述判斷過程中,如果僅能夠按照GB碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為GB碼編碼形式;在步驟B中所述判斷過程中,如果僅能夠按照BIG5碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為BIG5碼編碼形式;在步驟B中所述判斷過程中,如果僅能夠按照Unicode碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為Unicode碼編碼形式。
步驟C中所述分詞算法采用正向最大匹配分詞方法或反向最大匹配分詞方法,分詞采用的詞典結(jié)構(gòu)包括Trie樹、雙數(shù)組結(jié)構(gòu)、完美哈希函數(shù)、首字哈希。
在步驟C中所述詞典為通用詞典,包括僅在大陸地區(qū)或港澳臺(tái)地區(qū)特有的詞語,也包括在大陸地區(qū)和港澳臺(tái)地區(qū)都常用的詞語和短語。
如果中文文本中的一個(gè)字符串在一種編碼形式下為詞典詞語a,在另一種編碼形式下為詞典詞語b,則在所述詞典中刪除詞語a和b。
步驟C中所述判斷的結(jié)果為否,該方法進(jìn)一步包括E、計(jì)算待識(shí)別中文文本的內(nèi)碼分布和字頻分布,根據(jù)計(jì)算的內(nèi)碼分布和字頻分布確定待識(shí)別中文文本的編碼形式。
(三)有益效果從上述技術(shù)方案可以看出,本發(fā)明具有以下有益效果1、本發(fā)明提供的這種識(shí)別中文文本編碼形式的方法,通過融合所有已知的漢字編碼識(shí)別方法,將待識(shí)別文本經(jīng)過序列化、分詞和統(tǒng)計(jì)三個(gè)階段,每個(gè)階段都可以對(duì)編碼進(jìn)行識(shí)別,如果在某個(gè)階段已經(jīng)能夠確定待識(shí)別文本的編碼形式,就不需要后繼識(shí)別階段。因此,利用本發(fā)明,大大提高了漢字字符編碼識(shí)別的速度和準(zhǔn)確率,并能夠有效識(shí)別短文本的漢字字符編碼形式。
2、本發(fā)明提供的這種識(shí)別中文文本編碼形式的方法,由于序列化和分詞階段速度很快,大部分文本的編碼識(shí)別可以在分詞階段完成,因此本發(fā)明的優(yōu)點(diǎn)之一就是識(shí)別速度非??欤蟠筇岣吡藵h字字符編碼識(shí)別的速度。
3、本發(fā)明提供的這種識(shí)別中文文本編碼形式的方法,由于在某種編碼形式下的一個(gè)字符串如果構(gòu)成詞典的一個(gè)詞語,在其它編碼形式下不可能構(gòu)成詞典的任何詞語(如果編碼形式A下的某個(gè)詞語a構(gòu)成另一種編碼形式B下的詞語b,本發(fā)明將去掉詞典中的詞語a和b),而幾乎所有有意義文本總包含詞典中一個(gè)或多個(gè)詞語,因此本發(fā)明的識(shí)別準(zhǔn)確率非常高。
4、本發(fā)明提供的這種識(shí)別中文文本編碼形式的方法,由于分詞所用的詞典既包括大陸地區(qū)和港澳臺(tái)地區(qū)用語存在差異的詞語,也包括數(shù)量眾多的兩岸通用詞語,即使非常短的待識(shí)別文本也一般包含一個(gè)或幾個(gè)詞典詞語,因此本發(fā)明的另一個(gè)優(yōu)點(diǎn)就是能夠適用于短文本的編碼識(shí)別,大部分文本可以用不超過5個(gè)字符即可識(shí)別其編碼,對(duì)于超過10個(gè)漢字的有意義文本,幾乎都可以正確識(shí)別其編碼形式,對(duì)短文本的編碼識(shí)別準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于投票器識(shí)別策略。
圖1為本發(fā)明提供的識(shí)別中文文本編碼形式總體技術(shù)方案的實(shí)現(xiàn)流程圖;圖2為依照本發(fā)明實(shí)施例識(shí)別漢字編碼的過程示意圖;圖3為依照本發(fā)明實(shí)施例序列化階段示意圖;圖4為依照本發(fā)明實(shí)施例分詞所用詞典的構(gòu)造示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。
本發(fā)明的核心思想是通過融合所有已知的漢字編碼識(shí)別方法,將待識(shí)別文本經(jīng)過序列化、分詞和統(tǒng)計(jì)三個(gè)階段,每個(gè)階段都可以對(duì)編碼進(jìn)行識(shí)別,如果在某個(gè)階段已經(jīng)能夠確定待識(shí)別文本的編碼形式,就不需要后繼識(shí)別階段。
如圖1所示,圖1為本發(fā)明提供的識(shí)別中文文本編碼形式總體技術(shù)方案的實(shí)現(xiàn)流程圖,該方法包括以下步驟步驟101在各種編碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換;步驟102判斷待識(shí)別中文文本是否只能按照某種編碼形式轉(zhuǎn)換為整數(shù)ID序列,如果是,則執(zhí)行步驟104;否則,執(zhí)行步驟103;步驟103對(duì)在各種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列分別進(jìn)行分詞,判斷在某種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列是否包含詞典中一個(gè)或多個(gè)詞語,如果是,則執(zhí)行步驟104;否則,執(zhí)行步驟105;步驟104確定該待識(shí)別中文文本的編碼形式為該種編碼形式。
步驟105計(jì)算待識(shí)別中文文本的內(nèi)碼分布和字頻分布,根據(jù)計(jì)算的內(nèi)碼分布和字頻分布確定待識(shí)別中文文本的編碼形式。
本發(fā)明將待識(shí)別文本的編碼識(shí)別過程分為序列化階段、分詞階段和統(tǒng)計(jì)階段,每個(gè)階段都可能確定待識(shí)別文本的編碼形式,只有在前面階段不能確定待識(shí)別文本編碼形式才進(jìn)行后續(xù)識(shí)別階段,整個(gè)過程如圖2所示。
在序列化階段,將待識(shí)別文本各字符分別在各可能編碼形式下轉(zhuǎn)換為對(duì)應(yīng)的整數(shù)ID。漢字字符集中的每一個(gè)漢字都對(duì)應(yīng)一個(gè)唯一的整數(shù)ID。如果待識(shí)別文本中含有某個(gè)字符不在某種編碼形式的編碼空間內(nèi),那么待識(shí)別文本不是該編碼形式;如果待識(shí)別文本中某個(gè)字符只屬于某種編碼形式的編碼空間,那么待識(shí)別文本就是該編碼形式。如果在序列化階段不能確定待識(shí)別文本的編碼形式,則進(jìn)入本發(fā)明的分詞階段。
在分詞階段,對(duì)序列化階段產(chǎn)生的各可能編碼形式的整數(shù)ID序列分別進(jìn)行分詞。分詞詞典既包含兩岸用語存在差異的詞語,也包括通用的詞語。如果對(duì)某種可能編碼形式的整數(shù)ID序列分詞能夠得到詞典詞語,那么待識(shí)別文本就為該編碼形式。如果對(duì)所有可能編碼形式的整數(shù)ID序列分詞都不能得到詞典詞語,則說明待識(shí)別文本極有可能為無意義字符串,本發(fā)明進(jìn)入統(tǒng)計(jì)階段。
在統(tǒng)計(jì)階段,對(duì)待識(shí)別文本分別計(jì)算內(nèi)碼分布和字頻分布,從內(nèi)碼分布和字符分布等統(tǒng)計(jì)信息識(shí)別編碼形式。如果根據(jù)待識(shí)別文本的內(nèi)碼分布和字頻分布仍然不能確定待識(shí)別文本的編碼形式,則說明待識(shí)別文本很有可能是亂碼,本發(fā)明將提示不能識(shí)別其編碼形式。
下面對(duì)上述三個(gè)階段分別詳細(xì)介紹如下1.序列化階段本發(fā)明首先將待識(shí)別文本在各可能編碼形式下轉(zhuǎn)換為整數(shù)ID序列。漢字的整數(shù)ID是事先確定好的該漢字的唯一標(biāo)志,不同漢字的整數(shù)ID均不相同。如圖3所示,分別將待識(shí)別文本在GB碼、BIG5碼、Unicode碼等可能編碼形式下轉(zhuǎn)換為相應(yīng)整數(shù)ID序列。如果待識(shí)別文本中含有某些字符不在某種編碼形式的編碼空間,那么待識(shí)別文本不是該編碼形式;如果待識(shí)別文本的某些字符只屬于某種編碼形式的編碼空間,那么待識(shí)別文本為該編碼形式。
例如,如果待識(shí)別文本十六進(jìn)制字節(jié)流為“FF FE 54 80 1A 90”,由于“FF FE”是Unicode編碼文件的標(biāo)志字符,不在GB碼、BIG5碼等編碼形式的編碼空間,因此該文本為Unicode編碼形式。
各編碼形式的編碼空間均存在較大的非重疊區(qū),尤其是很多常用漢字沒有出現(xiàn)在各編碼空間的重疊區(qū),因此即使對(duì)于短文本,本階段也可以識(shí)別50%以上的待識(shí)別文本編碼形式。如果本階段不能識(shí)別文本編碼形式,則進(jìn)入分詞階段。
2.分詞階段由于大陸地區(qū)和港澳臺(tái)地區(qū)在用語上大部分還是相同的,只有個(gè)別用語存在差異,因此本發(fā)明在分詞階段所用詞典不僅包括兩岸用語存在差異的詞語,同時(shí)也包括通用的詞語,提高對(duì)短文本編碼識(shí)別的準(zhǔn)確率。
本發(fā)明構(gòu)造一個(gè)通用詞典,至少包括大陸地區(qū)和港澳臺(tái)地區(qū)都較常用的詞語和短語,如蘋果、香蕉、北京,也包括僅在大陸地區(qū)或港澳臺(tái)地區(qū)特有的詞語,如奔馳、平治、賓士、程序、程式等。本詞典不收錄單字詞,同時(shí)如果一個(gè)單詞在兩種或兩種以上編碼形式下都構(gòu)成該詞典的單詞,則去掉該單詞,即如果中文文本中的一個(gè)字符串在一種編碼形式下為詞典詞語a,在另一種編碼形式下為詞典詞語b,則在所述詞典中刪除詞語a和b。本發(fā)明所用詞典的構(gòu)造過程如圖4所示。
對(duì)序列化階段得到的各可能編碼形式下的整數(shù)ID序列分別進(jìn)行分詞,如果某種編碼形式對(duì)應(yīng)的整數(shù)ID序列包含詞典中一個(gè)或多個(gè)詞語,則待識(shí)別文本為該編碼形式。分詞可以采用正向最大匹配分詞方法,也可以采用反向最大匹配分詞方法,詞典結(jié)構(gòu)可以采用各種已有的分詞數(shù)據(jù)結(jié)構(gòu)如Trie樹、雙數(shù)組結(jié)構(gòu)、完美哈希函數(shù)、首字哈希等。
幾乎所有有意義文本總包含詞典中一個(gè)或多個(gè)詞語,即使非常短的待識(shí)別文本也是如此,因此本發(fā)明的識(shí)別準(zhǔn)確率非常高,對(duì)短文本的編碼識(shí)別效果也非常好,對(duì)長(zhǎng)度超過10個(gè)漢字的文本幾乎都可以在分詞階段識(shí)別其編碼形式。如果分詞階段不能識(shí)別文本的編碼形式,本發(fā)明則進(jìn)入統(tǒng)計(jì)階段。
3.統(tǒng)計(jì)階段對(duì)于序列化階段和分詞階段都不能識(shí)別的文本,本發(fā)明再計(jì)算其內(nèi)碼分布和字頻分布信息,根據(jù)字頻分布和內(nèi)碼分布信息識(shí)別其編碼形式。如果在統(tǒng)計(jì)階段仍不能識(shí)別文本的編碼形式,本發(fā)明將提示不能識(shí)別該文本的編碼形式。
為了驗(yàn)證本發(fā)明提供的識(shí)別中文文本編碼形式的方法,本發(fā)明從各主流論壇站點(diǎn)采集了大陸地區(qū)和港澳臺(tái)地區(qū)的BBS標(biāo)題共計(jì)500萬條,145M字節(jié),平均每個(gè)標(biāo)題不到15個(gè)字符。采用本發(fā)明提到的識(shí)別中文文本編碼形式的方法,識(shí)別500萬短文本的編碼共耗時(shí)不到16秒,所有文本都能正確識(shí)別其編碼。其中99.93%的待識(shí)別文本能在分詞階段識(shí)別編碼,90%的待識(shí)別文本能用不到5個(gè)字符識(shí)別其編碼,對(duì)超過10個(gè)漢字的有意義文本幾乎都能在分詞階段正確識(shí)別其編碼形式。
以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種識(shí)別中文文本編碼形式的方法,其特征在于,該方法包括A、在各種編碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換;B、判斷待識(shí)別中文文本是否只能按照某種編碼形式轉(zhuǎn)換為整數(shù)ID序列,如果是,則執(zhí)行步驟D;否則,執(zhí)行步驟C;C、對(duì)在各種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列分別進(jìn)行分詞,判斷在某種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列是否包含詞典中一個(gè)或多個(gè)詞語,如果是,則執(zhí)行步驟D;D、確定該待識(shí)別中文文本的編碼形式為該種編碼形式。
2.根據(jù)權(quán)利要求1所述的識(shí)別中文文本編碼形式的方法,其特征在于,所述各種編碼形式至少包括GB碼、BIG5碼和Unicode碼,所述步驟A包括在GB碼、BIG5碼和Unicode碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換。
3.根據(jù)權(quán)利要求2所述的識(shí)別中文文本編碼形式的方法,其特征在于,在步驟B中所述判斷過程中,如果僅能夠按照GB碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為GB碼編碼形式;在步驟B中所述判斷過程中,如果僅能夠按照BIG5碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為BIG5碼編碼形式;在步驟B中所述判斷過程中,如果僅能夠按照Unicode碼編碼形式將待識(shí)別中文文本轉(zhuǎn)換為整數(shù)ID序列,則步驟D中確定該待識(shí)別中文文本的編碼形式為Unicode碼編碼形式。
4.根據(jù)權(quán)利要求1所述的識(shí)別中文文本編碼形式的方法,其特征在于,步驟C中所述分詞算法采用正向最大匹配分詞方法或反向最大匹配分詞方法,分詞采用的詞典結(jié)構(gòu)包括Trie樹、雙數(shù)組結(jié)構(gòu)、完美哈希函數(shù)、首字哈希。
5.根據(jù)權(quán)利要求1所述的識(shí)別中文文本編碼形式的方法,其特征在于,在步驟C中所述詞典為通用詞典,包括僅在大陸地區(qū)或港澳臺(tái)地區(qū)特有的詞語,也包括在大陸地區(qū)和港澳臺(tái)地區(qū)都常用的詞語和短語。
6.根據(jù)權(quán)利要求5所述的識(shí)別中文文本編碼形式的方法,其特征在于,如果中文文本中的一個(gè)字符串在一種編碼形式下為詞典詞語a,在另一種編碼形式下為詞典詞語b,則在所述詞典中刪除詞語a和b。
7.根據(jù)權(quán)利要求1所述的識(shí)別中文文本編碼形式的方法,其特征在于,步驟C中所述判斷的結(jié)果為否,該方法進(jìn)一步包括E、計(jì)算待識(shí)別中文文本的內(nèi)碼分布和字頻分布,根據(jù)計(jì)算的內(nèi)碼分布和字頻分布確定待識(shí)別中文文本的編碼形式。
全文摘要
本發(fā)明公開了一種識(shí)別中文文本編碼形式的方法,包括A.在各種編碼形式下分別對(duì)待識(shí)別文本進(jìn)行整數(shù)ID序列轉(zhuǎn)換;B.判斷待識(shí)別中文文本是否只能按照某種編碼形式轉(zhuǎn)換為整數(shù)ID序列,如果是,則執(zhí)行步驟D;否則,執(zhí)行步驟C;C.對(duì)在各種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列分別進(jìn)行分詞,判斷在某種編碼形式下得到的待識(shí)別中文文本整數(shù)ID序列是否包含詞典中一個(gè)或多個(gè)詞語,如果是,則執(zhí)行步驟D;D.確定該待識(shí)別中文文本的編碼形式為該種編碼形式。利用本發(fā)明,大大提高了漢字字符編碼識(shí)別的速度和準(zhǔn)確率,并能夠有效識(shí)別短文本的漢字字符編碼形式。
文檔編號(hào)G06F17/28GK101013420SQ20061017165
公開日2007年8月8日 申請(qǐng)日期2006年12月31日 優(yōu)先權(quán)日2006年12月31日
發(fā)明者龔才春 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所