帶有易混淆音識(shí)別的拼音檢查系統(tǒng)和方法

文檔序號(hào)：6612076閱讀：281來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：帶有易混淆音識(shí)別的拼音檢查系統(tǒng)和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種拼音檢查技術(shù)，特別是涉及一種帶有易混淆音識(shí)別的拼音檢查技術(shù)。
背景技術(shù)：
隨著科學(xué)技術(shù)的飛速發(fā)展，尤其是計(jì)算機(jī)逐漸步入社會(huì)的各個(gè)角落，并且廣泛地使用計(jì)算機(jī)已成為現(xiàn)代杜會(huì)發(fā)展的必然趨勢(shì)。然而，由于計(jì)算機(jī)的發(fā)明和主要應(yīng)用都是在西方，因此，在中國(guó)推廣使用計(jì)算機(jī)必然會(huì)產(chǎn)生一些障礙，而其中最主要的為語(yǔ)言文字的障礙。由于計(jì)算;bL—般都以英文字母進(jìn) 行顯示和操作，所以對(duì)大部分中國(guó)人來(lái)說(shuō)，用英文熟練的操作計(jì)算機(jī)是非常困難的。因此，計(jì)算機(jī)在中國(guó)的使用和普及受到了方塊字這一瓶頸口的限制。
為了排除這一障礙，自70年代以來(lái)，我國(guó)已設(shè)計(jì)了許多種輸入方案。據(jù) 雜志上報(bào)道已有七、八百種。其中有形碼、音碼、形音碼、數(shù)字碼等編碼方案，如五筆字型法(國(guó)家專(zhuān)利局專(zhuān)利號(hào)為CN85100837A),這些編碼輸入法有兩個(gè)突出的缺點(diǎn)第一，輸入的是編碼，而不是"字"，編碼與字之間要有一個(gè) 轉(zhuǎn)化過(guò)程。操作人員必須先學(xué)習(xí)編碼，才能操作，不便于推廣普及。第二，靠編碼輸入的是單個(gè)漢字，單個(gè)漢字多數(shù)是不具有意義的詞，是一種低級(jí)的輸入方式。
為了解決上述問(wèn)題，國(guó)家推行了《漢語(yǔ)拼音方案》輸入法，如雙拼法(國(guó) 家專(zhuān)利局專(zhuān)利號(hào)為CN87100313A)。因?yàn)樗斎氲氖亲帜福皇蔷幋a，不存在編碼與字之間的轉(zhuǎn)化過(guò)程。雖然說(shuō)它的輸入速度可能不如某些編碼方案，但就輸入方式來(lái)說(shuō)，它要比編碼方案科學(xué)。
但《漢語(yǔ)拼音方案》輸入法存在著若干缺點(diǎn)，雖然經(jīng)過(guò)十年的實(shí)驗(yàn)和推廣，編訂了一個(gè)正詞法，但很不完善，輸入電腦時(shí)重碼率太高，詞匯難以定型。為了解決這一問(wèn)題，提出了拼寫(xiě)糾錯(cuò)技術(shù)。
拼寫(xiě)糾錯(cuò)是一般電腦內(nèi)處理文字資料的應(yīng)用軟件中不可或缺的一項(xiàng)重要
功能。這些處理文字資料的應(yīng)用軟件除字處理軟件(word processor)外，亦包括數(shù)據(jù)庫(kù)(database)及試算表(sreadsheet)等等，藉以減少撰寫(xiě)的文稿或數(shù)據(jù)庫(kù)中
文字資料中的輸入錯(cuò)誤。
拼寫(xiě)糾錯(cuò)在搜索引擎中有相當(dāng)應(yīng)用，主要用于糾正輸入錯(cuò)誤從而引導(dǎo)用戶(hù)正確查詢(xún)，目前實(shí)現(xiàn)的主要技術(shù)都是基于拼音糾錯(cuò)，如baidu(百度)上，輸入"兵裹"，baidu查詢(xún)頁(yè)面會(huì)提示"您要找的是不是蘋(píng)果"。
拼寫(xiě)糾錯(cuò)的另一個(gè)應(yīng)用在拼音的輸入法中，當(dāng)用戶(hù)輸入一個(gè)不存在的拼音時(shí)，能推薦一些可能的詞。
但是，上述拼寫(xiě)糾錯(cuò)技術(shù)只能推薦有相同發(fā)音的詞，而沒(méi)法推薦有易混淆音的詞，如只能實(shí)現(xiàn)根據(jù)"乒裹(pingguo)"推薦"蘋(píng)果(pingguo)",而無(wú) 法根據(jù)"品郭(pinguo)"推薦"蘋(píng)果(pingguo)"。由于有大量地區(qū)的方言存在，發(fā)音并不那么準(zhǔn)確，因此會(huì)造成大量易混淆音的存在，如在浙江地區(qū)，往往分不清翹舌音/平舌音，前鼻音/后鼻音。在這種情況下，仍然會(huì)造成輸入錯(cuò)誤，并不能起到更智能化的作用，沒(méi)有人性化。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)和方法，以解決現(xiàn)有技術(shù)不能利用發(fā)音的相似性來(lái)矯正用戶(hù)中文輸入中可能出現(xiàn)的錯(cuò) 誤，解決各地區(qū)方言與普通話的混淆，進(jìn)而導(dǎo)致輸入容易出錯(cuò)的技術(shù)問(wèn)題。
一種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)，包括文件存儲(chǔ)空間和拼音檢查處理單元，而所述文件存儲(chǔ)空間包括詞庫(kù)存儲(chǔ)單元、漢字拼音存儲(chǔ)單元和漢字混淆音存儲(chǔ)單元，所述拼音檢查處理單元包括漢字4并音索引處理子單元、詞庫(kù)拼音索引處理子單元和漢字易混淆音索引處理子單元。
其中，所述系統(tǒng)還包括索引存儲(chǔ)空間，所述索引存儲(chǔ)空間包括漢字拼音索引文件用以保存根據(jù)漢字從漢字拼音存儲(chǔ)單元中得到發(fā)音的索引結(jié)構(gòu)；
漢字易混淆音索引文件用以保存根據(jù)拼音在所述漢字混淆音索引處理單子單元上找到其對(duì)應(yīng)的易混淆拼音的索引結(jié)構(gòu)；
詞庫(kù)拼音索引文件用以保存根據(jù)拼音在詞庫(kù)存儲(chǔ)單元上找到所有對(duì)應(yīng) 詞的索引結(jié)構(gòu)。
特別地，所述詞庫(kù)存儲(chǔ)單元是按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序排序；
所述詞庫(kù)拼音索引文件進(jìn)一步包括拼音哈希值索引子文件、列表地址索引子文件，其中，
拼音哈希值索引子文件用于根據(jù)拼音的哈希值從小到大或從大到小有順序地保存有每一^^合希值在列表地址索引子文件中對(duì)應(yīng)的列表地址；
列表地址索引子文件用于保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元中對(duì)應(yīng)的存儲(chǔ)地址信息。
詞庫(kù)拼音索引處理子單元進(jìn)一步包括哈希計(jì)算子單元用于計(jì)算詞拼音的哈希值；
哈希值索引處理子單元用于將計(jì)算出來(lái)的哈希值在所述拼音哈希值索引子文件中找到對(duì)應(yīng)的列表地址；
列表地址處理子單元用于將所述列表地址在列表地址索引子文件中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元的存儲(chǔ)地址信息；
詞庫(kù)處理子單元用于將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元中找到對(duì)應(yīng)的詞。
基于該系統(tǒng)，提出一種帶有易混淆音識(shí)別的拼音檢查方法，包括步驟，
(1) 設(shè)置存儲(chǔ)詞的詞庫(kù)存儲(chǔ)單元、存儲(chǔ)漢字拼音的漢字拼音存儲(chǔ)單元，和存儲(chǔ)易混淆拼音的漢字混淆存儲(chǔ)單元；
(2) 接收用戶(hù)輸入的關(guān)鍵字，在所述漢字拼音存儲(chǔ)單元中搜索到對(duì)應(yīng)的拼
音；
(3) 接收所述漢字拼音存儲(chǔ)單元發(fā)送的拼音，在所述漢字混淆音存儲(chǔ)單元中搜索出對(duì)應(yīng)的混淆拼音；
(4)分別接收步驟(2)和步驟(3)提供的拼音，在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞。
其中，步驟(l)中設(shè)置詞庫(kù)存儲(chǔ)單元進(jìn)一步為按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序地在詞庫(kù)存儲(chǔ)單元中排序。
步驟(l)還包括
設(shè)置拼音哈希值索引子文件根據(jù)拼音的哈希值從小到大或從大到小有順序地保存有每一哈希值在列表地址索《I子文件中對(duì)應(yīng)的列表地址；
設(shè)置列表地址索引子文件保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元中對(duì)應(yīng)的存儲(chǔ)地址信息
步驟(4)中在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞進(jìn)一步包括計(jì)算每個(gè)詞拼音的哈希值；
將計(jì)算出來(lái)的哈希值在所述拼音哈希值索引子文件中找到對(duì)應(yīng)的列表地
址
將所述列表地址在列表地址索引子文件中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元的存儲(chǔ)地址信息；
將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元中找到對(duì)應(yīng)的詞。
優(yōu)選地，步驟(l)設(shè)置漢字拼音存儲(chǔ)單元進(jìn)一步包括
將漢字作為二叉樹(shù)的key,把拼音做為二叉樹(shù)的value值，若是多音字，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄；
步驟(l)設(shè)置漢字混淆存儲(chǔ)單元進(jìn)一步包括
將每個(gè)拼音作為二叉樹(shù)的key,該拼音的易混淆拼音作為value值，若是多個(gè)易混淆拼音，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄。
本發(fā)明的有益效果是通過(guò)引入易混淆音的識(shí)別，解決各地區(qū)方言與普通話的混淆問(wèn)題，利用發(fā)音的相似性，如翹舌音/平舌音、前鼻音/后鼻音等發(fā)音相似，來(lái)矯正用戶(hù)中文輸入時(shí)出現(xiàn)的錯(cuò)誤，使拼寫(xiě)糾錯(cuò)更智能化和人性化，提高了漢字輸入的準(zhǔn)確性。

圖1為本發(fā)明第一種帶有易混淆音識(shí)別的^f音檢查系統(tǒng)的結(jié)構(gòu)示意圖；圖2為本發(fā)明詞庫(kù)拼音索引處理子單元的結(jié)構(gòu)示意圖；圖3為本發(fā)明第二種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)的結(jié)構(gòu)示意圖；圖4為本發(fā)明釆用帶有易混淆音識(shí)別的拼音檢查方法時(shí)詞庫(kù)拼音索引處
理子文件結(jié)構(gòu)示意圖5為本發(fā)明一種帶有易混淆音識(shí)別的拼音檢查方法的流程圖6為本發(fā)明采用帶有易混淆音識(shí)別的拼音檢查方法時(shí)詞庫(kù)拼音索引處
理子文件結(jié)構(gòu)應(yīng)用示意圖。
具體實(shí)施例方式
以下結(jié)合附圖，具體說(shuō)明本發(fā)明。
請(qǐng)參閱圖1,其為本發(fā)明第一種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)的結(jié)構(gòu) 示意圖。它包括文件存儲(chǔ)空間100和拼音檢查處理單元200。文件存儲(chǔ)空間 100主要用于存儲(chǔ)輸入的關(guān)鍵字及各漢字對(duì)應(yīng)的拼音和易混淆音。所述拼音檢查處理單元200主要用于對(duì)輸入的關(guān)鍵字進(jìn)行拼音標(biāo)注及查找其易混淆音，得出對(duì)應(yīng)的詞。
其中，所述文件存儲(chǔ)空間100通常為一存儲(chǔ)器，或存儲(chǔ)器中開(kāi)辟的存儲(chǔ) 單元。從功能上來(lái)劃分，主要包括漢字拼音存儲(chǔ)單元110、漢字混淆音存儲(chǔ)單元120和詞庫(kù)存儲(chǔ)單元130。
漢字拼音存儲(chǔ)單元110,用于存儲(chǔ)漢字對(duì)應(yīng)的標(biāo)準(zhǔn)拼音。所述漢字拼音存儲(chǔ)單元110中按一定的格式存儲(chǔ)漢字及其對(duì)應(yīng)的標(biāo)準(zhǔn)拼音。一般的存儲(chǔ)格式為"漢字拼音，，其中，如果一個(gè)漢字為多音字時(shí)，在兩個(gè)拼音之間加"，"。如 "蘋(píng)ping"、"盛sheng， cheng"。所述每個(gè)存儲(chǔ)單元中只存儲(chǔ)一個(gè)漢字及其對(duì)應(yīng)的拼音。
漢字拼音存儲(chǔ)單元110可以以字典的順序來(lái)依次存儲(chǔ)每個(gè)漢字對(duì)應(yīng)^J拼音，當(dāng)該字為多音字時(shí)，可以采用多存一個(gè)存儲(chǔ)單元，該存儲(chǔ)單元為該漢字
對(duì)應(yīng)的另一個(gè)拼音。由于這種方式存儲(chǔ)漢字，在進(jìn)行漢字拼音查找時(shí)，速度
比較慢。本發(fā)明的實(shí)施例時(shí)，漢字拼音存儲(chǔ)單元110是以二叉樹(shù)存取的方式存儲(chǔ)漢字及對(duì)應(yīng)的拼音。即，漢字作為二叉樹(shù)的key，漢字的拼音作為二叉樹(shù) 的value值。如果是多音字，則每個(gè)發(fā)音插入一次，在保存時(shí)就會(huì)有二條記錄。通過(guò)這種方式保存時(shí)，在取漢字對(duì)應(yīng)的拼音時(shí)可以更快捷。
漢字混淆音存儲(chǔ)單元120，用于存儲(chǔ)所述漢字拼音存儲(chǔ)單元中每個(gè)拼音對(duì) 應(yīng)的易混淆拼音。所述漢字混淆音存儲(chǔ)單元120中按一定的格式存儲(chǔ)容易混淆的拼音。一般的存儲(chǔ)格式為"拼音易混淆音"，其中，如果一個(gè)拼音存在多個(gè)混淆音時(shí)，在兩個(gè)混淆音之間加"，"。一般因?yàn)楦鞯氐姆窖缘拇嬖?，而方?造成的發(fā)音一般分別以下兩類(lèi)翹舌音/平舌音，前鼻音/后鼻音。因此，在漢字混淆音存儲(chǔ)單元120中存儲(chǔ)的大部分為翹舌音/平舌音，前鼻音/后鼻音的混淆音,如"ping: pin"、 "sheng: shen, seng, shen，,。
漢字混淆音存儲(chǔ)單元120可以以一定順序來(lái)依次存儲(chǔ)每個(gè)拼音對(duì)應(yīng)的混淆拼音，當(dāng)該拼音為多個(gè)混淆音時(shí)，可以采多存一個(gè)存儲(chǔ)單元，該存儲(chǔ)單元為該拼音對(duì)應(yīng)的另一個(gè)易混淆拼音。由于這種方式存儲(chǔ)易混淆拼音，在進(jìn)行混淆拼音查找時(shí)，速度比較慢。本發(fā)明的實(shí)施例時(shí)，漢字混淆音存儲(chǔ)單元120 是以二叉樹(shù)存取的方式存儲(chǔ)每個(gè)拼音及對(duì)應(yīng)的易混淆拼音。即，拼音作為二叉樹(shù)的key，該拼音的易混淆拼音作為二叉樹(shù)的value值。如果是多個(gè)易混淆拼音，則每個(gè)易混淆拼音插入一次，在保存時(shí)就會(huì)有二條記錄。通過(guò)這種方式保存時(shí)，在取該^汫音對(duì)應(yīng)的易混淆拼音時(shí)可以更快捷。漢字混淆音存儲(chǔ)單元的易混淆音可以由用戶(hù)根據(jù)實(shí)際需要進(jìn)行自由配置。
詞庫(kù)存儲(chǔ)單元130,用于存儲(chǔ)作為候選對(duì)象的詞，其主要是所有作為候選對(duì)象的詞的集合。詞庫(kù)存儲(chǔ)單元130按一定順序存儲(chǔ)該些詞，可以按照字典的方式保存，也可以按照其它方式保存。為了方便查找，可以預(yù)先記錄每個(gè) 詞存儲(chǔ)的地址信息，如絕對(duì)存儲(chǔ)地址信息。本發(fā)明也可以是保存該詞存儲(chǔ)的地址與詞庫(kù)存儲(chǔ)單元130的首地址之間的偏移地址信息，這樣，當(dāng)獲得一個(gè) 詞的存儲(chǔ)地址信息時(shí)，能快速找到對(duì)應(yīng)的詞，提高其讀取速度。
所述拼音檢查處理單元200主是用于對(duì)輸入的關(guān)鍵字進(jìn)行拼寫(xiě)檢查操作。它通常是處理器通過(guò)編程來(lái)實(shí)現(xiàn)拼寫(xiě)檢查的工作的。從邏輯上來(lái)劃分，所述
拼音檢查處理單元200能進(jìn)一步劃分為漢字拼音索引處理子單元210、漢字混淆音索引處理子單元220和詞庫(kù)拼音索引處理子單元230。
所述漢字拼音索引處理子單元210，用于接收用戶(hù)輸入的關(guān)鍵字，在所述漢字拼音存儲(chǔ)單元110中搜索到對(duì)應(yīng)的拼音。漢字拼音索引處理子單元210 可以順序的方式依次在漢字拼音存儲(chǔ)單元110中找到對(duì)應(yīng)的拼音。但是考慮到查找效率實(shí)在太慢，當(dāng)漢字拼音存儲(chǔ)單元110是以二叉樹(shù)存取的方式保存所述漢字和拼音的對(duì)應(yīng)關(guān)系時(shí)，漢字拼音索引處理子單元210可以采用 multimap (即二叉樹(shù)方式)進(jìn)行查找。multimap是std的一個(gè)容器，采用平衡二叉樹(shù)結(jié)構(gòu)組織，其對(duì)key按照平衡二叉樹(shù)結(jié)構(gòu)組織，因此可通過(guò)key快速的獲取對(duì)應(yīng)的value值。其中key之間允許含有相同值。
具體說(shuō)，保存時(shí)采用漢字作為multimap的key，漢字所對(duì)應(yīng)的拼音作為 multimap的value。如果是多音字，則每個(gè)發(fā)音插入一次。如"蘋(píng)"，在multimap 中有一條記錄，即<蘋(píng)，ping>。而"盛"為多音字，在multimap就有兩條記錄，分另'J為〈盛，sheng>， <盛，cheng>。
當(dāng)該漢字拼音索引處理子單元210工作時(shí)，首先獲得輸入的關(guān)鍵字，將該關(guān)鍵字轉(zhuǎn)變成multimap的key,隨后通過(guò)該模塊的multimap在漢字拼音存儲(chǔ)單元110中查找平衡二叉樹(shù)的value值，得到該些關(guān)鍵字所對(duì)應(yīng)的拼音。其整個(gè)工作過(guò)程稱(chēng)為拼音標(biāo)注過(guò)程。
所述漢字混淆音索引處理子單元220,用于根據(jù)漢字拼音索引處理子單元 210提供的拼音在漢字混淆音存儲(chǔ)單元120中搜索出其易混淆音。其中，所述易混淆音包括翹舌音/平舌音，前鼻音/后鼻音。漢字混淆音索引處理子單元220 處理的原理與漢字拼音索引處理子單元210類(lèi)似,在此不再贅述了。
參照?qǐng)D2，其為本發(fā)明詞庫(kù)拼音索引處理子單元的結(jié)構(gòu)示意圖。
所述詞庫(kù)拼音索引處理子單元230，用于接收所述漢字拼音索引處理子單元210和所述漢字混淆音索引處理子單元220提供的拼音，在所述詞庫(kù)存儲(chǔ) 單元中搜索得到對(duì)應(yīng)的詞。后續(xù)會(huì)著重介紹，在此先省略。
本發(fā)明的所述系統(tǒng)還包括索引存儲(chǔ)空間300,用于保存索引信息。所述索
引存儲(chǔ)空間300包括
漢字拼音索引文件310:用以保存根據(jù)漢字從漢字拼音存儲(chǔ)單元110中得到發(fā)音的索引信息。通常，漢字拼音索引文件310中保存有如何找到漢字拼音存儲(chǔ)單元110的發(fā)音的索引規(guī)則，漢字拼音存儲(chǔ)單元110的存儲(chǔ)地址信息等。索引規(guī)則通常是指按什么順序去查找。漢字拼音索引文件310可以在存儲(chǔ)器中開(kāi)辟一存儲(chǔ)空間進(jìn)行保存，也可以設(shè)置在漢字拼音索引處理單元210 上，換句話說(shuō)，漢字拼音索引文件310從邏輯上可以省略。
漢字易混淆音索引文件320:用以保存根據(jù)拼音在所述漢字混淆音索引存儲(chǔ)單元120中找到對(duì)應(yīng)的易混淆音的索引信息。所述索引信息包括索引規(guī)則和漢遼混淆音索引存儲(chǔ)單元120的地址信息。同樣，漢字易混淆音索引文件 320可以在存儲(chǔ)器中開(kāi)辟一存儲(chǔ)空間進(jìn)行保存，也可以設(shè)置在漢字混淆音索引處理子單元220上。
詞庫(kù)拼音索引文件330:用以保存根據(jù)拼音在詞庫(kù)存儲(chǔ)單元上找到所有對(duì) 應(yīng)詞的索引信息。以下就著重介紹本發(fā)明的詞庫(kù)拼音索引文件330,它僅是本發(fā)明的一個(gè)最佳實(shí)施方式，但不是來(lái)局限本發(fā)明的。
所述詞庫(kù)存儲(chǔ)單元130可以按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序排序。
所述詞庫(kù)拼音索引文件330進(jìn)一步包括拼音哈希值索引子文件410、列表地址索引子文件420,其中，
拼音哈希值索引子文件410:用于根據(jù)拼音的哈希值從小到大或從大到小
有順序地保存有每一哈希值在列表地址索引子文件420中對(duì)應(yīng)的列表地址信臺(tái)
列表地址索引子文件420:用于保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元130中對(duì)應(yīng)的存儲(chǔ)地址信息。
以下就舉一個(gè)應(yīng)用例來(lái)說(shuō)明詞庫(kù)拼音索引文件330。請(qǐng)參閱圖4，其為詞庫(kù)拼音索引文件330的一應(yīng)用例示意圖。拼音哈希值引子文件410保存的是哈希值與列表地址的對(duì)應(yīng)關(guān)系。當(dāng)詞計(jì)算出來(lái)的哈希
值相同時(shí)，對(duì)應(yīng)的列表地址是相同的。也就是說(shuō)，通過(guò)哈希值即可能找到列表地址。列表地址信息可以是列表地址的存儲(chǔ)地址的絕對(duì)地址信息，也可是偏移地址或其它地址。
列表地址索51文件保存的具有該哈希值相同的詞的個(gè)數(shù)，以及該詞在詞
庫(kù)存府單元130中對(duì)應(yīng)的存儲(chǔ)地址信息。
針對(duì)上述的詞庫(kù)拼音索引文件330，則詞庫(kù)拼音索引處理子單元進(jìn)一步包括哈希計(jì)算子單元231、哈希值索引處理子單元232,列表地址處理子單元233 和詞庫(kù)處理子單元234其中，
哈希計(jì)算子單元231:用于計(jì)算詞拼音的哈希值。所述各詞拼音的哈希值組成各詞拼音的基本信息。所述哈希計(jì)算子單元231采用哈希算法獲得各詞拼音的哈希值。
哈希值索引處理子單元232:用于將計(jì)算出來(lái)的哈希值找到對(duì)應(yīng)的列表地址。
列表地址處理子單元233:用于將所述列表地址在列表地址索引子文件 420中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元130的存儲(chǔ)地址信息；
詞庫(kù)處理子單元234:用于將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元130中找到對(duì)應(yīng)的詞。
基于上述帶有易混淆音識(shí)別的拼音檢查方法的系統(tǒng)，本發(fā)明提出帶有易混淆音識(shí)別的拼音檢查方法。參照?qǐng)D5,其包括
Sl:設(shè)置存儲(chǔ)詞的詞庫(kù)存儲(chǔ)單元、存儲(chǔ)漢字拼音的漢字拼音存儲(chǔ)單元，和存儲(chǔ)易混淆拼音的漢字混淆存儲(chǔ)單元。
步驟S1中設(shè)置詞庫(kù)存儲(chǔ)單元進(jìn)一步為按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序地在詞庫(kù)存儲(chǔ)單元中排序。
設(shè)置漢字拼音存儲(chǔ)單元進(jìn)一步包括
將漢字作為二叉樹(shù)的key，把拼音做為二叉樹(shù)的value值，若是多音字，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄；
步驟Sl設(shè)置漢字混淆存儲(chǔ)單元進(jìn)一步包括
將每個(gè)拼音作為二叉樹(shù)的key，該拼音的易混淆拼音作為value值，若是多個(gè)易混淆拼音，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄。
步驟S1還包括
設(shè)置拼音哈希值索引子文件根據(jù)拼音的哈希值從小到大或從大到小有順序地保存有每一哈希值在列表地址索引子文件中對(duì)應(yīng)的列表地址；
設(shè)置列表地址索引子文件保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元中對(duì)應(yīng)的存儲(chǔ)地址信息。
S2:接收用戶(hù)輸入的關(guān)鍵字，在所述漢字拼音存儲(chǔ)單元中搜索到對(duì)應(yīng)的拼音。采用multimap,將輸入的關(guān)鍵字轉(zhuǎn)變成multimap的key,隨后通過(guò)該模塊的multimap在漢字拼音存儲(chǔ)單元中查找平衡二叉樹(shù)的value值，得到該些關(guān)鍵字所對(duì)應(yīng)的拼音。如果存在多個(gè)拼音，則在多個(gè)拼音之間用空格分割。
S3:接收所述漢字拼音存儲(chǔ)單元發(fā)送的拼音，在所述漢字混淆音存儲(chǔ)單元中搜索出對(duì)應(yīng)的混淆拼音。其中，所述易混淆音包括翹舌音/平舌音，前鼻音/后鼻音。采用multimap,將漢字拼音索引處理子單元提供的每個(gè)拼音作為 multimap的key,在漢字混淆音存儲(chǔ)單元中查找平衡二叉樹(shù)的value值，得到該些拼音所對(duì)應(yīng)的混淆音。
S4:分別接收步驟S2和步驟S3提供的拼音，在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞。
步驟S4中在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞進(jìn)一步'包括計(jì)算每個(gè)詞拼音的哈希值；
將計(jì)算出來(lái)的哈希值在所述拼音哈希值索引子文件中找到對(duì)應(yīng)的列表地
址
將所述列表地址在列表地址索引子文件中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元的存儲(chǔ)地址信息；
將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元中找到對(duì)應(yīng)的詞。所述存儲(chǔ)地址信息為地址針對(duì)首地址的偏移量。
以下就以一具體示例來(lái)il明上述流程。請(qǐng)參閱圖6,其為本發(fā)明采用帶有易混淆音識(shí)別的拼音檢查方法時(shí)詞庫(kù)拼音索引處理子文件結(jié)構(gòu)應(yīng)用示意圖。
假設(shè)，詞庫(kù)存儲(chǔ)單元130分別存儲(chǔ)"蘋(píng)果"、"品郭"、"橡膠"、"香蕉"、"浙江"，其對(duì)應(yīng)的存儲(chǔ)地址信息為偏移地址信息，比如，"蘋(píng)果"、"品郭"、"橡膠"、 "香蕉"、"浙江"各自對(duì)應(yīng)的針對(duì)詞庫(kù)存儲(chǔ)單元130首地址PBase的偏移地址分別為"20"、 "25"、 "30"、 "35"、 "40"。
拼音哈希值索引文件410中分別存儲(chǔ)hash(ping guo)、 hash(pin guo)、 hash(xiangjiao)、 hash(zhe jiang)對(duì)應(yīng)的詞庫(kù)拼音索引文件420中的地址信息，所述地址信息為針對(duì)列表地址索引子文件420首地址的偏移地址，則hash(ping guo)、 hash(pin guo)、 hash(xiang jiao)、 hash(zhe jiang)對(duì)應(yīng)的詞庫(kù)拼音索引文件420首地址的偏移地址分別為"10"、 "12"、 "14"、 "17"。
列表地址索引子文件420中，偏移地址為"10，，的存儲(chǔ)單元中存儲(chǔ)的是其 pingguo拼音的詞個(gè)數(shù)為1,該詞在詞庫(kù)存儲(chǔ)單元130中對(duì)應(yīng)的存儲(chǔ)地址信息 (即偏移地址為20)、偏移地址為"12，，的存儲(chǔ)單元中存儲(chǔ)的是其"pinguo"拼音的詞個(gè)數(shù)為1，該詞在詞庫(kù)存儲(chǔ)單元130中對(duì)應(yīng)的存儲(chǔ)地址信息(即偏移地址為25 )、偏移地址為"14"的存儲(chǔ)單元中存儲(chǔ)的是其xiang jiao拼音的詞個(gè)數(shù) 為2,以每個(gè)詞在詞庫(kù)存儲(chǔ)單元130中對(duì)應(yīng)的存儲(chǔ)地址信息(即偏移地址為 30、 40)、偏移地址為"17"的存儲(chǔ)單元中存儲(chǔ)的是其zhejiang拼音的詞個(gè)數(shù)為 1，該詞在詞庫(kù)存儲(chǔ)單元130中對(duì)應(yīng)的存儲(chǔ)地址信息(即偏移地址為40)。
在設(shè)置漢字易混淆音存儲(chǔ)單元時(shí)，將"pin，，容易混淆的拼音中對(duì)應(yīng)設(shè)置有 "ping"。
假設(shè)用戶(hù)想輸入"蘋(píng)果"，但是由于發(fā)音的不準(zhǔn)確，卻輸入的"拼郭"時(shí)，首先檢索漢字拼音存儲(chǔ)單元，分別找到對(duì)應(yīng)的拼音"pin""guo"，查找漢字易混淆音存儲(chǔ)單元時(shí)，即可找到"pin"對(duì)應(yīng)的混淆音"ping"。隨后計(jì)算"pinguo，，和"ping guo"的hash值，通過(guò)hash值查找拼音哈希值索引子文件410中的地址，分別獲得對(duì)應(yīng)的地址信息(偏移地址為10、 12)，隨后查找列表地址索引子文件 420即可獲得詞庫(kù)存儲(chǔ)單元130對(duì)應(yīng)的地址信息(偏移地址為20、 30),后從詞庫(kù)存儲(chǔ)單元130中找到對(duì)應(yīng)的詞"蘋(píng)果"、"品郭"，提示用戶(hù)是否是該些詞中
的其中之一，進(jìn)而降低拼寫(xiě)錯(cuò)誤。
以上公開(kāi)的僅為本發(fā)明的幾個(gè)具體實(shí)施例，但本發(fā)明并非局限于此，任何本領(lǐng)域的技術(shù)人員能思之的變化，都應(yīng)落在本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1、一種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)，用于根據(jù)輸入的關(guān)鍵字得出其對(duì)應(yīng)的候選對(duì)象的詞條，其特征在于，包括文件存儲(chǔ)空間、拼音檢查處理單元，其中，所述文件存儲(chǔ)空間包括詞庫(kù)存儲(chǔ)單元，用于存儲(chǔ)作為候選對(duì)象的詞，漢字拼音存儲(chǔ)單元，用于存儲(chǔ)漢字對(duì)應(yīng)的標(biāo)準(zhǔn)拼音，以及漢字混淆音存儲(chǔ)單元，用于存儲(chǔ)所述漢字拼音存儲(chǔ)單元中每個(gè)拼音對(duì)應(yīng)的易混淆拼音；所述拼音檢查處理單元包括漢字拼音索引處理子單元，用于接收用戶(hù)輸入的關(guān)鍵字，在所述漢字拼音存儲(chǔ)單元中搜索到對(duì)應(yīng)的拼音；漢字混淆音索引處理子單元，用于接收所述漢字拼音存儲(chǔ)單元發(fā)送的拼音，在所述漢字混淆音存儲(chǔ)單元中搜索出對(duì)應(yīng)的混淆拼音；詞庫(kù)拼音索引處理子單元，用于接收所述漢字拼音索引處理子單元和所述漢字混淆音索引處理子單元提供的拼音，在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞。
2、如權(quán)利要求l所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括索引存儲(chǔ)空間，所述索引存儲(chǔ)空間包括漢字拼音索引文件用以保存根據(jù)漢字從漢字拼音存儲(chǔ)單元中得到發(fā)音的索引信息；漢字易混淆音索引文件用以保存根據(jù)拼音在所述漢字混淆音存儲(chǔ)單元上找到其對(duì)應(yīng)的易混淆拼音的索引信息；詞庫(kù)拼音索引文件用以保存根據(jù)拼音在詞庫(kù)存儲(chǔ)單元上找到所有對(duì)應(yīng) 詞的索引信息。
3、如權(quán)利要求2所述的系統(tǒng)，其特征在于，所述詞庫(kù)存儲(chǔ)單元是按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序排序；所述詞庫(kù)拼音索引文件進(jìn)一步包括拼音哈希值索引子文件、列表地址索引子文件，其中，拼音哈希值索引子文件用于根據(jù)拼音的哈希值從小到大或從大到小有順序地保存有每一哈希值在列表地址索引子文件中對(duì)應(yīng)的列表地址；列表地址索引子文件用于保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元中對(duì)應(yīng)的存儲(chǔ)地址信息。
4、如權(quán)利要求3所述的系統(tǒng)，詞庫(kù)拼音索引處理子單元進(jìn)一步包括哈希計(jì)算子單元用于計(jì)算詞拼音的哈希值；哈希值索引處理子單元用于將計(jì)算出來(lái)的哈希值在所述拼音哈希值索引子文件中找到對(duì)應(yīng)的列表地址；列表地址處理子單元用于將所述列表地址在列表地址索引子文件中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元的存僻地址信息；詞庫(kù)處理子單元用于將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元中找到對(duì)應(yīng)的詞。
5、一種帶有易混淆音識(shí)別的拼音檢查方法，其特征在于，包括步驟，(1) 設(shè)置存儲(chǔ)詞的詞庫(kù)存儲(chǔ)單元、存儲(chǔ)漢字拼音的漢字拼音存儲(chǔ)單元，和存儲(chǔ)易混淆拼音的漢字混淆存儲(chǔ)單元；(2) 接收用戶(hù)輸入的關(guān)鍵字，在所述漢字拼音存儲(chǔ)單元中搜索到對(duì)應(yīng)的拼音；(3) 接收所述漢字拼音存儲(chǔ)單元發(fā)送的拼音，在所述漢字混淆音存儲(chǔ)單元中搜索出對(duì)應(yīng)的混淆拼音；(4) 分別接收步驟(2)和步驟(3)提供的拼音，在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞。
6、如權(quán)利要求5所述的方法，其特征在于，步驟(l)中設(shè)置詞庫(kù)存儲(chǔ)單元進(jìn)一步為按照詞發(fā)音的哈希運(yùn)算值從小到大或從大到小有順序地在詞庫(kù)存儲(chǔ)單元中排序。
7、如權(quán)利要求6所述的方法，步驟(l)還包括設(shè)置拼音哈希值索引子文件根據(jù)拼音的哈希值從小到大或從大到小有順序地保存有每一哈希值在列表地址索引子文件中對(duì)應(yīng)的列表地址；設(shè)置列表地址索？I子文件保存每個(gè)列表地址對(duì)應(yīng)的具有相同拼音的詞個(gè)數(shù)以及該些詞在詞庫(kù)存儲(chǔ)單元中對(duì)應(yīng)的存儲(chǔ)地址信息。
8、如權(quán)利要求7所述的方法，其特征在于，步驟(4)中在所述詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞進(jìn)一步包括計(jì)算每個(gè)詞拼音的哈希值；址將所述列表地址在列表地址索引子文件中找到對(duì)應(yīng)的詞個(gè)數(shù)及每個(gè)詞在詞庫(kù)存儲(chǔ)單元的存儲(chǔ)地址信息；將列表地址處理子單元找到的該些詞的存儲(chǔ)地址信息，在詞庫(kù)存儲(chǔ)單元中找到對(duì)應(yīng)的詞。
9、如權(quán)利要求8所述的方法，其特征在于，所述存儲(chǔ)地址信息為地址針對(duì)首地址的偏移量。
10、如權(quán)利要求5所述的方法，其特征在于，步驟(l)設(shè)置漢字拼音存儲(chǔ)單元進(jìn)一步包括將漢字作為二叉樹(shù)的key，把拼音做為二叉樹(shù)的value值，若是多音字，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄；步驟(l)設(shè)置漢字混淆存儲(chǔ)單元進(jìn)一步包括將每個(gè)拼音作為二叉樹(shù)的key,該拼音的易混淆拼音作為value值，若是多個(gè)易混淆拼音，則在二叉樹(shù)上增加對(duì)應(yīng)條記錄。
全文摘要
本發(fā)明公開(kāi)了一種帶有易混淆音識(shí)別的拼音檢查系統(tǒng)，包括文件存儲(chǔ)空間和索引存儲(chǔ)空間，文件存儲(chǔ)空間包括詞庫(kù)存儲(chǔ)單元、漢字拼音存儲(chǔ)單元和漢字混淆音存儲(chǔ)單元，拼音檢查處理單元包括漢字拼音索引處理子單元、詞庫(kù)拼音索引處理子單元和漢字易混淆音索引處理子單元。對(duì)應(yīng)，本發(fā)明還提供了拼音檢查方法，包括(1)設(shè)置詞庫(kù)存儲(chǔ)單元、漢字拼音存儲(chǔ)單元，和漢字混淆存儲(chǔ)單元；(2)接收用戶(hù)輸入的關(guān)鍵字，在漢字拼音存儲(chǔ)單元中搜索到對(duì)應(yīng)的拼音；(3)接收漢字拼音存儲(chǔ)單元發(fā)送的拼音，在漢字混淆音存儲(chǔ)單元中搜索出對(duì)應(yīng)的混淆拼音；(4)分別接收步驟(2)和步驟(3)提供的拼音，在詞庫(kù)存儲(chǔ)單元中搜索得到對(duì)應(yīng)的詞。本發(fā)明提高了漢字輸入的準(zhǔn)確性。
文檔編號(hào)G06F17/30GK101388012SQ20071014948
公開(kāi)日2009年3月18日申請(qǐng)日期2007年9月13日優(yōu)先權(quán)日2007年9月13日
發(fā)明者孫海濤, 施行向申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫海濤;施行向
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

帶有易混淆音識(shí)別的拼音檢查系統(tǒng)和方法