一種校正輸入中文拼寫的方法

文檔序號：6339872閱讀：567來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種校正輸入中文拼寫的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于中文信息處理。
背景技術(shù)：
隨著計算機和網(wǎng)絡(luò)的普及，特別是在中國，目前的網(wǎng)民人數(shù)有3億之多，這對于目前的國內(nèi)的hternet的發(fā)展起到了有力的推動；但是，隨之而來的是大量的漢子錯別字出現(xiàn)在網(wǎng)絡(luò)和其相關(guān)的媒體。錯別字包括錯字，指寫的不成字，規(guī)范字典中查不到的字；還有別字，指把甲字寫成乙字，俗稱“白字”。別字列舉如下(括號內(nèi)是正確的字)1.農(nóng)付產(chǎn)品(副)2.拾園錢(圓)3.簿利多銷(薄)由于漢語言不同于英文單詞之間用空格；漢字之間沒有空格，只有在出現(xiàn)詞組的情況下，才能夠判斷詞組的“字”是對還是錯，上面的“付、園、簿”只有在這些詞組中才能夠判斷其正確與否，單獨的字，計算機無法判斷其對錯；而英文如“pruduct”，顯然是拼寫錯誤，正確的“product”;計算機可以立刻判斷出來。因此，就目前的計算機語言處理而言，漢語言只能對“別字”進行判斷和矯正。而現(xiàn)有的軟件只對少部分的別字進行識別，比如上面的3個詞組；只有“農(nóng)付產(chǎn)品”軟件“word”可識別并且鑒定。

發(fā)明內(nèi)容
本發(fā)明就是針對目前廣泛存在的輸入中文別字普遍的現(xiàn)象，而且又沒有合式的軟件進行自動識別和矯正，進行了深入研究而提出的方法，在此發(fā)明的基礎(chǔ)上可以編寫出軟件。還有，哪些試圖采用對詞語切分的方法進行別字的矯正的途徑，是很難實現(xiàn)的。比如一篇文章中出現(xiàn)了 “農(nóng)付產(chǎn)品，，的“付”別字，如果采用軟件對它切分，結(jié)果是農(nóng)/n付/V 產(chǎn)品/n η代表名詞，ν代表動詞。因此仍然無法判斷和矯正；另外如果對整篇文本采用逐漸遍歷的方式進行分析判斷匹配，那么計算機的計算量非常大，非常不經(jīng)濟。我們以下面這句話作為例子第一節(jié)中導(dǎo)致“HuaYu”出現(xiàn)分詞不一致的主要結(jié)構(gòu)類型多與語言學(xué)家與老百姓對詞的認識差異有關(guān)。如果這句話出現(xiàn)了如下的別字第一節(jié)中導(dǎo)置“HuaYu”出現(xiàn)分詞不一致的主要結(jié)構(gòu)類形多與語言學(xué)家與老百姓對詞的認識差異有關(guān)。如果對整個句子從第一個字開始分析，會導(dǎo)致龐大的計算，但是如果根據(jù)下面的規(guī)則對句子進行切分，會大幅度減少計算機的工作量1先根據(jù)標點符號和非漢字字符串(，；。？ [Q,abc -fc Y阿拉伯?dāng)?shù)字)的切分成一個單獨的子句2對劃分出來的子句除去代詞我、你、她們；助詞的、地，(但是先要除去”的士、打的、大地”)，連詞從、而且、與；然后是聯(lián)綿詞(彷佛、瑪瑙、葡萄等)，專有名詞(李白、世界貿(mào)易組織)，再切分若干個詞組；考慮到漢語的詞組長度的概率，定義為最長詞組是8字詞，超過的不予考慮。3把欲處理的詞組轉(zhuǎn)換成拼音包括(多音字)，4把轉(zhuǎn)換的詞組拼音與語料庫的同樣字長的詞組拼音進行循環(huán)匹配比較，N(S)拼音不同，到(n-1)詞組…最后到2字詞組；繼續(xù)進行這個循環(huán)。以8字詞組為例，用數(shù)字代表漢字(12345678)；比較的步驟如下拼音不同(8個字)，與語料庫的7字詞組的拼音比較匹配；從子句(“N-l”7字長)的第一個字到第七個字；從第二個字到最后一個字；
112345678
212345678
拼音不同(7個字)，與語料庫的6字詞組的拼音比較匹配
η-2 (6 字長) 1.12345678
2.12345678 3.12345678
拼音不同(6個字)，與語料庫的5字詞組的拼音比較匹配；方法如下
η-3(5 字長) 1.12345678
2.12345678 3.12345678 4. 12345678
拼音不同(5個字)，與語料庫的4字詞組的拼音比較匹配；方法如下
Ν-4 (4 字長) 1.12345678
2.12345678 3.12345678 4. 12345678 5.12345678
拼音不同G個字)，與語料庫的3字詞組的拼音比較匹配；方法如下
Ν-5 (3 字長) 1.12345678
2.12345678 3.12345678 4. 12345678 5.12345678
6. 12345678拼音不同(3個字)，與語料庫的2字詞組的拼音比較匹配；方法如下N-6 (2 字長)1.123456782. 123456783. 123456784. 123456785. 123456786. 123456787. 12345678因此，最多需要1+2+3+4+5+6+7 = 28次的計算比較匹配，可以把一個句子切分完畢。有了上述的規(guī)則，運算變得非常簡單。上面句子切分的結(jié)果如下第一節(jié)中導(dǎo)置I “HuaYu” |出現(xiàn)分詞不一致|的|主要結(jié)構(gòu)類形|多與|語言學(xué)家I與I老百姓對詞I的I認識差異有關(guān)。計算機只要對以下的7個“子句”分析判斷第一節(jié)中呈置(5字詞)；出現(xiàn)分詞不一致(7字詞)；主要結(jié)構(gòu)(6字詞)多與 (2字詞)語言學(xué)家G字詞)；老百姓對詞(5字詞)；認識差異有關(guān)(6字詞)以“第一節(jié)中導(dǎo)置” (5字詞)為例子然后在語料庫里，講行遍歷杳找與“daozhi導(dǎo)置”拼咅相同的2字詞，有3個導(dǎo)致、倒置和到職然后講行字的比較，其中R有“導(dǎo)置”符合錯別字的判斷條件,篩詵出來，并且用紅色下劃線標示出來，點擊鼠標右鍵出現(xiàn)對話窗鼠標選中“導(dǎo)致”，點擊替換“導(dǎo)置”。如果一個詞組有2種或者以上的正確寫法，那么選擇對話窗會出現(xiàn)所有的詞組。本方法把需要海量計算的句子的切分和詞組匹配，采用了漢語的詞特殊的語法屬性，大大減小了計算機的工作負荷，理論上使計算機矯正文本里的錯別字成為可能；本發(fā)明可以大幅度的提高中文信息處速度，改善錯別字在計算機普遍存在而且比較難改變的現(xiàn)狀，凈化漢語提升國家的文化形象。在目前計算機的計算能力大幅度提高的今天，而且國家有關(guān)部門建立了豐富的語料庫的條件下，本發(fā)明是可以實現(xiàn)的。

圖1是詞語匹配的邏輯框2是點擊鼠標右鍵出現(xiàn)的對話窗
具體實施例方式建立一個海量的語料庫，包括標點符號，。、/()；”
5
非漢字字符串如WTO Windows七時間名詞年、月、日、今天等宋朝方位名詞如上、下、左、右好前邊人名如華羅庚地名北京倫敦族名如回族藏族機構(gòu)名如聯(lián)合國北京大學(xué)聯(lián)綿詞如彷佛、瑪瑙、葡萄數(shù)詞如1 2 —二叁第一代詞如你我他婦女我們副詞如都只就不居然介詞如把從按照連詞如和同而且助詞如的地了等等嘆詞如啊哼擬聲詞如滴答撲通連詞性習(xí)用語如總而言之縮略語如人大五四奧運這些字詞數(shù)量少，但是對于切分句子的作用非常重要。再建立2字詞到8字詞的詞庫，按照詞的漢語拼音排序。比如2 字詞aba阿壩阿爸abao阿寶abo阿伯7 字詞yaodingqingshanbufangsong 咬定胄山不雙豐公。因為目前有了大量的語料庫資料，因此可以建立一個動態(tài)的語料庫，能夠滿足匹配的要求，而不會出現(xiàn)語料庫沒有要匹配的詞而出現(xiàn)落空的情況。規(guī)則和算法確定之后，可以利用C語言或者其它的語言編寫出程序，以軟件的方始，對漢語文本進行分析判斷和矯正。1用計算機軟件對欲矯正的文本先通過標點符號和非漢字字符串WTO Windows七夂‘，把文本切分成若干個子句；2對每個子句的字詞與語料庫的時間名詞、縮略語的字詞比較后，以這些字詞作為節(jié)點，再把每個子句切分成幾個詞單元。3把這些詞組轉(zhuǎn)換成拼音，與語料庫的相同字長的拼音進行匹配。
如果拼音不同，把該詞單元字長(η)減1后，與語料庫的(η-1)字長的詞組進行匹配，一直循環(huán)，直到與語料庫的詞組拼音匹配成功。
權(quán)利要求
1.一種校正輸入中文拼寫的方法包括語料庫和計算機軟件，其特征在于對選定的漢語文本文件以標點符號和非漢字字符串為節(jié)點，切分成若干個子句；然后以代詞、助詞、連詞、聯(lián)綿詞、縮略語和專有名詞為節(jié)點子句再切分若干個字長不多于8個的詞單元；然后對每個詞單元與語料庫的同樣字長詞組進行拼音的循環(huán)遞減匹配，直到找到拼音相同的詞組。
2.一種校正輸入中文拼寫的方法，其特征在于，以代詞、助詞、連詞、聯(lián)綿詞、縮略語和專有名詞為節(jié)點對權(quán)利要求1的子句再切分若干個字長不多于8個的詞單元。
3.一種校正輸入中文拼寫的方法，其特征在于把權(quán)利要求2的詞單元，轉(zhuǎn)換成拼音包括(多音字)，并且與語料庫的同字長的詞組拼音進行匹配比較；如果拼音不同，把該詞單元字長(η)減1后，與語料庫的(η-1)字長的詞組進行匹配，一直循環(huán)，直到與語料庫的詞組拼音匹配成功。
4.一種校正輸入中文拼寫的方法，其特征在于對拼音匹配成功的詞單元，再與語料庫對應(yīng)的同音詞組逐個進行“字”匹配，如果字匹配的正確率0. 5 < ρ < 1，把該詞組篩選出來并用紅色的下劃線標示。
5.一種校正輸入中文拼寫的方法，其特征在于，選中有下劃線的詞組，單擊鼠標右鍵，出現(xiàn)對話窗，里面顯示與該詞組拼音相同，漢字匹配正確率大于0. 5小于1的全部詞組。
全文摘要
本發(fā)明公開了一種校正輸入中文拼寫的方法，本發(fā)明把計算機的漢語文本通過標點符號和非漢字字符串作為節(jié)點，切分成若干個子句，然后再以代詞、助詞、連詞作為每個子句的節(jié)點，把子句切分成幾個字長大于等于2小于等于8的詞單元，在后臺把這些詞單元轉(zhuǎn)換成漢語拼音，然后與相同字長的語料庫的詞組拼音進行循環(huán)字長遞減匹配，直到找到與要校正的詞單元相同拼音的全部詞組，然后在進行字的匹配，如果符合條件字的匹配率大于等于0.5小于1，那么就把該詞單元篩選出來，用紅色下劃線標示在文本中，用戶可以進行比較選擇。本發(fā)明能夠大量減少計算機文本中的錯別字，減少完全依賴人工的辦法矯正漢語文本的落后局面，提高效率。
文檔編號G06F17/27GK102541837SQ20101060551
公開日2012年7月4日申請日期2010年12月22日優(yōu)先權(quán)日2010年12月22日
發(fā)明者周連惠申請人:張家港市赫圖阿拉信息技術(shù)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周連惠
技術(shù)所有人：張家港市赫圖阿拉信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種校正輸入中文拼寫的方法