一種應用于搜索中的中文詞匯糾錯方法及其裝置的制造方法_2

文檔序號：8430703閱讀：來源：國知局

域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0049] 圖1為本發(fā)明的一種應用于搜索中的中文詞匯糾錯方法的一實施例的流程示意圖；
[0050] 圖2為本發(fā)明的一種應用于搜索中的中文詞匯糾錯方法中將待判定字符串與標準詞匯進行比較，從而選擇正確詞匯的步驟一實施例的流程示意圖；
[0051] 圖3為本發(fā)明的一種應用于搜索中的中文詞匯糾錯裝置的功能模塊示意圖；
[0052] 圖4為本發(fā)明的一種應用于搜索中的中文詞匯糾錯裝置中糾錯子模塊的字形比較子模塊的一實施例的功能模塊示意圖；
[0053] 圖5為本發(fā)明的一種應用于搜索中的中文詞匯糾錯裝置中糾錯子模塊的拼音比較子模塊的一實施例的功能模塊示意圖。
【具體實施方式】
[0054] 以下將結(jié)合附圖對本發(fā)明進行詳細說明。
[0055] 參見圖1，為本發(fā)明的一種應用于搜索中的中文詞匯糾錯方法的一實施例的流程示意圖，具體實施時，本實施例的該中文詞匯糾錯方法具體包括步驟：
[0056] S11，預先建立標準詞庫。本實施例中該標準詞庫包括多個標準詞匯，以及各個標準詞匯中每個字符的位置信息和拼音信息。本實施例中該標準詞匯是指符合語法的、正確的詞語。
[0057] 在一具體實施例中，該標準詞庫具體可分為：位置信息數(shù)據(jù)庫和拼音信息數(shù)據(jù)庫。其中，該位置信息數(shù)據(jù)庫包括了單字拆分存儲的多個標準詞匯，及該標準詞匯中各個字符的位置。本實施例中該位置信息具體是指該標準詞匯在數(shù)據(jù)庫中所處的位置，以及該標準詞匯中各個字符在該標準詞匯中所處的位置，如下表一位置信息數(shù)據(jù)庫中所示，標準詞匯 "練習簿"處于數(shù)據(jù)庫中第二個詞匯，且字符"練"為該標準詞匯的第一個字符，"習"為該標準詞匯的第二個字符，"簿"為該標準詞匯的第二個字符：
[0058] 表一位置信息數(shù)據(jù)庫
[0059] CN104750672A 說明書 5/10 頁
【主權(quán)項】
1. 一種應用于搜索中的中文詞匯糾錯方法，其特征在于，包括步驟：預先建立標準詞庫，所述標準詞庫包括多個標準詞匯，以及所述標準詞匯中每個字符的位置信息和拼音信息；自動獲取用戶輸入的待判定字符串，得到所述待判定字符串中各個字符的位置信息和拼音信息；根據(jù)所述標準詞匯和所述待判定字符串中每個字符的位置信息和拼音信息，將所述待判定字符串和所述標準詞匯中每個字符的位置信息和拼音信息進行比較，并根據(jù)比較結(jié)果從所述標準詞庫中選擇正確的詞匯。
2. 如權(quán)利要求1所述的應用于搜索中的中文詞匯糾錯方法，其特征在于，所述根據(jù)所述標準詞匯和所述待判定字符串中每個字符的位置信息和拼音信息，將所述待判定字符串和所述標準詞匯中每個字符的位置信息和拼音信息進行比較，并根據(jù)比較結(jié)果從所述標準詞庫中選擇正確的詞匯的步驟，具體包括步驟：根據(jù)所述待判定字符串和所述標準詞匯中每個字符的位置信息，將所述待判定字符串與所述標準詞匯進行字形比較，根據(jù)比較結(jié)果從所述標準詞庫中選擇出對比詞匯組；根據(jù)所述待判定字符串和所述對比詞匯組中標準詞匯的每個字符的拼音信息，將所述待判定字符串與所述對比詞匯組中每個標準詞匯進行拼音比較，并根據(jù)字形比較結(jié)果和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯。
3. 如權(quán)利要求2所述的應用于搜索中的中文詞匯糾錯方法，其特征在于，所述根據(jù)所述待判定字符串和所述標準詞匯中每個字符的位置，將所述待判定字符串與所述標準詞匯進行字形比較，根據(jù)比較結(jié)果從所述標準詞庫中選擇出對比詞匯組的步驟具體為：根據(jù)所述待判定字符串的字符總數(shù)，在所述標準詞庫中選擇出字符總數(shù)相同的待選定標準詞匯組；將所述待判定字符串與所述待選定標準詞匯組中的每個標準詞匯進行字形對比較，并根據(jù)比較結(jié)果從所述待選定標準詞匯組中選擇出對比詞匯組。
4. 如權(quán)利要求3所述的應用于搜索中的中文詞匯糾錯方法，其特征在于，所述將所述待判定字符串與所述待選定標準詞匯組中的每個標準詞匯進行字形對比較，并根據(jù)比較結(jié) 果從所述待選定標準詞匯組中選擇出對比詞匯組的步驟，具體包括步驟：根據(jù)所述待判定字符串中每個字符的位置，將所述待判定字符串與所述待選定標準詞匯組中每個標準詞匯進行字形比較，并計算得到每個標準詞匯與所述待判定字符串之間的字形相似度；比較計算得到的各個標準詞匯與所述待判定字符串的字形相似度，選擇字形相似度最高的標準詞匯作為對比詞匯組；其中，所述字形相似度的計算方式為：字形相似度=相同位置相同的字符數(shù)/標準詞匯的總字符數(shù)。
5. 如權(quán)利要求4所述的應用于搜索中的中文詞匯糾錯方法，其特征在于，所述根據(jù)所述待判定字符串和所述對比詞匯組中標準詞匯的每個字符的拼音信息，將所述待判定字符串與所述對比詞匯組中各個標準詞匯進行拼音比較，并根據(jù)字形比較結(jié)果和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯的步驟，具體包括步驟：按照單字拼音比較方式，將所述待判定字符串與所述對比詞匯組中標準詞匯進行拼音比較，并計算得到所述對比詞匯組中每個標準詞匯與所述待判定字符串的拼音相似度；計算并比較所述對比詞匯組中每個標準詞匯與所述待判定字符串之間的字形相似度與拼音相似度之和，并根據(jù)比較結(jié)果選擇字形相似度與拼音相似度之和最高的標準詞匯為正確的詞匯；其中，所述拼音相似度的計算方式為：拼音相似度=相同位置的相同拼音字母數(shù)/標準詞匯中各個字符的拼音字母總數(shù)。
6. 如權(quán)利要求1至5中任意一項所述的應用于搜索中的中文詞匯糾錯方法，其特征在于，所述標準詞庫具體包括位置信息數(shù)據(jù)庫和拼音信息數(shù)據(jù)庫，所述位置信息數(shù)據(jù)庫采用單字拆分方式存儲的標準詞匯，及該標準詞匯中各個字符對應的位置；所述拼音信息數(shù)據(jù) 庫存儲有對應于所述位置信息數(shù)據(jù)庫中的標準詞匯中每個字符的拼音，且每個字符的拼音與其位置--對應。
7. -種應用于搜索中的中文詞匯糾錯裝置，其特征在于，包括：標準詞庫創(chuàng)建模塊，用于預先創(chuàng)建標準詞庫，該標準詞庫包括多個標準詞匯，以及各個標準詞匯中每個字符的位置信息和拼音信息；獲取模塊，用于獲取用戶輸入的待判定字符串，得到所述待判定字符串中各個字符的位置信息和拼音信息；糾錯模塊，用于根據(jù)所述標準詞匯和所述待判定字符串中每個字符的位置信息和拼音信息，將所述待判定字符串和所述標準詞匯中每個字符的位置信息和拼音信息進行比較，并根據(jù)比較結(jié)果從所述標準詞庫中選擇正確的詞匯。
8. 如權(quán)利要求7所述的應用于搜索中的中文詞匯糾錯裝置，其特征在于，所述糾錯模塊具體包括：字形比較子模塊，用于根據(jù)所述待判定字符串和所述標準詞匯中每個字符的位置信息，將所述獲取模塊所獲取的待判定字符串與所述標準詞庫中的標準詞匯進行字形比較，根據(jù)比較結(jié)果從所述標準詞庫中選擇出對比詞匯組；拼音比較子模塊，用于根據(jù)所述對比詞匯組中各個標準詞匯的每個字符的拼音信息，將所述待判定字符串與所述對比詞匯組中的標準詞匯進行拼音比較，并根據(jù)字形比較結(jié)果和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯。
9. 如權(quán)利要求8所述應用于搜索中的中文詞匯糾錯裝置，其特征在于，所述字形比較子模塊包括：字符比較單元，用于根據(jù)所述待判定字符串的字符總數(shù)，在所述標準詞庫中選擇出字符總數(shù)相同的待選定標準詞匯組；對比詞匯選定單元，用于將所述待判定字符串與所述待選定標準詞匯組中的每個標準詞匯進行字形對比較，并根據(jù)比較結(jié)果從所述待選定標準詞匯組中選擇出對比詞匯組。
10. 如權(quán)利要求9所述的應用于搜索中的中文詞匯糾錯裝置，其特征在于，所述對比詞匯選定單元具體包括：字形比較子單元，用于根據(jù)所述標準詞匯中每個字符的位置，將所述待判定字符串與所述待選定標準詞匯組中每個詞匯進行字形比較；字形相似度計算子單元，用于根據(jù)所述字形比較單元的比較結(jié)果，計算得到所述待選定標準詞匯組中每個標準詞匯與所述待判定字符串的字形相似度，具體的計算方式為：所述字形相似度的計算方式為：字形相似度=相同位置相同的字符數(shù)/標準詞匯總字符數(shù)；相似度比較子單元，用于比較所述相似度計算單元計算得到的各個標準詞匯與所述待判定字符串的字形相似度，并將比較得到字形相似度最高的標準詞匯作為對比詞匯組；和 /或所述拼音比較子模塊具體包括：拼音比較單元，用于按照單字拼音比較方式，將所述待判定字符串與所述對比詞匯組中標準詞匯進行拼音比較；拼音相似度計算單元，用于根據(jù)所述拼音比較單元的比較結(jié)果，計算所述對比詞匯組中每個標準詞匯與所述待判定字符串的拼音相似度，其中，該拼音相似度計算方式為：拼音相似度=相同位置的相同拼音字母數(shù)/標準詞匯中各個字符的拼音字母總數(shù)；判定單元，用于分別計算所述對比詞匯組中每個標準詞匯與待判定字符串之間的字形相似度與拼音相似度之和，并比較各個標準詞匯與所述待判定字符串的字形相似度和拼音相似度之和，并選擇字形相似度和拼音相似度之和最高的標準詞匯為正確的詞匯。
【專利摘要】本發(fā)明公開了一種應用于搜索中的中文詞匯糾錯方法及其裝置，其中，該中文詞匯糾錯方法包括步驟預先建立標準詞庫，所述標準詞庫包括多個標準詞匯，以及所述標準詞匯中每個字符的位置信息和拼音信息；自動獲取用戶輸入的待判定字符串，得到該待判定字符串中各個字符的位置信息和拼音信息，根據(jù)所述標準詞匯和該待判定字符串中每個字符的位置信息和拼音信息，將所述待判定字符串與所述標準詞匯進行比較，并根據(jù)比較結(jié)果從所述標準詞庫中選擇正確的詞匯。本發(fā)明的中文詞匯糾錯方法及其裝置能夠在等同硬件條件的情況下，更加準確，更加低成本的解決用戶輸入的糾錯工作，從而給用戶快速和智能的網(wǎng)絡服務體驗。
【IPC分類】G06F17-27, G06F17-30
【公開號】CN104750672
【申請?zhí)枴緾N201310737321
【發(fā)明人】王忻
【申請人】重慶新媒農(nóng)信科技有限公司
【公開日】2015年7月1日
【申請日】2013年12月27日

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文糾錯相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應用于搜索中的中文詞匯糾錯方法及其裝置的制造方法_2