一種應(yīng)用于搜索中的中文詞匯糾錯方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種應(yīng)用于搜索中的中文詞匯糾錯方法及 其裝置。
【背景技術(shù)】
[0002] 在使用搜索引擎進(jìn)行搜索的過程中,用戶所輸入的詞語等字符串,有可能含有錯 別字等錯誤內(nèi)容。據(jù)統(tǒng)計,有10%~15%的用戶輸入的原始查詢是含有錯誤的,那么對這種 錯誤的原始輸入的糾正是保證信息服務(wù)質(zhì)量的一個重要環(huán)節(jié)。
[0003] 傳統(tǒng)的錯詞糾正,是基于一個錯詞庫,將用戶經(jīng)常犯錯誤的詞收入庫中,當(dāng)用戶搜 索得到的搜索結(jié)果過少時,啟用糾錯流程,使用正確的詞進(jìn)行查詢,同時提示用戶是不是搜 索的是這個詞。一方面,這種錯詞庫需要由相應(yīng)的專業(yè)人員來進(jìn)行維護(hù),使得成本增加,另 一方面,這種手動配置錯誤詞庫的方式,在面對海量搜索,用戶輸入的錯詞多變且不可預(yù)估 的情況下,并不能夠滿足要求,從而不能給用戶提供一個良好的網(wǎng)絡(luò)服務(wù)體驗,進(jìn)而嚴(yán)重影 響網(wǎng)絡(luò)服務(wù)質(zhì)量,并將導(dǎo)致網(wǎng)絡(luò)用戶的流失。
[0004] 因此,如何在等同硬件條件的情況下,更加準(zhǔn)確,低成本的解決用戶輸入的糾錯工 作,從而給用戶快速和智能的網(wǎng)絡(luò)服務(wù)體驗成為目前急需解決的一個問題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實施例所要解決的技術(shù)問題在于提供一種應(yīng)用于搜索中的中文詞匯糾 錯方法及其裝置,能夠在等同硬件條件的情況下,更加準(zhǔn)確,更加低成本的解決用戶輸入的 糾錯工作,從而給用戶快速和智能的網(wǎng)絡(luò)服務(wù)體驗。
[0006] 為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:
[0007] 本發(fā)明提供了一種應(yīng)用于搜索中的中文詞匯糾錯方法,其包括步驟:
[0008] 預(yù)先建立標(biāo)準(zhǔn)詞庫,所述標(biāo)準(zhǔn)詞庫包括多個標(biāo)準(zhǔn)詞匯,以及所述標(biāo)準(zhǔn)詞匯中每個 字符的位置信息和拼音信息;
[0009]自動獲取用戶輸入的待判定字符串,得到所述待判定字符串中各個字符的位置信 息和拼音信息;
[0010] 根據(jù)所述標(biāo)準(zhǔn)詞匯和所述待判定字符串中每個字符的位置信息和拼音信息,將所 述待判定字符串和所述標(biāo)準(zhǔn)詞匯中每個字符的位置信息和拼音信息進(jìn)行比較,并根據(jù)比較 結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇正確的詞匯。
[0011] 進(jìn)一步地,所述根據(jù)所述標(biāo)準(zhǔn)詞匯和所述待判定字符串中每個字符的位置信息和 拼音信息,將所述待判定字符串和所述標(biāo)準(zhǔn)詞匯中每個字符的位置信息和拼音信息進(jìn)行比 較,并根據(jù)比較結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇正確的詞匯的步驟,具體包括步驟:
[0012] 根據(jù)所述待判定字符串和所述標(biāo)準(zhǔn)詞匯中每個字符的位置信息,將所述待判定字 符串與所述標(biāo)準(zhǔn)詞匯進(jìn)行字形比較,根據(jù)比較結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇出對比詞匯組;
[0013] 根據(jù)所述待判定字符串和所述對比詞匯組中標(biāo)準(zhǔn)詞匯的每個字符的拼音信息,將 所述待判定字符串與所述對比詞匯組中每個標(biāo)準(zhǔn)詞匯進(jìn)行拼音比較,并根據(jù)字形比較結(jié)果 和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯。
[0014] 進(jìn)一步地,所述根據(jù)所述待判定字符串和所述標(biāo)準(zhǔn)詞匯中每個字符的位置,將所 述待判定字符串與所述標(biāo)準(zhǔn)詞匯進(jìn)行字形比較,根據(jù)比較結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇出對 比詞匯組的步驟具體為:
[0015] 根據(jù)所述待判定字符串的字符總數(shù),在所述標(biāo)準(zhǔn)詞庫中選擇出字符總數(shù)相同的待 選定標(biāo)準(zhǔn)詞匯組;
[0016] 將所述待判定字符串與所述待選定標(biāo)準(zhǔn)詞匯組中的每個標(biāo)準(zhǔn)詞匯進(jìn)行字形對比 較,并根據(jù)比較結(jié)果從所述待選定標(biāo)準(zhǔn)詞匯組中選擇出對比詞匯組。
[0017] 更進(jìn)一步地,所述將所述待判定字符串與所述待選定標(biāo)準(zhǔn)詞匯組中的每個標(biāo)準(zhǔn)詞 匯進(jìn)行字形對比較,并根據(jù)比較結(jié)果從所述待選定標(biāo)準(zhǔn)詞匯組中選擇出對比詞匯組的步 驟,具體包括步驟:
[0018]根據(jù)所述待判定字符串中每個字符的位置,將所述待判定字符串與所述待選定標(biāo) 準(zhǔn)詞匯組中每個標(biāo)準(zhǔn)詞匯進(jìn)行字形比較,并計算得到每個標(biāo)準(zhǔn)詞匯與所述待判定字符串之 間的字形相似度;
[0019] 比較計算得到的各個標(biāo)準(zhǔn)詞匯與所述待判定字符串的字形相似度,選擇字形相似 度最高的標(biāo)準(zhǔn)詞匯作為對比詞匯組;
[0020] 其中,所述字形相似度的計算方式為:字形相似度=相同位置相同的字符數(shù)/標(biāo)準(zhǔn) 詞匯的總字符數(shù)。
[0021] 更進(jìn)一步地,所述根據(jù)所述待判定字符串和所述對比詞匯組中標(biāo)準(zhǔn)詞匯的每個字 符的拼音信息,將所述待判定字符串與所述對比詞匯組中各個標(biāo)準(zhǔn)詞匯進(jìn)行拼音比較,并 根據(jù)字形比較結(jié)果和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯的步驟,具體包 括步驟:
[0022] 按照單字拼音比較方式,將所述待判定字符串與所述對比詞匯組中標(biāo)準(zhǔn)詞匯進(jìn)行 拼音比較,并計算得到所述對比詞匯組中每個標(biāo)準(zhǔn)詞匯與所述待判定字符串的拼音相似 度;
[0023] 計算并比較所述對比詞匯組中每個標(biāo)準(zhǔn)詞匯與所述待判定字符串之間的字形相 似度與拼音相似度之和,并根據(jù)比較結(jié)果選擇字形相似度與拼音相似度之和最高的標(biāo)準(zhǔn)詞 匯為正確的詞匯;
[0024] 其中,拼音相似度的計算方式為:拼音相似度=相同位置的相同拼音字母數(shù)/標(biāo)準(zhǔn) 詞匯中各個字符的拼音字母總數(shù)。
[0025] 更進(jìn)一步地,所述標(biāo)準(zhǔn)詞庫具體包括位置信息數(shù)據(jù)庫和拼音信息數(shù)據(jù)庫,所述位 置信息數(shù)據(jù)庫采用單字拆分方式存儲的標(biāo)準(zhǔn)詞匯,及該標(biāo)準(zhǔn)詞匯中各個字符對應(yīng)的位置; 所述拼音信息數(shù)據(jù)庫存儲有對應(yīng)于所述位置信息數(shù)據(jù)庫中的標(biāo)準(zhǔn)詞匯中每個字符的拼音, 且每個字符的拼音與其位置一一對應(yīng)。
[0026] 相應(yīng)地,本發(fā)明還提供了一種應(yīng)用于搜索中的中文詞匯糾錯裝置,其包括:
[0027] 標(biāo)準(zhǔn)詞庫創(chuàng)建模塊,用于預(yù)先創(chuàng)建標(biāo)準(zhǔn)詞庫,該標(biāo)準(zhǔn)詞庫包括多個標(biāo)準(zhǔn)詞匯,以及 各個標(biāo)準(zhǔn)詞匯中每個字符的位置信息和拼音信息;
[0028] 獲取模塊,用于獲取用戶輸入的待判定字符串,得到所述待判定字符串中各個字 符的位置信息和拼音信息;
[0029]糾錯模塊,用于根據(jù)所述標(biāo)準(zhǔn)詞匯和所述待判定字符串中每個字符的位置信息和 拼音信息,將所述待判定字符串和所述標(biāo)準(zhǔn)詞匯中每個字符的位置信息和拼音信息進(jìn)行比 較,并根據(jù)比較結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇正確的詞匯。
[0030] 進(jìn)一步地,所述糾錯模塊具體包括:
[0031] 字形比較子模塊,用于根據(jù)所述待判定字符串和所述標(biāo)準(zhǔn)詞匯的每個字符的位置 信息,將所述獲取模塊所獲取的待判定字符串與所述標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匯進(jìn)行字形比 較,根據(jù)比較結(jié)果從所述標(biāo)準(zhǔn)詞庫中選擇出對比詞匯組;
[0032] 拼音比較子模塊,用于根據(jù)所述對比詞匯組中各個標(biāo)準(zhǔn)詞匯的每個字符的拼音信 息,將所述待判定字符串與所述對比詞匯組中的標(biāo)準(zhǔn)詞匯進(jìn)行拼音比較,并根據(jù)字形比較 結(jié)果和拼音比較結(jié)果從所述對比詞匯組中選擇出正確的詞匯。
[0033] 更進(jìn)一步地,所述字形比較子模塊包括:
[0034] 字符比較單元,用于根據(jù)所述待判定字符串的字符總數(shù),在所述標(biāo)準(zhǔn)詞庫中選擇 出字符總數(shù)相同的待選定標(biāo)準(zhǔn)詞匯組;
[0035] 對比詞匯選定單元,用于將所述待判定字符串與所述待選定標(biāo)準(zhǔn)詞匯組中的每個 標(biāo)準(zhǔn)詞匯進(jìn)行字形對比較,并根據(jù)比較結(jié)果從所述待選定標(biāo)準(zhǔn)詞匯組中選擇出對比詞匯 組。
[0036] 更進(jìn)一步地,所述對比詞匯選定單元具體包括:
[0037] 字形比較子單元,用于根據(jù)所述待判定字符串中每個字符的位置,將所述待判定 字符串與所述標(biāo)準(zhǔn)詞庫中每個詞匯進(jìn)行字形比較;
[0038] 字形相似度計算子單元,用于根據(jù)所述字形比較單元的比較結(jié)果,計算得到所述 標(biāo)準(zhǔn)詞庫中每個標(biāo)準(zhǔn)詞匯與所述待判定字符串的字形相似度,具體的計算方式為:所述字 形相似度的計算方式為:字形相似度=相同位置相同的字符數(shù)/標(biāo)準(zhǔn)詞匯總字符數(shù);
[0039] 相似度比較子單元,用于比較所述相似度計算單元計算得到的各個標(biāo)準(zhǔn)詞匯與所 述待判定字符串的字形相似度,并將比較得到字形相似度最高的標(biāo)準(zhǔn)詞匯作為對比詞匯 組;和/或,
[0040] 所述拼音比較子模塊具體包括:
[0041] 拼音比較單元,用于按照單字拼音比較方式,將所述待判定字符串與所述對比詞 匯組中標(biāo)準(zhǔn)詞匯進(jìn)行拼音比較;拼音相似度計算單元,用于根據(jù)所述拼音比較單元的比較 結(jié)果,計算所述對比詞匯組中每個標(biāo)準(zhǔn)詞匯與所述待判定字符串的拼音相似度,其中,該拼 音相似度計算方式為:拼音相似度=相同位置的相同拼音字母數(shù)/標(biāo)準(zhǔn)詞匯中各個字符的 拼音字母總數(shù);
[0042] 判定單元,用于分別計算所述對比詞匯組中每個標(biāo)準(zhǔn)詞匯與待判定字符串之間的 字形相似度與拼音相似度之和,并比較各個標(biāo)準(zhǔn)詞匯與所述待判定字符串的字形相似度和 拼音相似度之和,并選擇字形相似度和拼音相似度之和最高的標(biāo)準(zhǔn)詞匯為正確的詞匯。
[0043] 更進(jìn)一步地,所述標(biāo)準(zhǔn)詞庫創(chuàng)建模塊具體包括:
[0044] 位置信息數(shù)據(jù)庫創(chuàng)建子模塊,用于采用單字拆分方式存儲多個標(biāo)準(zhǔn)詞匯,以及該 標(biāo)準(zhǔn)詞匯中每個字符對應(yīng)的位置,得到位置信息數(shù)據(jù)庫;
[0045] 拼音信息數(shù)據(jù)庫創(chuàng)建子模塊,用于存儲所述位置信息數(shù)據(jù)庫所存儲的標(biāo)準(zhǔn)詞匯中 每個字符的拼音,且每個字符的拼音與其位置一一對應(yīng),得到拼音信息數(shù)據(jù)庫。
[0046] 實施本發(fā)明的有益效果:
[0047] 實施本發(fā)明的應(yīng)用于搜索中的中文詞匯糾錯方法及其裝置,通過預(yù)先建立標(biāo)準(zhǔn)詞 庫,而非采用錯詞庫的方式,從而不需要專業(yè)人員來進(jìn)行人工維護(hù),降低了成本,同時,本發(fā) 明通過自動獲取待判定字符串,并將其與標(biāo)準(zhǔn)詞庫中的標(biāo)準(zhǔn)詞匯進(jìn)行比較,再根據(jù)比較結(jié) 果選擇正確的詞匯來進(jìn)行搜索,從而能夠保證在等同硬件條件的情況下,更加快速、準(zhǔn)確地 解決用戶輸入的錯詞,進(jìn)而給用戶快速和智能的網(wǎng)絡(luò)服務(wù)體驗。
【附圖說明】
[0048] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例描述中所需 要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例, 對本領(lǐng)