專利名稱:對中文查詢詞進行糾錯的方法及其裝置的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網搜索引擎技術領域,尤其是涉及一種對中文查詢詞進行糾錯的 方法及其裝置。
背景技術:
在已有的中文查詢詞糾錯技術中,預先學習的中文詞庫是按照頻率排序的,這樣 中文詞庫中的查詢詞之間處于邏輯無序狀態(tài),而中文查詢詞的糾錯過程會將用戶輸入的中 文查詢詞與中文詞庫里的各個中文詞進行從頭到尾地的比較計算,從而在用戶輸入的中文 查詢詞不正確時,確定用于糾錯的中文詞推薦給用戶。然而,查詢詞的糾錯過程對糾錯速度的要求是很高的,而無序的中文詞庫未能充 分利用其內部查詢詞之間的相似與相異關系,從而會引起許多無用的查詢和比較計算。比 如,用戶輸入“北京奧運會”,按照現(xiàn)在已有的中文查詢詞糾錯方法會計算“北京奧運會”和 “上海世博會”之間的匹配度,因為“北京奧運會”要改寫四個字才能變成“上海世博會”,而 這種匹配計算是無效的,因為“北京奧運會”與“上海世博會”之間顯然不具備糾錯匹配的 可能性;再比如,當用戶輸入“郭得缸”時,根本不應該考慮“郭得缸”與“和諧社會”是否有 匹配的可能性,但由于“和諧社會”在中文詞庫中出現(xiàn)的頻率可能很高,按照現(xiàn)有的中文查 詢詞糾錯方法,極可能要計算這兩個詞之間的匹配度,而這顯然是不合理的。因此,按照現(xiàn)有的中文查詢詞糾錯技術,在遇到用戶輸入的中文查詢詞存在錯誤 需要糾正時,將匹配得到的糾錯后的中文詞推薦給用戶的速度還是有待于進一步提高的。
發(fā)明內容
本發(fā)明提供一種對中文查詢詞進行糾錯的方法及其裝置,用以提高對用戶輸入的 中文查詢詞進行糾錯的速度。為解決上述問題,本發(fā)明實施例提供了一種對中文查詢詞進行糾錯的方法,包括 接收輸入的中文查詢詞;將接收到的中文查詢詞包含的每個字分別轉換為拼音,并確定轉 換后的每個拼音的首字母構成的字母串;在預先學習的各字母串和中文查詢詞集之間的對 應關系中,索引與確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查 詢詞包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;在 索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞 子集的對應關系中,按照轉換得到的中文查詢詞拼音索引對應的中文查詢詞子集,其中中 文查詢詞子集中的每個中文查詢詞轉換后得到的查詢詞拼音均為與該中文查詢詞子集對 應的中文查詢詞拼音;在接收的中文查詢詞與索引到的中文查詢詞子集中包含的中文查詢 詞存在相同時,確定接收到的中文查詢詞無需糾錯;否則將索引到的中文查詢詞子集中的 中文查詢詞作為糾錯詞進行推薦。本發(fā)明實施例還提供了一種對中文查詢詞進行糾錯的裝置,包括接收單元,用于 接收輸入的中文查詢詞;轉換單元,用于將接收單元接收到的中文查詢詞包含的每個字分別轉換為拼音;第一確定單元,用于確定轉換單元轉換后的每個拼音的首字母構成的字母 串;第一索引單元,用于在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與 第一確定單元確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞 包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;第二索 引單元,用于在第一索引單元索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查 詢詞拼音對應的中文查詢詞子集的對應關系中,按照轉換單元轉換得到的中文查詢詞拼音 索引對應的中文查詢詞子集,其中中文查詢詞子集中的每個中文查詢詞轉換后得到的查詢 詞拼音均為與該中文查詢詞子集對應的中文查詢詞拼音;判斷單元,用于判斷接收單元接 收的中文查詢詞與第二索引單元索引到的中文查詢詞子集中包含的中文查詢詞是否存在 相同的情況;第二確定單元,用于在判斷單元的判斷結果為是時,確定接收到的中文查詢詞 無需糾錯;推薦單元,用于在判斷單元的判斷結果為否時,將第二索引單元索引到的中文查 詢詞子集中的中文查詢詞作為糾錯詞進行推薦。本發(fā)明實施例還提供了一種對中文查詢詞進行糾錯的方法,包括接收輸入的中文 查詢詞;將接收到的中文查詢詞包含的每個字分別轉換為拼音,并確定轉換后的每個拼音 的首字母構成的字母串;在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引 與確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞包含的每個 字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;在索引到的中文查 詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系 中,索引轉換得到的中文查詢詞拼音對應的中文查詢詞子集,其中中文查詢詞子集中的每 個中文查詢詞轉換后得到的查詢詞拼音均為與該中文查詢詞子集對應的中文查詢詞拼音; 在接收的中文查詢詞與索引到的中文查詢詞子集中包含的中文查詢詞存在相同時,確定接 收到的中文查詢詞無需糾錯;否則基于預設的聲母、韻母易錯對關系,對轉換得到的中文查 詢詞拼音進行至少一次拼音變換;針對每次變換得到的中文查詢詞拼音,在該次變換得到 的中文查詢詞拼音包含在與各字母串對應的中文查詢詞集中時,則在各中文查詢詞集包含 的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引該次 變換后得到的中文查詢詞拼音對應的中文查詢詞子集;以及將根據(jù)拼音變換后得到的中文 查詢詞拼音索引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。本發(fā)明實施例還提供了一種對中文查詢詞進行糾錯的裝置,包括接收單元,用于 接收輸入的中文查詢詞;轉換單元,用于將接收單元接收到的中文查詢詞包含的每個字分 別轉換為拼音;第一確定單元,用于確定轉換單元轉換后的每個拼音的首字母構成的字母 串;第一索引單元,用于在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與 第一確定單元確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞 包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;第二索 引單元,用于在第一索引單元索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查 詢詞拼音對應的中文查詢詞子集的對應關系中,索引轉換單元轉換得到的中文查詢詞拼音 對應的中文查詢詞子集,其中中文查詢詞子集中的每個中文查詢詞轉換后得到的查詢詞拼 音均為與該中文查詢詞子集對應的中文查詢詞拼音;判斷單元,用于判斷接收單元接收的 中文查詢詞與第二索引單元索引到的中文查詢詞子集中包含的中文查詢詞是否存在相同 的情況;第二確定單元,用于在判斷單元的判斷結果為是時,確定接收單元接收到的中文查詢詞無需糾錯;拼音變換單元,用于在判斷單元的判斷結果為否時,基于預設的聲母、韻母 易錯對關系,對轉換單元轉換得到的中文查詢詞拼音進行至少一次拼音變換;第三索引單 元,用于針對每次變換得到的中文查詢詞拼音,在第一索引單元索引到的中文查詢詞集包 含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引拼 音變換單元該次變換后得到的中文查詢詞拼音對應的中文查詢詞子集;推薦單元,用于將 第三索引單元根據(jù)拼音變換后得到的中文查詢詞拼音索引到的中文查詢詞子集中的中文 查詢詞作為糾錯詞進行推薦。本發(fā)明實施例還提供了一種對中文查詢詞進行糾錯的方法,包括接收輸入的中文 查詢詞;確定接收到的中文查詢詞包含的每個字的拼音的首字母構成的字母串;在預先學 習的各字母串和中文查詢詞集之間的對應關系中,索引與確定的字母串對應的中文查詢詞 集,其中中文查詢詞集中的每個中文查詢詞包含的每個字的拼音的首字母構成的字母串均 為與該中文查詢詞集對應的字母串;在接收的中文查詢詞與索引到的中文查詢詞集中包含 的中文查詢詞存在相同時,確定接收到的中文查詢詞無需糾錯;否則將索引到的中文查詢 詞集中的中文查詢詞作為糾錯詞進行推薦。本發(fā)明實施例還提供了一種對中文查詢詞進行糾錯的裝置,包括接收單元,用于 接收輸入的中文查詢詞;第一確定單元,用于確定接收單元接收到的中文查詢詞包含的每 個字的拼音的首字母構成的字母串;索引單元,用于在預先學習的各字母串和中文查詢詞 集之間的對應關系中,索引與第一確定單元確定的字母串對應的中文查詢詞集,其中中文 查詢詞集中的每個中文查詢詞包含的每個字的拼音的首字母構成的字母串均為與該中文 查詢詞集對應的字母串;判斷單元,用于判斷接收單元接收的中文查詢詞與索引單元索引 到的中文查詢詞集中包含的中文查詢詞是否存在相同的情況;第二確定單元,用于在判斷 單元的判斷結果為是時,確定接收單元接收到的中文查詢詞無需糾錯;推薦單元,用于在判 斷單元的判斷結果為否時,將索引單元索引到的中文查詢詞集中的中文查詢詞作為糾錯詞 進行推薦。本發(fā)明實施例通過在預先學習中文查詢詞庫時,以中文查詢詞包含的每個字的拼 音的首字母構成的字母串作為索引值(KEY值),建立各個字母串和中文查詢詞集的對應 關系,其中中文查詢詞集中包含的每個中文查詢詞的拼音首字母構成的字母串均為與該中 文查詢詞集對應的字母串,這樣后續(xù)在對用戶輸入的中文查詢詞進行糾錯時,先確定用戶 輸入的中文查詢詞包含的每個字的拼音的首字母構成的字母串,然后使用確定的字母串到 預先學習的各個字母串和中文查詢詞集的對應關系中,索引對應的中文查詢詞集,再根據(jù) 中文查詢詞的拼音在索引到的中文查詢詞集中匹配更為準備的中文查詢詞子集并進行糾 錯處理,從而相對現(xiàn)有技術的糾錯過程會將用戶輸入的中文查詢詞與中文詞庫里的各個中 文詞進行從頭到尾地的比較計算,將可以較大提高對用戶輸入的中文查詢詞進行糾錯的速 度。
下面將結合各個附圖對本發(fā)明實施例的具體實施過程進行詳盡的闡述,其中在各 個附圖中圖1為本發(fā)明第一實施例提出的對中文查詢詞進行糾錯的方法的處理流程圖2為本發(fā)明實施例提出的第一種對中文查詢詞進行糾錯的裝置的具體組成結 構框圖;圖3為本發(fā)明第二實施例提出的對中文查詢詞進行糾錯的方法的處理流程圖;圖4為本發(fā)明實施例提出的第二種對中文查詢詞進行糾錯的裝置的具體組成結 構框圖;圖5為本發(fā)明第三實施例提出的對中文查詢詞進行糾錯的方法的處理流程圖;圖6為本發(fā)明實施例提出的第三種對中文查詢詞進行糾錯的裝置的具體組成結 構框圖。
具體實施例方式本發(fā)明實施例的基本實現(xiàn)原理是在預先學習中文查詢詞庫時,以中文查詢詞包 含的每個字的拼音的首字母構成的字母串作為索引值(KEY值),建立各個字母串和中文 查詢詞集的對應關系,其中中文查詢詞集中包含的每個中文查詢詞的拼音首字母構成的字 母串均為與該中文查詢詞集對應的字母串,這樣后續(xù)在對用戶輸入的中文查詢詞進行糾錯 時,先確定用戶輸入的中文查詢詞包含的每個字的拼音的首字母構成的字母串,然后使用 確定的字母串到預先學習的各個字母串和中文查詢詞集的對應關系中,索引對應的中文查 詢詞集,再根據(jù)中文查詢詞的拼音在索引到的中文查詢詞集中匹配更為準備的中文查詢詞 子集并進行糾錯處理,從而來提高對用戶輸入的中文查詢詞進行糾錯的速度。根據(jù)該基本 實現(xiàn)原理,本發(fā)明下述給出了三種具體實現(xiàn)方式,以下將分別具體說明。第一實施例首先,基于查詢日志創(chuàng)建和學習一個中文查詢詞庫,該中文查詢詞庫的格式具體 可以如下
中文查詢詞的每個字拼音的首中文查詢詞 中文查詢詞 查詢詞的出現(xiàn)頻率值字母構成的字母串 拼音其中查詢詞的出現(xiàn)頻率值為可選項,之所以設置這個出現(xiàn)頻率值,是考慮到后續(xù) 在進行糾錯詞推薦時,可以將統(tǒng)計得到的出現(xiàn)頻率值比較高的中文查詢詞推薦給用戶。例如,前期可以預先對以前的搜索引擎日志進行中文查詢詞統(tǒng)計,將某些出現(xiàn)頻 率值小于某閾值的中文查詢詞刪除,本發(fā)明實施例這里認為過去是對未來進行猜測的依 據(jù),即在過去一段時間里出現(xiàn)頻率較高的中文查詢詞很可能在未來一段時間內也是出現(xiàn) 頻率較高的中文查詢詞。然后將中文查詢詞包含的每個字的拼音首字母構成的字母串提取 出來作為索引值(KEY值),將對應的中文查詢詞和出現(xiàn)頻率值作為被索引值(VALUE),從而 建立上述表格中的對應關系。比如,對以往搜索引擎日志進行中文查詢詞統(tǒng)計,統(tǒng)計得到的中文查詢詞及其出 現(xiàn)的頻率值中有這樣兩條中文查詢詞出現(xiàn)頻率值郭德綱300郭得剛100
本發(fā)明實施例這里認為出現(xiàn)頻率最高的中文查詢詞更有可能是正確的,更應該用 于后續(xù)的糾錯使用,因此考慮將出現(xiàn)頻率值為100的郭得剛條目刪除。這樣提取上述統(tǒng)計 得到的{郭德綱300}條目中的中文查詢詞中包含的每個字的拼音首字母,就可以學習到一 個對應關系項如下gdg guo de gang 郭德綱 300將該學習到的對應關系條目統(tǒng)計到中文查詢詞數(shù)據(jù)庫中,按照上述統(tǒng)計學習過 程,中文查詢詞數(shù)據(jù)庫中的對應關系項目就會逐漸增加和完善,當然,建立好中文查詢詞數(shù) 據(jù)庫之后,還需要定期對學習的中文查詢詞數(shù)據(jù)庫進行更新處理。假設,按照上述的統(tǒng)計學習方法,得到的中文查詢詞數(shù)據(jù)庫的具體內容如下#lxLian xiang 聯(lián)想 300Liu xiang 劉翔 269流向 200#zymZhang yi mou 張藝謀 400Zhou yu min 周渝民 300#zzyZhang zi yi 章子怡 300張子儀 100Zhao zi yang 趙紫陽 200這樣后續(xù)在用戶輸入中文查詢詞之后,可以考慮將用戶輸入的中文查詢詞包含的 每個字的拼音的首字母提取出來作為索引值(KEY值),直接使用該索引值到中文查詢詞數(shù) 據(jù)庫中對應的區(qū)域進行索引中文查詢詞,其中該索引值對應的區(qū)域中包括各中文查詢詞拼 音和與該中文查詢詞拼音對應的中文查詢詞子集,例如索引值“#lx”對應的區(qū)域中包括查 詢詞拼音“Liu xiang”和與該“Liuxiang”對應的中文查詢詞子集{劉翔,流向},以及查 詢詞拼音“Lian xiang”和與該“Lian xiang”對應的中文查詢詞子集{聯(lián)想}。這樣當用 戶輸入的中文查詢詞為“張一某”時,首先對“張一某”進行拼音變換得到“zhang yi mou", 再確定“張一某”包含的每個字的拼音首字母構成的字母串,即為“zym”,這樣在中文查詢詞 庫中查找糾錯詞時就可以使用“zym”作為KEY值,在“zym”對應的中文查詢詞區(qū)域(包括 Zhang yi mou張藝謀400 ;Zhouyu min周渝民300兩個條目)中查找對應的糾錯詞,進而 在該區(qū)域中根據(jù)對“張一某”進行拼音變換后得到的“zhangyi mou”,定位到對應的糾錯詞 “張藝謀”。如圖1所示,為本發(fā)明第一實施例提出的對中文查詢詞進行糾錯的方法的處理流 程圖,其中具體實現(xiàn)過程如下步驟10,接收用戶通過搜索引擎工具輸入的中文查詢詞,比如用戶輸入的中文查 詢詞為“張子宜”;步驟11,將上述接收到的中文查詢詞包含的每個字分別轉換為拼音,如上述接收 到的中文查詢詞為“張子宜”,則對該接收到的中文查詢詞“張子宜”進行拼音轉換后得到 "zhang zi yi,,;
步驟12,確定上述轉換后的每個拼音的首字母構成的字母串,如上例,則確定出的 字母串為“ZZy”;步驟13,在上述預先學習的包括各字母串和中文查詢詞集之間的對應關系的中 文查詢詞庫中,索引與上述確定的字母串對應的中文查詢詞集,例如上述確定的字母串為 “zzy”,則在中文查詢詞庫中索引到的中文查詢詞集為{Zhangzi yi章子怡300,張子儀 100 ;Zhao zi yang 趙紫陽 200};步驟14,在上述索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞 拼音對應的中文查詢詞子集的對應關系中,按照轉換得到的中文查詢詞拼音索引對應的中 文查詢詞子集;實施該步驟有兩種情況,一種情況是在索引到的中文查詢詞集中直接包括轉換得 到的中文查詢詞拼音,例如上述用戶輸入的中文查詢詞為“張子宜”,則對該輸入的中文查 詢詞“張子宜”進行拼音轉換后得到“zhang zi yi”,可見拼音轉換后得到“zhang zi yi” 直接包含在搜索得到的中文查詢詞集{Zhang zi yi章子怡300,張子儀100 ;Zhao zi yang 趙紫陽200}中,則在這種情況下直接在索引到的中文查詢詞集包含的各中文查詢詞拼音 和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引與轉換得到的中文查詢詞 拼音對應的中文查詢詞子集,則可見可以根據(jù)拼音轉換后得到的“zhang zi yi”在索引得 到的中文查詢詞集{Zhang zi yi章子怡300,張子儀100 ;Zhao zi yang趙紫陽200}中, 索引到中文查詢詞子集{章子怡300,張子儀100};另一種情況是在預先學習的中文查詢詞庫中與各字母串對應的中文查詢詞子集 中不包括拼音轉換得到的中文查詢詞拼音,這是因為在有些情況下,查詢用戶通常由于生 長環(huán)境不同,在發(fā)音過程中通常會有發(fā)音錯誤,比如容易出現(xiàn)某些聲母和韻母的發(fā)音錯誤, 例如聲母f 和h,b和p,r和1,s和sh之間都是易混淆的發(fā)音,而f 和b之間是不太可能 出現(xiàn)發(fā)音混淆的。韻母則考慮到韻母部分首字母的關聯(lián)關系,比如u和ua,a和ao容易發(fā) 生發(fā)音混淆,但u和ao相對不易發(fā)生發(fā)音錯誤。另外還可以考慮到一些鼻音易錯比如an 和ang,en和eng等等。因此可以預先建立一個聲母、韻母發(fā)音易錯對關系列表,基于這個 列表在預先統(tǒng)計學習的中文查詢詞庫中找不到匹配的糾錯詞進行推薦時或者找不到對應 的查詢詞拼音時,可以考慮對用戶輸入的中文查詢詞的轉換拼音,按照預先建立的聲母、韻 母發(fā)音易錯對關系進行拼音變換處理,然后使用每次變換后得到的拼音再去中文查詢詞庫 中進行匹配處理。其中針對每次變換得到的中文查詢詞拼音,在該次變換得到的中文查詢 詞拼音包含在預先學習的中文查詢詞庫中與各字母串對應的中文查詢詞子集中時,則在各 中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對 應關系中,索引與該次變換得到的中文查詢詞拼音對應的中文查詢詞子集即可,由此可見, 根據(jù)變換次數(shù)的不同,可能最終索引到的中文查詢詞子集的數(shù)目也會有所不同。例如,當用戶輸入的中文查詢詞為“張因某”時,首先對“張因某”進行拼音轉換得 到“zhang yin mou”,這樣在預先統(tǒng)計學習到的中文查詢詞庫中“zym”對應的區(qū)域中將不能 匹配到對應的拼音,則可以考慮對“zhang yin mou”按照預先設置的聲母、韻母易錯對關系 進行至少一次拼音變換,得到至少一個拼音變換后的拼音,這里假設對“zhang yin mou”進 行了兩種不同類型拼音錯誤的變換,分別得到的拼音變換結果為zang yin mou, zhang yi mou等等,可見第二種類型拼音變換得到的拼音“zhang yi mou”已經包含在“zym”對應的區(qū)域中包含的中文查詢詞集{Zhang yi mou張藝謀400,Zhou yu min周渝民300}中,然后 在該中文查詢詞集中索引到“zhang yi mou”對應的中文查詢詞子集{Zhang yi mou張藝 謀 400}。 本發(fā)明實施例這里推薦在一個中文查詢詞進行拼音轉換后得到的拼音中,若出現(xiàn) 同類型的發(fā)音錯誤,按照預先建立的聲母、韻母易錯對關系對拼音進行一次變換即可,無需 累加成多次變換過程,比如許多人分不清z和zh,c和ch,s和sh等,所以對用戶輸入的中 文查詢詞“資似(zi si)”只需進行一次同類型拼音錯誤變換來得到“知識(zhi shi)”即可。其中對中文查詢詞拼音在每次變換時允許進行的拼音錯誤變換種類是動態(tài)的,其 中對中文查詢詞拼音在每次變換時允許進行的拼音錯誤變換種類可以與用戶輸入的中文 查詢詞包含的字數(shù)相關,當用戶輸入的中文查詢詞包含的字數(shù)越多時,允許對中文查詢詞 拼音在每次變換時允許進行的拼音錯誤變換種類也就越多。比如,一共只有三個輸入字,則 可以設定對中文查詢詞拼音在每次變換時允許進行的拼音錯誤變換種類為1 ;而當輸入字 為五個或六個時,則可以設定對中文查詢詞拼音在每次變換時允許進行的拼音錯誤變換種 類為2。即設定當輸入詞長度大于3小于6時,設定對輸入詞拼音在每次變換時允許進行的 拼音錯誤變換種類為2;當輸入詞長度小于等于3時,設定對輸入詞拼音在每次變換時允許 進行的拼音錯誤變換種類為1。通常糾錯對輸入詞的長度是有下限要求的,輸入的中文查詢 詞包含的字數(shù)長度至少為2,因為通常對于長度為1的單個字而言,系統(tǒng)是根本無法“猜測” 用戶的真實搜索意圖的。步驟15,判斷接收到的中文查詢詞與上述在步驟14中索引到的中文查詢詞子集 中包含的各中文查詢詞是否存在相同的情況;例如如果用戶輸入的中文查詢詞為“張子宜” 時,就會存在和在步驟14中索引到的中文查詢詞子集中{章子怡300,張子儀100}包含的 各中文查詢詞均不相同的情況,而如果用戶輸入的中文查詢詞為“章子怡”,則和在步驟14 中索引到的中文查詢詞子集中{張子怡300,張子儀100}包含的各中文查詢詞存在相同的 情況;步驟16,在上述判斷結果為是時,則確定接收到的中文查詢詞無需糾錯;步驟17,在上述判斷結果為否時,則將上述在步驟14中索引到的中文查詢詞子集 中的中文查詢詞作為糾錯詞進行推薦,例如在用戶輸入的查詢詞為“張子宜”時,則可以將 在上述步驟14中索引到的中文查詢詞子集{章子怡300,張子儀100}中的中文查詢詞作為 糾錯詞進行推薦。具體地,可以將上述在步驟14中索引到的中文查詢詞子集中包含的所有中文查 詢詞均進行推薦,例如在用戶輸入的中文查詢詞為“張子宜”時,可以將章子怡、張子儀均推 薦給用戶。當然如果在預先學習建立的中文查詢詞庫中預先學習了各個中文查詢詞的出現(xiàn) 頻率值,也可以參照索引到的中文查詢詞集中包含的各個中文查詢詞對應的出現(xiàn)頻率值進 行推薦,例如可以將索引到的中文查詢詞子集中對應最大出現(xiàn)頻率值的中文查詢詞作為糾 錯詞進行推薦,即為用戶推薦“章子怡”;也可以將索引到的中文查詢詞集中出現(xiàn)頻率值由 大到小排在前N位的出現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦,其中N為自 然數(shù),例如當N為1時,只向用戶推薦“章子怡”,當N為2時,則向用戶推薦“張子怡、張子 儀”。
如圖2所示,為本發(fā)明實施例提出的第一種對中文查詢詞進行糾錯的裝置的具體 組成結構框圖,其中具體包括接收單元20,用于接收用戶通過搜索引擎工具輸入的中文查詢詞;轉換單元21,用于將上述接收單元20接收到的中文查詢詞包含的每個字分別轉 換為拼音;第一確定單元22,用于確定上述轉換單元21轉換后的每個拼音的首字母構成的 字母串;第一索引單元23,用于在上述預先學習的包括各字母串和中文查詢詞集之間的 對應關系的中文查詢詞庫24中,索引與第一確定單元22確定的字母串對應的中文查詢詞 集;第二索引單元25,用于在第一索引單元23索引到的中文查詢詞集包含的各中文 查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,按照上述轉換單元 21轉換得到的中文查詢詞拼音索引對應的中文查詢詞子集;其中第二索引單元25具體地 可以包括第一索引子單元,用于在第一索引單元23索引到的中文查詢詞集中包括轉換單 元21轉換得到的中文查詢詞拼音時,在第一索引單元23索引到的中文查詢詞集包含的各 中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引與轉換單 元21轉換得到的中文查詢詞拼音對應的中文查詢詞子集;拼音變換子單元,用于在第一索 引單元23索引到的中文查詢詞集中不包括轉換單元21轉換得到的中文查詢詞拼音時,基 于預設的聲母、韻母易錯對關系,對換轉單元21轉換得到的中文查詢詞拼音進行至少一次 拼音變換;第二索引子單元,用于針對拼音變換子單元每次變換得到的中文查詢詞拼音,在 該次變換得到的中文查詢詞拼音包含在預先學習的中文查詢詞庫中與各字母串對應的中 文查詢詞子集中時,在各中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應 的中文查詢詞子集的對應關系中,索引與該次變換得到的中文查詢詞拼音對應的中文查詢 詞子集。判斷單元26,用于判斷接收單元20接收到的中文查詢詞與第二索引單元25索引 到的中文查詢詞子集中包含的每個中文查詢詞是否存在相同的情況;第二確定單元27,用于在判斷單元26的判斷結果為是時,確定接收單元20接收到 的中文查詢詞無需糾錯處理;推薦單元28,用于在判斷單元26的判斷結果為否時,將第二索引單元25索引到的 中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。具體的,推薦單元28可以將第二索 引單元25索引到的中文查詢詞子集中包含的所有中文查詢詞均進行推薦。當然如果在預 先學習建立的中文查詢詞庫中預先學習了各個中文查詢詞的出現(xiàn)頻率值,也可以參照索引 到的中文查詢詞集中包含的各個中文查詢詞對應的出現(xiàn)頻率值進行推薦,例如可以將第二 索引單元25索引到的中文查詢詞子集中對應最大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進 行推薦,也可以將索引到的中文查詢詞子集中出現(xiàn)頻率值由大到小排在前N位的出現(xiàn)頻率 值分別對應的中文查詢詞作為糾錯詞進行推薦,其中N為自然數(shù)。第二實施例如圖3所示,為本發(fā)明第二實施例提出的對中文查詢詞進行糾錯的方法的處理流 程圖,其中具體實現(xiàn)過程如下
步驟30,接收用戶通過搜索引擎工具輸入的中文查詢詞;步驟31,將上述接收到的中文查詢詞包含的每個字分別轉換為拼音;步驟32,確定上述轉換后的每個拼音的首字母構成的字母串;步驟33,在上述預先學習的包括各字母串和中文查詢詞集之間的對應關系的中文 查詢詞庫中,索引與上述確定的字母串對應的中文查詢詞集;步驟34,在上述索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞 拼音對應的中文查詢詞子集的對應關系中,索引與轉換得到的中文查詢詞拼音對應的中文 查詢詞子集;步驟35,判斷接收到的中文查詢詞與上述在步驟34中索引到的中文查詢詞子集 中包含的各中文查詢詞是否存在相同的情況;步驟36,在上述判斷結果為是時,則確定接收到的中文查詢詞無需糾錯;步驟37,在上述判斷結果為否時,基于預設的聲母、韻母易錯對對應關系,對上述 轉換得到的中文查詢詞拼音進行至少一次拼音變換;其中對中文查詢詞拼音在每次變換時 允許進行的拼音錯誤變換種類可以與中文查詢詞中包含的字數(shù)相關,通常接收到的中文查 詢詞包含的字數(shù)越多,對轉換得到的中文查詢詞拼音在每次變換時允許進行的拼音錯誤變 換種類也就越多;步驟38,針對每次拼音變換得到的拼音變換結果,在該次變換得到的中文查詢詞 拼音包含在預先學習的中文查詢詞庫中與各字母串對應的中文查詢詞集中時,則在與各字 母串對應的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢 詞子集的對應關系中,索引與該次變換得到的中文查詢詞拼音對應的中文查詢詞子集即 可;步驟39,將根據(jù)拼音變換后得到的中文查詢詞拼音索引到的中文查詢詞子集中的 中文查詢詞作為糾錯詞進行推薦。具體地,可以將上述在步驟38中索引到的中文查詢詞子集中包含的所有中文查 詢詞均進行推薦。當然如果在預先學習建立的中文查詢詞庫中預先學習了各個中文查詢詞 的出現(xiàn)頻率值,也可以參照索引到的中文查詢詞集中包含的各個中文查詢詞對應的出現(xiàn)頻 率值進行推薦,例如可以將索引到的中文查詢詞子集中對應最大出現(xiàn)頻率值的中文查詢詞 作為糾錯詞進行推薦;也可以將索引到的中文查詢詞集中出現(xiàn)頻率值由大到小排在前N位 的出現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦,其中N為自然數(shù)。如圖4所示,為本發(fā)明實施例提出的第二種對中文查詢詞進行糾錯的裝置的具體 組成結構框圖,其中具體包括接收單元40,用于接收用戶通過搜索引擎工具輸入的中文查詢詞;轉換單元41,用于將上述接收單元40接收到的中文查詢詞包含的每個字分別轉 換為拼音;第一確定單元42,用于確定上述轉換單元41轉換后的每個拼音的首字母構成的 字母串;第一索引單元43,用于在上述預先學習的包括各字母串和中文查詢詞集之間的 對應關系的中文查詢詞庫44中,索引與第一確定單元42確定的字母串對應的中文查詢詞 集;
第二索引單元45,用于在第一索引單元43索引到的中文查詢詞集包含的各中文 查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引與上述轉換單 元41轉換得到的中文查詢詞拼音對應的中文查詢詞子集;判斷單元46,用于判斷接收單元40接收到的中文查詢詞與第二索引單元45索引 到的中文查詢詞子集中包含的每個中文查詢詞是否存在相同的情況;第二確定單元47,用于在判斷單元46的判斷結果為是時,確定接收單元40接收到 的中文查詢詞無需糾錯處理;拼音變換單元48,用于在判斷單元46的判斷結果為否時,基于預設的聲母、韻母 易錯對對應關系,對轉換單元41轉換得到的中文查詢詞拼音進行至少一次拼音變換;第三索引單元49,用于針對拼音變換單元48每次拼音變換后得到的中文查詢詞 拼音,在該詞變換得到的中文查詢詞拼音包含在預先學習的中文查詢詞庫中與各字母串對 應的中文查詢詞集中時,在與各字母串對應的中文查詢詞集中包含的各中文查詢詞拼音和 與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引拼音變換單元48該次變換 后得到的中文查詢詞拼音對應的中文查詢詞子集;推薦單元50,用于將第三索引單元49根據(jù)拼音變換后得到的中文查詢詞拼音索 引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。體的,推薦單元50可以將第三索引單元49索引到的中文查詢詞子集中包含的所 有中文查詢詞均進行推薦。當然如果在預先學習建立的中文查詢詞庫中預先學習了各個中 文查詢詞的出現(xiàn)頻率值,也可以參照索引到的中文查詢詞集中包含的各個中文查詢詞對應 的出現(xiàn)頻率值進行推薦,例如可以將第三索引單元49索引到的中文查詢詞子集中對應最 大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推薦,也可以將索引到的中文查詢詞子集中出 現(xiàn)頻率值由大到小排在前N位的出現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦, 其中N為自然數(shù)。第三實施例如圖5所示,為本發(fā)明第三實施例提出的對中文查詢詞進行糾錯的方法的處理流 程圖,其中具體實現(xiàn)過程如下步驟50,接收用戶通過搜索引擎工具輸入的中文查詢詞,比如用戶輸入的中文查 詢詞為“張一某”;步驟51,確定上述接收到的中文查詢詞包含的每個字的拼音的首字母構成的字母 串,如上述接收到的中文查詢詞為“張一某”,則確定出的字母串為“zym” ;步驟52,在上述預先學習的包括各字母串和中文查詢詞集之間的對應關系的中 文查詢詞庫中,索引與上述確定的字母串對應的中文查詢詞集,例如上述確定的字母串為 “zym”,則在中文查詢詞庫中索引到的中文查詢詞集為{張藝謀,周渝民};步驟53,判斷接收到的中文查詢詞與索引到的中文查詢詞集中包含的中文查詢詞 是否存在相同的情況,例如如果用戶輸入的中文查詢詞為“張藝謀”時,就會存在和索引到 的中文查詢詞集中{張藝謀,周渝民}包含的中文查詢詞相同的情況,而如果用戶輸入的中 文查詢詞為“張一某”,則和索引到的中文查詢詞集中{張藝謀,周渝民}包含的中文查詢詞 不存在相同的情況;步驟54,在上述判斷結果為是時,則確定接收到的中文查詢詞無需糾錯;
步驟55,在上述判斷結果為否時,則將上述索引到的中文查詢詞集中的中文查詢 詞作為糾錯詞進行推薦,例如在用戶輸入的查詢詞為“張一某”時,可以將索引到的中文查 詢詞集{張藝謀,周渝民}中的中文查詢詞作為糾錯詞進行推薦。具體地,可以將索引到的中文查詢詞集中包含的所有中文查詢詞均進行推薦,例 如在用戶輸入的中文查詢詞為“張一某”時,可以將張藝謀、周渝民均推薦給用戶。當然如果 在預先學習建立的中文查詢詞庫中預先學習了各個中文查詢詞的出現(xiàn)頻率值,也可以參照 索引到的中文查詢詞集中包含的各個中文查詢詞對應的出現(xiàn)頻率值進行推薦,例如可以將 索引到的中文查詢詞集中對應最大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推薦,即為用 戶推薦“張藝謀”;也可以將索引到的中文查詢詞集中出現(xiàn)頻率值由大到小排在前N位的出 現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦,其中N為自然數(shù),例如當N為1時, 只向用戶推薦“張藝謀”,當N為2時,則向用戶推薦“張藝謀、周渝民”。如圖6所示,為本發(fā)明實施例提出的第三種對中文查詢詞進行糾錯的裝置的具體 組成結構框圖,其中具體包括接收單元60,用于接收用戶通過搜索引擎工具輸入的中文查詢詞;第一確定單元61,用于確定上述接收單元60接收到的中文查詢詞包含的每個字 的拼音的首字母構成的字母串;索引單元62,用于在上述預先學習的包括各字母串和中文查詢詞集之間的對應關 系的中文查詢詞庫63中,索引與第一確定單元61確定的字母串對應的中文查詢詞集;判斷單元64,用于判斷接收單元60接收到的中文查詢詞與索引單元62索引到的 中文查詢詞集中包含的每個中文查詢詞是否存在相同的情況;第二確定單元65,用于在判斷單元64的判斷結果為是時,確定接收單元60接收到 的中文查詢詞無需糾錯處理;推薦單元66,用于在判斷單元64的判斷結果為否時,將索引單元62索引到的中文 查詢詞集中的中文查詢詞作為糾錯詞進行推薦。具體的,推薦單元66可以將索引到的中文 查詢詞集中包含的所有中文查詢詞均進行推薦。當然如果在預先學習建立的中文查詢詞庫 中預先學習了各個中文查詢詞的出現(xiàn)頻率值,也可以參照索引到的中文查詢詞集中包含的 各個中文查詢詞對應的出現(xiàn)頻率值進行推薦,例如可以將索引到的中文查詢詞集中對應最 大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推薦,也可以將索引到的中文查詢詞集中出現(xiàn) 頻率值由大到小排在前N位的出現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦,其 中N為自然數(shù)。其中在上述第二、第三實施例中,對用戶輸入的中文查詢詞拼音進行變換可以更 為準備的對用戶輸入的中文查詢詞進行糾錯處理,較好的提高了糾錯過程的精度。其中在具體實施過程中,可以將上述介紹的第一實施例、第二實施例和第三實施 例進行任意的組合使用,這些組合使用也在本發(fā)明的權利要求保護范圍之內。顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍 之內,則本發(fā)明也意圖包含這些改動和變型在內。
權利要求
一種對中文查詢詞進行糾錯的方法,其特征在于,包括接收輸入的中文查詢詞;將接收到的中文查詢詞包含的每個字分別轉換為拼音,并確定轉換后的每個拼音的首字母構成的字母串;在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;在索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,按照轉換得到的中文查詢詞拼音索引對應的中文查詢詞子集,其中中文查詢詞子集中的每個中文查詢詞轉換后得到的查詢詞拼音均為與該中文查詢詞子集對應的中文查詢詞拼音;在接收的中文查詢詞與索引到的中文查詢詞子集中包含的中文查詢詞存在相同時,確定接收到的中文查詢詞無需糾錯;否則將索引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。
2.如權利要求1所述的方法,其特征在于,在索引到的中文查詢詞集包含的各中文查 詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,按照轉換得到的中文 查詢詞拼音索引對應的中文查詢詞子集,包括若在索引到的中文查詢詞集中包括轉換得到的中文查詢詞拼音,則在索引到的中文查 詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系 中,索引與轉換得到的中文查詢詞拼音對應的中文查詢詞子集;若在索引到的中文查詢詞集中不包括轉換得到的中文查詢詞拼音,則基于預設的聲 母、韻母易錯對關系,對轉換得到的中文查詢詞拼音進行至少一次拼音變換;以及針對每次變換得到的中文查詢詞拼音,在該次變換得到的中文查詢詞拼音包含在與各 字母串對應的中文查詢詞集中時,則在各中文查詢詞集包含的各中文查詢詞拼音和與中文 查詢詞拼音對應的中文查詢詞子集的對應關系中,索引與該次變換得到的中文查詢詞拼音 對應的中文查詢詞子集。
3.如權利要求2所述的方法,其特征在于,接收到的中文查詢詞包含的字數(shù)越多,在每 次對轉換得到的中文查詢詞拼音變換時允許進行的拼音錯誤變換種類越多。
4.如權利要求1或2所述的方法,其特征在于,每個中文查詢詞子集中包含的每個中文 查詢詞分別對應一個出現(xiàn)頻率值;將索引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦,具體為 將索引到的中文查詢詞子集中對應最大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推 薦;或將索引到的中文查詢詞子集中出現(xiàn)頻率值由大到小排在前N位的出現(xiàn)頻率值分別對 應的中文查詢詞作為糾錯詞進行推薦,其中N為自然數(shù)。
5.一種對中文查詢詞進行糾錯的裝置,其特征在于,包括 接收單元,用于接收輸入的中文查詢詞;轉換單元,用于將接收單元接收到的中文查詢詞包含的每個字分別轉換為拼音; 第一確定單元,用于確定轉換單元轉換后的每個拼音的首字母構成的字母串;第一索引單元,用于在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與第一確定單元確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢 詞包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;第二索引單元,用于在第一索引單元索引到的中文查詢詞集包含的各中文查詢詞拼音 和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,按照轉換單元轉換得到的中文 查詢詞拼音索引對應的中文查詢詞子集,其中中文查詢詞子集中的每個中文查詢詞轉換后 得到的查詢詞拼音均為與該中文查詢詞子集對應的中文查詢詞拼音;判斷單元,用于判斷接收單元接收的中文查詢詞與第二索引單元索引到的中文查詢詞 子集中包含的中文查詢詞是否存在相同的情況;第二確定單元,用于在判斷單元的判斷結果為是時,確定接收到的中文查詢詞無需糾錯;推薦單元,用于在判斷單元的判斷結果為否時,將第二索引單元索引到的中文查詢詞 子集中的中文查詢詞作為糾錯詞進行推薦。
6.如權利要求5所述的裝置,其特征在于,所述第二索引單元具體包括第一索引子單元,用于在第一索引單元索引到的中文查詢詞集中包括轉換單元轉換得 到的中文查詢詞拼音時,在第一索引單元索引到的中文查詢詞集包含的各中文查詢詞拼音 和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引與轉換單元轉換得到的中 文查詢詞拼音對應的中文查詢詞子集;拼音變換子單元,用于在第一索引單元索引到的中文查詢詞集中不包括轉換單元轉換 得到的中文查詢詞拼音時,基于預設的聲母、韻母易錯對關系,對換轉單元轉換得到的中文 查詢詞拼音進行至少一次拼音變換;第二索引子單元,用于針對拼音變換子單元每次變換得到的中文查詢詞拼音,在該次 變換得到的中文查詢詞拼音包含在與各字母串對應的中文查詢詞集中時,在各中文查詢詞 集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索 引與該次變換得到的中文查詢詞拼音對應的中文查詢詞子集。
7.一種對中文查詢詞進行糾錯的方法,其特征在于,包括 接收輸入的中文查詢詞;將接收到的中文查詢詞包含的每個字分別轉換為拼音,并 確定轉換后的每個拼音的首字母構成的字母串;在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與確定的字母串對應 的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞包含的每個字的拼音的首字母構 成的字母串均為與該中文查詢詞集對應的字母串;在索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文 查詢詞子集的對應關系中,索引轉換得到的中文查詢詞拼音對應的中文查詢詞子集,其中 中文查詢詞子集中的每個中文查詢詞轉換后得到的查詢詞拼音均為與該中文查詢詞子集 對應的中文查詢詞拼音;在接收的中文查詢詞與索引到的中文查詢詞子集中包含的中文查詢詞存在相同時,確 定接收到的中文查詢詞無需糾錯;否則基于預設的聲母、韻母易錯對關系,對轉換得到的中文查詢詞拼音進行至少一次拼音變換;針對每次變換得到的中文查詢詞拼音,在該次變換得到的中文查詢詞拼音包含在與各 字母串對應的中文查詢詞集中時,則在各中文查詢詞集包含的各中文查詢詞拼音和與中文 查詢詞拼音對應的中文查詢詞子集的對應關系中,索引該次變換后得到的中文查詢詞拼音 對應的中文查詢詞子集;以及將根據(jù)拼音變換后得到的中文查詢詞拼音索引到的中文查詢詞子集中的中文查詢詞 作為糾錯詞進行推薦。
8.如權利要求7所述的方法,其特征在于,每個中文查詢詞子集中包含的每個中文查 詢詞分別對應一個出現(xiàn)頻率值;將根據(jù)拼音變換后得到的中文查詢詞拼音索引到的中文查詢詞子集中的中文查詢詞 作為糾錯詞進行推薦,具體為將根據(jù)拼音變換后得到的中文查詢詞拼音分別索引到的中文查詢詞子集中對應最大 出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推薦;或將根據(jù)拼音變換后得到的中文查詢詞拼音分別索引到的中文查詢詞子集中出現(xiàn)頻率 值由大到小排在前N位的出現(xiàn)頻率值分別對應的中文查詢詞作為糾錯詞進行推薦,其中N 為自然數(shù)。
9.如權利要求7所述的方法,其特征在于,接收到的中文查詢詞包含的字數(shù)越多,在每 次對轉換得到的中文查詢詞拼音變換時允許進行的拼音錯誤變換種類越多。
10.一種對中文查詢詞進行糾錯的裝置,其特征在于,包括 接收單元,用于接收輸入的中文查詢詞;轉換單元,用于將接收單元接收到的中文查詢詞包含的每個字分別轉換為拼音; 第一確定單元,用于確定轉換單元轉換后的每個拼音的首字母構成的字母串; 第一索引單元,用于在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引 與第一確定單元確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢 詞包含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;第二索引單元,用于在第一索引單元索引到的中文查詢詞集包含的各中文查詢詞拼音 和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,索引轉換單元轉換得到的中文 查詢詞拼音對應的中文查詢詞子集,其中中文查詢詞子集中的每個中文查詢詞轉換后得到 的查詢詞拼音均為與該中文查詢詞子集對應的中文查詢詞拼音;判斷單元,用于判斷接收單元接收的中文查詢詞與第二索引單元索引到的中文查詢詞 子集中包含的中文查詢詞是否存在相同的情況;第二確定單元,用于在判斷單元的判斷結果為是時,確定接收單元接收到的中文查詢 詞無需糾錯;拼音變換單元,用于在判斷單元的判斷結果為否時,基于預設的聲母、韻母易錯對關 系,對轉換單元轉換得到的中文查詢詞拼音進行至少一次拼音變換;第三索引單元,用于針對每次變換得到的中文查詢詞拼音,在第一索引單元索引到的 中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對 應關系中,索引拼音變換單元該次變換后得到的中文查詢詞拼音對應的中文查詢詞子集; 推薦單元,用于將第三索引單元根據(jù)拼音變換后得到的中文查詢詞拼音索引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。
11.一種對中文查詢詞進行糾錯的方法,其特征在于,包括 接收輸入的中文查詢詞;確定接收到的中文查詢詞包含的每個字的拼音的首字母構成的字母串; 在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與確定的字母串對應 的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞包含的每個字的拼音的首字母構 成的字母串均為與該中文查詢詞集對應的字母串;在接收的中文查詢詞與索引到的中文查詢詞集中包含的中文查詢詞存在相同時,確定 接收到的中文查詢詞無需糾錯;否則將索引到的中文查詢詞集中的中文查詢詞作為糾錯詞進行推薦。
12.如權利要求11所述的方法,其特征在于,在預先學習的各字母串和中文查詢詞集 之間的對應關系中,每個中文查詢詞集中包含的每個中文查詢詞分別對應一個出現(xiàn)頻率 值;將索引到的中文查詢詞集中的中文查詢詞作為糾錯詞進行推薦,具體為 將索引到的中文查詢詞集中對應最大出現(xiàn)頻率值的中文查詢詞作為糾錯詞進行推薦;或將索引到的中文查詢詞集中出現(xiàn)頻率值由大到小排在前N位的出現(xiàn)頻率值分別對應 的中文查詢詞作為糾錯詞進行推薦,其中N為自然數(shù)。
13.—種對中文查詢詞進行糾錯的裝置,其特征在于,包括 接收單元,用于接收輸入的中文查詢詞;第一確定單元,用于確定接收單元接收到的中文查詢詞包含的每個字的拼音的首字母 構成的字母串;索引單元,用于在預先學習的各字母串和中文查詢詞集之間的對應關系中,索引與第 一確定單元確定的字母串對應的中文查詢詞集,其中中文查詢詞集中的每個中文查詢詞包 含的每個字的拼音的首字母構成的字母串均為與該中文查詢詞集對應的字母串;判斷單元,用于判斷接收單元接收的中文查詢詞與索引單元索引到的中文查詢詞集中 包含的中文查詢詞是否存在相同的情況;第二確定單元,用于在判斷單元的判斷結果為是時,確定接收單元接收到的中文查詢 詞無需糾錯;推薦單元,用于在判斷單元的判斷結果為否時,將索引單元索引到的中文查詢詞集中 的中文查詢詞作為糾錯詞進行推薦。
全文摘要
本發(fā)明公開了一種對中文查詢詞進行糾錯的方法及其裝置,其中該方法包括將接收到的中文查詢詞轉換為拼音,并確定每個拼音的首字母構成的字母串;在各字母串和中文查詢詞集之間的對應關系中,索引與確定的字母串對應的中文查詢詞集;在索引到的中文查詢詞集包含的各中文查詢詞拼音和與中文查詢詞拼音對應的中文查詢詞子集的對應關系中,按照轉換得到的中文查詢詞拼音索引對應的中文查詢詞子集;在接收的中文查詢詞與索引到的中文查詢詞子集中包含的中文查詢詞存在相同時,確定接收到的中文查詢詞無需糾錯;否則將索引到的中文查詢詞子集中的中文查詢詞作為糾錯詞進行推薦。本發(fā)明可以提高對用戶輸入的中文查詢詞進行糾錯的速度。
文檔編號G06F17/30GK101989282SQ20091009019
公開日2011年3月23日 申請日期2009年7月31日 優(yōu)先權日2009年7月31日
發(fā)明者孫宏偉, 羅治國, 胡珉 申請人:中國移動通信集團公司