亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種即時(shí)搜索方法和系統(tǒng)的制作方法

文檔序號(hào):6541129閱讀:163來(lái)源:國(guó)知局
一種即時(shí)搜索方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例公開(kāi)了一種即時(shí)搜索方法和系統(tǒng),所述的方法包括:檢測(cè)搜索欄中當(dāng)前輸入的文字信息,對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理,并提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù);當(dāng)對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字;在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提示信息;當(dāng)接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。本發(fā)明實(shí)施例改寫后的搜索關(guān)鍵詞使得搜索結(jié)果更加接近當(dāng)初的預(yù)期,提升用戶體驗(yàn),減少了客戶端的資源和搜索引擎的資源浪費(fèi),提高了搜索效率。
【專利說(shuō)明】一種即時(shí)搜索方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索的【技術(shù)領(lǐng)域】,具體涉及一種即時(shí)搜索方法和一種即時(shí)搜索系統(tǒng)?!颈尘凹夹g(shù)】
[0002]隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)應(yīng)用趨向多元化,網(wǎng)上的信息量急劇增加。
[0003]在各種場(chǎng)合下,用戶經(jīng)常需要輸入語(yǔ)言文字進(jìn)行信息的交互。例如,在搜索引擎中輸入關(guān)鍵詞搜索網(wǎng)頁(yè)信息,在即時(shí)通訊工具中輸入詞句與其他用戶進(jìn)行交流,等等。
[0004]語(yǔ)言文字存在形近字,即語(yǔ)言文字的結(jié)構(gòu)相似的語(yǔ)言文字。語(yǔ)言文字被定義為各種編碼方式進(jìn)行輸入,例如五筆編碼、拼音編碼等等,用戶在采用該編碼方式輸入語(yǔ)言文字時(shí),由于形近字的原因,很容易出現(xiàn)誤操作,輸入其他語(yǔ)言文字,導(dǎo)致用戶經(jīng)常需要重新輸入語(yǔ)言文字,不僅操作麻煩,而且浪費(fèi)系統(tǒng)資源。
[0005]以五筆為例,五筆輸入文字準(zhǔn)不準(zhǔn)確取決于用戶是否細(xì)心或?qū)h字本身的認(rèn)知,但是由于粗心導(dǎo)致的誤操作或用戶認(rèn)知本身就是錯(cuò)別字導(dǎo)致的輸錯(cuò)漢字的情形等并不少見(jiàn),例如某新聞報(bào)紙的某次頭版頭條“亂撳喇叭被罰不要喊冤”寫成了 “亂撳嗽叭被罰不要喊冤”。
[0006]再者,若用戶在搜索引擎中想輸入搜索詞“項(xiàng)羽”,搜索歷史人物項(xiàng)羽的相關(guān)網(wǎng)頁(yè)信息,但是將“項(xiàng)”誤輸入為“頂”,由于“項(xiàng)”和“頂”也很相近,用戶很可能輸入了“頂羽”而沒(méi)有察覺(jué),直接請(qǐng)求搜 索引擎搜索與“頂羽”相關(guān)的網(wǎng)頁(yè)信息。
[0007]—方面,誤操作的搜索結(jié)果與當(dāng)初的預(yù)期有很大差別,用戶體驗(yàn)十分差,浪費(fèi)了客戶端的資源和搜索引擎的資源。另一方面,用戶需要獲取自己感興趣的網(wǎng)頁(yè)信息,會(huì)再次在搜索引擎中輸入關(guān)鍵詞進(jìn)行搜索,搜索引擎要再次進(jìn)行海量信息的搜索、對(duì)比、篩選等獲取與搜索關(guān)鍵詞相關(guān)的信息,不僅用戶操作更加繁瑣,耗費(fèi)用戶的時(shí)間,而且將大大增加搜索引擎的負(fù)擔(dān),耗費(fèi)更多客戶端與搜索引擎的資源。

【發(fā)明內(nèi)容】

[0008]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種即時(shí)搜索方法和相應(yīng)的一種即時(shí)搜索的系統(tǒng)。
[0009]依據(jù)本發(fā)明的一個(gè)方面,提供了一種即時(shí)搜索方法,包括:
[0010]檢測(cè)搜索欄中當(dāng)前輸入的文字信息,對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理,并提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù);
[0011]當(dāng)對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字;
[0012]在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提不?目息;
[0013]當(dāng)接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。[0014]可選地,所述近似字包括形近字和/或音近字。
[0015]可選地,所述形近字通過(guò)以下方式獲得:
[0016]確定輸入搜索引擎中的待校驗(yàn)是否為形近字的第一文字和第二文字;
[0017]按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串;
[0018]計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離;
[0019]當(dāng)所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字;
[0020]在搜索引擎中建立第一文字與第二文字之間的形近字映射關(guān)系。
[0021]可選地,所述預(yù)設(shè)規(guī)則包括預(yù)設(shè)的編碼規(guī)則,所述按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串,以及,所述第二文字的第二編碼字符串的步驟包括:
[0022]按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串;
[0023]按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串;
[0024]其中,所述預(yù)設(shè)的編碼規(guī)則包括五筆編碼規(guī)則。
[0025]可選地,所述形近字還通過(guò)以下方式獲得:
[0026]分別查找所述第一編碼字符串對(duì)應(yīng)的第一輸入按鍵;
[0027]分別查找所述第二編碼字符串對(duì)應(yīng)的第二輸入按鍵;
[0028]分別計(jì)算所述第一輸入按鍵和所述第二輸入按鍵之間的按鍵距離;
[0029]依據(jù)所述按鍵距離為所述編碼距離配置對(duì)應(yīng)的權(quán)重;
[0030]所述當(dāng)所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字的步驟為:
[0031]當(dāng)配置有所述權(quán)重的編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字。
[0032]可選地,所述按鍵距離與所述權(quán)重成反比。
[0033]根據(jù)本發(fā)明的另一方面,提供了一種即時(shí)搜索系統(tǒng),包括:
[0034]文字信息檢測(cè)單元,適于檢測(cè)搜索欄中當(dāng)前輸入的文字信息;
[0035]糾錯(cuò)處理單元,適于對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理;
[0036]第一結(jié)果提供單元,適于提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù);
[0037]近似字計(jì)算單元,適于對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字;
[0038]糾錯(cuò)提示單元,適于在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提示信息;
[0039]第二結(jié)果提供單元,適于在接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。
[0040]可選地,所述近似字包括形近字和/或音近字。
[0041]可選地,所述形近字通過(guò)調(diào)用以下模塊獲得:
[0042]文字確定模塊,適于確定輸入搜索引擎中的待校驗(yàn)的第一文字和第二文字;
[0043]編碼獲取模塊,適于按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串;
[0044]編碼距離計(jì)算模塊,適于計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離;
[0045]形近字判定模塊,適于在所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字;
[0046]映射關(guān)系確定模塊,適于在搜索引擎中建立第一文字與第二文字之間的形近字映身寸關(guān)系。
[0047]可選地,所述預(yù)設(shè)規(guī)則包括預(yù)設(shè)的編碼規(guī)則,所述編碼獲取模塊還適于:
[0048]按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串;
[0049]按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串;
[0050]其中,所述預(yù)設(shè)的編碼規(guī)則包括五筆編碼規(guī)則。
[0051]可選地,所述形近字還通過(guò)調(diào)用以下模塊獲得:
[0052]第一查找模塊,適于分別查找所述第一編碼字符串對(duì)應(yīng)的第一輸入按鍵;
[0053]第二查找模塊,適于分別查找所述第二編碼字符串對(duì)應(yīng)的第二輸入按鍵;
[0054]按鍵距離計(jì)算模塊,適于分別計(jì)算所述第一輸入按鍵和所述第二輸入按鍵之間的按鍵距離;
[0055]權(quán)重配置模塊,適于依據(jù)所述按鍵距離為所述編碼距離配置對(duì)應(yīng)的權(quán)重;
[0056]所述形近字判定模塊還適于:
[0057]當(dāng)配置有所述權(quán)重的編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字。
[0058]可選地,所述按鍵距離與所述權(quán)重成反比。
[0059]本發(fā)明實(shí)施例在即時(shí)搜索引擎中對(duì)文字信息進(jìn)行糾錯(cuò)處理,采用與文字信息匹配的近似文字對(duì)搜索關(guān)鍵詞進(jìn)行改寫,以獲得與所述改寫后的文字信息相匹配的搜索結(jié)果數(shù)據(jù)。一方面,改寫后的搜索關(guān)鍵詞使得搜索結(jié)果更加接近當(dāng)初的預(yù)期,提升用戶體驗(yàn),減少了客戶端的資源和搜索引擎的資源浪費(fèi),提高了搜索效率。另一方面,避免用戶需要獲取自己感興趣的網(wǎng)頁(yè)信息,再次在搜索引擎中輸入關(guān)鍵詞進(jìn)行搜索,減少了搜索引擎要再次進(jìn)行海量信息的搜索、對(duì)比、篩選等獲取與搜索關(guān)鍵詞相關(guān)的信息,使得用戶操作更加方便,減少用戶的時(shí)間耗費(fèi),進(jìn)一步減少了客戶端與搜索引擎的資源耗費(fèi)。
[0060]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】

【附圖說(shuō)明】
[0061]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0062]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種即時(shí)搜索方法實(shí)施例的步驟流程圖;以及
[0063]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種即時(shí)搜索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。【具體實(shí)施方式】
[0064]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0065]參照?qǐng)D1,示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的一種即時(shí)搜索方法實(shí)施例的步驟流程圖,可以包括如下步驟:
[0066]步驟101,檢測(cè)搜索欄中當(dāng)前輸入的文字信息;
[0067]需要說(shuō)明的是,即時(shí)搜索(Current Event Search Engine, ISE),又稱瞬時(shí)搜索,是指以RSS (簡(jiǎn)易信息聚合)/Atom (—對(duì)彼此相關(guān)的標(biāo)準(zhǔn))、Tag (分類標(biāo)簽)等新興技術(shù)為基礎(chǔ),專注于中文世界里頻繁更新的博客網(wǎng)站和新聞網(wǎng)站,能夠給用戶提供接近實(shí)時(shí)效果的搜索結(jié)果。
[0068]在具體實(shí)現(xiàn)中,即時(shí)搜索引擎可以檢測(cè)用戶在搜索欄中輸入的文字信息,隨著用戶在搜索欄中輸入文字信息,即時(shí)搜索引擎可以同時(shí)給出搜索結(jié)果,隨著用戶不斷的輸入新的文字信息,即時(shí)搜索引擎可以隨時(shí)刷新出的搜索結(jié)果頁(yè)面都會(huì)一起發(fā)生變化。
[0069]步驟102,對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理;
[0070]在一種情形中,可以使用自然語(yǔ)言處理技術(shù)(Natural Language Processing,NLP)對(duì)搜索關(guān)鍵詞進(jìn)行糾錯(cuò)處理。
[0071]糾錯(cuò)處理一般可以拆分成兩個(gè)子任務(wù):
[0072]1、拼寫錯(cuò)誤檢測(cè)(Spelling Error Detection):按照錯(cuò)誤類型不同,可以分為Non-word Errors 和 Real-word Errors。其中,Non-word Errors 可以指拼寫錯(cuò)誤后的詞本身就不合法,如錯(cuò)誤的將“giraffe”寫成“graffe” ;Real_word Errors可以指那些拼寫錯(cuò)誤后的詞仍然是合法的情況,如將“there”錯(cuò)誤拼寫為“three”(形近),將“peace”錯(cuò)誤拼寫為“piece”(同音),將“two”錯(cuò)誤拼寫為“too”(同音)。在具體實(shí)現(xiàn)中,可以基于噪聲信道模型(Noisy Channel Model)等進(jìn)行拼寫糾錯(cuò);
[0073]2、拼寫糾錯(cuò)(Spelling Error Correction):對(duì)搜索關(guān)鍵詞進(jìn)行糾錯(cuò),可以進(jìn)行字詞查錯(cuò),例如對(duì)相鄰字和字、相鄰字和詞、相鄰詞和詞之間等的錯(cuò)誤進(jìn)行檢查。
[0074]在另一種情形中,也可以采用語(yǔ)言模型(Language Model)對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理。
[0075]即時(shí)搜索引擎可以預(yù)先采集用戶的輸入文本信息,然后訓(xùn)練語(yǔ)言模型。訓(xùn)練的模型可以為N-Gram(大詞匯連續(xù)語(yǔ)音識(shí)別中常用的一種語(yǔ)言模型)、基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型等等,用戶語(yǔ)言模型的學(xué)習(xí)可以采取定期或者客戶端空閑的方式進(jìn)行。
[0076]當(dāng)然,上述糾錯(cuò)處理方法只是作為示例,在實(shí)施本發(fā)明實(shí)施例時(shí),可以根據(jù)實(shí)際情況設(shè)置其他糾錯(cuò)處理方法,本發(fā)明實(shí)施例對(duì)此不加以限制。另外,除了上述糾錯(cuò)處理方法夕卜,本領(lǐng)域技術(shù)人員還可以根據(jù)實(shí)際需要采用其它糾錯(cuò)處理方法,本發(fā)明實(shí)施例對(duì)此也不加以限制。
[0077]步驟103,提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù);
[0078]即時(shí)搜索中,隨著用戶每次輸入新的文字信息,都可以自動(dòng)向即時(shí)搜索引擎發(fā)起查詢請(qǐng)求并接收搜索結(jié)果展示,而無(wú)需點(diǎn)擊Enter鍵等觸發(fā)查詢請(qǐng)求。步驟104,當(dāng)對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字;
[0079]在具體實(shí)現(xiàn)中,所述近似字可以包括形近字和/或音近字。
[0080]音近字可以為讀音相同或相近的詞,例如“案”和“安”的讀音都為“an”。其中,中文的拼音由聲母和韻母組成,可以分別計(jì)算第一文字和第二文字的聲母和韻母的相似度,獲得讀音之間的相似度,當(dāng)該相似度大于預(yù)設(shè)的相似度閾值時(shí),可以判定第一文字和第二
文字為音近字。
[0081]對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),在字體數(shù)據(jù)庫(kù)中查找與錯(cuò)誤處的文字對(duì)應(yīng)的上下文最匹配的近似文字對(duì)文字信息進(jìn)行改寫。
[0082]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述形近字可以通過(guò)以下方式獲得:
[0083]子步驟S11,確定輸入搜索引擎中的待校驗(yàn)的第一文字和第二文字;
[0084]在具體實(shí)現(xiàn)中,可以從預(yù)設(shè)采集的語(yǔ)料庫(kù)中提取第一文字和第二文字,進(jìn)行是否互為形近字的校驗(yàn)。
[0085]在本發(fā)明實(shí)施例的一個(gè)可選示例中,第一文字和第二文字可以為漢字。
[0086]子步驟S12,按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串;
[0087]文字可以具有特定的文字結(jié)構(gòu)特性,按照該文字結(jié)構(gòu)特性進(jìn)行編碼,建立輸入方式,可以實(shí)現(xiàn)進(jìn)行電子設(shè)備中輸入文字。例如,第一文字和第二文字可以進(jìn)行拼音輸入方式、五筆輸入方式、筆畫輸入方式等等。
[0088]相對(duì)應(yīng)地,第一文字和第二文字針對(duì)不同的編碼規(guī)則可以對(duì)應(yīng)不同第一編碼字符串和第二編碼字符串。例如,“側(cè)”針對(duì)拼音輸入方式對(duì)應(yīng)的編碼字符串為“ ce ”,針對(duì)五筆輸入方式對(duì)應(yīng)的編碼字符串為“WMJh”。
[0089]在本發(fā)明實(shí)施例的一種優(yōu)選示例中,所述預(yù)設(shè)規(guī)則可以包括預(yù)設(shè)的編碼規(guī)則,子步驟12進(jìn)一步可以包括如下子步驟:
[0090]子步驟S121,按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串;
[0091]子步驟S122,按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串;
[0092]其中,所述預(yù)設(shè)的編碼規(guī)則可以包括五筆編碼規(guī)則。
[0093]漢字是由筆劃或偏旁部首組成的,為了輸入這些漢字,可以把漢字拆成一些最常用的基本單位,即字根。字根可以是漢字的偏旁部首,也可以是部首的一部分,甚至是筆劃。
[0094]字根在組成漢字時(shí),可以按照字根之間的位置關(guān)系分為四類結(jié)構(gòu):單、散、連、交。其中,單可以指字根本身單獨(dú)成為一個(gè)漢字,包括鍵名字根和成字字根,例如口、木等;散可以指構(gòu)成漢字的字根之間可以保持一定距離,例如漢、湘等;連可以指一個(gè)字根連一單筆畫,例如“ j ”連“目”成為“自”;交可以指幾個(gè)字根交叉套迭之后構(gòu)成漢字,例如“申”是由“日”交“ I ”。
[0095]五筆為五筆輸入法的簡(jiǎn)稱,為一種形碼輸入法。字根是五筆輸入法的基本單元,依據(jù)筆畫和字形特征對(duì)漢字進(jìn)行編碼,把字根按一定的規(guī)律分類,再把這些字根分配在鍵盤上,作為輸入漢字的基本單位。
[0096]具體地,五筆將漢字筆劃分為五個(gè)區(qū):橫(同提)、豎、撇、捺(同點(diǎn))、折五區(qū)。把字根或碼元按一定規(guī)律分布在25個(gè)字母鍵上(即標(biāo)準(zhǔn)的QWERTY鍵盤,不包括Z鍵)。
[0097]在采用五筆輸入法輸入漢字時(shí),可以按照漢字的書寫順序和結(jié)構(gòu)依次按鍵盤上與字根對(duì)應(yīng)的鍵,組成一個(gè)編碼字符串,系統(tǒng)根據(jù)輸入字根組成的編碼字符串,在五筆輸入法的字庫(kù)中檢索出所要的文字。
[0098]需要說(shuō)明的是,在五筆輸入法中,雖然識(shí)別碼的應(yīng)用使得單個(gè)文字的重碼(編碼字符串)率較低,但是詞組的重碼率較高。因此,五筆輸入法普遍不使用大詞庫(kù),以防止過(guò)多重碼,反之,五筆輸入法尤其適用于單個(gè)文字輸入,以獲得較高的輸入效率。
[0099]子步驟13,計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離;
[0100]通過(guò)計(jì)算第一編碼字符串和第二編碼字符串之間的編碼距離,可以標(biāo)識(shí)出第一編碼字符串和第二編碼字符串之間的相似度。
[0101 ] 在本發(fā)明實(shí)施例的一種優(yōu)選示例中,所述編碼距離可以包括編輯距離。編輯距離(Edit Distance),又稱Levenshtein距離,可以指兩個(gè)字符串(例如第一編碼字符串和第二編碼字符串)之間,由一個(gè)轉(zhuǎn)換為另一個(gè)所需的最少編輯操作次數(shù)。
[0102]在實(shí)際中,許多的編輯操作包括將一個(gè)字符串替換成另一個(gè)字符串,插入一個(gè)字符串,刪除一個(gè)字符串。
[0103]例如,將字符串“kitten”轉(zhuǎn)換為字符串“sitting”最少需要三次操作次數(shù):
[0104]Usitten (k — S),即將字符“k”替換為字符“s” ;
[0105]2、sittin (e — i),即將字符“e”替換為字符“i”;
[0106]3、sitting (― g),即在字符串“sittin”最后插入字符“g”。
[0107]子步驟14,當(dāng)所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字。
[0108]形近字可以為字形結(jié)構(gòu)相似的文字,在使用時(shí)容易產(chǎn)生混淆。例如“己”、“已”、“巳”互為形近字。
[0109]在五筆輸入法中,字根或碼元一般為成塊的存在,與組成文字的筆畫或部偏旁首相同或相近,都集中在某一個(gè)或相鄰的按鍵中。例如,某版本的五筆輸入法中H鍵對(duì)應(yīng)的字根包括“目、上、卜、止、虎、頭、具”。
[0110]由于形近字的字形結(jié)構(gòu)相似,對(duì)應(yīng)地,組成形近字的字根也相似。
[0111]在采用五筆輸入法輸入單個(gè)文字時(shí),除了少數(shù)的鍵名字根和成字字根外,大多數(shù)情況都需要按照漢字的特點(diǎn)采用拆分規(guī)則對(duì)文字進(jìn)行字根拆分,如果拆分獲得超過(guò)四個(gè)字根時(shí),取第一、二、三、末(最后)個(gè)字根即可輸入文字。
[0112]例如,拆分規(guī)則可以包括:書寫順序、取大優(yōu)先、兼顧直觀、能連不交、能散不連。
[0113]組成文字的筆畫或部偏旁首都是具有一定的使用規(guī)則的,可以包括位置規(guī)則、書寫規(guī)則等等。例如單人旁“彳”、雙人旁”一般是在文字的最左側(cè),最優(yōu)先書寫,如“你”、“億”、“很”、“往”等。
[0114]筆畫或偏旁部首的使用規(guī)則使得漢字可以分為獨(dú)體字(如上、下、日、月等由筆畫構(gòu)成的字,或者是說(shuō)由單個(gè)偏旁組成的字)和合體字(如掛、休、取、明等由偏旁組成的字)。
[0115]具體地,漢字結(jié)構(gòu)可以分為:
[0116](I)上下結(jié)構(gòu):思、歪、冒、意、安、全;
[0117](2)上中下結(jié)構(gòu):草、暴、意、竟、競(jìng);[0118](3)左右結(jié)構(gòu):好、棚、和、蜂、灘、往、明;
[0119](4)左中右結(jié)構(gòu):謝、樹、倒、搬、撇、鞭、辯;
[0120](5)全包圍結(jié)構(gòu):圍、囚、困、田、因、國(guó)、固;
[0121](6)半包圍結(jié)構(gòu):包、區(qū)、閃、這、句、函、風(fēng);
[0122](7)穿插結(jié)構(gòu):噩、兆、非;
[0123](8)品字形結(jié)構(gòu):品、森、轟、晶、嘉、盡、炎。
[0124]因此,在五筆輸入法中,由于漢字的筆畫或偏旁部首與五筆字根的相似性,漢字的結(jié)構(gòu)及其書寫規(guī)則與五筆拆分規(guī)則的相似性,因此分別對(duì)形近字進(jìn)行字根拆分,可以獲得相似或相近的編碼字符串。例如,“測(cè)”和“側(cè)”互為形近字,“測(cè)”包括三個(gè)偏旁,同時(shí)也是字根,分別為“? ”、“貝”、“ U”,其編碼字符串為“imjh”,“側(cè)”包括三個(gè)偏旁,同時(shí)也是字根,分別是M ”、“貝”、“丨J,,,其編碼字符串為“wmjh”,顯然,“imjh”和“麗ijh”是很相似的。
[0125]相對(duì)應(yīng)地,對(duì)第一文字和第二文字對(duì)應(yīng)的第一編碼字符串和第二編碼字符串進(jìn)行編碼距離的計(jì)算,當(dāng)其小于預(yù)設(shè)距離閾值時(shí),表明其相似度較高,可以認(rèn)為是形近字。相反,當(dāng)編碼距離大于或等于預(yù)設(shè)距離閾值時(shí),表明其相似度較低,可以認(rèn)為是非形近字。
[0126]例如,在五筆輸入法中,由于漢字最多為4個(gè)編碼字符串,則可以預(yù)設(shè)距離閾值為
2。對(duì)于文字“候”和“侯”,應(yīng)用五筆編碼規(guī)則,“候”的編碼字符串為“whnd”,“侯”的編碼字符串為“¥社(1”,“化11(1”和“^^(1”之間的編碼距離為1,小于可以距離閾值2,則可以判定“候”和“侯”互為形近字。
[0127]子步驟15,在搜索引擎中建立第一文字與第二文字之間的形近字映射關(guān)系。
[0128]在具體實(shí)現(xiàn)中,可以在搜索引擎中分別建立字體數(shù)據(jù)庫(kù)收集當(dāng)前文字的形近字及對(duì)應(yīng)的形近字映射關(guān)系。
[0129]需要說(shuō)明的是,形近字映射關(guān)系可以是相互的。例如第一文字與與第二文字的形
近字映射關(guān)系可以為第一文字-第二文字;第二文字與第一文字的形近字映射關(guān)系
可以為第二文字-第一文字。
[0130]應(yīng)用本發(fā)明實(shí)施例,可以在語(yǔ)料庫(kù)中遍歷所有文字,尋找當(dāng)前文字的形近字,將尋找到的形近字及形近字映射關(guān)系生成當(dāng)前文字的字體數(shù)據(jù)庫(kù)。
[0131]例如第一文字的字體數(shù)據(jù)庫(kù)中保存一個(gè)或多個(gè)形近字及形近字映射關(guān)系,如第一
文字-第二文字、第三文字、第四文字;第二文字的字體數(shù)據(jù)庫(kù)中保存一個(gè)或多個(gè)形
近字及形近字映射關(guān)系,如第二文字-第一文字、第五文字、第六文字。
[0132]本發(fā)明實(shí)施例通過(guò)計(jì)算第一文字的第一編碼字符串和第二文字的第二編碼字符串之間的編碼距離,實(shí)現(xiàn)了第一文字和第二文字是否互為形近字的判定。
[0133]在本發(fā)明的另一種優(yōu)選實(shí)施例中,所述形近字可以通過(guò)以下方式獲得:
[0134]子步驟S21,確定輸入搜索引擎中的待校驗(yàn)是否為形近字的第一文字和第二文字;
[0135]子步驟S22,按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串;
[0136]子步驟S23,計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離;
[0137]子步驟S24,分別查找所述第一編碼字符串對(duì)應(yīng)的第一輸入按鍵;
[0138]子步驟S25,分別查找所述第二編碼字符串對(duì)應(yīng)的第二輸入按鍵;[0139]子步驟S26,分別計(jì)算所述第一輸入按鍵和所述第二輸入按鍵之間的按鍵距離;
[0140]子步驟S27,依據(jù)所述按鍵距離為所述編碼距離配置對(duì)應(yīng)的權(quán)重;
[0141]子步驟S28,當(dāng)配置有所述權(quán)重的編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字;
[0142]子步驟S29,在搜索引擎中建立第一文字與第二文字之間的形近字映射關(guān)系。
[0143]在本發(fā)明實(shí)施例中,第一輸入按鍵和第二輸入按鍵之間的按鍵距離可以為鍵盤上輸入按鍵的物理距離。
[0144]在QWERTY鍵盤的指法中,左手食指控制按鍵R、T、F、G、V、B,左手中指控制按鍵E、D、C,左手無(wú)名指控制按鍵W、S、X,左手小指控制按鍵Q、A、Z,右手食指控制按鍵Y、U、H、J、N、M,右手中指控制按鍵1、K,右手無(wú)名指控制按鍵0、L,右手小指控制按鍵P。其中,按鍵F、J 一般具有凸起,作為定位鍵。
[0145]而由于定位鍵的存在,使得當(dāng)前手指點(diǎn)擊不屬于其控制的按鍵時(shí),例如左手食指點(diǎn)擊按鍵E,手指跨度較大,使得用戶一般存在明顯不適,進(jìn)而使得此種誤點(diǎn)擊的幾率很小。反之,在當(dāng)前手指控制的按鍵中誤點(diǎn)擊的幾率相對(duì)較大,例如左手食指點(diǎn)擊按鍵R,容易誤點(diǎn)擊T。
[0146]因此,所述按鍵距離可以與所述權(quán)重成反比。并且,可選地,同一個(gè)手指控制的輸入按鍵之間的按鍵距離可以對(duì)權(quán)重配置權(quán)重系數(shù),降低權(quán)重,使得第一文字和第二文字的編碼距離更小,即相似度更高,以體現(xiàn)誤點(diǎn)擊的幾率相對(duì)較大的特點(diǎn)。
[0147]步驟105,在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提示信息;
[0148]在具體實(shí)現(xiàn)中,本發(fā)明實(shí)施例可以采用任意形式進(jìn)行提示,例如可以在輸入框下提示對(duì)推薦近似文字進(jìn)行糾錯(cuò)提示的信息,為增強(qiáng)提示功能,也可以對(duì)糾錯(cuò)前的文字和推薦近似文字采用不同的顏色進(jìn)行標(biāo)注,等等,本發(fā)明實(shí)施例對(duì)此不加以限制。
[0149]步驟106,當(dāng)接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。
[0150]觸發(fā)指示可以是指用戶發(fā)出的采用某個(gè)近似文字進(jìn)行替換發(fā)現(xiàn)錯(cuò)誤的文字信息的指示。例如,當(dāng)用戶在提示信息處點(diǎn)擊時(shí),就相當(dāng)于接收到了觸發(fā)指示。又例如,當(dāng)用戶采用Tab鍵等按鍵選擇近似文字后按下回車鍵時(shí),就相當(dāng)于接收到了觸發(fā)指示。
[0151]當(dāng)接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),則可以再次提供基于觸發(fā)指示替換發(fā)現(xiàn)錯(cuò)誤后的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù)。
[0152]本發(fā)明實(shí)施例在即時(shí)搜索引擎中對(duì)文字信息進(jìn)行糾錯(cuò)處理,采用與文字信息匹配的近似文字對(duì)搜索關(guān)鍵詞進(jìn)行改寫,以獲得與所述改寫后的文字信息相匹配的搜索結(jié)果數(shù)據(jù)。一方面,改寫后的搜索關(guān)鍵詞使得搜索結(jié)果更加接近當(dāng)初的預(yù)期,提升用戶體驗(yàn),減少了客戶端的資源和搜索引擎的資源浪費(fèi),提高了搜索效率。另一方面,避免用戶需要獲取自己感興趣的網(wǎng)頁(yè)信息,再次在搜索引擎中輸入關(guān)鍵詞進(jìn)行搜索,減少了搜索引擎要再次進(jìn)行海量信息的搜索、對(duì)比、篩選等獲取與搜索關(guān)鍵詞相關(guān)的信息,使得用戶操作更加方便,減少用戶的時(shí)間耗費(fèi),進(jìn)一步減少了客戶端與搜索引擎的資源耗費(fèi)。
[0153]對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
[0154]參照?qǐng)D2,示出了本發(fā)明一個(gè)實(shí)施例的一種即時(shí)搜索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖,可以包括如下模塊:
[0155]文字信息檢測(cè)單元201,適于檢測(cè)搜索欄中當(dāng)前輸入的文字信息;
[0156]糾錯(cuò)處理單元202,適于對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理;
[0157]第一結(jié)果提供單元203,適于提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù);
[0158]近似字計(jì)算單元204,適于對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字;
[0159]糾錯(cuò)提示單元205,適于在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提示信息;
[0160]第二結(jié)果提供單元206,適于在接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。
[0161]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述近似字可以包括形近字和/或音近字。
[0162]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述形近字可以通過(guò)調(diào)用以下模塊獲得:
[0163]文字確定模塊,適于確定輸入搜索引擎中的待校驗(yàn)的第一文字和第二文字;
[0164]編碼獲取模塊,適于按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串;
[0165]編碼距離計(jì)算模塊,適于計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離;
[0166]形近字判定模塊,適于在所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字;
[0167]映射關(guān)系確定模塊,適于在搜索引擎中建立第一文字與第二文字之間的形近字映身寸關(guān)系。
[0168]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述預(yù)設(shè)規(guī)則可以包括預(yù)設(shè)的編碼規(guī)則,所述編碼獲取模塊還可以適于:
[0169]按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串;
[0170]按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串;
[0171]其中,所述預(yù)設(shè)的編碼規(guī)則包括五筆編碼規(guī)則。
[0172]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述形近字還可以通過(guò)調(diào)用以下模塊獲得:
[0173]第一查找模塊,適于分別查找所述第一編碼字符串對(duì)應(yīng)的第一輸入按鍵;
[0174]第二查找模塊,適于分別查找所述第二編碼字符串對(duì)應(yīng)的第二輸入按鍵;
[0175]按鍵距離計(jì)算模塊,適于分別計(jì)算所述第一輸入按鍵和所述第二輸入按鍵之間的按鍵距離;
[0176]權(quán)重配置模塊,適于依據(jù)所述按鍵距離為所述編碼距離配置對(duì)應(yīng)的權(quán)重;
[0177]所述形近字判定模塊還可以適于:
[0178]當(dāng)配置有所述權(quán)重的編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字。[0179]在本發(fā)明的一種優(yōu)選實(shí)施例中,所述按鍵距離可以與所述權(quán)重成反比。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0180]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0181]在此處所提供的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。
[0182]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0183]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi)的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
[0184]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
[0185]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP )來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種即時(shí)搜索設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0186]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權(quán)利要求】
1.一種即時(shí)搜索方法,包括: 檢測(cè)搜索欄中當(dāng)前輸入的文字信息,對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理,并提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù); 當(dāng)對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字; 在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提不?目息; 當(dāng)接收到用戶對(duì)所述提示信息的觸發(fā) 指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述近似字包括形近字和/或音近字。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述形近字通過(guò)以下方式獲得: 確定輸入搜索引擎中的待校驗(yàn)是否為形近字的第一文字和第二文字; 按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串; 計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離; 當(dāng)所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字; 在搜索引擎中建立第一文字與第二文字之間的形近字映射關(guān)系。
4.如權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述預(yù)設(shè)規(guī)則包括預(yù)設(shè)的編碼規(guī)貝U,所述按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串,以及,所述第二文字的第二編碼字符串的步驟包括: 按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串; 按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串; 其中,所述預(yù)設(shè)的編碼規(guī)則包括五筆編碼規(guī)則。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述形近字還通過(guò)以下方式獲得: 分別查找所述第一編碼字符串對(duì)應(yīng)的第一輸入按鍵; 分別查找所述第二編碼字符串對(duì)應(yīng)的第二輸入按鍵; 分別計(jì)算所述第一輸入按鍵和所述第二輸入按鍵之間的按鍵距離; 依據(jù)所述按鍵距離為所述編碼距離配置對(duì)應(yīng)的權(quán)重; 所述當(dāng)所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字的步驟為: 當(dāng)配置有所述權(quán)重的編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述按鍵距離與所述權(quán)重成反比。
7.—種即時(shí)搜索系統(tǒng),包括: 文字信息檢測(cè)單元,適于檢測(cè)搜索欄中當(dāng)前輸入的文字信息; 糾錯(cuò)處理單元,適于對(duì)當(dāng)前輸入的文字信息進(jìn)行糾錯(cuò)處理; 第一結(jié)果提供單元,適于提供基于當(dāng)前輸入的文字信息反饋的即時(shí)搜索結(jié)果數(shù)據(jù); 近似字計(jì)算單元,適于對(duì)所述文字信息進(jìn)行糾錯(cuò)處理發(fā)現(xiàn)錯(cuò)誤時(shí),計(jì)算與發(fā)現(xiàn)錯(cuò)誤的文字信息中包含的字符數(shù)據(jù)匹配的近似文字; 糾錯(cuò)提示單元,適于在所述即時(shí)搜索結(jié)果數(shù)據(jù)插入針對(duì)所述發(fā)現(xiàn)錯(cuò)誤的文字信息進(jìn)行糾錯(cuò)的推薦近似文字的提示信息; 第二結(jié)果提供單元,適于在接收到用戶對(duì)所述提示信息的觸發(fā)指示時(shí),提供以所述觸發(fā)指示對(duì)應(yīng)的近似文字進(jìn)行搜索的即時(shí)搜索結(jié)果數(shù)據(jù)。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述近似字包括形近字和/或音近字。
9.如權(quán)利要求7或8所述的系統(tǒng),其特征在于,所述形近字通過(guò)調(diào)用以下模塊獲得: 文字確定模塊,適于確定輸入搜索引擎中的待校驗(yàn)的第一文字和第二文字; 編碼獲取模塊,適于按照預(yù)設(shè)規(guī)則獲取所述第一文字的第一編碼字符串以及所述第二文字的第二編碼字符串; 編碼距離計(jì)算模塊,適于計(jì)算所述第一編碼字符串和所述第二編碼字符串之間的編碼距離; 形近字判定模塊,適于在所述編碼距離小于預(yù)設(shè)距離閾值時(shí),判定所述第一文字與所述第二文字互為形近字; 映射關(guān)系確定模塊,適于在搜索引擎中建立第一文字與第二文字之間的形近字映射關(guān)系.
10.如權(quán)利要求7-9任一項(xiàng)所述的系統(tǒng),其特征在于,所述預(yù)設(shè)規(guī)則包括預(yù)設(shè)的編碼規(guī)則 ,所述編碼獲取模塊還適于: 按照預(yù)設(shè)的編碼規(guī)則計(jì)算所述第一文字對(duì)應(yīng)的第一編碼字符串; 按照所述編碼規(guī)則計(jì)算所述第二文字對(duì)應(yīng)的第二編碼字符串; 其中,所述預(yù)設(shè)的編碼規(guī)則包括五筆編碼規(guī)則。
【文檔編號(hào)】G06F17/27GK103927329SQ201410103601
【公開(kāi)日】2014年7月16日 申請(qǐng)日期:2014年3月19日 優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】項(xiàng)碧波 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1