本發(fā)明涉及計(jì)算機(jī)
技術(shù)領(lǐng)域:
,并且更具體地,涉及一種信息檢索的方法、裝置與計(jì)算設(shè)備。
背景技術(shù):
:信息檢索系統(tǒng)用于根據(jù)用戶的輸入的查詢語句,檢索出用戶所需的相關(guān)內(nèi)容。信息檢索系統(tǒng)的大致檢索流程為:對(duì)用戶輸入的查詢語句做分詞處理,然后進(jìn)行停用詞過濾處理,將停用詞過濾處理后的關(guān)鍵詞與索引文件進(jìn)行關(guān)鍵詞匹配,獲取對(duì)應(yīng)的文檔,然后對(duì)這些文檔打分,輸出得分最高的N個(gè)文檔返回給用戶。模糊搜索的場(chǎng)景指的是,當(dāng)用戶不記得完整查詢?cè)~ABC的時(shí)候,他會(huì)輸入模糊詞AB*,然后希望能夠查出包含ABC的文檔。為了支持模糊搜索的場(chǎng)景,現(xiàn)有的信息檢索方案一般是通過模糊詞(例如AB*)遍歷索引文件中的關(guān)鍵詞,以找到模糊詞所匹配的關(guān)鍵詞,然后根據(jù)匹配的關(guān)鍵詞以及索引文件獲取對(duì)應(yīng)的文檔。由于,需要通過模糊詞遍歷索引文件的關(guān)鍵詞,導(dǎo)致信息檢索的耗時(shí)較大,檢索效率較低。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出一種信息檢索的方法、裝置與計(jì)算設(shè)備,能夠有效提高模糊搜索場(chǎng)景中信息檢索的效率。第一方面,提供了一種信息檢索的方法,所述方法包括:接收查詢語句,所述查詢語句包括模糊關(guān)鍵詞,所述模糊關(guān)鍵詞為包含匹配符的詞;根據(jù)所述模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,所述第一部分關(guān)鍵詞為所述模糊關(guān)鍵詞中除所述匹配符之外的部分;根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,所述第一完整關(guān)鍵詞包含所述第一部分關(guān)鍵詞,所述第一索引包括鍵值部分與屬性值部分,其中,所述鍵值部分存儲(chǔ)的信息與所述屬性值部分存儲(chǔ)的信息具有對(duì)應(yīng)關(guān)系,所述鍵值部分存儲(chǔ)有所述第一部分關(guān)鍵詞,所述屬性值部分存儲(chǔ)有所述第一完整關(guān)鍵詞;根據(jù)第二索引與所述第一完整關(guān)鍵詞,獲取第一文檔,所述第一文檔為所述第一完整關(guān)鍵詞所在的文檔,所述第二索引包括所述第一完整關(guān)鍵詞與所述第一文檔之間的對(duì)應(yīng)關(guān)系。在本方案中,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,通過第一索引能快速地找到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,相比于現(xiàn)有技術(shù),本發(fā)明能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率。應(yīng)理解,第一索引的鍵值部分存儲(chǔ)的部分關(guān)鍵詞1對(duì)應(yīng)于屬性值部分存儲(chǔ)的完整關(guān)鍵詞1,第一索引的鍵值部分存儲(chǔ)的部分關(guān)鍵詞2對(duì)應(yīng)于屬性值部分存儲(chǔ)的完整關(guān)鍵詞2。還應(yīng)理解,第一索引中的每個(gè)部分關(guān)鍵詞可以對(duì)應(yīng)一個(gè)或多個(gè)完整關(guān)鍵詞。為了便于描述與理解,本文均以一個(gè)完整關(guān)鍵詞為例進(jìn)行描述,但并不對(duì)本發(fā)明的保護(hù)范圍造成限定。結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述方法還包括:根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;對(duì)所述完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進(jìn)行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于所述第二完整關(guān)鍵詞的字符長度的正整數(shù);確定第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中包含所述第二部分關(guān)鍵詞的詞;根據(jù)所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的鍵值部分包括所述第二部分關(guān)鍵詞,所述第一索引的屬性值部分包括所述第三完整關(guān)鍵詞。在本方案中,通過建立包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系的第一索引,從而使得在信息檢索時(shí),根據(jù)第一索引快速地獲取部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,從而能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率。結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,所述確定第三完整關(guān)鍵詞,包括:基于匹配類型,確定所述第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞基于所述匹配類型與所述第二部分關(guān)鍵詞相匹配,所述匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;其中,所述生成所述第一索引包括:根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的屬性值部分還包括所述匹配類型;所述根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,包括:根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一部分關(guān)鍵詞的匹配類型,獲取所述第一完整關(guān)鍵詞,所述第一部分關(guān)鍵詞的匹配類型根據(jù)所述第一部分關(guān)鍵詞與所述匹配符之間的位置關(guān)系確定。結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,所述方法還包括:根據(jù)所述第二部分關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率以及所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);其中,所述生成所述第一索引包括:根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、以及所述第三完整關(guān)鍵詞與所述相關(guān)性參數(shù),生成所述第一索引,所述第一索引的屬性值部分還包括所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);所述方法還包括:根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一完整關(guān)鍵詞,獲取所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù);根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。在本方案中,基于部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù)確定完整關(guān)鍵詞所在文檔的打分,從而能夠提高模糊搜索場(chǎng)景下信息檢索的檢索結(jié)果的相關(guān)性。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù),包括:根據(jù)下面公式計(jì)算所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)。結(jié)合第一方面的第三種或第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式中,所述方法還包括:獲取第一文檔數(shù)目,所述第一文檔數(shù)目為所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;其中,所述生成所述第一索引包括:根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、所述第三完整關(guān)鍵詞、所述相關(guān)性參數(shù)、以及所述第一文檔數(shù)目,生成所述第一索引,所述第一索引的屬性值部分還包括所述第一文檔數(shù)目;所述方法還包括:根據(jù)所述第一索引與所述第一完整關(guān)鍵詞,獲取所述第一完整關(guān)鍵詞對(duì)應(yīng)的第二文檔數(shù)目;所述根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分,包括:根據(jù)所述第二文檔數(shù)目、所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式中,所述生成所述第一索引,包括:根據(jù)下列信息,生成所述第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示所述第二部分關(guān)鍵詞,w表示所述第三完整關(guān)鍵詞,f表示所述第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示所述第三完整關(guān)鍵詞w在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示所述第一索引的鍵值部分,=右邊的部分表示所述第一索引的屬性值部分。結(jié)合第一方面的第一種至第六種可能的實(shí)現(xiàn)方式中任一種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式中,所述第二完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞,n為小于或等于L的正整數(shù)。本方案中,僅對(duì)字符長度超過L的完整關(guān)鍵詞作n元組切分,能夠有效控制第一索引中部分關(guān)鍵詞的數(shù)量,從而避免不必要的存儲(chǔ)開銷。結(jié)合第一方面的第一種至第七種可能的實(shí)現(xiàn)方式中任一種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式中,所述根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合,包括:根據(jù)所述語料數(shù)據(jù)集與預(yù)期想覆蓋的完整關(guān)鍵詞的總體覆蓋率,獲取所述完整關(guān)鍵詞集合,所述完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于所述語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。本方案中,根據(jù)模糊搜索預(yù)期想覆蓋的完整關(guān)鍵詞的總體覆蓋率,確定要進(jìn)行n元組切分的完整關(guān)鍵詞集合,能夠有效控制第一索引中部分關(guān)鍵詞的數(shù)量,從而避免不必要的存儲(chǔ)開銷。第二方面,提供一種信息檢索的裝置,所述裝置包括輸入模塊與處理模塊,所述輸入模塊,用于接收查詢語句,所述查詢語句包括模糊關(guān)鍵詞,所述模糊關(guān)鍵詞為包括匹配符的詞;處理模塊,用于根據(jù)所述模糊關(guān)鍵詞確定第一部分關(guān)鍵詞,所述第一部分關(guān)鍵詞為所述模糊關(guān)鍵詞中除所述匹配符之外的部分;所述處理模塊還用于,根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,所述第一完整關(guān)鍵詞包括所述第一部分關(guān)鍵詞,所述第一索引包括鍵值部分與屬性值部分,其中,所述鍵值部分存儲(chǔ)的信息與所述屬性值部分存儲(chǔ)的信息具有對(duì)應(yīng)關(guān)系,所述鍵值部分存儲(chǔ)有所述第一部分關(guān)鍵詞,所述屬性值部分存儲(chǔ)有所述第一完整關(guān)鍵詞;所述處理模塊還用于,根據(jù)第二索引與所述第一完整關(guān)鍵詞,獲取第一文檔,所述第一文檔為所述第一完整關(guān)鍵詞所在的文檔,所述第二索引包括所述第一完整關(guān)鍵詞與所述第一文檔之間的對(duì)應(yīng)關(guān)系。所述裝置用于實(shí)現(xiàn)第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法。第三方面,提供一種計(jì)算設(shè)備,所述計(jì)算設(shè)備包括處理器與存儲(chǔ)器。所述計(jì)算設(shè)備運(yùn)行時(shí)能夠?qū)崿F(xiàn)第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法。用于實(shí)現(xiàn)第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法的程序代碼可以保存在存儲(chǔ)器中,并由處理器來執(zhí)行。第四方面,提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)的程序代碼被執(zhí)行時(shí)能夠?qū)崿F(xiàn)第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法。所述程序代碼由實(shí)現(xiàn)第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法的計(jì)算機(jī)指令構(gòu)成。第五方面,提供一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品可以為一個(gè)軟件安裝包,所述軟件安裝包被計(jì)算機(jī)運(yùn)行時(shí),執(zhí)行第一方面或第一方面的任一種可能實(shí)現(xiàn)方式中的信息檢索的方法。附圖說明為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的信息檢索系統(tǒng)的示意圖。圖2為本發(fā)明實(shí)施例提供的信息檢索系統(tǒng)的另一示意圖。圖3為本發(fā)明實(shí)施例提供的檢索設(shè)備的示意圖。圖4為本發(fā)明實(shí)施例提供的信息檢索的方法的示意性流程圖。圖5為本發(fā)明實(shí)施例提供的信息檢索的方法的另一示意性流程圖。圖6為本發(fā)明實(shí)施例提供的信息檢索的方法的再一示意性流程圖。圖7為本發(fā)明實(shí)施例的信息檢索的裝置的示意性框圖。圖8為本發(fā)明實(shí)施例的計(jì)算設(shè)備的示意性框圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例的應(yīng)用場(chǎng)景為模糊搜索的場(chǎng)景。在模糊搜索時(shí),用戶輸入的查詢語句中包括模糊關(guān)鍵詞,例如AB*。為了便于理解與描述本發(fā)明實(shí)施例,首先描述一下本發(fā)明實(shí)施例涉及的幾個(gè)術(shù)語。1)模糊關(guān)鍵詞模糊關(guān)鍵詞指的是查詢語句中包括匹配符的詞。匹配符指的是沒有實(shí)際語義含義的字符,例如星號(hào)(*)或問號(hào)(?),匹配符用于模糊搜索。匹配符也稱為通配符。例如,查詢語句為AB,CD*,則CD*為模糊關(guān)鍵詞。2)部分關(guān)鍵詞部分關(guān)鍵詞指的是模糊關(guān)鍵詞中除匹配符之外的部分。例如,在上面例子中,CD為部分關(guān)鍵詞。3)完整關(guān)鍵詞完整關(guān)鍵詞是相對(duì)部分關(guān)鍵詞而言的,指的是包含部分關(guān)鍵詞、且語義完整的詞。例如,部分關(guān)鍵詞“葡”對(duì)應(yīng)的完整關(guān)鍵詞為“葡萄”,部分關(guān)鍵詞“葡萄”對(duì)應(yīng)的完整關(guān)鍵詞為“葡萄”,“葡萄架”或“葡萄皮”。需要說明的是,部分關(guān)鍵詞與完整關(guān)鍵詞之間存在匹配類型,具體包括前詞匹配、后詞匹配或前后詞匹配。其中,前詞匹配指的是完整關(guān)鍵詞與部分關(guān)鍵詞的收尾字符完全一致,起始字符可以不一致;后詞匹配指的是完整關(guān)鍵詞與部分關(guān)鍵詞的起始字符完全一致,收尾字符可以不一致;前后詞匹配包括以下三種情況:1)完整關(guān)鍵詞與部分關(guān)鍵詞的收尾字符完全一致,起始字符可以不一致;2)完整關(guān)鍵詞與部分關(guān)鍵詞的起始字符完全一致,收尾字符可以不一致;3)完整關(guān)鍵詞與部分關(guān)鍵詞存在完全一致的中間字符,完整關(guān)鍵詞與部分關(guān)鍵詞的起始字符不同,且收尾字符也不同。即同一個(gè)部分關(guān)鍵詞針對(duì)不同的匹配類型對(duì)應(yīng)不同的完整關(guān)鍵詞。具體地,例如,有如下幾個(gè)完整語義的詞:ABC,BCD,ABCDE。對(duì)于部分關(guān)鍵詞BC,當(dāng)其匹配類型為前詞匹配(即對(duì)應(yīng)的模糊關(guān)鍵詞為*BC)時(shí),對(duì)應(yīng)的完整關(guān)鍵詞為ABC;當(dāng)其匹配類型為后詞匹配(即對(duì)應(yīng)的模糊關(guān)鍵詞為BC*)時(shí),對(duì)應(yīng)的完整關(guān)鍵詞為BCD;當(dāng)其匹配類型為前后詞匹配(即對(duì)應(yīng)的模糊關(guān)鍵詞為*BC*)時(shí),對(duì)應(yīng)的完整關(guān)鍵詞包括ABCD、ABC與BCD。圖1為本發(fā)明實(shí)施例所應(yīng)用的信息檢索系統(tǒng)100的架構(gòu)示意圖。信息檢索系統(tǒng)100包括檢索設(shè)備110與存儲(chǔ)設(shè)備120。其中存儲(chǔ)設(shè)備120中存儲(chǔ)了信息檢索系統(tǒng)100進(jìn)行檢索時(shí)需要的數(shù)據(jù),具體地,如圖1中所示的索引文件、文件庫、歷史查詢語句、歷史查詢?nèi)罩九c詞特征庫等數(shù)據(jù)。存儲(chǔ)設(shè)備120可以通過通信網(wǎng)絡(luò)130與檢索設(shè)備110建立通信;存儲(chǔ)設(shè)備120也可以直接設(shè)置在檢索設(shè)備110中。檢索設(shè)備110中包括輸入輸出單元和處理單元,用戶通過輸入輸入單元111向檢索設(shè)備110發(fā)送一個(gè)查詢語句后,檢索設(shè)備110通過處理單元基于該查詢語句進(jìn)行信息檢索,通過輸入輸入單元111向用戶返回檢索結(jié)果。信息檢索系統(tǒng)的檢索結(jié)果一般通過一系列的文件展現(xiàn)給用戶。如果用戶通過通信網(wǎng)絡(luò)130向檢索設(shè)備110發(fā)送查詢語句,則輸入輸出單元可以為網(wǎng)絡(luò)接口。如果用戶在檢索設(shè)備110本地向檢索設(shè)備110發(fā)送查詢語句,則輸入輸出單元還可以為檢索設(shè)備110的輸入/輸出(Input/Ouput,I/O)接口。圖2為信息檢索系統(tǒng)100的另一架構(gòu)示意圖。信息檢索系統(tǒng)100包括一個(gè)或多個(gè)檢索設(shè)備110,還包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備120。各個(gè)檢索設(shè)備110和各個(gè)存儲(chǔ)設(shè)備120之間通過通信網(wǎng)絡(luò)130實(shí)現(xiàn)通信。信息檢索系統(tǒng)100的文件庫、索引文件庫、歷史查詢語句、歷史查詢?nèi)罩?、詞特征庫等數(shù)據(jù)可以分布式部署于各個(gè)存儲(chǔ)設(shè)備120中。一個(gè)或多個(gè)檢索設(shè)備110可以組成分布式計(jì)算系統(tǒng)對(duì)查詢語句進(jìn)行處理。該信息檢索系統(tǒng)100在待處理的查詢語句的數(shù)量較大,即信息檢索系統(tǒng)100的負(fù)載較高時(shí),能夠?qū)⒋幚砣蝿?wù)分配至不同檢索設(shè)備110上執(zhí)行,以提升信息檢索系統(tǒng)100的并行處理能力。圖3為本發(fā)明一個(gè)實(shí)施例提供的檢索設(shè)備110的結(jié)構(gòu)示意圖,檢索設(shè)備110包括:輸入輸入單元111,用于接收用戶輸入的查詢語句,并將查詢語句發(fā)送給查詢語句處理單元112,還用于向用戶輸出返回結(jié)果處理單元115的查詢結(jié)果。查詢語句處理單元112,用于解析查詢語句,獲得查詢語句中的關(guān)鍵詞,并向模糊搜索處理單元113發(fā)送關(guān)鍵詞。具體地,查詢語句處理單元112對(duì)查詢語句的處理包括:分詞處理、停用詞過濾處理或變換處理等處理。具體地,變換處理包括同義詞變換、時(shí)態(tài)變換(主要用于英文,例如把sitting變換為sit)等變換處理。模糊搜索處理單元113,用于從查詢語句處理單元112發(fā)送的關(guān)鍵詞中識(shí)別模糊關(guān)鍵詞,并將模糊關(guān)鍵詞中的部分關(guān)鍵詞發(fā)送給第一索引單元114,并將查詢語句處理單元112發(fā)送的關(guān)鍵詞中的完整關(guān)鍵詞發(fā)送給第二索引單元115。具體地,查詢語句處理單元112發(fā)送的關(guān)鍵詞為CD,AB*,模糊搜索處理單元113將模糊關(guān)鍵詞AB*中的部分關(guān)鍵詞AB發(fā)送給第一索引單元114,將完整關(guān)鍵詞CD發(fā)送給第二索引單元115。第一索引單元114,包括第一索引,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞的對(duì)應(yīng)關(guān)系。第一索引單元114用于基于第一索引確定模糊搜索處理單元113發(fā)送的部分關(guān)鍵詞所在的完整關(guān)鍵詞,并向模糊搜索處理單元113返回該完整關(guān)鍵詞。具體地,第一索引的鍵值(Key)部分包括部分關(guān)鍵字,第一索引的屬性值(Value)部分包括完整關(guān)鍵詞。模糊搜索處理單元113,還用于向第二索引單元114發(fā)送完整關(guān)鍵詞。第二索引單元115,包括第二索引,所述第二索引包括完整關(guān)鍵詞與完整關(guān)鍵詞所在文檔之間的對(duì)應(yīng)關(guān)系。第二索引單元115用于,基于第二索引確定模糊搜索處理單元113發(fā)送的完整關(guān)鍵詞所在的文檔,并向返回結(jié)果處理單元116發(fā)送用于指示該文檔的信息。具體地,第二索引單元115用于查找完整關(guān)鍵詞所匹配的文檔,并計(jì)算文檔與查詢語句的相關(guān)性分?jǐn)?shù),對(duì)文檔打分,將打分topN的文檔返回給返回結(jié)果處理模塊116。應(yīng)理解,檢索設(shè)備110可以包括一個(gè)或多個(gè)第二索引單元115。返回結(jié)果處理單元116,用于對(duì)第二索引單元115發(fā)送的信息作處理,包括整理、排版、等。在第二索引單元115有多個(gè)的情況下,返回結(jié)果處理單元116在接收到所有第二索引單元115返回的文檔后,進(jìn)行全局排序。得到全局排好的文檔后,根據(jù)最后展現(xiàn)的需要,會(huì)再去取文檔相關(guān)的信息拼裝成最后要展示的信息全集;同時(shí)也會(huì)根據(jù)最終展現(xiàn)的要求進(jìn)行微調(diào),比如同一個(gè)來源的文檔數(shù)不能超過三個(gè)等。最后將排好序的文檔結(jié)果通過輸入輸出單元111返回給用戶。圖4為本發(fā)明實(shí)施例提供的信息檢索的方法200的示意性流程圖,該方法200例如可以由圖1或圖2或圖3所示的檢索設(shè)備110執(zhí)行,該方法200包括:210,接收查詢語句,查詢語句包括模糊關(guān)鍵詞,模糊關(guān)鍵詞為包含匹配符的詞。具體地,用戶的查詢語句通過用戶界面(UserInterface,UI)輸入到搜索引擎后臺(tái),首先進(jìn)行分詞處理,例如,利用分詞器對(duì)查詢語句進(jìn)行分詞,會(huì)生成一個(gè)包括詞和詞頻的列表。對(duì)分詞處理的結(jié)果進(jìn)行停用詞過濾,停用詞又稱為停詞,指代語句中對(duì)語句表述不構(gòu)成直接影響的或影響微小的詞匯,例如用戶輸入的查詢語句內(nèi)對(duì)搜索出相關(guān)文件無幫助的詞匯。對(duì)查詢語句進(jìn)行分詞處理與停用詞過濾處理后,獲取到查詢語句中的關(guān)鍵詞,然后從中確定模糊關(guān)鍵詞。例如,獲取到的查詢語句中的關(guān)鍵詞為AB,CD,*EF,則模糊關(guān)鍵詞為*EF。220,根據(jù)模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,第一部分關(guān)鍵詞為模糊關(guān)鍵詞中除匹配符之外的部分。230,根據(jù)第一索引與第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,第一完整關(guān)鍵詞包含第一部分關(guān)鍵詞,第一索引包括鍵值部分與屬性值部分,其中,鍵值部分存儲(chǔ)的信息與屬性值部分存儲(chǔ)的信息具有對(duì)應(yīng)關(guān)系,鍵值部分存儲(chǔ)有第一部分關(guān)鍵詞,屬性值部分存儲(chǔ)有第一完整關(guān)鍵詞。應(yīng)理解,根據(jù)第一索引與第一部分關(guān)鍵詞,可以得到一個(gè)或多個(gè)包含第一部分關(guān)鍵詞的完整關(guān)鍵詞,為了便于理解與描述,本發(fā)明實(shí)施例以第一完整關(guān)鍵詞為例進(jìn)行描述,換句話說,第一完整關(guān)鍵詞表示根據(jù)第一索引與第一部分關(guān)鍵詞得到的多個(gè)包含第一部分關(guān)鍵詞的完整關(guān)鍵詞中的任意一個(gè)。第一索引是針對(duì)部分關(guān)鍵詞建立的索引。基于第一索引,可以快速獲取到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞。具體地,第一索引的具體形式如表1所示:表1鍵值(Key)屬性值(Value)部分關(guān)鍵詞1完整關(guān)鍵詞1a,1b,…部分關(guān)鍵詞2完整關(guān)鍵詞2a,2b,…從表1可知,第一索引包括鍵值部分與屬性值部分,鍵值部分存儲(chǔ)部分關(guān)鍵詞,屬性值部分存儲(chǔ)完整關(guān)鍵詞。從表1的第二行開始,每行的部分關(guān)鍵詞與本行的完整關(guān)鍵詞具有對(duì)應(yīng)關(guān)系。例如,部分關(guān)鍵詞1對(duì)應(yīng)完整關(guān)鍵詞1a,1b,…;部分關(guān)鍵詞2對(duì)應(yīng)完整關(guān)鍵詞2a,2b,…。應(yīng)理解,一個(gè)部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞可以包括一個(gè)或多個(gè),表1中不便于枚舉,僅示意性地給出兩個(gè)完整關(guān)鍵詞,但并不限定本發(fā)明的保護(hù)范圍。還應(yīng)理解,表1僅作為示例而非限定,第一索引的具體形式除了可以采用表之外,還可以采用其他形式,例如數(shù)據(jù)庫、文件,xml,json或者自己定義的數(shù)據(jù)結(jié)構(gòu)等,本發(fā)明實(shí)施例對(duì)此不作限定。240,根據(jù)第二索引與第一完整關(guān)鍵詞,獲取第一文檔,第一文檔為第一完整關(guān)鍵詞所在的文檔,第二索引包括第一完整關(guān)鍵詞與第一文檔之間的對(duì)應(yīng)關(guān)系。具體地,第二索引也包括鍵值部分與屬性值部分,且第二索引的鍵值部分存儲(chǔ)有完整關(guān)鍵詞,第二索引的屬性值部分存儲(chǔ)有用于指示完整關(guān)鍵詞所在文檔的信息。第二索引可對(duì)應(yīng)于現(xiàn)有的信息檢索方案中的索引文件,具體內(nèi)容為現(xiàn)有技術(shù),本文不再贅述。在本發(fā)明實(shí)施例中,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,通過第一索引能較為快速地找到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,因此,本發(fā)明實(shí)施例能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率。應(yīng)理解,本發(fā)明實(shí)施例在230中利用第一索引獲取第一完整關(guān)鍵詞之前,已經(jīng)生成了第一索引。具體地,可以是系統(tǒng)預(yù)先生成。還應(yīng)理解,第一索引可以定期更新或修改,本發(fā)明實(shí)施例對(duì)此不作限定??蛇x地,如圖5所示,作為一個(gè)實(shí)施例,在圖4所示實(shí)施例中,方法200還包括:250,根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合。具體地,語料數(shù)據(jù)集包括文檔數(shù)據(jù)集與查詢語句集,其中,文檔數(shù)據(jù)集包括用于用戶搜索的文檔,查詢語句集包括歷史時(shí)間內(nèi)用戶搜索過的查詢語句。分別對(duì)文檔數(shù)據(jù)集與查詢語句集作分詞處理與停用詞過濾處理,得到對(duì)應(yīng)的詞與詞頻列表,然后基于這兩個(gè)列表,得到該完整關(guān)鍵詞集合。260,對(duì)完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進(jìn)行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于第二完整關(guān)鍵詞的字符長度的正整數(shù)。例如,對(duì)完整關(guān)鍵詞ABCD作2元組切分,得到部分關(guān)鍵詞AB、BC與CD。再例如,對(duì)完整關(guān)鍵詞ABCD作3元組切分,得到部分關(guān)鍵詞ABC與BCD。應(yīng)理解,本實(shí)施例中的第二完整關(guān)鍵詞指示完整關(guān)鍵詞集合中的每個(gè)完整關(guān)鍵詞。270,確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞為完整關(guān)鍵詞集合中包含第二部分關(guān)鍵詞的詞。例如,完整關(guān)鍵詞集合包括以下完整關(guān)鍵詞ABCD、ABD、ABE與BCD。對(duì)ABCD進(jìn)行2元組切分得到部分關(guān)鍵詞AB,則部分關(guān)鍵詞AB對(duì)應(yīng)的第三完整關(guān)鍵詞包括:ABCD、ABD與ABE。280,根據(jù)第二部分關(guān)鍵詞與第三完整關(guān)鍵詞,生成第一索引,第一索引的鍵值部分包括第二部分關(guān)鍵詞,第一索引的屬性值部分包括第三完整關(guān)鍵詞。具體地,第一索引如表1所示。上文已經(jīng)提及,部分關(guān)鍵詞與完整關(guān)鍵詞之間存在匹配類型,同一個(gè)部分關(guān)鍵詞針對(duì)不同的匹配類型對(duì)應(yīng)不同的完整關(guān)鍵詞。為了更細(xì)粒度地匹配部分關(guān)鍵詞與完整關(guān)鍵詞,本發(fā)明實(shí)施例還提出在第一索引的屬性值部分存儲(chǔ)部分關(guān)鍵詞的匹配類型,從而實(shí)現(xiàn)第一索引包括部分關(guān)鍵詞、匹配類型以及完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系??蛇x地,作為一個(gè)實(shí)施例,270確定第三完整關(guān)鍵詞,包括:基于匹配類型,確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞基于匹配類型與第二部分關(guān)鍵詞相匹配,匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種。其中,280生成第一索引包括:根據(jù)第二部分關(guān)鍵詞、匹配類型與第三完整關(guān)鍵詞,生成第一索引,第一索引的屬性值部分還包括匹配類型。具體地,本發(fā)明實(shí)施例中生成的第一索引如表2所示:表2從表2可知,第一索引包括鍵值部分與屬性值部分,鍵值部分存儲(chǔ)部分關(guān)鍵詞,屬性值部分存儲(chǔ)匹配類型與完整關(guān)鍵詞,即第一索引指示了部分關(guān)鍵詞、匹配類型與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系。例如,部分關(guān)鍵詞1、前詞匹配、完整關(guān)鍵詞11a,11b,…之間具有對(duì)應(yīng)關(guān)系;部分關(guān)鍵詞2、后詞匹配與完整關(guān)鍵詞22a,22b,…之間具有對(duì)應(yīng)關(guān)系;部分關(guān)鍵詞2、前后詞匹配與完整關(guān)鍵詞23a,23b,…之間具有對(duì)應(yīng)關(guān)系。應(yīng)理解,一個(gè)部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞可以包括一個(gè)或多個(gè),表2中不便于枚舉,僅示意性地給出兩個(gè)完整關(guān)鍵詞,但并不限定本發(fā)明的保護(hù)范圍。還應(yīng)理解,表2僅作為示例而非限定,第一索引的具體形式除了可以采用表之外,還可以采用其他形式,例如數(shù)據(jù)庫、文件,xml,json或者自己定義的數(shù)據(jù)結(jié)構(gòu)等,本發(fā)明實(shí)施例對(duì)此不作限定。在本發(fā)明實(shí)施例中,在獲知部分關(guān)鍵詞以及部分關(guān)鍵詞的匹配類型的情況下,可以根據(jù)第一索引獲取對(duì)應(yīng)的完整關(guān)鍵詞。其中,230根據(jù)第一索引與第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,包括:根據(jù)第一索引、第一部分關(guān)鍵詞以及第一部分關(guān)鍵詞的匹配類型,獲取第一完整關(guān)鍵詞,第一部分關(guān)鍵詞的匹配類型根據(jù)第一部分關(guān)鍵詞與匹配符之間的位置關(guān)系確定。例如,第一部分關(guān)鍵詞為模糊關(guān)鍵詞AB*中的AB,則第一部分關(guān)鍵詞的匹配類型為后詞匹配。再例如,第一部分關(guān)鍵詞為模糊關(guān)鍵詞*CD中的CD,則第一部分關(guān)鍵詞的匹配類型為前詞匹配。再例如,第一部分關(guān)鍵詞為模糊關(guān)鍵詞*BC*中的BC,則第一部分關(guān)鍵詞的匹配類型為前后詞匹配??蛇x地,作為一個(gè)實(shí)施例,在圖5所示的實(shí)施例中,方法200還包括:根據(jù)第二部分關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率以及第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù)??蛇x地,作為一個(gè)實(shí)施例,根據(jù)下面公式計(jì)算第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):r(wp,w)=α*f(wp,w)*sN(wp,w)+β*q(wp,w)(1)其中,f(wp,w)表示wp與w的條件概率,sN(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù),可以預(yù)配置。其中,280生成第一索引包括:根據(jù)第二部分關(guān)鍵詞、匹配類型、以及第三完整關(guān)鍵詞與相關(guān)性參數(shù),生成第一索引,第一索引的屬性值部分還包括第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù)。具體地,本發(fā)明實(shí)施例生成的第一索引如表3所示:表3從表3可知,第一索引包括鍵值部分與屬性值部分,鍵值部分存儲(chǔ)部分關(guān)鍵詞,屬性值部分存儲(chǔ)匹配類型、完整關(guān)鍵詞與相關(guān)性參數(shù),即第一索引指示了部分關(guān)鍵詞、匹配類型、完整關(guān)鍵詞以及相關(guān)性參數(shù)之間的對(duì)應(yīng)關(guān)系。例如,部分關(guān)鍵詞1、前詞匹配、完整關(guān)鍵詞11a之間具有對(duì)應(yīng)關(guān)系,且部分關(guān)鍵詞1與完整關(guān)鍵詞11a的相關(guān)性參數(shù)為r1;部分關(guān)鍵詞2、前后詞匹配與完整關(guān)鍵詞23a之間具有對(duì)應(yīng)關(guān)系,且部分關(guān)鍵詞2與完整關(guān)鍵詞23a的相關(guān)性參數(shù)為r11。應(yīng)理解,一個(gè)部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞可以包括一個(gè)或多個(gè),表3中不便于枚舉,僅示意性地給出兩個(gè)完整關(guān)鍵詞,但并不限定本發(fā)明的保護(hù)范圍。還應(yīng)理解,表3僅作為示例而非限定,第一索引的具體形式除了可以采用表之外,還可以采用其他形式,例如數(shù)據(jù)庫、文件,xml,json或者自己定義的數(shù)據(jù)結(jié)構(gòu)等,本發(fā)明實(shí)施例對(duì)此不作限定。應(yīng)理解,在圖4所示實(shí)施例中,在獲取到完整關(guān)鍵詞所在的第一文檔后,需要計(jì)算第一文檔的打分,依次決定向用戶呈現(xiàn)第一文檔的順序。在現(xiàn)有技術(shù)中,通?;诘谝晃臋n與查詢語句的相關(guān)性參數(shù),計(jì)算第一文檔的打分。本發(fā)明實(shí)施例提出,在計(jì)算第一文檔的打分時(shí),還考慮部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù),相對(duì)于現(xiàn)有技術(shù)能夠提高模糊搜索的相關(guān)性??蛇x地,作為一個(gè)實(shí)施例,在圖4或圖5所示實(shí)施例中,方法200還包括:根據(jù)第一索引、第一部分關(guān)鍵詞以及第一完整關(guān)鍵詞,獲取第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù);根據(jù)第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。在本發(fā)明實(shí)施例中,在確定完整關(guān)鍵詞所在文檔的打分時(shí),考慮了部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù),從而能夠提高模糊搜索場(chǎng)景下信息檢索的檢索結(jié)果的相關(guān)性??蛇x地,作為一個(gè)實(shí)施例,在圖5所示實(shí)施例中,方法200還包括:獲取第一文檔數(shù)目,第一文檔數(shù)目為第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;其中,280,生成第一索引包括:根據(jù)第二部分關(guān)鍵詞、匹配類型、第三完整關(guān)鍵詞、相關(guān)性參數(shù)以及第一文檔數(shù)目,生成第一索引,第一索引的屬性值部分還包括第一文檔數(shù)目。具體地,本實(shí)施例中的第一索引的具體表現(xiàn)形式如表4所示:表4從表4可知,第一索引包括鍵值部分與屬性值部分,鍵值部分存儲(chǔ)部分關(guān)鍵詞,屬性值部分存儲(chǔ)匹配類型、完整關(guān)鍵詞、相關(guān)性參數(shù)與文檔數(shù)目,即第一索引指示了部分關(guān)鍵詞、匹配類型、完整關(guān)鍵詞、相關(guān)性參數(shù)與文檔數(shù)目之間的對(duì)應(yīng)關(guān)系。例如,部分關(guān)鍵詞1、前詞匹配、完整關(guān)鍵詞11a具有對(duì)應(yīng)關(guān)系,且部分關(guān)鍵詞1與完整關(guān)鍵詞11a的相關(guān)性參數(shù)為r1,完整關(guān)鍵詞11a所匹配的文檔數(shù)目為文檔數(shù)目1;部分關(guān)鍵詞2、前后詞匹配與完整關(guān)鍵詞23a具有對(duì)應(yīng)關(guān)系,且部分關(guān)鍵詞2與完整關(guān)鍵詞23a的相關(guān)性參數(shù)為r11,完整關(guān)鍵詞23a所匹配的文檔數(shù)目為文檔數(shù)目11。應(yīng)理解,一個(gè)部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞可以包括一個(gè)或多個(gè),表4中不便于枚舉,僅示意性地給出兩個(gè)完整關(guān)鍵詞,但并不限定本發(fā)明的保護(hù)范圍。還應(yīng)理解,表4僅作為示例而非限定,第一索引的具體形式除了可以采用表之外,還可以采用其他形式,例如數(shù)據(jù)庫、文件,xml,json或者自己定義的數(shù)據(jù)結(jié)構(gòu)等,本發(fā)明實(shí)施例對(duì)此不作限定??蛇x地,作為一個(gè)實(shí)施例,在圖4或圖5所示實(shí)施例中,方法200還包括:根據(jù)第一索引與第一完整關(guān)鍵詞,獲取第一完整關(guān)鍵詞對(duì)應(yīng)的第二文檔數(shù)目;其中,根據(jù)第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分,包括:根據(jù)第二文檔數(shù)目、第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。在本發(fā)明實(shí)施例中,在確定完整關(guān)鍵詞所在文檔的打分時(shí),考慮了部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù),還考慮了完整關(guān)鍵詞所匹配的文檔數(shù)目,從而能夠提高模糊搜索場(chǎng)景下信息檢索的檢索結(jié)果的相關(guān)性。在本發(fā)明實(shí)施例中,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,通過第一索引能較為快速地找到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,因此,本發(fā)明實(shí)施例能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率。應(yīng)理解,圖4或圖5所示實(shí)施例可以由圖3所示檢索設(shè)備110執(zhí)行。具體地,圖4所示實(shí)施例中的步驟210由輸入輸出單元111與查詢語句處理單元113執(zhí)行,步驟220由查詢語句處理單元113與模糊搜索處理單元113執(zhí)行,步驟230由模糊搜索處理單元113與第一索引單元114執(zhí)行,步驟240由模糊搜索處理單元113與第二索引單元115執(zhí)行,步驟250-280由第一索引單元114執(zhí)行??蛇x地,作為一個(gè)實(shí)施例,糊搜索處理單元113在執(zhí)行步驟220時(shí),還包括:在接收到查詢語句處理單元113下發(fā)的關(guān)鍵詞后,根據(jù)里邊是否包括模糊關(guān)鍵詞來區(qū)分處理。具體地,如果查詢語句處理單元113下發(fā)的關(guān)鍵詞中包括模糊關(guān)鍵詞,例如,包含前詞模糊匹配(如*AB),后詞模糊匹配(如AB*)或者前后詞匹配(如*AB*),則糊搜索處理單元113根據(jù)匹配符*的位置來判斷模糊關(guān)鍵詞是前詞/后詞/前后詞中的哪種類型的模糊匹配。例如,模糊關(guān)鍵詞為*AB,則確定部分關(guān)鍵詞為AB,且匹配類型為前詞匹配。模糊關(guān)鍵詞為AB*,則確定部分關(guān)鍵詞為AB,且匹配類型為后詞匹配。模糊關(guān)鍵詞為*AB*,則確定部分關(guān)鍵詞為AB,且匹配類型為前后詞匹配。不同類型會(huì)決定糊搜索處理單元113向第一索引單元114發(fā)送的具體內(nèi)容。如果查詢語句處理單元113下發(fā)的關(guān)鍵詞中包括完整關(guān)鍵詞,則直接將其發(fā)送至第二索引單元115處理。以查詢語句處理單元113下發(fā)的關(guān)鍵詞為CDAB*為例,糊搜索處理單元113會(huì)把關(guān)鍵詞CD直接下發(fā)到第二索引單元115去處理,模糊關(guān)鍵詞AB*被判定為后詞模糊匹配,則下發(fā)部分關(guān)鍵詞AB到第一索引單元114,并指示為后詞匹配(即只用第一索引中Bf部分內(nèi)容來查詢)。第一索引單元114根據(jù)輸入的部分關(guān)鍵詞(例如AB)和匹配類型(例如后詞匹配),基于第一索引(如表4所示),找到部分關(guān)鍵詞AB對(duì)應(yīng)的完整關(guān)鍵詞、部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù)、以及完整關(guān)鍵詞匹配的文檔數(shù)目,然后將這些信息返回糊搜索處理單元113??蛇x地,作為一個(gè)實(shí)施例,糊搜索處理單元113在執(zhí)行步驟240時(shí),還包括:在收到第一索引單元114發(fā)送的所有完整關(guān)鍵詞(例如ABC),相關(guān)性參數(shù)(例如r(AB,ABC)),匹配文檔數(shù)目(例如n(ABC))后,通過一下規(guī)則過濾出需要重點(diǎn)考慮的完整關(guān)鍵詞及其相關(guān)性系數(shù),并下發(fā)到第二索引單元115中:對(duì)整詞信息按照整詞相關(guān)性排序,按照整詞匹配文檔數(shù)目和前述CoverRatio的計(jì)算公式來計(jì)算TopN個(gè)詞的文檔覆蓋率,然后根據(jù)覆蓋率的閾值決定需要發(fā)哪些整詞和相關(guān)性系數(shù);有時(shí)候一些整詞對(duì)應(yīng)文檔數(shù)目是其他整詞對(duì)應(yīng)的文檔數(shù)的x倍以上(x自己定義,比如50倍),為了保證匹配整詞的多樣性,我們可以給這些整詞匹配的文檔數(shù)做一個(gè)截?cái)啵热鐬槠骄臋n數(shù),然后重新計(jì)算topN個(gè)詞的文檔覆蓋率用于第一條規(guī)則。下面以AB部分詞舉一個(gè)例子,如表5所示:表5因?yàn)?000是10的100倍,是20的50倍,所以取平均文檔數(shù)(1000+10+20)/3=343來代替1000,重新計(jì)算上述表5得到如表6所示的覆蓋率的值用于第一步的規(guī)則輸入。表6當(dāng)原來覆蓋率是取93%的情況,原來就只會(huì)發(fā)ABC到第二索引單元115,經(jīng)過表6所示處理后,則會(huì)發(fā)ABC與ABD到第二索引單元115。可選地,在本發(fā)明實(shí)施例中,第二完整關(guān)鍵詞為完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞,n為小于或等于L的正整數(shù)。具體描述參見下文步驟340的描述??蛇x地,在本發(fā)明實(shí)施例中,250根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合,包括:根據(jù)語料數(shù)據(jù)集與預(yù)期想覆蓋的完整關(guān)鍵詞的總體覆蓋率,獲取完整關(guān)鍵詞集合,完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。具體描述參見下文步驟330的描述。為了更好地理解本發(fā)明實(shí)施例,下面結(jié)合圖6描述生成第一索引的流程,如圖6所示,包括:310,獲取文檔數(shù)據(jù)集與查詢語句集。文檔數(shù)據(jù)集是搜索引擎要入庫的、用于被用戶進(jìn)行搜索的所有文檔的集合。查詢語句集是一段歷史時(shí)間內(nèi),用戶在搜索引擎上使用的查詢語句集合。320,對(duì)文檔數(shù)據(jù)集與查詢語句集進(jìn)行分詞處理。具體地,利用分詞器對(duì)文檔數(shù)據(jù)集中的每篇文檔進(jìn)行分詞,每篇文檔都會(huì)生成一個(gè)詞和詞頻的列表。例如,一篇文檔是“青葡萄,紫葡萄,青葡萄沒紫葡萄紫,吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮”,利用分詞器對(duì)這篇文檔進(jìn)行分詞后產(chǎn)生的詞和詞頻列表如表7所示:表7對(duì)查詢語句集進(jìn)行分詞處理的過程與對(duì)文檔數(shù)據(jù)集進(jìn)行分詞處理的過程類似,這里不再贅述。330,確定完整關(guān)鍵詞集合。步驟330也可稱為重點(diǎn)詞挖掘。由于文檔數(shù)據(jù)集和查詢語句集的差異較大,因此,分別對(duì)這兩個(gè)數(shù)據(jù)集作處理。1)文檔數(shù)據(jù)集的處理。根據(jù)步驟320中分詞處理得到的文檔數(shù)據(jù)集的詞和詞頻列表(下文簡(jiǎn)稱為第一詞頻表),利用TF-IDF方法或者其他可行方法計(jì)算第一詞頻表中每個(gè)詞的重要性指標(biāo),然后根據(jù)該重要性指標(biāo)對(duì)第一詞頻表中的各個(gè)詞進(jìn)行降序排序,為了便于下文描述,將經(jīng)過降序排序的第一詞頻表記為第二詞頻表。其中,TF的意思是詞頻(TermFrequency),IDF的意思是逆向文件頻率(InverseDocumentFrequency)。在一份確定的文檔里,詞頻指的是某一個(gè)給定的詞語在該文檔中出現(xiàn)的次數(shù)。詞頻通常會(huì)被歸一化,以防止它偏向長的文件。逆向文件頻率是一個(gè)詞語普遍重要性的度量。例如某一特定詞語的逆向文件頻率可以由總文檔數(shù)目除以包含該詞語的文檔數(shù)目,再將得到的商取對(duì)數(shù)得到。TF-IDF方法用于過濾掉常見的詞語,保留重要的詞語。TF-IDF方法為現(xiàn)有技術(shù),具體內(nèi)容不再詳述??梢愿鶕?jù)模糊搜索想覆蓋的重點(diǎn)詞的總體覆蓋率(CoverRatio)1,獲取第二詞頻表中排名前N的詞,用于重點(diǎn)詞切分。具體地,利用下面公式確定取第二詞頻表中排名前N的詞用于重點(diǎn)詞切分:CoverRatio1=(x1+x2+…+xN)/(x1+x2+…+xtotalNum1)(2)其中,CoverRatio1表示總體覆蓋率,xi表示第二詞頻表中排在第i位的詞的詞頻,即該第i位的詞在文檔數(shù)據(jù)集中出現(xiàn)的次數(shù),totalNUM1是文檔數(shù)據(jù)集中不同詞的總數(shù)。應(yīng)理解,總體覆蓋率是一個(gè)系統(tǒng)預(yù)配置的百分比值,實(shí)際應(yīng)用中,可以根據(jù)想要覆蓋的重點(diǎn)詞的數(shù)量來確定該總體覆蓋率。為了便于下文描述,將第二詞頻表中排名前N的詞以及對(duì)應(yīng)的詞頻構(gòu)成的表記為重點(diǎn)詞列表1。2)查詢語句集的處理。通過步驟320中分詞處理得到的查詢語句集的詞和詞頻列表(下文簡(jiǎn)稱為第三詞頻表)。根據(jù)第三詞頻表中各個(gè)詞的詞頻對(duì)各個(gè)詞進(jìn)行降序排序,為了便于下文描述,將經(jīng)過降序排序的第三詞頻表記為第四詞頻表??梢愿鶕?jù)模糊搜索想覆蓋的重點(diǎn)詞的總體覆蓋率(CoverRatio)2來決定,取第四詞頻表中排名前M的詞用于重點(diǎn)詞切分。具體地,利用下面公式確定取第四詞頻表中排名前M的詞用于重點(diǎn)詞切分:CoverRatio2=(y1+y2+…+yM)/(y1+y2+…+ytotalNum2)(3)其中,CoverRatio2表示總體覆蓋率,yi表示第四詞頻表中排在第j位的詞的詞頻,即該第i位的詞在查詢語句集中出現(xiàn)的次數(shù);totalNUM2是查詢語句集中不同詞的總數(shù)。為了便于下文描述,將第四詞頻表中排名前M的詞以及對(duì)應(yīng)的詞頻構(gòu)成的表記為重點(diǎn)詞列表2。應(yīng)理解,上述總體覆蓋率(CoverRatio)1與總體覆蓋率(CoverRatio)2可以相同,也可以不同,本發(fā)明實(shí)施例對(duì)此不作限定。合并重點(diǎn)詞列表1與重點(diǎn)詞列表2,得到完整關(guān)鍵詞集合。具體合并方式為:同一個(gè)詞合并為一行,該詞的總體詞頻為該詞在重點(diǎn)詞列表1中的詞頻加上α倍的該詞在重點(diǎn)詞列表2中的詞頻,α為可配置參數(shù),α用于表征文檔數(shù)據(jù)集與查詢語句集的相對(duì)重要性。下文中,將完整關(guān)鍵詞集合中包括的各個(gè)詞記為完整關(guān)鍵詞。具體地,完整關(guān)鍵詞集合如表8所示:表8完整關(guān)鍵詞完整關(guān)鍵詞的詞頻ABCD20ABCE30ABCER50340,對(duì)完整關(guān)鍵詞集合進(jìn)行全切分,獲取部分關(guān)鍵詞。對(duì)完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞做進(jìn)一步的細(xì)分。L通常取3。例如,將完整關(guān)鍵詞看成一個(gè)字符串,取該字符串的所有n元組(這個(gè)時(shí)候可以支持*AB,AB*,*AB*三種場(chǎng)景),也可以取以該字符串的第一個(gè)字符開頭的n元組(這個(gè)時(shí)候僅可以支持AB*場(chǎng)景),也可以取以該字符串的最后一個(gè)字符結(jié)尾的n元組(這個(gè)時(shí)候僅能支持*AB的場(chǎng)景),n為小于L的正整數(shù)。例如,對(duì)完整關(guān)鍵詞ABCD進(jìn)行3元組切分,得到部分關(guān)鍵詞:ABC,BCD。后續(xù)就是要生成以這些部分關(guān)鍵詞為鍵值(Key)的第一索引來支持模糊搜索。為了后面步驟350中計(jì)算部分關(guān)鍵詞與完整關(guān)鍵詞之間相關(guān)性參數(shù)的需要,在本步驟中需要對(duì)完整關(guān)鍵詞作全切分,例如,對(duì)完整關(guān)鍵詞ABCD進(jìn)行全切分之后得到全切分n元組:A,B,C,D,AB,BC,CD,ABC,BCD,ABCD。統(tǒng)計(jì)這些全切分n元組的頻率,統(tǒng)計(jì)的時(shí)候只需要把n元組所在完整關(guān)鍵詞的詞頻相加即可,比如3元組ABC分別位于完整關(guān)鍵詞ABCD(詞頻為20)、完整關(guān)鍵詞ABCE(詞頻為30)、完整關(guān)鍵詞ABCER(詞頻為50),則3元組ABC的詞頻為20+30+50=100。將對(duì)完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞作全切分之后的表稱為全切分信息表,該全切分信息表包括n元組以及詞頻。應(yīng)理解,在本發(fā)明實(shí)施例中,n元組與部分關(guān)鍵詞是等效概念。具體地,完整關(guān)鍵詞集合為表8為例,對(duì)各個(gè)完整關(guān)鍵詞進(jìn)行全切分之后的全切分信息表的一部分如表9所示:表9部分關(guān)鍵詞(n元組)部分關(guān)鍵詞的詞頻AB100BC100CD20350,計(jì)算部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù)。首先,利用上述步驟得到的完整關(guān)鍵詞集合(如表8所示)與全切分信息表(如表9所示),可以計(jì)算出每個(gè)完整關(guān)鍵詞w在完整關(guān)鍵詞集合中的出現(xiàn)概率p(w),以及每個(gè)部分關(guān)鍵詞wp在完整關(guān)鍵詞集合中的出現(xiàn)概率p(wp)。具體地,p(w)等于完整關(guān)鍵詞w的詞頻除以完整關(guān)鍵詞集合(如表8所示)與全切分信息表(如表9所示)中所有詞頻之和;p(wp)等于部分關(guān)鍵詞wp的詞頻除以完整關(guān)鍵詞集合(如表8所示)與全切分信息表(如表9所示)中所有詞頻之和。然后,計(jì)算如下幾個(gè)指標(biāo):1)條件概率f(wp,w)f(wp,w)=p(w)/p(wp)(4)條件概率f(wp,w)表征了完整關(guān)鍵詞w相對(duì)于部分關(guān)鍵詞wp所在的所有完整關(guān)鍵詞的重要性,是一個(gè)看整體重要性的指標(biāo)。2)緊密度s(wp,w)s(wp,w)=p(w)/p(wbp)p(wp)p(wap)(5)其中,p(wbp)和p(wap)分別表示完整關(guān)鍵詞w中部分關(guān)鍵詞wp的前面和后面部分的詞段的出現(xiàn)概率。緊密度s(wp,w)表征了部分關(guān)鍵詞wp在完整關(guān)鍵詞w內(nèi)部的重要性。由于s(wp,w)相對(duì)于wp不是歸一化指標(biāo),需要對(duì)s(wp,w)做如下歸一化操作:其中,wi表示完整關(guān)鍵詞集合中包含部分關(guān)鍵詞wp的完整關(guān)鍵詞,N1為完整關(guān)鍵詞集合中包含部分關(guān)鍵詞wp的完整關(guān)鍵詞的數(shù)目。3)用戶反饋權(quán)重q(wp,w)用戶反饋權(quán)重q(wp,w)用于表征用戶輸入包括部分關(guān)鍵詞wp的模糊查詢條件下,用戶最終要找的是完整關(guān)鍵詞w的概率。具體地,利用搜索日志來計(jì)算q(wp,w)。搜索日志包括用戶的查詢語句、查詢語句解析信息、解析的查詢語句下發(fā)到搜索引擎后端處理的每個(gè)模塊里面的細(xì)節(jié)信息、最后返回的文檔信息、以及用戶點(diǎn)擊搜索結(jié)果的信息等。通常,當(dāng)用戶點(diǎn)擊某個(gè)文檔后沒有再點(diǎn)擊其他任何文檔,認(rèn)為該某個(gè)文檔為用戶想要的文檔;當(dāng)用戶點(diǎn)擊某個(gè)文檔s秒(s一般取30)后再去點(diǎn)擊其他文檔,認(rèn)為該某個(gè)文檔也是用戶想要的文檔。利用上面的兩個(gè)規(guī)則,可以從所有模糊搜索日志中過濾出含有用戶找到想要文檔的日志信息,這樣就可以獲取到模糊查詢語句與文檔的映射信息。例如,當(dāng)模糊查詢語句為AB*時(shí),文檔Doc1與Doc2是用戶想要的。應(yīng)理解,此次模糊查詢中,AB為部分關(guān)鍵詞wp。利用Doc1中以AB開頭的完整關(guān)鍵詞w1在Doc1中的重要性指標(biāo)來定義用戶反饋權(quán)重的值;利用Doc2中以AB開頭的完整關(guān)鍵詞w1在Doc2中的重要性指標(biāo)來定義用戶反饋權(quán)重如果Doc1與Doc2中,還存在以AB為開頭的完整關(guān)鍵詞w2,同理得到與的值。通過上述方法,可以從每個(gè)模糊搜索的日志中挖掘出對(duì)應(yīng)的用戶反饋指標(biāo)。最后綜合所有模糊搜索日志挖掘得到的用戶反饋指標(biāo),可以得到最終的用戶反饋指標(biāo)q(wp,w)。以q(wp,w1)為例,找到所有包含wp的其中,x遍歷所有的包含wp的w的下標(biāo),y1遍歷所有包含w1的文檔下標(biāo),yx遍歷所有包含wx的文檔下標(biāo),cy1表示所有wp模糊查詢中有Docy1為滿意文檔的次數(shù),cyx表示所有wp模糊查詢中有Docyx為滿意文檔的次數(shù)。根據(jù)定義可以看出q(wp,w)是相對(duì)于wp的歸一化指標(biāo)。最后,根據(jù)上述三個(gè)指標(biāo)計(jì)算部分關(guān)鍵詞wp與完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w),具體地可以通過如下兩個(gè)公式中的任意一個(gè)公式計(jì)算r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)(1)r(wp,w)=α·f2(wp,w)·s(wp,w)+β·q(wp,w)(8)上面公式僅作為示例而非限定,例如,f(wp,w)的冪次方還可以是3,其中系數(shù)α與β可配置。360,生成第一索引。以部分關(guān)鍵詞(n元組)為鍵值(Key)建立第一索引,該第一索引的屬性值包括部分關(guān)鍵詞的匹配類型、部分關(guān)鍵詞所在的完整關(guān)鍵詞、部分關(guān)鍵詞與完整關(guān)鍵詞之間的相關(guān)性參數(shù)、以及完整關(guān)鍵詞所在的文檔數(shù)目。具體地,如表4所示。具體地,按照下列信息生成第一索引:wp=f:w,r(wp,w),n(w)(9)其中,wp表示第二部分關(guān)鍵詞,w表示第三完整關(guān)鍵詞,f表示第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示第三完整關(guān)鍵詞w在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示第一索引的鍵值部分,=右邊的部分表示第一索引的屬性值部分。其中,公式(9)的展開式可以為:其中,Bf表示部分關(guān)鍵詞的匹配類型為前詞匹配,表示部分關(guān)鍵詞wp前詞匹配到的完整關(guān)鍵詞,Af表示部分關(guān)鍵詞的匹配類型為后詞匹配,表示部分關(guān)鍵詞wp后詞匹配到的完整關(guān)鍵詞,ABf表示部分關(guān)鍵詞的匹配類型為后詞匹配,表示部分關(guān)鍵詞wp后詞匹配到的完整關(guān)鍵詞。應(yīng)理解,包括與還包括與wp嚴(yán)格前后詞匹配的完整詞,例如,部分關(guān)鍵詞BC的前后詞匹配的完整關(guān)鍵詞包括:ABC、BCD、ABCD。還應(yīng)理解,上述用于表達(dá)第一索引的公式僅為示例而非限定,即只是一種表達(dá)式,具體實(shí)現(xiàn)的時(shí)候可以用xml,json或者自己定義的數(shù)據(jù)結(jié)構(gòu)去實(shí)現(xiàn),本發(fā)明實(shí)施例對(duì)此不作限定。圖7為本發(fā)明實(shí)施例的信息檢索的裝置600的示意性框圖,裝置600包括:輸入模塊610,用于接收查詢語句,查詢語句包括模糊關(guān)鍵詞,模糊關(guān)鍵詞為包含匹配符的詞;處理模塊620,用于根據(jù)模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,第一部分關(guān)鍵詞為模糊關(guān)鍵詞中除匹配符之外的部分;處理模塊620還用于,根據(jù)第一索引與第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,第一完整關(guān)鍵詞包含第一部分關(guān)鍵詞,第一索引包括鍵值部分與屬性值部分,其中,鍵值部分存儲(chǔ)的信息與屬性值部分存儲(chǔ)的信息具有對(duì)應(yīng)關(guān)系,鍵值部分存儲(chǔ)有第一部分關(guān)鍵詞,屬性值部分存儲(chǔ)有第一完整關(guān)鍵詞;處理模塊620還用于,根據(jù)第二索引與第一完整關(guān)鍵詞,獲取第一文檔,第一文檔為第一完整關(guān)鍵詞所在的文檔,第二索引包括第一完整關(guān)鍵詞與第一文檔之間的對(duì)應(yīng)關(guān)系。在本發(fā)明實(shí)施例中,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,通過第一索引能較為快速地找到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,因此,本發(fā)明實(shí)施例能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率??蛇x地,作為一個(gè)實(shí)施例,處理模塊620還用于,根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;對(duì)完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進(jìn)行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于第二完整關(guān)鍵詞的字符長度的正整數(shù);確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞為完整關(guān)鍵詞集合中包含第二部分關(guān)鍵詞的詞;根據(jù)第二部分關(guān)鍵詞與第三完整關(guān)鍵詞,生成第一索引,第一索引的鍵值部分包括第二部分關(guān)鍵詞,第一索引的屬性值部分包括第三完整關(guān)鍵詞。具體地,第一索引如表1所示??蛇x地,作為一個(gè)實(shí)施例,處理模塊620具體用于,基于匹配類型,確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞基于匹配類型與第二部分關(guān)鍵詞相匹配,匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;處理模塊620具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型與第三完整關(guān)鍵詞,生成第一索引,第一索引的屬性值部分還包括匹配類型;處理模塊620具體用于,根據(jù)第一索引、第一部分關(guān)鍵詞以及第一部分關(guān)鍵詞的匹配類型,獲取第一完整關(guān)鍵詞,第一部分關(guān)鍵詞的匹配類型根據(jù)第一部分關(guān)鍵詞與匹配符之間的位置關(guān)系確定。具體地,第一索引如表2所示。可選地,作為一個(gè)實(shí)施例,處理模塊620還用于,根據(jù)第二部分關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率以及第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù);處理模塊620具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型、以及第三完整關(guān)鍵詞與相關(guān)性參數(shù),生成第一索引,第一索引的屬性值部分還包括第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù);處理模塊620還用于,根據(jù)第一索引,獲取第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù);處理模塊620還用于,根據(jù)第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。具體地,第一索引如表3所示??蛇x地,作為一個(gè)實(shí)施例,處理模塊620具體用于,根據(jù)下面公式計(jì)算第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)??蛇x地,作為一個(gè)實(shí)施例,處理模塊620還用于,獲取第一文檔數(shù)目,第一文檔數(shù)目為第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;處理模塊620具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型、第三完整關(guān)鍵詞、相關(guān)性參數(shù)、以及第一文檔數(shù)目,生成第一索引,第一索引的屬性值部分還包括第一文檔數(shù)目;處理模塊620還用于,根據(jù)第一索引,獲取第一完整關(guān)鍵詞對(duì)應(yīng)的第二文檔數(shù)目;處理模塊620具體用于,根據(jù)第二文檔數(shù)目、第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。具體地,第一索引如表4所示??蛇x地,作為一個(gè)實(shí)施例,處理模塊620具體用于,根據(jù)下列信息,生成第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示第二部分關(guān)鍵詞,w表示第三完整關(guān)鍵詞,f表示第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示第三完整關(guān)鍵詞w在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示第一索引的鍵值部分,=右邊的部分表示第一索引的屬性值部分??蛇x地,作為一個(gè)實(shí)施例,第二完整關(guān)鍵詞為完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞??蛇x地,作為一個(gè)實(shí)施例,處理模塊620具體用于,根據(jù)語料數(shù)據(jù)集與預(yù)期想覆蓋的完整關(guān)鍵詞的總體覆蓋率,獲取完整關(guān)鍵詞集合,完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。具體地,本發(fā)明實(shí)施例中的輸入模塊610可以由接收器或接收器相關(guān)電路實(shí)現(xiàn),例如圖8所示的收發(fā)器740;處理模塊620可以由處理器或處理器相關(guān)電路實(shí)現(xiàn),例如圖8所示的處理器710。應(yīng)理解,本發(fā)明實(shí)施例提供的信息檢索的裝置600可以指代計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品可以為一個(gè)軟件安裝包,所述軟件安裝包被計(jì)算機(jī)運(yùn)行時(shí),能夠執(zhí)行本發(fā)明實(shí)施例提供的信息檢索的方法。換句話說,本發(fā)明實(shí)施例提供的信息檢索的裝置600可以指代軟件模塊,對(duì)應(yīng)地,信息檢索的裝置600所包括的輸入模塊610與處理模塊可以指代軟件子模塊。還應(yīng)理解,本發(fā)明實(shí)施例提供的信息檢索的裝置600可用于執(zhí)行本發(fā)明實(shí)施例提供的信息檢索的方法,并且裝置600中的各個(gè)模塊的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖3-圖5中的各個(gè)方法的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。圖8為本發(fā)明實(shí)施例的計(jì)算設(shè)備700的示意性框圖,計(jì)算設(shè)備700包括處理器710、存儲(chǔ)器720、總線系統(tǒng)730與收發(fā)器740,其中,處理器710、存儲(chǔ)器720和收發(fā)器740通過總線系統(tǒng)730相連。存儲(chǔ)器720用于存儲(chǔ)程序(或指令),處理器710用于執(zhí)行存儲(chǔ)器720中存儲(chǔ)的指令(或程序),以控制收發(fā)器740接收信號(hào)和/或發(fā)送信號(hào)。具體地,處理器710讀取存儲(chǔ)器720中的指令用于:控制收發(fā)器740,接收查詢語句,查詢語句包括模糊關(guān)鍵詞,模糊關(guān)鍵詞為包含匹配符的詞;處理器710還用于,根據(jù)模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,第一部分關(guān)鍵詞為模糊關(guān)鍵詞中除匹配符之外的部分;根據(jù)第一索引與第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,第一完整關(guān)鍵詞包含第一部分關(guān)鍵詞,第一索引包括鍵值部分與屬性值部分,其中,鍵值部分存儲(chǔ)的信息與屬性值部分存儲(chǔ)的信息具有對(duì)應(yīng)關(guān)系,鍵值部分存儲(chǔ)有第一部分關(guān)鍵詞,屬性值部分存儲(chǔ)有第一完整關(guān)鍵詞;根據(jù)第二索引與第一完整關(guān)鍵詞,獲取第一文檔,第一文檔為第一完整關(guān)鍵詞所在的文檔,第二索引包括第一完整關(guān)鍵詞與第一文檔之間的對(duì)應(yīng)關(guān)系。在本發(fā)明實(shí)施例中,第一索引包括部分關(guān)鍵詞與完整關(guān)鍵詞之間的對(duì)應(yīng)關(guān)系,通過第一索引能較為快速地找到部分關(guān)鍵詞對(duì)應(yīng)的完整關(guān)鍵詞,因此,本發(fā)明實(shí)施例能夠提高模糊搜索場(chǎng)景下信息檢索的整體效率??蛇x地,作為一個(gè)實(shí)施例,處理器710還用于,根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;對(duì)完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進(jìn)行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于第二完整關(guān)鍵詞的字符長度的正整數(shù);確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞為完整關(guān)鍵詞集合中包含第二部分關(guān)鍵詞的詞;根據(jù)第二部分關(guān)鍵詞與第三完整關(guān)鍵詞,生成第一索引,第一索引的鍵值部分包括第二部分關(guān)鍵詞,第一索引的屬性值部分包括第三完整關(guān)鍵詞。具體地,第一索引如表1所示??蛇x地,作為一個(gè)實(shí)施例,處理器710具體用于,基于匹配類型,確定第三完整關(guān)鍵詞,第三完整關(guān)鍵詞基于匹配類型與第二部分關(guān)鍵詞相匹配,匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;處理器710具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型與第三完整關(guān)鍵詞,生成第一索引,第一索引的屬性值部分還包括匹配類型;處理器710具體用于,根據(jù)第一索引、第一部分關(guān)鍵詞以及第一部分關(guān)鍵詞的匹配類型,獲取第一完整關(guān)鍵詞,第一部分關(guān)鍵詞的匹配類型根據(jù)第一部分關(guān)鍵詞與匹配符之間的位置關(guān)系確定。具體地,第一索引如表2所示??蛇x地,作為一個(gè)實(shí)施例,處理器710還用于,根據(jù)第二部分關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率以及第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù);處理器710具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型、以及第三完整關(guān)鍵詞與相關(guān)性參數(shù),生成第一索引,第一索引的屬性值部分還包括第二部分關(guān)鍵詞與第三完整關(guān)鍵詞的相關(guān)性參數(shù);處理器710還用于,根據(jù)第一索引,獲取第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù);處理器710還用于,根據(jù)第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。具體地,第一索引如表3所示??蛇x地,作為一個(gè)實(shí)施例,處理器710具體用于,根據(jù)下面公式計(jì)算第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)??蛇x地,作為一個(gè)實(shí)施例,處理器710還用于,獲取第一文檔數(shù)目,第一文檔數(shù)目為第三完整關(guān)鍵詞在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;處理器710具體用于,根據(jù)第二部分關(guān)鍵詞、匹配類型、第三完整關(guān)鍵詞、相關(guān)性參數(shù)、以及第一文檔數(shù)目,生成第一索引,第一索引的屬性值部分還包括第一文檔數(shù)目;處理器710還用于,根據(jù)第一索引,獲取第一完整關(guān)鍵詞對(duì)應(yīng)的第二文檔數(shù)目;處理器710具體用于,根據(jù)第二文檔數(shù)目、第一部分關(guān)鍵詞與第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及第一文檔與查詢語句的相關(guān)性參數(shù),確定第一文檔的打分。具體地,第一索引如表4所示。可選地,作為一個(gè)實(shí)施例,處理器710具體用于,根據(jù)下列信息,生成第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示第二部分關(guān)鍵詞,w表示第三完整關(guān)鍵詞,f表示第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示第二部分關(guān)鍵詞wp與第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示第三完整關(guān)鍵詞w在完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示第一索引的鍵值部分,=右邊的部分表示第一索引的屬性值部分。可選地,作為一個(gè)實(shí)施例,第二完整關(guān)鍵詞為完整關(guān)鍵詞集合中字符長度大于或等于閾值L的完整關(guān)鍵詞??蛇x地,作為一個(gè)實(shí)施例,處理器710具體用于,根據(jù)語料數(shù)據(jù)集與預(yù)期想覆蓋的完整關(guān)鍵詞的總體覆蓋率,獲取完整關(guān)鍵詞集合,完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。應(yīng)理解,在本發(fā)明實(shí)施例中,處理器710可以是中央處理單元(CentralProcessingUnit,簡(jiǎn)稱為“CPU”),處理器710還可以是其他通用處理器、數(shù)字信號(hào)處理器(DigitalSignalProcessor,DSP)、專用集成電路(ApplicationSpecificIntegratedCircuits,ASIC)、現(xiàn)成可編程門陣列(FieldProgrammableGateArray,F(xiàn)PGA)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者是任何常規(guī)的處理器等。存儲(chǔ)器720可以包括只讀存儲(chǔ)器和隨機(jī)存取存儲(chǔ)器,并向處理器710提供指令(程序)和數(shù)據(jù)。存儲(chǔ)器720的一部分還可以包括非易失性隨機(jī)存取存儲(chǔ)器。例如,存儲(chǔ)器720還可以存儲(chǔ)設(shè)備類型的信息。總線系統(tǒng)730除包括數(shù)據(jù)總線之外,還可以包括電源總線、控制總線和狀態(tài)信號(hào)總線等。但是為了清楚說明起見,在圖中將各種總線都標(biāo)為總線系統(tǒng)730。在實(shí)現(xiàn)過程中,上述方法的各步驟可以通過處理器710中的硬件的集成邏輯電路或者軟件形式的指令完成。結(jié)合本發(fā)明實(shí)施例所公開的方法的步驟可以直接體現(xiàn)為硬件處理器執(zhí)行完成,或者用處理器中的硬件及軟件模塊組合執(zhí)行完成。軟件模塊可以位于隨機(jī)存儲(chǔ)器,閃存、只讀存儲(chǔ)器,可編程只讀存儲(chǔ)器或者電可擦寫可編程存儲(chǔ)器、寄存器等本領(lǐng)域成熟的存儲(chǔ)介質(zhì)中。該存儲(chǔ)介質(zhì)位于存儲(chǔ)器720,處理器710讀取存儲(chǔ)器720中的信息,結(jié)合其硬件完成上述方法的步驟。為避免重復(fù),這里不再詳細(xì)描述。應(yīng)理解,本發(fā)明實(shí)施例提供的計(jì)算設(shè)備700可用于執(zhí)行本發(fā)明實(shí)施例提供的信息檢索的方法,以及可以對(duì)應(yīng)于本發(fā)明實(shí)施例提供的信息檢索的裝置600,并且計(jì)算設(shè)備700中的各個(gè)模塊的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖3-圖5中的各個(gè)方法的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。還應(yīng)理解,本文中涉及的各種數(shù)字編號(hào)僅為描述方便進(jìn)行的區(qū)分,并不用來限制本發(fā)明實(shí)施例的范圍。應(yīng)理解,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。應(yīng)理解,在本發(fā)明的各種實(shí)施例中,上述各過程的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過程構(gòu)成任何限定。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。當(dāng)前第1頁1 2 3