1.一種信息檢索的方法,其特征在于,包括:
接收查詢語句,所述查詢語句包括模糊關(guān)鍵詞,所述模糊關(guān)鍵詞為包含匹配符的詞;
根據(jù)所述模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,所述第一部分關(guān)鍵詞為所述模糊關(guān)鍵詞中除所述匹配符之外的部分;
根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,所述第一完整關(guān)鍵詞包含所述第一部分關(guān)鍵詞,所述第一索引包括鍵值部分與屬性值部分,其中,所述鍵值部分存儲的信息與所述屬性值部分存儲的信息具有對應(yīng)關(guān)系,所述鍵值部分存儲有所述第一部分關(guān)鍵詞,所述屬性值部分存儲有所述第一完整關(guān)鍵詞;
根據(jù)第二索引與所述第一完整關(guān)鍵詞,獲取第一文檔,所述第一文檔為所述第一完整關(guān)鍵詞所在的文檔,所述第二索引包括所述第一完整關(guān)鍵詞與所述第一文檔之間的對應(yīng)關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;
對所述完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于所述第二完整關(guān)鍵詞的字符長度的正整數(shù);
確定第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中包含所述第二部分關(guān)鍵詞的詞;
根據(jù)所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的鍵值部分包括所述第二部分關(guān)鍵詞,所述第一索引的屬性值部分包括所述第三完整關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定第三完整關(guān)鍵詞,包括:
基于匹配類型,確定所述第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞基于所述匹配類型與所述第二部分關(guān)鍵詞相匹配,所述匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;
其中,所述生成所述第一索引包括:
根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的屬性值部分還包括所述匹配類型;
所述根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,包括:
根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一部分關(guān)鍵詞的匹配類型,獲取所述第一完整關(guān)鍵詞,所述第一部分關(guān)鍵詞的匹配類型根據(jù)所述第一部分關(guān)鍵詞與所述匹配符之間的位置關(guān)系確定。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
根據(jù)所述第二部分關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率以及所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
其中,所述生成所述第一索引包括:
根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、以及所述第三完整關(guān)鍵詞與所述相關(guān)性參數(shù),生成所述第一索引,所述第一索引的屬性值部分還包括所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
所述方法還包括:
根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一完整關(guān)鍵詞,獲取所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù);
根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù),包括:
根據(jù)下面公式計算所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):
r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)
其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述方法還包括:
獲取第一文檔數(shù)目,所述第一文檔數(shù)目為所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;
其中,所述生成所述第一索引包括:
根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、所述第三完整關(guān)鍵詞、所述相關(guān)性參數(shù)以及所述第一文檔數(shù)目,生成所述第一索引,所述第一索引的屬性值部分還包括所述第一文檔數(shù)目;
所述方法還包括:
根據(jù)所述第一索引與所述第一完整關(guān)鍵詞,獲取所述第一完整關(guān)鍵詞對應(yīng)的第二文檔數(shù)目;
所述根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分,包括:
根據(jù)所述第二文檔數(shù)目、所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述生成所述第一索引,包括:
根據(jù)下列信息,生成所述第一索引:
wp=f:w,r(wp,w),n(w)
其中,wp表示所述第二部分關(guān)鍵詞,w表示所述第三完整關(guān)鍵詞,f表示所述第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示所述第三完整關(guān)鍵詞w在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示所述第一索引的鍵值部分,=右邊的部分表示所述第一索引的屬性值部分。
8.根據(jù)權(quán)利要求2-7中任一項所述的方法,其特征在于,所述第二完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中字符長度大于或等于閾值L的完整關(guān)鍵詞。
9.根據(jù)權(quán)利要求2-8中任一項所述的方法,其特征在于,所述根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合,包括:
根據(jù)所述語料數(shù)據(jù)集與覆蓋率,獲取所述完整關(guān)鍵詞集合,所述完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于所述語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。
10.一種信息檢索的裝置,其特征在于,包括:
輸入模塊,用于接收查詢語句,所述查詢語句包括模糊關(guān)鍵詞,所述模糊關(guān)鍵詞為包含匹配符的詞;
處理模塊,用于根據(jù)所述模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,所述第一部分關(guān)鍵詞為所述模糊關(guān)鍵詞中除所述匹配符之外的部分;
所述處理模塊還用于,根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,所述第一完整關(guān)鍵詞包含所述第一部分關(guān)鍵詞,所述第一索引包括鍵值部分與屬性值部分,其中,所述鍵值部分存儲的信息與所述屬性值部分存儲的信息具有對應(yīng)關(guān)系,所述鍵值部分存儲有所述第一部分關(guān)鍵詞,所述屬性值部分存儲有所述第一完整關(guān)鍵詞;
所述處理模塊還用于,根據(jù)第二索引與所述第一完整關(guān)鍵詞,獲取第一文檔,所述第一文檔為所述第一完整關(guān)鍵詞所在的文檔,所述第二索引包括所述第一完整關(guān)鍵詞與所述第一文檔之間的對應(yīng)關(guān)系。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述處理模塊還用于,根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;
對所述完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于所述第二完整關(guān)鍵詞的字符長度的正整數(shù);
確定第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中包含所述第二部分關(guān)鍵詞的詞;
根據(jù)所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的鍵值部分包括所述第二部分關(guān)鍵詞,所述第一索引的屬性值部分包括所述第三完整關(guān)鍵詞。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述處理模塊具體用于,基于匹配類型,確定所述第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞基于所述匹配類型與所述第二部分關(guān)鍵詞相匹配,所述匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;
所述處理模塊具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的屬性值部分還包括所述匹配類型;
所述處理模塊具體用于,根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一部分關(guān)鍵詞的匹配類型,獲取所述第一完整關(guān)鍵詞,所述第一部分關(guān)鍵詞的匹配類型根據(jù)所述第一部分關(guān)鍵詞與所述匹配符之間的位置關(guān)系確定。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述處理模塊還用于,根據(jù)所述第二部分關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率以及所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理模塊具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、以及所述第三完整關(guān)鍵詞與所述相關(guān)性參數(shù),生成所述第一索引,所述第一索引的屬性值部分還包括所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理模塊還用于,根據(jù)所述第一索引,獲取所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理模塊還用于,根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述處理模塊具體用于,根據(jù)下面公式計算所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):
r(wp,w)=α*f(wp,w)*s(wp,w)+β*q(wp,w)
其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)。
15.根據(jù)權(quán)利要求13或14所述的裝置,其特征在于,所述處理模塊還用于,獲取第一文檔數(shù)目,所述第一文檔數(shù)目為所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;
所述處理模塊具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、所述第三完整關(guān)鍵詞、所述相關(guān)性參數(shù)、以及所述第一文檔數(shù)目,生成所述第一索引,所述第一索引的屬性值部分還包括所述第一文檔數(shù)目;
所述處理模塊還用于,根據(jù)所述第一索引,獲取所述第一完整關(guān)鍵詞對應(yīng)的第二文檔數(shù)目;
所述處理模塊具體用于,根據(jù)所述第二文檔數(shù)目、所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述處理模塊具體用于,根據(jù)下列信息,生成所述第一索引:
wp=f:w,r(wp,w),n(w)
其中,wp表示所述第二部分關(guān)鍵詞,w表示所述第三完整關(guān)鍵詞,f表示所述第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示所述第三完整關(guān)鍵詞w在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示所述第一索引的鍵值部分,=右邊的部分表示所述第一索引的屬性值部分。
17.根據(jù)權(quán)利要求11-16中任一項所述的裝置,其特征在于,所述第二完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞。
18.根據(jù)權(quán)利要求11-17中任一項所述的裝置,其特征在于,所述處理模塊具體用于,根據(jù)所述語料數(shù)據(jù)集與覆蓋率,獲取所述完整關(guān)鍵詞集合,所述完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于所述語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。
19.一種計算設(shè)備,其特征在于,包括處理器與存儲器,所述存儲器用于存儲指令,所述處理器讀取所述存儲器中存儲的指令用于,
接收查詢語句,所述查詢語句包括模糊關(guān)鍵詞,所述模糊關(guān)鍵詞為包含匹配符的詞;
根據(jù)所述模糊關(guān)鍵詞,確定第一部分關(guān)鍵詞,所述第一部分關(guān)鍵詞為所述模糊關(guān)鍵詞中除所述匹配符之外的部分;
根據(jù)第一索引與所述第一部分關(guān)鍵詞,獲取第一完整關(guān)鍵詞,所述第一完整關(guān)鍵詞包含所述第一部分關(guān)鍵詞,所述第一索引包括鍵值部分與屬性值部分,其中,所述鍵值部分存儲的信息與所述屬性值部分存儲的信息具有對應(yīng)關(guān)系,所述鍵值部分存儲有所述第一部分關(guān)鍵詞,所述屬性值部分存儲有所述第一完整關(guān)鍵詞;
根據(jù)第二索引與所述第一完整關(guān)鍵詞,獲取第一文檔,所述第一文檔為所述第一完整關(guān)鍵詞所在的文檔,所述第二索引包括所述第一完整關(guān)鍵詞與所述第一文檔之間的對應(yīng)關(guān)系。
20.根據(jù)權(quán)利要求19所述的計算設(shè)備,其特征在于,所述處理器還用于,根據(jù)語料數(shù)據(jù)集獲取完整關(guān)鍵詞集合;
對所述完整關(guān)鍵詞集合中的第二完整關(guān)鍵詞進行n元組切分,并將n元組切分后的詞確定為第二部分關(guān)鍵詞,n為小于或等于所述第二完整關(guān)鍵詞的字符長度的正整數(shù);
確定第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中包含所述第二部分關(guān)鍵詞的詞;
根據(jù)所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的鍵值部分包括所述第二部分關(guān)鍵詞,所述第一索引的屬性值部分包括所述第三完整關(guān)鍵詞。
21.根據(jù)權(quán)利要求20所述的計算設(shè)備,其特征在于,所述處理器具體用于,基于匹配類型,確定所述第三完整關(guān)鍵詞,所述第三完整關(guān)鍵詞基于所述匹配類型與所述第二部分關(guān)鍵詞相匹配,所述匹配類型為前詞匹配、后詞匹配或前后詞匹配中的任一種;
所述處理器具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型與所述第三完整關(guān)鍵詞,生成所述第一索引,所述第一索引的屬性值部分還包括所述匹配類型;
所述處理器具體用于,根據(jù)所述第一索引、所述第一部分關(guān)鍵詞以及所述第一部分關(guān)鍵詞的匹配類型,獲取所述第一完整關(guān)鍵詞,所述第一部分關(guān)鍵詞的匹配類型根據(jù)所述第一部分關(guān)鍵詞與所述匹配符之間的位置關(guān)系確定。
22.根據(jù)權(quán)利要求21所述的計算設(shè)備,其特征在于,所述處理器還用于,根據(jù)所述第二部分關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率以及所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中的出現(xiàn)頻率,確定所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理器具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、以及所述第三完整關(guān)鍵詞與所述相關(guān)性參數(shù),生成所述第一索引,所述第一索引的屬性值部分還包括所述第二部分關(guān)鍵詞與所述第三完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理器還用于,根據(jù)所述第一索引,獲取所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù);
所述處理器還用于,根據(jù)所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
23.根據(jù)權(quán)利要求22所述的計算設(shè)備,其特征在于,所述處理器具體用于,根據(jù)下面公式計算所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù)r(wp,w):
r(wp,w)=α*f(wp,w)*s(wp,w)+β*q(wp,w)
其中,f(wp,w)表示wp與w的條件概率,s(wp,w)表示wp與w的緊密度參數(shù),q(wp,w)表示wp與w的用戶反饋權(quán)重,α與β為常數(shù)。
24.根據(jù)權(quán)利要求22或23所述的計算設(shè)備,其特征在于,所述處理器還用于,獲取第一文檔數(shù)目,所述第一文檔數(shù)目為所述第三完整關(guān)鍵詞在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目;
所述處理器具體用于,根據(jù)所述第二部分關(guān)鍵詞、所述匹配類型、所述第三完整關(guān)鍵詞、所述相關(guān)性參數(shù)、以及所述第一文檔數(shù)目,生成所述第一索引,所述第一索引的屬性值部分還包括所述第一文檔數(shù)目;
所述處理器還用于,根據(jù)所述第一索引,獲取所述第一完整關(guān)鍵詞對應(yīng)的第二文檔數(shù)目;
所述處理器具體用于,根據(jù)所述第二文檔數(shù)目、所述第一部分關(guān)鍵詞與所述第一完整關(guān)鍵詞的相關(guān)性參數(shù)、以及所述第一文檔與所述查詢語句的相關(guān)性參數(shù),確定所述第一文檔的打分。
25.根據(jù)權(quán)利要求24所述的計算設(shè)備,其特征在于,所述處理器具體用于,根據(jù)下列信息,生成所述第一索引:
wp=f:w,r(wp,w),n(w)
其中,wp表示所述第二部分關(guān)鍵詞,w表示所述第三完整關(guān)鍵詞,f表示所述第二部分關(guān)鍵詞wp的匹配類型,r(wp,w)表示所述第二部分關(guān)鍵詞wp與所述第三完整關(guān)鍵詞w的相關(guān)性參數(shù),n(w)表示所述第三完整關(guān)鍵詞w在所述完整關(guān)鍵詞集合中所匹配的文檔數(shù)目,=左邊的部分表示所述第一索引的鍵值部分,=右邊的部分表示所述第一索引的屬性值部分。
26.根據(jù)權(quán)利要求19-25中任一項所述的計算設(shè)備,其特征在于,所述第二完整關(guān)鍵詞為所述完整關(guān)鍵詞集合中字符長度大于閾值L的完整關(guān)鍵詞。
27.根據(jù)權(quán)利要求19-26中任一項所述的計算設(shè)備,其特征在于,所述處理器具體用于,根據(jù)所述語料數(shù)據(jù)集與覆蓋率,獲取所述完整關(guān)鍵詞集合,所述完整關(guān)鍵詞集合中包括的完整關(guān)鍵詞的數(shù)量小于所述語料數(shù)據(jù)集中包括的完整關(guān)鍵詞的數(shù)量。