1.一種基于搜索引擎的檢索信息匹配方法,其特征在于,所述方法包括:
創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息;
將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進行匹配;
當(dāng)匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述創(chuàng)建檢索模式信息庫包括:
對所獲取的已有檢索信息進行預(yù)處理,得到詞向量表示的檢索信息;
利用聚類算法將處理后的檢索信息進行聚類,得到多個分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;
從所述分類檢索信息列表中提取對應(yīng)的檢索模式;
將所述檢索模式保存至檢索模式信息庫中。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對所獲取的已有檢索信息進行預(yù)處理包括:
將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中;
對所述第一檢索信息列表中的檢索信息進行分詞以及詞性標(biāo)注處理,得到第二檢索信息列表和第三檢索信息列表,所述第二檢索信息列表中保存有分詞后的檢索信息,所述第三檢索信息列表中保存有對分詞結(jié)果進行詞性標(biāo)注的檢索信息;
利用文本深度表示模型word2vec對第二檢索信息列表中的分詞進行向量化表示,將所述向量化的分詞存儲在詞向量文件中;
提取所述第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,將所述分詞添加到分詞列表中,所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。
4.根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,所述利用聚類算法將處理后的檢索信息進行聚類,得到多個分類檢索信息列表包括:
在所述詞向量文件中查找所述分詞列表中分詞的向量值;
根據(jù)所述向量值計算所述分詞列表中任意兩個分詞間的歐氏距離;
對所述分詞列表中每個分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組,所述鄰近分詞是根據(jù)所述歐氏距離進行由近至遠(yuǎn)排序得到的分詞;
在所述第一檢索信息列表中提取含有所述分詞組中至少一個分詞的檢索信息;
將所提取的檢索信息保存在一個分類檢索信息列表中。
5.根據(jù)權(quán)利要求1-4中任一項所述的方法,其特征在于,所述從所述分類檢索信息列表中提取對應(yīng)的檢索模式包括:
利用FPGrowth算法逐一計算每個分類檢索信息列表中的頻繁項集合,所述頻繁項集合含有至少一個頻繁項集;
調(diào)整所述頻繁項集中頻繁項的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式。
6.根據(jù)權(quán)利要求1-5中任一項所述的方法,其特征在于,所述調(diào)整所述頻繁項集中頻繁項的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式包括:
提取所述頻繁項集中的一組頻繁項;
在所述分類檢索信息列表中匹配含有所述一組頻繁項的檢索信息;
將所述檢索信息中非頻繁項的分詞替換為通用符;
將含有通用符和所述一組頻繁項且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應(yīng)的檢索模式。
7.根據(jù)權(quán)利要求1-6中任一項所述的方法,其特征在于,所述調(diào)整所述頻繁項集中頻繁項的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式還包括:
統(tǒng)計所生成的檢索模式,計算所生成的相同檢索模式的個數(shù);
保留所述個數(shù)大于閾值的檢索模式。
8.根據(jù)權(quán)利要求1-7中任一項所述的方法,其特征在于,所述方法還包括:
根據(jù)所述相似度的值確定所述檢索結(jié)果中網(wǎng)頁的排序。
9.一種基于搜索引擎的檢索信息匹配裝置,其特征在于,所述裝置包括:
創(chuàng)建單元,用于創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計分析得到的能夠代表一類檢索信息的模式化信息;
匹配單元,用于將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元創(chuàng)建的信息庫中的檢索模式進行匹配;
輸出單元,用于當(dāng)所述匹配單元匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述創(chuàng)建單元包括:
處理模塊,用于對所獲取的已有檢索信息進行預(yù)處理,得到詞向量表示的檢索信息;
聚類模塊,用于利用聚類算法將所述處理模塊處理后的檢索信息進行聚類,得到多個分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;
提取模塊,用于從所述聚類模塊得到的分類檢索信息列表中提取對應(yīng)的檢索模式;
存儲模塊,用于將所述提取模塊得到的檢索模式保存至檢索模式信息庫中。