本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,尤其涉及一種基于搜索引擎的檢索信息匹配方法及裝置。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站,這些站點(diǎn)的服務(wù)器通過網(wǎng)絡(luò)搜索軟件或網(wǎng)絡(luò)登錄等方式,將Intenet上大量網(wǎng)站的頁面信息收集到本地,經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,從而對用戶提出的各種檢索作出響應(yīng),提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索。然而,當(dāng)用戶存在對某一類信息進(jìn)行檢索的需求時,一般是通過對同類或近似的關(guān)鍵詞進(jìn)行多次檢索,分別得到所需的檢索結(jié)果,或者是通過構(gòu)建上位概括的檢索信息實(shí)現(xiàn),但是這種用戶自建的檢索信息對用戶的概括能力要求較高,否則很難得到用戶想要的檢索結(jié)果??梢姡壳皩τ谝活愋畔⒌臋z索需求缺少操作簡單,匹配準(zhǔn)確的實(shí)現(xiàn)方式。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提供一種基于搜索引擎的檢索信息匹配方法及裝置,通過構(gòu)建檢索模式匹配用戶提出的檢索信息,為用戶提供更加全面的與所述檢索信息向匹配的檢索結(jié)果。依據(jù)本發(fā)明的一個方面,提出了一種基于搜索引擎的檢索信息匹配方法,該方法包括:創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進(jìn)行匹配;當(dāng)匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。依據(jù)本發(fā)明的另一個方面,提出了一種基于搜索引擎的檢索信息匹配裝置,該裝置包括:創(chuàng)建單元,用于創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;匹配單元,用于將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元創(chuàng)建的信息庫中的檢索模式進(jìn)行匹配;輸出單元,用于當(dāng)所述匹配單元匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。本發(fā)明所采用的一種基于搜索引擎的檢索信息匹配方法及裝置,通過為搜索引擎配置檢索模式信息庫,將用戶錄入的檢索信息與信息庫中的檢索模式進(jìn)行匹配,實(shí)現(xiàn)解析用戶的檢索意圖,將用戶的檢索內(nèi)容擴(kuò)展到一類信息的查詢與檢索。同時,通過信息庫中的檢索模式,也為互聯(lián)網(wǎng)中的網(wǎng)頁匹配對應(yīng)的檢索模式,在為用戶匹配對應(yīng)的檢索結(jié)果時,通過計(jì)算用戶錄入的檢索模式與網(wǎng)頁對應(yīng)檢索模式的相似度來判斷網(wǎng)頁是否符合用戶的檢索意圖,從而確定是否將該網(wǎng)頁作為檢索結(jié)果輸出給用戶。此外,本發(fā)明通過對檢索模式的不斷的更新與訓(xùn)練,可以有效提高對用戶檢索意圖的識別與判斷,從而為用戶匹配出更為準(zhǔn)確的檢索結(jié)果,提高用戶的檢索體驗(yàn)。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。附圖說明通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了本發(fā)明實(shí)施例提出的一種基于搜索引擎的檢索信息匹配方法流程圖;圖2示出了本發(fā)明實(shí)施例提出的另一種基于搜索引擎的檢索信息匹配方法流程圖;圖3示出了本發(fā)明實(shí)施例提出的一種基于搜索引擎的檢索信息匹配裝置的組成框圖;圖4示出了本發(fā)明實(shí)施例提出的另一種基于搜索引擎的檢索信息匹配裝置的組成框圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本發(fā)明的示例性實(shí)施例。雖然附圖中顯示了本發(fā)明的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本發(fā)明而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本發(fā)明,并且能夠?qū)⒈景l(fā)明的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本發(fā)明實(shí)施例提供了一種基于搜索引擎的檢索信息匹配方法,該方法主要應(yīng)用搜索引擎中,針對用戶的對某一類信息檢索的需求,以檢索模式為關(guān)聯(lián)紐帶匹配出相關(guān)性較高的網(wǎng)頁作為檢索結(jié)果,其具體步驟如圖1所示,包括:101、創(chuàng)建檢索模式信息庫。其中,檢索模式是對已有的檢索信息進(jìn)行統(tǒng)計(jì)分析后得到的能夠代表一類檢索信息的模式化信息。由于搜索引擎中保存有用戶的檢索日志,累積了海量的用戶歷史檢索信息,通過對這些檢索信息進(jìn)行有效的挖掘,就可以得到本步驟的檢索模式信息庫中的檢索模式。因此,創(chuàng)建檢索模式也是本發(fā)明實(shí)施例中的核心步驟。檢索模式信息庫中的檢索模式是通過對搜索引擎中保存的用戶歷史檢索信息的分析所得到的,具體的,檢索模式信息庫的創(chuàng)建可以分為如下的幾個步驟:第一,對所獲取的已有檢索信息進(jìn)行預(yù)處理。通過獲取搜索引擎中保存的用戶歷史檢索信息并對其進(jìn)行整理,以便于后續(xù)步驟的文本分析。其中,預(yù)處理主要包括對檢索信息逐條地進(jìn)行分詞,詞性標(biāo)注,以及對各個分詞進(jìn)行向量化表示等。經(jīng)過處理后的檢索信息是以詞向量表示的檢索信息。通過詞向量的表示,可以實(shí)現(xiàn)分詞之間相關(guān)或相似的計(jì)算,比如,通過歐氏距離來衡量分詞之間的遠(yuǎn)近,或者是通過余弦相似度計(jì)算兩個分詞之間的相關(guān)性。第二,利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表。該步驟是將對向量化的檢索信息進(jìn)行聚類,也就是將可能含有相似檢索模式的檢索信息聚合在一起。進(jìn)行聚類操作的前提,是出于對檢索模式在同類檢索信息中具有共性的認(rèn)知,一般的,同義詞、近義詞或同位詞的上下文信息是相似的,而在用戶檢索信息中的上下文信息就包含有所要挖掘的檢索模式,由于檢索模式一般是通過詞向量表示的形式加以保存,那么,相反的,通過分析檢索信息的詞向量表示,就可以總結(jié)出對應(yīng)的檢索模式。因此,本步驟中的核心就是如何將具有相似的上下文信息的檢索信息聚類到一起。一般的,檢索信息都比較短小,因此,絕大所述的檢索信息中都是以名詞性詞項(xiàng)為核心,圍繞該詞就基本可以確定檢索信息中的上下文關(guān)系。所以,本發(fā)明實(shí)施例中,通過提取檢索信息中的名詞性詞項(xiàng),來分析這些詞項(xiàng)的語義關(guān)系,即判斷哪些名詞性分詞具有同義詞、近義詞或同位詞的關(guān)系,將含有該關(guān)系分詞的檢索信息聚類到一起,再分析其中所具有的相似的上下文關(guān)系,即檢索模式。第三,從分類檢索信息列表中提取對應(yīng)的檢索模式。上一步是將已有的檢索信息通過聚類算法分為多個分類檢索信息列表,每一個分類檢索信息列表中存儲有一類的檢索信息。一般的,認(rèn)為這一類的檢索信息中會包含有同一類的檢索模式,也就是根據(jù)檢索信息中的非名詞性分詞的排序方式,來確定對應(yīng)的檢索模式。而在確定出的檢索模式中含有的名詞性分詞的數(shù)量決定了該檢索模式的階數(shù),階數(shù)越高,說明用戶檢索的一類信息的關(guān)聯(lián)計(jì)算的維度也就越大,對應(yīng)得到的檢索結(jié)果也就可能越滿足用戶的檢索意圖,從而提高檢索準(zhǔn)確性。第四,將所提取的檢索模式保存至檢索模式信息庫中。該步驟是將所有從分類檢索信息列表中提取出的檢索模式統(tǒng)一保存在一個信息數(shù)據(jù)庫中,得到檢索模式信息庫。需要指出的是,所創(chuàng)建的檢索模式信息庫是基于搜索引擎保存的已有的檢索信息。而隨著搜索引擎的應(yīng)用,還會有大量的檢索信息被記錄下來,因此,對于檢索模式信息庫中的檢索模式也需要不斷的更新,以保證檢索模式與用戶的錄入檢索信息的語言方式相匹配,從而保證檢索結(jié)果的準(zhǔn)確性。而對于檢索模式的具體更新方式,本發(fā)明實(shí)施例則不限定采用實(shí)時更新或定期更新的方式。102、將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與信息庫中的檢索模式進(jìn)行匹配。本步驟主要執(zhí)行的是兩個操作,即為網(wǎng)頁的標(biāo)題匹配檢索模式,和為用戶錄入的檢索信息匹配檢索模式。對于為網(wǎng)頁的標(biāo)題匹配檢索模式,是在建立檢索模式信息庫時,或者是對檢索模式信息庫中的檢索模式進(jìn)行更新后,將搜索引擎所能夠檢索到的網(wǎng)頁進(jìn)行網(wǎng)頁標(biāo)題的匹配,為其匹配對應(yīng)的檢索模式。而對于為用戶錄入的檢索信息匹配檢索模式,則是在檢測到有用戶使用搜索引擎進(jìn)行檢索,并且錄入了檢索信息后,搜索引擎將為該檢索信息匹配對應(yīng)的檢索模式。具體的,匹配檢索模式的過程是提取檢索模式的一個逆過程,即對檢索信息或網(wǎng)頁標(biāo)題進(jìn)行分詞、向量化等處理,通過提取其中的名詞性分詞可以確定出檢索模式的分類,而通過其非名詞性分詞的排序與內(nèi)容就可以進(jìn)一步的匹配對應(yīng)的檢索模式。103、當(dāng)匹配出的檢索模式的相似度達(dá)到閾值時,將對應(yīng)的網(wǎng)頁作為新檢索信息的檢索結(jié)果輸出。本步驟是在搜索引擎為用戶的檢索信息匹配出對應(yīng)的檢索模式后,將根據(jù)該檢索模式匹配對應(yīng)的網(wǎng)頁,由于每個網(wǎng)頁存在有對應(yīng)的檢索模式,即通過網(wǎng)頁標(biāo)題所匹配的檢索模式。其中,匹配網(wǎng)頁的過程可以通過計(jì)算檢索模式之間的相似度來實(shí)現(xiàn)。而對于相似度計(jì)算的具體的方式,本發(fā)明實(shí)施例則不做限定。根據(jù)上述步驟中所創(chuàng)建的檢索模式可以確定,檢索模式在本發(fā)明實(shí)施例中是以詞向量的形式表示的,因此,優(yōu)選的相似度計(jì)算可采用向量空間模型計(jì)算,該模型也是應(yīng)用最廣泛的一個基礎(chǔ)相似度計(jì)算模型,例如,歐式距離,余弦相似度等計(jì)算模型。通過相似度計(jì)算,將相似度達(dá)到某一閾值的網(wǎng)頁確定為該用戶錄入檢索信息的檢索結(jié)果,并加以輸出顯示。其中,用于判斷的閾值一般是可以自定義設(shè)置的經(jīng)驗(yàn)值,根據(jù)實(shí)際情況的需要可以調(diào)整閾值的大小。閾值大,則對應(yīng)的檢索結(jié)果的數(shù)量將變少,反之,檢索的結(jié)果將增多。進(jìn)一步的,在輸出顯示網(wǎng)頁結(jié)果時,還可以根據(jù)所計(jì)算的相似度的值對網(wǎng)頁的顯示進(jìn)行排序,相似度越高,排名也越靠前。上述本發(fā)明實(shí)施例提供的一種基于搜索引擎的檢索信息匹配方法,通過為搜索引擎配置檢索模式信息庫,將用戶錄入的檢索信息與信息庫中的檢索模式進(jìn)行匹配,實(shí)現(xiàn)解析用戶的檢索意圖,將用戶的檢索內(nèi)容擴(kuò)展到一類信息的查詢與檢索。同時,通過信息庫中的檢索模式,也為互聯(lián)網(wǎng)中的網(wǎng)頁匹配對應(yīng)的檢索模式,在為用戶匹配對應(yīng)的檢索結(jié)果時,通過計(jì)算用戶錄入的檢索模式與網(wǎng)頁對應(yīng)檢索模式的相似度來判斷網(wǎng)頁是否符合用戶的檢索意圖,從而確定是否將該網(wǎng)頁作為檢索結(jié)果輸出給用戶。此外,本發(fā)明實(shí)施例通過對檢索模式的不斷的更新與訓(xùn)練,可以有效提高對用戶檢索意圖的識別與判斷,從而為用戶匹配出更為準(zhǔn)確的檢索結(jié)果,提高用戶的檢索體驗(yàn)。進(jìn)一步的,為了更加詳細(xì)的說明上述的基于搜索引擎的檢索信息匹配方法在實(shí)際應(yīng)用中的具體實(shí)現(xiàn),特別是對檢索模式信息庫中如何構(gòu)建檢索模式,以下實(shí)施例中將進(jìn)行詳細(xì)說明,具體如圖2所示,包括:201、對所獲取的已有檢索信息進(jìn)行預(yù)處理。本步驟中,對于檢索信息的預(yù)處理主要是對所保存的已有檢索信息進(jìn)行的自然語言處理,其中,主要包括如下環(huán)節(jié):首先,將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中。在該第一檢索信息列表中,每一行記錄有一條檢索信息,例如,表中的一行為“從霍山到英山有多遠(yuǎn)”。而這些檢索信息都是搜索引擎記錄的用戶曾經(jīng)檢索過的檢索信息。將該第一檢索信息列表以文件的形式加以保存。需要說明的是,在向第一檢索信息列表中添加檢索信息時,不需要對檢索信息進(jìn)行去重處理。其次,對第一檢索信息列表中的檢索信息進(jìn)行分詞以及詞性標(biāo)注處理,從而得到第二檢索信息列表和第三檢索信息列表。其中,將分詞后的檢索信息保存在第二檢索信息列表中,將對分詞標(biāo)注有詞性信息的檢索信息保存在第三檢索信息列表中。也就是說,第二檢索信息列表所保存的檢索信息與第一檢索信息列表中相對應(yīng),而區(qū)別在于第二檢索信息列表中的檢索信息進(jìn)行了分詞處理,例如,在該表中的一行檢索信息為“從霍山到英山有多遠(yuǎn)”。與此向類似的,第三檢索信息列表中的檢索信息是在第二檢索信息列表中的內(nèi)容基礎(chǔ)上進(jìn)行的詞性標(biāo)注,每行中記載了檢索信息和詞性標(biāo)注的分詞結(jié)果,例如,在該表中的一行檢索信息為“從霍山到英山有多遠(yuǎn)從:p霍山:ns到:p英山:ns有:v多:m遠(yuǎn):a”。下表示出了部分詞性標(biāo)注的對照表:表1:部分詞性標(biāo)注對照表第三,利用文本深度表示模型word2vec對第二檢索信息列表中的分詞進(jìn)行向量化表示,將向量化的分詞存儲在詞向量文件中。其中,文本深度表示模型word2vec是Google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。Word2vec輸出的詞向量可以被用來做很多NLP(Neuro-LinguisticProgramming,神經(jīng)語言程序?qū)W)相關(guān)的工作,比如聚類、找同義詞、詞性分析等。在使用word2vec對第二檢索信息列表中的分詞進(jìn)行向量化表示時,該模型的中的K維向量空間可根據(jù)實(shí)際需要進(jìn)行自定義設(shè)置,例如,設(shè)置K的值為300是,對應(yīng)的word2vec的參數(shù)為“-cbow1-size300-window8-negative25-hs0-sample1e-4-threads24-binary0-iter15”。經(jīng)過文本深度表示模型word2vec的處理后,第二檢索信息列表中的分詞以詞向量的形式加以表示。同時,將這些分詞的詞向量保存在一個詞向量文件中。第四,提取第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,并將該分詞添加到分詞列表中。其中,分詞列表中記錄有分詞以及所述分詞在第三檢索信息列表中出現(xiàn)的次數(shù)。例如,分詞列表中的一行顯示為:“霍山”,有180萬行。此外,具有名詞性的詞性標(biāo)注主要包括:n、nd、nh、nl、ns、nt、nz、b、i、j,具體的對照請參照上述的表1。通過上述的預(yù)處理環(huán)節(jié)后,可以將所獲取的已有檢索信息處理為第一檢索信息列表、第二檢索信息列表、第三檢索信息列表和分詞列表,以及詞向量文件。202、利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表。本步驟中所執(zhí)行的聚類操作是創(chuàng)建檢索模式的核心步驟,其執(zhí)行過程主要是獲取檢索信息中的名詞性分詞,再根據(jù)文本深度表示模型word2vec中的歐氏距離,選擇這些詞分詞的鄰近分詞,并將含有這些分詞或鄰近分詞的檢索信息聚類到一起,得到一個分類檢索信息列表。對此,具體的實(shí)現(xiàn)需要基于上述步驟中對檢索信息進(jìn)行的預(yù)處理結(jié)果,其詳細(xì)步驟包括:1、在詞向量文件中查找分詞列表中分詞的向量值。其中,所查找的分詞是對分詞列表中的每一個分詞逐一地進(jìn)行提取。2、根據(jù)向量值計(jì)算分詞列表中任意兩個分詞間的歐氏距離。通過該步驟的計(jì)算就可以得到所提取的分詞與該分詞列表中其他分詞的歐氏距離值。其中,歐氏距離是一個通常采用的距離定義,指在m維空間中兩個點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。而關(guān)于具體的歐氏距離的計(jì)算過程本發(fā)明實(shí)施例不進(jìn)行具體說明。3、對分詞列表中每個分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組。其中,鄰近分詞是指根據(jù)歐氏距離計(jì)算后,按照由近至遠(yuǎn)的排序選擇的一組距離最近的分詞。而預(yù)置數(shù)量的大小決定了分類檢索信息列表中所含有的檢索信息的具體數(shù)量,數(shù)量的大小又會影響到所提取的檢索模式,因此,該預(yù)置數(shù)量的設(shè)定往往需要根據(jù)實(shí)際檢索信息的數(shù)量而確定,一般為經(jīng)驗(yàn)值。以上文中的“霍山”為例,與其歐氏距離較近的分詞多為縣級行政單位,如下表:表2:霍山的近鄰詞項(xiàng),根據(jù)word2vec的歐氏距離排序此外,需要指出的是,所得到的分詞組是對分詞列表中的所有分詞進(jìn)行的分配。也就是說,一個分詞經(jīng)過分配后只出現(xiàn)在一個分詞組中。4、在第一檢索信息列表中提取含有分詞組中至少一個分詞的檢索信息。根據(jù)得到的分詞組,遍歷第一檢索信息列表中的所有檢索信息,將含有該分詞組中至少一個分詞的檢索信息進(jìn)行復(fù)制并提取出來。5、將提取的檢索信息保存在一個分類檢索信息列表中。執(zhí)行該步驟后得到的分類檢索信息列表中記錄有一批具有相似上下文的檢索信息,如下表所示:表3:一個分類檢索信息列表中的部分檢索信息內(nèi)容從青島到徐州有多遠(yuǎn)從河南周口到北京有多遠(yuǎn)從??诘教┲萦卸噙h(yuǎn)從煙臺到鞍山有多遠(yuǎn)從碭山到蒙城有多遠(yuǎn)從太康到夏邑有多遠(yuǎn)從柘城到夏邑有多遠(yuǎn)從霍山到英山有多遠(yuǎn)從集寧市到興和縣有多遠(yuǎn)需要指出的是,通過一組分詞將得到對應(yīng)的一個分類檢索信息列表,通過對不同的分詞組在第一檢索信息列表中提取對應(yīng)的檢索信息,就會生成多個分類檢索信息列表。203、從分類檢索信息列表中提取對應(yīng)的檢索模式。根據(jù)上述步驟202中得到的多個分類檢索信息列表,本發(fā)明實(shí)施例中提取檢索模式的具體流程為:1、通過FPGrowth算法逐一計(jì)算每個分類檢索信息列表中的頻繁項(xiàng)集合。FPGrowth算法是韓家煒等人在2000年提出的關(guān)聯(lián)分析算法,它采取如下的分治策略:將提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-tree),但仍保留項(xiàng)集關(guān)聯(lián)信息。FPGrowth算法主要分為兩個步驟:FP-tree構(gòu)建、遞歸挖掘FP-tree。FP-tree構(gòu)建通過兩次數(shù)據(jù)掃描,將原始數(shù)據(jù)中的事務(wù)壓縮到一個FP-tree樹,該FP-tree類似于前綴樹,相同前綴的路徑可以共用,從而達(dá)到壓縮數(shù)據(jù)的目的。接著通過FP-tree找出每個項(xiàng)目的條件模式基、條件FP-tree,遞歸的挖掘條件FP-tree得到所有的頻繁項(xiàng)集。對于具體的計(jì)算過程在本發(fā)明實(shí)施例中做詳細(xì)說明。在該步驟中,由于每個分類檢索信息列表中各條檢索信息中的名詞性分詞都是同義詞、近義詞或同位詞等具有較高關(guān)聯(lián)關(guān)系的分詞,因此,檢索信息具有相似的上下文,所對應(yīng)提取的檢索模式也屬于同一類的檢索模式。也就是說,針對一個分類檢索信息列表計(jì)算出的頻繁項(xiàng)集可能存在多個,對此,將得到的頻繁項(xiàng)集以列表的形式加以保存,就得到了頻繁項(xiàng)集合,該集合中包含有多個頻繁項(xiàng)集,以及每個頻繁項(xiàng)集多出現(xiàn)的頻數(shù)。下表示例性地展示了一個分類檢索信息列表經(jīng)過計(jì)算后得到的部分頻繁項(xiàng)集。表4:頻繁項(xiàng)集合中的部分頻繁項(xiàng)集頻繁項(xiàng)集頻數(shù)有、和、不同1110到、坐、車、從、去196到、從、遠(yuǎn)、多、有29232、調(diào)整頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成分類檢索信息列表對應(yīng)的檢索模式。首先,由于FPGrowth算法所產(chǎn)生的頻繁項(xiàng)集中的頻繁項(xiàng)是無序的,因此,需要將無序的頻繁項(xiàng)轉(zhuǎn)換成有序的頻繁項(xiàng),一個有序的頻繁項(xiàng)集就是一個檢索模式。具體的順序轉(zhuǎn)換過程包括:提取頻繁項(xiàng)集中的一組頻繁項(xiàng),將這組頻繁項(xiàng)代入分類檢索信息列表中進(jìn)行匹配,提取含有這一組頻繁項(xiàng)的檢索信息。需要指出的是,該檢索信息中需要包含這組頻繁項(xiàng)中的所有頻繁項(xiàng)。之后,將所提取的檢索信息中使用通用符替換所有非頻繁項(xiàng)的分詞,將含有通用符和這組頻繁項(xiàng)的信息確定為分類檢索信息列表所對應(yīng)的檢索模式,其中,含有通用符和這組頻繁項(xiàng)的信息中的分詞順序是按照原檢索信息中分詞的順序排列的。例如,設(shè)定通用符為“#”,頻繁集“到、從、遠(yuǎn)、多、有”,進(jìn)過匹配后得到的原始檢索信息之一是“從霍山到英山有多遠(yuǎn)”,經(jīng)過替換后生成的一個檢索模式“從#到#有多遠(yuǎn)”,如果還匹配到另一個檢索信息為“坐車從霍山到英山有多遠(yuǎn)”,經(jīng)過替換后生成的另一個檢索模式“#從#到#有多遠(yuǎn)”。可見,一個頻繁項(xiàng)集中根據(jù)頻繁項(xiàng)排序的不同就可以生成多個不同的檢索模式。其次,當(dāng)一個頻繁項(xiàng)集中產(chǎn)生過個不同的檢索模式時,為了確保檢索模式的代表性,在得到所有的檢索模式后,將對所有的檢索模式進(jìn)行統(tǒng)計(jì),將相同的檢索模式進(jìn)行合并,并累加合并的個數(shù)。根據(jù)預(yù)設(shè)的閾值,保留累加個數(shù)大于該閾值的檢索模式,確定這些檢索模式為有效、可用的檢索模式。204、將所提取的檢索模式保存至檢索模式信息庫中。統(tǒng)計(jì)各個分類檢索信息列表對應(yīng)的檢索模式,將其保存在檢索模式信息庫中,得到的檢索模式以列表的形式加以展示,每個檢索模式根據(jù)所替換的通用符的個數(shù)確定檢索模式的階數(shù),下表示例性的展示了部分的檢索模式,該表中的檢索模式根據(jù)階數(shù)的遞增進(jìn)行排序展示:表5:檢索模式信息庫中的部分檢索模式通過上述實(shí)施例可以得到較高質(zhì)量的檢索模式,利用這些檢索模式,搜索引擎變可以對網(wǎng)頁標(biāo)題以及用戶錄入的檢索信息進(jìn)行匹配,從而為用戶檢索出更符合用戶意圖的檢索結(jié)果,簡化了用戶構(gòu)建檢索信息的復(fù)雜性,提高的用戶的檢索體驗(yàn)。以上詳細(xì)說明了基于搜索引擎的檢索信息匹配方法在實(shí)際應(yīng)用中的具體實(shí)現(xiàn),作為實(shí)現(xiàn)上述方法的具體裝置,本發(fā)明實(shí)施例還提供了一種基于搜索引擎的檢索信息匹配裝置,如圖3所示,該裝置包括:創(chuàng)建單元31,用于創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;匹配單元32,用于將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元31創(chuàng)建的信息庫中的檢索模式進(jìn)行匹配;輸出單元33,用于當(dāng)所述匹配單元32匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。進(jìn)一步的,如圖4所示,所述創(chuàng)建單元31包括:處理模塊311,用于對所獲取的已有檢索信息進(jìn)行預(yù)處理,得到詞向量表示的檢索信息;聚類模塊312,用于利用聚類算法將所述處理模塊311處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;提取模塊313,用于從所述聚類模塊312得到的分類檢索信息列表中提取對應(yīng)的檢索模式;存儲模塊314,用于將所述提取模塊313得到的檢索模式保存至檢索模式信息庫中。進(jìn)一步的,如圖4所示,所述處理模塊311包括:第一處理子模塊3111,用于將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中;第二處理子模塊3112,用于對所述第一處理子模塊3111得到的第一檢索信息列表中的檢索信息進(jìn)行分詞以及詞性標(biāo)注處理,得到第二檢索信息列表和第三檢索信息列表,所述第二檢索信息列表中保存有分詞后的檢索信息,所述第三檢索信息列表中保存有對分詞結(jié)果進(jìn)行詞性標(biāo)注的檢索信息;第三處理子模塊3113,用于利用文本深度表示模型word2vec對所述第二處理子模塊3112得到的第二檢索信息列表中的分詞進(jìn)行向量化表示,將所述向量化的分詞存儲在詞向量文件中;第四處理子模塊3114,用于提取所述第二處理子模塊3112得到的第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,將所述分詞添加到分詞列表中,所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。進(jìn)一步的,如圖4所示,所述聚類模塊312包括:查找子模塊3121,用于在所述詞向量文件中查找所述分詞列表中分詞的向量值;計(jì)算子模塊3122,用于根據(jù)所述查找子模塊3121查詢到的向量值計(jì)算所述分詞列表中任意兩個分詞間的歐氏距離;組合子模塊3123,用于對所述分詞列表中每個分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組,所述鄰近分詞是根據(jù)所述計(jì)算子模塊3122計(jì)算的歐氏距離進(jìn)行由近至遠(yuǎn)排序得到的分詞;提取子模塊3124,用于在所述第一檢索信息列表中提取含有所述組合子模塊3123組成的分詞組中至少一個分詞的檢索信息;存儲子模塊3125,用于將所述提取子模塊3124提取的檢索信息保存在一個分類檢索信息列表中。進(jìn)一步的,如圖4所示,所述提取模塊313包括:計(jì)算子模塊3131,用于利用FPGrowth算法逐一計(jì)算每個分類檢索信息列表中的頻繁項(xiàng)集合,所述頻繁項(xiàng)集合含有至少一個頻繁項(xiàng)集;生成子模塊3132,用于調(diào)整所述計(jì)算子模塊3131得到的頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式。進(jìn)一步的,所述生成子模塊3132還用于,提取所述頻繁項(xiàng)集中的一組頻繁項(xiàng);在所述分類檢索信息列表中匹配含有所述一組頻繁項(xiàng)的檢索信息;將所述檢索信息中非頻繁項(xiàng)的分詞替換為通用符;將含有通用符和所述一組頻繁項(xiàng)且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應(yīng)的檢索模式。進(jìn)一步的,所述生成子模塊3132還用于,統(tǒng)計(jì)所生成的檢索模式,計(jì)算所生成的相同檢索模式的個數(shù);保留所述個數(shù)大于閾值的檢索模式。進(jìn)一步的,如圖4所示,所述裝置還包括:排序單元34,用于根據(jù)所述相似度的值確定所述輸出單元33輸出的檢索結(jié)果中網(wǎng)頁的排序。綜上所述,本發(fā)明實(shí)施例所提供的一種基于搜索引擎的檢索信息匹配方法及裝置,通過為搜索引擎配置檢索模式信息庫,將用戶錄入的檢索信息與信息庫中的檢索模式進(jìn)行匹配,實(shí)現(xiàn)解析用戶的檢索意圖,將用戶的檢索內(nèi)容擴(kuò)展到一類信息的查詢與檢索。同時,通過信息庫中的檢索模式,也為互聯(lián)網(wǎng)中的網(wǎng)頁匹配對應(yīng)的檢索模式,在為用戶匹配對應(yīng)的檢索結(jié)果時,通過計(jì)算用戶錄入的檢索模式與網(wǎng)頁對應(yīng)檢索模式的相似度來判斷網(wǎng)頁是否符合用戶的檢索意圖,從而確定是否將該網(wǎng)頁作為檢索結(jié)果輸出給用戶。此外,本發(fā)明實(shí)施例通過對檢索模式的不斷的更新與訓(xùn)練,可以有效提高對用戶檢索意圖的識別與判斷,從而為用戶匹配出更為準(zhǔn)確的檢索結(jié)果,提高用戶的檢索體驗(yàn)。在上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述??梢岳斫獾氖牵鲜鲈贫朔?wù)器及裝置中的相關(guān)特征可以相互參考。另外,上述實(shí)施例中的“第一”、“第二”等是用于區(qū)分各實(shí)施例,而并不代表各實(shí)施例的優(yōu)劣。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述云端服務(wù)器實(shí)施例中的對應(yīng)過程,在此不再贅述。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的云端服務(wù)器、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的云端服務(wù)器解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個或多個設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何云端服務(wù)器或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個或者多個處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的發(fā)明名稱(如確定網(wǎng)站內(nèi)連接等級的裝置)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的云端服務(wù)器的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。本發(fā)明實(shí)施例還公開了以下技術(shù)方案:A1、一種基于搜索引擎的檢索信息匹配方法,所述方法包括:創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述信息庫中的檢索模式進(jìn)行匹配;當(dāng)匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。A2、根據(jù)A1所述的方法,所述創(chuàng)建檢索模式信息庫包括:對所獲取的已有檢索信息進(jìn)行預(yù)處理,得到詞向量表示的檢索信息;利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;從所述分類檢索信息列表中提取對應(yīng)的檢索模式;將所述檢索模式保存至檢索模式信息庫中。A3、根據(jù)A2所述的方法,所述對所獲取的已有檢索信息進(jìn)行預(yù)處理包括:將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中;對所述第一檢索信息列表中的檢索信息進(jìn)行分詞以及詞性標(biāo)注處理,得到第二檢索信息列表和第三檢索信息列表,所述第二檢索信息列表中保存有分詞后的檢索信息,所述第三檢索信息列表中保存有對分詞結(jié)果進(jìn)行詞性標(biāo)注的檢索信息;利用文本深度表示模型word2vec對第二檢索信息列表中的分詞進(jìn)行向量化表示,將所述向量化的分詞存儲在詞向量文件中;提取所述第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,將所述分詞添加到分詞列表中,所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。A4、根據(jù)A3所述的方法,所述利用聚類算法將處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表包括:在所述詞向量文件中查找所述分詞列表中分詞的向量值;根據(jù)所述向量值計(jì)算所述分詞列表中任意兩個分詞間的歐氏距離;對所述分詞列表中每個分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組,所述鄰近分詞是根據(jù)所述歐氏距離進(jìn)行由近至遠(yuǎn)排序得到的分詞;在所述第一檢索信息列表中提取含有所述分詞組中至少一個分詞的檢索信息;將所提取的檢索信息保存在一個分類檢索信息列表中。A5、根據(jù)A2-A4中任一項(xiàng)所述的方法,所述從所述分類檢索信息列表中提取對應(yīng)的檢索模式包括:利用FPGrowth算法逐一計(jì)算每個分類檢索信息列表中的頻繁項(xiàng)集合,所述頻繁項(xiàng)集合含有至少一個頻繁項(xiàng)集;調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式。A6、根據(jù)A5所述的方法,所述調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式包括:提取所述頻繁項(xiàng)集中的一組頻繁項(xiàng);在所述分類檢索信息列表中匹配含有所述一組頻繁項(xiàng)的檢索信息;將所述檢索信息中非頻繁項(xiàng)的分詞替換為通用符;將含有通用符和所述一組頻繁項(xiàng)且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應(yīng)的檢索模式。A7、根據(jù)A6所述的方法,所述調(diào)整所述頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式還包括:統(tǒng)計(jì)所生成的檢索模式,計(jì)算所生成的相同檢索模式的個數(shù);保留所述個數(shù)大于閾值的檢索模式。A8、根據(jù)A1所述的方法,所述方法還包括:根據(jù)所述相似度的值確定所述檢索結(jié)果中網(wǎng)頁的排序。B9、一種基于搜索引擎的檢索信息匹配裝置,所述裝置包括:創(chuàng)建單元,用于創(chuàng)建檢索模式信息庫,所述檢索模式是對已有檢索信息統(tǒng)計(jì)分析得到的能夠代表一類檢索信息的模式化信息;匹配單元,用于將網(wǎng)頁的標(biāo)題以及搜索引擎獲取的新檢索信息分別與所述創(chuàng)建單元創(chuàng)建的信息庫中的檢索模式進(jìn)行匹配;輸出單元,用于當(dāng)所述匹配單元匹配出的檢索模式的相似度達(dá)到閾值時,將所述網(wǎng)頁作為所述新檢索信息的檢索結(jié)果輸出。B10、根據(jù)B9所述的裝置,所述創(chuàng)建單元包括:處理模塊,用于對所獲取的已有檢索信息進(jìn)行預(yù)處理,得到詞向量表示的檢索信息;聚類模塊,用于利用聚類算法將所述處理模塊處理后的檢索信息進(jìn)行聚類,得到多個分類檢索信息列表,所述分類檢索信息列表中記錄有相似上下文信息的檢索信息;提取模塊,用于從所述聚類模塊得到的分類檢索信息列表中提取對應(yīng)的檢索模式;存儲模塊,用于將所述提取模塊得到的檢索模式保存至檢索模式信息庫中。B11、根據(jù)B10所述的裝置,所述處理模塊包括:第一處理子模塊,用于將所獲取的已有檢索信息逐條添加到有第一檢索信息列表中;第二處理子模塊,用于對所述第一處理子模塊得到的第一檢索信息列表中的檢索信息進(jìn)行分詞以及詞性標(biāo)注處理,得到第二檢索信息列表和第三檢索信息列表,所述第二檢索信息列表中保存有分詞后的檢索信息,所述第三檢索信息列表中保存有對分詞結(jié)果進(jìn)行詞性標(biāo)注的檢索信息;第三處理子模塊,用于利用文本深度表示模型word2vec對所述第二處理子模塊得到的第二檢索信息列表中的分詞進(jìn)行向量化表示,將所述向量化的分詞存儲在詞向量文件中;第四處理子模塊,用于提取所述第二處理子模塊得到的第三檢索信息列表中詞性標(biāo)注為名詞性的分詞,將所述分詞添加到分詞列表中,所述分詞列表中記錄有分詞以及所述分詞在所述第三檢索信息列表中出現(xiàn)的次數(shù)。B12、根據(jù)B11所述的裝置,所述聚類模塊包括:查找子模塊,用于在所述詞向量文件中查找所述分詞列表中分詞的向量值;計(jì)算子模塊,用于根據(jù)所述查找子模塊查詢到的向量值計(jì)算所述分詞列表中任意兩個分詞間的歐氏距離;組合子模塊,用于對所述分詞列表中每個分詞提取預(yù)置數(shù)量的鄰近分詞,組成分詞組,所述鄰近分詞是根據(jù)所述計(jì)算子模塊計(jì)算的歐氏距離進(jìn)行由近至遠(yuǎn)排序得到的分詞;提取子模塊,用于在所述第一檢索信息列表中提取含有所述組合子模塊組成的分詞組中至少一個分詞的檢索信息;存儲子模塊,用于將所述提取子模塊提取的檢索信息保存在一個分類檢索信息列表中。B13、根據(jù)B10-B12中任一項(xiàng)所述的裝置,所述提取模塊包括:計(jì)算子模塊,用于利用FPGrowth算法逐一計(jì)算每個分類檢索信息列表中的頻繁項(xiàng)集合,所述頻繁項(xiàng)集合含有至少一個頻繁項(xiàng)集;生成子模塊,用于調(diào)整所述計(jì)算子模塊得到的頻繁項(xiàng)集中頻繁項(xiàng)的順序,生成所述分類檢索信息列表對應(yīng)的檢索模式。B14、根據(jù)B13所述的裝置,所述生成子模塊還用于,提取所述頻繁項(xiàng)集中的一組頻繁項(xiàng);在所述分類檢索信息列表中匹配含有所述一組頻繁項(xiàng)的檢索信息;將所述檢索信息中非頻繁項(xiàng)的分詞替換為通用符;將含有通用符和所述一組頻繁項(xiàng)且按照所述檢索信息中的分詞排序排列的信息確定為所述分類檢索信息列表對應(yīng)的檢索模式。B15、根據(jù)B14所述的裝置,所述生成子模塊還用于,統(tǒng)計(jì)所生成的檢索模式,計(jì)算所生成的相同檢索模式的個數(shù);保留所述個數(shù)大于閾值的檢索模式。B16、根據(jù)B9所述的裝置,所述裝置還包括:排序單元,用于根據(jù)所述相似度的值確定所述輸出單元輸出的檢索結(jié)果中網(wǎng)頁的排序。當(dāng)前第1頁1 2 3