一種重新定義查詢?cè)~的搜索方法及裝置的制作方法

文檔序號(hào)：6463081閱讀：241來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種重新定義查詢?cè)~的搜索方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及搜索引擎技術(shù)，特別是涉及一種重新定義查詢?cè)~的搜索方法及裝置。
背景技術(shù)：
搜索引擎技術(shù)的發(fā)展給廣大網(wǎng)絡(luò)用戶帶來(lái)非常多的便利，用戶在搜索引擎上輸入一個(gè)查詢?cè)~，搜索引擎根據(jù)用戶的查詢?cè)~，就能返回與該查詢?cè)~對(duì)應(yīng)的相關(guān)網(wǎng)頁(yè)?，F(xiàn)有的各種搜索引擎在進(jìn)行網(wǎng)頁(yè)檢索時(shí)，都是通過(guò)查找關(guān)鍵詞是否在網(wǎng)頁(yè)中出現(xiàn)來(lái)進(jìn)行檢索。雖然這種搜索方式提供了強(qiáng)大的網(wǎng)頁(yè)檢索功能，但是也存在下述問(wèn)題由于自然語(yǔ)言中存在同義詞或近義詞現(xiàn)象，用戶輸入的查詢?cè)~可能與目標(biāo)網(wǎng)頁(yè)中的詞語(yǔ)義相似但是沒(méi)有直接出現(xiàn)，這樣就檢索不到需要的結(jié)果了?，F(xiàn)有的解決思路是建立查詢?cè)~之間的關(guān)系表，然后在輸入一個(gè)查詢?cè)~的情況下，根據(jù)關(guān)系表找到該詞的同義詞或近義詞，將包含所述同義詞或近義詞的網(wǎng)頁(yè)也作為搜索結(jié)果。目前，建立查詢?cè)~之間的關(guān)系主要有兩種實(shí)現(xiàn)方式，第一種為人工方式。這種方法的缺點(diǎn)是需要大量人力，而且由于網(wǎng)絡(luò)的更新速度較快，對(duì)網(wǎng)絡(luò)上出現(xiàn)的大量查詢?cè)~無(wú)法做到及時(shí)更新，通常只能做小范圍處理。第二種方法是通過(guò)兩個(gè)詞語(yǔ)在文本中的同現(xiàn)來(lái)建立它們的關(guān)聯(lián)關(guān)系，即基于語(yǔ)料庫(kù)的統(tǒng)計(jì)信息來(lái)建立同義、近義關(guān)系。常用的同現(xiàn)計(jì)算方式有同現(xiàn)概率和互信息。舉例說(shuō)明，例如X，Y是兩個(gè)詞，同現(xiàn)概率計(jì)算公式是P(X,Y同現(xiàn)) =同時(shí)包含X,Y的文本數(shù)量/文本總數(shù)，互信息計(jì)算公式是MI(X,Y)=P(X，Y同現(xiàn))/P(X)/P(Y);其中計(jì)算結(jié)果較大的認(rèn)為X，Y有聯(lián)系。根據(jù)上述計(jì)算公式，這種基于同現(xiàn)方法的缺點(diǎn)是由于同義詞或近義詞常常是以替代的形式出現(xiàn)，很少會(huì)包含在同一個(gè)網(wǎng)頁(yè)文本中，例如，"搜狐"和 "sohu"是同義詞，許多網(wǎng)頁(yè)中可能根據(jù)習(xí)慣只包含其中一個(gè)詞；因此，根據(jù)同現(xiàn)計(jì)算方式就不能精確找出具有同義或近義關(guān)系的詞語(yǔ)。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種重新定義查詢?cè)~的搜索方法及裝置，以解決現(xiàn)有的搜索方式只能將包含查詢?cè)~的網(wǎng)頁(yè)作為搜索結(jié)果，而不能精確搜索到包含該查詢?cè)~的同義或近義詞的網(wǎng)頁(yè)，造成搜索效果不能滿足用戶需求的問(wèn)題。為解決上述技術(shù)問(wèn)題，根據(jù)本發(fā)明提供的具體實(shí)施例，本發(fā)明公開(kāi)了以下技術(shù)方案一種重新定義查詢?cè)~的搜索方法，包括根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄；比較查詢?cè)~之間歷史記錄的相似度，并將相似度符合預(yù)置條件的判為相關(guān)詞；根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。優(yōu)選的，所述方法還包括對(duì)所述查詢?cè)~的歷史記錄進(jìn)行預(yù)處理，篩選出有效的歷史記錄；其中，所述有效歷史記錄包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)，以及對(duì)應(yīng)URL的有效查詢?cè)~及相應(yīng)的訪問(wèn)次數(shù)。其中，所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè) 查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL的點(diǎn)擊次數(shù)，將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有效URL。其中，所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè) 網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng)該URL的有效查詢?cè)~。優(yōu)選的，所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL的點(diǎn)擊次數(shù)，將點(diǎn)擊次數(shù)符合預(yù) 置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有效URL;針對(duì)所述有效URL,根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所4吏用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng)所述有效URL的有效查詢?cè)~；生成針對(duì)查詢?cè)~的有效歷史記錄，包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。優(yōu)選的，所述比較查詢?cè)~的歷史記錄來(lái)判斷相關(guān)詞的步驟包括根據(jù)查詢?cè)~的有效歷史記錄得到對(duì)應(yīng)查詢?cè)~的向量，所述向量包括對(duì)應(yīng)查詢?cè)~的有效URL和相應(yīng)的點(diǎn)擊次數(shù)；計(jì)算兩個(gè)向量的相似度，并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。優(yōu)選的，計(jì)算兩個(gè)向量的相似度之前，還包括對(duì)所述向量進(jìn)行歸一化計(jì)算。其中，所述比較查詢?cè)~的歷史記錄來(lái)判斷相關(guān)詞的步驟包括比較兩個(gè)詞的有效URL，將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。其中，所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果，和/或同時(shí)包含相關(guān)詞和查詢?cè)~的查詢結(jié)果。其中，如果將相關(guān)詞提供給用戶，還包括根據(jù)用戶選擇的相關(guān)詞，重新進(jìn)4亍查詢。優(yōu)選的，所述方法還包括對(duì)所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。一種重新定義查詢?cè)~的搜索裝置，包括曰志查詢單元，用于根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄；相關(guān)詞判斷單元，用于比較查詢?cè)~之間歷史記錄的相似度，并將相似度符合預(yù)置條件的判為相關(guān)詞；查詢重定義單元，用于根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。優(yōu)選的，所述裝置還包括有效歷史記錄篩選單元，用于對(duì)所述查詢?cè)~的歷史記錄進(jìn)行預(yù)處理，篩選出有效的歷史記錄；其中，所述有效歷史記錄包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)，以及對(duì)應(yīng)URL的有效查詢?cè)~及相應(yīng)的i方問(wèn)次數(shù)。其中，所述有效歷史記錄篩選單元包括第一篩選單元，用于根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL的點(diǎn)擊次數(shù)，將點(diǎn) 擊次數(shù)符合預(yù)置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有效URL。其中，所述有效歷史記錄篩選單元還包括第二篩選單元，用于根據(jù)搜索引擎曰志中對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng)該URL的有效查詢?cè)~。優(yōu)選的，所述有效歷史記錄篩選單元利用第一篩選單元獲得對(duì)應(yīng)查詢?cè)~的有效URL，針對(duì)所述有效URL，再利用第二篩選單元獲得對(duì)應(yīng)所述有效URL 的有效查詢?cè)~；然々，生成針對(duì)查詢?cè)~的有效歷史記錄，包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次凄史。優(yōu)選的，所述相關(guān)詞判斷單元包括第一判斷單元，負(fù)責(zé)根據(jù)查詢?cè)~的有效歷史記錄得到對(duì)應(yīng)查詢?cè)~的向量，所述向量包括對(duì)應(yīng)查詢?cè)~的有效URL和相應(yīng)點(diǎn)擊次數(shù)；計(jì)算兩個(gè)向量的相似度，并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。優(yōu)選的，所述第一判斷單元對(duì)所述向量進(jìn)行歸一化計(jì)算后，再計(jì)算兩個(gè)向量的相似度。其中，所述相關(guān)詞判斷單元包括第二判斷單元，負(fù)責(zé)比較兩個(gè)詞的有效 URL，將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。其中，所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果，和/或同時(shí)包含相關(guān)詞和查詢?cè)~的查詢結(jié)果。其中，如果查詢重定義單元將相關(guān)詞提供給用戶，則根據(jù)用戶選擇的相關(guān) 詞，重新進(jìn)4亍查詢。優(yōu)選的，所述查詢重定義單元對(duì)所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。根據(jù)本發(fā)明提供的具體實(shí)施例，本發(fā)明公開(kāi)了以下技術(shù)效果首先，本發(fā)明充分利用搜索引擎日志，獲得查詢?cè)~的歷史記錄，然后比較查詢?cè)~之間歷史記錄的相似度，將相似度符合預(yù)置條件的判為相關(guān)詞，這些相關(guān)詞是該查詢?cè)~的同義或近義詞；在用戶輸入查詢?cè)~進(jìn)行搜索時(shí)，搜索引擎根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。這樣就能將包含相關(guān)詞的網(wǎng)頁(yè)也一同搜索出來(lái)，解決了同義或近義詞常常以替代形式出現(xiàn)而無(wú)法被其他方法發(fā)現(xiàn)的問(wèn)題，從而提高了搜索質(zhì)量。其次，由于搜索引擎日志可以覆蓋近期的大部分查詢，同時(shí)用戶輸入的查詢?cè)~、點(diǎn)擊的URL與他的查詢意圖之間存在比較直接的聯(lián)系，在覆蓋度和準(zhǔn) 確性上具有一定優(yōu)勢(shì)，因此建立的查詢?cè)~相似度關(guān)系更緊密。再次，由于搜索引擎日志同步更新，所以所述整個(gè)流程也是在不斷更新，進(jìn)一步提高了搜索質(zhì)量，還有利于抓住網(wǎng)上流行的熱點(diǎn)。最后，有些詞(比如新聞詞匯)在特定的時(shí)期具有一些特殊的含義，同義或近義詞常常是以替代的形式出現(xiàn)，不會(huì)包含在同一個(gè)網(wǎng)頁(yè)文本中，基于同現(xiàn)的方法無(wú)法獲取這類詞；而搜索引擎日志具有更強(qiáng)的時(shí)效性，通過(guò)本發(fā)明所述方法能夠獲取到這類詞，并添加到查詢中。

圖l是現(xiàn)有技術(shù)中建立查詢?cè)~之間關(guān)系的方法示意圖；圖2是本發(fā)明實(shí)施例所述一種重新定義查詢?cè)~的搜索方法流程圖；圖3是本發(fā)明實(shí)施例所述一種重新定義查詢?cè)~的搜索裝置結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂，下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。本發(fā)明實(shí)施例提供了一種重新定義查詢?cè)~的搜索方法，利用搜索引擎日志來(lái)獲得查詢?cè)~的有效歷史記錄，然后計(jì)算查詢?cè)~之間有效歷史記錄的相似度，在查詢時(shí)選定相似詞加入原始查詢，生成新的查詢，這樣就能將包含同義或近義詞的網(wǎng)頁(yè)也一同搜索出來(lái)，解決了同義或近義詞常常以替代形式出現(xiàn)而無(wú)法被其他方法發(fā)現(xiàn)的問(wèn)題，從而提高了搜索質(zhì)量。舉例說(shuō)明，查詢?cè)~"搜狐"和"sohu"是同義詞，現(xiàn)有技術(shù)中當(dāng)用戶輸入"搜狐" 查詢時(shí)，搜索引擎會(huì)將包含該查詢?cè)~的網(wǎng)頁(yè)作為搜索結(jié)果展現(xiàn)給用戶，而本發(fā) 明會(huì)將包含"搜狐"的網(wǎng)頁(yè)以及包含"sohu"的網(wǎng)頁(yè)都返回給用戶。參照?qǐng)D2，是本發(fā)明實(shí)施例所述一種重新定義查詢?cè)~的搜索方法流程圖。步驟201,根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄。搜索引擎的日志系統(tǒng)記錄了用戶在搜索引擎上的進(jìn)行的行為，包含兩個(gè)方面其一，記錄用戶在搜索引擎上進(jìn)行的查詢；其二，記錄用戶在進(jìn)行一次查詢時(shí)點(diǎn)擊的網(wǎng)頁(yè)，例如用戶在"sogou"網(wǎng)站上搜索查詢?cè)~"sohu"時(shí)，點(diǎn)擊的網(wǎng)頁(yè)有http:〃www.sohu.com/、 http:〃news.sohu.com/等。本發(fā)明充分利用所述完備的搜索引擎查詢點(diǎn)擊日志，通過(guò)查詢?cè)撊罩究梢?得到第一，用戶在查詢某個(gè)查詢?cè)~時(shí)點(diǎn)擊了哪些網(wǎng)頁(yè)，每個(gè)網(wǎng)頁(yè)被訪問(wèn)了多少次；第二，輸入一個(gè)網(wǎng)址，得到點(diǎn)擊這個(gè)網(wǎng)址的查詢?cè)~，以及每個(gè)查詢?cè)~被訪問(wèn)了多少次。然后，利用所述日志記錄來(lái)建立詞與詞之間的關(guān)聯(lián)關(guān)系。優(yōu)選步驟202,對(duì)所述查詢?cè)~的歷史記錄進(jìn)行預(yù)處理，篩選出有效的歷史記錄。由于日志系統(tǒng)中的數(shù)據(jù)量非常大，而且日志系統(tǒng)中存在很多使用率較低的查詢?cè)~，如果對(duì)每個(gè)詞都計(jì)算它與其他詞的關(guān)系，則計(jì)算量非常大。并且，曰志記錄中存在一些噪聲，會(huì)影響后續(xù)步驟的處理。因此，本實(shí)施例需要先對(duì)這些日志記錄進(jìn)行預(yù)處理，盡量去除日志噪聲，篩選出有效的歷史記錄。本實(shí)施例采用以下兩個(gè)步驟來(lái)篩選有效的歷史記錄，這種方法僅作為本發(fā) 明的實(shí)施例進(jìn)行說(shuō)明，本發(fā)明不限定還有其他篩選方法。步驟a,根據(jù)對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL( Uniform Resoure Locator, 統(tǒng)一資源定位符)及每個(gè)網(wǎng)頁(yè)的點(diǎn)擊次數(shù)，篩選出對(duì)應(yīng)查詢?cè)~的有效URL。即對(duì)每個(gè)詞，從歷史記錄中篩選出用戶集中訪問(wèn)的一些網(wǎng)頁(yè)和訪問(wèn)次數(shù)作為有效的歷史記錄。例如，對(duì)于查詢?cè)~"搜狐"，其歷史記錄如下訪問(wèn)量 URL25778 http:〃www. sohu.com/ 2913 http:〃news.sohu.com/ 1784 http://business.sohu.com/其中，點(diǎn)擊網(wǎng)址http:〃www.sohu.com/的查詢比其它查詢高出數(shù)倍，可看作該詞對(duì)應(yīng)的有效URL。步驟b,根據(jù)對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，再對(duì)步驟a篩選出的有效URL進(jìn)一步篩選，得到對(duì)應(yīng)所述有效URL的有效查詢?cè)~。例如，對(duì)于上例中有效的URL: http:〃www.sohu.comA對(duì)應(yīng)的查詢?cè)~記錄如下訪問(wèn)量查詢?cè)~ 35978 sohu 25778 搜狐 4259 www.sohu.com其中，查詢?cè)~"sohu"和"搜狐"的訪問(wèn)量比其它的查詢?cè)~高出數(shù)倍，可視作該URL的有效查詢?cè)~。在篩選有效歷史記錄的過(guò)程中，將上述兩個(gè)步驟結(jié)合起來(lái)，可將日志記錄中點(diǎn)擊較少的查詢?cè)~和點(diǎn)擊較少的網(wǎng)頁(yè)都去除，并去除不相關(guān)的點(diǎn)擊，從而得到包含有效查詢?cè)~和有效URL的歷史記錄，即"查詢?cè)~-URL"對(duì)。例如，對(duì) 于查詢?cè)~"搜弧"，相應(yīng)的點(diǎn)擊URL中www.sohu.com的排名很高，但是在 www.sohu.com下，"搜弧，，的查詢不高，所以"搜弧"這個(gè)查詢?cè)~不是有效的查詢?cè)~，將^皮刪去。需要說(shuō)明的是，上述步驟a和步驟b在執(zhí)行時(shí)沒(méi)有特定的先后順序，可以先a后b,也可以先b后a;而且，所述兩個(gè)步驟也可以分別單獨(dú)使用，但通常是配合起來(lái)共同進(jìn)行篩選效果更好。步驟203，通過(guò)比較查詢?cè)~之間有效歷史記錄的相似度，建立查詢?cè)~之間的相關(guān)關(guān)系，并將有效歷史記錄相似的詞語(yǔ)作為相關(guān)詞。根據(jù)步驟202得到對(duì)應(yīng)查詢?cè)~的有效歷史記錄后，將有效URL和相應(yīng)的訪問(wèn)量構(gòu)成一個(gè)向量，例如針對(duì)查詢?cè)~"搜狐"，其向量為[www.sohu.com， 25778]。通過(guò)比較兩個(gè)向量的相似度，可以得到兩個(gè)查詢?cè)~的相似度，選中其中相似度高的詞作為相關(guān)詞。所述相關(guān)詞通常是指在自然語(yǔ)言上具有同義或近義關(guān)系的詞，例如"搜弧"而是包含根據(jù)以下過(guò)程獲得的查詢?cè)~，所述過(guò)程如下根據(jù)搜索引擎日志中記錄的網(wǎng)頁(yè)URL,可以得到點(diǎn)擊這個(gè)網(wǎng)址的查詢?cè)~，這些查詢?cè)~之間都具有本發(fā)明所述的相關(guān)關(guān)系；或者，針對(duì)某一查詢?cè)~a，根據(jù)搜索引擎日志獲得對(duì)應(yīng)該查詢?cè)~的網(wǎng)頁(yè)URL,然后再針對(duì)每個(gè)網(wǎng)頁(yè)URL找到點(diǎn)擊相應(yīng)URL的查詢?cè)~b,查詢?cè)~b與查詢?cè)~a就具有相關(guān)關(guān)系。優(yōu)選的，還可以通過(guò)上述步驟a和步驟b得到有效相關(guān)詞。例如，才艮據(jù)步驟b直接篩選出有效相關(guān)詞，或者根據(jù)步驟a和b共同篩選出有效相關(guān)詞。計(jì)算向量相似度的方法有多種，本實(shí)施例在此介紹其中的兩種，如下第一種，通過(guò)簡(jiǎn)單計(jì)算兩個(gè)詞公共的有效URL比例，判斷向量的相似度。所述方法是指比較兩個(gè)詞的向量中相同的URL,將比較結(jié)果符合預(yù)置條件的判為相似。其中一種方式是將向量中所有的有效URL都相同的詞判為相關(guān)詞，例^r:兩個(gè)詞"sohu，，和"搜狐"，"sohu，，對(duì)應(yīng)的有效URL只有www,sohu,com， "搜狐，，對(duì)應(yīng)的有效URL也只有www.sohu.com,即他們對(duì)應(yīng)的有效URL都是www.sohu.com,則將"sohu"和"搜狐"判為相關(guān)詞；兩個(gè)詞"新聞，，和"news","新聞"對(duì)應(yīng)的有效URL有2個(gè)，分別是 news.sina.com.cn和news.sohu.com; "news " 對(duì)應(yīng)的有效URL也只有2個(gè)，分別是news.sina.com.cn和news.sohu.com。這沖羊，"l斤聞"和"news"對(duì)應(yīng)的有效URL都是news.sina.com.cn和news.sohu.com，貝'J將所述兩個(gè)詞判為相似。這種方法僅僅將有效URL完全相同的兩個(gè)詞判為相似，本實(shí)施例還提供了另一種判斷方式，主要是針對(duì)兩個(gè)詞的有效URL部分相同的情況。例如，有些詞語(yǔ)是同義或近義關(guān)系，其對(duì)應(yīng)的URL列表有部分重疊而不完全相同，這時(shí)在比較兩個(gè)詞的有效URL時(shí)，通過(guò)確定預(yù)置的閾值，保證選中的詞語(yǔ)對(duì)具有一定的相似性。由上可知，上述第一種方式是第二種方式的特例。第二種方式中當(dāng)閾值為 100%時(shí)，即兩個(gè)查詢?cè)~的有效URL列表完全重疊時(shí)，即為第一種情況。第二種，對(duì)進(jìn)行比較的向量進(jìn)行量化計(jì)算。j叚設(shè)針對(duì)某個(gè)查詢?cè)~a,其對(duì)應(yīng)的有效歷史記錄為(Ui, Nai)， i=l,2,...n;其中，Ui表示對(duì)應(yīng)的第i個(gè)有效URL, Nai表示對(duì)應(yīng)該URL用戶使用該詞a進(jìn)行查詢的次數(shù)。所述有效歷史記錄可以表示成一個(gè)n維向量，每一維對(duì) 應(yīng)一個(gè)有效的URL及相應(yīng)的訪問(wèn)次數(shù)。在比較兩個(gè)詞的相似度時(shí)，將上述方式表示的向量帶入相似度計(jì)算公式計(jì) 算，然后將計(jì)算值符合閾值的判為相似。其中，相似度計(jì)算可以采用的公式包括K-L散度公式(庫(kù)爾貝克一萊布勒散度)、歐式距離、余弦公式等等公式，本發(fā)明在此不作限定。經(jīng)過(guò)上述步驟，搜索引擎系統(tǒng)建立起一張相關(guān)詞列表。步驟204，用戶輸入查詢?cè)~進(jìn)行檢索時(shí)，搜索引擎根據(jù)相關(guān)詞列表查找到只十應(yīng)該查詢?cè)~的相關(guān)詞，然后在返回該查詢?cè)~結(jié)果時(shí)，還可以將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。即將相關(guān)詞作為用戶輸入的補(bǔ)充加入原始查詢，生成新的查詢，將該查詢?cè)~和相關(guān)詞都作為搜索關(guān)鍵詞，分別進(jìn)行搜索。搜索引擎最后返回的查詢結(jié)果包括以下三種情況第一種，僅包含該查詢詞的網(wǎng)頁(yè)信息；第二種，同時(shí)包含該查詢?cè)~和相關(guān)詞的網(wǎng)頁(yè)信息；第三種，僅包含相關(guān)詞的網(wǎng)頁(yè)信息。根據(jù)查詢結(jié)果與查詢?cè)~的相關(guān)程度，搜索引擎在排序靠前的查詢結(jié)果中會(huì)將這三種網(wǎng)頁(yè)信息都提供給用戶，也可能僅提供其中的一種或兩種結(jié)果。舉例說(shuō)明，以查詢?cè)~"搜狐"和"sohu"為例第一種用"搜狐"作為查詢?cè)~，查詢結(jié)果里只含有"搜狐"不含有"sohu"; 第二種用"搜狐，，作為查詢?cè)~，查詢結(jié)果里既含有"搜狐，，又含有"sohu"; 第三種用"搜狐"作為查詢?cè)~，查詢結(jié)果里只含有"sohu"不含有"搜狐"。在現(xiàn)有技術(shù)中，利用目前的搜索引擎得到的查詢結(jié)果包括第一種和第二種情況，即搜索引擎將包含查詢?cè)~"搜狐"的網(wǎng)頁(yè)作為查詢結(jié)果。而利用本發(fā)明實(shí)施例所述方法，搜索引擎獲得的查詢結(jié)果包括以上三種情況。針對(duì)第三種查詢結(jié)果，用戶輸入查詢?cè)~"搜狐"，本發(fā)明搜索引擎首先找到該詞的相關(guān)詞 "sohu"，然后將僅包含"sohu"的網(wǎng)頁(yè)檢索出來(lái)。針對(duì)第二種情況，查詢結(jié) 果中同時(shí)包含"搜狐"和"sohu"，本發(fā)明搜索引擎根據(jù)查詢?cè)~"搜狐"可以檢索出，也可以根據(jù)相關(guān)詞"sohu，，檢索出。綜上所述，本發(fā)明與現(xiàn)有技術(shù)的區(qū)別在于現(xiàn)有技術(shù)僅僅能將包含查詢?cè)~ "搜狐"的網(wǎng)頁(yè)檢索出，而不能把僅包含相關(guān)詞"sohu"的網(wǎng)頁(yè)檢索出；本發(fā) 明即可以將僅包含查詢?cè)~"搜狐"的網(wǎng)頁(yè)檢索出，也可以把僅包含相關(guān)詞"sohu" 的網(wǎng)頁(yè)檢索出，還可以把同時(shí)包含"搜狐"和"sohu"的網(wǎng)頁(yè)檢索出來(lái)。由此可見(jiàn)，利用本發(fā)明得到的搜索結(jié)果更準(zhǔn)確，能夠給用戶帶來(lái)更好的搜索體驗(yàn)。再舉例，現(xiàn)有技術(shù)中，用"搜狐"作為查詢?cè)~時(shí)，返回的網(wǎng)頁(yè)有A、 B、 C、 D,用"sohu"作為查詢?cè)~時(shí)返回的網(wǎng)頁(yè)是A、 B、 E、 F。其中，網(wǎng)頁(yè)A、 B即包含"搜狐"又包含"sohu",網(wǎng)頁(yè)C、 D僅包含"搜狐"，網(wǎng)頁(yè)E、 F僅包含"sohu"。應(yīng)用本發(fā)明后，當(dāng)用戶用"搜狐"作為查詢?cè)~時(shí)，搜索引擎會(huì)將"搜狐"和"sohu"都作為查詢?cè)~，分別進(jìn)行查詢，最終為用戶提供A、 B、 C、 D、 E、 F的網(wǎng)頁(yè)內(nèi)容。此外，本實(shí)施例還可以將該查詢?cè)~的相關(guān)詞作為查詢結(jié)果提供給用戶，即在查詢結(jié)果頁(yè)面中列出相應(yīng)的相關(guān)詞。這時(shí)，搜索引擎會(huì)根據(jù)用戶選擇的相關(guān) 詞，進(jìn)行重新查詢。即用戶點(diǎn)擊相關(guān)詞，搜索引擎將所述相關(guān)詞作為查詢?cè)~，再次進(jìn)行查詢。例如，用戶輸入查詢?cè)~"搜狐"，搜索引擎的結(jié)果頁(yè)面中不僅列出對(duì)應(yīng)"搜狐"的查詢結(jié)果，還會(huì)將相關(guān)詞"sohu"列出作為提示信息，用戶繼續(xù)點(diǎn)擊"sohu",搜索引擎就會(huì)將對(duì)應(yīng)"sohu，，的查詢結(jié)果提供給用戶。或者，搜索引擎將對(duì)應(yīng)"搜狐"和"sohu"的查詢結(jié)果都列出來(lái)，同時(shí)將相關(guān) 詞"sohu"也列出來(lái)供用戶參考。本發(fā)明實(shí)施例優(yōu)選的，還會(huì)對(duì)查詢結(jié)果中出現(xiàn)的相關(guān)詞進(jìn)行標(biāo)紅。所述標(biāo) 紅是指在查詢結(jié)果中將查詢?cè)~以彩色標(biāo)注出來(lái)，以方便用戶查看。由于有些查詢結(jié)果的頁(yè)面中并沒(méi)有列出相應(yīng)的查詢?cè)~或相關(guān)詞，所以僅對(duì)出現(xiàn)在查詢結(jié)果的自動(dòng)摘要或網(wǎng)頁(yè)鏈接等位置的查詢?cè)~和相關(guān)詞標(biāo)紅。在現(xiàn)有技術(shù)中，針對(duì)查詢?cè)~的查詢結(jié)果中就會(huì)將出現(xiàn)的查詢?cè)~標(biāo)紅，而本發(fā)明會(huì)將查詢結(jié)果中出現(xiàn)的查詢?cè)~和相關(guān)詞都標(biāo)紅。將本發(fā)明與現(xiàn)有技術(shù)對(duì)比上例中，現(xiàn)有技術(shù)的查詢結(jié)果包括第一種和第二種情況，標(biāo)紅的查詢?cè)~為"搜狐"；而本發(fā)明的查詢結(jié)果包括所述三種情況，標(biāo)紅的查詢?cè)~既有"搜狐"，還有"搜狐"的相關(guān)詞"sohu"。區(qū)別尤其明顯的是第二種查詢結(jié)果里既含有"搜狐"又含有"sohu"的情況，現(xiàn)有技術(shù)只將"搜狐"標(biāo)紅，本發(fā)明會(huì)同時(shí)將"搜狐"和"sohu，，都標(biāo)紅。此外，針對(duì)日志噪聲的問(wèn)題，還可以有多種去噪方法，例如www.sohu.com對(duì)應(yīng)的查詢?cè)~"搜弧"是錯(cuò)別字造成的查詢?cè)~，由于該站點(diǎn)的知名度較高，"搜弧"的查詢量可能比某些小站點(diǎn)的查詢?cè)~點(diǎn)擊量要高出很多，但是小站點(diǎn)中查詢?cè)~和URL的關(guān)系可能要更緊密一些。如果將小站點(diǎn) 的查詢?cè)~與大站點(diǎn)的查詢?cè)~進(jìn)行相似度比較，是沒(méi)有可比性的。因此，需要找到一些特征，濾掉這些大站點(diǎn)下的噪聲，同時(shí)加強(qiáng)對(duì)小站點(diǎn)的處理能力。解決方法是采用歸一化方法，就是用每個(gè)部分去除整體，然后得到占整體的百分?jǐn)?shù)，把數(shù)據(jù)映射到0~1范圍之內(nèi)處理。如果畫出了各個(gè)部分的圖象，那么圖象的積分應(yīng)該是l,就像正態(tài)分布。例如，設(shè)一個(gè)向量為V，.則歸一化后為V/||V||。例如對(duì)向量(Ui,Nai)，i=l,2,...n 進(jìn)行歸一化處理，得到 (Nal/N，Na2/N，...，Nan/N),其中N為該詞所有的URL的訪問(wèn)數(shù)之和。綜上所述，本發(fā)明充分利用了搜索引擎的日志信息，通過(guò)挖掘相似詞匯并加入查詢串中以彌補(bǔ)單個(gè)用戶輸入信息量的不足，提高了搜索質(zhì)量。而且，搜索引擎的日志在同步更新，所以所述整個(gè)流程也是在不斷更新，進(jìn)一步提高了搜索質(zhì)量，還有利于抓住網(wǎng)上流行的熱點(diǎn)。其次，由于搜索引擎日志可以覆蓋近期的大部分查詢，同時(shí)用戶輸入的查詢?cè)~、點(diǎn)擊的URL與他的查詢意圖之間存在比較直接的聯(lián)系，在覆蓋度和準(zhǔn) 確性上具有一定優(yōu)勢(shì)，因此建立的查詢?cè)~相似度關(guān)系更緊密。而且，針對(duì)在特定時(shí)期具有一些特殊含義的詞語(yǔ)，比如新聞詞匯，基于同現(xiàn)的方法無(wú)法獲取這類詞；而搜索引擎日志具有更強(qiáng)的時(shí)效性，通過(guò)本發(fā)明所述方法能夠獲取到這類詞，并添加到查詢中。針對(duì)上述方法，本發(fā)明還提供了一種重新定義查詢?cè)~的搜索裝置實(shí)施例。參照?qǐng)D3,是所述裝置的結(jié)構(gòu)圖。所述裝置主要包括日志查詢單元301，相關(guān) 詞判斷單元302,查詢重定義單元303，以及優(yōu)選設(shè)置的有效歷史記錄篩選單元304。所述日志查詢單元301負(fù)責(zé)從搜索引擎的日志系統(tǒng)中獲取歷史記錄，所述歷史記錄包括對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL的點(diǎn)擊次數(shù)，以及對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所4吏用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次凄t。由于日志系統(tǒng)中的數(shù)據(jù)量非常大，而且曰志記錄中存在一些噪聲，會(huì)影響后續(xù)的處理。因此，本實(shí)施例設(shè)置有效歷史記錄篩選單元304，需要先對(duì)這些曰志記錄進(jìn)行預(yù)處理，盡量去除日志噪聲，篩選出有效的歷史記錄。所述有效歷史記錄篩選單元304主要負(fù)責(zé)從搜索引擎的日志系統(tǒng)中篩選出有效的歷史記錄，根據(jù)篩選方法的不同，可以分為第一篩選單元和第二篩選單元。所述第一篩選單元用于根據(jù)對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè) 網(wǎng)頁(yè)的點(diǎn)擊次數(shù)，篩選出對(duì)應(yīng)查詢?cè)~的有效URL;所述第二篩選單元用于才艮據(jù)對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所4吏用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，篩選出對(duì)應(yīng)所述有效URL的有效查詢?cè)~。所述兩個(gè)單元可以單獨(dú)使用，分別獲得有效的 URL和有效的查詢?cè)~。一種優(yōu)選的方式是，有效歷史記錄篩選單元304同時(shí)使用所述兩個(gè)單元來(lái) 獲得針對(duì)查詢?cè)~的有效歷史記錄。篩選方式是利用第一篩選單元獲得對(duì)應(yīng)查詢?cè)~的有效URL,針對(duì)所述有效URL,再利用第二篩選單元獲得對(duì)應(yīng)所述有效URL的有效查詢?cè)~；然后，生成針對(duì)查詢?cè)~的有效歷史記錄，包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。相關(guān)詞判斷單元302負(fù)責(zé)通過(guò)計(jì)算查詢?cè)~之間有效歷史記錄的相似度，建立查詢?cè)~之間的相關(guān)關(guān)系，并將有效歷史記錄相似的詞語(yǔ)作為相關(guān)詞，最后得到一張相關(guān)詞列表。根據(jù)相似度的計(jì)算及判斷方式不同，相關(guān)詞判斷單元202 可分為第一判斷單元和第二判斷單元。其中，第一判斷單元采用的方式是對(duì)進(jìn)行比較的查詢?cè)~向量進(jìn)行量化計(jì) 算，將查詢?cè)~對(duì)應(yīng)的向量帶入相似度計(jì)算公式計(jì)算，然后將計(jì)算值符合闊值的判為相似。其中，相似度計(jì)算可以采用的公式包括K-L散度公式、歐式距離、余弦公式等等公式。第二判斷單元負(fù)責(zé)通過(guò)比較兩個(gè)詞的有效URL,將有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。一種情況是，如果兩個(gè)詞的有效URL有部分重疊而不完全相同，則第二判斷單元在比較兩個(gè)詞的有效URL時(shí)，通過(guò)確定預(yù)置的閾值，保證選中的詞語(yǔ)對(duì)具有一定的相似性。還有一種特殊情況是，當(dāng)設(shè)置所述閾值為100°/。時(shí)，即兩個(gè)查詢?cè)~的有效URL列表完全重疊時(shí)，才判為相關(guān) 詞。查詢重定義單元303負(fù)責(zé)在用戶輸入查詢?cè)~進(jìn)行檢索時(shí)，根據(jù)相關(guān)詞列表查找到對(duì)應(yīng)該查詢?cè)~的相關(guān)詞，然后將相關(guān)詞作為用戶輸入的補(bǔ)充加入原始查詢，生成新的查詢。即將該查詢?cè)~和相關(guān)詞都作為搜索關(guān)4走詞，分別進(jìn)行搜索。搜索結(jié)果包括三種情況第一種，僅包含該查詢?cè)~的網(wǎng)頁(yè)信息；第二種，同時(shí) 包含該查詢?cè)~和相關(guān)詞的網(wǎng)頁(yè)信息；第三種，僅包含相關(guān)詞的網(wǎng)頁(yè)信息。此外，查詢重定義單元303還可以將該查詢?cè)~的相關(guān)詞作為查詢結(jié)果纟是供給用戶，即在查詢結(jié)果頁(yè)面中列出相應(yīng)的相關(guān)詞。這時(shí)，查詢重定義單元303會(huì)根據(jù)用戶選擇的相關(guān)詞，進(jìn)行重新查詢。優(yōu)選的，查詢重定義單元303不僅將查詢結(jié)果中出現(xiàn)的查詢?cè)~標(biāo)紅，還將出現(xiàn)的相關(guān)詞也進(jìn)行標(biāo)紅。例如，查詢結(jié)果里既含有"搜狐"又含有"sohu" 的情況，現(xiàn)有技術(shù)只將"搜狐"標(biāo)紅，本發(fā)明會(huì)同時(shí)將"搜狐"和"sohu"都標(biāo)紅。圖3所示裝置中未詳述的部分可以參見(jiàn)圖2所示方法的相關(guān)部分，為了篇幅考慮，在此不再詳述。以上對(duì)本發(fā)明所提供的一種重新定義查詢?cè)~的搜索方法及裝置，進(jìn)行了詳實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng) 域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處。綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種重新定義查詢?cè)~的搜索方法，其特征在于，包括根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄；比較查詢?cè)~之間歷史記錄的相似度，并將相似度符合預(yù)置條件的判為相關(guān)詞；根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于，還包括對(duì)所述查詢?cè)~的歷史記錄進(jìn)行預(yù)處理，篩選出有效的歷史記錄；其中，所述有效歷史記錄包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)，以及對(duì)應(yīng)URL的有效查詢?cè)~及相應(yīng)的訪問(wèn)次數(shù)。
3、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL 的點(diǎn)擊次數(shù)，將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有效 URL。
4、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述篩選有效歷史記錄的步驟包括才艮據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng)該URL的有效查詢詞。
5、根據(jù)權(quán)利要求2所述的方法，其特征在于，所述篩選有效歷史記錄的步驟包括根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng)頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL 的點(diǎn)擊次數(shù)，將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有效 URL;針對(duì)所述有效URL，根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng) 所述有效URL的有效查詢?cè)~；生成針對(duì)查詢?cè)~的有效歷史記錄，包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。
6、根據(jù)權(quán)利要求1所述的方法，其特征在亍，所述比較查詢?cè)~的歷史記錄來(lái)判斷相關(guān)詞的步驟包括根據(jù)查詢?cè)~的有效歷史記錄得到對(duì)應(yīng)查詢?cè)~的向量，所述向量包括對(duì)應(yīng)查詢?cè)~的有效URL和相應(yīng)的點(diǎn)擊次數(shù)；計(jì)算兩個(gè)向量的相似度，并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。
7、根據(jù)權(quán)利要求6所述的方法，其特征在于，計(jì)算兩個(gè)向量的相似度之前，還包括對(duì)所述向量進(jìn)行歸一化計(jì)算。
8、根據(jù)權(quán)利要求1所述的方法，其特征在于，所述比較查詢?cè)~的歷史記錄來(lái)判斷相關(guān)詞的步驟包括比較兩個(gè)詞的有效URL,將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。
9、根據(jù)權(quán)利要求1所述的方法，其特征在于所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果，和/或同時(shí)包含相關(guān)詞和查詢?cè)~的查詢結(jié)果。
10、根據(jù)權(quán)利要求1所述的方法，其特征在于，如果將相關(guān)詞提供給用戶，還包括根據(jù)用戶選擇的相關(guān)詞，重新進(jìn)行查詢。
11、根據(jù)權(quán)利要求1或9所述的方法，其特征在于，還包括對(duì)所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。
12、一種重新定義查詢?cè)~的搜索裝置，其特征在于，包括曰志查詢單元，用于根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄；相關(guān)詞判斷單元，用于比較查詢?cè)~之間歷史記錄的相似度，并將相似度符合預(yù)置條件的判為相關(guān)詞；查詢重定義單元，用于根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。
13、根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述裝置還包括有效歷史記錄篩選單元，用于對(duì)所述查詢?cè)~的歷史記錄進(jìn)行預(yù)處理，篩選出有效的歷史記錄；其中，所述有效歷史記錄包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn) 擊次數(shù)，以及對(duì)應(yīng)URL的有效查詢?cè)~及相應(yīng)的訪問(wèn)次數(shù)。
14、根據(jù)權(quán)利要求13所述的裝置，其特征在于所述有效歷史記錄篩選單元包括第一篩選單元，用于根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)查詢?cè)~所點(diǎn)擊的網(wǎng) 頁(yè)URL及每個(gè)網(wǎng)頁(yè)URL的點(diǎn)擊次數(shù)，將點(diǎn)擊次數(shù)符合預(yù)置條件的URL篩選為對(duì)應(yīng)該查詢?cè)~的有j文URL。
15、根據(jù)權(quán)利要求14所述的裝置，其特征在于所述有效歷史記錄篩選單元還包括第二篩選單元，用于根據(jù)搜索引擎日志中對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)URL所使用的查詢?cè)~及每個(gè)查詢?cè)~的訪問(wèn)次數(shù)，將訪問(wèn)次數(shù)符合預(yù)置條件的查詢?cè)~篩選為對(duì)應(yīng)該URL的有歲丈查詢?cè)~。
16、根據(jù)權(quán)利要求15所述的裝置，其特征在于所述有效歷史記錄篩選單元利用第一篩選單元獲得對(duì)應(yīng)查詢?cè)~的有效URL，針對(duì)所述有效URL,再利用第二篩選單元獲得對(duì)應(yīng)所述有效URL的有效查詢?cè)~；然后，生成針對(duì)查詢?cè)~的有效歷史記錄，包括對(duì)應(yīng)查詢?cè)~的有效URL及相應(yīng)的點(diǎn)擊次數(shù)。
17、根據(jù)權(quán)利要求12所述的裝置，其特征在于所述相關(guān)詞判斷單元包括第一判斷單元，負(fù)責(zé)才艮據(jù)查詢?cè)~的有效歷史記錄得到對(duì)應(yīng)查詢?cè)~的向量，所述向量包括對(duì)應(yīng)查詢?cè)~的有效URL和相應(yīng)點(diǎn)擊次數(shù)；計(jì)算兩個(gè)向量的相似度，并將計(jì)算結(jié)果符合預(yù)置條件的兩個(gè)詞判為相關(guān)詞。
18、根據(jù)權(quán)利要求17所述的裝置，其特征在于所述第一判斷單元對(duì)所述向量進(jìn)行歸一化計(jì)算后，再計(jì)算兩個(gè)向量的相似度。
19、根據(jù)權(quán)利要求12所述的裝置，其特征在于所述相關(guān)詞判斷單元包括第二判斷單元，負(fù)責(zé)比較兩個(gè)詞的有效URL,將兩個(gè)詞的有效URL的相似度符合預(yù)置條件的判為相關(guān)詞。
20、根據(jù)權(quán)利要求12所述的裝置，其特征在于所述相關(guān)詞的查詢結(jié)果為僅包含相關(guān)詞的查詢結(jié)果，和/或同時(shí)包含相關(guān)詞和查詢?cè)~的查詢結(jié)果。
21、根據(jù)權(quán)利要求12所述的裝置，其特征在于如果查詢重定義單元將相關(guān)詞提供給用戶，貝'J根據(jù)用戶選擇的相關(guān)詞，重新進(jìn)行查詢。
22、根據(jù)權(quán)利要求12或20所述的裝置，其特征在于所述查詢重定義單元對(duì)所述查詢結(jié)果中出現(xiàn)的相關(guān)詞標(biāo)紅。
全文摘要
本發(fā)明公開(kāi)了一種重新定義查詢?cè)~的搜索方法及裝置，解決現(xiàn)有的搜索方式只能將包含查詢?cè)~的網(wǎng)頁(yè)作為搜索結(jié)果，而不能精確搜索到包含該查詢?cè)~的同義或近義詞的網(wǎng)頁(yè)，造成搜索效果不能滿足用戶需求的問(wèn)題。所述方法包括根據(jù)搜索引擎日志，獲得查詢?cè)~的歷史記錄；比較查詢?cè)~之間歷史記錄的相似度，并將相似度符合預(yù)置條件的判為相關(guān)詞；根據(jù)查詢?cè)~搜索時(shí)，將相應(yīng)的相關(guān)詞或相關(guān)詞的查詢結(jié)果提供給用戶。本發(fā)明能將僅包含相關(guān)詞的網(wǎng)頁(yè)也一同搜索出來(lái)，解決了同義或近義詞常常以替代形式出現(xiàn)而無(wú)法被其他方法發(fā)現(xiàn)的問(wèn)題，從而提高了搜索質(zhì)量。
文檔編號(hào)G06F17/30GK101241512SQ20081010164
公開(kāi)日2008年8月13日申請(qǐng)日期2008年3月10日優(yōu)先權(quán)日2008年3月10日
發(fā)明者張智敏, 王靜帆申請(qǐng)人:北京搜狗科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王靜帆;張智敏
技術(shù)所有人：北京搜狗科技發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：一種計(jì)算機(jī)機(jī)箱的制作方法
上一篇：一種線面疊加方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

登記查詢相關(guān)技術(shù)

裝置的同義詞相關(guān)技術(shù)

檢查裝置氣密性的方法相關(guān)技術(shù)

檢驗(yàn)裝置氣密性的方法相關(guān)技術(shù)

查詢記錄相關(guān)技術(shù)

裝置氣密性檢查方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種重新定義查詢?cè)~的搜索方法及裝置的制作方法