進(jìn)行數(shù)據(jù)搜索的方法及搜索服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了進(jìn)行數(shù)據(jù)搜索的方法及搜索服務(wù)器,其中,該方法包括:從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄;從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),所述特征參數(shù)包括查詢?cè)~被查詢的總次數(shù)Qv和查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv;由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~;對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。本發(fā)明方案能夠提高數(shù)據(jù)搜索時(shí)顯示提示詞的準(zhǔn)確性。
【專利說明】進(jìn)行數(shù)據(jù)搜索的方法及搜索服務(wù)器
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理技術(shù),尤其涉及進(jìn)行數(shù)據(jù)搜索的方法及搜索服務(wù)器。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中,進(jìn)行數(shù)據(jù)搜索時(shí),用戶在搜索網(wǎng)頁的查詢欄中輸入查詢?cè)~,向搜索服 務(wù)器發(fā)送包含查詢?cè)~的查詢請(qǐng)求,接收搜索服務(wù)器反饋關(guān)于查詢?cè)~的搜索條目;之后,用戶 可點(diǎn)擊搜索條目,以切換到該搜索條目對(duì)應(yīng)的網(wǎng)頁查詢?cè)敿?xì)內(nèi)容。
[0003] 在用戶輸入查詢?cè)~的過程中,搜索服務(wù)器會(huì)根據(jù)用戶輸入的過程信息反饋聯(lián)想 詞,以顯示在網(wǎng)頁的智能提示欄中;用戶可直接點(diǎn)擊聯(lián)想詞,以作為查詢?cè)~,發(fā)送給搜索服 務(wù)器。并且,在顯示搜索條目時(shí),網(wǎng)頁在相關(guān)搜索欄還會(huì)顯示與查詢?cè)~關(guān)聯(lián)的相關(guān)搜索詞, 一般地,相關(guān)搜索欄置于網(wǎng)頁下端。
[0004] 舉例進(jìn)行說明,想要輸入的查詢?cè)~為ABC,當(dāng)輸入到AB時(shí),即過程信息為AB,聯(lián)想 詞里包括ABC、阿波羅、ABB等,這時(shí)可以直接選中ABC;進(jìn)行查詢之后,相關(guān)搜索欄中顯示的 相關(guān)搜索詞包括智能ABC輸入法、ABC兒歌等。
[0005] 用戶的搜索行為記錄在搜索日志中,搜索服務(wù)器對(duì)搜索日志進(jìn)行分析,來確定各 查詢?cè)~的聯(lián)想詞和相關(guān)搜索詞。分析方法有多種,舉例說明:對(duì)于查詢?cè)~ABC,如果搜索日 志中記錄的以"ABC公司最好"為查詢?cè)~進(jìn)行查詢的次數(shù)大于設(shè)定閾值,則將"ABC公司最 好"作為ABC的聯(lián)想詞和相關(guān)搜索詞,分別放入聯(lián)想詞庫和相關(guān)搜索詞庫中。這里,將聯(lián)想 詞和相關(guān)搜索詞統(tǒng)稱為提示詞。
[0006] 在實(shí)際運(yùn)用中,存在采用機(jī)器操作頻繁輸入查詢?cè)~,以增加某查詢?cè)~的搜索次數(shù), 進(jìn)而將其設(shè)置到聯(lián)想詞庫和相關(guān)搜索詞庫中,以提高該查詢?cè)~為用戶點(diǎn)擊的幾率。這導(dǎo)致 搜索時(shí)顯示提示詞的準(zhǔn)確性較低。
[0007] 目前,機(jī)器操作一般具有搜索頻率較高的特點(diǎn),例如為1分鐘10次查詢,因而,為 了避免機(jī)器操作,常采用如下的解決方式:對(duì)用戶關(guān)于某查詢?cè)~的搜索頻率進(jìn)行判斷,如果 大于設(shè)定閾值,例如大于1分鐘5次,則判斷為機(jī)器操作,對(duì)其進(jìn)行標(biāo)記,不將其作為提示 詞。但該方式存在以下缺陷:如果機(jī)器操作時(shí)將搜索頻率降低,例如為1分鐘1次,則無法 對(duì)其進(jìn)行避免,仍為將其確定為提示詞,導(dǎo)致搜索時(shí)顯示提示詞的準(zhǔn)確性很低。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明提供了一種進(jìn)行數(shù)據(jù)搜索的方法,該方法能夠提高數(shù)據(jù)搜索時(shí)顯示提示詞 的準(zhǔn)確性。
[0009] 本發(fā)明提供了一種進(jìn)行數(shù)據(jù)搜索的搜索服務(wù)器,該搜索服務(wù)器提高數(shù)據(jù)搜索時(shí)顯 示提示詞的準(zhǔn)確性。
[0010] 一種進(jìn)行數(shù)據(jù)搜索的方法,該方法包括:
[0011] 從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄;
[0012] 從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),所述特征參數(shù)包括查詢?cè)~被查詢的 總次數(shù)Qv和查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv ;
[0013] 由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~;
[0014] 對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。
[0015] 一種進(jìn)行數(shù)據(jù)搜索的搜索服務(wù)器,該搜索服務(wù)器包括搜索記錄提取單元、特征參 數(shù)統(tǒng)計(jì)單元、異常查詢?cè)~確定單元和標(biāo)記單元;
[0016] 所述搜索記錄提取單元,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄,發(fā)送給 所述特征參數(shù)統(tǒng)計(jì)單元;
[0017] 所述特征參數(shù)統(tǒng)計(jì)單元,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),發(fā)送給所 述異常查詢?cè)~確定單元,所述特征參數(shù)包括查詢?cè)~被查詢的總次數(shù)Qv和查詢?cè)~對(duì)應(yīng)的查 詢前驅(qū)行為為空的查詢次數(shù)NoReferQv ;
[0018] 所述異常查詢?cè)~確定單元,由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~;
[0019] 所述標(biāo)記單元,對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。
[0020] 從上述方案可以看出,本發(fā)明中,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記 錄;對(duì)提取出的搜索記錄進(jìn)行分析,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),所述 特征參數(shù)包括查詢?cè)~被查詢的總次數(shù)Q v,查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù) NoReferQv ;根據(jù)Qv、NoReferQv進(jìn)行判斷,確定出異常查詢?cè)~;對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以 使聯(lián)想詞庫和相關(guān)搜索詞庫中的異常查詢?cè)~不用于后續(xù)的搜索處理。本發(fā)明基于查詢?cè)~被 查詢的總次數(shù)Qv,查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv,進(jìn)行異常查詢 詞的判斷,而不采用基于搜索頻率來確定異常查詢?cè)~,這樣,對(duì)于機(jī)器操作搜索頻率較低的 情況,可避免將其確定為提示詞,從而,提高了數(shù)據(jù)搜索時(shí)顯示提示詞的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0021] 圖1為本發(fā)明進(jìn)行數(shù)據(jù)搜索的方法示意性流程圖;
[0022] 圖2為本發(fā)明進(jìn)行數(shù)據(jù)搜索的方法流程圖實(shí)例;
[0023] 圖3為本發(fā)明進(jìn)行數(shù)據(jù)搜索的系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對(duì)本 發(fā)明進(jìn)一步詳細(xì)說明。
[0025] 本發(fā)明基于查詢?cè)~的多個(gè)特征參數(shù)確定其是否為異常查詢?cè)~,而不再僅基于搜索 頻率來確定異常查詢?cè)~;這樣,對(duì)于機(jī)器操作搜索頻率較低的情況,可避免將其確定為提示 詞,提高了數(shù)據(jù)搜索時(shí)顯示提示詞的準(zhǔn)確性。
[0026] 參見圖1,為本發(fā)明進(jìn)行數(shù)據(jù)搜索的方法示意性流程圖,其包括以下步驟:
[0027] 步驟101,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄。
[0028] 用戶的搜索行為記錄在搜索日志中,包括對(duì)每次搜索的搜索時(shí)間、查詢?cè)~、每 次搜索后對(duì)搜索條目進(jìn)行點(diǎn)擊的次數(shù),搜索行為輸入的統(tǒng)一資源定位符(URL,Uniform Resource Locator)地址等等。
[0029] 根據(jù)需要,可以從搜索日志中提取出設(shè)定時(shí)間段的搜索記錄,設(shè)定時(shí)間段例如為2 天。
[0030] 步驟102,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),所述特征參數(shù)包括查詢?cè)~ 被查詢的總次數(shù)Qv,查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv。
[0031] 用于確定異常查詢?cè)~的特征參數(shù)可根據(jù)需要設(shè)置,例如包括本步驟上述的兩項(xiàng), 下面進(jìn)行說明,設(shè)定時(shí)間段內(nèi)記載的搜索記錄中包含關(guān)于多個(gè)查詢?cè)~的搜索行為,針對(duì)每 個(gè)查詢?cè)~分別統(tǒng)計(jì)出其特征參數(shù)。
[0032] 針對(duì)某一查詢?cè)~,Qv為設(shè)定時(shí)間段內(nèi)該查詢?cè)~被搜索的總次數(shù),對(duì)設(shè)定時(shí)間段內(nèi) 關(guān)于該查詢?cè)~的搜索行為進(jìn)行累加,得到的結(jié)果便為總次數(shù)。
[0033] 搜索記錄中還包含各次搜索行為輸入的URL地址,正常地,針對(duì)某次搜索行為,用 戶先輸入前驅(qū)行為URL地址,然后再輸入關(guān)于查詢?cè)~的URL地址;一般地,前驅(qū)行為URL地 址為搜索網(wǎng)站主頁。舉例說明,前驅(qū)行為URL地址為www. bdui. com,用戶輸入查詢?cè)~"專 利",相應(yīng)地,后續(xù)記錄的URL地址為"http://www. bdui. com/s ? wd=專利&rsv......";正 常地,搜索行為中記錄有前驅(qū)行為URL地址;如果為機(jī)器操作,則直接多次輸入后續(xù)URL地 址,而沒有前驅(qū)行為URL地址,這里統(tǒng)計(jì)出某查詢?cè)~沒有前驅(qū)行為URL地址的次數(shù),作為前 驅(qū)行為為空的查詢次數(shù)NoreferQv。對(duì)應(yīng)地,搜索記錄中包含前驅(qū)行為URL地址的搜索行便 為前驅(qū)行為非空的搜索,統(tǒng)計(jì)出某查詢?cè)~有前驅(qū)行為URL地址的次數(shù),作為前驅(qū)行為非空 的查詢次數(shù)referQv。
[0034] 通過搜索記錄,還可獲知用戶搜索各次查詢?cè)~之后是否對(duì)搜索條目進(jìn)行了點(diǎn)擊, 例如搜索關(guān)于查詢?cè)~"專利"的搜索條目后,是否點(diǎn)擊了搜索條目;對(duì)有點(diǎn)擊的搜索行為數(shù) 目進(jìn)行統(tǒng)計(jì),得到的結(jié)果作為有點(diǎn)擊行為的查詢次數(shù)CQv。進(jìn)一步地,還可以統(tǒng)計(jì)針對(duì)搜索 條目的點(diǎn)擊次數(shù),針對(duì)某查詢?cè)~,將針對(duì)該查詢?cè)~搜索條目進(jìn)行點(diǎn)擊的次數(shù)進(jìn)行統(tǒng)計(jì),得到 的結(jié)果作為對(duì)搜索條目的點(diǎn)擊次數(shù)Clicks。
[0035] 所述特征參數(shù)還可以包括CQv、NoEentryQv、SentryQv和URLQv中的至少一種,關(guān) 于NoEentryQv、SentryQv和URLQv,后續(xù)將分別進(jìn)行說明。
[0036] 步驟103,由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~。
[0037] 基于特征參數(shù)包含的不同內(nèi)容,確定查詢?cè)~是否為異常查詢?cè)~具體方式也相應(yīng)不 同。下面進(jìn)行具體說明。
[0038] 特征參數(shù)包含Qv和NoReferQv時(shí),本步驟可具體包括:判斷NoReferQv/Qv是否大 于第一設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~。
[0039] 若所述特征參數(shù)還包括對(duì)查詢?cè)~對(duì)應(yīng)的查詢結(jié)果有點(diǎn)擊行為的查詢次數(shù)CQv,所 述判斷NoReferQv/Qv不大于第一設(shè)定閾值之后,該方法還包括:
[0040] 判斷是否滿足CQv/Qv小于第二設(shè)定閾值且Qv大于第三設(shè)定閾值,如果是,則將查 詢?cè)~確定為異常查詢?cè)~。
[0041] 如果判斷出不滿足CQv/Qv小于第二設(shè)定閾值且Qv大于第三設(shè)定閾值時(shí),可以將 查詢?cè)~確定為非異常查詢?cè)~。
[0042] 進(jìn)一步地,所述判斷NoReferQv/Qv是否大于第一設(shè)定閾值之前,該方法還包括:
[0043] 判斷Qv是否大于第四設(shè)定閾值,如果是,則執(zhí)行所述判斷NoReferQv/Qv是否大于 第一設(shè)定閾值的步驟,第四設(shè)定閾值小于第三設(shè)置閾值;否則,將查詢?cè)~確定為非異常查詢 〇
[0044] 步驟104,對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。
[0045] 具體標(biāo)記時(shí),可以對(duì)聯(lián)想詞庫和相關(guān)搜索詞庫中的異常查詢?cè)~進(jìn)行標(biāo)記;或者,生 成異常詞列表,將確定出的異常查詢?cè)~添加到異常詞列表中。
[0046] 后續(xù)進(jìn)行數(shù)據(jù)搜索,向用戶反饋提示詞時(shí),可以結(jié)合標(biāo)記,不向用戶反饋異常查詢 詞;具體地:
[0047] 接收包含過程信息的查詢過程輸入信息;
[0048] 從聯(lián)想詞庫中獲取與過程信息關(guān)聯(lián)的聯(lián)想詞,去除其中標(biāo)記為異常查詢?cè)~的聯(lián)想 詞,將剩余的聯(lián)想詞反饋給搜索客戶端在智能提示欄中進(jìn)行顯示;
[0049] 接收包含查詢?cè)~的查詢請(qǐng)求;
[0050] 從相關(guān)搜索詞庫中獲取與查詢?cè)~關(guān)聯(lián)的相關(guān)搜索詞,反饋給搜索客戶端在相關(guān)搜 索欄中進(jìn)行顯示。
[0051] 本發(fā)明中,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄;對(duì)提取出的搜索記錄 進(jìn)行分析,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的多個(gè)特征參數(shù),包括:Qv、NoReferQv ;根據(jù) Qv、NoReferQv進(jìn)行判斷,確定出異常查詢?cè)~;對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使聯(lián)想詞庫和相 關(guān)搜索詞庫中的異常查詢?cè)~不用于后續(xù)的搜索處理。本發(fā)明基于查詢?cè)~被查詢的總次數(shù) Qv,查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv,進(jìn)行異常查詢?cè)~的判斷,而不 采用基于搜索頻率來確定異常查詢?cè)~,這樣,對(duì)于機(jī)器操作搜索頻率較低的情況,可避免將 其確定為提示詞,從而,提高了數(shù)據(jù)搜索時(shí)顯示提示詞的準(zhǔn)確性。
[0052] 除了上述提到的根據(jù)Qv、NoReferQv和CQv進(jìn)行判斷,以確定出異常查詢?cè)~。為了 提高向用戶顯示提示詞的準(zhǔn)確性,還可以結(jié)合更多的特征參數(shù)或結(jié)合進(jìn)一步的判斷步驟確 定異常查詢?cè)~,下面進(jìn)行舉例說明:
[0053] 實(shí)例一:
[0054] 特征參數(shù)還包含查詢?cè)~對(duì)應(yīng)的搜索行為沒有標(biāo)明來源渠道的查詢次數(shù) NoEentryQv,以及查詢?cè)~對(duì)應(yīng)的搜索行為來源渠道為特定渠道的查詢次數(shù)SentryQv。
[0055] -般地,針對(duì)某查詢?cè)~,其搜索記錄中包含有搜索行為的來源,該來源具體如URL 地址來源;對(duì)于機(jī)器操作,某些情況沒有來源渠道,這里,對(duì)沒有來源渠道的搜索行為次數(shù) 進(jìn)行統(tǒng)計(jì),得到的總值表示為NoEentryQv。
[0056] 通過記錄的URL地址,可以獲知來源渠道;確定SentryQv的方法包括:對(duì)于某查 詢?cè)~,對(duì)設(shè)定時(shí)間段內(nèi)的搜索行為來源渠道進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)出關(guān)于各來源渠道的搜索次數(shù), 如果某來源渠道的搜索次數(shù)所占比例存在異常,則將該來源渠道確定為特定渠道,將關(guān)于 該特定渠道的搜索行為進(jìn)行統(tǒng)計(jì),將得到的總次數(shù)作為SentryQv。舉例說明,針對(duì)查詢?cè)~ "劉德華",從三個(gè)來源渠道進(jìn)行搜索,搜索行為總次數(shù)為1000次,三個(gè)入口分別為ha 〇123 網(wǎng)頁、新浪網(wǎng)頁和百度網(wǎng)頁,搜索次數(shù)分別為200、300和500次,這屬于正常行為;如果搜索 行為總次數(shù)為1000次,從ha 〇123網(wǎng)頁、新浪網(wǎng)頁和百度網(wǎng)頁口三個(gè)入訪問的搜索次數(shù)分別 為20、40、940次,則確定從百度網(wǎng)頁進(jìn)行訪問的搜索行為為特定渠道來源的行為,這種情 況多為機(jī)器操作,則SentryQv為940。
[0057] 相應(yīng)地,步驟103所述判斷不滿足CQv/Qv小于第二設(shè)定閾值且Qv大于第三設(shè)定 閾值之后,該方法還包括:
[0058] 判斷SentryQv/Qv是否大于第五設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢 詞;否則判斷NoEentryQv/Qv是否大于第六設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢 T^lJ 〇
[0059] 實(shí)例二:
[0060] 特征參數(shù)包含URL信息錯(cuò)誤次數(shù)URLQv,所述URLQv表示查詢?cè)~對(duì)應(yīng)的URL信息中 含有的標(biāo)簽與實(shí)際情況不相符合的次數(shù)。
[0061] 搜索記錄中還包含各次搜索行為輸入的URL地址,正常地,針對(duì)某次搜索行為,用 戶先輸入前驅(qū)行為URL地址,然后再輸入關(guān)于查詢?cè)~的URL地址,前驅(qū)行為URL地址為搜索 網(wǎng)站主頁;一般地,各次輸入的URL地址是一致的;如果不一致,則多為機(jī)器操作,統(tǒng)計(jì)出這 種搜索行為的次數(shù),作為URLQv。
[0062] 例如,前驅(qū)行為URL地址為www. bdui. com,用戶輸入查詢?cè)~"專利",后續(xù)記錄的 URL 地址為 "http://www. bdui. com/s ? wd=專利 &rsv......",該地址中包含 "www. bdui. com",與前面的地址信息一致,確定兩者一致;如果后續(xù)記錄的地址為"http://www. bbb. com/s ? wd=專利......",與"www. bdui. com"不一致,則確定為機(jī)器操作,與實(shí)際情況不 相符合。
[0063] 相應(yīng)地,所述判斷NoEentryQv/Qv不大于第六設(shè)定閾值之后,該方法還包括:
[0064] 判斷URLQv/Qv是否大于第七設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~。
[0065] 下面通過圖2的流程,對(duì)本發(fā)明進(jìn)行數(shù)據(jù)搜索的方法舉例說明,其包括以下步驟:
[0066] 步驟201,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄。
[0067] 步驟202,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù)。
[0068] 本實(shí)例中,特征參數(shù)包括表1所示的統(tǒng)計(jì)項(xiàng),其中Uv為針對(duì)某查詢?cè)~,進(jìn)行搜索行 為的用戶數(shù)目總和。
[0069]
【權(quán)利要求】
1. 一種進(jìn)行數(shù)據(jù)搜索的方法,其特征在于,該方法包括: 從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄; 從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),所述特征參數(shù)包括查詢?cè)~被查詢的總次 數(shù)Qv和查詢?cè)~對(duì)應(yīng)的查詢前驅(qū)行為為空的查詢次數(shù)NoReferQv ; 由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~; 對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。
2. 如權(quán)利要求1所述的方法,其特征在于,所述特征參數(shù)還包括CQv、NoEentryQv、 SentryQv和URLQv中的至少一種。
3. 如權(quán)利要求1所述的方法,其特征在于,所述由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否 為異常查詢?cè)~,包括:判斷NoReferQv/Qv是否大于第一設(shè)定閾值,如果是,則將查詢?cè)~確定 為異常查詢?cè)~。
4. 如權(quán)利要求3所述的方法,其特征在于,所述特征參數(shù)還包括對(duì)查詢?cè)~對(duì)應(yīng)的查詢 結(jié)果有點(diǎn)擊行為的查詢次數(shù)CQv,判斷NoReferQv/Qv不大于第一設(shè)定閾值之后,該方法還 包括: 判斷是否滿足CQv/Qv小于第二設(shè)定閾值且Qv大于第三設(shè)定閾值,如果是,則將查詢?cè)~ 確定為異常查詢?cè)~。
5. 如權(quán)利要求4所述的方法,其特征在于,所述判斷NoReferQv/Qv是否大于第一設(shè)定 閾值之前,該方法還包括: 判斷Qv是否大于第四設(shè)定閾值,如果是,則執(zhí)行所述判斷NoReferQv/Qv是否大于第一 設(shè)定閾值的步驟,第四設(shè)定閾值小于第三設(shè)置閾值;否則,將查詢?cè)~確定為非異常查詢?cè)~。
6. 如權(quán)利要求4或5所述的方法,其特征在于,所述特征參數(shù)還包含查詢?cè)~對(duì)應(yīng)的搜索 行為沒有標(biāo)明來源渠道的查詢次數(shù)NoEentryQv,以及查詢?cè)~對(duì)應(yīng)的搜索行為來源渠道為特 定渠道的查詢次數(shù)SentryQv ;判斷不滿足CQv/Qv小于第二設(shè)定閾值且Qv大于第三設(shè)定閾 值之后,該方法還包括: 判斷SentryQv/Qv是否大于第五設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~;否 則判斷NoEentryQv/Qv是否大于第六設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~。
7. 如權(quán)利要求6所述的方法,其特征在于,所述特征參數(shù)還包含統(tǒng)一資源定位符URL信 息錯(cuò)誤次數(shù)URLQv,所述URLQv表示查詢?cè)~對(duì)應(yīng)的URL信息中含有的標(biāo)簽與實(shí)際情況不相符 合的次數(shù);所述判斷NoEentryQv/Qv不大于第六設(shè)定閾值之后,該方法還包括: 判斷URLQv/Qv是否大于第七設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~。
8. 如權(quán)利要求1所述的方法,其特征在于,該方法還包括: 接收包含過程信息的查詢過程輸入信息; 從聯(lián)想詞庫中獲取與過程信息關(guān)聯(lián)的聯(lián)想詞,去除其中標(biāo)記為異常查詢?cè)~的聯(lián)想詞, 將剩余的聯(lián)想詞反饋給搜索客戶端在智能提示欄中進(jìn)行顯示; 接收包含查詢?cè)~的查詢請(qǐng)求; 從相關(guān)搜索詞庫中獲取與查詢?cè)~關(guān)聯(lián)的相關(guān)搜索詞,反饋給搜索客戶端在相關(guān)搜索欄 中進(jìn)行顯示。
9. 一種進(jìn)行數(shù)據(jù)搜索的搜索服務(wù)器,其特征在于,該搜索服務(wù)器包括搜索記錄提取單 元、特征參數(shù)統(tǒng)計(jì)單元、異常查詢?cè)~確定單元和標(biāo)記單元; 所述搜索記錄提取單元,從搜索日志中提取出設(shè)定時(shí)間段內(nèi)的搜索記錄,發(fā)送給所述 特征參數(shù)統(tǒng)計(jì)單元; 所述特征參數(shù)統(tǒng)計(jì)單元,從搜索記錄中統(tǒng)計(jì)出對(duì)應(yīng)查詢?cè)~的特征參數(shù),發(fā)送給所述異 常查詢?cè)~確定單元,所述特征參數(shù)包括查詢?cè)~被查詢的總次數(shù)Qv和查詢?cè)~對(duì)應(yīng)的查詢前 驅(qū)行為為空的查詢次數(shù)NoReferQv ; 所述異常查詢?cè)~確定單元,由查詢?cè)~的特征參數(shù)確定查詢?cè)~是否為異常查詢?cè)~; 所述標(biāo)記單元,對(duì)異常查詢?cè)~進(jìn)行標(biāo)記,以使異常查詢?cè)~不用于后續(xù)的搜索處理。
10. 如權(quán)利要求9所述的搜索服務(wù)器,其特征在于,所述特征參數(shù)還包括CQv、 NoEentryQv、SentryQv 和 URLQv 中的至少一種。
11. 如權(quán)利要求9所述的搜索服務(wù)器,其特征在于,所述異常查詢?cè)~確定單元包括第一 判斷子單元,判斷NoReferQv/Qv是否大于第一設(shè)定閾值,如果是,則將查詢?cè)~確定為異常 查詢?cè)~。
12. 如權(quán)利要求11所述的搜索服務(wù)器,其特征在于,所述特征參數(shù)還包括對(duì)查詢?cè)~對(duì) 應(yīng)的查詢結(jié)果有點(diǎn)擊行為的查詢次數(shù)CQv,所述異常查詢?cè)~確定單元還包括第二判斷子單 元,判斷NoReferQv/Qv不大于第一設(shè)定閾值之后,向所述第二判斷子單元發(fā)送啟動(dòng)指令; 所述第二判斷子單元,接收啟動(dòng)指令,判斷是否滿足CQv/Qv小于第二設(shè)定閾值且Qv大 于第三設(shè)定閾值,如果是,則將查詢?cè)~確定為異常查詢?cè)~。
13. 如權(quán)利要求12所述的搜索服務(wù)器,其特征在于,所述異常查詢?cè)~確定單元還包括 第三判斷子單元,判斷Qv是否大于第四設(shè)定閾值,如果是,則向所述第一判斷子單元發(fā)送 啟動(dòng)指令,第四設(shè)定閾值小于第三設(shè)置閾值;否則,將查詢?cè)~確定為非異常查詢?cè)~; 所述第一判斷子單元在接收啟動(dòng)指令后才對(duì)查詢?cè)~的特征參數(shù)進(jìn)行判斷。
14. 如權(quán)利要求12或13所述的搜索服務(wù)器,其特征在于,所述特征參數(shù)還包含查詢?cè)~ 對(duì)應(yīng)的搜索行為沒有標(biāo)明來源渠道的查詢次數(shù)SentryQv,以及查詢?cè)~對(duì)應(yīng)的搜索行為來源 渠道為特定渠道的查詢次數(shù)NoEentryQv;所述異常查詢?cè)~確定單元還包括第四判斷子單 元; 所述第二判斷子單元,判斷查詢?cè)~的特征參數(shù)不滿足CQv/Qv小于第二設(shè)定閾值且Qv 大于第三設(shè)定閾值時(shí),向所述第四判斷子單元發(fā)送啟動(dòng)指令; 所述第四判斷子單元,接收啟動(dòng)指令,判斷SentryQv/Qv是否大于第五設(shè)定閾值,如果 是,則將查詢?cè)~確定為異常查詢?cè)~;否則判斷NoEentryQv/Qv是否大于第六設(shè)定閾值,如果 是,則將查詢?cè)~確定為異常查詢?cè)~。
15. 如權(quán)利要求14所述的搜索服務(wù)器,其特征在于,所述特征參數(shù)還包含URL信息錯(cuò)誤 次數(shù)URLQv,所述URLQv表示查詢?cè)~對(duì)應(yīng)的URL信息中含有的標(biāo)簽與實(shí)際情況不相符合的次 數(shù);所述異常查詢?cè)~確定單元還包括第五判斷子單元; 所述第四判斷子單元判斷出NoEentryQv/Qv不大于第六設(shè)定閾值時(shí),向所述第五判斷 子單元發(fā)送啟動(dòng)指令; 所述第五判斷子單元,接收啟動(dòng)指令,判斷URLQv/Qv是否大于第七設(shè)定閾值,如果是, 則將查詢?cè)~確定為異常查詢?cè)~。
16. 如權(quán)利要求9所述的搜索服務(wù)器,其特征在于,該搜索服務(wù)器還包括搜索反饋單 元,接收包含過程信息的查詢過程輸入信息;從聯(lián)想詞庫中獲取與過程信息關(guān)聯(lián)的聯(lián)想詞, 去除其中標(biāo)記為異常查詢?cè)~的聯(lián)想詞,將剩余的聯(lián)想詞反饋給搜索客戶端在智能提示欄中 進(jìn)行顯示;接收包含查詢?cè)~的查詢請(qǐng)求,從相關(guān)搜索詞庫中獲取與查詢?cè)~關(guān)聯(lián)的相關(guān)搜索 詞,反饋給搜索客戶端在相關(guān)搜索欄中進(jìn)行顯示。
【文檔編號(hào)】G06F17/30GK104424215SQ201310370878
【公開日】2015年3月18日 申請(qǐng)日期:2013年8月23日 優(yōu)先權(quán)日:2013年8月23日
【發(fā)明者】王頊, 唐文寧, 禹榮凌, 岑植旺 申請(qǐng)人:騰訊科技(深圳)有限公司