本發(fā)明涉及網(wǎng)絡(luò)通信
技術(shù)領(lǐng)域:
,尤其涉及一種搜索引擎的檢索結(jié)果評(píng)價(jià)方法及裝置、計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù):
:搜索引擎指自動(dòng)從因特網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用戶進(jìn)行查詢的系統(tǒng)。因特網(wǎng)上的信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個(gè)個(gè)小島,網(wǎng)頁(yè)鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時(shí)查閱。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。全文搜索引擎是目前廣泛應(yīng)用的主流搜索引擎,國(guó)外代表搜索是google,國(guó)內(nèi)則有最大中文搜索百度。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。由于互聯(lián)網(wǎng)信息檢索技術(shù)的快速發(fā)展,各種搜索引擎層出不窮,一方面為用戶檢索信息提供了便利,另一方面也使許多用戶感到無所適從,不知道如何選擇合適的檢索引擎,因而提出了評(píng)價(jià)搜索引擎的要求。通過對(duì)搜索引擎進(jìn)行合理的評(píng)價(jià),不僅有利于用戶的選擇與使用,而且有利于其本身的改進(jìn)和發(fā)展。現(xiàn)有主要的搜索引擎評(píng)價(jià)方法之一是cranfield評(píng)價(jià)體系:cranfield-likeapproach這個(gè)名稱來源于英國(guó)cranfielduniversity,因?yàn)樵诙兰o(jì)五十年代該大學(xué)首先提出了這樣一套評(píng)價(jià)系統(tǒng):由查詢樣例集、正確答案集、評(píng)測(cè)指標(biāo)構(gòu)成的完整評(píng)測(cè)方案,并從此確立了“評(píng)價(jià)”在信息檢索研究中的核心地位。cranfield評(píng)價(jià)系統(tǒng)在各大搜索引擎公司內(nèi)有廣泛的應(yīng)用。具體應(yīng)用時(shí),首先需要解決的問題是構(gòu)造一個(gè)測(cè)試用查詢?cè)~集合。常用的搜索引擎評(píng)價(jià)方法還包括precision-recall(準(zhǔn)確率-召回率)方法、p@n方法、dcg(衡量搜索引擎質(zhì)量指標(biāo))方法等。但是,現(xiàn)有的搜索引擎搜索效果的在線評(píng)估,多和業(yè)務(wù)相關(guān),即對(duì)在線用戶進(jìn)行某種規(guī)則的分流,將用戶導(dǎo)向不同服務(wù)版本,并最終以和業(yè)務(wù)強(qiáng)相關(guān)的購(gòu)買轉(zhuǎn)化率、下載轉(zhuǎn)化率、音樂播放轉(zhuǎn)化率作為評(píng)價(jià)指標(biāo),來評(píng)估不同版本的搜索效果好壞,業(yè)務(wù)結(jié)合太緊密,不夠通用。同時(shí),現(xiàn)有的搜索引擎搜索效果的dcg(衡量搜索引擎質(zhì)量指標(biāo))評(píng)價(jià)算法多用于線下評(píng)價(jià),且為為數(shù)不多的幾個(gè)測(cè)試同事進(jìn)行評(píng)價(jià)打分為主,主觀性太強(qiáng),導(dǎo)致線下搜索評(píng)價(jià)結(jié)果不理想、不客觀。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的主要目的在于提出一種搜索引擎的檢索結(jié)果評(píng)價(jià)方法及裝置、計(jì)算機(jī)可讀介質(zhì),旨在解決現(xiàn)有的搜索引擎的檢索結(jié)果評(píng)價(jià)方法缺乏通用性和客觀性的問題。為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種搜索引擎的檢索結(jié)果評(píng)價(jià)方法,該方法包括以下步驟:獲取檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù),并以對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;將根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。進(jìn)一步,所述搜索引擎的檢索結(jié)果評(píng)價(jià)方法還包括從服務(wù)器日志文件、訪客訪問日志文件等中獲取搜索行為數(shù)據(jù)。進(jìn)一步的,所述搜索引擎的檢索結(jié)果評(píng)價(jià)方法還包括從搜索行為數(shù)據(jù)中獲取同一檢索詞的所有獨(dú)立訪客對(duì)應(yīng)的所述檢索結(jié)果頁(yè)。進(jìn)一步的,所述搜索引擎的檢索結(jié)果評(píng)價(jià)方法還包括從搜索行為數(shù)據(jù)中獲取前k項(xiàng)(topk)搜索排序結(jié)果。前k項(xiàng)(topk)搜索排序結(jié)果通過topk算法獲取,搜索引擎會(huì)通過日志文件把獨(dú)立訪客每次檢索使用的所有檢索串都記錄下來,每個(gè)查詢串的長(zhǎng)度為1-255字節(jié)。假設(shè)目前有一千萬個(gè)記錄(這些查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個(gè)。一個(gè)查詢串的重復(fù)度越高,說明查詢它的獨(dú)立訪客越多,也就是越熱門。),統(tǒng)計(jì)最熱門的10個(gè)查詢串,也即是這一搜索引擎中最熱門的10個(gè)檢索結(jié)果。進(jìn)一步的,所述搜索引擎的檢索結(jié)果評(píng)價(jià)方法中,所述位置得分的計(jì)算過程如下:每一獨(dú)立訪客的同一搜索詞對(duì)應(yīng)的檢索結(jié)果頁(yè)內(nèi)容在同一檢索結(jié)果內(nèi)容位置的點(diǎn)擊計(jì)數(shù)一次,對(duì)應(yīng)檢索結(jié)果內(nèi)容不同位置的點(diǎn)擊累加計(jì)數(shù);以點(diǎn)擊率ctr為所述位置得分,所述ctr=點(diǎn)擊次數(shù)/曝光次數(shù);其中,曝光次數(shù)為檢索結(jié)果頁(yè)的數(shù)量,也即是同一搜索詞對(duì)應(yīng)的獨(dú)立訪客數(shù)量。其中,uv(獨(dú)立訪客):即uniquevisitor,訪問您網(wǎng)站的一臺(tái)電腦客戶端為一個(gè)訪客。00:00-24:00內(nèi)相同的客戶端只被計(jì)算一次。例如,a)一個(gè)uv,同一個(gè)搜索詞結(jié)果list,允許點(diǎn)擊多個(gè)不同檢索結(jié)果的位置,但對(duì)于同一個(gè)檢索結(jié)果的位置點(diǎn)擊,只計(jì)數(shù)1次,不同檢索結(jié)果的位置則對(duì)應(yīng)位置計(jì)數(shù)+1;b)以點(diǎn)擊率ctr作為位置得分,ctr=點(diǎn)擊次數(shù)/曝光次數(shù);一次搜索行為,獲得10個(gè)結(jié)果,獨(dú)立訪客a點(diǎn)擊了位置2、3、5;另一個(gè)獨(dú)立訪客b,點(diǎn)擊了位置1、2、3。那么位置1的點(diǎn)擊率:1/2,位置2的點(diǎn)擊率:2/2,位置3點(diǎn)擊率:1/2,位置4點(diǎn)擊率:0,位置5點(diǎn)擊率:1/2。進(jìn)一步的,從搜索行為數(shù)據(jù)統(tǒng)計(jì)所有獨(dú)立訪客的所有搜索詞對(duì)應(yīng)的點(diǎn)擊行為,所述前k項(xiàng)(topk)搜索排序結(jié)果按照點(diǎn)擊位置對(duì)應(yīng)的點(diǎn)擊率為:其中,i---表示檢索結(jié)果位置數(shù),k---表示獨(dú)立訪客數(shù),ctr---點(diǎn)擊率。進(jìn)一步的,根據(jù)所述前k項(xiàng)(topk)搜索排序結(jié)果,依照檢索結(jié)果位置i進(jìn)行l(wèi)og2的衰減,對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)計(jì)算公式為:其中i---表示檢索結(jié)果位置數(shù),k---表示搜索排序前k條結(jié)果。本發(fā)明的另一方面,為實(shí)現(xiàn)上述目的,本發(fā)明還提出一種搜索引擎的檢索結(jié)果評(píng)價(jià)裝置,該裝置包括:數(shù)據(jù)獲取模塊,用于獲取所有獨(dú)立訪客的搜索行為數(shù)據(jù),根據(jù)所述搜索行為數(shù)據(jù)獲得前k項(xiàng)(topk)搜索排序結(jié)果,以及同一檢索詞的所有獨(dú)立訪客對(duì)應(yīng)的檢索結(jié)果頁(yè)。衡量搜索引擎質(zhì)量指標(biāo)(dcg)計(jì)算模塊,用于根據(jù)檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù)獲得對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;并根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);同時(shí),根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。進(jìn)一步的,所述數(shù)據(jù)獲取模塊從服務(wù)器日志文件、訪客訪問日志文件等中獲取獨(dú)立訪客的搜索行為數(shù)據(jù)。此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有搜索引擎的檢索結(jié)果評(píng)價(jià)程序,所述搜索引擎的檢索結(jié)果評(píng)價(jià)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述搜索引擎的檢索結(jié)果評(píng)價(jià)方法的步驟:獲取檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù),并以對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;將根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。本發(fā)明提出的搜索引擎的檢索結(jié)果評(píng)價(jià)方法及裝置、計(jì)算機(jī)可讀介質(zhì)將傳統(tǒng)線下的搜索引擎通用搜索效果衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)算法與在線用戶搜索行為數(shù)據(jù)進(jìn)行結(jié)合,優(yōu)化得到在線搜索引擎評(píng)價(jià)模型,能夠?qū)⒂脩酎c(diǎn)擊率直接換成成搜索引擎衡量搜索引擎質(zhì)量指標(biāo)(dcg)得分,以真實(shí)用戶的行為來最終評(píng)價(jià)檢索結(jié)果的搜索效果。對(duì)所有用戶的所有搜索詞發(fā)生的搜索行為進(jìn)行統(tǒng)計(jì),并結(jié)合搜索引擎前k項(xiàng)(topk)搜索排序結(jié)果進(jìn)行衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià),得分越高說明結(jié)果越好。附圖說明圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的第一種搜索引擎的檢索結(jié)果評(píng)價(jià)方法流程框圖。圖2為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的第二種搜索引擎的檢索結(jié)果評(píng)價(jià)方法流程框圖。圖3為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的一種搜索引擎的檢索結(jié)果評(píng)價(jià)裝置結(jié)構(gòu)框圖。圖4為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的dcg計(jì)算模塊的結(jié)構(gòu)框圖。圖5為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的搜索引擎的檢索結(jié)果評(píng)價(jià)程序執(zhí)行步驟框圖。具體實(shí)施方式應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明?,F(xiàn)在將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,″模塊″與″部件″可以混合地使用。本發(fā)明涉及的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)方法的原理說明:dcg是英文discountedcumulativegain的簡(jiǎn)稱,中文可翻譯為“衡量搜索引擎質(zhì)量指標(biāo)”。衡量搜索引擎質(zhì)量指標(biāo)(dcg)方法的基本思想是:1.每條結(jié)果的相關(guān)性分等級(jí)來衡量;2.考慮結(jié)果所在的位置,位置越靠前的則重要程度越高;3.等級(jí)高(即好結(jié)果)的結(jié)果位置越靠前則值應(yīng)該越高,否則給予懲罰。首先來看第一條:相關(guān)性分級(jí)。這里比計(jì)算precision時(shí)簡(jiǎn)單統(tǒng)計(jì)“準(zhǔn)確”或“不準(zhǔn)確”要更為精細(xì)。我們可以將結(jié)果細(xì)分為多個(gè)等級(jí)。比如常用的3級(jí):good(好)、fair(一般)、bad(差)。對(duì)應(yīng)的分值rel為:good:3/fair:2/bad:1。一些更為細(xì)致的評(píng)估使用5級(jí)分類法:verygood(明顯好)、good(好)、fair(一般)、bad(差)、verybad(明顯差),可以將對(duì)應(yīng)分值rel設(shè)置為:verygood:2/good:1/fair:0/bad:-1/verybad:-2。評(píng)判結(jié)果的標(biāo)準(zhǔn)可以根據(jù)具體的應(yīng)用來確定,verygood通常是指結(jié)果的主題完全相關(guān),并且網(wǎng)頁(yè)內(nèi)容豐富、質(zhì)量很高。而具體到每條dcg的計(jì)算公式并不唯一,理論上只要求對(duì)數(shù)折扣因子的平滑性。例如下面的dcg公式更合理,強(qiáng)調(diào)了相關(guān)性,第1、2條結(jié)果的折扣系數(shù)也更合理:此時(shí)dcg前4個(gè)位置上結(jié)果的折扣因子(discountfactor)數(shù)值如下表1所示為:表1ilog2(i+1)1/log2(i+1)11121.590.63320.542.320.43取以2為底的log值也來自于經(jīng)驗(yàn)公式,并不存在理論上的依據(jù)。實(shí)際上,log的基數(shù)可以根據(jù)平滑的需求進(jìn)行修改,當(dāng)加大數(shù)值時(shí)(例如使用log5代替log2),折扣因子降低更為迅速,此時(shí)強(qiáng)調(diào)了前面結(jié)果的權(quán)重。為了便于不同類型的query結(jié)果之間橫向比較,以dcg為基礎(chǔ),一些評(píng)價(jià)系統(tǒng)還對(duì)dcg進(jìn)行了歸一,這些方法統(tǒng)稱為ndcg(即normalizedcg)。最常用的計(jì)算方法是通過除以每一個(gè)查詢的理想值idcg(idealdcg)來進(jìn)行歸一,公式為:求ndcg需要標(biāo)定出理想情況的idcg,實(shí)際操作的時(shí)候是異常困難的,因?yàn)槊總€(gè)人對(duì)“最好的結(jié)果”理解往往各不相同,從海量數(shù)據(jù)里選出最優(yōu)結(jié)果是很困難的任務(wù),但是比較兩組結(jié)果哪個(gè)更好通常更容易,所以實(shí)踐應(yīng)用中,通常選擇結(jié)果對(duì)比的方法進(jìn)行評(píng)估。實(shí)施例1基于上述衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)方法,提出本發(fā)明方法各個(gè)實(shí)施例。如圖1所示,本發(fā)明第一實(shí)施例提出一種搜索引擎的檢索結(jié)果評(píng)價(jià)方法,該方法包括以下步驟:s101、獲取檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù),并以對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;s102、將根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);s103、根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。上述評(píng)價(jià)方法中以獨(dú)立訪客搜索行為數(shù)據(jù)中的位置點(diǎn)擊率作為衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)中的測(cè)試同事打分:以獨(dú)立訪客點(diǎn)擊行為為模型,獨(dú)立訪客對(duì)檢索結(jié)果頁(yè)內(nèi)容進(jìn)行點(diǎn)擊時(shí),表示對(duì)該位置檢索結(jié)果滿意;多數(shù)獨(dú)立訪客對(duì)同一個(gè)位置的點(diǎn)擊率較高,認(rèn)為該位置的檢索結(jié)果質(zhì)量較好;對(duì)排序靠下的資源,計(jì)算得分時(shí)予以得分衰減,因?yàn)榕判蛟胶玫乃阉饕?,前幾位資源搜索質(zhì)量越好;對(duì)所有獨(dú)立訪客的所有搜索詞發(fā)生的搜索行為進(jìn)行統(tǒng)計(jì),并結(jié)合搜索引擎前k項(xiàng)(topk)搜索排序結(jié)果進(jìn)行衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià),得分越高說明結(jié)果越好。如圖2所示,本發(fā)明第一實(shí)施例提出第二種搜索引擎的檢索結(jié)果評(píng)價(jià)方法,該方法包括以下步驟:s201、從服務(wù)器日志文件、訪客訪問日志文件等中獲取搜索行為數(shù)據(jù);從搜索行為數(shù)據(jù)中獲取同一檢索詞的所有獨(dú)立訪客對(duì)應(yīng)的所述檢索結(jié)果頁(yè)和前k項(xiàng)(topk)搜索排序結(jié)果;s202、獲取檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù),并以對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;s203、將根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);s204、根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。從服務(wù)器日志文件、訪客訪問日志文件等服務(wù)器數(shù)據(jù)庫(kù)可以獲取用于網(wǎng)絡(luò)用戶行為分析的用戶操作行為數(shù)據(jù),如用戶使用了哪一些搜索詞,獲得了哪一些檢索結(jié)果頁(yè)內(nèi)容,對(duì)檢索結(jié)果頁(yè)內(nèi)容的哪一些位置的結(jié)果進(jìn)行了點(diǎn)擊,然后將所有用戶的用戶操作行為數(shù)據(jù)進(jìn)行分析,能夠獲得前k項(xiàng)(topk)的檢索結(jié)果,最為熱門的檢索詞,針對(duì)某一檢索詞,如手機(jī),應(yīng)當(dāng)包括所有包含手機(jī)的檢索詞,如智能手機(jī),以及手機(jī)的近義詞,不同譯文等。前k項(xiàng)(topk)搜索排序結(jié)果通過topk算法獲取,搜索引擎會(huì)通過日志文件把獨(dú)立訪客每次檢索使用的所有檢索串都記錄下來,每個(gè)查詢串的長(zhǎng)度為1-255字節(jié)。假設(shè)目前有一千萬個(gè)記錄(這些查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個(gè)。一個(gè)查詢串的重復(fù)度越高,說明查詢它的用戶越多,也就是越熱門。),統(tǒng)計(jì)最熱門的10個(gè)查詢串,也即是這一搜索引擎中最熱門的10個(gè)檢索結(jié)果。其中,所述位置得分的計(jì)算過程如下:每一獨(dú)立訪客的同一搜索詞對(duì)應(yīng)的檢索結(jié)果頁(yè)內(nèi)容在同一檢索結(jié)果內(nèi)容位置的點(diǎn)擊計(jì)數(shù)一次,對(duì)應(yīng)檢索結(jié)果內(nèi)容不同位置的點(diǎn)擊累加計(jì)數(shù);以點(diǎn)擊率ctr為所述位置得分,所述ctr=點(diǎn)擊次數(shù)/曝光次數(shù);其中,曝光次數(shù)為檢索結(jié)果頁(yè)的數(shù)量,也即是同一搜索詞對(duì)應(yīng)的獨(dú)立訪客數(shù)量。其中,uv(獨(dú)立訪客):即uniquevisitor,訪問您網(wǎng)站的一臺(tái)電腦客戶端為一個(gè)訪客。00:00-24:00內(nèi)相同的客戶端只被計(jì)算一次。例如,a)一個(gè)uv,同一個(gè)搜索詞結(jié)果list,允許點(diǎn)擊多個(gè)不同檢索結(jié)果的位置,但對(duì)于同一個(gè)檢索結(jié)果的位置點(diǎn)擊,只計(jì)數(shù)1次,不同檢索結(jié)果的位置則對(duì)應(yīng)位置計(jì)數(shù)+1;b)以點(diǎn)擊率ctr作為位置得分,ctr=點(diǎn)擊次數(shù)/曝光次數(shù);一次搜索行為,獲得10個(gè)結(jié)果,獨(dú)立訪客a點(diǎn)擊了位置2、3、5;另一個(gè)獨(dú)立訪客b,點(diǎn)擊了位置1、2、3。那么位置1的點(diǎn)擊率:1/2,位置2的點(diǎn)擊率:2/2,位置3點(diǎn)擊率:1/2,位置4點(diǎn)擊率:0,位置5點(diǎn)擊率:1/2。進(jìn)一步的,從搜索行為數(shù)據(jù)統(tǒng)計(jì)所有獨(dú)立訪客的所有搜索詞對(duì)應(yīng)的點(diǎn)擊行為,所述前k項(xiàng)(topk)搜索排序結(jié)果按照點(diǎn)擊位置對(duì)應(yīng)的點(diǎn)擊率為:其中,i---表示檢索結(jié)果位置數(shù),k---表示獨(dú)立訪客數(shù),ctr---點(diǎn)擊率。例如,根據(jù)上述前k項(xiàng)(topk)搜索排序結(jié)果按照點(diǎn)擊位置對(duì)應(yīng)的位置點(diǎn)擊率計(jì)算公式,如下表2所示的結(jié)果列表。表2位置ictr位置120%位置250%位置3位置4…位置k其中,根據(jù)所述前k項(xiàng)(topk)搜索排序結(jié)果,依照檢索結(jié)果位置i進(jìn)行l(wèi)og2的衰減,對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)計(jì)算公式為:其中i---表示檢索結(jié)果位置數(shù),k---表示搜索排序前k條結(jié)果。實(shí)施例2本發(fā)明的另一方面,為實(shí)現(xiàn)上述目的,如圖3所示,本發(fā)明還提出一種搜索引擎的檢索結(jié)果評(píng)價(jià)裝置,該裝置包括:數(shù)據(jù)獲取模塊200,用于獲取所有獨(dú)立訪客的搜索行為數(shù)據(jù),根據(jù)所述搜索行為數(shù)據(jù)獲得前k項(xiàng)(topk)搜索排序結(jié)果,以及同一檢索詞的所有獨(dú)立訪客對(duì)應(yīng)的檢索結(jié)果頁(yè)。衡量搜索引擎質(zhì)量指標(biāo)(dcg)計(jì)算模塊300,用于根據(jù)檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù)獲得對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;并根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);同時(shí),根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。其中,該裝置還包括dcg分?jǐn)?shù)輸出模塊400,用于將dcg計(jì)算模塊300獲得結(jié)果在線輸出到操作界面,使得用戶能夠直觀地獲取搜索引擎的評(píng)價(jià)結(jié)果。其中,所述數(shù)據(jù)獲取模塊200從服務(wù)器日志文件、用戶訪問日志文件等中獲取用戶的搜索行為數(shù)據(jù),這些日志文件存放在服務(wù)器數(shù)據(jù)庫(kù)100內(nèi),與網(wǎng)絡(luò)用戶操作行為分析系統(tǒng)共同使用同一數(shù)據(jù)庫(kù)。如圖4所示,衡量搜索引擎質(zhì)量指標(biāo)(dcg)計(jì)算模塊300包括點(diǎn)擊率計(jì)算單元310和dcg評(píng)價(jià)分?jǐn)?shù)計(jì)算單元320,點(diǎn)擊率計(jì)算單元310用于根據(jù)檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù)獲得對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率,dcg評(píng)價(jià)分?jǐn)?shù)計(jì)算單元320用于根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。實(shí)施例3此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有搜索引擎的檢索結(jié)果評(píng)價(jià)程序,所述搜索引擎的檢索結(jié)果評(píng)價(jià)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述搜索引擎的檢索結(jié)果評(píng)價(jià)方法的步驟:獲取檢索結(jié)果頁(yè)中對(duì)檢索結(jié)果內(nèi)容位置的點(diǎn)擊數(shù)據(jù),并以對(duì)應(yīng)所述檢索結(jié)果內(nèi)容位置的點(diǎn)擊率為位置得分;將根據(jù)所述位置得分,通過衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)模型獲得每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);根據(jù)搜索引擎的前k項(xiàng)(topk)搜索排序結(jié)果,結(jié)合所述每一檢索結(jié)果頁(yè)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)分?jǐn)?shù);獲得所述前k項(xiàng)(topk)搜索排序結(jié)果對(duì)應(yīng)的衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià)分?jǐn)?shù)。具體地,如圖5所示,所述搜索引擎在線通用評(píng)價(jià)程序執(zhí)行過程如下:搜索引擎的服務(wù)器實(shí)時(shí)采集獨(dú)立訪客的點(diǎn)擊行為,獲得用戶搜索行為數(shù)據(jù),以一定的時(shí)間周期存儲(chǔ)這些用戶搜索行為數(shù)據(jù),如1天、1周或者1個(gè)月等。以服務(wù)器的日志文件或者訪客的日志文件存儲(chǔ)在服務(wù)器數(shù)據(jù)庫(kù)中,用戶搜索行為數(shù)據(jù)的存儲(chǔ)方式取決于服務(wù)器采集網(wǎng)絡(luò)用戶操作行為數(shù)據(jù)的方式。從用戶搜索行為數(shù)據(jù)中,可以獲得每一獨(dú)立訪客對(duì)應(yīng)的檢索詞、檢索結(jié)果頁(yè)面內(nèi)容,用戶在檢索結(jié)果頁(yè)面內(nèi)容中的點(diǎn)擊位置信息?;谕粰z索詞,包括近義詞等同位詞在內(nèi)所對(duì)應(yīng)的每一個(gè)檢索結(jié)果頁(yè)面內(nèi)容,通過統(tǒng)計(jì)用戶的點(diǎn)擊位置信息,可以獲得topk檢索結(jié)果,也就是每一檢索詞對(duì)應(yīng)排在前k條的檢索結(jié)果。根據(jù)點(diǎn)擊位置,能夠獲得檢索結(jié)果頁(yè)面內(nèi)容中的topk檢索結(jié)果對(duì)應(yīng)的位置點(diǎn)擊率。topk檢索結(jié)果對(duì)應(yīng)的位置點(diǎn)擊率計(jì)算獲得搜索引擎的dcg評(píng)價(jià)分?jǐn)?shù),當(dāng)dcg評(píng)價(jià)分?jǐn)?shù)越高,說明搜索引擎的檢索結(jié)果準(zhǔn)確性越高。本發(fā)明提出的搜索引擎的檢索結(jié)果評(píng)價(jià)方法及裝置、計(jì)算機(jī)可讀介質(zhì)將傳統(tǒng)線下的搜索引擎通用搜索效果衡量搜索引擎質(zhì)量指標(biāo)(dcg)評(píng)價(jià)算法與在線用戶搜索行為數(shù)據(jù)進(jìn)行結(jié)合,優(yōu)化得到在線搜索引擎評(píng)價(jià)模型,能夠?qū)⒂脩酎c(diǎn)擊率直接換成成搜索引擎衡量搜索引擎質(zhì)量指標(biāo)(dcg)得分,以真實(shí)用戶的行為來最終評(píng)價(jià)檢索結(jié)果的搜索效果。對(duì)所有用戶的所有搜索詞發(fā)生的搜索行為進(jìn)行統(tǒng)計(jì),并結(jié)合搜索引擎前k項(xiàng)(topk)搜索排序結(jié)果進(jìn)行衡量搜索引擎質(zhì)量指標(biāo)(dcg)總體評(píng)價(jià),得分越高說明結(jié)果越好。需要說明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)12