一種測(cè)試搜索引擎評(píng)價(jià)指標(biāo)的綜合性能的方法和測(cè)試裝置制造方法
【專利摘要】一種測(cè)試搜索引擎評(píng)價(jià)指標(biāo)的綜合性能的方法,包括:測(cè)試裝置從TREC提供的數(shù)據(jù)集中選擇2個(gè)以上數(shù)據(jù)集;所述測(cè)試裝置依次在一個(gè)數(shù)據(jù)集中,根據(jù)一個(gè)評(píng)價(jià)指標(biāo),對(duì)每一個(gè)搜索引擎的每一個(gè)查詢的查詢結(jié)果,計(jì)算出其得分值;并對(duì)于一個(gè)數(shù)據(jù)集中的所有搜索引擎的得分值,兩兩之間進(jìn)行配對(duì);測(cè)試裝置根據(jù)每個(gè)配對(duì)結(jié)果和一個(gè)設(shè)定閾值,使用雙尾的t檢驗(yàn)進(jìn)行分析計(jì)算,確定兩個(gè)搜索引擎的檢索質(zhì)量之間的差異是顯著的或是非顯著的;測(cè)試裝置在得到所有配對(duì)結(jié)果之間的t檢驗(yàn)值后,計(jì)算出有顯著差異的配對(duì)結(jié)果在所有配對(duì)結(jié)果所占的比例。本發(fā)明將t檢驗(yàn)應(yīng)用于評(píng)價(jià)指標(biāo)的穩(wěn)定性和敏感性計(jì)算中,使得只需計(jì)算一個(gè)值就可以得到綜合特性最優(yōu)的評(píng)價(jià)指標(biāo)。
【專利說(shuō)明】一種測(cè)試搜索引擎評(píng)價(jià)指標(biāo)的綜合性能的方法和測(cè)試裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索領(lǐng)域,特別涉及到一種測(cè)試搜索引擎評(píng)價(jià)指標(biāo)的綜合性能的方法和測(cè)試裝置。
【背景技術(shù)】
[0002]對(duì)搜索引擎的檢索效果進(jìn)行評(píng)價(jià)是信息檢索領(lǐng)域的一個(gè)重要方面,為此,人們提出了許多評(píng)價(jià)指標(biāo),比如平均精確率(average precision, AP)、每10個(gè)精確率(precisionat ten, P10)、精度-查全率(recall-level precision, RP)> 倒數(shù)排名(reciprocalranking, RR)、歸一化衰減累積增量(normalized discounted cumulative gain,NDCG)等,而這些評(píng)價(jià)指標(biāo)的特點(diǎn)和目標(biāo)各不相同,有的評(píng)價(jià)指標(biāo)僅與搜索引擎返回的相關(guān)文檔數(shù)目有關(guān),而有的評(píng)價(jià)指標(biāo)不僅與搜索引擎返回的相關(guān)文檔數(shù)目有關(guān),還考慮了返回的相關(guān)文檔的位置信息。所以有的評(píng)價(jià)指標(biāo)的敏感性較強(qiáng),穩(wěn)定性較低,而有的評(píng)價(jià)指標(biāo)的穩(wěn)定性較高,敏感性較弱。為此,人們通常需要選取綜合特性最優(yōu)的評(píng)價(jià)指標(biāo)。
[0003]評(píng)價(jià)指標(biāo)AP定義為:
【權(quán)利要求】
1.一種測(cè)試搜索引擎評(píng)價(jià)指標(biāo)的綜合性能的方法,其特征在于,包括: 步驟I測(cè)試裝置選擇2個(gè)以上數(shù)據(jù)集; 步驟2所述測(cè)試裝置依次在一個(gè)數(shù)據(jù)集中,根據(jù)一個(gè)評(píng)價(jià)指標(biāo),對(duì)每一個(gè)搜索引擎的每一個(gè)查詢的查詢結(jié)果,計(jì)算出其得分值;并對(duì)于一個(gè)數(shù)據(jù)集中的所有搜索引擎的得分值,兩兩之間進(jìn)行配對(duì); 步驟3測(cè)試裝置根據(jù)每個(gè)配對(duì)結(jié)果和一個(gè)設(shè)定閾值,使用雙尾的t檢驗(yàn)進(jìn)行分析計(jì)算,確定兩個(gè)搜索引擎的檢索質(zhì)量之間的差異是顯著的或是非顯著的; 步驟4測(cè)試裝置在得到所有配對(duì)結(jié)果之間的t檢驗(yàn)值后,計(jì)算出有顯著差異的配對(duì)結(jié)果在所有配對(duì)結(jié)果所占的比例; 步驟5測(cè)試裝置設(shè)定2個(gè)以上不同的閾值,在每一個(gè)閾值情況下,重復(fù)步驟3和4 ; 步驟6測(cè)試裝置分別利用2個(gè)以上不同的評(píng)價(jià)指標(biāo),重復(fù)步驟3至5,在所述2個(gè)以上不同的評(píng)價(jià)指標(biāo)中比例最大的評(píng)價(jià)指標(biāo)的綜合性能最好。
2.如權(quán)利要求1所述方法,其特征在于,還包括:步驟7測(cè)試裝置分別在2個(gè)以上不同的數(shù)據(jù)集中,重復(fù)步驟2至6。
3.—種測(cè)試裝置,其特征在于,包括: 選擇模塊,用于測(cè)試裝置選擇2個(gè)以上數(shù)據(jù)集; 配對(duì)模塊,用于依次在一個(gè)數(shù)據(jù)集中,根據(jù)一個(gè)評(píng)價(jià)指標(biāo),對(duì)每一個(gè)搜索引擎的每一個(gè)查詢的查詢結(jié)果,計(jì)算出其得分值;并對(duì)于一個(gè)數(shù)據(jù)集中的所有搜索引擎的得分值,兩兩之間進(jìn)行配對(duì); 差異顯著性確定模塊,用于測(cè)試裝置根據(jù)每個(gè)配對(duì)結(jié)果和一個(gè)設(shè)定閾值,使用雙尾的t檢驗(yàn)進(jìn)行分析計(jì)算,確定兩個(gè)搜索引擎的檢索質(zhì)量之間的差異是顯著的或是非顯著的; 比例計(jì)算模塊,用于測(cè)試裝置在得到所有配對(duì)結(jié)果之間的t檢驗(yàn)值后,計(jì)算出有顯著差異的配對(duì)結(jié)果在所有配對(duì)結(jié)果所占的比例; 重復(fù)模塊,用于設(shè)定2個(gè)以上不同的閾值,在每一個(gè)閾值情況下,指示差異顯著性確定模塊和比例計(jì)算模塊進(jìn)行操作;以及分別利用2個(gè)以上不同的評(píng)價(jià)指標(biāo),指示差異顯著性確定模塊和比例計(jì)算模塊進(jìn)行操作;在所述2個(gè)以上不同的評(píng)價(jià)指標(biāo)中比例最大的評(píng)價(jià)指標(biāo)的綜合性能最好。
【文檔編號(hào)】G06F17/30GK103593411SQ201310503323
【公開(kāi)日】2014年2月19日 申請(qǐng)日期:2013年10月23日 優(yōu)先權(quán)日:2013年10月23日
【發(fā)明者】施化吉, 譚延之, 吳勝利 申請(qǐng)人:江蘇大學(xué)