一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法
【專利摘要】本發(fā)明公開了一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法,采用一種基于文檔排名位置的方法對分?jǐn)?shù)進(jìn)行規(guī)范化。假設(shè)文檔排名位置為rank,文檔的規(guī)范化分?jǐn)?shù)通過計算1-0.2*ln(rank+1)的值獲得。該方法適用于信息檢索結(jié)果多元化目標(biāo),能夠使得文檔的分?jǐn)?shù)具有更好的可比性,可以應(yīng)用于信息檢索結(jié)果的數(shù)據(jù)融合、分布式信息檢索等。
【專利說明】一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種針對檢索結(jié)果多樣化的分?jǐn)?shù)規(guī)范化方法,應(yīng)用于信息檢索結(jié)果的 數(shù)據(jù)融合、分布式信息檢索等。
【背景技術(shù)】
[0002] 在很多應(yīng)用中,如信息檢索系統(tǒng)結(jié)果的數(shù)據(jù)融合、分布式信息檢索等,需要使用文 檔的分?jǐn)?shù)信息對數(shù)據(jù)進(jìn)行綜合處理。對于這些應(yīng)用,分?jǐn)?shù)規(guī)范化是不可或缺的環(huán)節(jié)。由于 這些過程需要處理很多來自不同檢索系統(tǒng)所給出的文檔,而不同檢索系統(tǒng)提供的文檔分?jǐn)?shù) 一般有著不同的分布范圍,這就使得不同來源的文檔分?jǐn)?shù)并不具有可比性。甚至,有的檢索 系統(tǒng)不提供文檔分?jǐn)?shù),僅給出一個文檔序列。這些不規(guī)范的分?jǐn)?shù)以及分?jǐn)?shù)信息的缺失會對 后續(xù)處理有很大的影響。分?jǐn)?shù)規(guī)范化保證了文檔分?jǐn)?shù)的可比性,是組合不同來源數(shù)據(jù)之前 的必要準(zhǔn)備工作。
[0003] 目前,已經(jīng)有多種方法來進(jìn)行分?jǐn)?shù)規(guī)范化。一般地,可以將其分為兩類:基于原始 分?jǐn)?shù)的規(guī)范化方法和基于文檔排名位置的規(guī)范化方法?;谠挤?jǐn)?shù)的規(guī)范化方法利用檢 索系統(tǒng)提供的文檔的原始分?jǐn)?shù),采用某種策略,將原始分?jǐn)?shù)分布轉(zhuǎn)化為新的分?jǐn)?shù)分布,使得 不同系統(tǒng)之間的規(guī)范化后的分?jǐn)?shù)具有可比性。采用的策略主要有線性的和非線性的兩種。 在線性的分?jǐn)?shù)規(guī)范化方法中,比較經(jīng)典的有0-1線性規(guī)范化方法[1],將文檔的原始分?jǐn)?shù)線 性地規(guī)范化到[0, 1]區(qū)間;Fitting方法[2]在0-1規(guī)范方法上改進(jìn),將分?jǐn)?shù)范圍規(guī)范到 [a,b]區(qū)間上;Sum-to-One方法[3]要求所有規(guī)范化后分?jǐn)?shù)的和為1。非線性的方法有一種 考慮了相關(guān)文檔和非相關(guān)文檔不同分布的混合模型中[4],基于CDF(Cumulative Density Function)的規(guī)范化方法[5]等。
[0004] 使用基于原始分?jǐn)?shù)規(guī)范化方法的前提是系統(tǒng)提供真實有效的原始分?jǐn)?shù)信息。對于 系統(tǒng)只提供文檔排名的序列而不提供文檔原始分?jǐn)?shù)的情況,則要采用某些方法轉(zhuǎn)化排名信 息以獲得相應(yīng)的分?jǐn)?shù)信息?;谖臋n排名位置的分?jǐn)?shù)規(guī)范化方法中比較著名的有排名倒數(shù) 方法[6],該方法采用lArank+k)公式對文檔原始分?jǐn)?shù)進(jìn)行規(guī)范化,并且提出參數(shù)k取60 得到的效果最好。Logistic模型也被用于分?jǐn)?shù)規(guī)范化[7,8]。在文獻(xiàn)[7,8]中,Calve等人 使用文檔排名位置的對數(shù)值In (rank)代替了文檔排名位置rank本身。由于使用rank本 身作為自變量的Logistic曲線隨著排名的增大降低得非常迅速,在排名大于10的位置以 后,規(guī)范化后的分?jǐn)?shù)都十分接近于0,這就使得非前十位文檔排名位置上的分?jǐn)?shù)的可比較性 變差,特別是對于第11-100位的文檔。根據(jù)文檔排名位置規(guī)范的方法還有Cubic模型[9], 波達(dá)計數(shù)模型[10]等。
[0005] 這些分?jǐn)?shù)規(guī)范化方法能在某些情況下使得檢索結(jié)果表現(xiàn)良好,但是并沒有考慮檢 索結(jié)果多元化的情況。這些方法是否能夠?qū)崿F(xiàn)檢索結(jié)果的多樣性是有待考察的??紤]到實 際情況中,存在這部分檢索系統(tǒng)并不提供文檔的原始分?jǐn)?shù)信息,本發(fā)明提出采用基于文檔 排名位置的分?jǐn)?shù)規(guī)范化方法,特別是采用文檔排名位置的對數(shù)值In (rank),保證規(guī)范化后 的分?jǐn)?shù)分布在前100位上具有區(qū)分性。
[0006] 對比文件
[0007] [l]Lee, J. H. :Analysis of multiple evidence combination. In:Proceedings of the20th Annual International ACM SIGIR Conference, Philadelphia, Pennsylvania ,USA, pp. 267-275, 1997.
[0008] [2] Wu,S.,Crestani,F(xiàn).,Bi,Y. : Evaluating Score Normalization Methods in Data Fusion. In:Ng,Η. T.,Leong,Μ. -K.,Μ. -Y.,Ji,D. (eds. )AIRS2006. LNCS, vol. 4182, pp. 642-648. Springer, Heidelberg, 2006.
[0009] [3] Montague, M. , As lam, J. A. : Relevance score normalization for metasearch. In:Proceedings of ACM CIKM Conference, Berkeley, USA, pp. 427-433,2001.
[0010] [4]Manmatha, R. , T. Rath, and Fangfang Feng. :Modeling score distributions for combining the outputs of search engines.In:Proceedings of the24th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2001.
[0011] [5] Fernandez, M. , Val let, D. , and Castells,P. : Probab i 1 i s t ic score normalization for rank aggregation. Advances in Information Retrieval. Springer Berlin Heidelberg, pp. 553-556. 2006.
[0012] [6]Cormack, G. V. , Clarke, C. L. A. , and Buttcher, S. : Reciprocal rank fusion outperforms Condorect and individual rank learning methods. In:Proceedings of the32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 758-759. Bonston, Massachusetts, 2009.
[0013] [7]Le Calve,A.,and Savoy,J. :Database merging strategy based on logistic regression. Information Processing&Management36. 3, pp. 341-359, 2000.
[0014] [8]Savoy,J. Report on CLEF_2003multilingual tracks. : Comparative Evaluation of Multilingual Information Access Systems.Springer Berlin Heidelberg,pp. 64-73, 2004.
[0015] [9] Wu,S.,Bi,Y.,and McClean,S. : Regression relevance models for data fusion.Database and Expert Systems Applications,2007.DEXAJ 07. 18th International Workshopo n.IEEE,2007.
[0016] [10] Javed A. As lam, Mark H. Mon tague : Mode 1 s for Metasearch. SIGIR2001:275-284.
【發(fā)明內(nèi)容】
[0017] 本發(fā)明的目的在于提供一種針對檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法,以提高檢 索結(jié)果在多樣性上的表現(xiàn),使得不同系統(tǒng)賦予同一個文檔的分?jǐn)?shù)具有更好的可比性。
[0018] 為了解決以上技術(shù)問題,本發(fā)明采用的具體技術(shù)方案如下:
[0019] 一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法,其特征在于:基于文檔排 名位置即排名,使用排名的對數(shù)作為模型核心的一種非線性分?jǐn)?shù)規(guī)范化,具體計算方法如 下:
[0020] s = 1-0. 2*ln(rank+l)
[0021] 其中rank表示文檔的排名位置,s表示文檔規(guī)范化后的分?jǐn)?shù)即規(guī)范化分?jǐn)?shù)。
[0022] 本發(fā)明具有有益效果。本發(fā)明采用簡單的對數(shù)模型,適用于檢索結(jié)果多元化目標(biāo), 可提供更有可比性的文檔分?jǐn)?shù),從而使得檢索結(jié)果具有良好的相關(guān)性和多樣性,可應(yīng)用于 信息檢索結(jié)果的數(shù)據(jù)融合和分布式信息檢索。
【具體實施方式】
[0023] 下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)說明。
[0024] 實施例1
[0025] 設(shè)在特定檢索情況下,對于系統(tǒng)提供針對某個查詢,給出了一個文檔的排名列表, 列表中包含了 5個檢索到的文檔,并且該系統(tǒng)不提供所賦予每個文檔的分?jǐn)?shù)。采用對數(shù)模 型1-0. 2*ln(rank+l),每個文檔排名位置上的文檔分?jǐn)?shù)為:
[0026]
【權(quán)利要求】
1. 一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法,其特征在于:基于文檔排 名位置即排名,使用排名的對數(shù)作為模型核心的一種非線性分?jǐn)?shù)規(guī)范化,具體計算方法如 下: s = 1-0. 2*ln(rank+l) 其中rank表示文檔排名位置,s表示文檔規(guī)范化后的分?jǐn)?shù)即規(guī)范化分?jǐn)?shù)。
【文檔編號】G06F17/30GK104112012SQ201410340344
【公開日】2014年10月22日 申請日期:2014年7月16日 優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】李潔玉, 黃春蘭, 吳勝利 申請人:江蘇大學(xué)