一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法

文檔序號：6620373閱讀：413來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法
【專利摘要】本發(fā)明公開了一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法，采用一種基于文檔排名位置的方法對分?jǐn)?shù)進(jìn)行規(guī)范化。假設(shè)文檔排名位置為rank，文檔的規(guī)范化分?jǐn)?shù)通過計算1-0.2*ln(rank+1)的值獲得。該方法適用于信息檢索結(jié)果多元化目標(biāo)，能夠使得文檔的分?jǐn)?shù)具有更好的可比性，可以應(yīng)用于信息檢索結(jié)果的數(shù)據(jù)融合、分布式信息檢索等。
【專利說明】一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種針對檢索結(jié)果多樣化的分?jǐn)?shù)規(guī)范化方法，應(yīng)用于信息檢索結(jié)果的數(shù)據(jù)融合、分布式信息檢索等。

【背景技術(shù)】
[0002] 在很多應(yīng)用中，如信息檢索系統(tǒng)結(jié)果的數(shù)據(jù)融合、分布式信息檢索等，需要使用文檔的分?jǐn)?shù)信息對數(shù)據(jù)進(jìn)行綜合處理。對于這些應(yīng)用，分?jǐn)?shù)規(guī)范化是不可或缺的環(huán)節(jié)。由于這些過程需要處理很多來自不同檢索系統(tǒng)所給出的文檔，而不同檢索系統(tǒng)提供的文檔分?jǐn)?shù) 一般有著不同的分布范圍，這就使得不同來源的文檔分?jǐn)?shù)并不具有可比性。甚至，有的檢索系統(tǒng)不提供文檔分?jǐn)?shù)，僅給出一個文檔序列。這些不規(guī)范的分?jǐn)?shù)以及分?jǐn)?shù)信息的缺失會對后續(xù)處理有很大的影響。分?jǐn)?shù)規(guī)范化保證了文檔分?jǐn)?shù)的可比性，是組合不同來源數(shù)據(jù)之前的必要準(zhǔn)備工作。
[0003] 目前，已經(jīng)有多種方法來進(jìn)行分?jǐn)?shù)規(guī)范化。一般地，可以將其分為兩類：基于原始分?jǐn)?shù)的規(guī)范化方法和基于文檔排名位置的規(guī)范化方法?；谠挤?jǐn)?shù)的規(guī)范化方法利用檢索系統(tǒng)提供的文檔的原始分?jǐn)?shù)，采用某種策略，將原始分?jǐn)?shù)分布轉(zhuǎn)化為新的分?jǐn)?shù)分布，使得不同系統(tǒng)之間的規(guī)范化后的分?jǐn)?shù)具有可比性。采用的策略主要有線性的和非線性的兩種。在線性的分?jǐn)?shù)規(guī)范化方法中，比較經(jīng)典的有0-1線性規(guī)范化方法[1]，將文檔的原始分?jǐn)?shù)線性地規(guī)范化到[0, 1]區(qū)間；Fitting方法[2]在0-1規(guī)范方法上改進(jìn)，將分?jǐn)?shù)范圍規(guī)范到 [a，b]區(qū)間上；Sum-to-One方法[3]要求所有規(guī)范化后分?jǐn)?shù)的和為1。非線性的方法有一種考慮了相關(guān)文檔和非相關(guān)文檔不同分布的混合模型中[4]，基于CDF(Cumulative Density Function)的規(guī)范化方法[5]等。
[0004] 使用基于原始分?jǐn)?shù)規(guī)范化方法的前提是系統(tǒng)提供真實有效的原始分?jǐn)?shù)信息。對于系統(tǒng)只提供文檔排名的序列而不提供文檔原始分?jǐn)?shù)的情況，則要采用某些方法轉(zhuǎn)化排名信息以獲得相應(yīng)的分?jǐn)?shù)信息?；谖臋n排名位置的分?jǐn)?shù)規(guī)范化方法中比較著名的有排名倒數(shù) 方法[6]，該方法采用lArank+k)公式對文檔原始分?jǐn)?shù)進(jìn)行規(guī)范化，并且提出參數(shù)k取60 得到的效果最好。Logistic模型也被用于分?jǐn)?shù)規(guī)范化[7,8]。在文獻(xiàn)[7,8]中，Calve等人使用文檔排名位置的對數(shù)值In (rank)代替了文檔排名位置rank本身。由于使用rank本身作為自變量的Logistic曲線隨著排名的增大降低得非常迅速，在排名大于10的位置以后，規(guī)范化后的分?jǐn)?shù)都十分接近于0,這就使得非前十位文檔排名位置上的分?jǐn)?shù)的可比較性變差，特別是對于第11-100位的文檔。根據(jù)文檔排名位置規(guī)范的方法還有Cubic模型[9]，波達(dá)計數(shù)模型[10]等。
[0005] 這些分?jǐn)?shù)規(guī)范化方法能在某些情況下使得檢索結(jié)果表現(xiàn)良好，但是并沒有考慮檢索結(jié)果多元化的情況。這些方法是否能夠?qū)崿F(xiàn)檢索結(jié)果的多樣性是有待考察的?？紤]到實際情況中，存在這部分檢索系統(tǒng)并不提供文檔的原始分?jǐn)?shù)信息，本發(fā)明提出采用基于文檔排名位置的分?jǐn)?shù)規(guī)范化方法，特別是采用文檔排名位置的對數(shù)值In (rank)，保證規(guī)范化后的分?jǐn)?shù)分布在前100位上具有區(qū)分性。
[0006] 對比文件
[0007] [l]Lee, J. H. :Analysis of multiple evidence combination. In:Proceedings of the20th Annual International ACM SIGIR Conference, Philadelphia, Pennsylvania ,USA, pp. 267-275, 1997.
[0008] [2] Wu，S.，Crestani，F(xiàn).，Bi，Y. : Evaluating Score Normalization Methods in Data Fusion. In:Ng，Η. T.，Leong，Μ. -K.，Μ. -Y.，Ji，D. (eds. )AIRS2006. LNCS, vol. 4182, pp. 642-648. Springer, Heidelberg, 2006.
[0009] [3] Montague, M. , As lam, J. A. : Relevance score normalization for metasearch. In:Proceedings of ACM CIKM Conference, Berkeley, USA, pp. 427-433,2001.
[0010] [4]Manmatha, R. , T. Rath, and Fangfang Feng. :Modeling score distributions for combining the outputs of search engines.In:Proceedings of the24th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2001.
[0011] [5] Fernandez, M. , Val let, D. , and Castells,P. : Probab i 1 i s t ic score normalization for rank aggregation. Advances in Information Retrieval. Springer Berlin Heidelberg, pp. 553-556. 2006.
[0012] [6]Cormack, G. V. , Clarke, C. L. A. , and Buttcher, S. : Reciprocal rank fusion outperforms Condorect and individual rank learning methods. In:Proceedings of the32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 758-759. Bonston, Massachusetts, 2009.
[0013] [7]Le Calve，A.，and Savoy，J. :Database merging strategy based on logistic regression. Information Processing&Management36. 3, pp. 341-359, 2000.
[0014] [8]Savoy，J. Report on CLEF_2003multilingual tracks. : Comparative Evaluation of Multilingual Information Access Systems.Springer Berlin Heidelberg，pp. 64-73, 2004.
[0015] [9] Wu，S.，Bi，Y.，and McClean，S. : Regression relevance models for data fusion.Database and Expert Systems Applications,2007.DEXAJ 07. 18th International Workshopo n.IEEE,2007.
[0016] [10] Javed A. As lam, Mark H. Mon tague : Mode 1 s for Metasearch. SIGIR2001:275-284.

【發(fā)明內(nèi)容】

[0017] 本發(fā)明的目的在于提供一種針對檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法，以提高檢索結(jié)果在多樣性上的表現(xiàn)，使得不同系統(tǒng)賦予同一個文檔的分?jǐn)?shù)具有更好的可比性。
[0018] 為了解決以上技術(shù)問題，本發(fā)明采用的具體技術(shù)方案如下：
[0019] 一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法，其特征在于：基于文檔排名位置即排名，使用排名的對數(shù)作為模型核心的一種非線性分?jǐn)?shù)規(guī)范化，具體計算方法如下：
[0020] s = 1-0. 2*ln(rank+l)
[0021] 其中rank表示文檔的排名位置，s表示文檔規(guī)范化后的分?jǐn)?shù)即規(guī)范化分?jǐn)?shù)。
[0022] 本發(fā)明具有有益效果。本發(fā)明采用簡單的對數(shù)模型，適用于檢索結(jié)果多元化目標(biāo)，可提供更有可比性的文檔分?jǐn)?shù)，從而使得檢索結(jié)果具有良好的相關(guān)性和多樣性，可應(yīng)用于信息檢索結(jié)果的數(shù)據(jù)融合和分布式信息檢索。

【具體實施方式】
[0023] 下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)說明。
[0024] 實施例1
[0025] 設(shè)在特定檢索情況下，對于系統(tǒng)提供針對某個查詢，給出了一個文檔的排名列表，列表中包含了 5個檢索到的文檔，并且該系統(tǒng)不提供所賦予每個文檔的分?jǐn)?shù)。采用對數(shù)模型1-0. 2*ln(rank+l)，每個文檔排名位置上的文檔分?jǐn)?shù)為：
[0026]

【權(quán)利要求】
1. 一種針對信息檢索結(jié)果多元化的文檔分?jǐn)?shù)規(guī)范化方法，其特征在于：基于文檔排名位置即排名，使用排名的對數(shù)作為模型核心的一種非線性分?jǐn)?shù)規(guī)范化，具體計算方法如下： s = 1-0. 2*ln(rank+l) 其中rank表示文檔排名位置，s表示文檔規(guī)范化后的分?jǐn)?shù)即規(guī)范化分?jǐn)?shù)。
【文檔編號】G06F17/30GK104112012SQ201410340344
【公開日】2014年10月22日申請日期:2014年7月16日優(yōu)先權(quán)日:2014年7月16日
【發(fā)明者】李潔玉, 黃春蘭, 吳勝利申請人:江蘇大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李潔玉;黃春蘭;吳勝利
技術(shù)所有人：江蘇大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

信息檢索常用的方法有相關(guān)技術(shù)

信息檢索方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索的方法相關(guān)技術(shù)

信息檢索的方法相關(guān)技術(shù)

信息檢索常用方法相關(guān)技術(shù)

信息檢索方法有哪些相關(guān)技術(shù)

信息檢索的基本方法相關(guān)技術(shù)

因特網(wǎng)信息檢索方法相關(guān)技術(shù)

網(wǎng)絡(luò)信息檢索方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種針對信息檢索結(jié)果多元化的分?jǐn)?shù)規(guī)范化方法