一種基于改進tf-idf的多索引合并排序算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多索引合并排序算法技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來,隨著社會的發(fā)展,信息呈現(xiàn)出爆炸增長的趨勢[1]。科技領(lǐng)域的資源信息作 為一種特定的信息,同樣在快速增長并具有鮮明的類別特征,如微生物資源、農(nóng)作物種質(zhì)資 源等?;趩我凰饕臋z索在面向海量科技資源時,逐漸顯現(xiàn)出一些不足,如響應(yīng)速度慢、 資源維護困難、檢索結(jié)果排序準(zhǔn)確性不高等,因此,結(jié)合科技資源明顯的類別特征,可以將 科技資源按其類別進行分類索引,檢索時分別檢索每一類的索引,再對結(jié)果進行合并排序。
[0003] 在信息檢索中,檢索結(jié)果排序一般依據(jù)的是用戶檢索意圖與返回文檔的相關(guān)程 度,其中,TF-IDF作為衡量檢索詞在文檔中的權(quán)重信息,被廣泛采用。經(jīng)典的TF-IDF算法 能根據(jù)文檔中特征詞出現(xiàn)頻率以及在文檔集中包含該特征詞的文檔數(shù)來計算特征權(quán)重。根 據(jù)主觀判斷,這種算法計算出的結(jié)果符合實際情況。但TF-IDF還存在一些不足,如結(jié)構(gòu)簡 單,容易產(chǎn)生計算偏差;無法反映一些關(guān)鍵詞語的重要程度;沒有考慮特征詞的分布情況 等。這就導(dǎo)致其在實際應(yīng)用中不能很好地滿足用戶的需要。
[0004] 因此,本文提出一種改進的TF-IDF算法,充分考慮特征詞的重要程度以及分布情 況;在此基礎(chǔ)之上,通過《知網(wǎng)》計算的詞語相似度,提出一種多索引合并排序算法,從而達 到更好的檢索效果。
[0005] 1.單索引TF-IDF算法
[0006] LI TF-IDF 特征權(quán)重
[0007] 為了能夠更好的表示某個特征詞在整個文檔集中的重要程度,Salton于1988 年提出了單文本詞匯頻率--逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)[5]的概念。其中,TF的意義是"包含詞(Term)多的文檔(Document)應(yīng)該比包 含詞少的文檔更相關(guān)";IDF的意義是,"一個詞表示文檔主題的能力越強,那么它對文檔的 區(qū)分能力越突出,權(quán)重就越大;反之,權(quán)重就越小"。所以TF-IDF的意義是:"如果特征詞在 所有文本中出現(xiàn)的頻率越高,那么它所包含的信息熵就越少;如果特征詞的出現(xiàn)較為集中, 只有少量文本中有較高的出現(xiàn)頻率,那么它就會有較高的信息熵"。詞的權(quán)重數(shù)學(xué)描述為:
[0008] w (t, d) = tf (t, d) *idf (t, d) (1)
[0009] 其中w(t, d)表示詞t在文檔d中的權(quán)重;tf (t, d)表示詞t的tf值,即文檔d中 出現(xiàn)詞t的次數(shù);idf (t,d)表示詞t的idf值,即所有出現(xiàn)詞t的文檔的倒數(shù)。
[0010] 公式(1)給出了計算詞的權(quán)重的最基本形式。而目前計算此權(quán)重較為常用的公式 如下式所示:
【主權(quán)項】
1. 一種基于改進TF-IDF的多索引合并排序算法,運用于文本檢索,其特征在于包括如 下步驟: 步驟1.針對經(jīng)典TF-IDF算法和Lucene中TF-IDF打分公式算法的不足,對TF-IDF算 法進行了改進,改進方面包括考慮詞序、詞距因素,以及引入查詢詞擴展,用公式表示為:
其中score是指針對查詢詞terms,文檔的最終得分; TF-IDF是指利用Lucene中的TF-IDF打分公式得出的文檔得分;distance(terms)是所有terms之間的詞序和詞距因子,它由兩部分構(gòu)成,分別是詞 序因子和詞距因子,其計算公式如下: distance(terms) =t.seq*t.dis,其中,t.seq是詞序因子,t.dis是詞距因子;boost(term)是特征詞權(quán)重因子,能夠根據(jù)檢索詞的重要程度進行修改,如引入同義詞 擴展時,可適當(dāng)減小該值的權(quán)重; decrease是指衰減因子,目的是削減查詢擴展詞對原始查詢詞的影響; 步驟2.按照科技資源領(lǐng)域不同將科技資源進行分類,構(gòu)建多個索引;由于用戶輸入的 檢索詞具有領(lǐng)域偏向性,為了保證在多索引情況下合并查詢結(jié)果后返回給用戶的結(jié)果也具 有領(lǐng)域偏向性,先計算出用戶輸入的查詢詞和領(lǐng)域特征詞的相似度,將此相似度引入到最 終結(jié)果計算中;所述詞語相似度算法采用的是基于知網(wǎng)的詞語相似度計算,即根據(jù)詞語在 義元層次樹中的層次關(guān)系,其計算公式如下:
其中H是指義元層次樹的高度,dis(〇i,Oj)是義元(^和Oj在同一棵義元層次樹中的路 徑長度; 步驟3.基于改進的TF-IDF算法以及詞語相似度計算方法,提出了多索引情況下的索 引合并排序算法,用公式表示為: weight = indexDecrease氺indexBoost氺score 其中weight表示文檔的最終得分; indexDecrease是索引權(quán)重衰減因子,用于調(diào)節(jié)最終結(jié)果; indexBoost是索引權(quán)重因子,是用戶輸入關(guān)鍵詞與該類資源的所有特征詞的相似度的 算術(shù)平均值,其計算公式如下:
其中Qterm是用戶輸入的檢索詞,Dterm是該 類資源的特征詞,n是用戶輸入的檢索詞的個數(shù),N是該類資源的特征詞的個數(shù);score是根據(jù)步驟1中公式計算出的權(quán)重值。
【專利摘要】本發(fā)明涉及一種基于改進TF-IDF的多索引合并排序算法。它利用特征詞的TF-IDF權(quán)重及夾角余弦值計算文檔向量和查詢向量的相似度,以此來確定返回給用戶的排序結(jié)果。用戶往往只關(guān)心Top-n的查詢結(jié)果,采用合理的排序算法對查詢結(jié)果進行優(yōu)化排序,能夠有效地改善系統(tǒng)的查詢效果與用戶體驗。針對單索引情況,綜合考慮了多個檢索詞之間的詞序、詞距、擴展詞權(quán)重等因素,對TF-IDF算法進行了改進,進一步對基于TF-IDF的多索引合并排序算法進行了研究。實驗證明,采用該算法后,系統(tǒng)的查全率有大幅提升,整體性能也有所提升。
【IPC分類】G06F17-30
【公開號】CN104778276
【申請?zhí)枴緾N201510212072
【發(fā)明人】彭升輝, 張輝
【申請人】北京航空航天大學(xué)
【公開日】2015年7月15日
【申請日】2015年4月29日