一種基于改進tf-idf的多索引合并排序算法

文檔序號：8457375閱讀：241來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于改進tf-idf的多索引合并排序算法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多索引合并排序算法技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來，隨著社會的發(fā)展，信息呈現(xiàn)出爆炸增長的趨勢[1]。科技領(lǐng)域的資源信息作為一種特定的信息，同樣在快速增長并具有鮮明的類別特征，如微生物資源、農(nóng)作物種質(zhì)資源等?；趩我凰饕臋z索在面向海量科技資源時，逐漸顯現(xiàn)出一些不足，如響應(yīng)速度慢、資源維護困難、檢索結(jié)果排序準(zhǔn)確性不高等，因此，結(jié)合科技資源明顯的類別特征，可以將科技資源按其類別進行分類索引，檢索時分別檢索每一類的索引，再對結(jié)果進行合并排序。
[0003] 在信息檢索中，檢索結(jié)果排序一般依據(jù)的是用戶檢索意圖與返回文檔的相關(guān)程度，其中，TF-IDF作為衡量檢索詞在文檔中的權(quán)重信息，被廣泛采用。經(jīng)典的TF-IDF算法能根據(jù)文檔中特征詞出現(xiàn)頻率以及在文檔集中包含該特征詞的文檔數(shù)來計算特征權(quán)重。根據(jù)主觀判斷，這種算法計算出的結(jié)果符合實際情況。但TF-IDF還存在一些不足，如結(jié)構(gòu)簡單，容易產(chǎn)生計算偏差；無法反映一些關(guān)鍵詞語的重要程度；沒有考慮特征詞的分布情況等。這就導(dǎo)致其在實際應(yīng)用中不能很好地滿足用戶的需要。
[0004] 因此，本文提出一種改進的TF-IDF算法，充分考慮特征詞的重要程度以及分布情況；在此基礎(chǔ)之上，通過《知網(wǎng)》計算的詞語相似度，提出一種多索引合并排序算法，從而達到更好的檢索效果。
[0005] 1.單索引TF-IDF算法
[0006] LI TF-IDF 特征權(quán)重
[0007] 為了能夠更好的表示某個特征詞在整個文檔集中的重要程度，Salton于1988 年提出了單文本詞匯頻率--逆文本頻率TF-IDF(Term Frequency-Inverse Document Frequency)[5]的概念。其中，TF的意義是"包含詞（Term)多的文檔（Document)應(yīng)該比包含詞少的文檔更相關(guān)"；IDF的意義是，"一個詞表示文檔主題的能力越強，那么它對文檔的區(qū)分能力越突出，權(quán)重就越大；反之，權(quán)重就越小"。所以TF-IDF的意義是："如果特征詞在所有文本中出現(xiàn)的頻率越高，那么它所包含的信息熵就越少；如果特征詞的出現(xiàn)較為集中，只有少量文本中有較高的出現(xiàn)頻率，那么它就會有較高的信息熵"。詞的權(quán)重數(shù)學(xué)描述為：
[0008] w (t, d) = tf (t, d) *idf (t, d) (1)
[0009] 其中w(t, d)表示詞t在文檔d中的權(quán)重；tf (t, d)表示詞t的tf值，即文檔d中出現(xiàn)詞t的次數(shù)；idf (t，d)表示詞t的idf值，即所有出現(xiàn)詞t的文檔的倒數(shù)。
[0010] 公式（1)給出了計算詞的權(quán)重的最基本形式。而目前計算此權(quán)重較為常用的公式如下式所示：
【主權(quán)項】
1. 一種基于改進TF-IDF的多索引合并排序算法，運用于文本檢索，其特征在于包括如下步驟：步驟1.針對經(jīng)典TF-IDF算法和Lucene中TF-IDF打分公式算法的不足，對TF-IDF算法進行了改進，改進方面包括考慮詞序、詞距因素，以及引入查詢詞擴展，用公式表示為：
其中score是指針對查詢詞terms，文檔的最終得分； TF-IDF是指利用Lucene中的TF-IDF打分公式得出的文檔得分；distance(terms)是所有terms之間的詞序和詞距因子，它由兩部分構(gòu)成，分別是詞序因子和詞距因子，其計算公式如下： distance(terms) =t.seq*t.dis，其中，t.seq是詞序因子，t.dis是詞距因子；boost(term)是特征詞權(quán)重因子，能夠根據(jù)檢索詞的重要程度進行修改，如引入同義詞擴展時，可適當(dāng)減小該值的權(quán)重； decrease是指衰減因子，目的是削減查詢擴展詞對原始查詢詞的影響；步驟2.按照科技資源領(lǐng)域不同將科技資源進行分類，構(gòu)建多個索引；由于用戶輸入的檢索詞具有領(lǐng)域偏向性，為了保證在多索引情況下合并查詢結(jié)果后返回給用戶的結(jié)果也具有領(lǐng)域偏向性，先計算出用戶輸入的查詢詞和領(lǐng)域特征詞的相似度，將此相似度引入到最終結(jié)果計算中；所述詞語相似度算法采用的是基于知網(wǎng)的詞語相似度計算，即根據(jù)詞語在義元層次樹中的層次關(guān)系，其計算公式如下：
其中H是指義元層次樹的高度，dis(〇i,Oj)是義元(^和Oj在同一棵義元層次樹中的路徑長度；步驟3.基于改進的TF-IDF算法以及詞語相似度計算方法，提出了多索引情況下的索引合并排序算法，用公式表示為： weight = indexDecrease氺indexBoost氺score 其中weight表示文檔的最終得分； indexDecrease是索引權(quán)重衰減因子，用于調(diào)節(jié)最終結(jié)果； indexBoost是索引權(quán)重因子，是用戶輸入關(guān)鍵詞與該類資源的所有特征詞的相似度的算術(shù)平均值，其計算公式如下：
其中Qterm是用戶輸入的檢索詞，Dterm是該類資源的特征詞，n是用戶輸入的檢索詞的個數(shù)，N是該類資源的特征詞的個數(shù)；score是根據(jù)步驟1中公式計算出的權(quán)重值。
【專利摘要】本發(fā)明涉及一種基于改進TF-IDF的多索引合并排序算法。它利用特征詞的TF-IDF權(quán)重及夾角余弦值計算文檔向量和查詢向量的相似度，以此來確定返回給用戶的排序結(jié)果。用戶往往只關(guān)心Top-n的查詢結(jié)果，采用合理的排序算法對查詢結(jié)果進行優(yōu)化排序，能夠有效地改善系統(tǒng)的查詢效果與用戶體驗。針對單索引情況，綜合考慮了多個檢索詞之間的詞序、詞距、擴展詞權(quán)重等因素，對TF-IDF算法進行了改進，進一步對基于TF-IDF的多索引合并排序算法進行了研究。實驗證明，采用該算法后，系統(tǒng)的查全率有大幅提升，整體性能也有所提升。
【IPC分類】G06F17-30
【公開號】CN104778276
【申請?zhí)枴緾N201510212072
【發(fā)明人】彭升輝, 張輝
【申請人】北京航空航天大學(xué)
【公開日】2015年7月15日
【申請日】2015年4月29日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭升輝;張輝;
技術(shù)所有人：北京航空航天大學(xué);
我是此專利的發(fā)明人

上一篇：一種基于Redis的RDF數(shù)據(jù)分布式存儲和查詢方法
上一篇：一種信息分享方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于改進tf-idf的多索引合并排序算法