一種基于關(guān)聯(lián)分析的文獻檢索方法

文檔序號：6459952閱讀：372來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于關(guān)聯(lián)分析的文獻檢索方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計算機領(lǐng)域的分布式計算和信息檢索，具體涉及一種基于
關(guān)聯(lián)分析(RelationshipAnalysis)的文獻檢索方法。
背景技術(shù)：
當前的文獻檢索系統(tǒng)(如中國學(xué)術(shù)期刊網(wǎng)CNKI、計算機ACM數(shù)據(jù)庫、 IEEE電子圖書館等)，主要采用關(guān)鍵字方式檢索到滿足用戶査詢請求的結(jié) 果列表(如學(xué)術(shù)論文列表、作者列表、學(xué)術(shù)會議列表等)。但是不同于普通的文檔集合，文獻包含更加豐富的信息單元(如作者Author、學(xué)術(shù)會議 Conference、期刊雜志Journal、論文Publication、論文標題、論文發(fā)表日期等)，信息單元之間存在著異構(gòu)的關(guān)聯(lián)，例如，某篇學(xué)術(shù)論文由某作者撰寫(wn'^"- )、或者被其它的論文引用("'fed- )、或者同其它論文在全文內(nèi)容上相似(W/m7w-to)、或者被學(xué)術(shù)會議錄用(pwMW^/々")等，這些關(guān)聯(lián)具有不同的含義。如果以文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊，則可以將文獻庫看成巨大的網(wǎng)絡(luò)圖，而不是簡單的線性列表。所以可以采用圖中的關(guān)聯(lián)分析方法(RelationshipAnalysis)進行文獻的檢索，檢索的結(jié)果是包含檢索關(guān)鍵字的連通子圖，該連通子圖表示關(guān)鍵字之間的關(guān)聯(lián)。例如，用戶檢索請求為Q- {Bob, Algorithm},期望檢索到與這兩個關(guān)鍵字相關(guān)聯(lián)的文獻信息，可能存在如下兩個滿足請求的結(jié)果(1) 某篇論文的作者為Bob，其全文包含關(guān)鍵字Algorithm; (2)某篇論文的標題包含關(guān)鍵字Algorithm，該論文被作者Bob所寫的論文引用。
關(guān)聯(lián)分析的方法被廣泛應(yīng)用在萬維網(wǎng)Web搜索引擎中，如Google、 Yahoo!、百度Baidu等。著名的Google PageRank算法利用網(wǎng)頁超級鏈接分析，以網(wǎng)頁為節(jié)點、網(wǎng)頁之間的超級鏈接為邊，將Web看成巨大的有向圖，基于網(wǎng)頁如果被其它重要網(wǎng)頁鏈接則其重要性增加的原理，計算網(wǎng)頁的PageRank值。但是，以上Web搜索引擎的檢索結(jié)果仍然是簡單的網(wǎng)頁列表。文獻引用分析(Citation Analysis)屬于關(guān)聯(lián)分析中的一種，主要是根據(jù)論文被引用的次數(shù)多少評估該論文的價值，例如美國《科學(xué)引文索引》 (Science Citation Index —SCI)，根據(jù)每種期刊發(fā)表論文的被引用次數(shù)以及發(fā)表的論文總數(shù)計算出該期刊的影響因子(ImpactFactor)。引用分析提供了一種新的文獻檢索方法，即從某篇論文可以檢索到所有引用過該論文的其它論文，然后以這些引用論文為新的檢索起點，檢索到更多的被引論文。但是這種檢索方法功能單一，只能根據(jù)簡單的引用關(guān)系(c&A )檢索文獻，而不能提供功能更加豐富的基于關(guān)聯(lián)分析的文獻檢索。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于關(guān)聯(lián)分析的文獻檢索方法。該方法實現(xiàn)基于關(guān)聯(lián)分析的文獻檢索，能檢索到與檢索關(guān)鍵字相關(guān)聯(lián)的連通圖，而不是傳統(tǒng)的簡單文獻信息列表。
本發(fā)明提供的基于關(guān)聯(lián)分析的文獻檢索方法，其步驟包括
(1) 以文獻數(shù)據(jù)庫中所有文獻的信息單元為節(jié)點、以信息單元之間的關(guān) 聯(lián)為邊，建立文獻網(wǎng)絡(luò)(2) 對于有"個關(guān)鍵字的用戶檢索請求Q= {&， & ...，&}，"為正整數(shù)，每個關(guān)鍵字都確定一個節(jié)點集合，該集合包括所有包含該關(guān)鍵字的節(jié)點，則總共有"個集合，分別表示為V/, V2, ...， V ;
(3) 將檢索請求的答案R初始化為集合V7中的任意一個節(jié)點；
(4) 對于剩余的w _ 1個集合中的每個集合，都構(gòu)建一條到當前答案R 的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R;
(5) 輸出答案R;
(6) 判斷集合V;中是否包含未被選擇的其它節(jié)點，如果有，則將答案
R重新初始化為該節(jié)點，并進入步驟(4);否則，進入步驟(7);
(7) 檢索結(jié)束。本發(fā)明提供一種基于關(guān)聯(lián)分析的文獻檢索方法，能檢索到與用戶檢索請求相關(guān)聯(lián)的文獻信息。具體而言，本發(fā)明具有以下特點
(1) 檢索的結(jié)果是包含檢索關(guān)鍵字的連通子圖，該連通子圖表示關(guān)鍵字之間的關(guān)聯(lián)，具有明確的含義。傳統(tǒng)的文獻檢索方法采用簡單的文獻信息列表方式，主要是檢索與關(guān)鍵字匹配的文獻信息，如標題、作者、全文、摘要等，而不能檢索更加復(fù)雜的關(guān)聯(lián)圖。
(2) 檢索的方式使用普通用戶所熟悉的關(guān)鍵字接口，用戶不需要理解文獻庫后臺隱含的數(shù)據(jù)結(jié)構(gòu)。文獻庫屬于半結(jié)構(gòu)化的數(shù)據(jù)，通常的檢索方式
是數(shù)據(jù)庫結(jié)構(gòu)化查詢語言SQL，但是要求用戶熟悉SQL査詢語言并理解后臺的數(shù)據(jù)組織結(jié)構(gòu)。

圖1是本發(fā)明基于關(guān)聯(lián)分析的文獻檢索方法流程圖。圖2為滿足檢索請求的答案R生成過程的實例圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明做進一步說明。
如圖1所示，本發(fā)明方法包括以下幾個步驟
(1) 獲取文獻數(shù)據(jù)庫中所有文獻的信息單元，包括文獻的作者Author、學(xué)術(shù)會議Conference、期刊雜志Journal、論文標題title、論文發(fā)表年份year、論文摘要abstract、論文全文flilltext，并獲取信息單元之間的關(guān)聯(lián)，包括某篇文獻由某作者撰寫(vtr故e"- )、或者被其它的文獻引用("fed- )、或者同其它文獻在全文內(nèi)容上相似(《'/m'/w-to)、或者被學(xué)術(shù)會議或期刊錄用(pW6fc/z /-/w)。然后，以所有文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊，建立文獻網(wǎng)絡(luò)圖。
(2) 對于有"個關(guān)鍵字的用戶檢索請求(^={^,^,...,&}，確定每個關(guān)
鍵字對應(yīng)的節(jié)點集合，集合中的每個節(jié)點都包含該關(guān)鍵字，則總共有w個集合，分別表示為V;，V2, ...,V 。用戶通過界面輸入包含"個關(guān)鍵字的檢索請求Q = {&， ...， &}，其中 1《z'《"，^表示集合中的第z'個關(guān)鍵字，對于每個關(guān)鍵字都確定一個節(jié)點集合，該集合包括所有包含該關(guān)鍵字的節(jié)點，從而得到"個集合，分別表示為V" V2,…，V"。
(3) 將檢索請求的答案R初始化為集合V7中的任意一個節(jié)點。滿足檢索請求的答案R必須包含檢索請求中的每個關(guān)鍵字。首先，答
案R初始化為集合、中的任意一個節(jié)點，所以當前初始的R包含集合Vy 對應(yīng)的關(guān)鍵字&。
(4) 對于剩余的w - 1個集合中的每個集合，都構(gòu)建一條到當前答案R 的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R。
由于答案R目前只包含關(guān)鍵字&,所以必須包括另外其它n- 1個關(guān)鍵字對于剩余的"-1個集合V2， ...，V"中的每個集合，都構(gòu)建一條到當前答案R的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R。該步驟完成后，當前的答案R包含所有的A個集合對應(yīng)的關(guān)鍵字。
(5) 輸出答案R;
因為目前答案R包含檢索請求中的每個關(guān)鍵字，所以滿足用戶的檢索請求Q，作為結(jié)果輸出。
(6) 判斷集合V;中是否包含未被選擇的其它節(jié)點，如果有，則將答案 R重新初始化為該節(jié)點，并進入步驟(4);否則，進入步驟(7);
在步驟(3)中，答案R被初始化為集合、中的任意一個節(jié)點，如果IV;I >1，其中IV」表示該集合中所有節(jié)點的個數(shù)，則將答案R重新初始化為其它未被選擇的節(jié)點，并重復(fù)步驟(3)-(4),得到新的滿足用戶檢索請求的其它答案。如果集合Vr漢包含一個節(jié)點，則輸出唯一的答案R后，退出檢索。
(7) 檢索結(jié)束。
應(yīng)當理解的是，對本發(fā)明技術(shù)所在領(lǐng)域的普通技術(shù)人員來說，可以根據(jù)本發(fā)明的技術(shù)方案及其構(gòu)思進行相應(yīng)的等同改變或替換，而所有這些改變或替換，都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護范圍。
實例圖2為滿足檢索請求的答案R生成過程的實例圖，包括4個子圖，即子圖(a)、 (b)、 (c)和(d)。圖中所有的三角形節(jié)點表示包含關(guān)鍵字的節(jié)點，圓形的表示其它不包括關(guān)鍵字的中間節(jié)點。
其中子圖(a)為將文獻庫中的文獻信息單元表示成節(jié)點、以信息單元之間的關(guān)聯(lián)表示成邊的文獻網(wǎng)絡(luò)圖，用戶的檢索請求為Q= {Bob,CPU， SIGCOMM}。首先確定以上三個關(guān)鍵字分別對應(yīng)的集合V" V2和Vp例如，集合V;包括兩個節(jié)點，這兩個節(jié)點都包含關(guān)鍵字Bob。
如子圖(b)所示，首先將答案R初始化為集合V;中的任意一個節(jié)點，此時答案R將包含關(guān)鍵字Bob。
如子圖(c)所示，構(gòu)建一條從集合V2到當前答案R的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R，此時答案R包含關(guān)鍵字Bob 禾口 CPU。
如子圖(d)所示，最后構(gòu)建一條從集合V3到子圖(c)中答案R的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R，此時答案R包含所有的關(guān)鍵字Bob、 CPU和SIGCOMM，所以作為滿足用戶檢索請求Q的答案輸出，該答案總共包含7條邊。
權(quán)利要求
1、一種基于關(guān)聯(lián)分析的文獻檢索方法，包括如下步驟(1)以文獻數(shù)據(jù)庫中所有文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊，建立文獻網(wǎng)絡(luò)圖；(2)對于有n個關(guān)鍵字的用戶檢索請求Q＝{k1，k2，...，kn}，n為正整數(shù)，每個關(guān)鍵字都確定一個節(jié)點集合，該集合包括所有包含該關(guān)鍵字的節(jié)點，則總共有n個集合，分別表示為V1，V2，...，Vn；(3)將檢索請求的答案R初始化為集合V1中的任意一個節(jié)點；(4)對于剩余的n-1個集合中的每個集合，都構(gòu)建一條到當前答案R的最短路徑，并將該最短路徑加入到R中，作為當前新的答案R；(5)輸出答案R；(6)判斷集合V1中是否包含未被選擇的其它節(jié)點，如果有，則將答案R重新初始化為該節(jié)點，并進入步驟(4)；否則，進入步驟(7)；(7)檢索結(jié)束。
全文摘要
本發(fā)明公開了一種基于關(guān)聯(lián)分析的文獻檢索方法。步驟為①以文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊，建立網(wǎng)絡(luò)圖；②對于檢索請求Q＝{k1，k2，...，kn}，每個關(guān)鍵字確定一個包含該關(guān)鍵字節(jié)點集合，共有n個集合，表示為V1，V2，...，Vn；③將檢索請求的答案R初始化為集合V1中的任意一個節(jié)點；④對于剩余的其它集合，均構(gòu)建一條到當前答案R的最短路徑，并將該路徑加入到R中，作為當前新的答案R，并輸出R；⑤判斷集合V1中是否包含未被選擇的其它節(jié)點，如果有，則將答案R重新初始化為該節(jié)點，并重復(fù)執(zhí)行步驟④。本發(fā)明的檢索結(jié)果為包含檢索關(guān)鍵字的連通子圖；同時，檢索方式使用普通用戶所熟悉的關(guān)鍵字接口，用戶不需理解文獻庫后臺隱含的數(shù)據(jù)結(jié)構(gòu)。
文檔編號G06F17/30GK101308499SQ20081004827
公開日2008年11月19日申請日期2008年7月4日優(yōu)先權(quán)日2008年7月4日
發(fā)明者余一嬌, 寧小敏, 袁平鵬, 海金, 莉黃申請人:華中科技大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金海;寧小敏;袁平鵬;余一嬌;黃莉
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

上一篇：一種具有可視化監(jiān)控功能的混流裝配線智能料架裝置的制作方法
上一篇：特高壓交流線路金具噪聲防治方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文獻檢索方法相關(guān)技術(shù)

文獻檢索的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于關(guān)聯(lián)分析的文獻檢索方法