專利名稱:一種基于關(guān)聯(lián)分析的文獻檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機領(lǐng)域的分布式計算和信息檢索,具體涉及一種基于
關(guān)聯(lián)分析(RelationshipAnalysis)的文獻檢索方法。
背景技術(shù):
當前的文獻檢索系統(tǒng)(如中國學(xué)術(shù)期刊網(wǎng)CNKI、計算機ACM數(shù)據(jù)庫、 IEEE電子圖書館等),主要采用關(guān)鍵字方式檢索到滿足用戶査詢請求的結(jié) 果列表(如學(xué)術(shù)論文列表、作者列表、學(xué)術(shù)會議列表等)。但是不同于普 通的文檔集合,文獻包含更加豐富的信息單元(如作者Author、學(xué)術(shù)會議 Conference、期刊雜志Journal、論文Publication、論文標題、論文發(fā)表日期 等),信息單元之間存在著異構(gòu)的關(guān)聯(lián),例如,某篇學(xué)術(shù)論文由某作者撰 寫(wn'^"- )、或者被其它的論文引用("'fed- )、或者同其它論文在 全文內(nèi)容上相似(W/m7w-to)、或者被學(xué)術(shù)會議錄用(pwMW^/々")等, 這些關(guān)聯(lián)具有不同的含義。如果以文獻的信息單元為節(jié)點、以信息單元之 間的關(guān)聯(lián)為邊,則可以將文獻庫看成巨大的網(wǎng)絡(luò)圖,而不是簡單的線性列 表。所以可以采用圖中的關(guān)聯(lián)分析方法(RelationshipAnalysis)進行文獻的 檢索,檢索的結(jié)果是包含檢索關(guān)鍵字的連通子圖,該連通子圖表示關(guān)鍵字 之間的關(guān)聯(lián)。例如,用戶檢索請求為Q- {Bob, Algorithm},期望檢索到與 這兩個關(guān)鍵字相關(guān)聯(lián)的文獻信息,可能存在如下兩個滿足請求的結(jié)果(1) 某篇論文的作者為Bob,其全文包含關(guān)鍵字Algorithm; (2)某篇論文的標 題包含關(guān)鍵字Algorithm,該論文被作者Bob所寫的論文引用。
關(guān)聯(lián)分析的方法被廣泛應(yīng)用在萬維網(wǎng)Web搜索引擎中,如Google、 Yahoo!、百度Baidu等。著名的Google PageRank算法利用網(wǎng)頁超級鏈接分析, 以網(wǎng)頁為節(jié)點、網(wǎng)頁之間的超級鏈接為邊,將Web看成巨大的有向圖,基于 網(wǎng)頁如果被其它重要網(wǎng)頁鏈接則其重要性增加的原理,計算網(wǎng)頁的PageRank值。但是,以上Web搜索引擎的檢索結(jié)果仍然是簡單的網(wǎng)頁列表。 文獻引用分析(Citation Analysis)屬于關(guān)聯(lián)分析中的一種,主要是根 據(jù)論文被引用的次數(shù)多少評估該論文的價值,例如美國《科學(xué)引文索引》 (Science Citation Index —SCI),根據(jù)每種期刊發(fā)表論文的被引用次數(shù)以 及發(fā)表的論文總數(shù)計算出該期刊的影響因子(ImpactFactor)。引用分析提 供了一種新的文獻檢索方法,即從某篇論文可以檢索到所有引用過該論文 的其它論文,然后以這些引用論文為新的檢索起點,檢索到更多的被引論 文。但是這種檢索方法功能單一,只能根據(jù)簡單的引用關(guān)系(c&A )檢 索文獻,而不能提供功能更加豐富的基于關(guān)聯(lián)分析的文獻檢索。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于關(guān)聯(lián)分析的文獻檢索方法。該方法實 現(xiàn)基于關(guān)聯(lián)分析的文獻檢索,能檢索到與檢索關(guān)鍵字相關(guān)聯(lián)的連通圖,而 不是傳統(tǒng)的簡單文獻信息列表。
本發(fā)明提供的基于關(guān)聯(lián)分析的文獻檢索方法,其步驟包括
(1) 以文獻數(shù)據(jù)庫中所有文獻的信息單元為節(jié)點、以信息單元之間的關(guān) 聯(lián)為邊,建立文獻網(wǎng)絡(luò)(2) 對于有"個關(guān)鍵字的用戶檢索請求Q= {&, & ...,&},"為正整數(shù), 每個關(guān)鍵字都確定一個節(jié)點集合,該集合包括所有包含該關(guān)鍵字的節(jié)點, 則總共有"個集合,分別表示為V/, V2, ..., V ;
(3) 將檢索請求的答案R初始化為集合V7中的任意一個節(jié)點;
(4) 對于剩余的w _ 1個集合中的每個集合,都構(gòu)建一條到當前答案R 的最短路徑,并將該最短路徑加入到R中,作為當前新的答案R;
(5) 輸出答案R;
(6) 判斷集合V;中是否包含未被選擇的其它節(jié)點,如果有,則將答案
R重新初始化為該節(jié)點,并進入步驟(4);否則,進入步驟(7);
(7) 檢索結(jié)束。本發(fā)明提供一種基于關(guān)聯(lián)分析的文獻檢索方法,能檢索到與用戶檢索 請求相關(guān)聯(lián)的文獻信息。具體而言,本發(fā)明具有以下特點
(1) 檢索的結(jié)果是包含檢索關(guān)鍵字的連通子圖,該連通子圖表示關(guān)鍵字 之間的關(guān)聯(lián),具有明確的含義。傳統(tǒng)的文獻檢索方法采用簡單的文獻信息 列表方式,主要是檢索與關(guān)鍵字匹配的文獻信息,如標題、作者、全文、 摘要等,而不能檢索更加復(fù)雜的關(guān)聯(lián)圖。
(2) 檢索的方式使用普通用戶所熟悉的關(guān)鍵字接口,用戶不需要理解文 獻庫后臺隱含的數(shù)據(jù)結(jié)構(gòu)。文獻庫屬于半結(jié)構(gòu)化的數(shù)據(jù),通常的檢索方式
是數(shù)據(jù)庫結(jié)構(gòu)化查詢語言SQL,但是要求用戶熟悉SQL査詢語言并理解后 臺的數(shù)據(jù)組織結(jié)構(gòu)。
圖1是本發(fā)明基于關(guān)聯(lián)分析的文獻檢索方法流程圖。 圖2為滿足檢索請求的答案R生成過程的實例圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明做進一步說明。
如圖1所示,本發(fā)明方法包括以下幾個步驟
(1) 獲取文獻數(shù)據(jù)庫中所有文獻的信息單元,包括文獻的作者Author、 學(xué)術(shù)會議Conference、期刊雜志Journal、論文標題title、論文發(fā)表年份year、 論文摘要abstract、論文全文flilltext,并獲取信息單元之間的關(guān)聯(lián),包括某 篇文獻由某作者撰寫(vtr故e"- )、或者被其它的文獻引用("fed- )、 或者同其它文獻在全文內(nèi)容上相似(《'/m'/w-to)、或者被學(xué)術(shù)會議或期刊 錄用(pW6fc/z /-/w)。然后,以所有文獻的信息單元為節(jié)點、以信息單元 之間的關(guān)聯(lián)為邊,建立文獻網(wǎng)絡(luò)圖。
(2) 對于有"個關(guān)鍵字的用戶檢索請求(^={^,^,...,&},確定每個關(guān)
鍵字對應(yīng)的節(jié)點集合,集合中的每個節(jié)點都包含該關(guān)鍵字,則總共有w個 集合,分別表示為V;,V2, ...,V 。用戶通過界面輸入包含"個關(guān)鍵字的檢索請求Q = {&, ..., &},其中 1《z'《",^表示集合中的第z'個關(guān)鍵字,對于每個關(guān)鍵字都確定一個節(jié)點集 合,該集合包括所有包含該關(guān)鍵字的節(jié)點,從而得到"個集合,分別表示 為V" V2,…,V"。
(3) 將檢索請求的答案R初始化為集合V7中的任意一個節(jié)點。 滿足檢索請求的答案R必須包含檢索請求中的每個關(guān)鍵字。首先,答
案R初始化為集合、中的任意一個節(jié)點,所以當前初始的R包含集合Vy 對應(yīng)的關(guān)鍵字&。
(4) 對于剩余的w - 1個集合中的每個集合,都構(gòu)建一條到當前答案R 的最短路徑,并將該最短路徑加入到R中,作為當前新的答案R。
由于答案R目前只包含關(guān)鍵字&,所以必須包括另外其它n- 1個關(guān)鍵 字對于剩余的"-1個集合V2, ...,V"中的每個集合,都構(gòu)建一條 到當前答案R的最短路徑,并將該最短路徑加入到R中,作為當前新的答 案R。該步驟完成后,當前的答案R包含所有的A個集合對應(yīng)的關(guān)鍵字。
(5) 輸出答案R;
因為目前答案R包含檢索請求中的每個關(guān)鍵字,所以滿足用戶的檢索 請求Q,作為結(jié)果輸出。
(6) 判斷集合V;中是否包含未被選擇的其它節(jié)點,如果有,則將答案 R重新初始化為該節(jié)點,并進入步驟(4);否則,進入步驟(7);
在步驟(3)中,答案R被初始化為集合、中的任意一個節(jié)點,如果IV;I >1,其中IV」表示該集合中所有節(jié)點的個數(shù),則將答案R重新初始化為其 它未被選擇的節(jié)點,并重復(fù)步驟(3)-(4),得到新的滿足用戶檢索請求的其它 答案。如果集合Vr漢包含一個節(jié)點,則輸出唯一的答案R后,退出檢索。
(7) 檢索結(jié)束。
應(yīng)當理解的是,對本發(fā)明技術(shù)所在領(lǐng)域的普通技術(shù)人員來說,可以根 據(jù)本發(fā)明的技術(shù)方案及其構(gòu)思進行相應(yīng)的等同改變或替換,而所有這些改 變或替換,都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護范圍。
實例圖2為滿足檢索請求的答案R生成過程的實例圖,包括4個子圖,即 子圖(a)、 (b)、 (c)和(d)。圖中所有的三角形節(jié)點表示包含關(guān)鍵字的節(jié)點,圓 形的表示其它不包括關(guān)鍵字的中間節(jié)點。
其中子圖(a)為將文獻庫中的文獻信息單元表示成節(jié)點、以信息單元之 間的關(guān)聯(lián)表示成邊的文獻網(wǎng)絡(luò)圖,用戶的檢索請求為Q= {Bob,CPU, SIGCOMM}。首先確定以上三個關(guān)鍵字分別對應(yīng)的集合V" V2和Vp例 如,集合V;包括兩個節(jié)點,這兩個節(jié)點都包含關(guān)鍵字Bob。
如子圖(b)所示,首先將答案R初始化為集合V;中的任意一個節(jié)點,此 時答案R將包含關(guān)鍵字Bob。
如子圖(c)所示,構(gòu)建一條從集合V2到當前答案R的最短路徑,并將該 最短路徑加入到R中,作為當前新的答案R,此時答案R包含關(guān)鍵字Bob 禾口 CPU。
如子圖(d)所示,最后構(gòu)建一條從集合V3到子圖(c)中答案R的最短路 徑,并將該最短路徑加入到R中,作為當前新的答案R,此時答案R包含 所有的關(guān)鍵字Bob、 CPU和SIGCOMM,所以作為滿足用戶檢索請求Q的 答案輸出,該答案總共包含7條邊。
權(quán)利要求
1、一種基于關(guān)聯(lián)分析的文獻檢索方法,包括如下步驟(1)以文獻數(shù)據(jù)庫中所有文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊,建立文獻網(wǎng)絡(luò)圖;(2)對于有n個關(guān)鍵字的用戶檢索請求Q={k1,k2,...,kn},n為正整數(shù),每個關(guān)鍵字都確定一個節(jié)點集合,該集合包括所有包含該關(guān)鍵字的節(jié)點,則總共有n個集合,分別表示為V1,V2,...,Vn;(3)將檢索請求的答案R初始化為集合V1中的任意一個節(jié)點;(4)對于剩余的n-1個集合中的每個集合,都構(gòu)建一條到當前答案R的最短路徑,并將該最短路徑加入到R中,作為當前新的答案R;(5)輸出答案R;(6)判斷集合V1中是否包含未被選擇的其它節(jié)點,如果有,則將答案R重新初始化為該節(jié)點,并進入步驟(4);否則,進入步驟(7);(7)檢索結(jié)束。
全文摘要
本發(fā)明公開了一種基于關(guān)聯(lián)分析的文獻檢索方法。步驟為①以文獻的信息單元為節(jié)點、以信息單元之間的關(guān)聯(lián)為邊,建立網(wǎng)絡(luò)圖;②對于檢索請求Q={k<sub>1</sub>,k<sub>2</sub>,...,k<sub>n</sub>},每個關(guān)鍵字確定一個包含該關(guān)鍵字節(jié)點集合,共有n個集合,表示為V<sub>1</sub>,V<sub>2</sub>,...,V<sub>n</sub>;③將檢索請求的答案R初始化為集合V<sub>1</sub>中的任意一個節(jié)點;④對于剩余的其它集合,均構(gòu)建一條到當前答案R的最短路徑,并將該路徑加入到R中,作為當前新的答案R,并輸出R;⑤判斷集合V<sub>1</sub>中是否包含未被選擇的其它節(jié)點,如果有,則將答案R重新初始化為該節(jié)點,并重復(fù)執(zhí)行步驟④。本發(fā)明的檢索結(jié)果為包含檢索關(guān)鍵字的連通子圖;同時,檢索方式使用普通用戶所熟悉的關(guān)鍵字接口,用戶不需理解文獻庫后臺隱含的數(shù)據(jù)結(jié)構(gòu)。
文檔編號G06F17/30GK101308499SQ20081004827
公開日2008年11月19日 申請日期2008年7月4日 優(yōu)先權(quán)日2008年7月4日
發(fā)明者余一嬌, 寧小敏, 袁平鵬, 海 金, 莉 黃 申請人:華中科技大學(xué)