[0152] 表11主題再生模式示例
[0153]
[0154] S9、獲取各主題發(fā)展模式中的核心節(jié)點(diǎn)。
[0155] 得到主題發(fā)展模式后,可以看出不是所有的核心節(jié)點(diǎn)都參與了主題的發(fā)展過程, 提取出屬于各個主題發(fā)展模式的核心節(jié)點(diǎn),將檢索結(jié)果進(jìn)一步縮小,使得檢索結(jié)果的命中 率更高,檢索結(jié)果中的信息更有價(jià)值。
[0156] S10、將所述屬于主題發(fā)展模式中的核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果,獲得檢索 到的文獻(xiàn)列表。
[0157] (1)根據(jù)1995-2012年間9個連續(xù)時(shí)間窗中參與主題發(fā)展的所有主題依次構(gòu)建 各時(shí)間窗的核心節(jié)點(diǎn)集,例如:1995-1996年時(shí)間窗的核心節(jié)點(diǎn)有四個,分別是:parental line? heterosis ;standard heterosis ;only hybrid ;sterile line〇
[0158] (2)按時(shí)間窗次序依次生成在文獻(xiàn)題名、檢索詞或摘要中出現(xiàn)核心節(jié)點(diǎn)集中概念 的文獻(xiàn)推薦列表,并按概念文檔頻排序,最后一個時(shí)間窗的文獻(xiàn)列表也可稱為最新熱點(diǎn)文 獻(xiàn)推薦列表。例如:依據(jù)1995-1996年時(shí)間窗的核心節(jié)點(diǎn)集,推薦了 2篇重要文獻(xiàn),如下。
[0159] LMolecular basis of heterosis in hybrid rice and hybrid maize revealed by mRNA amplification
[0160] 2. Study on heterosis in hybrid rice
[0161] 實(shí)施例3:
[0162] 作為本實(shí)施方式的另外一個實(shí)施例,本實(shí)施例提供一種文獻(xiàn)檢索系統(tǒng),結(jié)構(gòu)框圖 如圖3所示,包括:
[0163] 核心數(shù)據(jù)提取單01,選擇多篇文獻(xiàn),并確定每篇文獻(xiàn)的核心數(shù)據(jù);
[0164] 概念集合生成單元02,對每篇文獻(xiàn)的核心數(shù)據(jù)進(jìn)行詞組抽取和統(tǒng)計(jì),并將含義相 近的詞組映射成同一概念,得到概念集合,所述概念集合包括概念、出處和概念頻次;
[0165] 檢索信息獲取單元03,獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索 時(shí)間段以及時(shí)間片長度;
[0166] 檢索單元04,根據(jù)所述檢索詞在所述文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行檢索詞匹配的預(yù)檢 索,獲得與檢索詞匹配的文獻(xiàn)及該文獻(xiàn)的出版時(shí)間和概念集合;
[0167] 概念關(guān)聯(lián)矩陣建立單元05,根據(jù)所述時(shí)間片長度將所述檢索時(shí)間段分為多個時(shí)間 窗,根據(jù)出版時(shí)間先后順序?qū)z索結(jié)果中的文獻(xiàn)對應(yīng)的概念集合按照時(shí)間窗依次建立概念 關(guān)聯(lián)矩陣;
[0168] 聚類單元06,基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類;
[0169] 第一核心節(jié)點(diǎn)識別單元07,識別主題類中的核心節(jié)點(diǎn);
[0170] 主題發(fā)展模式獲取單元08,根據(jù)所述核心節(jié)點(diǎn)獲取主題發(fā)展模式;
[0171] 第二核心節(jié)點(diǎn)識別單元09,獲取主題發(fā)展模式中的核心節(jié)點(diǎn);
[0172] 結(jié)果輸出單元10,將所述主題發(fā)展模式中的核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果。
[0173] 其中,所述聚類單元包括聚類子單元:
[0174] 采用GN聚類算法的改進(jìn)算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。
[0175] 此外,所述概念關(guān)聯(lián)矩陣建立單,包括建立子單元,利用共詞分析法依次構(gòu)建各時(shí) 間窗的概念關(guān)聯(lián)矩陣。
[0176] 本發(fā)明中的文獻(xiàn)檢索方法和系統(tǒng),從主題發(fā)展的角度出發(fā),基于用戶檢索式,挖掘 發(fā)現(xiàn)相關(guān)領(lǐng)域的主題演化規(guī)律及模式,向用戶推薦在相關(guān)領(lǐng)域的主題演化過程中起關(guān)鍵作 用的文獻(xiàn)集,使用戶能夠通過檢索鎖定某領(lǐng)域相對較少量的核心或關(guān)鍵文獻(xiàn)來了解其感興 趣領(lǐng)域的主題研究發(fā)展演化過程、狀況及規(guī)律,獲取其切實(shí)所需的重要文獻(xiàn)信息,提高了檢 索精度,也使得檢索到的文獻(xiàn)具有更高的參考價(jià)值,方便了科研人員的使用。
[0177] 顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對實(shí)施方式的限定。對 于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或 變動。這里無需也無法對所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或 變動仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
【主權(quán)項(xiàng)】
1. 一種文獻(xiàn)檢索方法,其特征在于,包括如下步驟: 選擇多篇文獻(xiàn),并確定每篇文獻(xiàn)的核心數(shù)據(jù); 對每篇文獻(xiàn)的核心數(shù)據(jù)進(jìn)行詞組抽取和詞頻統(tǒng)計(jì),并將含義相近的詞組映射成同一概 念,得到概念集合,所述概念集合包括概念、出處和概念出現(xiàn)的頻次; 獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時(shí)間段以及時(shí)間片長度; 根據(jù)所述檢索詞在所述文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行檢索詞匹配的預(yù)檢索,獲得與檢索詞匹 配的文獻(xiàn)及該文獻(xiàn)的出版時(shí)間和概念集合; 根據(jù)所述時(shí)間片長度將所述檢索時(shí)間段分為多個時(shí)間窗,根據(jù)出版時(shí)間先后順序?qū)㈩A(yù) 檢索結(jié)果中的文獻(xiàn)對應(yīng)的概念集合按照時(shí)間窗依次建立概念關(guān)聯(lián)矩陣; 基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類; 識別主題類中的核心節(jié)點(diǎn); 根據(jù)所述核心節(jié)點(diǎn)獲取主題發(fā)展模式; 獲取屬于各主題發(fā)展模式中的核心節(jié)點(diǎn); 將所述屬于主題發(fā)展模式中的核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,識別主題類中的核心節(jié)點(diǎn)的步驟,包括: 根據(jù)如下公式計(jì)算節(jié)點(diǎn)的中心度,中心度越高,說明該節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)系越緊 密:其中Cen(Ni)表示節(jié)點(diǎn)i的中心度,W(Ni)表示節(jié)點(diǎn)i的權(quán)重,此處以概念i的詞頻計(jì) 算,W(Nj)表示節(jié)點(diǎn)j的權(quán)重,此處以概念j的詞頻計(jì)算,k表示節(jié)點(diǎn)i所在主題類中i節(jié)點(diǎn) 以外的概念節(jié)點(diǎn)數(shù); 中心度值為非負(fù)值的節(jié)點(diǎn)成為核心節(jié)點(diǎn)。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念 聚類得到主題類的步驟,包括: 采用GN聚類算法的改進(jìn)算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,將預(yù)檢索結(jié)果中的文獻(xiàn)對應(yīng)的概念集合 按照時(shí)間窗依次建立概念關(guān)聯(lián)矩陣的步驟,包括 利用共詞分析法依次構(gòu)建各時(shí)間窗的概念關(guān)聯(lián)矩陣。5. 根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述核心數(shù)據(jù)包括文獻(xiàn)的標(biāo)題、 檢索詞和摘要中的一項(xiàng)或幾項(xiàng)。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述主題發(fā)展模式包括 主題融合模式、主題擴(kuò)散模式、主題轉(zhuǎn)移模式、主題新增模式、主題消失模式、知識再生 模式中的一種或幾種。7. 根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述將所述主題發(fā)展模式中的 核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果的步驟,包括: 按照時(shí)間窗次序依次生成在文獻(xiàn)題目、檢索詞、摘要中出現(xiàn)所述核心節(jié)點(diǎn)中概念的文 獻(xiàn)按照時(shí)間進(jìn)行排列并作為檢索結(jié)果。8. -種文獻(xiàn)檢索系統(tǒng),其特征在于,包括: 核心數(shù)據(jù)提取單元,選擇多篇文獻(xiàn),并確定每篇文獻(xiàn)的核心數(shù)據(jù); 概念集合生成單元,對每篇文獻(xiàn)的核心數(shù)據(jù)進(jìn)行詞組抽取和統(tǒng)計(jì),并將含義相近的詞 組映射成同一概念,得到概念集合,所述概念集合包括概念、出處和概念頻次; 檢索信息獲取單元,獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時(shí)間段 以及時(shí)間片長度; 檢索單元,根據(jù)所述檢索詞在所述文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行檢索詞匹配的預(yù)檢索,獲得 與檢索詞匹配的文獻(xiàn)及該文獻(xiàn)的出版時(shí)間和概念集合; 概念關(guān)聯(lián)矩陣建立單元,根據(jù)所述時(shí)間片長度將所述檢索時(shí)間段分為多個時(shí)間窗,根 據(jù)出版時(shí)間先后順序?qū)z索結(jié)果中的文獻(xiàn)對應(yīng)的概念集合按照時(shí)間窗依次建立概念關(guān)聯(lián) 矩陣; 聚類單元,基于所述概念關(guān)聯(lián)矩陣進(jìn)行概念聚類得到主題類; 第一核心節(jié)點(diǎn)識別單元,識別主題類中的核心節(jié)點(diǎn); 主題發(fā)展模式獲取單元,根據(jù)所述核心節(jié)點(diǎn)獲取主題發(fā)展模式; 第二核心節(jié)點(diǎn)識別單元,獲取主題發(fā)展模式中的核心節(jié)點(diǎn); 結(jié)果輸出單元,將所述主題發(fā)展模式中的核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果。9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述聚類單元包括聚類子單元: 采用GN聚類算法的改進(jìn)算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。10. 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述概念關(guān)聯(lián)矩陣建立單,包括建立子 單元,利用共詞分析法依次構(gòu)建各時(shí)間窗的概念關(guān)聯(lián)矩陣。
【專利摘要】一種文獻(xiàn)檢索方法和系統(tǒng),該方法包括根據(jù)用戶輸入的檢索詞在選定文獻(xiàn)的核心數(shù)據(jù)中進(jìn)行預(yù)檢索,進(jìn)行概念聚類得到主題類,識別主題類中的核心節(jié)點(diǎn),再根據(jù)核心節(jié)點(diǎn)去獲取主題的發(fā)展模式,然后獲取屬于各主題發(fā)展模式的核心節(jié)點(diǎn),最后將這些核心節(jié)點(diǎn)對應(yīng)的文獻(xiàn)作為檢索結(jié)果。該方法將根據(jù)檢索詞獲得的預(yù)檢索結(jié)果進(jìn)一步縮小,由于所有的主題類信息巨大,無法反應(yīng)出主題的發(fā)展情況,因此先獲得主題類中的核心節(jié)點(diǎn),再使用核心節(jié)點(diǎn)獲取主題發(fā)展模式,當(dāng)?shù)弥嗽撆c檢索結(jié)果中的主題發(fā)展模式后,屬于這些主題發(fā)展模式的核心節(jié)點(diǎn)將是該次檢索中具有重要價(jià)值的文獻(xiàn),因此將其所為檢索結(jié)果,使得檢索到的文獻(xiàn)具有更高的價(jià)值,提高了檢索文獻(xiàn)的命中率和使用價(jià)值。
【IPC分類】G06F17/30
【公開號】CN105069080
【申請?zhí)枴緾N201510463441
【發(fā)明人】孫巍, 張學(xué)福, 郝心寧, 謝能付
【申請人】中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所
【公開日】2015年11月18日
【申請日】2015年7月31日