一種文獻檢索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及海量數(shù)據(jù)處理方法,具體地說是一種文獻檢索方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,電子文獻數(shù)量越來越龐大,如何幫助用戶尤其是科研 工作者從海量的電子文獻中快速有效地找到其所需的相關(guān)文獻已成為急需解決的問題。個 性化推薦技術(shù)能夠有效解決信息過載問題,是一個信息檢索、人機交互、數(shù)據(jù)挖掘和用戶建 模等多學科交叉發(fā)展的領(lǐng)域,多年來已經(jīng)在研究領(lǐng)域取得了豐富的研究成果,特別是在電 子商務(wù)領(lǐng)域已取得了很好的應(yīng)用效果,如針對個人的喜好、產(chǎn)品的評價等進行推薦,目前已 形成了較為豐富的方法與技術(shù)體系。
[0003] 文獻檢索技術(shù)相比于電子商務(wù)領(lǐng)域的個性化推薦技術(shù)面臨著兩個核心問題:第 一,用戶數(shù)目相對于文獻數(shù)目的比率比電子商務(wù)領(lǐng)域用戶數(shù)目相對于產(chǎn)品數(shù)目的比率要小 1到2個數(shù)量級。在文獻檢索推薦領(lǐng)域,通常是數(shù)萬用戶相對于數(shù)千萬篇文獻;第二,用戶 平均評價的文獻數(shù)量非常少,稀疏性問題比在電子商務(wù)領(lǐng)域更加嚴重。所以,文獻領(lǐng)域的個 性化檢索推薦技術(shù)與一般電子商務(wù)領(lǐng)域的個性化推薦技術(shù)既有共同點又有區(qū)別。而當前文 獻領(lǐng)域個性化檢索推薦技術(shù)仍局限于基于內(nèi)容的文獻推薦技術(shù)、基于協(xié)同過濾的文獻推薦 技術(shù)、混合型文獻推薦技術(shù)三種核心技術(shù)。這三種技術(shù)的主要思想均是要依賴用戶偏好或 者用戶使用信息向用戶推薦文獻信息,因此,均面臨著冷啟動問題:新的用戶需要文獻推薦 服務(wù)時,用戶偏好、評價、使用信息很少,推薦技術(shù)難以依據(jù)現(xiàn)有的用戶數(shù)據(jù)做出可靠的推 斷和預測,因此達不到好的文獻推薦效果。
[0004] 如在中國專利文獻CN103605671A中公開了一種科研信息演化的分析方法和裝 置,方法包括通過采集單元采集預設(shè)領(lǐng)域的二篇以上科研文獻,通過預處理單元對科研文 獻進行預處理,并構(gòu)建二篇以上科研文獻的作者主題演化模型,通過獲取單元設(shè)定科研信 息估算參數(shù),利用演化運算公式運算科研估算參數(shù),以獲取科研信息演化結(jié)果。該方案從宏 觀角度揭示主題隨時間的變化,其目的是獲得信息的演化結(jié)果,信息演化可以展示其發(fā)展 過程。進行科技決策、設(shè)定領(lǐng)域發(fā)展目標或者科研人員在設(shè)置科研主題時,都需要對領(lǐng)域內(nèi) 的信息進行全面的檢索和分析,現(xiàn)有技術(shù)中的檢索方式只能通過檢索詞及的擴展來命中檢 索結(jié)果,命中文獻一般是通過檢索詞匹配程度來確定先后順序,但是,檢索詞匹配程度高的 文獻不一定在該主題研究中具有重要的作用和價值,這樣就使得檢索結(jié)果中數(shù)據(jù)量太大, 不利于使用者高效地獲得所需的文獻,檢索效率低,針對性差。
【發(fā)明內(nèi)容】
[0005] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中的檢索方式效率低、針對性差, 從而提出一種高效的文獻檢索方法和系統(tǒng)。
[0006] 為解決上述技術(shù)問題,本發(fā)明提供一種文獻檢索方法,包括如下步驟:
[0007] 選擇多篇文獻,并確定每篇文獻的核心數(shù)據(jù);
[0008] 對每篇文獻的核心數(shù)據(jù)進行詞組抽取和詞頻統(tǒng)計,并將含義相近的詞組映射成同 一概念,得到概念集合,所述概念集合包括概念、出處和概念出現(xiàn)的頻次;
[0009] 獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時間段以及時間片長 度;
[0010] 根據(jù)所述檢索詞在所述文獻的核心數(shù)據(jù)中進行檢索詞匹配的預檢索,獲得與檢索 詞匹配的文獻及該文獻的出版時間和概念集合;
[0011] 根據(jù)所述時間片長度將所述檢索時間段分為多個時間窗,根據(jù)出版時間先后順序 將預檢索結(jié)果中的文獻對應(yīng)的概念集合按照時間窗依次建立概念關(guān)聯(lián)矩陣;
[0012] 基于所述概念關(guān)聯(lián)矩陣進行概念聚類得到主題類;
[0013] 識別主題類中的核心節(jié)點;
[0014] 根據(jù)所述核心節(jié)點獲取主題發(fā)展模式;
[0015] 獲取屬于各主題發(fā)展模式中的核心節(jié)點;
[0016] 將所述屬于主題發(fā)展模式中的核心節(jié)點對應(yīng)的文獻作為檢索結(jié)果。
[0017] 優(yōu)選地,識別主題類中的核心節(jié)點的步驟,包括:
[0018] 根據(jù)如下公式計算節(jié)點的中心度,中心度越高,說明該節(jié)點與其他節(jié)點的關(guān)系越 緊密;
[0020] 其中Cen(Ni)表示節(jié)點i的中心度,W(Ni)表示節(jié)點i的權(quán)重,此處以概念i的詞 頻計算,W(Nj)表示節(jié)點j的權(quán)重,此處以概念j的詞頻計算,k表示節(jié)點i所在主題類中i 節(jié)點以外的概念節(jié)點數(shù);
[0021] 中心度值為非負值的節(jié)點成為核心節(jié)點。
[0022] 優(yōu)選地,所述基于所述概念關(guān)聯(lián)矩陣進行概念聚類得到主題類的步驟,包括:
[0023] 采用GN聚類算法的改進算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。
[0024] 優(yōu)選地,將預檢索結(jié)果中的文獻對應(yīng)的概念集合按照時間窗依次建立概念關(guān)聯(lián)矩 陣的步驟,包括
[0025] 利用共詞分析法依次構(gòu)建各時間窗的概念關(guān)聯(lián)矩陣。
[0026] 優(yōu)選地,所述核心數(shù)據(jù)包括文獻的標題、檢索詞和摘要中的一項或幾項。
[0027] 優(yōu)選地,所述主題發(fā)展模式包括
[0028] 主題融合模式、主題擴散模式、主題轉(zhuǎn)移模式、主題新增模式、主題消失模式、知識 再生模式中的一種或幾種。
[0029] 優(yōu)選地,所述將所述主題發(fā)展模式中的核心節(jié)點對應(yīng)的文獻作為檢索結(jié)果的步 驟,包括:
[0030] 按照時間窗次序依次生成在文獻題目、檢索詞、摘要中出現(xiàn)所述核心節(jié)點中概念 的文獻按照時間進行排列并作為檢索結(jié)果。
[0031] 此外,本發(fā)明提供一種文獻檢索系統(tǒng),包括:
[0032] 核心數(shù)據(jù)提取單元,選擇多篇文獻,并確定每篇文獻的核心數(shù)據(jù);
[0033] 概念集合生成單元,對每篇文獻的核心數(shù)據(jù)進行詞組抽取和統(tǒng)計,并將含義相近 的詞組映射成同一概念,得到概念集合,所述概念集合包括概念、出處和概念頻次;
[0034] 檢索信息獲取單元,獲取用戶輸入的檢索信息,所述檢索信息包括檢索詞、檢索時 間段以及時間片長度;
[0035] 檢索單元,根據(jù)所述檢索詞在所述文獻的核心數(shù)據(jù)中進行檢索詞匹配的預檢索, 獲得與檢索詞匹配的文獻及該文獻的出版時間和概念集合;
[0036] 概念關(guān)聯(lián)矩陣建立單元,根據(jù)所述時間片長度將所述檢索時間段分為多個時間 窗,根據(jù)出版時間先后順序?qū)z索結(jié)果中的文獻對應(yīng)的概念集合按照時間窗依次建立概念 關(guān)聯(lián)矩陣;
[0037] 聚類單元,基于所述概念關(guān)聯(lián)矩陣進行概念聚類得到主題類;
[0038] 第一核心節(jié)點識別單元,識別主題類中的核心節(jié)點;
[0039] 主題發(fā)展模式獲取單元,根據(jù)所述核心節(jié)點獲取主題發(fā)展模式;
[0040] 第二核心節(jié)點識別單元,獲取主題發(fā)展模式中的核心節(jié)點;
[0041] 結(jié)果輸出單元,將所述主題發(fā)展模式中的核心節(jié)點對應(yīng)的文獻作為檢索結(jié)果。
[0042] 優(yōu)選地,所述聚類單元包括聚類子單元:
[0043] 采用GN聚類算法的改進算法,設(shè)置參數(shù),選取最優(yōu)聚類結(jié)果。
[0044] 優(yōu)選地,所述概念關(guān)聯(lián)矩陣建立單,包括建立子單元,利用共詞分析法依次構(gòu)建各 時間窗的概念關(guān)聯(lián)矩陣。
[0045] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點,
[0046] (1)本發(fā)明所述的文獻檢索方法,根據(jù)用戶輸入的檢索詞在選定文獻的核心數(shù)據(jù) 中進行檢索,根據(jù)所述時間片長度將所述檢索時間段分為多個時間窗,將檢索到的文獻對 應(yīng)的概念集合按照時間窗依次建立概念關(guān)聯(lián)矩陣;基于所述概念關(guān)聯(lián)矩陣進行概念聚類 得到主題類,識別主題類中的核心節(jié)點,再根據(jù)核心節(jié)點去獲取主題的發(fā)展模式,滯后獲取 各主題發(fā)展模式中的核心節(jié)點,最后將這些核心節(jié)點對應(yīng)的文獻作為檢索結(jié)果。該方法將 根據(jù)檢索詞獲得的預檢索結(jié)果進一步縮小,先獲得主題類,然后獲得主題類中的核心節(jié)點, 由于所有的主題類信息巨大,無法反應(yīng)出主題的發(fā)展情況,因此先獲得主題類中的核心節(jié) 點,再使用核心節(jié)點獲取主題發(fā)展模式,當?shù)弥嗽撆c檢索結(jié)果中的主題發(fā)展模式后,屬于 這些主題發(fā)展模式的核心節(jié)點將是該次檢索中具有重要價值的文獻,因此將其所為檢索結(jié) 果,此方法使得檢索到的文獻具有更高的價值,提高了檢索文獻的命中率和使用價值。向用 戶推薦這樣的文獻列表不但能夠使用戶快速鎖定領(lǐng)域核心經(jīng)典文獻,還有助于用戶了解領(lǐng) 域主題的演化發(fā)展的來龍去脈,掌握領(lǐng)域的前沿熱點主題。
【附圖說明】
[0047] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合 附圖,對本發(fā)明作進一步詳細的說明,其中
[0048] 圖1是本發(fā)明一個實施例1的一種文獻檢索方法的流程圖;
[0049] 圖2是本發(fā)明一個實施例2的主題發(fā)展模式統(tǒng)計分析圖;
[0050] 圖3是本發(fā)明一個實施例3的一種文獻檢索系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0051] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明的內(nèi)容,下面結(jié)合附圖和實施例對本 發(fā)明所提供的技術(shù)方案作進一步的詳細描述。
[0052] 實施例1 :
[0053] 本發(fā)明提供一種文獻檢索方法,可用