基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法,屬于文本挖掘 (Text Mining)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來,主題發(fā)現(xiàn)作為文本挖掘領(lǐng)域的熱門研究方向,受到越來越多的研究者的 重視。主題發(fā)現(xiàn)可以從海量的非結(jié)構(gòu)化文本中挖掘到關(guān)鍵的主題信息,可以更加高效的理 解文本的主要內(nèi)容,獲取文本的深層語義信息。同時,主題發(fā)現(xiàn)還可以對主題進行更深層次 的分析,發(fā)現(xiàn)文本中更多的潛在知識。
[0003] 現(xiàn)有的主題發(fā)現(xiàn)方法主要有主題模型以及詞頻統(tǒng)計的兩種。主題模型是一種概率 生成模型,在主題模型中主題作為隱變量,文檔以及詞項作為觀測值。通過對模型的訓(xùn)練可 以得到詞項概率分布、以及主題概率分布。經(jīng)過訓(xùn)練后的模型就可以將詞項空間中的文檔 變換到主題空間,從而實現(xiàn)文檔處理的降維,最終得到具有語義信息的主題集合。常用的 主題模型主要有LSI [1,2]、PLSI [3, 4]、LDA[5]等。詞頻統(tǒng)計的方法則是通過對詞在文檔 中以及文檔集中的頻率的計算來進行主題抽取,常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息(Mutual Information)、信息增益、x2 統(tǒng)計量等。
[0004] 上述的主題發(fā)現(xiàn)方法具有很強的理論基礎(chǔ),在眾多主題發(fā)現(xiàn)任務(wù)中均取得較好的 效果。然而這些方法對于跨學(xué)科領(lǐng)域中的共現(xiàn)主題信息無法很好的抽取,因為對于評價類 跨學(xué)科領(lǐng)域的文本,有時主題可能是由低頻主題詞而非高頻詞體現(xiàn)?,F(xiàn)有的主題發(fā)現(xiàn)方法 大多傾向于獲取高頻詞,因而無法用來抽取具有低頻特征的共現(xiàn)主題詞,即低頻主題詞。此 外,跨學(xué)科領(lǐng)域的共現(xiàn)主題發(fā)現(xiàn)研究具有重要的研究意義,因為通過這些共現(xiàn)主題可以從 更宏觀的角度來分析文本集,并且獲得更多有意義的主題信息的規(guī)律。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是針對現(xiàn)有技術(shù)存在的不足,提供一種基于自信息的跨學(xué)科領(lǐng)域共 現(xiàn)主題發(fā)現(xiàn)方法,為主題發(fā)現(xiàn)的相關(guān)研究提供新思路,可應(yīng)用到評價類文檔集的主題發(fā)現(xiàn), 從而實現(xiàn)不同學(xué)科領(lǐng)域文檔集中得共現(xiàn)主題提取。
[0006] 為達到上述目的,本發(fā)明采用下述技術(shù)方案:一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn) 主題發(fā)現(xiàn)方法,其特征在于操作步驟包括:
[0007] (1)、數(shù)據(jù)收集:收集高引文獻作者關(guān)于其科研成功的自評文檔集;
[0008] (2)、數(shù)據(jù)處理:提取和數(shù)字化自評中的正文部分;
[0009] (3)、抽取候選低頻主題詞;
[0010] (4)、計算低頻主題評價系數(shù);
[0011] (5)、設(shè)定低頻主題詞評價系數(shù)的閾值;
[0012] (6)、過濾低頻主題詞。
[0013] 上述步驟(1)所述為數(shù)據(jù)收集。從引文數(shù)據(jù)庫SCI (Science Citation Index)的 創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻的作者關(guān)于其科研研究工作取得成功的自評中收 集到3790篇高引經(jīng)典文獻的作者自評文檔集。
[0014] 上述步驟(2)所述為數(shù)據(jù)處理。對文檔集中自評的正文部分進行了提取和數(shù)字 化。此外,還提取了 3類信息,自評的正文內(nèi)容、自評的相關(guān)信息以及原高引文獻的相關(guān)信 息。
[0015] 本發(fā)明定義了低頻主題詞是能夠充分體現(xiàn)主題信息,均勻出現(xiàn)且詞頻較低的非專 業(yè)詞。低頻主題詞的詞頻應(yīng)當(dāng)符合如下公式:
[0016]
[0017] 文檔集D(D= W1Hi = [l,m]))中,文檔Cl1中的詞Wlj在D中出現(xiàn)的次數(shù)c' ^與 它在文檔Cl1中出現(xiàn)的次數(shù)c u之比應(yīng)當(dāng)?shù)扔谂c文檔集D中的文檔數(shù)目m相關(guān)的數(shù)值。當(dāng)w ^ 不出現(xiàn)在文檔di中,則值為零。
[0018] 上述步驟(3)所述為抽取候選低頻主題詞。通過定義的標(biāo)記模式進行候選低頻主 題詞。具體步驟是首先利用"自然語言工具集" NLTK (Natural Language Toolkit)作為工 具處理自評的征文部分,然后結(jié)合1^^116731';[11;03;[11,(:;[11(17]^.對高引經(jīng)典文獻作者自評 的研究的結(jié)果定義標(biāo)記模式,最后通過定義的標(biāo)記模式進行抽取候選低頻主題詞。
[0019] 本發(fā)明定義低頻主題詞評價系數(shù),是用于評估一個詞均勻出現(xiàn)的程度的統(tǒng)計指 標(biāo)。在信息論中,信息被認(rèn)為是可以量化的。在抽象含義上,認(rèn)為發(fā)生概率低的事件所包含 的信息量大。如果詞W lj的信息量大,則它更加確定,對于文檔或文檔集而言確定性越高的 詞則越重要。
[0020] 上訴步驟(4)所訴為計算所有候選低頻主題詞的低頻主題評價系數(shù)。具體步驟如 下:
[0021] (41)、計算低頻詞對文檔的信息量:~表示詞Wl]對文檔di的信息量。詞在文檔 中出現(xiàn)的詞頻 Cl]與文檔中總詞數(shù)C i的比值近似的被看作為詞在文檔中出現(xiàn)的概率。
[0022]
[0023] (42)、計算低頻詞對文檔集的信息量表示每個詞對應(yīng)的文檔集信息量,詞在 文檔集中出現(xiàn)的詞頻c'、,與文檔中總詞數(shù)
的比值近似的被看作為詞在文檔集中出現(xiàn) 的概率。
[0024]
[0025] (43)、計算低頻主題詞評價系數(shù):直接用詞的文檔信息量和文檔集信息量的差值 來計算低頻主題詞評價系數(shù)%,, ° 越接近〇時所對應(yīng)的',越可能是低頻主題詞。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步驟(5)所述為設(shè)定低頻主題詞評價系數(shù)閾值。設(shè)定的閾值要確保低頻主題 詞的提取時的查全率和查準(zhǔn)率。即盡可能多的得到低頻主題詞而不引入過多的非低頻主題 1·^] 〇
[0028] 上述步驟(6)所述為過濾低頻主題詞。自評篇幅較小,高頻詞是專業(yè)詞的可能性 較大,所以去除大部分專業(yè)詞,從而提高查準(zhǔn)率。再通過人工標(biāo)記的方式去除未明顯指向主 題的詞組,從而對結(jié)果進行優(yōu)化。
[0029] 本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實質(zhì)性特點和顯著技術(shù)進 步:(1)該方法可以用來分析跨多個學(xué)科領(lǐng)域的文本中的共現(xiàn)主題,不需要對任何領(lǐng)域的 測試集進行特殊的預(yù)處理。(2)該方法通過對詞以及詞組關(guān)于自信息的計算分析來發(fā)現(xiàn)主 題。算法的復(fù)雜度低,能夠更加直接的獲取跨學(xué)科領(lǐng)域文本集中的共現(xiàn)主題信息。(3)該方 法可用來處理任何語言的文本,具有極強的可移植性、以及可擴展性。(4)與以往的文本信 息抽取中以高頻信息為主不同,該方法主要用來抽取詞頻相對偏低但是均勻出現(xiàn),有重要 研究價值的信息。
【附圖說明】
[0030] 圖1為本發(fā)明的基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法的操作程序框圖
【具體實施方式】
[0031] 下面結(jié)合說明書附圖和優(yōu)選實施例對本發(fā)明作進一步詳細(xì)的說明。
[0032] 實施例一:
[0033] 參考圖1,本基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn),其特征在于:操作步驟包 括:
[0034] (1)、數(shù)據(jù)收集:收集高引文獻作者關(guān)于其科研成功的自評文檔集;
[0035] (2)、數(shù)據(jù)處理:提取和數(shù)字化自評中的正文部分;
[0036] (3)、抽取候選低頻主題詞;
[0037] (4)、計算低頻主題評價系數(shù);
[0038] (5)、設(shè)定低頻主題詞評價系數(shù)的閾值;
[0039] (6)、過濾低頻主題詞。
[0040] 實施例二:本實施例與實施例一基本相同,特別之處如下:
[0041] 所述步驟(1)數(shù)據(jù)收集的具體操作是:從引文數(shù)據(jù)庫SCI的創(chuàng)始人加菲爾德所征 集的高引經(jīng)典文獻的作者關(guān)于其科研研究工作取得成功的自評中收集到3790篇高引經(jīng)典 文獻的作者自評文檔集。
[0042] 所述步驟(2)數(shù)據(jù)處理的具體操作是:對文檔集中文本進行了數(shù)字化和提??;此 外,還提取了 3類信息:自評的正文內(nèi)容、自評的相關(guān)信息以及原高引文獻的相關(guān)信息。
[0043] 所述步驟(3)抽取候選低頻主題詞的具體操作是:首先利用"自然語言工具 集" NLTK文獻作為工具處理自評的正文部分,然后結(jié)合Leahey, Erin ;Cain, Cindy L.對高 引經(jīng)典文獻作者自評的研究的結(jié)果定義標(biāo)記模式,最后通過定義的標(biāo)記模式進行抽取候選 低頻主題詞。
[0044] 所述步驟(4)計算低頻主題評價系數(shù)的具體操作如下:
[0045] (41)首先計算低頻詞對文檔的信息量:表示詞Wu對文檔di的信息量,c ^表 示詞在文檔中出現(xiàn)的詞頻