基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法

文檔序號：9417370閱讀：428來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法，屬于文本挖掘 (Text Mining)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來，主題發(fā)現(xiàn)作為文本挖掘領(lǐng)域的熱門研究方向，受到越來越多的研究者的重視。主題發(fā)現(xiàn)可以從海量的非結(jié)構(gòu)化文本中挖掘到關(guān)鍵的主題信息，可以更加高效的理解文本的主要內(nèi)容，獲取文本的深層語義信息。同時，主題發(fā)現(xiàn)還可以對主題進行更深層次的分析，發(fā)現(xiàn)文本中更多的潛在知識。
[0003] 現(xiàn)有的主題發(fā)現(xiàn)方法主要有主題模型以及詞頻統(tǒng)計的兩種。主題模型是一種概率生成模型，在主題模型中主題作為隱變量，文檔以及詞項作為觀測值。通過對模型的訓(xùn)練可以得到詞項概率分布、以及主題概率分布。經(jīng)過訓(xùn)練后的模型就可以將詞項空間中的文檔變換到主題空間，從而實現(xiàn)文檔處理的降維，最終得到具有語義信息的主題集合。常用的主題模型主要有LSI [1，2]、PLSI [3, 4]、LDA[5]等。詞頻統(tǒng)計的方法則是通過對詞在文檔中以及文檔集中的頻率的計算來進行主題抽取，常用的方法有TF_IDF (term frequency -inverse document frequency)、互信息（Mutual Information)、信息增益、x2 統(tǒng)計量等。
[0004] 上述的主題發(fā)現(xiàn)方法具有很強的理論基礎(chǔ)，在眾多主題發(fā)現(xiàn)任務(wù)中均取得較好的效果。然而這些方法對于跨學(xué)科領(lǐng)域中的共現(xiàn)主題信息無法很好的抽取，因為對于評價類跨學(xué)科領(lǐng)域的文本，有時主題可能是由低頻主題詞而非高頻詞體現(xiàn)?，F(xiàn)有的主題發(fā)現(xiàn)方法大多傾向于獲取高頻詞，因而無法用來抽取具有低頻特征的共現(xiàn)主題詞，即低頻主題詞。此外，跨學(xué)科領(lǐng)域的共現(xiàn)主題發(fā)現(xiàn)研究具有重要的研究意義，因為通過這些共現(xiàn)主題可以從更宏觀的角度來分析文本集，并且獲得更多有意義的主題信息的規(guī)律。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的是針對現(xiàn)有技術(shù)存在的不足，提供一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法，為主題發(fā)現(xiàn)的相關(guān)研究提供新思路，可應(yīng)用到評價類文檔集的主題發(fā)現(xiàn)，從而實現(xiàn)不同學(xué)科領(lǐng)域文檔集中得共現(xiàn)主題提取。
[0006] 為達到上述目的，本發(fā)明采用下述技術(shù)方案：一種基于自信息的跨學(xué)科領(lǐng)域共現(xiàn) 主題發(fā)現(xiàn)方法，其特征在于操作步驟包括：
[0007] (1)、數(shù)據(jù)收集：收集高引文獻作者關(guān)于其科研成功的自評文檔集；
[0008] (2)、數(shù)據(jù)處理：提取和數(shù)字化自評中的正文部分；
[0009] (3)、抽取候選低頻主題詞；
[0010] (4)、計算低頻主題評價系數(shù)；
[0011] (5)、設(shè)定低頻主題詞評價系數(shù)的閾值；
[0012] (6)、過濾低頻主題詞。
[0013] 上述步驟（1)所述為數(shù)據(jù)收集。從引文數(shù)據(jù)庫SCI (Science Citation Index)的創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻的作者關(guān)于其科研研究工作取得成功的自評中收集到3790篇高引經(jīng)典文獻的作者自評文檔集。
[0014] 上述步驟（2)所述為數(shù)據(jù)處理。對文檔集中自評的正文部分進行了提取和數(shù)字化。此外，還提取了 3類信息，自評的正文內(nèi)容、自評的相關(guān)信息以及原高引文獻的相關(guān)信息。
[0015] 本發(fā)明定義了低頻主題詞是能夠充分體現(xiàn)主題信息，均勻出現(xiàn)且詞頻較低的非專業(yè)詞。低頻主題詞的詞頻應(yīng)當(dāng)符合如下公式：
[0016]
[0017] 文檔集D(D= W1Hi = [l，m]))中，文檔Cl1中的詞Wlj在D中出現(xiàn)的次數(shù)c' ^與它在文檔Cl1中出現(xiàn)的次數(shù)c u之比應(yīng)當(dāng)?shù)扔谂c文檔集D中的文檔數(shù)目m相關(guān)的數(shù)值。當(dāng)w ^ 不出現(xiàn)在文檔di中，則值為零。
[0018] 上述步驟（3)所述為抽取候選低頻主題詞。通過定義的標(biāo)記模式進行候選低頻主題詞。具體步驟是首先利用"自然語言工具集" NLTK (Natural Language Toolkit)作為工具處理自評的征文部分，然后結(jié)合1^^116731'；[11;03；[11，(：；[11(17]^.對高引經(jīng)典文獻作者自評的研究的結(jié)果定義標(biāo)記模式，最后通過定義的標(biāo)記模式進行抽取候選低頻主題詞。
[0019] 本發(fā)明定義低頻主題詞評價系數(shù)，是用于評估一個詞均勻出現(xiàn)的程度的統(tǒng)計指標(biāo)。在信息論中，信息被認(rèn)為是可以量化的。在抽象含義上，認(rèn)為發(fā)生概率低的事件所包含的信息量大。如果詞W lj的信息量大，則它更加確定，對于文檔或文檔集而言確定性越高的詞則越重要。
[0020] 上訴步驟（4)所訴為計算所有候選低頻主題詞的低頻主題評價系數(shù)。具體步驟如下：
[0021] (41)、計算低頻詞對文檔的信息量：~表示詞Wl]對文檔di的信息量。詞在文檔中出現(xiàn)的詞頻 Cl]與文檔中總詞數(shù)C i的比值近似的被看作為詞在文檔中出現(xiàn)的概率。
[0022]
[0023] (42)、計算低頻詞對文檔集的信息量表示每個詞對應(yīng)的文檔集信息量，詞在文檔集中出現(xiàn)的詞頻c'、,與文檔中總詞數(shù)
的比值近似的被看作為詞在文檔集中出現(xiàn) 的概率。
[0024]
[0025] (43)、計算低頻主題詞評價系數(shù)：直接用詞的文檔信息量和文檔集信息量的差值來計算低頻主題詞評價系數(shù)％,, ° 越接近〇時所對應(yīng)的',越可能是低頻主題詞。 LlN 丄Λ rVJ Ij ?/? }J\
[0026]
[0027] 上述步驟（5)所述為設(shè)定低頻主題詞評價系數(shù)閾值。設(shè)定的閾值要確保低頻主題詞的提取時的查全率和查準(zhǔn)率。即盡可能多的得到低頻主題詞而不引入過多的非低頻主題 1·^] 〇
[0028] 上述步驟（6)所述為過濾低頻主題詞。自評篇幅較小，高頻詞是專業(yè)詞的可能性較大，所以去除大部分專業(yè)詞，從而提高查準(zhǔn)率。再通過人工標(biāo)記的方式去除未明顯指向主題的詞組，從而對結(jié)果進行優(yōu)化。
[0029] 本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下顯而易見的突出實質(zhì)性特點和顯著技術(shù)進步：（1)該方法可以用來分析跨多個學(xué)科領(lǐng)域的文本中的共現(xiàn)主題，不需要對任何領(lǐng)域的測試集進行特殊的預(yù)處理。（2)該方法通過對詞以及詞組關(guān)于自信息的計算分析來發(fā)現(xiàn)主題。算法的復(fù)雜度低，能夠更加直接的獲取跨學(xué)科領(lǐng)域文本集中的共現(xiàn)主題信息。（3)該方法可用來處理任何語言的文本，具有極強的可移植性、以及可擴展性。（4)與以往的文本信息抽取中以高頻信息為主不同，該方法主要用來抽取詞頻相對偏低但是均勻出現(xiàn)，有重要研究價值的信息。
【附圖說明】
[0030] 圖1為本發(fā)明的基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法的操作程序框圖
【具體實施方式】
[0031] 下面結(jié)合說明書附圖和優(yōu)選實施例對本發(fā)明作進一步詳細(xì)的說明。
[0032] 實施例一：
[0033] 參考圖1，本基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)，其特征在于：操作步驟包括：
[0034] (1)、數(shù)據(jù)收集：收集高引文獻作者關(guān)于其科研成功的自評文檔集；
[0035] (2)、數(shù)據(jù)處理：提取和數(shù)字化自評中的正文部分；
[0036] (3)、抽取候選低頻主題詞；
[0037] (4)、計算低頻主題評價系數(shù)；
[0038] (5)、設(shè)定低頻主題詞評價系數(shù)的閾值；
[0039] (6)、過濾低頻主題詞。
[0040] 實施例二：本實施例與實施例一基本相同，特別之處如下：
[0041] 所述步驟（1)數(shù)據(jù)收集的具體操作是：從引文數(shù)據(jù)庫SCI的創(chuàng)始人加菲爾德所征集的高引經(jīng)典文獻的作者關(guān)于其科研研究工作取得成功的自評中收集到3790篇高引經(jīng)典文獻的作者自評文檔集。
[0042] 所述步驟（2)數(shù)據(jù)處理的具體操作是：對文檔集中文本進行了數(shù)字化和提??；此外，還提取了 3類信息：自評的正文內(nèi)容、自評的相關(guān)信息以及原高引文獻的相關(guān)信息。
[0043] 所述步驟（3)抽取候選低頻主題詞的具體操作是：首先利用"自然語言工具集" NLTK文獻作為工具處理自評的正文部分，然后結(jié)合Leahey, Erin ;Cain, Cindy L.對高引經(jīng)典文獻作者自評的研究的結(jié)果定義標(biāo)記模式，最后通過定義的標(biāo)記模式進行抽取候選低頻主題詞。
[0044] 所述步驟（4)計算低頻主題評價系數(shù)的具體操作如下：
[0045] (41)首先計算低頻詞對文檔的信息量：表示詞Wu對文檔di的信息量，c ^表示詞在文檔中出現(xiàn)的詞頻

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏晴;周文;張亞軍;劉孟;
技術(shù)所有人：上海大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于自信息的跨學(xué)科領(lǐng)域共現(xiàn)主題發(fā)現(xiàn)方法