一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法

文檔序號：6631772閱讀：868來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明提出了一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，對獲取的網(wǎng)頁信息進行文本分類和文本聚類，從而提取話題，具體包括以下步驟：S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息；S2、對獲得的網(wǎng)頁信息進行文本提?。籗3、預(yù)設(shè)分類器，將提取的文本進行文本分類，生成多個文本類系；S4、分別對每一個文本類系下的文本進行聚類，生成多個文本子類，每一個文本子類對應(yīng)一個話題；S5、存儲網(wǎng)頁鏈接，并根據(jù)文本類系和文本子類建立索引。本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，可對重復(fù)信息進行合并。
【專利說明】一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】，尤其涉及一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法。

【背景技術(shù)】
[0002]隨著信息化程度不斷加深，人們對情報信息化集成的渴求也日益強烈；互聯(lián)網(wǎng)持續(xù)增長信息資源蘊含了巨量的具有價值的信息，成為重要的情報信息源頭。
[0003]不同的網(wǎng)站中存在著大量的重復(fù)信息，這些信息被搜索引擎反復(fù)的索引，因此在用戶使用搜索引擎檢索信息的時候就會發(fā)現(xiàn)有很多是來自不同網(wǎng)站的相同信息。對于用戶來說相同的文章只檢索出一篇就夠了，但對于搜索引擎來說保存相同內(nèi)容的網(wǎng)頁，也會造成存儲資源的浪費和檢索時的低效率。

【發(fā)明內(nèi)容】

[0004]基于【背景技術(shù)】存在的技術(shù)問題，本發(fā)明提出了一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，可對重復(fù)信息進行合并。
[0005]本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，對獲取的網(wǎng)頁信息進行文本分類和文本聚類，從而提取話題，具體包括以下步驟:
[0006]S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息；
[0007]S2、對獲得的網(wǎng)頁信息進行文本提?。?br> [0008]S3、預(yù)設(shè)分類器，將提取的文本進行文本分類，生成多個文本類系；
[0009]S4、分別對每一個文本類系下的文本進行聚類，生成多個文本子類,每一個文本子類對應(yīng)一個話題；
[0010]S5、存儲網(wǎng)頁鏈接，并根據(jù)文本類系和文本子類建立索引。
[0011]優(yōu)選地，步驟S3具體包括以下分步驟:
[0012]S31、分類器中預(yù)設(shè)實體詞典，并根據(jù)每一個文本類別預(yù)設(shè)特征詞典；
[0013]S32、根據(jù)實體詞典對獲得的文本提取實體詞，并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重；
[0014]S33、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重，對文本進行分類。
[0015]優(yōu)選地，步驟S4具體包括以下分步驟:
[0016]S41、根據(jù)每一個文本類系建立本體庫，本體庫中包含多個由概念形成的概念樹；
[0017]S42、將文本中的實體詞映射到本體庫中，提取文本語義，并根據(jù)語義權(quán)重提取文本關(guān)鍵詞,生成文本核心語義；
[0018]S43、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算，并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中，O < A < I ;
[0019]S44、根據(jù)文本核心語義為每一個文本子類提取一個話題。
[0020]優(yōu)選地，A= 0.7。
[0021]優(yōu)選地，步驟S42中，同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多，語義權(quán)重越大。
[0022]優(yōu)選地，步驟S43中，語義相似度計算公式為:
[0023],W,) =---
L 」1 J Zte(WpW2)+ a
[0024]Dis(W11W2)為概念W1、W2在概念樹上的距離，a為可調(diào)節(jié)的計算常數(shù)。
[0025]本發(fā)明提供的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，通過文本分類與文本聚類，對文本信息進行層層分析歸類，提取核心信息，并將重復(fù)或相似的信息歸屬到同一個話題中，有根據(jù)話題的相關(guān)度將其歸類到文本類系中，有利于文本檢索的邏輯性，提高檢索效率。
[0026]本發(fā)明通過以話題總結(jié)相似文本信息的方式，避免了對同一信息的不同網(wǎng)頁重復(fù)索引的情況，避免了存儲資源的浪費和檢索時的低效率。

【專利附圖】

【附圖說明】
[0027]圖1為本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法流程圖；
[0028]圖2為本發(fā)明中對抓取的網(wǎng)頁進行初步歸類流程圖；
[0029]圖3為本發(fā)明中文本聚類流程圖。

【具體實施方式】
[0030]參照圖1，本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，對獲取的網(wǎng)頁信息進行文本分類和文本聚類，從而提取話題，具體包括以下步驟:
[0031 ] S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息。
[0032]網(wǎng)絡(luò)探針中預(yù)設(shè)行業(yè)本體，并根據(jù)行業(yè)本體探測網(wǎng)頁，縮小了探測范圍，提高了數(shù)據(jù)探測效率。并且只有當被探測的網(wǎng)絡(luò)數(shù)據(jù)符合要求時，才會進行網(wǎng)頁抓取，既不會遺漏重要數(shù)據(jù)，又不會浪費時間做無用功。這種策略在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下，極大地節(jié)約帶寬和數(shù)據(jù)檢索量，并提高了數(shù)據(jù)入庫周期，提高實時度。
[0033]S2、對獲得的網(wǎng)頁信息進行文本提取。
[0034]網(wǎng)頁包含的信息往往龐雜且無序，該步驟中，僅從網(wǎng)頁中提取包含行業(yè)本體的文本，對網(wǎng)頁信息進行初步篩選。
[0035]S3、預(yù)設(shè)分類器，將提取的文本進行文本分類，生成多個文本類系。
[0036]參照圖2，該步驟相當于對抓取的網(wǎng)頁進行初步歸類，其具體包括以下分步驟:
[0037]S31、分類器中預(yù)設(shè)實體詞典，并根據(jù)每一個文本類別預(yù)設(shè)特征詞典。
[0038]S32、根據(jù)實體詞典對獲得的文本提取實體詞，并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重。
[0039]實體詞典作為提取實體詞的依據(jù)，其具有通用性，但是，不同文本類別所包含的特征詞是不盡相同甚至完全相異的。故而，步驟S31中，分類器中預(yù)設(shè)一個實體詞典，但是卻根據(jù)不同文本類系分別預(yù)設(shè)特征詞典。
[0040]S33、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重，對文本進行分類。
[0041]實體詞權(quán)重與實體詞在文本中出現(xiàn)的次數(shù)成正比，匹配度與實體詞中包含的特征詞數(shù)量以及其權(quán)重成正比，可通過和積計算，例如一個文本中的實體詞有三個出現(xiàn)在一個文本類別的特征詞典中，且這三個實體詞在該文本中出現(xiàn)次數(shù)分別為1、2、3，則該文本與該特征詞典匹配度為I X 1+1 X 2+1 X 3。對文本進行分類時，將其歸屬到與其匹配度最高的特征詞典對應(yīng)的文本類別中。
[0042]S4、分別對每一個文本類系下的文本進行聚類，生成多個文本子類,每一個文本子類對應(yīng)一個話題。
[0043]參照圖3，步驟S4具體包括以下分步驟:
[0044]S41、根據(jù)每一個文本類系建立本體庫,本體庫中包含多個由概念形成的概念樹。
[0045]概念樹以一個概念為根節(jié)點，并以根節(jié)點的延伸概念為子節(jié)點，依次類推，概念樹中的各概念為由下到上層層包含的關(guān)系。由于經(jīng)過文本分類，每一個文本類別中的文本已經(jīng)具備一定的關(guān)聯(lián)度,針對文本類別建立本體庫,有利于保證同一個本體庫中概念間的關(guān)聯(lián)性，提高文本語義集中程度。
[0046]S42、將文本中的實體詞映射到本體庫中，提取文本語義，并根據(jù)語義權(quán)重提取文本關(guān)鍵詞，生成文本核心語義，語義與概念一一對應(yīng)。
[0047]該步驟中，同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多，語義權(quán)重越大。該步驟相當于根據(jù)語義在文本中出現(xiàn)的頻率確定文本語義傾向。
[0048]S43、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算，并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中。
[0049]語義相似度計算公式為:
[0050]Sim(% ,W,) =----
L 5」1 ‘ D?(W/,W2)-fa
[0051]Dis(W11W2)為語義W1、W2在概念樹上的距離，a為可調(diào)節(jié)的計算常數(shù)。
[0052]具體實施時A可在區(qū)間(0，1)上任意取值，具體根據(jù)語義相似度計算需要決定。本實施方式中，A = 0.7
[0053]S44、根據(jù)文本核心語義為每一個文本子類提取一個話題。
[0054]文本子類的話題應(yīng)該能夠概括該文本子類中的文本核心信息。
[0055]S5、存儲網(wǎng)頁鏈接，并根據(jù)文本類系和文本子類建立索引。
[0056]本發(fā)明提供的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，通過文本分類與文本聚類，對文本信息進行層層分析歸類，提取核心信息，并將重復(fù)或相似的信息歸屬到同一個話題中，有根據(jù)話題的相關(guān)度將其歸類到文本類系中，有利于文本檢索的邏輯性，提高檢索效率。
[0057]以上所述，僅為本發(fā)明較佳的【具體實施方式】，但本發(fā)明的保護范圍并不局限于此，任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，對獲取的網(wǎng)頁信息進行文本分類和文本聚類，從而提取話題，具體包括以下步驟: 51、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息； 52、對獲得的網(wǎng)頁信息進行文本提??； 53、預(yù)設(shè)分類器，將提取的文本進行文本分類，生成多個文本類系； 54、分別對每一個文本類系下的文本進行聚類，生成多個文本子類，每一個文本子類對應(yīng)一個話題； 55、存儲網(wǎng)頁鏈接，并根據(jù)文本類系和文本子類建立索引。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，步驟S3具體包括以下分步驟: 531、分類器中預(yù)設(shè)實體詞典，并根據(jù)每一個文本類別預(yù)設(shè)特征詞典； 532、根據(jù)實體詞典對獲得的文本提取實體詞，并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重； 533、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重，對文本進行分類。
3.如權(quán)利要求1所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，步驟S4具體包括以下分步驟: 541、根據(jù)每一個文本類系建立本體庫,本體庫中包含多個由概念形成的概念樹； 542、將文本中的實體詞映射到本體庫中，提取文本語義，并根據(jù)語義權(quán)重提取文本關(guān)鍵詞，生成文本核心語義； 543、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算，并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中，O < A < I ; 544、根據(jù)文本核心語義為每一個文本子類提取一個話題。
4.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，A= 0.7。
5.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，步驟S42中，同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多，語義權(quán)重越大。
6.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法，其特征在于，步驟S43中，語義相似度計算公式為: Sim{\\\ AV,) =---1D/.stWpW^ + a Dis (W1, W2)為概念Wl、W2在概念樹上的距離，a為可調(diào)節(jié)的計算常數(shù)。
【文檔編號】G06F17/30GK104281710SQ201410582451
【公開日】2015年1月14日申請日期:2014年10月27日優(yōu)先權(quán)日:2014年10月27日
【發(fā)明者】賈巖申請人:安徽華貞信息科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈巖
技術(shù)所有人：安徽華貞信息科技有限公司
我是此專利的發(fā)明人

上一篇：一種時序一致性約束的視頻全局運動估計方法
上一篇：基于處理器指令快速完成的精確異常維護方法及裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

社交網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法