一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明提出了一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,對獲取的網(wǎng)頁信息進行文本分類和文本聚類,從而提取話題,具體包括以下步驟:S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息;S2、對獲得的網(wǎng)頁信息進行文本提?。籗3、預(yù)設(shè)分類器,將提取的文本進行文本分類,生成多個文本類系;S4、分別對每一個文本類系下的文本進行聚類,生成多個文本子類,每一個文本子類對應(yīng)一個話題;S5、存儲網(wǎng)頁鏈接,并根據(jù)文本類系和文本子類建立索引。本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,可對重復(fù)信息進行合并。
【專利說明】一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002]隨著信息化程度不斷加深,人們對情報信息化集成的渴求也日益強烈;互聯(lián)網(wǎng)持續(xù)增長信息資源蘊含了巨量的具有價值的信息,成為重要的情報信息源頭。
[0003]不同的網(wǎng)站中存在著大量的重復(fù)信息,這些信息被搜索引擎反復(fù)的索引,因此在用戶使用搜索引擎檢索信息的時候就會發(fā)現(xiàn)有很多是來自不同網(wǎng)站的相同信息。對于用戶來說相同的文章只檢索出一篇就夠了,但對于搜索引擎來說保存相同內(nèi)容的網(wǎng)頁,也會造成存儲資源的浪費和檢索時的低效率。
【發(fā)明內(nèi)容】
[0004]基于【背景技術(shù)】存在的技術(shù)問題,本發(fā)明提出了一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,可對重復(fù)信息進行合并。
[0005]本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,對獲取的網(wǎng)頁信息進行文本分類和文本聚類,從而提取話題,具體包括以下步驟:
[0006]S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息;
[0007]S2、對獲得的網(wǎng)頁信息進行文本提?。?br>
[0008]S3、預(yù)設(shè)分類器,將提取的文本進行文本分類,生成多個文本類系;
[0009]S4、分別對每一個文本類系下的文本進行聚類,生成多個文本子類,每一個文本子類對應(yīng)一個話題;
[0010]S5、存儲網(wǎng)頁鏈接,并根據(jù)文本類系和文本子類建立索引。
[0011]優(yōu)選地,步驟S3具體包括以下分步驟:
[0012]S31、分類器中預(yù)設(shè)實體詞典,并根據(jù)每一個文本類別預(yù)設(shè)特征詞典;
[0013]S32、根據(jù)實體詞典對獲得的文本提取實體詞,并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重;
[0014]S33、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重,對文本進行分類。
[0015]優(yōu)選地,步驟S4具體包括以下分步驟:
[0016]S41、根據(jù)每一個文本類系建立本體庫,本體庫中包含多個由概念形成的概念樹;
[0017]S42、將文本中的實體詞映射到本體庫中,提取文本語義,并根據(jù)語義權(quán)重提取文本關(guān)鍵詞,生成文本核心語義;
[0018]S43、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算,并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中,O < A < I ;
[0019]S44、根據(jù)文本核心語義為每一個文本子類提取一個話題。
[0020]優(yōu)選地,A= 0.7。
[0021]優(yōu)選地,步驟S42中,同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多,語義權(quán)重越大。
[0022]優(yōu)選地,步驟S43中,語義相似度計算公式為:
[0023],W,) =---
L 」1 J Zte(WpW2)+ a
[0024]Dis(W11W2)為概念W1、W2在概念樹上的距離,a為可調(diào)節(jié)的計算常數(shù)。
[0025]本發(fā)明提供的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,通過文本分類與文本聚類,對文本信息進行層層分析歸類,提取核心信息,并將重復(fù)或相似的信息歸屬到同一個話題中,有根據(jù)話題的相關(guān)度將其歸類到文本類系中,有利于文本檢索的邏輯性,提高檢索效率。
[0026]本發(fā)明通過以話題總結(jié)相似文本信息的方式,避免了對同一信息的不同網(wǎng)頁重復(fù)索引的情況,避免了存儲資源的浪費和檢索時的低效率。
【專利附圖】
【附圖說明】
[0027]圖1為本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法流程圖;
[0028]圖2為本發(fā)明中對抓取的網(wǎng)頁進行初步歸類流程圖;
[0029]圖3為本發(fā)明中文本聚類流程圖。
【具體實施方式】
[0030]參照圖1,本發(fā)明提出的一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,對獲取的網(wǎng)頁信息進行文本分類和文本聚類,從而提取話題,具體包括以下步驟:
[0031 ] S1、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息。
[0032]網(wǎng)絡(luò)探針中預(yù)設(shè)行業(yè)本體,并根據(jù)行業(yè)本體探測網(wǎng)頁,縮小了探測范圍,提高了數(shù)據(jù)探測效率。并且只有當被探測的網(wǎng)絡(luò)數(shù)據(jù)符合要求時,才會進行網(wǎng)頁抓取,既不會遺漏重要數(shù)據(jù),又不會浪費時間做無用功。這種策略在沒有損失行業(yè)數(shù)據(jù)收錄量的情況下,極大地節(jié)約帶寬和數(shù)據(jù)檢索量,并提高了數(shù)據(jù)入庫周期,提高實時度。
[0033]S2、對獲得的網(wǎng)頁信息進行文本提取。
[0034]網(wǎng)頁包含的信息往往龐雜且無序,該步驟中,僅從網(wǎng)頁中提取包含行業(yè)本體的文本,對網(wǎng)頁信息進行初步篩選。
[0035]S3、預(yù)設(shè)分類器,將提取的文本進行文本分類,生成多個文本類系。
[0036]參照圖2,該步驟相當于對抓取的網(wǎng)頁進行初步歸類,其具體包括以下分步驟:
[0037]S31、分類器中預(yù)設(shè)實體詞典,并根據(jù)每一個文本類別預(yù)設(shè)特征詞典。
[0038]S32、根據(jù)實體詞典對獲得的文本提取實體詞,并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重。
[0039]實體詞典作為提取實體詞的依據(jù),其具有通用性,但是,不同文本類別所包含的特征詞是不盡相同甚至完全相異的。故而,步驟S31中,分類器中預(yù)設(shè)一個實體詞典,但是卻根據(jù)不同文本類系分別預(yù)設(shè)特征詞典。
[0040]S33、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重,對文本進行分類。
[0041]實體詞權(quán)重與實體詞在文本中出現(xiàn)的次數(shù)成正比,匹配度與實體詞中包含的特征詞數(shù)量以及其權(quán)重成正比,可通過和積計算,例如一個文本中的實體詞有三個出現(xiàn)在一個文本類別的特征詞典中,且這三個實體詞在該文本中出現(xiàn)次數(shù)分別為1、2、3,則該文本與該特征詞典匹配度為I X 1+1 X 2+1 X 3。對文本進行分類時,將其歸屬到與其匹配度最高的特征詞典對應(yīng)的文本類別中。
[0042]S4、分別對每一個文本類系下的文本進行聚類,生成多個文本子類,每一個文本子類對應(yīng)一個話題。
[0043]參照圖3,步驟S4具體包括以下分步驟:
[0044]S41、根據(jù)每一個文本類系建立本體庫,本體庫中包含多個由概念形成的概念樹。
[0045]概念樹以一個概念為根節(jié)點,并以根節(jié)點的延伸概念為子節(jié)點,依次類推,概念樹中的各概念為由下到上層層包含的關(guān)系。由于經(jīng)過文本分類,每一個文本類別中的文本已經(jīng)具備一定的關(guān)聯(lián)度,針對文本類別建立本體庫,有利于保證同一個本體庫中概念間的關(guān)聯(lián)性,提高文本語義集中程度。
[0046]S42、將文本中的實體詞映射到本體庫中,提取文本語義,并根據(jù)語義權(quán)重提取文本關(guān)鍵詞,生成文本核心語義,語義與概念一一對應(yīng)。
[0047]該步驟中,同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多,語義權(quán)重越大。該步驟相當于根據(jù)語義在文本中出現(xiàn)的頻率確定文本語義傾向。
[0048]S43、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算,并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中。
[0049]語義相似度計算公式為:
[0050]Sim(% ,W,) =----
L 5」1 ‘ D?(W/,W2)-fa
[0051]Dis(W11W2)為語義W1、W2在概念樹上的距離,a為可調(diào)節(jié)的計算常數(shù)。
[0052]具體實施時A可在區(qū)間(0,1)上任意取值,具體根據(jù)語義相似度計算需要決定。本實施方式中,A = 0.7
[0053]S44、根據(jù)文本核心語義為每一個文本子類提取一個話題。
[0054]文本子類的話題應(yīng)該能夠概括該文本子類中的文本核心信息。
[0055]S5、存儲網(wǎng)頁鏈接,并根據(jù)文本類系和文本子類建立索引。
[0056]本發(fā)明提供的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,通過文本分類與文本聚類,對文本信息進行層層分析歸類,提取核心信息,并將重復(fù)或相似的信息歸屬到同一個話題中,有根據(jù)話題的相關(guān)度將其歸類到文本類系中,有利于文本檢索的邏輯性,提高檢索效率。
[0057]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,對獲取的網(wǎng)頁信息進行文本分類和文本聚類,從而提取話題,具體包括以下步驟: 51、預(yù)設(shè)網(wǎng)絡(luò)探針根據(jù)行業(yè)本體抓取網(wǎng)頁信息; 52、對獲得的網(wǎng)頁信息進行文本提??; 53、預(yù)設(shè)分類器,將提取的文本進行文本分類,生成多個文本類系; 54、分別對每一個文本類系下的文本進行聚類,生成多個文本子類,每一個文本子類對應(yīng)一個話題; 55、存儲網(wǎng)頁鏈接,并根據(jù)文本類系和文本子類建立索引。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,步驟S3具體包括以下分步驟: 531、分類器中預(yù)設(shè)實體詞典,并根據(jù)每一個文本類別預(yù)設(shè)特征詞典; 532、根據(jù)實體詞典對獲得的文本提取實體詞,并根據(jù)各實體詞出現(xiàn)次數(shù)計算權(quán)重; 533、根據(jù)文本中實體詞與特征詞典匹配度以及實體詞權(quán)重,對文本進行分類。
3.如權(quán)利要求1所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,步驟S4具體包括以下分步驟: 541、根據(jù)每一個文本類系建立本體庫,本體庫中包含多個由概念形成的概念樹; 542、將文本中的實體詞映射到本體庫中,提取文本語義,并根據(jù)語義權(quán)重提取文本關(guān)鍵詞,生成文本核心語義; 543、對同一文本類系中各文本對應(yīng)的核心語義進行語義相似度計算,并將語義相似度大于預(yù)設(shè)閾值A(chǔ)的文本歸屬到同一個文本子類中,O < A < I ; 544、根據(jù)文本核心語義為每一個文本子類提取一個話題。
4.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,A= 0.7。
5.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,步驟S42中,同一文本中同一條文本語義對應(yīng)的實體詞出現(xiàn)次數(shù)越多,語義權(quán)重越大。
6.如權(quán)利要求3所述的網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,其特征在于,步驟S43中,語義相似度計算公式為: Sim{\\\ AV,) =---1D/.stWpW^ + a Dis (W1, W2)為概念Wl、W2在概念樹上的距離,a為可調(diào)節(jié)的計算常數(shù)。
【文檔編號】G06F17/30GK104281710SQ201410582451
【公開日】2015年1月14日 申請日期:2014年10月27日 優(yōu)先權(quán)日:2014年10月27日
【發(fā)明者】賈巖 申請人:安徽華貞信息科技有限公司