專利名稱:一種對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能信息處理技術(shù),具體涉及一種對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法。
背景技術(shù):
隨著因特網(wǎng)的迅速發(fā)展,HTML、XML等半結(jié)構(gòu)化文檔大量出現(xiàn),半結(jié)構(gòu)化文檔既不同于無結(jié)構(gòu)的純文本文檔也不同于結(jié)構(gòu)規(guī)整的關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)。如何從這樣大量的文檔中快速有效地獲得人們所需要的文檔以及如何發(fā)現(xiàn)這些文檔中的隱含的規(guī)律便是人們所面臨的問題。對半結(jié)構(gòu)化文檔集進(jìn)行分析挖掘就是用來解決這些技術(shù)問題的方法。
目前,對半結(jié)構(gòu)化文檔的挖掘主要有兩類方法一類是將半結(jié)構(gòu)化文檔視為無結(jié)構(gòu)的純文本文檔,采用傳統(tǒng)的文本挖掘方法對半結(jié)構(gòu)化文檔進(jìn)行文本挖掘;另一類是根據(jù)半結(jié)構(gòu)化文檔的新特征提出新的挖掘方法。在傳統(tǒng)的文本挖掘中,將文檔作為無結(jié)構(gòu)的數(shù)據(jù),以詞條為單位進(jìn)行處理,提出并被應(yīng)用的文檔模型包括布爾模型、概率模型、向量空間模型。采用這些模型對半結(jié)構(gòu)化文檔集進(jìn)行挖掘時(shí),挖掘效果并不理想,因?yàn)榘虢Y(jié)構(gòu)化文檔的結(jié)構(gòu)信息與鏈接信息沒有被利用。2000年,D.Guillaume等人在文章《XML文檔聚類》(DamienGuillaume and Fionn Murtagh.Clustering of XML documents.Computer PhysicsCommunications(127)2000.215~227)中公開了一種XML文檔聚類技術(shù),他們將XML文檔中的元素作為節(jié)點(diǎn),文檔中XLINK作為邊,構(gòu)造拓?fù)鋱D,通過給拓?fù)鋱D的邊賦予不同的權(quán)重,采用邊剪切最小原理對拓?fù)鋱D進(jìn)行分割,從而實(shí)現(xiàn)對XML文檔的聚類。2000年,Jeonghee Yi等人在美國波斯頓的數(shù)據(jù)挖掘國際會(huì)議上(Jeonghee Yi,Neel Sundaresan.A Classifier for Semi-StructuredDocuments.KDD 2000,Boston,MA USA)公開了一種利用半結(jié)構(gòu)化文檔的結(jié)構(gòu)信息對文檔向量空間模型進(jìn)行擴(kuò)展的向量模型,將文檔元素用嵌套定義的向量進(jìn)行描述,并給出了基于該擴(kuò)展模型利用概率統(tǒng)計(jì)進(jìn)行文檔分類的算法。這些技術(shù)中,僅使用了半結(jié)構(gòu)化文檔的部分信息,沒有充分利用半結(jié)構(gòu)化文檔中的信息以便獲得好的文本挖掘效果,更沒有形成統(tǒng)一的數(shù)學(xué)模型。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的是利用半結(jié)構(gòu)化文檔的特點(diǎn),提出一個(gè)數(shù)學(xué)模型,以及基于該模型對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法。本方法對半結(jié)構(gòu)化文檔中的字詞信息、結(jié)構(gòu)信息、鏈接信息采用統(tǒng)一的數(shù)學(xué)模型進(jìn)行描述,利用這一方法對半結(jié)構(gòu)化文檔進(jìn)行文本挖掘,可以大大提高挖掘效果。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是一種基于結(jié)構(gòu)鏈接向量模型對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法,包括以下步驟第一、讀入文檔,并對文檔進(jìn)行結(jié)構(gòu)分析,分別判斷文檔各節(jié)點(diǎn)是否在結(jié)構(gòu)樹中已存在,如果結(jié)構(gòu)樹中還沒有該節(jié)點(diǎn)信息,則需要給結(jié)構(gòu)樹添加該節(jié)點(diǎn)信息,并給節(jié)點(diǎn)一個(gè)唯一標(biāo)識(shí)號(hào);第二、如果當(dāng)前分析的節(jié)點(diǎn)包含子節(jié)點(diǎn),則繼續(xù)分析其第一個(gè)子節(jié)點(diǎn),直到不包含子節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn);如果當(dāng)前節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn),則對數(shù)據(jù)節(jié)點(diǎn)的文字段進(jìn)行分詞,并根據(jù)所處的節(jié)點(diǎn)位置,形成結(jié)構(gòu)向量的一個(gè)分量;第三、如果該文字段包含鏈接信息,則讀入其鏈接資源,并獲取其鏈接資源的結(jié)構(gòu)向量;第四、分析器繼續(xù)找其下一個(gè)兄弟節(jié)點(diǎn)進(jìn)行分析,如果已不存在下一個(gè)兄弟節(jié)點(diǎn)則向上層回溯,找其父節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn),直到文檔分析結(jié)束;第五、將這一過程中的所有結(jié)構(gòu)向量的分量組合成為該文檔的結(jié)構(gòu)向量,將鏈接資源的結(jié)構(gòu)向量拼合成當(dāng)前文檔的鏈接向量,最后形成當(dāng)前文檔的結(jié)構(gòu)鏈接資源,輸入到挖掘模塊,進(jìn)行文本的挖掘分析。
本發(fā)明的效果在于針對了半結(jié)構(gòu)化文檔的特點(diǎn),提出一種新的對半結(jié)構(gòu)化文本挖掘的方法。該方法能有效地利用半結(jié)構(gòu)化文檔中的字詞信息、結(jié)構(gòu)信息與鏈接信息,并以統(tǒng)一的數(shù)學(xué)模型進(jìn)行表示,從而大大提高了挖掘的效果,該方法可廣泛應(yīng)用于智能信息處理領(lǐng)域。
圖1是本發(fā)明的流程圖。
圖2是文檔結(jié)構(gòu)樹示意圖;圖3是抽象的文檔結(jié)構(gòu)樹示意圖;具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明作進(jìn)一步地描述。我們選用了中國百科術(shù)語數(shù)據(jù)庫中的部分術(shù)語詞條文檔作為實(shí)施例數(shù)據(jù),每個(gè)術(shù)語詞條文檔是一個(gè)半結(jié)構(gòu)化XML文檔。
第一、如圖1所示,首先需要讀入文檔,并對文檔進(jìn)行結(jié)構(gòu)分析,如圖2所示。分別判斷文檔各節(jié)點(diǎn)是否在結(jié)構(gòu)樹中已存在,如果結(jié)構(gòu)樹中還沒有該節(jié)點(diǎn)信息,則需要給結(jié)構(gòu)樹添加該節(jié)點(diǎn)信息,并給節(jié)點(diǎn)一個(gè)唯一標(biāo)示號(hào),如圖3所示。
第二、如果當(dāng)前分析的節(jié)點(diǎn)包含子節(jié)點(diǎn),則繼續(xù)分析其第一個(gè)子節(jié)點(diǎn),直到不包含子節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn);如果當(dāng)前節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn),對數(shù)據(jù)節(jié)點(diǎn)的文字段進(jìn)行分詞,并根據(jù)所處的節(jié)點(diǎn)位置,形成結(jié)構(gòu)向量的一個(gè)分量;第三、如果該文字段包含鏈接信息,則讀入其鏈接資源,并獲取其鏈接資源的結(jié)構(gòu)向量;第四、分析器繼續(xù)找其下一個(gè)兄弟節(jié)點(diǎn)進(jìn)行分析,如果已不存在下一個(gè)兄弟節(jié)點(diǎn)則向上層回溯,找其父節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn),直到文檔分析結(jié)束;第五、將這一過程中的所有結(jié)構(gòu)向量分支組合成為該文檔的結(jié)構(gòu)向量,將鏈接資源的結(jié)構(gòu)向量拼合成當(dāng)前文檔的鏈接資源,最后形成當(dāng)前文檔的結(jié)構(gòu)鏈接資源,輸入到K-Means聚類模塊(數(shù)據(jù)挖掘模塊的一種),進(jìn)行文本的挖掘分析。
為了驗(yàn)證本發(fā)明的有效性,我們采用基于現(xiàn)有向量空間模型TFIDF與本發(fā)明提出的基于結(jié)構(gòu)鏈接向量模型SLVM的方法進(jìn)行了對比試驗(yàn)。聚類質(zhì)量的評價(jià)算法采用由Bjorner Larsen等人提出的F measure算法,其F值越接近1,表明聚類效果越好。試驗(yàn)結(jié)果如表1所示。
實(shí)驗(yàn)表明采用傳統(tǒng)的方法,其F值落在0.65~0.73之間;而采用本發(fā)明提出的方法,由于充分利用了文檔中的結(jié)構(gòu)信息與鏈接信息,聚類結(jié)果的F值提高到0.82~0.86。
表1 聚類對比實(shí)驗(yàn)結(jié)果
權(quán)利要求
1.一種對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法,包括以下步驟第一、讀入文檔,并對文檔進(jìn)行結(jié)構(gòu)分析,分別判斷文檔各節(jié)點(diǎn)是否在結(jié)構(gòu)樹中已存在,如果結(jié)構(gòu)樹中還沒有該節(jié)點(diǎn)信息,則需要給結(jié)構(gòu)樹添加該節(jié)點(diǎn)信息,并給節(jié)點(diǎn)一個(gè)唯一標(biāo)識(shí)號(hào);第二、如果當(dāng)前分析的節(jié)點(diǎn)包含子節(jié)點(diǎn),則繼續(xù)分析其第一個(gè)子節(jié)點(diǎn),直到不包含子節(jié)點(diǎn)的數(shù)據(jù)節(jié)點(diǎn);如果當(dāng)前節(jié)點(diǎn)為數(shù)據(jù)節(jié)點(diǎn),則對數(shù)據(jù)節(jié)點(diǎn)的文字段進(jìn)行分詞,并根據(jù)所處的節(jié)點(diǎn)位置,形成結(jié)構(gòu)向量的一個(gè)分量;第三、如果該文字段包含鏈接信息,則讀入其鏈接資源,并獲取其鏈接資源的結(jié)構(gòu)向量;第四、分析器繼續(xù)找其下一個(gè)兄弟節(jié)點(diǎn)進(jìn)行分析,如果已不存在下一個(gè)兄弟節(jié)點(diǎn)則向上層回溯,找其父節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn),直到文檔分析結(jié)束;第五、將這一過程中的所有結(jié)構(gòu)向量的分量組合成為該文檔的結(jié)構(gòu)向量,將鏈接資源的結(jié)構(gòu)向量拼合成當(dāng)前文檔的鏈接向量,最后形成當(dāng)前文檔的結(jié)構(gòu)鏈接資源,輸入到挖掘模塊,進(jìn)行文本的挖掘分析。
全文摘要
本發(fā)明屬于智能信息處理技術(shù),具體涉及一種對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘的方法。本發(fā)明針對現(xiàn)有的文本挖掘處理半結(jié)構(gòu)化文檔集存在的挖掘效果差的缺陷,提出了一種針對半結(jié)構(gòu)化文檔的結(jié)構(gòu)鏈接向量模型的挖掘方法。它能夠綜合利用半結(jié)構(gòu)化文檔中的字詞信息、結(jié)構(gòu)信息與鏈接信息,并以統(tǒng)一的數(shù)學(xué)模型進(jìn)行表示。采用該模型對半結(jié)構(gòu)化文檔集進(jìn)行文本挖掘,由于充分的利用了半結(jié)構(gòu)化文檔中的結(jié)構(gòu)信息與鏈接信息,挖掘效果大大改進(jìn)。本方法可廣泛地應(yīng)用于智能信息處理。
文檔編號(hào)G06F17/21GK1399228SQ0212904
公開日2003年2月26日 申請日期2002年8月29日 優(yōu)先權(quán)日2002年8月29日
發(fā)明者楊建武, 陳曉鷗, 吳於茜, 萬小軍, 王選, 陳堃銶 申請人:北京北大方正技術(shù)研究院有限公司, 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所