本發(fā)明涉及基于集成層次聚類的文本知識合成的方法的數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及集成多個文本集合內(nèi)的詞的層次聚類結(jié)果的方法。
背景技術(shù):
詞作為描述文本的基本單元,是對非結(jié)構(gòu)化文本進行結(jié)構(gòu)化描述的基本方法。通常一類文本中出現(xiàn)過的詞,是對這個類別的知識信息進行結(jié)構(gòu)化描述的基本要素。一組(對)詞語共同出現(xiàn)在一類文章中的次數(shù),代表了這組(對)詞語在該類別下的相關(guān)程度。在很多情況下,對一個文本集合下的各個詞語進行層次聚類得到的樹狀結(jié)構(gòu)圖,蘊含了該文檔集合的重要信息。這樣的樹狀結(jié)構(gòu)在信息檢索領(lǐng)域中對提升垂直搜索引擎(verticalsearchengine)的精度、提高開發(fā)定向爬蟲(focusedcrawler)的效率都有很重要的作用。在實際應用中,對文本的分類方式復雜多變,每個類別下的文檔集合都可以產(chǎn)生一個詞的層次聚類結(jié)果。然而,在目前的文本分析和信息檢索方向上,尚沒有利用集成層次聚類合成多個領(lǐng)域知識的方法。
綜上所述,本申請發(fā)明人在實現(xiàn)本申請發(fā)明技術(shù)方案的過程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問題:
在現(xiàn)有技術(shù)中,現(xiàn)有的數(shù)據(jù)挖掘中的層次聚類分析方法,只是獲得多個層次聚類結(jié)果,但是并沒有進行有效的合成利用,存在不能夠?qū)Σ煌膶蛹壘垲惤Y(jié)果進行有效處理,不能夠集成不同的層級聚類結(jié)果,并進行有效的合成利用的技術(shù)問題。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種基于集成層次聚類的文本知識合成的方法,解決了現(xiàn)有的數(shù)據(jù)挖掘中的層次聚類分析方法存在不能夠?qū)Σ煌膶蛹壘垲惤Y(jié)果進行有效處理,不能夠集成不同的層級聚類結(jié)果,并進行有效的合成利用的技術(shù)問題,實現(xiàn)了能高效對多個類別的知識進行集成,對文本挖掘、信息檢索提供有效支撐的技術(shù)效果。
隨著應用場景的變化,對于不同的層級聚類結(jié)果就有了如何組合、分離、更新的需求,因此需要開發(fā)出一種能夠動態(tài)地對多個層次聚類結(jié)果進行集成的方法。
數(shù)據(jù)挖掘中的層次聚類分析已經(jīng)廣泛應用于建立領(lǐng)域知識、形成樹狀知識圖的有效方法。層次聚類的結(jié)果對于保存知識信息有如下好處:1.一個領(lǐng)域(類別)下的文本集合都可以生成一個層次聚類結(jié)果;2.該結(jié)果保存了詞-詞相似度;3.可在任意層級進行切分,便于發(fā)現(xiàn)潛在的子分類。考慮到領(lǐng)域知識對于文本分析的重要性以及詞-詞距離對于文本分析的重要性,當有多個層次聚類結(jié)果需要集成時,如何評估集成后的詞-詞相似度,和如何在集成后同樣得到一個層次聚類的結(jié)果,是利用好多領(lǐng)域知識的關(guān)鍵。
為解決上述技術(shù)問題,本申請?zhí)峁┝艘环N基于集成層次聚類的文本知識合成的方法,所述方法包括:
步驟一,對文本數(shù)據(jù)集合進行結(jié)構(gòu)化處理,產(chǎn)生一個詞文本矩陣;
步驟二,從詞文本矩陣中分離不同分類標準下的文本向量,并對對應的詞文本矩陣分別進行層次聚類,得到多個基于詞的層次聚類結(jié)果;
步驟三,對各層次聚類結(jié)果進行ultra-metric轉(zhuǎn)換,得到多個滿足ultra-metricity的距離矩陣;
步驟四,對任意一組或全部的步驟3轉(zhuǎn)換后的層次聚類結(jié)果進行集成,得到統(tǒng)一的層次聚類結(jié)果。(對轉(zhuǎn)換后的結(jié)果進行集成,步驟三中得到的每一個距離矩陣就是對應一個待集成的層級聚類結(jié)果。)
進一步的,所述步驟一具體包括:
對文本數(shù)據(jù)集合進行結(jié)構(gòu)化處理,將文本中的特征詞作為描述文本特征,形成詞向量,每一篇文本用一個詞向量描述,整個文檔集合描述為一個詞文本矩陣,結(jié)構(gòu)化處理包括:分詞處理、去停用詞處理。(分詞處理是指將一個文本字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。)
進一步的,所述步驟二具體包括:
對文本數(shù)據(jù)集合中屬于不同類別的文本進行區(qū)分,形成s個文本子集合:d1,d2,…,ds屬于d;分別對d1,d2,…,ds計算詞與詞兩兩之間的距離,形成詞的距離矩陣:m1,m2,…,ms;在m上進行層次聚類得到h1,h2,…,hs。
進一步的,所述步驟三具體包括:
對s個層次聚類結(jié)果,選擇描述進行ultra-metric轉(zhuǎn)換,轉(zhuǎn)換后的詞與詞之間的距離具有ultra-metricity,滿足以下條件:
1)非負性:描述中的詞與詞之間的距離大于或等于0;
2)對稱性:dist(t1,t2)=dist(t2,t1);
3)ultra-metric不等性:dist(ti,tj)≤max(dist(ti,tk),dist(tj,tk))。
進一步的,所述步驟四具體包括:
對通過步驟三轉(zhuǎn)換得到的s個結(jié)果進行集成,通過基本的矩陣加法,得到一個集成矩陣,應用floyd-warshallalgorithm來計算最小轉(zhuǎn)移距離矩陣,輸出的結(jié)果矩陣滿足ultra-metricity,該輸出同時對應一個層次聚類的結(jié)果。
本申請?zhí)峁┑囊粋€或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:
與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果是:集成數(shù)據(jù)挖掘中層次聚類分析方法合成多個層次聚類結(jié)果,得到一個集成的層次聚類結(jié)果,填補了自動集成多領(lǐng)域知識方法的空白,實現(xiàn)了能高效對多個類別的知識進行集成,對文本挖掘、信息檢索提供有效支撐的技術(shù)效果。
附圖說明
此處所說明的附圖用來提供對本發(fā)明實施例的進一步理解,構(gòu)成本申請的一部分,并不構(gòu)成對本發(fā)明實施例的限定;
圖1是本申請中基于集成層次聚類的文本知識合成的方法的流程示意圖。
具體實施方式
本發(fā)明提供了一種基于集成層次聚類的文本知識合成的方法,解決了現(xiàn)有的數(shù)據(jù)挖掘中的層次聚類分析方法存在不能夠?qū)Σ煌膶蛹壘垲惤Y(jié)果進行有效處理,不能夠集成不同的層級聚類結(jié)果,并進行有效的合成利用的技術(shù)問題,實現(xiàn)了能高效對多個類別的知識進行集成,對文本挖掘、信息檢索提供有效支撐的技術(shù)效果。
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進行進一步的詳細描述。需要說明的是,在相互不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述范圍內(nèi)的其他方式來實施,因此,本發(fā)明的保護范圍并不受下面公開的具體實施例的限制。
請參考圖1,本申請?zhí)峁┝艘环N基于層次聚類的文本知識合成的方法,包括如下步驟:步驟一,對全文本集合進行結(jié)構(gòu)化處理,產(chǎn)生一個統(tǒng)一的全局詞向量,每一個文本都可以用一個詞向量表示(詞是否出現(xiàn)在該文本中、出現(xiàn)的次數(shù)等),進而得到一個詞文本矩陣;步驟二,根據(jù)不同類別的文本,從詞文本矩陣中得到各個類別的子矩陣,在各類別的子矩陣上進行層次聚類;步驟三,對各層次聚類結(jié)果進行ultra-metric轉(zhuǎn)換,得到多個滿足ultra-metricity的距離矩陣;步驟四,對任意幾個或全部領(lǐng)域的層次聚類結(jié)果進行集成,得到一個合成的層次聚類結(jié)果。層次聚類的結(jié)果以樹狀結(jié)構(gòu)進行呈現(xiàn),葉子節(jié)點是在文本中出現(xiàn)的詞,各個中間節(jié)點的高度代表下級節(jié)點之間的關(guān)聯(lián)程度,是作為知識管理的主要表達方式。利用數(shù)據(jù)挖掘中層次聚類方法,通過集成層次聚類結(jié)果,得到一個層次聚類,能高效對多個類別的知識進行集成,對文本挖掘、信息檢索提供有效支撐。
其中,本申請中的基于集成層次聚類的文本知識合成的方法為對詞距離矩陣進行累加,并在累加矩陣上進行ultra-metric轉(zhuǎn)換,使得合成后的距離矩陣是一個ultra-metric;基于合成后的ultra-metric復原一個對應的層次聚類結(jié)果。
步驟四所述的集成方法可以進行個性化的定制,即確定各個層次聚類結(jié)果對于累加為一個距離矩陣的權(quán)重:(1)在默認情況下,各個層次聚類得到的詞距離矩陣可進行普通pair-wise的累加:(2)在個性化場景下,可以對部分層次聚類得到的詞距離矩陣施加不同的權(quán)重,從而影響最終的集成矩陣:
其中,本申請中的利用集成聚類方法合成多層次聚類結(jié)果的合成領(lǐng)域知識的方法,具體包括:
(1)原始數(shù)據(jù)來源為本文集合,可以是經(jīng)第三方采集清洗的文本集合,也可以是任何內(nèi)部、自定義的文本集合。
(2)分詞和去停用詞依賴于詞庫和經(jīng)驗知識。
(3)層次聚類結(jié)果被用于對文檔集合中的知識信息進行有效組織,通過集成層次聚類達到合成來自多個文檔集合的知識信息的目的。定義d={d1,d2,…,dn}代表包含n個文本的文本集合,dn代表一個文本。t={t1,t2,…,tm}代表m個出現(xiàn)在d中的詞。
定義dist(t1,t2)代表詞1和詞2的距離,比如,非共同出現(xiàn)在d中的次數(shù)。
具體步驟如下:
步驟一,對文本數(shù)據(jù)集合進行結(jié)構(gòu)化處理,產(chǎn)生一個詞文本矩陣。比如:
通過分詞、去停用詞等方法,將文本中具有意義和代表性的詞作為描述文本特征,形成詞向量,每一篇文本都可以用一個向量描述,整個文檔集合可以描述一個詞-文本矩陣。
步驟二,分離不同分類標準下的文本向量,并分別進行層次聚類:
對文本集合中屬于不同類別的文本進行區(qū)分,形成s個文本子集合,d1,d2,…,ds屬于d。分別對d1,d2,…,ds計算詞與詞兩兩之間的距離,形成詞的距離矩陣,m1,m2,…,ms。在m上進行層次聚類得到h1,h2,…,hs;
步驟三,對任意一組或全部的層次聚類結(jié)果進行集成,得到統(tǒng)一的層次聚類結(jié)果:
對s個層次聚類結(jié)果,選擇描述(descriptor)進行ultra-metric轉(zhuǎn)換,轉(zhuǎn)換后的詞詞距離具有ultra-metricity,即1)非負性:描述中的詞詞距離大于或等于0;2)對稱性:dist(t1,t2)=dist(t2,t1);3)ultra-metric不等性:dist(ti,tj)≤max(dist(ti,tk),dist(tj,tk))。
其中一種轉(zhuǎn)換方式為copheneticdifference轉(zhuǎn)換,即兩個詞(葉子節(jié)點)的距離被轉(zhuǎn)換為:包含兩個葉子節(jié)點的中間節(jié)點的高度。此外還有,maximumedgedistance,partitionmembershipdivergence,clustermembershipdivergence等ultra-metric轉(zhuǎn)換方式。
步驟四,對通過以上轉(zhuǎn)換步驟得到的s個結(jié)果進行集成,這里通過基本的矩陣加法,得到一個集成矩陣,這個矩陣還不是一個ultra-metric,需要應用floyd-warshallalgorithm來計算最小轉(zhuǎn)移距離矩陣(minimumtransitivedissimilaritymatrixclosure),輸出的結(jié)果矩陣滿足ultra-metricity。該輸出也同時對應一個層次聚類的結(jié)果。
上述本申請實施例中的技術(shù)方案,至少具有如下的技術(shù)效果或優(yōu)點:
與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果是:集成數(shù)據(jù)挖掘中層次聚類分析方法合成多個層次聚類結(jié)果,得到一個集成的層次聚類結(jié)果,填補了自動集成多領(lǐng)域知識方法的空白,實現(xiàn)了能高效對多個類別的知識進行集成,對文本挖掘、信息檢索提供有效支撐的技術(shù)效果。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。