專利名稱:一種中文文本數(shù)據(jù)聚類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種中文文本數(shù)據(jù)聚類法及系統(tǒng)。
背景技術(shù):
在數(shù)據(jù)挖掘領(lǐng)域中,已有的聚類算法主要有以下幾類,包括層次聚類,在線聚類,基于圖論方法的聚類,基于成分分析的聚類等。在聚類過(guò)程中需要對(duì)全部數(shù)據(jù)進(jìn)行逐條計(jì)算及分析,并且相似性計(jì)算函數(shù)較為復(fù)雜,算法時(shí)間復(fù)雜度高。對(duì)于I千萬(wàn)條以上的數(shù)據(jù),聚類的空間復(fù)雜度也非常高。海量文本信息的聚類是一個(gè)挑戰(zhàn)。已有的聚類算法大都還只是停留在實(shí)驗(yàn)室階段,且實(shí)驗(yàn)時(shí)使用的數(shù)據(jù)集合過(guò)于局限。對(duì)于海量的數(shù)據(jù)的處理,很多算法處理效率很低。K-means算法的工作原理:算法首先隨機(jī)從數(shù)據(jù)集中選取K個(gè)點(diǎn)作為初始聚類中心,然后計(jì)算各個(gè)樣本到聚類中的距離,把樣本歸到離它最近的那個(gè)聚類中心所在的類。計(jì)算新形成的每一個(gè)聚類的數(shù)據(jù)對(duì)象的平均值來(lái)得到新的聚類中心,如果相鄰兩次的聚類中心沒(méi)有任何變化,說(shuō)明樣本調(diào)整結(jié)束,聚類準(zhǔn)則函數(shù)已經(jīng)收斂。本算法的一個(gè)特點(diǎn)是在每次迭代中都要考察每個(gè)樣本的分類是否正確。若不正確,就要調(diào)整,在全部樣本調(diào)整完后,再修改聚類中心,進(jìn)入下一次迭代。如果在一次迭代算法中,所有的樣本被正確分類,則不會(huì)有調(diào)整,聚類中心也不會(huì)有任何變化,這標(biāo)志著已經(jīng)收斂,因此算法結(jié)束。K-means算法的缺點(diǎn)包括:1.需事先給出K的值,對(duì)于實(shí)際情況,K的值是極其難以估計(jì)的。2.首先需要根據(jù)初始聚類中心來(lái)確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化。這個(gè)初始聚類中心的選擇對(duì) 聚類結(jié)果有較大的影響,一旦初始值選擇的不好可能無(wú)法得到有效的聚類結(jié)果。這也成為K-means算法的一個(gè)主要問(wèn)題。3.從K-means算法框架可以看出,該算法需要不斷地進(jìn)行樣本分類調(diào)整不斷地計(jì)算調(diào)整后的新的聚類中心。因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開銷是非常大的。上述聚類實(shí)現(xiàn)方法,對(duì)于少量樣本,可以方便地在單機(jī)上實(shí)現(xiàn)。但對(duì)于海量樣本而言,一方面由于單機(jī)內(nèi)存容量有限,不可能讀入海量的樣本數(shù)據(jù);另一方面,由于聚類過(guò)程中需要進(jìn)行聚類中心點(diǎn)的多輪更新計(jì)算過(guò)程,處理時(shí)間很長(zhǎng),在實(shí)際的數(shù)據(jù)業(yè)務(wù)應(yīng)用中,效率很低。
發(fā)明內(nèi)容
針對(duì)以上所述的技術(shù)問(wèn)題,本發(fā)明提供了一種中文文本數(shù)據(jù)聚類方法及系統(tǒng),有效地提升處理效率,并盡可能地減少了空間消耗。 具體技術(shù)方案如下所示:一種中文文本數(shù)據(jù)聚類方法,所述文本數(shù)據(jù)具有多個(gè)維度,其中,包括:步驟I將每條所述文本數(shù)據(jù)進(jìn)行降維處理;步驟2將所述文本數(shù)據(jù)根據(jù)需要分成多批次;
步驟3對(duì)單批次中的文本數(shù)據(jù)根據(jù)文本相似性進(jìn)行聚類操作;步驟4完成所有批次各個(gè)批次之間的聚類操作,形成統(tǒng)一聚類。優(yōu)選的,所述步驟I中的降維處理包括:步驟a.選取特征字集合;步驟b.將每條所述文本數(shù)據(jù)比照所述特征字集合,統(tǒng)計(jì)在所述文本數(shù)據(jù)中出現(xiàn)的特征字,形成文本數(shù)據(jù)的特征集合;優(yōu)選的,所述步驟a中還包括:在所述特征字集合中對(duì)每個(gè)特征字編號(hào);所述步驟b中文本數(shù)據(jù)的特征集合,包括所述特征字在所述特征字集合中的特征
字編號(hào)。優(yōu)選的, 所述步驟3中還包括:步驟a.確定文本相似性閾值;步驟b.按照計(jì)算機(jī)系統(tǒng)讀取順序,將首次被聚類的文本數(shù)據(jù)作為首個(gè)初始聚類中心,并順序遍歷本批次內(nèi)的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較;步驟c.將文本相似性值與所述閾值進(jìn)行比較,如果符合閾值判斷,則將與初始聚類中心相似的文本數(shù)據(jù)聚為一類;步驟d.按照計(jì)算機(jī)系統(tǒng)讀取順序,將不符合閾值判斷的文本數(shù)據(jù)進(jìn)行首次聚類,作為新的初始聚類中心,并順序遍歷本批次內(nèi)其他不符合閾值判斷的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較;步驟e.迭代運(yùn)行步驟c和d,直到批次內(nèi)所有文本數(shù)據(jù)都被聚類,此時(shí)批次內(nèi)所有初始聚類中心都聚類完成;步驟f.將聚類操作完成批次的初始聚類中心存儲(chǔ)到數(shù)據(jù)庫(kù)中。優(yōu)選的,所述步驟4中還包括:步驟a.按讀取順序?qū)⒍嗯蔚奈谋緮?shù)據(jù)通過(guò)對(duì)各批次的初始聚類中心進(jìn)行文本相似性比較,在多批次之間合并聚類;步驟b.完成所有批次文本數(shù)據(jù)的合并聚類,形成統(tǒng)一的聚類。優(yōu)選的,所述步驟a中的多個(gè)批次之間的合并聚類為兩個(gè)批次之間的合并聚類;所述步驟b中的所有批次文本數(shù)據(jù)的組合合并聚類為兩兩合并聚類。優(yōu)選的,所述文本相似性通過(guò)&進(jìn)行比較;其中,i,j為文本數(shù)據(jù)的編號(hào);Ti為第i條文本數(shù)據(jù)的特征集合,Tj為第j條文本數(shù)據(jù)的特征集合;MTi)為Ti中特征字的個(gè)數(shù),f(Tj)為L(zhǎng)中特征字的個(gè)數(shù);Ti n Tj為Ti與Tj共有特征字的共有特征集合,f (Ti n Tj)為Ti與Tj共有特征字的字?jǐn)?shù);Sij為第i條文本數(shù)據(jù)與第j條文本數(shù)據(jù)的相似性值。一種中文文本數(shù)據(jù)聚類系統(tǒng),其中,包括:降維處理模塊,所述降維處理模塊用于根據(jù)選定的特征字集合,對(duì)每條文本數(shù)據(jù)統(tǒng)計(jì)出現(xiàn)的特征字,形成文本數(shù)據(jù)的特征集合;數(shù)據(jù)文本分批模塊,所述數(shù)據(jù)文本分批模塊用于對(duì)文本數(shù)據(jù)進(jìn)行分批處理;
聚類處理模塊,所述聚類處理模塊用于對(duì)單批次中的文本數(shù)據(jù)進(jìn)行聚類操作以及對(duì)各批次各個(gè)批次之間的合并聚類。優(yōu)選的,所述聚類處理模塊包括文本相似性計(jì)算單元,遍歷路徑控制單元,比較單元;所述文本相似性計(jì)算單元用于通過(guò)文本相似性計(jì)算公式計(jì)算文本相似性值,所
述文本相似性計(jì)算公式為AH).,其中,i,j為文本數(shù)據(jù)的編號(hào)Ji為第i條文
HTi) f (Tj)
本數(shù)據(jù)的特征集合,L為第j條文本數(shù)據(jù)的特征集合;f (Ti)為Ti中特征字的個(gè)數(shù),f (τρ為Tj中特征字的個(gè)數(shù);Ti n Tj為Ti與L共有特征字的共有特征集合,f (Ti n Tj)為Ti與Tj共有特征字的字?jǐn)?shù);su為第i條文本數(shù)據(jù)與第j條文本數(shù)據(jù)的相似性值;所述比較單元用于將文本相似性值與設(shè)定的閾值比較,進(jìn)行閾值比較判定;所述遍歷路徑控制單元用于按照計(jì)算機(jī)系統(tǒng)讀取順序,將首次被聚類的文本數(shù)據(jù)作為首個(gè)初始聚類中心,并順序遍歷本批次內(nèi)的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較;以及將不符合閾值判斷的文本數(shù)據(jù)進(jìn)行首次聚類,并順序遍歷本批次內(nèi)其他不符合閾值判斷的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較,直到批次內(nèi)所有文本數(shù)據(jù)都被聚類;以及將多批次的文本數(shù)據(jù)通過(guò)對(duì)各批次的初始聚類中心進(jìn)行文本相似性比較,在多批次之間合并聚類,并完成所有批次文本數(shù)據(jù)的合并聚類。本發(fā)明的有益效果是:通過(guò)對(duì)文本數(shù) 據(jù)的降維操作和批次處理,有效地提高了系統(tǒng)運(yùn)行速度和效率,減少了空間開銷。解決了大規(guī)模中文文本的聚類的處理效率問(wèn)題以及空間占用量大的性能問(wèn)題。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一種中文文本數(shù)據(jù)聚類方法實(shí)施例的流程示意圖;圖2為本發(fā)明一種中文文本數(shù)據(jù)聚類系統(tǒng)實(shí)施例的結(jié)構(gòu)模塊圖;圖3為本發(fā)明一種中文文本數(shù)據(jù)聚類方法實(shí)施例的測(cè)試效果圖。
具體實(shí)施例方式下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明,但不作為本發(fā)明的限定。如圖1所示,為本發(fā)明一種中文文本數(shù)據(jù)聚類方法的實(shí)施例的流程示意圖,其中包括:步驟1.選取特征字集合,在特征字集合中對(duì)每個(gè)特征字編號(hào);例如,取3500個(gè)常用漢字有3500個(gè),并且為之編號(hào)。該3500個(gè)漢字為預(yù)先制定的,所有文本的聚類分析都以這3500個(gè)漢字特征字為標(biāo)準(zhǔn)。步驟2.將每條文本數(shù)據(jù)比照特征字集合,統(tǒng)計(jì)在文本數(shù)據(jù)中出現(xiàn)的特征字,形成每條文本數(shù)據(jù)的特征集合;每條文本數(shù)據(jù)的特征集合,包括特征字在特征字集合中的特征字編號(hào);本步驟的目的是將單批數(shù)據(jù)讀入內(nèi)存后,對(duì)于讀入內(nèi)存的所有中文文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,即通過(guò)聚類相似性判定方式中的降維方式進(jìn)行處理,將文本轉(zhuǎn)換成漢字特征集合。
搜集每篇文本中出現(xiàn)的常用漢字特征字,如果漢字特征字重復(fù)出現(xiàn),則只搜集一次。搜集后的漢字集合中沒(méi)有重復(fù)元素。該漢字編號(hào)集合即為文本的特征集合,記為Tk (kO, 1,2,...)。例如:數(shù)據(jù)文本:我是中國(guó)人,則經(jīng)處理后的特征集合為T1 {1,2,3,6, 7}。
權(quán)利要求
1.一種中文文本數(shù)據(jù)聚類方法,所述文本數(shù)據(jù)具有多個(gè)維度,其特征在于,包括: 步驟I將每條所述文本數(shù)據(jù)進(jìn)行降維處理; 步驟2將所述文本數(shù)據(jù)根據(jù)需要分成多批次; 步驟3對(duì)單批次中的文本數(shù)據(jù)根據(jù)文本相似性進(jìn)行聚類操作; 步驟4完成所有批次各個(gè)批次之間的聚類操作,形成統(tǒng)一聚類。
2.如權(quán)利要求1所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述步驟I中的降維處理包括: 步驟a.選取特征字集合; 步驟b.將每條所述文本數(shù)據(jù)比照所述特征字集合,統(tǒng)計(jì)在所述文本數(shù)據(jù)中出現(xiàn)的特征字,形成文本數(shù)據(jù)的特征集合。
3.如權(quán)利要求2所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述步驟a中還包括:在所述特征字集合中對(duì)每個(gè)特征字編號(hào); 所述步驟b中文本數(shù)據(jù)的特征集合,包括所述特征字在所述特征字集合中的特征字編號(hào)。
4.如權(quán)利要求3所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述步驟3中還包括: 步驟a.確定文本相似性閾值; 步驟b.按照計(jì)算機(jī)系統(tǒng)讀取順序,將首次被聚類的文本數(shù)據(jù)作為首個(gè)初始聚類中心,并順序遍歷本批次內(nèi)的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較; 步驟c.將文本相似性值與所述閾值進(jìn)行比較,如果符合閾值判斷,則將與初始聚類中心相似的文本數(shù)據(jù)聚為一類; 步驟d.按照計(jì)算機(jī)系統(tǒng)讀取順序,將不符合閾值判斷的文本數(shù)據(jù)進(jìn)行首次聚類,作為新的初始聚類中心,并順序遍歷本批次內(nèi)其他不符合閾值判斷的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較; 步驟e.迭代運(yùn)行步驟c和d,直到批次內(nèi)所有文本數(shù)據(jù)都被聚類,此時(shí)批次內(nèi)所有初始聚類中心都聚類完成; 步驟f.將聚類操作完成批次的初始聚類中心存儲(chǔ)到數(shù)據(jù)庫(kù)中。
5.如權(quán)利要求4所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述步驟4中還包括: 步驟a.按讀取順序?qū)⒍嗯蔚奈谋緮?shù)據(jù)通過(guò)對(duì)各批次的初始聚類中心進(jìn)行文本相似性比較,在多批次之間合并聚類; 步驟b.完成所有批次文本數(shù)據(jù)的合并聚類,形成統(tǒng)一的聚類。
6.如權(quán)利要求5所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述步驟a中的多個(gè)批次之間的合并聚類為兩個(gè)批次之間的合并聚類; 所述步驟b中的所有批次文本數(shù)據(jù)的組合合并聚類為兩兩合并聚類。
7.如權(quán)利要求4或5所述的中文文本數(shù)據(jù)聚類方法,其特征在于, 所述文本相似性通過(guò)
8.一種中文文本數(shù)據(jù)聚類系統(tǒng),其特征在于,包括: 降維處理模塊,所述降維處理模塊用于根據(jù)選定的特征字集合,對(duì)每條文本數(shù)據(jù)統(tǒng)計(jì)出現(xiàn)的特征字,形成文本數(shù)據(jù)的特征集合; 數(shù)據(jù)文本分批模塊,所述數(shù)據(jù)文本分批模塊用于對(duì)文本數(shù)據(jù)進(jìn)行分批處理; 聚類處理模塊,所述聚類處理模塊用于對(duì)單批次中的文本數(shù)據(jù)進(jìn)行聚類操作以及對(duì)各批次各個(gè)批次之間的合并聚類。
9.如權(quán)利要求8所述的中文文本數(shù)據(jù)聚類系統(tǒng),其特征在于, 所述聚類處理模塊包括文本相似性計(jì)算單元,遍歷路徑控制單元,比較單元; 所述文本相似性計(jì)算單元用于通過(guò)文本相似性計(jì)算公式計(jì)算文本相似性值,所述文本f(r.ητ)相似性計(jì)算公式力s,其中,i,j為文本數(shù)據(jù)的編號(hào)為第i條文本數(shù)據(jù)的特征集合,Tj為第j條文本數(shù)據(jù)的特征集合;f (Ti)為Ti中特征字的個(gè)數(shù),f(Tj)為Tj中特征字的個(gè)數(shù);Ti n Tj為Ti與L共有特征字的共有特征集合,f(Ti n Tj)為Ti與L共有特征字的字?jǐn)?shù);su為第i條文本數(shù)據(jù)與第j條文本數(shù)據(jù)的相似性值; 所述比較單元用于將文本相似性值與設(shè)定的閾值比較,進(jìn)行閾值比較判定; 所述遍歷路徑控制單元用于按照計(jì)算機(jī)系統(tǒng)讀取順序,將首次被聚類的文本數(shù)據(jù)作為首個(gè)初始聚類中心,并順序遍歷本批次內(nèi)的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較;以及將不符合閾值判斷的文本數(shù)據(jù)進(jìn)行首 次聚類,并順序遍歷本批次內(nèi)其他不符合閾值判斷的文本數(shù)據(jù),兩兩進(jìn)行文本相似性比較,直到批次內(nèi)所有文本數(shù)據(jù)都被聚類;以及將多批次的文本數(shù)據(jù)通過(guò)對(duì)各批次的初始聚類中心進(jìn)行文本相似性比較,在多批次之間合并聚類,并完成所有批次文本數(shù)據(jù)的合并聚類。
全文摘要
本發(fā)明公開了一種中文文本數(shù)據(jù)聚類方法及系統(tǒng),屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域其中,包括步驟1將每條所述文本數(shù)據(jù)進(jìn)行降維處理;步驟2將所述文本數(shù)據(jù)根據(jù)需要分成多批次;步驟3對(duì)單批次中的文本數(shù)據(jù)根據(jù)文本相似性進(jìn)行聚類操作;步驟4完成所有批次批次之間的聚類操作,形成統(tǒng)一聚類。所述步驟1中的降維操作包括步驟a.選取特征字集合;步驟b.將每條所述文本數(shù)據(jù)比照所述特征字集合,統(tǒng)計(jì)在所述文本數(shù)據(jù)中出現(xiàn)的特征字,形成文本數(shù)據(jù)的特征集合。本發(fā)明的有益效果是通過(guò)對(duì)文本數(shù)據(jù)的降維操作和批次處理,有效地提高了系統(tǒng)運(yùn)行速度和效率,減少了空間開銷。解決了大規(guī)模中文文本的聚類的處理效率問(wèn)題以及空間占用量大的性能問(wèn)題。
文檔編號(hào)G06F17/30GK103218435SQ20131013040
公開日2013年7月24日 申請(qǐng)日期2013年4月15日 優(yōu)先權(quán)日2013年4月15日
發(fā)明者趙旭 申請(qǐng)人:上海嘉之道企業(yè)管理咨詢有限公司