專利名稱:大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及信息技術領域中一種利用外部存儲器進行大規(guī)模文本數(shù)據(jù)聚類 的方法及實現(xiàn),基于檢索技術的外部文檔聚類方法,克服現(xiàn)有方法在處理問題規(guī) 模和時間上的不足的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。 -
背景技術:
近10年,以信息為基礎的組織或知識型企業(yè)煥發(fā)勃勃生機,創(chuàng)造和傳播知 識己經(jīng)成為檢驗企業(yè)核心能力的關鍵要素,知識的創(chuàng)造和應用能力成為不折不 扣的企業(yè)核心競爭力的強力支撐。知識除儲存于員工的大腦中外,還根植于企 業(yè)長期積累的各種文檔,以及其他應用系統(tǒng)的數(shù)據(jù)當中。如何在企業(yè)龐雜的信 息數(shù)據(jù)中挖掘出知識,則首先需要將數(shù)據(jù)歸類分析,本發(fā)明則是其中一種歸類方 法——聚類。聚類是按照事物的某些屬性、特征把事物聚集成類,使得類間的 相似性最小,類內(nèi)的相似性盡量大。由于聚類是一種無指導的學習方法,無需 -耗費大量的人力、物力,因此文本的自動聚類技術已成為最有效的突破信息處 理的最主要手段。例如,基于聚類技術的搜索引擎,通過聚類技術可以對每個 用戶的檢索結(jié)果進行歸類,當用戶檢索"軟件"時,可以將結(jié)果歸類為"病毒"、 "辦公"等類別,這樣用戶可以更系統(tǒng)地掌握、分析檢索結(jié)果。聚類能夠消耗大量存儲器和處理器資源,因為每個數(shù)據(jù)必須和其它數(shù)據(jù)逐 一比較,以便識別數(shù)據(jù)間的類別關系。然而隨著數(shù)據(jù)的不斷積累,處理數(shù)據(jù)的 規(guī)模成為了現(xiàn)有的聚類系統(tǒng)的最主要問題。參考文獻中有涉及一些處理規(guī)模較大的方法,如CURE和CURD, CURE是一種自底向上的層次聚類算法,首先將輸 -入的每個點作為一個聚類,然后合并相似的聚類,直到聚類的個數(shù)為k時為止。 在CURE中指出,基于中心點的方法和所有的點的距離計算方法都不適合非球形 或任意形狀的聚類,因此CURE采用了折衷的方法,即用固定數(shù)目的點表示一個 聚類,從而提高了算法挖掘任意形狀的聚類的能力。CURE算法的時間復雜性為 0(n*n)(低維數(shù)據(jù))和0(r^r^logn)(高維數(shù)據(jù)),算法在處理大量數(shù)據(jù)時必須基于抽樣、劃分等技術。CURD算法受CURE算法的啟發(fā),不同的是采用了密度的方法 屏蔽異常數(shù)據(jù)(噪音)對算法的影響,具有和K-MEANS算法相同的時間復雜性,效率較高。由此可以看到現(xiàn)有的方法,只是在通過一種縮減的手段,利用少數(shù)的特點 來代替大規(guī)模數(shù)據(jù)。但往往為了保證系統(tǒng)的性能,其選擇的代表點不能過少, 因此從本質(zhì)上上述方法還是沒有解決由于處理規(guī)模的空間復雜度而造成的不可 計算問題。因此研制一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)是國內(nèi)外急需 -解決的新課題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種新的利用外存進行聚類方法,在確??臻g復雜度 較低的前提下,利用最少的內(nèi)、外存交互,實現(xiàn)一個處理數(shù)據(jù)規(guī)模大,執(zhí)行效 率高的聚類方法,對海量的雜亂的非結(jié)構(gòu)化數(shù)據(jù),進行有用資源正確提取,標明 屬性,抽象特征,區(qū)分類別,使資源重新有序化,并實現(xiàn)跨來源、跨類別的廣 泛關聯(lián)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)。本發(fā)明的目的是這樣實現(xiàn)的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),方法'的主要歩驟包括對輸入文本集的預處理,生成文本集的倒排索引和特征向量;采用檢索技術檢索每一文檔的候選關系集合;利用關系計算方法對有候選關系的文檔進行關系計算;排序輸出大于一定閾值的計算結(jié)果;聚類算法再依照排序結(jié)果,反復迭代合并具有第一直接關系的文本對,最終達到對文本集合的聚類輸出;大規(guī)模文本數(shù)據(jù)的外部聚類方法設計的聚類系統(tǒng),包括一候選分析器、關系生成器、關系選取和聚類部件,聚類的基本過程,首先每個樣本點都作為一個簇,通過檢索技術為每個樣本挑選出候選的具有聯(lián)系的候選點集合,而后利'用關系生成器計算樣本與候選關系樣本間的關系,并按遞增/遞減順序輸出到外部存儲空間,然后在關系選取和聚類部件的控制下在外部存儲中反復地對樣本關系文件進行刪除合并,直到關系文件為空;基于文本檢索技術的樣本關系候選計算方法,該方法通過對描述數(shù)據(jù)的特征建立倒排索引,然后對于每一樣本 '都檢索出與其有共同特征的樣本作為候選樣本集合;聚類是一種消耗大量存儲 器和處理器資源的方法,因為每個樣本必須和其它樣本進行逐一比較,以便識 別出樣本間的類別關系;利用高效的倒排檢索技術可以最大程度地減少樣本關 系計算中所占用的存儲器和處理器資源;這種過濾的過程可被稱為篩選, 一些 傳統(tǒng)聚類方法都有利用篩選,但是本發(fā)明中基于檢索技術的篩選尤其有效;當 所有樣本計算出候選關系序列后,便需要計算樣本與樣本間的關系,這里稱之 為距離或相似度;這個距離或相似度的值可以衡量兩個樣本的相似程度,是諸 '衡量兩個具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合;各樣本 間的距離或相似度通過一定閾值加以控制,如果距離/相似度低于/高于所對應 的閾值,則這個關系則被按升序或降序保存到關系文件中;這種按順序保存的 樣本關系可以減小其后的聚類中合并和選取的復雜度,減小磁盤交互帶來的時 間開銷;通過排序的關系文件進行外部聚類的方法,該方法每次從存儲于外存 的關系文件依次合并具有最先關系的樣本,而后在合并的基礎對現(xiàn)有關系進行 裁剪;當關系文件為空時聚類過程結(jié)束,并將合并樣本集合作為結(jié)果進行輸出。本發(fā)明的要點在-f它的聚類方法及系統(tǒng)。iri:作原理足,采用自然語言處理技術對文本進行處理生成可計算的數(shù)據(jù)格式,并存儲于計算的外部儲存器中 構(gòu)成文檔庫,并通過檢索技術建立索引庫。對于每一文本都通過篩選器,檢索 出與其有共同特征的樣本作為候選樣本集合,縮小文本間相似/相關度計算的空 間,原始的計算頻度由Wn/2,變化為n*k,其中k《n/2。在文本相似度計算的候選空間中可以通過現(xiàn)有的文本相似度計算方法對文本間的關系進行量化,并 保證其關系量化的數(shù)值在0到1之間。同時為了確保排序算法的時間復雜度, 根據(jù)數(shù)據(jù)規(guī)模大小在設定不同區(qū)間m (m〉0)將文本關系劃分到不同的外部關系 文件中。同時采用哈希排序的方法,對每個外部關系文件進行遞增排序,并合并存儲于外部關系文件中。最后針對該排序的數(shù)據(jù)關系文件,采用本發(fā)明的聚 類算法,耗費最少的I/O交互,并且占用較小的內(nèi)存空間,實現(xiàn)數(shù)據(jù)的聚類處理。大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng)與現(xiàn)有技術相比,具有構(gòu)思新穎科 學,聚類過程占用空間小,執(zhí)行效率高,適用于大規(guī)模文檔的聚類,使用成本 低、容量大的外部存儲器,對處理過程進行分化處理等優(yōu)點,將廣泛地應用于 信息技術領域中。
下面結(jié)合附圖及實施例對本發(fā)明進行詳細說明。 圖l是本發(fā)明的一個聚類過程說明原理圖。圖2是本發(fā)明的外部聚類算法每次的數(shù)據(jù)合并流程原理圖。圖3是本發(fā)明的聚類系統(tǒng)中計算兩個樣本集合的空間距離說明原理圖。圖4是本發(fā)明的采用外部存儲的聚類系統(tǒng)原理圖。 圖5關系選擇和聚類部件的主要過程原理圖。
具體實施例方式參照附圖,大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),方法的主要步驟包括對輸入文本集的預處理,生成文本集的倒排索引和特征向量;采用檢索技術檢 索每一文檔的候選關系集合;利用關系計算方法對有候選關系的文檔進行關系 計算;排序輸出大于一定閾值的計算結(jié)果;聚類算法再依照排序結(jié)果,反復迭 代合并具有第一直接關系的文本對,最終達到對文本集合的聚類輸出;大規(guī)模 文本數(shù)據(jù)的外部聚類方法設計的聚類系統(tǒng),包括一候選分析器、關系生成器、 關系選取和聚類部件,聚類的基本過程,首先每個樣本點都作為一個簇,通過 檢索技術為每個樣本挑選出候選的具有聯(lián)系的候選點集合,而后利用關系生成 器計算樣本與候選關系樣本間的關系,并按遞增/遞減順序輸出到外部存儲空 間,然后在關系選取和聚類部件的控制下在外部存儲中反復地對樣本關系文件進行刪除合并,直到關系文件為空;基于文本檢索技術的樣本關系候選計算方 法,該方法通過對描述數(shù)據(jù)的特征建立倒排索引,然后對于每一樣本都檢索出 與其有共同特征的樣本作為候選樣本集合;聚類是一種消耗大量存儲器和處理器資源的方法,因為每個樣本必須和其它樣本進行逐一比較,以便識別出樣本間的類別關系;利用高效的倒排檢索技術可以最大程度地減少樣本關系計算中 所占用的存儲器和處理器資源;這種過濾的過程可被稱為篩選, 一些傳統(tǒng)聚類 方法都有利用篩選,但是本發(fā)明中基于檢索技術的篩選尤其有效;當所有樣本 計算出候選關系序列后,便需要計算樣本與樣本間的關系,這里稱之為距離或 相似度;這個距離或相似度的值可以衡量兩個樣本的相似程度,是諸衡量兩個 具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或組合;各樣本間的距離 或相似度通過一定閾值加以控制,如果距離/相似度低于/高于所對應的閾值, 則這個關系則被按升序或降序保存到關系文件中;這種按順序保存的樣本關系 可以減小其后的聚類中合并和選取的復雜度,減小磁盤交互帶來的時間開銷; 通過排序的關系文件進行外部聚類的方法,該方法每次從存儲于外存的關系文 件依次合并具有最先關系的樣本,而后在合并的基礎對現(xiàn)有關系進行裁剪;當 關系文件為空時聚類過程結(jié)束,并將合并樣本集合作為結(jié)果進行輸出。對本發(fā)明的實施加以詳細描述,參照附圖1描述了本發(fā)明中各層次模型的 組成,候選分析器4、關系生成器5、關系選取和聚類部件ll。其中關系生成器 的主要功能是計算數(shù)據(jù)間相互關系,是聚類算法的基礎。其內(nèi)部還包括文本處 理8和關系計算9兩部分,文本處理部分是將給定的文本集合生成可計算的模 型,如特征向量等;關系計算部分主要是在對文本進行特征表示的基礎上計 算兩個文本的相似度,如余弦夾角等。由于文本的相似度計算時間復雜度較 高,因此需要與候選分析器結(jié)合。候選分析器是關系生成器的補充和改善,主 要通過高效的檢索器6將特征表示后的文本進行檢索處理,粗略地為每個文本選擇相關數(shù)據(jù)集。由此,關系生成器在候選分析器給定的候選集內(nèi)計算出每對 文木數(shù)據(jù)間的相似度,而后需要采用關系選取和聚類部件對數(shù)據(jù)集合進行劃分。 在關系選取和聚類部件中主要包括關系排序12和聚類13兩個部分,排序主要 是將文本數(shù)據(jù)間的相似度按照從大到小的順序進行排序,由此可以使聚類算法有指導地發(fā)現(xiàn)最相關的文本數(shù)據(jù),并進行合并處理。聚類則是對排序的文本數(shù) 據(jù)相似度進行遍歷從最大相似度的文本進行合并,最終對數(shù)據(jù)集合實現(xiàn)聚類劃 分的目的。' 參照附圖2是發(fā)明的一個聚類過程分步說明圖,本發(fā)明是通過不斷合并最終實現(xiàn)數(shù)據(jù)聚類的過程。但在每歩的合并過程中于傳統(tǒng)算法不同,每歩可同時 合并多個具有第一候選的中間類(合并過程中的小類,并非最終的聚類結(jié)果)。 這樣可提高聚類的性能。參照附圖3是本發(fā)明計算兩個類與類間距離的方法,當聚類不斷進行,文本被不斷合并到中間類中,進而涉及如何計算兩個中間類的方法,本發(fā)明中采 用傳統(tǒng)的最長距離方法進行計算,即如圖所示,兩個類間的距離是兩個類中所 有樣本點間最長的距離。' 參照附圖4是發(fā)明的一個聚類過程說明圖。本系統(tǒng)通過特征選擇和特征的 權(quán)重計算將數(shù)據(jù)樣本映射成為一個多維空間的數(shù)據(jù)點,如17,再通過任一空間 距離計算的方法計算出兩兩數(shù)據(jù)點的距離18,圖4中沒有線相連的數(shù)據(jù)點(如, 17和18之間)認為距離無窮大。當構(gòu)建完數(shù)據(jù)樣本的空間關系圖18后,系統(tǒng) 每次選取距離最短的樣本集進行合并,如20。合并完成后,更新其余樣本與合 并后新的樣本集合的距離,生成新的數(shù)據(jù)關系圖。參照附圖5是本發(fā)明的關系選擇和聚類部件的主要過程原理圖。系統(tǒng)首先 從文本關系文件中讀取文本間的相似度22,并通過部件23按相似度的大小將當'前讀入的文本關系按從大到小的順序排序輸出,直到滿足條件24后進行下一步 操作。排序后系統(tǒng)通過25從文件中讀入文本關系,在通過條件26判斷當前關 系是否滿足第一合并條件,滿足則進行合并27,不滿足則判斷其是否具有輸出 條件29,是則將K-輸出到臨時文件中28,當條件30(關系文件中最后一個關系)被滿足后一次合并結(jié)束,而后需要判斷臨時文件中是否還有記錄31,有則更新關系列表32,并跳轉(zhuǎn)到25步繼續(xù)進行。如果臨時列表中無記錄則程序推出輸出 聚類結(jié)果33。首先結(jié)合附圖具休說明本發(fā)明外部聚類系統(tǒng)的結(jié)構(gòu)組成及其處理數(shù)據(jù)流的操作歩驟參見圖4,本發(fā)明是一種采用外部存儲的聚類系統(tǒng),其中包括:候選分析器、 關系生成器、關系選取和聚類部件。其中文本處理和關系計算與現(xiàn)有的計算方 法相同。其創(chuàng)新之處在于增設一個基于檢索的候選分析器,并通過關系選取和 聚類算法構(gòu)成一種新的基于外部存儲器的聚類系統(tǒng)。圖中細實線箭頭表示控制 信號流動方向,中空箭頭表不數(shù)據(jù)流動方向。重點對本發(fā)明系統(tǒng)里的各個模塊組成及功能作進一步的介紹1候選分析器是由一臺微機或?qū)S肞C機或者專用處理器芯片和一個具有檢索功能的程序包組成.該部件的功能是通過索引文件對每篇文檔進行檢索,查找出與每篇文檔具 有相同關鍵詞的候選集合,并將結(jié)果存儲于存儲器中。關系生成器5是由文本處理模塊8和關系計算模塊9組成。其中文本處理 模塊主要是對文本進行特征選取和權(quán)重計算,具體方法如下(1) 采用向量空間模型(Vector Space Model, VSM)對文本進行表示。這種方法最開始被用于信息檢索中用來表示查詢(query)和文檔。向量空間模型己經(jīng)被證明同樣可以用在文本分類中用于分類文本的表示。用這種表示方法,每個文本d都可以表示為由一個一個"對"(pair)表示成的向量<formula>formula see original document page 10</formula>其中,L ),"""是對應第工個特征的"對",t表示特征的編號, 表示特征的權(quán)重,n是整個特征集合的大小,也就是特征的個數(shù)。(2) 采用tf * idf計算特征的權(quán)重。權(quán)重把詞頻和詞的反比文 檔頻率的乘積對詞賦于權(quán)重。如下式其中,^V表示整個數(shù)據(jù)集的文檔數(shù),加'表示在整個數(shù)據(jù)集包含文本特征/i的文檔數(shù)。該方法基于兩個假設特征在單個文本中出現(xiàn)次數(shù)越多,越重要;特 -征在越多的文本中出現(xiàn),越不重要。在上式中,當yV^77J'時,特征的idf值為 0,導致權(quán)重為0。在小數(shù)據(jù)集上, 一些高頻特征會發(fā)生這種情況。因此避免特 征的權(quán)重為0,通常需要進行平滑,如下式所示3j7f :二 ( t房+1) 氺~ (#+(3)特征選取在給定候選特征集合中選擇某一最優(yōu)子集,不僅可以對高維的空間進行降維,并且可以消除噪音數(shù)據(jù)的影響。本發(fā)明中使用的是基于文檔頻度(DF)的特征選取方法。 一個特征的文檔頻率指的是包含這個特征的文檔 的數(shù)據(jù)。這種特征選取方法針對每個特征計算包含這個特征的文檔的數(shù)目,然-后去除文檔頻度低于某個預先給定閾值的特征。參照附圖5的基本過程主要分為兩部分 一是對文本關系的相似度按由大 到小排序輸出,具體采用哈希排序的方法。如考慮排序效率,也可將文本關系 相似度(0 1的數(shù)值)劃分成不同部分分別進行排序再合并。二是對排序的關系 序列進行遍歷合并的過程。該過程主要通過對排序序列嚴格按照由大到小進行 遍歷,在此順序中如果兩個文本都是首次出現(xiàn)(第一關系),則將兩個文本關系 進行合并,否則判斷該關系是否為當前兩個文本的最小相似度,是則將改關系 輸出到臨時關系序列中,否則刪除。 一次遍歷結(jié)束后將臨時關系序列更新到原-關系文件中,并重復同樣遍歷操作,直到關系文件為空。關系選擇和聚類部件的主要過程可以參考圖5。首先選取大于給定的閾值的 關系計算結(jié)果,并采用排序方法對其進行排序輸出。然后從排序文件中依次選 取具有第一關系的文檔進行合并,所謂第一關系即在一次迭代中按照排序順序 第一次被記錄的兩個文檔關系。合并后通過記數(shù)器,只保留新生成的類與其他 類別在排序文件中的最后一個記錄。以此不斷合并,直到排序關系文件中的記 錄為空。
權(quán)利要求
1、一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征在于方法的主要步驟包括對輸入文本集的預處理,生成文本集的倒排索引和特征向量;采用檢索技術檢索每一文檔的候選關系集合;利用關系計算方法對有候選關系的文檔進行關系計算;排序輸出大于一定閾值的計算結(jié)果;聚類算法再依照排序結(jié)果,反復迭代合并具有第一直接關系的文本對,最終達到對文本集合的聚類輸出。
2、 根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法設計的聚類系統(tǒng), 包括一候選分析器、關系生成器、關系選取和聚類部件,其特征在于聚類的 基本過程,首先每個樣本點都作為一個簇,通過檢索技術為每個樣本挑選出候 選的具有聯(lián)系的候選點集合,而后利用關系生成器計算樣本與候選關系樣本間 的關系,并按遞增/遞減順序輸出到外部存儲空間,然后在關系選取和聚類部件 的控制下在外部存儲中反復地對樣本關系文件進行刪除合并,直到關系文件為 空。
3、根據(jù)權(quán)利要求1所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征 在于基于文本檢索技術的樣本關系候選計算方法,該方法通過對描述數(shù)據(jù)的 特征建立倒排索引,然后對于每一樣本都檢索出與其有共同特征的樣本作為候 選樣本集合;聚類是一種消耗大量存儲器和處理器資源的方法,因為每個樣本 必須和其它樣本進行逐一比較,以便識別出樣本間的類別關系;利用高效的倒 排檢索技術可以最大程度地減少樣本關系計算中所占用的存儲器和處理器資 源;這種過濾的過程可被稱為篩選, 一些傳統(tǒng)聚類方法都有利用篩選,但是本 發(fā)明中基于檢索技術的篩選尤其有效。
4、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其 特征在于當所有樣本計算出候選關系序列后,便需要計算樣本與樣本間的關 系,這里稱之為距離或相似度;這個距離或相似度的值可以衡量兩個樣本的相 似程度,是諸衡量兩個具有一定數(shù)量的特征和權(quán)值的數(shù)據(jù)的相似程度的方法或 組合;各樣本間的距離或相似度通過一定閾值加以控制,如果距離/相似度低于/高于所對應的閾值,則這個關系則被按升序或降序保存到關系文件中;這種按 順序保存的樣本關系可以減小其后的聚類中合并和選取的復雜度,減小磁盤交 互帶來的時間開銷。
5、根據(jù)權(quán)利要求1和3所述的大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),其特征在于通過排序的關系文件進行外部聚類的方法,該方法每次從存儲于外 存的關系文件依次合并具有最先關系的樣本,而后在合并的基礎對現(xiàn)有關系進行裁剪;當關系文件為空時聚類過程結(jié)束,并將合并樣本集合作為結(jié)果進行輸出。
全文摘要
一種應用于信息技術領域中的一種大規(guī)模文本數(shù)據(jù)的外部聚類方法及系統(tǒng),設計的聚類系統(tǒng),包括一候選分析器、關系生成器、關系選取和聚類部件,每個樣本點都作為一個簇,通過檢索技術為每個樣本挑選出候選的具有聯(lián)系的候選點集合,利用關系生成器計算樣本與候選關系樣本間的關系,按遞增/遞減順序輸出到外部存儲空間;方法的主要步驟包括對輸入文本集的預處理,生成文本集的倒排索引和特征向量;采用檢索技術檢索每一文檔的候選關系集合;利用關系計算方法對有候選關系的文檔進行關系計算;排序輸出大于一定閾值的計算結(jié)果;聚類算法再依照排序結(jié)果,反復迭代合并具有第一直接關系的文本對,最終達到對文本集合的聚類輸出。該裝置構(gòu)思新穎科學、聚類過程占用空間小、容量大的外部存儲器,對處理過程進行分化處理。
文檔編號G06F17/30GK101308496SQ20081001214
公開日2008年11月19日 申請日期2008年7月4日 優(yōu)先權(quán)日2008年7月4日
發(fā)明者周俏麗, 鐸 季, 尹寶生, 張桂平, 羽 白, 苗雪雷, 蔡東風 申請人:沈陽格微軟件有限責任公司