專利名稱:基于自組織映射網(wǎng)絡的文檔聚類方法
技術領域:
本發(fā)明涉及一種文檔聚類方法。
背景技術:
作為一種無監(jiān)督的機器學習方法,聚類具有較高的自動化處理能力,已經(jīng)成為對文本信息進行有效組織、摘要和導航的重要手段。文檔聚類的目的在于通過對文檔集合進行自動整理,挖掘出其中的結構信息,從而便于用戶瀏覽,提高信息的訪問效率。其主要應用在包括數(shù)字圖書館服務、搜索引擎返回結果的自動整理、用戶興趣挖掘等方面。眾多文檔聚類方法中,T.Kohonen提出的自組織映射(Self-Organizing Maps,簡稱SOM)引起了研究人員較多的關注。文檔聚類具有高維和與語義相關的特點,而SOM可以較好的實現(xiàn)高維數(shù)據(jù)到二維平面空間的保序映射。所謂保序映射是指彼此相似度較大的不同文檔往往被映射到SOM輸出層的同一神經(jīng)元或者彼此鄰近的神經(jīng)元上,因此SOM聚類結果的可視化水平和導航能力較好。另外,一些噪聲文檔在SOM輸出層中也可以很容易被發(fā)現(xiàn),使得這種方法的抗噪能力也較強。
但是SOM中的網(wǎng)絡結構和神經(jīng)元數(shù)目需要在訓練之前確定,因而難以做到對輸入文檔數(shù)據(jù)的自適應。固定結構的SOM還帶來了諸如神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。這是由于其固定的網(wǎng)絡結構難以反映輸入數(shù)據(jù)的結構信息,導致其靈活性較差。一般說來,輸出節(jié)點的個數(shù)與訓練樣本模式類的個數(shù)有關系。如果節(jié)點數(shù)多于模式類,則一種可能是將類別劃分得過細,另外一種可能是出現(xiàn)死節(jié)點,即在訓練過程中,某個節(jié)點從未獲勝過且遠離其他獲勝節(jié)點。如果節(jié)點數(shù)少于模式類數(shù),則不足以區(qū)分全部模式類,訓練的結果將使相近的模式類合并為一類。實踐中SOM的輸出層一般采用矩形結構,并且設置盡可能多的節(jié)點,因此使得該方法很容易出現(xiàn)神經(jīng)元的欠利用情況。
為了獲得理想的結果,可以預先了解輸入數(shù)據(jù)的結構,但這又影響了聚類的無指導特性。并且在絕大多數(shù)的情況下,并沒有先驗知識能讓操作者事先選擇好一個合適的網(wǎng)絡規(guī)模,所以它影響了SOM的實際應用。值得指出的是,目前已經(jīng)有研究人員認識到了這一問題,其中一種比較典型的方法是GHSOM。如圖2和圖3所示,該模型可以通過在輸出層中插入行或者列的方式來對網(wǎng)絡進行擴充,以便自適應地反映輸入數(shù)據(jù)的主題結構。但是該方法采用的矩形結構容易導致網(wǎng)絡的規(guī)模擴展過快,從而容易發(fā)生神經(jīng)元欠利用現(xiàn)象。所謂欠利用,是指由于插入神經(jīng)元過多,使得同一類文檔被多個不同的神經(jīng)元所映射。
發(fā)明內(nèi)容
本發(fā)明提供一種基于自組織映射網(wǎng)絡的文檔聚類方法,以克服已有的SOM自組織映射聚類方法難以做到對輸入文檔數(shù)據(jù)的自適應以及其固定結構所帶來的神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。本發(fā)明的方法通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔;二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構,并把環(huán)形結構至少平分為兩半,其中的每個扇形分別作為一個神經(jīng)元;三、輸入被選文檔,進行自組織映射網(wǎng)絡的訓練,計算當前輸出層的R2聚類準則系數(shù);四、判斷R2聚類準則系數(shù)是否大于閾值μ,μ=0.3;五、步驟四的結果為是,則終止自組織映射網(wǎng)絡的訓練,把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類;六、結束;七、步驟四的結果為否,則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元,在其附近插入新的神經(jīng)元,并初始化環(huán)形結構的輸出層各權值,然后返回步驟三。
本發(fā)明的方法采用了閉合的環(huán)形輸出層結構。這種結構的優(yōu)勢在于可以漸進地進行神經(jīng)元擴充,并且還可以克服矩形結構和其他結構容易帶來的邊界效應問題。本發(fā)明方法的輸出層采用閉合的環(huán)形結構,其中的每個扇形代表一個神經(jīng)元,如圖4所示。這種結構的優(yōu)勢是扇形的個數(shù)可以取任意整數(shù)值,因此可以較好的反映輸入文檔集合的類別分布信息。另外該模型中每個扇形都有相同個數(shù)的相鄰神經(jīng)元,因此可以保證結構的對稱性,也避免了矩形結構的邊緣效應問題。在需要對輸出層進行擴充的時候,可以插入任意數(shù)目的神經(jīng)元,因此有利于避免神經(jīng)元的欠利用問題。
本發(fā)明方法首先將網(wǎng)絡初始化為一個較小的規(guī)模,而后在聚類準則函數(shù)的指導下對網(wǎng)絡結構進行動態(tài)調(diào)整,以真實反映輸入文檔的主題分布規(guī)律。分解策略借鑒了自上而下的層次聚類算法的思想,假設所有文檔至少可以分為二類,因此在初始化時輸出層只包括二個神經(jīng)元。隨后在過利用的神經(jīng)元附近生長出新的神經(jīng)元,以便細化對輸入數(shù)據(jù)的表示。采用R2聚類準則系數(shù)作為判斷依據(jù),在神經(jīng)元的過利用和欠利用之間尋求平衡,以確定一種可以真實反映輸入數(shù)據(jù)結構的最佳網(wǎng)絡規(guī)模。聚類準則函數(shù)通過評價神經(jīng)元和文檔之間的關系,對網(wǎng)絡規(guī)模進行有效控制,避免無限制生長。
本發(fā)明的方法克服了傳統(tǒng)上使用SOM模型進行文檔聚類容易發(fā)生的神經(jīng)元欠利用和過利用問題,聚類F值較同類方法有明顯提高。
聚類F值的計算方法用聚類F值對文檔聚類的綜合質(zhì)量進行評價。對于聚類生成的某一個聚類類別r和原來的預定類別s,召回率recall和精確率precision的定義分別為recall(r,s)=n(r,s)/ns(5)precision(r,s)=n(r,s)/nr(6)其中n(r,s)是聚類后的類別r和預定義類別s中的公共文檔個數(shù)。nr是聚類類別r中的文檔個數(shù),ns是預定義類別s中的文檔個數(shù)。定義F(r,s)為F(r,s)=(2*recall(r,s)*precision(r,s))/((precison(r,s)+recall(r,s))(7)則聚類結果的總體評價函數(shù)為F=Σininmax{F(i,j)}---(8)]]>這里,n是聚類的輸入文檔個數(shù)。而ni表示預定義類別i中的文檔個數(shù)。
圖1是本發(fā)明方法的示意圖,圖2是已有的GHSOM方法的輸出層所采用的矩形結構示意圖,圖3是GHSOM方法插入新的神經(jīng)元示意圖,圖4是本發(fā)明方法的輸出層所采用的環(huán)形結構示意圖,圖5是本發(fā)明方法的輸出層插入新的神經(jīng)元示意圖。
具體實施例方式
下面結合圖1至圖5具體說明本實施方式。本發(fā)明的方法通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔;二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構,并把環(huán)形結構至少平分為兩半,其中的每個扇形分別作為一個神經(jīng)元;三、輸入被選文檔,進行自組織映射網(wǎng)絡的訓練,計算當前輸出層的R2聚類準則系數(shù);四、判斷R2聚類準則系數(shù)是否大于閾值μ;五、步驟四的結果為是,則終止自組織映射網(wǎng)絡的訓練,把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類;六、結束;七、步驟四的結果為否,則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元,在其附近插入新的神經(jīng)元,并初始化環(huán)形結構的輸出層各權值,然后返回步驟三。
利用已有的SOM方法進行文檔聚類時,輸出層上的神經(jīng)元一般表示為與輸入文檔具有相同維數(shù)的向量,并且其權值初始化為較小的隨機數(shù),而輸入文檔在各特征維上的權值則取決于該特征維在文檔中的出現(xiàn)頻率。特征維一般由輸入文檔集合中的所有實詞(過濾掉無意義的停用詞)經(jīng)過特征選擇而構成。特征選擇的目的是只保留對類別具有較強區(qū)分能力的詞構造聚類空間。經(jīng)過充分訓練,SOM輸出層的節(jié)點成為對特定模式類敏感的神經(jīng)細胞,對應的向量則成為各個輸入模式類的中心向量,因此可以起到聚類作用。
自組織映射有三個主要過程競爭、合作和突觸調(diào)節(jié)。對于每個輸入文檔di,網(wǎng)絡中的神經(jīng)元分別計算其與di之間的相似度。相似度最大的神經(jīng)元將贏得競爭,成為獲勝神經(jīng)元。獲勝神經(jīng)元決定興奮神經(jīng)元的拓撲鄰域位置,從而提供相鄰神經(jīng)元合作的基礎。只有獲勝神經(jīng)元及其鄰域內(nèi)的神經(jīng)元有權進行權值向量的調(diào)整。權值調(diào)整的幅度由學習率(t)控制,這個參數(shù)將隨著學習的進行而逐漸減小。鄰域范圍rj(t)也隨時間增加而減小。因此在訓練開始時有大量神經(jīng)元被調(diào)整權值,而最后只有獲勝者自己被調(diào)整權值。
神經(jīng)元的權值調(diào)整一般采用如下公式nj(t+1)=nj(t)+(t)·rj(t)·dist(di,nj(t))(1)其中dist(di,nj(t))表示文檔向量di和神經(jīng)元向量nj(t)的距離。nj(t+1)和nj(t)則分別表示神經(jīng)元nj調(diào)整后和調(diào)整前的權值向量。(t)為學習速率函數(shù),rj(t)為鄰域函數(shù)。二者的取值在網(wǎng)絡開始訓練時取較大的初始值,然后隨著訓練的進行而逐漸遞減。
令|Ni(t)|表示神經(jīng)元Ni在某一時刻t所映射的文檔數(shù),mi為神經(jīng)元Ni所對應的向量。則Ni所映射樣本的類內(nèi)離差平方和為Si=Σdj→Ni(dj-mi)T(dj-mi)---(2)]]>Si越小,則Ni所映射的文檔越“純”,來自于同一主題的可能性越大。
在時刻t,假設輸出層共有c個神經(jīng)元,則定義Pc=Σk=1cSk.]]>假設T為所有樣本的總離差平方和,則T=Σi=1|D|(di-x‾)T(di-x‾)---(3)]]>其中x‾=1|D|Σi=1|D|di]]>表示所有訓練樣本的均值向量。|D|表示輸入樣本的個數(shù)。則R2=1-PcT---(4)]]>聚類準則系數(shù)R2的取值范圍為
,并且其具體取值一般隨著網(wǎng)絡規(guī)模的增長呈單調(diào)增加的趨勢。因此需要設定閾值μ以在適當?shù)臅r候終止網(wǎng)絡的增長,防止出現(xiàn)神經(jīng)元的欠利用現(xiàn)象。如果R2的取值小于某一閾值μ,需要在具有最大類內(nèi)離差平方和的神經(jīng)元Nmax附近插入新的神經(jīng)元,以便細化對輸入數(shù)據(jù)的表示。具體方法是考察與Nmax最相鄰的兩個神經(jīng)元,假設其中神經(jīng)元N′具有較小的類內(nèi)離差平方和,則在Nmax與N′之間插入一個神經(jīng)元Nnew,并且Nnew的權值向量初始化為Nmax和N′所代表的向量的均值。
本發(fā)明的應用過程是用戶輸入檢索詞給搜索引擎,搜索引擎通過檢索將找到的結果返回,這些返回的文檔將作為本發(fā)明聚類方法的輸入,通過聚類處理,使得返回的結果被分類處理,改善了可視化效果,從而提高檢索效率。
權利要求
1.基于自組織映射網(wǎng)絡的文檔聚類方法,其特征在于它通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔;二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構,并把環(huán)形結構至少平分為兩半,其中的每個扇形分別作為一個神經(jīng)元;三、輸入被選文檔,進行自組織映射網(wǎng)絡的訓練,計算當前輸出層的R2聚類準則系數(shù);四、判斷R2聚類準則系數(shù)是否大于閾值μ,μ=0.3;五、步驟四的結果為是,則終止自組織映射網(wǎng)絡的訓練,把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類;六、結束;七、步驟四的結果為否,則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元,在其附近插入新的神經(jīng)元,并初始化環(huán)形結構的輸出層各權值然后返回步驟三。
全文摘要
基于自組織映射網(wǎng)絡的文檔聚類方法,本發(fā)明涉及一種文檔聚類方法。它克服了已有的自組織映射聚類方法難以做到對輸入文檔數(shù)據(jù)的自適應以及其固定結構所帶來的神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。本發(fā)明方法的步驟找出所有被選文檔;將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構,并把環(huán)形結構至少平分為兩半,其中的每個扇形分別作為一個神經(jīng)元;計算當前輸出層的R
文檔編號G06F15/18GK1808474SQ20061000976
公開日2006年7月26日 申請日期2006年3月2日 優(yōu)先權日2006年3月2日
發(fā)明者劉遠超, 關毅, 徐志明, 劉秉權, 林磊 申請人:哈爾濱工業(yè)大學