基于自組織映射網(wǎng)絡的文檔聚類方法

文檔序號：6554770閱讀：484來源：國知局

專利名稱：基于自組織映射網(wǎng)絡的文檔聚類方法
技術領域：
本發(fā)明涉及一種文檔聚類方法。
背景技術：
作為一種無監(jiān)督的機器學習方法，聚類具有較高的自動化處理能力，已經(jīng)成為對文本信息進行有效組織、摘要和導航的重要手段。文檔聚類的目的在于通過對文檔集合進行自動整理，挖掘出其中的結構信息，從而便于用戶瀏覽，提高信息的訪問效率。其主要應用在包括數(shù)字圖書館服務、搜索引擎返回結果的自動整理、用戶興趣挖掘等方面。眾多文檔聚類方法中，T.Kohonen提出的自組織映射(Self-Organizing Maps，簡稱SOM)引起了研究人員較多的關注。文檔聚類具有高維和與語義相關的特點，而SOM可以較好的實現(xiàn)高維數(shù)據(jù)到二維平面空間的保序映射。所謂保序映射是指彼此相似度較大的不同文檔往往被映射到SOM輸出層的同一神經(jīng)元或者彼此鄰近的神經(jīng)元上，因此SOM聚類結果的可視化水平和導航能力較好。另外，一些噪聲文檔在SOM輸出層中也可以很容易被發(fā)現(xiàn)，使得這種方法的抗噪能力也較強。
但是SOM中的網(wǎng)絡結構和神經(jīng)元數(shù)目需要在訓練之前確定，因而難以做到對輸入文檔數(shù)據(jù)的自適應。固定結構的SOM還帶來了諸如神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。這是由于其固定的網(wǎng)絡結構難以反映輸入數(shù)據(jù)的結構信息，導致其靈活性較差。一般說來，輸出節(jié)點的個數(shù)與訓練樣本模式類的個數(shù)有關系。如果節(jié)點數(shù)多于模式類，則一種可能是將類別劃分得過細，另外一種可能是出現(xiàn)死節(jié)點，即在訓練過程中，某個節(jié)點從未獲勝過且遠離其他獲勝節(jié)點。如果節(jié)點數(shù)少于模式類數(shù)，則不足以區(qū)分全部模式類，訓練的結果將使相近的模式類合并為一類。實踐中SOM的輸出層一般采用矩形結構，并且設置盡可能多的節(jié)點，因此使得該方法很容易出現(xiàn)神經(jīng)元的欠利用情況。
為了獲得理想的結果，可以預先了解輸入數(shù)據(jù)的結構，但這又影響了聚類的無指導特性。并且在絕大多數(shù)的情況下，并沒有先驗知識能讓操作者事先選擇好一個合適的網(wǎng)絡規(guī)模，所以它影響了SOM的實際應用。值得指出的是，目前已經(jīng)有研究人員認識到了這一問題，其中一種比較典型的方法是GHSOM。如圖2和圖3所示，該模型可以通過在輸出層中插入行或者列的方式來對網(wǎng)絡進行擴充，以便自適應地反映輸入數(shù)據(jù)的主題結構。但是該方法采用的矩形結構容易導致網(wǎng)絡的規(guī)模擴展過快，從而容易發(fā)生神經(jīng)元欠利用現(xiàn)象。所謂欠利用，是指由于插入神經(jīng)元過多，使得同一類文檔被多個不同的神經(jīng)元所映射。

發(fā)明內(nèi)容
本發(fā)明提供一種基于自組織映射網(wǎng)絡的文檔聚類方法，以克服已有的SOM自組織映射聚類方法難以做到對輸入文檔數(shù)據(jù)的自適應以及其固定結構所帶來的神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。本發(fā)明的方法通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔；二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構，并把環(huán)形結構至少平分為兩半，其中的每個扇形分別作為一個神經(jīng)元；三、輸入被選文檔，進行自組織映射網(wǎng)絡的訓練，計算當前輸出層的R2聚類準則系數(shù)；四、判斷R2聚類準則系數(shù)是否大于閾值μ，μ＝0.3；五、步驟四的結果為是，則終止自組織映射網(wǎng)絡的訓練，把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類；六、結束；七、步驟四的結果為否，則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元，在其附近插入新的神經(jīng)元，并初始化環(huán)形結構的輸出層各權值，然后返回步驟三。
本發(fā)明的方法采用了閉合的環(huán)形輸出層結構。這種結構的優(yōu)勢在于可以漸進地進行神經(jīng)元擴充，并且還可以克服矩形結構和其他結構容易帶來的邊界效應問題。本發(fā)明方法的輸出層采用閉合的環(huán)形結構，其中的每個扇形代表一個神經(jīng)元，如圖4所示。這種結構的優(yōu)勢是扇形的個數(shù)可以取任意整數(shù)值，因此可以較好的反映輸入文檔集合的類別分布信息。另外該模型中每個扇形都有相同個數(shù)的相鄰神經(jīng)元，因此可以保證結構的對稱性，也避免了矩形結構的邊緣效應問題。在需要對輸出層進行擴充的時候，可以插入任意數(shù)目的神經(jīng)元，因此有利于避免神經(jīng)元的欠利用問題。
本發(fā)明方法首先將網(wǎng)絡初始化為一個較小的規(guī)模，而后在聚類準則函數(shù)的指導下對網(wǎng)絡結構進行動態(tài)調(diào)整，以真實反映輸入文檔的主題分布規(guī)律。分解策略借鑒了自上而下的層次聚類算法的思想，假設所有文檔至少可以分為二類，因此在初始化時輸出層只包括二個神經(jīng)元。隨后在過利用的神經(jīng)元附近生長出新的神經(jīng)元，以便細化對輸入數(shù)據(jù)的表示。采用R2聚類準則系數(shù)作為判斷依據(jù)，在神經(jīng)元的過利用和欠利用之間尋求平衡，以確定一種可以真實反映輸入數(shù)據(jù)結構的最佳網(wǎng)絡規(guī)模。聚類準則函數(shù)通過評價神經(jīng)元和文檔之間的關系，對網(wǎng)絡規(guī)模進行有效控制，避免無限制生長。
本發(fā)明的方法克服了傳統(tǒng)上使用SOM模型進行文檔聚類容易發(fā)生的神經(jīng)元欠利用和過利用問題，聚類F值較同類方法有明顯提高。
聚類F值的計算方法用聚類F值對文檔聚類的綜合質(zhì)量進行評價。對于聚類生成的某一個聚類類別r和原來的預定類別s，召回率recall和精確率precision的定義分別為recall(r，s)＝n(r，s)/ns(5)precision(r，s)＝n(r，s)/nr(6)其中n(r，s)是聚類后的類別r和預定義類別s中的公共文檔個數(shù)。nr是聚類類別r中的文檔個數(shù)，ns是預定義類別s中的文檔個數(shù)。定義F(r，s)為F(r，s)＝(2*recall(r，s)*precision(r，s))/((precison(r，s)+recall(r，s))(7)則聚類結果的總體評價函數(shù)為F=Σininmax{F(i,j)}---(8)]]>這里，n是聚類的輸入文檔個數(shù)。而ni表示預定義類別i中的文檔個數(shù)。

圖1是本發(fā)明方法的示意圖，圖2是已有的GHSOM方法的輸出層所采用的矩形結構示意圖，圖3是GHSOM方法插入新的神經(jīng)元示意圖，圖4是本發(fā)明方法的輸出層所采用的環(huán)形結構示意圖，圖5是本發(fā)明方法的輸出層插入新的神經(jīng)元示意圖。
具體實施例方式
下面結合圖1至圖5具體說明本實施方式。本發(fā)明的方法通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔；二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構，并把環(huán)形結構至少平分為兩半，其中的每個扇形分別作為一個神經(jīng)元；三、輸入被選文檔，進行自組織映射網(wǎng)絡的訓練，計算當前輸出層的R2聚類準則系數(shù)；四、判斷R2聚類準則系數(shù)是否大于閾值μ；五、步驟四的結果為是，則終止自組織映射網(wǎng)絡的訓練，把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類；六、結束；七、步驟四的結果為否，則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元，在其附近插入新的神經(jīng)元，并初始化環(huán)形結構的輸出層各權值，然后返回步驟三。
利用已有的SOM方法進行文檔聚類時，輸出層上的神經(jīng)元一般表示為與輸入文檔具有相同維數(shù)的向量，并且其權值初始化為較小的隨機數(shù)，而輸入文檔在各特征維上的權值則取決于該特征維在文檔中的出現(xiàn)頻率。特征維一般由輸入文檔集合中的所有實詞(過濾掉無意義的停用詞)經(jīng)過特征選擇而構成。特征選擇的目的是只保留對類別具有較強區(qū)分能力的詞構造聚類空間。經(jīng)過充分訓練，SOM輸出層的節(jié)點成為對特定模式類敏感的神經(jīng)細胞，對應的向量則成為各個輸入模式類的中心向量，因此可以起到聚類作用。
自組織映射有三個主要過程競爭、合作和突觸調(diào)節(jié)。對于每個輸入文檔di，網(wǎng)絡中的神經(jīng)元分別計算其與di之間的相似度。相似度最大的神經(jīng)元將贏得競爭，成為獲勝神經(jīng)元。獲勝神經(jīng)元決定興奮神經(jīng)元的拓撲鄰域位置，從而提供相鄰神經(jīng)元合作的基礎。只有獲勝神經(jīng)元及其鄰域內(nèi)的神經(jīng)元有權進行權值向量的調(diào)整。權值調(diào)整的幅度由學習率(t)控制，這個參數(shù)將隨著學習的進行而逐漸減小。鄰域范圍rj(t)也隨時間增加而減小。因此在訓練開始時有大量神經(jīng)元被調(diào)整權值，而最后只有獲勝者自己被調(diào)整權值。
神經(jīng)元的權值調(diào)整一般采用如下公式nj(t+1)＝nj(t)+(t)·rj(t)·dist(di，nj(t))(1)其中dist(di，nj(t))表示文檔向量di和神經(jīng)元向量nj(t)的距離。nj(t+1)和nj(t)則分別表示神經(jīng)元nj調(diào)整后和調(diào)整前的權值向量。(t)為學習速率函數(shù)，rj(t)為鄰域函數(shù)。二者的取值在網(wǎng)絡開始訓練時取較大的初始值，然后隨著訓練的進行而逐漸遞減。
令|Ni(t)|表示神經(jīng)元Ni在某一時刻t所映射的文檔數(shù)，mi為神經(jīng)元Ni所對應的向量。則Ni所映射樣本的類內(nèi)離差平方和為Si=Σdj&RightArrow;Ni(dj-mi)T(dj-mi)---(2)]]>Si越小，則Ni所映射的文檔越“純”，來自于同一主題的可能性越大。
在時刻t，假設輸出層共有c個神經(jīng)元，則定義Pc=Σk=1cSk.]]>假設T為所有樣本的總離差平方和，則T=Σi=1|D|(di-x&OverBar;)T(di-x&OverBar;)---(3)]]>其中x&OverBar;=1|D|Σi=1|D|di]]>表示所有訓練樣本的均值向量。|D|表示輸入樣本的個數(shù)。則R2=1-PcT---(4)]]>聚類準則系數(shù)R2的取值范圍為
，并且其具體取值一般隨著網(wǎng)絡規(guī)模的增長呈單調(diào)增加的趨勢。因此需要設定閾值μ以在適當?shù)臅r候終止網(wǎng)絡的增長，防止出現(xiàn)神經(jīng)元的欠利用現(xiàn)象。如果R2的取值小于某一閾值μ，需要在具有最大類內(nèi)離差平方和的神經(jīng)元Nmax附近插入新的神經(jīng)元，以便細化對輸入數(shù)據(jù)的表示。具體方法是考察與Nmax最相鄰的兩個神經(jīng)元，假設其中神經(jīng)元N′具有較小的類內(nèi)離差平方和，則在Nmax與N′之間插入一個神經(jīng)元Nnew，并且Nnew的權值向量初始化為Nmax和N′所代表的向量的均值。
本發(fā)明的應用過程是用戶輸入檢索詞給搜索引擎，搜索引擎通過檢索將找到的結果返回，這些返回的文檔將作為本發(fā)明聚類方法的輸入，通過聚類處理，使得返回的結果被分類處理，改善了可視化效果，從而提高檢索效率。
權利要求
1.基于自組織映射網(wǎng)絡的文檔聚類方法，其特征在于它通過下述步驟實現(xiàn)一、利用檢索詞在檢索者指定范圍內(nèi)找出所有被選文檔；二、將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構，并把環(huán)形結構至少平分為兩半，其中的每個扇形分別作為一個神經(jīng)元；三、輸入被選文檔，進行自組織映射網(wǎng)絡的訓練，計算當前輸出層的R2聚類準則系數(shù)；四、判斷R2聚類準則系數(shù)是否大于閾值μ，μ＝0.3；五、步驟四的結果為是，則終止自組織映射網(wǎng)絡的訓練，把被選文檔按照當前自組織映射網(wǎng)絡的輸出層神經(jīng)元構成進行分類；六、結束；七、步驟四的結果為否，則在當前輸出層中尋找具有最大類內(nèi)離差平方和的神經(jīng)元，在其附近插入新的神經(jīng)元，并初始化環(huán)形結構的輸出層各權值然后返回步驟三。
全文摘要
基于自組織映射網(wǎng)絡的文檔聚類方法，本發(fā)明涉及一種文檔聚類方法。它克服了已有的自組織映射聚類方法難以做到對輸入文檔數(shù)據(jù)的自適應以及其固定結構所帶來的神經(jīng)元欠利用、網(wǎng)絡映射欠準確以及邊緣效應等問題。本發(fā)明方法的步驟找出所有被選文檔；將自組織映射網(wǎng)絡的輸出層初始化為環(huán)形結構，并把環(huán)形結構至少平分為兩半，其中的每個扇形分別作為一個神經(jīng)元；計算當前輸出層的R
文檔編號G06F15/18GK1808474SQ20061000976
公開日2006年7月26日申請日期2006年3月2日優(yōu)先權日2006年3月2日
發(fā)明者劉遠超, 關毅, 徐志明, 劉秉權, 林磊申請人:哈爾濱工業(yè)大學

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：劉遠超;關毅;徐志明;劉秉權;林磊
技術所有人：哈爾濱工業(yè)大學
我是此專利的發(fā)明人

上一篇：一種串并綜合型總線系統(tǒng)及其數(shù)據(jù)傳送方法
上一篇：無電池的無線光標指向裝置的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自組織映射神經(jīng)網(wǎng)絡相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于自組織映射網(wǎng)絡的文檔聚類方法