亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分布式Web文檔聚類系統(tǒng)的制作方法

文檔序號:6357484閱讀:239來源:國知局
專利名稱:分布式Web文檔聚類系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本申請屬于信息檢索、數(shù)據(jù)挖掘、人工智能領(lǐng)域。
背景技術(shù)
為了揭示隱藏在Web數(shù)據(jù)之后具有潛在價值的信息或結(jié)構(gòu),近年來Web挖掘技術(shù) 取得了較快的發(fā)展和廣泛的應(yīng)用。文檔聚類是Web挖掘領(lǐng)域中最重要的工具之一,其目的 是將一個文檔集合分成若干個簇,要求同一個簇內(nèi)的文本內(nèi)容具有較高的相似度,而不同 簇之間的相似度盡可能小。每個聚類過程主要包括相似度計算方法和聚類算法兩個部分。目前,研究者已經(jīng)提出多種文檔聚類算法,大致可分為4個類別,即層次化聚類算 法、劃分式聚類算法、基于密度和網(wǎng)格的聚類算法和其它聚類算法。這些聚類算法的研究主 要是針對集中式數(shù)據(jù)源進行挖掘,即數(shù)據(jù)對象集中分布在同一個數(shù)據(jù)節(jié)點上。然而,在許多 Web應(yīng)用中,因為數(shù)據(jù)量龐大、訪問效率等原因,不得不將數(shù)據(jù)分布在多個節(jié)點上,如眾多站 點為提高訪問效率廣泛采用了多鏡像技術(shù),使得數(shù)據(jù)對象分布在不同的鏡像站點上。在這 種應(yīng)用環(huán)境中,必須將傳統(tǒng)的聚類方法和分布式的策略相結(jié)合,即采用分布式聚類方法。分 布式聚類方法通常包括兩個步驟①對各個節(jié)點的數(shù)據(jù)進行本地獨立聚類(局部聚類),獲 得數(shù)據(jù)的局部模式;②將各節(jié)點的聚類結(jié)果進行合并(全局聚類),獲得數(shù)據(jù)的全局模式。

發(fā)明內(nèi)容
本申請?zhí)岢鲆粋€分布式Web文檔聚類系統(tǒng)DCS (Distributed Clustering System),該系統(tǒng)采用的主要方法稱之為 DACWD (Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一個基于信息瓶頸理論的文檔聚類方法DCIB (Document Clustering using Information Bottleneck)。DACWD的局部聚類和全局聚類過程迭代使 用了 DCIB方法。


圖1是DCS系統(tǒng)的聚類過程圖。
具體實施例方式DCS系統(tǒng)的聚類過程如錯誤!未找到引用源。所示。首先使用DCIB方法對各個節(jié) 點上的Web文檔進行本地聚類,然后將各個節(jié)點的聚類結(jié)果集合起來作為數(shù)據(jù)對象,再次 使用DCIB方法進行聚類。具體實現(xiàn)步驟如下錯誤!未找到引用源。說明了 DCS系統(tǒng)聚類的基本過程。該過程分為局部聚類和 全局聚類兩個階段。在局部聚類階段,各數(shù)據(jù)節(jié)點將各自節(jié)點上的文檔數(shù)據(jù)使用DCIB方法 進行獨立聚類,聚類結(jié)果代表了該節(jié)點上文檔的總體特征;在全局聚類階段,將局部聚類階 段產(chǎn)生的聚類結(jié)果作為數(shù)據(jù)輸入,再次使用DCIB方法進行聚類。
DCIB方法是一種基于信息瓶頸理論的文檔聚類方法。該方法采用信息瓶頸理論度 量文檔之間的“相似”關(guān)系,并使用增量聚類算法對文檔數(shù)據(jù)進行聚類,最后對聚類結(jié)果進 行調(diào)整。這樣的聚類過程一方面避免了因隨機選用相似度計算方法所造成的誤差;另一方 面是所采用的增量方式保證了較高的聚類效率,能夠滿足對時間性能有較高要求的Web應(yīng) 用;同時,針對聚類結(jié)果的調(diào)整過程減輕了文檔次序?qū)υ隽窟^程造成的影響,提高了聚類的 準確率。DCIB首先隨機選取一個文檔初始化為一個簇,然后依次處理每個文檔直至文檔處 理完畢。處理過程中比較新文檔與現(xiàn)存各個簇合并所產(chǎn)生的最小共有信息損失,如果最小 共有信息損失滿足規(guī)定閾值,則將該文檔合并到“距離”最近簇,否則新建一個簇存放該文 檔。DACWD方法的詳細步驟為1.假設(shè)在一個分布式的環(huán)境中,Web文檔分布在η個數(shù)據(jù)節(jié)點N1A2,…,Nn上,各 個節(jié)點上的文檔數(shù)目分別為S1, s2,-,Sn,節(jié)點Ni (1彡i ^n)上的文檔表示為式,劣,···,<。
假設(shè)文檔的特征詞集合為H1, t2,…,tm},其中m為特征詞個數(shù)。2.針對每個節(jié)點Ni (1彡i ^n),使用下述DCIB方法進行局部聚類1)得到節(jié)點隊(1彡i ^n)上各文檔4,劣,···,《的向量表示形式。根據(jù)文檔中特 征詞的分布情況,文檔^ i么n,l <j< Α)的向量形式表示為d^ip^ld·),Pit2Idij),-,p(tm\d))}其中彳(其中1彡a彡m)表示文檔<中特征詞ta出現(xiàn)的條件概率,其計算 方法為AaI j -表示文檔中特征詞、的出現(xiàn)次數(shù)。
h j S{ta\dlj) d)幻將節(jié)點Ni(Ki^n)上的文檔 ...,<表示為一個集合Z'= Wi,劣,…,<},
從中隨機取一個文檔表示為<,將其初始化為一個簇,記為4={4},存放在簇集合Ci中,即 c、{4},同時將4從Xi中刪除。簇4的向量形式表示為
權(quán)利要求
1. 一種分布式Web文檔聚類系統(tǒng),該系統(tǒng)包括多個局部數(shù)據(jù)節(jié)點服務(wù)器和一個中心數(shù) 據(jù)節(jié)點服務(wù)器,每個局部數(shù)據(jù)節(jié)點服務(wù)器負責(zé)存儲Web文檔及完成局部聚類,中心數(shù)據(jù)節(jié) 點服務(wù)器負責(zé)完成全局聚類,其特征在于該系統(tǒng)采取以下步驟進行聚類①設(shè)在一個分布式的環(huán)境中,Web文檔分布在η個數(shù)據(jù)節(jié)點N1A2,…,Nn上,各個節(jié)點上的文檔數(shù)目分別為S1, s2,…,Sn,節(jié)點Ni上的文檔表示為軋為,···,<,假設(shè)文檔的特征詞 集合為{t1;t2,…,tm},其中n、i和m為自然數(shù),且m為特征詞個數(shù),1彡i彡η。②針對每個節(jié)點Ni,使用下述方法進行局部聚類1)得到節(jié)點Ni上各文檔4,劣,…,<的向量表示形式,根據(jù)文檔中特征詞的分布情況, 文檔<的向量形式表示為
全文摘要
本申請?zhí)岢鲆粋€分布式Web文檔聚類系統(tǒng)DCS(Distributed Clustering System),該系統(tǒng)采用的主要方法稱之為DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一個基于信息瓶頸理論的文檔聚類方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚類和全局聚類過程迭代使用了DCIB方法。
文檔編號G06F17/30GK102110172SQ201110083090
公開日2011年6月29日 申請日期2011年3月31日 優(yōu)先權(quán)日2011年3月31日
發(fā)明者劉永利 申請人:河南理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1