用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)的制作方法

文檔序號(hào)：6612083閱讀：192來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及Web信息提取和挖掘技術(shù)，更具體而言，涉及用于網(wǎng)絡(luò)文件聚類(cluster)的方法和系統(tǒng)。
背景技術(shù)：
當(dāng)今，萬(wàn)維網(wǎng)(WWW)已經(jīng)成為一種用于發(fā)布和獲取信息的流行并且重要的媒介，其具有信息量大、多樣性、異構(gòu)性(heterogeneous)、分布式等特點(diǎn)，并且其中很多信息不是外在可見(jiàn)的。Web信息提取與挖掘技術(shù)能夠幫助人們最大限度地利用Web和信息。實(shí)際上，Web信息提取和挖掘已經(jīng)變成非常熱門的研究領(lǐng)域，基于這些技術(shù)的應(yīng)用軟件和產(chǎn)品也在市場(chǎng)上變得越來(lái)越流行。
文件聚類是一種常見(jiàn)的信息挖掘技術(shù)，其用于發(fā)現(xiàn)文件之間的相似性和關(guān)系。文件聚類的目的是要將文件組織成若干有意義的群組，以使得同一群組中的文件具有高相似性或緊密關(guān)系，而屬于不同群組的文件彼此差別較大。聚類的過(guò)程是自動(dòng)的并且生成的群組不是預(yù)先定義的。聚類結(jié)果是有組織的文件集合，因此文件聚類被廣泛用在提高信息檢索和信息提取系統(tǒng)的效率的方案中，并且還被用在組織文件檢索結(jié)果，使得它們更便于瀏覽。由于Web中存在大量信息，因此聚類在實(shí)現(xiàn)Web域中的有效且準(zhǔn) 確的信息提取方面起到非常重要的作用。
Web文件聚類的目的是要將預(yù)先選擇的Web文件集合自動(dòng)劃分成若干有意義的群組(這些群組并非預(yù)先定義的)，并且確保同一群組中的文件之間的相似性或關(guān)系要比不同群組中的文件之間的相似性或關(guān)系強(qiáng)得多或緊密得多。另一方面，由于利用不同測(cè)量的標(biāo)準(zhǔn)可以得到關(guān)于文件之間相似性和關(guān)系的不同定義，因此對(duì)于同一文件集合，從不同方面能夠獲得不同的聚類分析結(jié)果。例如，聚類可被用于根據(jù)內(nèi)容類型將公司網(wǎng)站中的
某些與產(chǎn)品相關(guān)的網(wǎng)頁(yè)分組成新聞網(wǎng)頁(yè)組、廣告網(wǎng)頁(yè)組、購(gòu)物網(wǎng)頁(yè)組等等，或者可以根據(jù)產(chǎn)品類別將這些網(wǎng)頁(yè)分組成若千產(chǎn)品聚類，其中每個(gè)產(chǎn) 品聚類代表關(guān)于同一產(chǎn)品的所有網(wǎng)頁(yè)。因此，Web文件聚類的主要問(wèn)題在
于如何根據(jù)實(shí)際需求設(shè)計(jì)適當(dāng)?shù)木垲惙椒▉?lái)對(duì)Web文件執(zhí)行準(zhǔn)確而有效的聚類。
從技術(shù)的角度講，文件聚類方法的設(shè)計(jì)過(guò)程主要有兩步，即首先針對(duì) 特定的聚類目的選擇適當(dāng)并且有效的文件特征，然后基于選出的文件特征來(lái)建模適當(dāng)?shù)木垲悪C(jī)制。因此，下面將從這兩方面來(lái)回顧現(xiàn)有的技術(shù)方案。
從特征選擇方面，針對(duì)Web文件聚類的現(xiàn)有技術(shù)可被大致分成四類，它們分別考慮不同種類的特征進(jìn)行聚類(1)基于文件內(nèi)容的聚類； (2)基于超級(jí)鏈接信息(基于上下文)的聚類；(3)基于Web使用信息的聚類；以及(4)混合聚類。在傳統(tǒng)的文件聚類方案中，最常見(jiàn)的是基于文件內(nèi)容的聚類，其基于內(nèi)容相關(guān)的特征(主要是文件中的文本信息) 來(lái)進(jìn)行文件聚類。但是，內(nèi)容相關(guān)的特征不僅包括內(nèi)容中的文本信息，還可以包括網(wǎng)頁(yè)的HTML結(jié)構(gòu)。另外，由于超級(jí)鏈接是Web的一個(gè)主要特征，因此在Web文件聚類中，鏈接相關(guān)的特征與內(nèi)容相關(guān)的特征一樣重要，甚至更加重要。因此基于超級(jí)鏈接信息的聚類也變得越來(lái)越流行。另外，由于Web用戶的使用信息(例如瀏覽歷史、瀏覽路徑等等)可以被記錄下來(lái)，因此某些文件聚類方案使用這種使用信息來(lái)評(píng)價(jià)Web文件之間的關(guān)系。當(dāng)然，在一般情況下，由于很多網(wǎng)頁(yè)包括的文本信息很少并且具有不規(guī)則的HTML結(jié)構(gòu)，因此只考慮文件內(nèi)容是遠(yuǎn)遠(yuǎn)不夠的。另一方面，由于很多鏈接信息和瀏覽歷史是隨機(jī)的并且主觀的，因此只考慮超級(jí)鏈接信息或者Web使用信息也是不夠的。鑒于此，通常會(huì)設(shè)計(jì)混合聚類方法來(lái)進(jìn) 行文件聚類。
從聚類機(jī)制建模的方面，幾乎所有現(xiàn)有方案都基于對(duì)等相似性分析模型。具體而言，這些方案設(shè)計(jì)某些算法來(lái)直接或間接分析每對(duì)文件之間的相似性(通常由相似性值來(lái)表示)，然后根據(jù)上述分析結(jié)果對(duì)文件進(jìn)行聚類，即如果兩個(gè)文件之間具有高相似性，就將它們分組到同一聚類。用于
相似性分析的具體模型可以根據(jù)規(guī)則來(lái)設(shè)置，也可以通過(guò)機(jī)器學(xué)習(xí)來(lái)獲得。
以下將介紹幾種代表性的現(xiàn)有技術(shù)方案。
在V. Crescenzi、 P. Merialdo禾口 P. Missier的題為"Clustering Web Pages Based on Their Structure"的文章(Data & Knowledge Engineering 54 (2005) 279-299)(下稱文獻(xiàn)1)中，提出了一種通過(guò)分析鏈接組(link collection)(同一頁(yè)面上具有相同布局和呈現(xiàn)屬性的一組鏈接)和網(wǎng)頁(yè)文檔對(duì)象模型(DOM)結(jié)構(gòu)來(lái)對(duì)數(shù)據(jù)密集型網(wǎng)站上的頁(yè)面進(jìn)行聚類的方法。網(wǎng)站的進(jìn)入點(diǎn)是一個(gè)種子(seed)頁(yè)面，該種子頁(yè)面成為第一類中的第一個(gè)成員。然后該種子頁(yè)面上的多個(gè)鏈接組被提取出并被推入一個(gè)優(yōu)先級(jí)隊(duì) 列。然后，該隊(duì)列中的鏈接組之一被選出，并且獲取該選出的鏈接組中的鏈接所指向的頁(yè)面子集。然后，獲取的頁(yè)面根據(jù)它們的頁(yè)面結(jié)構(gòu)相似性被聚類，這里的頁(yè)面結(jié)構(gòu)相似性是針對(duì)頁(yè)面的DOM樹(shù)來(lái)定義的。以上過(guò)程被迭代，直到隊(duì)列變空為止。這里，最小描述長(zhǎng)度(MDL)標(biāo)準(zhǔn)可被用于判斷每個(gè)候選類是將被添加到模型的一個(gè)新類，還是將與現(xiàn)有類合并。
在X. He、 H. Zha、 CH.Q.Ding等人的題為"Web Document Clustering Using Hyperlink Structures " 的文章 (Computational Statistics & Data Analysis 41 (2002): 19-45)(下稱文獻(xiàn)2)中，用于網(wǎng)頁(yè)聚類的基本特征是超級(jí)鏈接結(jié)構(gòu)，并且文本信息和互引(co-citation)信息也被結(jié)合進(jìn)來(lái)。這種聚類方法的核心思想在于被鏈接在一起的網(wǎng)頁(yè)被視為更相似，從而聚類問(wèn)題被轉(zhuǎn)化成鏈接結(jié)構(gòu)分析問(wèn)題。另外，從鏈接結(jié)構(gòu)分析得出的相似性可以進(jìn)而根據(jù)基于文本信息的相似性信息進(jìn)行調(diào)整，并且如果兩個(gè)頁(yè)面是互引的話，相似性被進(jìn)一步增強(qiáng)。
日本專利申請(qǐng)JP2004-341942 (下稱文獻(xiàn)3)也提出一種文件聚類方法，其通過(guò)比較每對(duì)Web文件的域名、目錄名以及文件名來(lái)分析它們之間的相似性，從而對(duì)Web文件進(jìn)行聚類。
為了更好地理解本發(fā)明，上述專利和非專利文獻(xiàn)通過(guò)參考被整體上結(jié) 合于此。
但是，上述現(xiàn)有技術(shù)存在尚未解決的缺陷。對(duì)于文獻(xiàn)1的方法，其僅
可以針對(duì)嚴(yán)格的數(shù)據(jù)密集型網(wǎng)站中的頁(yè)面進(jìn)行聚類。對(duì)于其他類型的網(wǎng) 站，它可能不起作用，因?yàn)樵卺槍?duì)非嚴(yán)格數(shù)據(jù)密集型網(wǎng)站的情況下，結(jié)構(gòu) 上的相似性無(wú)法暗示主題或內(nèi)容上的相似性。因此，該文獻(xiàn)1的方法的適用面較窄，在一般性情況下，該方法可能無(wú)法獲得高準(zhǔn)確性。對(duì)于文獻(xiàn)2 的方案，其使用基于學(xué)習(xí)的聚類算法，因此手工收集和標(biāo)注樣本集的過(guò)程仍然是限制效率的瓶頸。并且該方法過(guò)于一般化，而無(wú)法確保針對(duì)特定情況能夠獲得足夠的準(zhǔn)確性。文獻(xiàn)3的方案不能處理常規(guī)情況，因?yàn)榇蠖鄶?shù)
網(wǎng)站的URL (尤其對(duì)于具有基于參數(shù)的URL的動(dòng)態(tài)網(wǎng)站)不是規(guī)范化的。因此，鑒于以上分析可以看出，在準(zhǔn)確性和效率方面的不足仍舊是現(xiàn) 有的聚類方案的共有缺陷。
另一方面，對(duì)于聚類方案的效率而言，現(xiàn)有技術(shù)還有另一個(gè)尚未解決的問(wèn)題。由于現(xiàn)有方案都是基于對(duì)等相似性分析的，因此所生成的聚類只具有平坦結(jié)構(gòu)，即除了知道不同聚類中的文件沒(méi)有同一聚類中的文件相似性高之外，不清楚不同聚類之間的關(guān)系。因此聚類結(jié)果只能反映單個(gè)方面或單個(gè)級(jí)別上的文件之間的相似性。要想轉(zhuǎn)換相似性判斷的方面或級(jí)別，需要花費(fèi)很多工作來(lái)修改聚類的特征和模型。例如，對(duì)于一個(gè)公司網(wǎng)站中的產(chǎn)品頁(yè)面的聚類分析，我們可以根據(jù)不同產(chǎn)品來(lái)組合頁(yè)面，即一個(gè)聚類代表一種產(chǎn)品，或者我們還可以根據(jù)不同產(chǎn)品類別來(lái)組合頁(yè)面，即一個(gè)聚類代表一種產(chǎn)品類別。其中第二種聚類目標(biāo)具有比第一種更高的相似性級(jí) 別，并且它們可能以某種分層結(jié)構(gòu)彼此相關(guān)。但是，現(xiàn)有技術(shù)無(wú)法在同一時(shí)間實(shí)現(xiàn)這兩種聚類結(jié)果。雖然可以成功地獲得聚類結(jié)果，但是無(wú)法使兩種聚類結(jié)果自動(dòng)關(guān)聯(lián)起來(lái)。因此，從總體上看，現(xiàn)有技術(shù)的聚類方法效率較低。

發(fā)明內(nèi)容
鑒于上述聚類的方法具有效率以及準(zhǔn)確性較低的問(wèn)題，作出了本發(fā)明。
根據(jù)本發(fā)明的一個(gè)方面，提供了一種用于網(wǎng)絡(luò)文件聚類的方法，其包括以下步驟輸入多個(gè)網(wǎng)絡(luò)文件；收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系
和目錄結(jié)構(gòu)；根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu)，提取出所述多個(gè)網(wǎng)絡(luò)文件的
分層結(jié)構(gòu)；以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多
個(gè)聚類。
根據(jù)本發(fā)明的另一方面，提供了一種用于網(wǎng)絡(luò)文件聚類的系統(tǒng)，其包
括輸入裝置，用于輸入多個(gè)網(wǎng)絡(luò)文件；收集裝置，用于收集所述多個(gè)網(wǎng) 絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)；提取裝置，用于根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu)，提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu)；以及輸出裝置，用于基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。
在本發(fā)明的實(shí)施例中，與現(xiàn)有技術(shù)類似的是同樣采用網(wǎng)站中網(wǎng)頁(yè)之間超級(jí)鏈接關(guān)系作為網(wǎng)絡(luò)文件聚類的基本特征。但是，所不同的是，在本發(fā) 明中，超級(jí)鏈接關(guān)系被用來(lái)提取網(wǎng)絡(luò)文件之間的分層(父-子)結(jié)構(gòu)，進(jìn)而實(shí)現(xiàn)聚類。對(duì)于網(wǎng)頁(yè)之間分層的父-子結(jié)構(gòu)的提取，本發(fā)明采用了一種基于鏈接關(guān)系分析的算法，即通過(guò)比較每對(duì)文件之間的鏈入鏈接集合和鏈出鏈接集合，來(lái)首先獲得基于鏈接關(guān)系的分層結(jié)構(gòu)。然后，如果這些網(wǎng)絡(luò)文件具有域目錄結(jié)構(gòu)，就將該目錄結(jié)構(gòu)直接合并到提取出的上述基于鏈接關(guān)系的分析結(jié)果，從而產(chǎn)生最終的分層結(jié)構(gòu)。在一個(gè)實(shí)施例中，產(chǎn)生的分層結(jié) 構(gòu)是一種文件樹(shù)，隨后利用該文件樹(shù)執(zhí)行對(duì)文件進(jìn)行聚類。在該文件樹(shù) 上，在任意深度上的一個(gè)文件與其所有子節(jié)點(diǎn)一起構(gòu)成一個(gè)聚類。因此，不同聚類之間的級(jí)別關(guān)系與整個(gè)文件樹(shù)上的節(jié)點(diǎn)關(guān)系相符。換言之，根據(jù) 本發(fā)明的聚類方法不僅能夠?qū)崿F(xiàn)網(wǎng)絡(luò)文件的聚類，還可以自動(dòng)獲得不同聚類之間的層次關(guān)系。
另外，由于本發(fā)明的聚類方法利用鏈入鏈接和鏈出鏈接集合之間的包含關(guān)系作為特征進(jìn)行聚類，因此可以減小隨機(jī)的或無(wú)意義的超級(jí)鏈接信息的干擾，從而可以大大提高聚類的準(zhǔn)確性。另一方面，特征的使用不是基于學(xué)習(xí)的而是基于簡(jiǎn)單規(guī)則的，因此可以獲得令人滿意的效率。
另外，如上所述，由于根據(jù)本發(fā)明的聚類結(jié)果不僅包括聚類，還包括聚類之間的分層關(guān)系，因此本發(fā)明可以同時(shí)獲得不同相似性級(jí)別上的聚類結(jié)果，并且這些結(jié)果是相關(guān)的。這從整體上進(jìn)一步提高了聚類的效率。
另外，作為附加和可選結(jié)果，根據(jù)本發(fā)明生成的文件集合的分層結(jié)構(gòu)
(即文件樹(shù))還可被用于實(shí)現(xiàn)其他Web信息提取任務(wù)。
從下面結(jié)合附圖的詳細(xì)描述中，可以看出本發(fā)明的其他特征和優(yōu)點(diǎn)。注意，本發(fā)明并不限于圖中所示的示例或者任何具體的實(shí)施例。

結(jié)合附圖，從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述，將更好地理解本發(fā) 明，附圖中類似的參考標(biāo)記指示類似的部分，其中
圖1是示出根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100的結(jié)構(gòu)框
圖2是示出圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例200的流程圖3是示出基于網(wǎng)絡(luò)文件之間的分層結(jié)構(gòu)實(shí)現(xiàn)文件聚類的一個(gè)示例的
示意圖，其中示出網(wǎng)絡(luò)文件分層結(jié)構(gòu)300a以及基于其生成的聚類結(jié)構(gòu)
300b;
圖4是示出根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100a的結(jié)構(gòu)框
圖5是示出圖4所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例500的流程圖；圖6是示出圖5中的根據(jù)鏈接組修訂分層結(jié)構(gòu)的過(guò)程的一個(gè)示例的示意圖；以及
圖7示出本發(fā)明的一個(gè)應(yīng)用示例，其被用于實(shí)現(xiàn)某公司網(wǎng)站中的產(chǎn)品相關(guān)的網(wǎng)頁(yè)聚類。
具體實(shí)施例方式
下面參考附圖描述根據(jù)本發(fā)明的示例性實(shí)施例。應(yīng)當(dāng)意識(shí)到，所描述的實(shí)施例僅是用于舉例說(shuō)明的目的，本發(fā)明并不限于所描述的具體實(shí)施
圖1是示出根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100的結(jié)構(gòu)框圖。如圖所示，該系統(tǒng)100包括輸入裝置101、收集裝置102、提取裝置 103、輸出裝置104以及網(wǎng)絡(luò)文件庫(kù)105。該系統(tǒng)100利用輸入裝置101從網(wǎng)絡(luò)文件庫(kù)105獲取多個(gè)網(wǎng)絡(luò)文件，并經(jīng)過(guò)一系列處理之后，從輸出裝置
104輸出網(wǎng)絡(luò)文件聚類結(jié)果以及各個(gè)聚類之間的分層關(guān)系。網(wǎng)絡(luò)文件庫(kù)
105可以存儲(chǔ)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)&網(wǎng)頁(yè)解析模塊(未示出)從網(wǎng)絡(luò)上獲取的網(wǎng)
絡(luò)文件的集合。
下面將參考圖2來(lái)描述圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)100的工作過(guò)程。圖2是示出圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例200的流程圖。該過(guò)程 200開(kāi)始于通過(guò)輸入裝置101輸入多個(gè)網(wǎng)絡(luò)文件(步驟201)。然后在步驟202處，收集裝置102收集輸入的網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu) 信息。收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息將作為直接源數(shù)據(jù)被提供到提取裝置103，以用于分層結(jié)構(gòu)提取過(guò)程。在收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息被提供到提取裝置103之后，在步驟203中，提取裝置103提取出整個(gè)網(wǎng)絡(luò) 文件集合的分層結(jié)構(gòu)，即分析得出網(wǎng)絡(luò)文件之間的父子關(guān)系。然后在步驟 204中，輸出裝置104使用提取裝置103產(chǎn)生的分層結(jié)構(gòu)對(duì)網(wǎng)絡(luò)文件進(jìn)行聚類，同時(shí)還可以獲得聚類之間的分層關(guān)系。然后，該過(guò)程結(jié)束。
如上所述，網(wǎng)絡(luò)文件的直接和外在的關(guān)系信息(包括超級(jí)鏈接信息和目錄結(jié)構(gòu)信息)是提取網(wǎng)絡(luò)文件分層結(jié)構(gòu)所需的直接源數(shù)據(jù)，它們被視為分層結(jié)構(gòu)提取所需的特征，因此從網(wǎng)絡(luò)文件中提取并收集鏈接關(guān)系和目錄結(jié)構(gòu)信息是本發(fā)明中的一個(gè)很重要的預(yù)處理過(guò)程。下面將對(duì)此進(jìn)行詳細(xì)描述。
首先考慮網(wǎng)絡(luò)文件的目錄結(jié)構(gòu)，其可以通過(guò)檢査和獲取Web服務(wù)器的分層目錄結(jié)構(gòu)而被提取出。所述分層目錄結(jié)構(gòu)例如可以通過(guò)網(wǎng)絡(luò)文件的 URL來(lái)體現(xiàn)。例如，具有URLhttp:〃www.abc.com/d的文件在目錄結(jié)構(gòu)上是具有URL http:〃www.abc.com/d/e.html的文件的父。目錄結(jié)構(gòu)信息提取的實(shí)現(xiàn)方式是對(duì)每對(duì)文件的URL執(zhí)行基于規(guī)則的判斷。已知每個(gè)URL可以被視為包含兩部分，即目錄路徑和文件名。例如，對(duì)于URL http:〃www.abc.com/d/e.html，目錄路徑為http:〃www.abc.com/d，文件名為 e.html。在一個(gè)示例中，我們首先將不帶文件名的URL視為其相應(yīng)文件是所述URL的目錄路徑的索引(index)文件。另外，我們還可以將具有特定指示性文件名(例如index.*、 default.*、 home,等)的那些文件也視為索引文件。這樣一來(lái)，目錄結(jié)構(gòu)中的父子關(guān)系可以被如下定義如果文件
A是索引文件并且文件A和B具有相同的目錄路徑，則認(rèn)為文件A在目錄結(jié)構(gòu)上是文件B的父。提取出的目錄結(jié)構(gòu)信息被設(shè)置為一個(gè)二元組集合
K父，子)l父與子處于獲取的網(wǎng)絡(luò)文件集合內(nèi)，并且在目錄結(jié)構(gòu)上父是子
的父}。應(yīng)該注意，這里所述定義目錄結(jié)構(gòu)上父子關(guān)系的規(guī)則僅僅作為一
個(gè)示例，本領(lǐng)域技術(shù)人員可以設(shè)想其他規(guī)則來(lái)基于Web服務(wù)器上的目錄結(jié)構(gòu)來(lái)提取網(wǎng)絡(luò)文件之間的父子關(guān)系。
由于目錄結(jié)構(gòu)信息是分層的，因此它已經(jīng)反映出所需網(wǎng)絡(luò)文件集合的分層結(jié)構(gòu)的部分信息。因此，接下來(lái)的任務(wù)應(yīng)該是針對(duì)那些在目錄結(jié)構(gòu)上不具有父子關(guān)系的文件對(duì)，識(shí)別它們之間的父子關(guān)系，即提取潛在的分層結(jié)構(gòu)。這可以通過(guò)分析網(wǎng)絡(luò)文件之間的超級(jí)鏈接關(guān)系來(lái)實(shí)現(xiàn)。
超級(jí)鏈接是從一個(gè)文件(即源文件)到另一文件(即目標(biāo)文件)的導(dǎo) 航鏈接。超級(jí)鏈接暗示出源文件和目標(biāo)文件之間的上下文或內(nèi)容連接。超級(jí)鏈接的提取可以利用任何本領(lǐng)域公知技術(shù)，例如通過(guò)解析每個(gè)網(wǎng)絡(luò)文件的html源代碼，因此這里不再對(duì)此進(jìn)行贅述。提取出的網(wǎng)絡(luò)文件集合的超級(jí)鏈接信息也被設(shè)置為一個(gè)二元組集合{(源，目標(biāo))l源和目標(biāo)處于獲取的網(wǎng)絡(luò)文件集合內(nèi)，并且從源到目標(biāo)存在至少一個(gè)超級(jí)鏈接}。
通常，如果一組網(wǎng)絡(luò)文件都涉及某個(gè)主題，則從外部指向該群組的鏈接被鏈接到群組中高層文件的可能性遠(yuǎn)遠(yuǎn)大于被鏈接到低層文件的可能性，并且指向群組中低層文件的鏈接大多數(shù)情況下都來(lái)自群組中的其他文件。基于以上知識(shí)，基于鏈接關(guān)系的文件之間的父子關(guān)系可以被如下定義如果文件B的鏈入超級(jí)鏈接集合是文件A的鏈出超級(jí)鏈接集合的子集，則認(rèn)為文件A是文件B的父。應(yīng)該注意，這里所述基于鏈接關(guān)系定義分層結(jié)構(gòu)的父子關(guān)系的規(guī)則僅僅作為一個(gè)示例，本領(lǐng)域技術(shù)人員可以設(shè) 想其他規(guī)則來(lái)基于網(wǎng)絡(luò)文件的聯(lián)接關(guān)系提取分層結(jié)構(gòu)。
基于以上描述，通過(guò)合并對(duì)網(wǎng)絡(luò)文件之間的目錄結(jié)構(gòu)和鏈接關(guān)系的分析結(jié)果，可以得到一種總體上的分層結(jié)構(gòu)，該分層結(jié)構(gòu)被用于表征一個(gè)網(wǎng) 絡(luò)文件集合中的網(wǎng)絡(luò)文件之間的父子關(guān)系。例如，假設(shè)S是一個(gè)網(wǎng)絡(luò)文件集合，H(S)是S的分層結(jié)構(gòu)，D是S上的目錄結(jié)構(gòu)，Pi、 Pj是S中的兩個(gè) 文件，并且OUTi(S)和INj(S)分別表示Pi的鏈出鏈接集合和Pj的鏈入鏈
接集合，則Pi和Pj之間的父子關(guān)系被如下定義 (《,尸乂) e雄)。((S,尸;)e D) v ((967; (S) 2 /A") (5))
如圖3所示，其示出網(wǎng)絡(luò)文件分層結(jié)構(gòu)的一個(gè)示例300a，以及基于其
生成的聚類結(jié)構(gòu)300b。如圖所示，網(wǎng)絡(luò)文件的分層結(jié)構(gòu)300a被組織成文件樹(shù)的形式，其中頁(yè)面A是頁(yè)面Al和A2的父，頁(yè)面Al進(jìn)而是頁(yè)面 All、 A12、 A13的父，頁(yè)面A2進(jìn)而是頁(yè)面A21和A22的父。并且，頁(yè) 面All是頁(yè)面Alll和A112的父。
返回圖2，在提取出分層結(jié)構(gòu)之后，該結(jié)果可被直接用于網(wǎng)絡(luò)文件聚類(步驟204)。通常，每個(gè)文件及其子文件、孫子文件都涉及同一主題，因此我們可以將它們組成一個(gè)文件聚類，并將所述文件稱為該聚類的中心文件。例如，如圖3所示，頁(yè)面A11與其子頁(yè)面A111和A112可以被組成一個(gè)聚類All，并且以頁(yè)面All作為該聚類的中心文件。再進(jìn)一步，頁(yè)面Al可以與聚類All、頁(yè)面A12和A13組成另一聚類Al，以此類推。因此，如圖3中的聚類結(jié)構(gòu)300b所示，這些中心文件的分層結(jié)構(gòu) 可以自動(dòng)得到分層的聚類結(jié)果。并且在得到聚類結(jié)果的同時(shí)，這些聚類之間的分層關(guān)系也已經(jīng)清楚地獲得。另外，作為中間結(jié)果的網(wǎng)絡(luò)文件集合的分層結(jié)構(gòu)還可以被用于其它與信息提取相關(guān)的任務(wù)。
圖4是示出根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100a的結(jié)構(gòu) 框圖。與圖l所示的第一實(shí)施例相對(duì)照，圖4所示系統(tǒng)的區(qū)別在于還包括修訂裝置106和噪聲去除裝置107。修訂裝置106耦合在提取裝置103和輸出裝置104之間，用于對(duì)提取裝置103生成的分層結(jié)構(gòu)進(jìn)行修訂。噪聲去除裝置107也耦合到提取裝置103，用于與提取裝置103交互以在提取分層結(jié)構(gòu)的過(guò)程中去除可能影響提取精確性的鏈接噪聲。聚類系統(tǒng)100a 的其他組件在功能上類似于圖1所示系統(tǒng)100，因此這里不再對(duì)它們進(jìn)行贅述。
圖5是示出圖4所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例500的流程圖。類似于圖2所示過(guò)程，該過(guò)程500開(kāi)始于輸入多個(gè)網(wǎng)絡(luò)文件(步驟501)。在步驟502中，輸入的網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)被提取并收集。然后在步驟503中，基于收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息提取出這些
網(wǎng)絡(luò)文件的分層結(jié)構(gòu)。這里，不同于第一實(shí)施例，在提取分層結(jié)構(gòu)的過(guò)程中，噪聲去除裝置107被用于去除鏈接噪聲。這里所述的鏈接噪聲是在大多數(shù)實(shí)際網(wǎng)站中，為了便于瀏覽而從低層文件返回高層文件的鏈接。在一個(gè)示例中，分層結(jié)構(gòu)的提取是個(gè)反復(fù)進(jìn)行的收斂過(guò)程，噪聲去除裝置107 可以通過(guò)在每次分層結(jié)構(gòu)結(jié)束后，從鏈接關(guān)系中刪除分層結(jié)果中從子到父或者從孫子到父這樣的反向鏈接來(lái)去除鏈接噪聲，并基于改善后的鏈接關(guān) 系進(jìn)行下一次的分層結(jié)構(gòu)提取，直至分層結(jié)構(gòu)的結(jié)果沒(méi)有變化(即收斂) 為止。但是，本發(fā)明并不局限于此，本領(lǐng)域技術(shù)人員可以設(shè)想其他方式來(lái) 去除鏈接關(guān)系中的鏈接噪聲。
雖然已經(jīng)去除了分層結(jié)構(gòu)中可能存在的鏈接噪聲，但是在實(shí)際Web
中，仍然可能存在某些不合理或者錯(cuò)誤的超級(jí)鏈接，因此最終的聚類將或多或少地存在某些錯(cuò)誤。為了得到更準(zhǔn)確的結(jié)果，已經(jīng)去除了鏈接噪聲的
分層結(jié)構(gòu)被提供到修訂裝置106以進(jìn)一步對(duì)分層結(jié)構(gòu)進(jìn)行修訂(步驟 504)。在該實(shí)施例中，所述修訂是基于鏈接組分析來(lái)進(jìn)行的。但是，分層結(jié)構(gòu)的修訂并不局限于這里所述的示例，本領(lǐng)域技術(shù)人員容易想到其他方法來(lái)進(jìn)行分層結(jié)構(gòu)的修訂。
上面已經(jīng)描述，鏈接組是同一頁(yè)面上具有相同布局和呈現(xiàn)屬性的一組鏈接，它通常代表該頁(yè)面上的一個(gè)語(yǔ)義塊(semantic block)。通常，在同一鏈接組內(nèi)的鏈接的目的地可能處于同一語(yǔ)義層級(jí)上，即從頁(yè)面作者的角度看應(yīng)該被聚類在一起。因此，我們可以通過(guò)補(bǔ)充同一鏈接組中未出現(xiàn)在分層結(jié)構(gòu)上的鏈接來(lái)對(duì)分層結(jié)構(gòu)進(jìn)行自動(dòng)修訂。
例如，如圖6所示，其示出根據(jù)鏈接組修訂分層結(jié)構(gòu)的過(guò)程的一個(gè)示例。已知提取裝置103提取出分層結(jié)構(gòu)600a，其中頁(yè)面P在分層結(jié)構(gòu)上是頁(yè)面Pl、 P2、 P3禾B P4的父，頁(yè)面Pl、 P2、 P3禾Q P4構(gòu)成集合Son(P)。如果頁(yè)面P具有鏈接組LC，并且LC中的大多數(shù)目的地都在集合Son(P) 中，則認(rèn)為L(zhǎng)C的其他目的地也是P的子，并將它們補(bǔ)充到分層結(jié)構(gòu)上。如圖6所示，頁(yè)面P的鏈接組LC包括頁(yè)面P1、 P2、 P3、 P4、 P5和P6。由于P1、 P2、 P3、 P4已經(jīng)在分層結(jié)構(gòu)上被識(shí)別為頁(yè)面P的子，因此認(rèn)為頁(yè)面P5和P5也應(yīng)該是頁(yè)面P的子，并將它們補(bǔ)充到分層結(jié)構(gòu)上，以生成
修訂后的分層結(jié)構(gòu)600b。圖6所示修訂過(guò)程僅僅作為一個(gè)示例，本發(fā)明
并不局限于該具體示例。
返回圖5，在對(duì)分層結(jié)構(gòu)進(jìn)行修訂之后，在步驟505中，經(jīng)修訂的分層結(jié)構(gòu)被用來(lái)進(jìn)行文件聚類，以獲取最終的聚類結(jié)果和各個(gè)聚類之間的層次關(guān)系。然后，該過(guò)程結(jié)束。
以上已經(jīng)結(jié)合附圖詳細(xì)描述了本發(fā)明的第一和第二實(shí)施例。下面將參考圖7來(lái)描述本發(fā)明的一個(gè)應(yīng)用示例。在該示例中，本發(fā)明被用于實(shí)現(xiàn)某公司網(wǎng)站中的產(chǎn)品相關(guān)的網(wǎng)頁(yè)聚類，以準(zhǔn)確而有效地從該公司網(wǎng)站中提取出產(chǎn)品及其描述(profile)信息。
該過(guò)程700開(kāi)始于輸入整個(gè)公司網(wǎng)站(步驟701)。然后，在步驟 702中，首先對(duì)該網(wǎng)站上的網(wǎng)頁(yè)進(jìn)行過(guò)濾，以僅保留可能與產(chǎn)品相關(guān)的網(wǎng) 頁(yè)，即濾除掉不相關(guān)的網(wǎng)頁(yè)，例如公司簡(jiǎn)介、新聞等等。然后在步驟 703，進(jìn)一步執(zhí)行過(guò)濾，以僅保留可能與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)，即濾除掉那些不帶有描述信息的產(chǎn)品相關(guān)頁(yè)，例如產(chǎn)品列表頁(yè)面。這兩個(gè)過(guò)濾過(guò)程可以利用任何現(xiàn)有技術(shù)來(lái)實(shí)現(xiàn)，例如基于關(guān)鍵字的過(guò)濾方法。顯而易見(jiàn)，
通過(guò)過(guò)濾可以預(yù)先防止噪聲信息被引入聚類，從而有助于提高聚類的準(zhǔn)確性和效率。
然后，針對(duì)與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)子集，利用本發(fā)明的方法來(lái)執(zhí)行產(chǎn) 品文件聚類，即步驟710，其中包括的子步驟704-707對(duì)應(yīng)于圖5所示本發(fā)明第二實(shí)施例的過(guò)程。首先，在步驟704中，該網(wǎng)頁(yè)子集的鏈接關(guān)系和目錄結(jié)構(gòu)信息被收集。這里，不同于第二實(shí)施例，針對(duì)每個(gè)網(wǎng)頁(yè)的鏈入鏈接和鏈出鏈接并不局限于該與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)子集，而是可以被擴(kuò)展到與產(chǎn)品相關(guān)的網(wǎng)頁(yè)集合，即步驟702的輸出。這樣做是為了進(jìn)一步增強(qiáng) 網(wǎng)頁(yè)聚類的準(zhǔn)確性，因?yàn)槌伺c產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)之外的其他產(chǎn)品相關(guān) 網(wǎng)頁(yè)也可能給出關(guān)于產(chǎn)品網(wǎng)頁(yè)聚類的線索。然后在步驟705中，該網(wǎng)頁(yè)子集中的與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)之間的分層結(jié)構(gòu)被提取出，該過(guò)程類似于圖 5所示的分層結(jié)構(gòu)提取過(guò)程。然后在步驟706中對(duì)分層結(jié)構(gòu)進(jìn)行修訂。這里，不同于第二實(shí)施例，由于能夠知道整個(gè)網(wǎng)站中所有網(wǎng)頁(yè)的鏈接關(guān)系，因此分層結(jié)構(gòu)上頂層的頁(yè)面也可以被修訂。因此，不僅分層結(jié)構(gòu)提取中出
現(xiàn)的錯(cuò)誤，還有網(wǎng)頁(yè)過(guò)濾中出現(xiàn)的錯(cuò)誤都可以被修訂，從而進(jìn)一步提高了最終網(wǎng)頁(yè)聚類的準(zhǔn)確性。然后，在步驟707，基于經(jīng)修訂的分層結(jié)構(gòu)來(lái)進(jìn) 行產(chǎn)品網(wǎng)頁(yè)識(shí)別(聚類)。由于該網(wǎng)頁(yè)子集只包括與產(chǎn)品描述相關(guān)的網(wǎng) 頁(yè)，因此在分層結(jié)構(gòu)的頂層上的每個(gè)網(wǎng)頁(yè)應(yīng)該代表一種產(chǎn)品，并且該網(wǎng)頁(yè) 的所有子構(gòu)成關(guān)于該產(chǎn)品的完整描述。
然后，在完成產(chǎn)品網(wǎng)頁(yè)聚類之后，可以將來(lái)自每個(gè)產(chǎn)品的所有描述網(wǎng)
頁(yè)組合在一起以獲得關(guān)于該產(chǎn)品的完整描述(步驟708)。在步驟709，所有產(chǎn)品及其完整描述被輸出。然后，該過(guò)程700結(jié)束。以上描述了本發(fā) 明的一個(gè)應(yīng)用示例。但是，容易理解，本發(fā)明并不局限于該具體應(yīng)用。本領(lǐng)域技術(shù)人員容易設(shè)想，本發(fā)明也可以被應(yīng)用于其它網(wǎng)絡(luò)信息識(shí)別、聚類、分析的應(yīng)用。
以上分別描述了根據(jù)本發(fā)明第一實(shí)施例和第二實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)和方法。通過(guò)提取網(wǎng)絡(luò)文件之間的分層結(jié)構(gòu)，根據(jù)本發(fā)明的聚類方法不僅能夠?qū)崿F(xiàn)網(wǎng)絡(luò)文件的聚類，還可以自動(dòng)獲得不同聚類之間的層次關(guān) 系。
另外，由于本發(fā)明的聚類方法利用鏈入鏈接和鏈出鏈接集合之間的包括關(guān)系作為特征進(jìn)行聚類，因此可以減小隨機(jī)的或無(wú)意義的超級(jí)鏈接信息的干擾，從而可以大大提高聚類的準(zhǔn)確性。另一方面，特征的使用不是基于學(xué)習(xí)的而是基于簡(jiǎn)單規(guī)則的，因此可以獲得令人滿意的效率。
另外，如上所述，由于根據(jù)本發(fā)明的聚類結(jié)果不僅包括聚類，還包括各個(gè)聚類之間的分層關(guān)系，因此本發(fā)明可以同時(shí)獲得不同相似性級(jí)別上的聚類結(jié)果，并且這些結(jié)果是相關(guān)的。這從整體上進(jìn)一步提高了聚類的效率。
上面己經(jīng)參考附圖描述了根據(jù)本發(fā)明的具體實(shí)施例。但是，本發(fā)明并不限于圖中示出的特定配置和處理。另外，為了簡(jiǎn)明起見(jiàn)，這里省略對(duì)已知方法技術(shù)的詳細(xì)描述。在上述實(shí)施例中，描述和示出了若干具體的步驟作為示例。但是，本發(fā)明的方法過(guò)程并不限于所描述和示出的具體步驟，本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì)本發(fā)明的精神之后，作出各種改變、修改和添加，或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合，并且可以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí)，本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段可以存儲(chǔ)在機(jī)器可讀介質(zhì)中，或者通過(guò)載波中攜帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì) 或者通信鏈路上傳送。"機(jī)器可讀介質(zhì)"可以包括能夠存儲(chǔ)或傳輸信息的任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、
ROM、閃存、可擦除ROM (EROM)、軟盤、CD-ROM、光盤、硬盤、光纖介質(zhì)、射頻(RF)鏈路，等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián) 網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。
本發(fā)明可以以其他的具體形式實(shí)現(xiàn)，而不脫離其精神和本質(zhì)特征。例如，特定實(shí)施例中所描述的算法可以被修改，而系統(tǒng)體系結(jié)構(gòu)并不脫離本發(fā)明的基本精神。因此，當(dāng)前的實(shí)施例在所有方面都被看作是示例性的而非限定性的，本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義，并且，落入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的范圍之中。
權(quán)利要求
1. 一種用于網(wǎng)絡(luò)文件聚類的方法，包括以下步驟輸入多個(gè)網(wǎng)絡(luò)文件；收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)；根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu)，提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu)；以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。
2. 如權(quán)利要求1所述的方法，還包括輸出所述聚類之間的層次關(guān)系。
3. 如權(quán)利要求1所述的方法，還包括在提取出所述分層結(jié)構(gòu)之后，根據(jù)各個(gè)網(wǎng)絡(luò)文件的鏈接組對(duì)所述提取出的分層結(jié)構(gòu)進(jìn)行修訂。
4. 如權(quán)利要求1所述的方法，其中所述提取分層結(jié)構(gòu)的步驟包括根據(jù)所述目錄結(jié)構(gòu)確定第一分層結(jié)構(gòu)；針對(duì)所述輸入的多個(gè)網(wǎng)絡(luò)文件中在所述第一分層結(jié)構(gòu)中沒(méi)有涉及的網(wǎng) 絡(luò)文件，根據(jù)它們的所述鏈接關(guān)系確定第二分層結(jié)構(gòu)；并且合并所述第一分層結(jié)構(gòu)和第二分層結(jié)構(gòu)以確定最終的分層結(jié)構(gòu)。
5. 如權(quán)利要求4所述的方法，其中所述第一分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件A是索引文件并且網(wǎng)絡(luò)文件A和網(wǎng)絡(luò)文件B具有相同的目錄路徑，則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父，所述第二分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件B的鏈入鏈接集合是網(wǎng)絡(luò)文件A的鏈出鏈接集合的子集，則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父。
6. 如權(quán)利要求1所述的方法，還包括在提取所述分層結(jié)構(gòu)的過(guò)程中去除所述收集的鏈接關(guān)系中的鏈接噪聲。
7. 如權(quán)利要求1所述的方法，其中所述聚類包括中心網(wǎng)絡(luò)文件以及在所述分層結(jié)構(gòu)上與其直接或間接耦合的所有子節(jié)點(diǎn)和孫子節(jié)點(diǎn)處的網(wǎng)絡(luò)文件。
8. —種用于網(wǎng)絡(luò)文件聚類的系統(tǒng)，包括輸入裝置，用于輸入多個(gè)網(wǎng)絡(luò)文件；收集裝置，用于收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)；提取裝置，用于根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu)，提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu)；以及輸出裝置，用于基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè) 或多個(gè)聚類。
9. 如權(quán)利要求8所述的系統(tǒng)，其中所述輸出裝置還輸出所述聚類之間的層次關(guān)系。
10. 如權(quán)利要求8所述的系統(tǒng)，還包括耦合在所述提取裝置和所述輸出裝置之間的修訂裝置，用于在提取出所述分層結(jié)構(gòu)之后，根據(jù)各個(gè)網(wǎng)絡(luò)文件的鏈接組對(duì)所述提取出的分層結(jié)構(gòu)進(jìn)行修訂。
11. 如權(quán)利要求8所述的系統(tǒng)，其中所述提取裝置被配置為根據(jù)所述目錄結(jié)構(gòu)確定第一分層結(jié)構(gòu)；針對(duì)所述輸入的多個(gè)網(wǎng)絡(luò)文件中在所述第一分層結(jié)構(gòu)中沒(méi)有涉及的網(wǎng)絡(luò)文件，根據(jù)它們的所述鏈接關(guān)系確定第二分層結(jié)構(gòu)；并且合并所述第一分層結(jié)構(gòu)和第二分層結(jié)構(gòu)以確定最終的分層結(jié)構(gòu)。
12. 如權(quán)利要求11所述的系統(tǒng)，其中所述第一分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件A是索引文件并且網(wǎng)絡(luò)文件A和網(wǎng)絡(luò)文件B具有相同的目錄路徑，則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父，所述第二分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件B的鏈入鏈接集合是網(wǎng)絡(luò)文件A的鏈出鏈接集合的子集，則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父。
13. 如權(quán)利要求8所述的系統(tǒng)，還包括耦合到所述提取裝置的噪聲去除裝置，用于在提取所述分層結(jié)構(gòu)的過(guò) 程中去除所述收集的鏈接關(guān)系中的鏈接噪聲。
14.如權(quán)利要求8所述的系統(tǒng)，其中所述聚類包括中心網(wǎng)絡(luò)文件以及在所述分層結(jié)構(gòu)上與其直接或間接耦合的所有子節(jié)點(diǎn)和孫子節(jié)點(diǎn)處的網(wǎng)絡(luò) 文件。
全文摘要
本發(fā)明提供了用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)。該網(wǎng)絡(luò)文件聚類方法包括輸入多個(gè)網(wǎng)絡(luò)文件；收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)；根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu)，提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu)；以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。在一些實(shí)施例中，還可以同時(shí)輸出聚類之間的層次關(guān)系。相比現(xiàn)有技術(shù)，本發(fā)明所采用的網(wǎng)絡(luò)文件聚類方法可以大大提高網(wǎng)絡(luò)文件聚類的準(zhǔn)確性和效率。
文檔編號(hào)G06F17/30GK101388013SQ20071014956
公開(kāi)日2009年3月18日申請(qǐng)日期2007年9月12日優(yōu)先權(quán)日2007年9月12日
發(fā)明者李建強(qiáng), 彧趙申請(qǐng)人:日電(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙彧;李建強(qiáng)
技術(shù)所有人：日電（中國(guó)）有限公司
我是此專利的發(fā)明人

上一篇：用于文件信息移動(dòng)處理的方法和裝置的制作方法
上一篇：提供輸入編輯后的翻譯詞句的系統(tǒng)及其方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

系統(tǒng)聚類方法相關(guān)技術(shù)

系統(tǒng)聚類分析方法相關(guān)技術(shù)

復(fù)雜網(wǎng)絡(luò)聚類方法相關(guān)技術(shù)

系統(tǒng)聚類相關(guān)技術(shù)

系統(tǒng)聚類法相關(guān)技術(shù)

系統(tǒng)聚類分析相關(guān)技術(shù)

spss系統(tǒng)聚類相關(guān)技術(shù)

spss系統(tǒng)聚類分析步驟相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)的制作方法