專利名稱:用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及Web信息提取和挖掘技術(shù),更具體而言,涉及用于網(wǎng)絡(luò)文 件聚類(cluster)的方法和系統(tǒng)。
背景技術(shù):
當(dāng)今,萬(wàn)維網(wǎng)(WWW)已經(jīng)成為一種用于發(fā)布和獲取信息的流行并 且重要的媒介,其具有信息量大、多樣性、異構(gòu)性(heterogeneous)、分 布式等特點(diǎn),并且其中很多信息不是外在可見(jiàn)的。Web信息提取與挖掘技 術(shù)能夠幫助人們最大限度地利用Web和信息。實(shí)際上,Web信息提取和 挖掘已經(jīng)變成非常熱門的研究領(lǐng)域,基于這些技術(shù)的應(yīng)用軟件和產(chǎn)品也在 市場(chǎng)上變得越來(lái)越流行。
文件聚類是一種常見(jiàn)的信息挖掘技術(shù),其用于發(fā)現(xiàn)文件之間的相似性 和關(guān)系。文件聚類的目的是要將文件組織成若干有意義的群組,以使得同 一群組中的文件具有高相似性或緊密關(guān)系,而屬于不同群組的文件彼此差 別較大。聚類的過(guò)程是自動(dòng)的并且生成的群組不是預(yù)先定義的。聚類結(jié)果 是有組織的文件集合,因此文件聚類被廣泛用在提高信息檢索和信息提取 系統(tǒng)的效率的方案中,并且還被用在組織文件檢索結(jié)果,使得它們更便于 瀏覽。由于Web中存在大量信息,因此聚類在實(shí)現(xiàn)Web域中的有效且準(zhǔn) 確的信息提取方面起到非常重要的作用。
Web文件聚類的目的是要將預(yù)先選擇的Web文件集合自動(dòng)劃分成若 干有意義的群組(這些群組并非預(yù)先定義的),并且確保同一群組中的文 件之間的相似性或關(guān)系要比不同群組中的文件之間的相似性或關(guān)系強(qiáng)得多 或緊密得多。另一方面,由于利用不同測(cè)量的標(biāo)準(zhǔn)可以得到關(guān)于文件之間 相似性和關(guān)系的不同定義,因此對(duì)于同一文件集合,從不同方面能夠獲得 不同的聚類分析結(jié)果。例如,聚類可被用于根據(jù)內(nèi)容類型將公司網(wǎng)站中的
某些與產(chǎn)品相關(guān)的網(wǎng)頁(yè)分組成新聞網(wǎng)頁(yè)組、廣告網(wǎng)頁(yè)組、購(gòu)物網(wǎng)頁(yè)組等 等,或者可以根據(jù)產(chǎn)品類別將這些網(wǎng)頁(yè)分組成若千產(chǎn)品聚類,其中每個(gè)產(chǎn) 品聚類代表關(guān)于同一產(chǎn)品的所有網(wǎng)頁(yè)。因此,Web文件聚類的主要問(wèn)題在
于如何根據(jù)實(shí)際需求設(shè)計(jì)適當(dāng)?shù)木垲惙椒▉?lái)對(duì)Web文件執(zhí)行準(zhǔn)確而有效的 聚類。
從技術(shù)的角度講,文件聚類方法的設(shè)計(jì)過(guò)程主要有兩步,即首先針對(duì) 特定的聚類目的選擇適當(dāng)并且有效的文件特征,然后基于選出的文件特征 來(lái)建模適當(dāng)?shù)木垲悪C(jī)制。因此,下面將從這兩方面來(lái)回顧現(xiàn)有的技術(shù)方 案。
從特征選擇方面,針對(duì)Web文件聚類的現(xiàn)有技術(shù)可被大致分成四類, 它們分別考慮不同種類的特征進(jìn)行聚類(1)基于文件內(nèi)容的聚類; (2)基于超級(jí)鏈接信息(基于上下文)的聚類;(3)基于Web使用信息 的聚類;以及(4)混合聚類。在傳統(tǒng)的文件聚類方案中,最常見(jiàn)的是基 于文件內(nèi)容的聚類,其基于內(nèi)容相關(guān)的特征(主要是文件中的文本信息) 來(lái)進(jìn)行文件聚類。但是,內(nèi)容相關(guān)的特征不僅包括內(nèi)容中的文本信息,還 可以包括網(wǎng)頁(yè)的HTML結(jié)構(gòu)。另外,由于超級(jí)鏈接是Web的一個(gè)主要特 征,因此在Web文件聚類中,鏈接相關(guān)的特征與內(nèi)容相關(guān)的特征一樣重 要,甚至更加重要。因此基于超級(jí)鏈接信息的聚類也變得越來(lái)越流行。另 外,由于Web用戶的使用信息(例如瀏覽歷史、瀏覽路徑等等)可以被記 錄下來(lái),因此某些文件聚類方案使用這種使用信息來(lái)評(píng)價(jià)Web文件之間的 關(guān)系。當(dāng)然,在一般情況下,由于很多網(wǎng)頁(yè)包括的文本信息很少并且具有 不規(guī)則的HTML結(jié)構(gòu),因此只考慮文件內(nèi)容是遠(yuǎn)遠(yuǎn)不夠的。另一方面,由 于很多鏈接信息和瀏覽歷史是隨機(jī)的并且主觀的,因此只考慮超級(jí)鏈接信 息或者Web使用信息也是不夠的。鑒于此,通常會(huì)設(shè)計(jì)混合聚類方法來(lái)進(jìn) 行文件聚類。
從聚類機(jī)制建模的方面,幾乎所有現(xiàn)有方案都基于對(duì)等相似性分析模 型。具體而言,這些方案設(shè)計(jì)某些算法來(lái)直接或間接分析每對(duì)文件之間的 相似性(通常由相似性值來(lái)表示),然后根據(jù)上述分析結(jié)果對(duì)文件進(jìn)行聚 類,即如果兩個(gè)文件之間具有高相似性,就將它們分組到同一聚類。用于
相似性分析的具體模型可以根據(jù)規(guī)則來(lái)設(shè)置,也可以通過(guò)機(jī)器學(xué)習(xí)來(lái)獲 得。
以下將介紹幾種代表性的現(xiàn)有技術(shù)方案。
在V. Crescenzi、 P. Merialdo禾口 P. Missier的題為"Clustering Web Pages Based on Their Structure"的文章(Data & Knowledge Engineering 54 (2005) 279-299)(下稱文獻(xiàn)1)中,提出了一種通過(guò)分析鏈接組(link collection)(同一頁(yè)面上具有相同布局和呈現(xiàn)屬性的一組鏈接)和網(wǎng)頁(yè)文 檔對(duì)象模型(DOM)結(jié)構(gòu)來(lái)對(duì)數(shù)據(jù)密集型網(wǎng)站上的頁(yè)面進(jìn)行聚類的方法。 網(wǎng)站的進(jìn)入點(diǎn)是一個(gè)種子(seed)頁(yè)面,該種子頁(yè)面成為第一類中的第一 個(gè)成員。然后該種子頁(yè)面上的多個(gè)鏈接組被提取出并被推入一個(gè)優(yōu)先級(jí)隊(duì) 列。然后,該隊(duì)列中的鏈接組之一被選出,并且獲取該選出的鏈接組中的 鏈接所指向的頁(yè)面子集。然后,獲取的頁(yè)面根據(jù)它們的頁(yè)面結(jié)構(gòu)相似性被 聚類,這里的頁(yè)面結(jié)構(gòu)相似性是針對(duì)頁(yè)面的DOM樹(shù)來(lái)定義的。以上過(guò)程 被迭代,直到隊(duì)列變空為止。這里,最小描述長(zhǎng)度(MDL)標(biāo)準(zhǔn)可被用于 判斷每個(gè)候選類是將被添加到模型的一個(gè)新類,還是將與現(xiàn)有類合并。
在X. He、 H. Zha、 CH.Q.Ding等人的題為"Web Document Clustering Using Hyperlink Structures " 的文章 (Computational Statistics & Data Analysis 41 (2002): 19-45)(下稱文獻(xiàn)2)中,用于網(wǎng)頁(yè)聚類的基本特征是 超級(jí)鏈接結(jié)構(gòu),并且文本信息和互引(co-citation)信息也被結(jié)合進(jìn)來(lái)。這 種聚類方法的核心思想在于被鏈接在一起的網(wǎng)頁(yè)被視為更相似,從而聚類 問(wèn)題被轉(zhuǎn)化成鏈接結(jié)構(gòu)分析問(wèn)題。另外,從鏈接結(jié)構(gòu)分析得出的相似性可 以進(jìn)而根據(jù)基于文本信息的相似性信息進(jìn)行調(diào)整,并且如果兩個(gè)頁(yè)面是互 引的話,相似性被進(jìn)一步增強(qiáng)。
日本專利申請(qǐng)JP2004-341942 (下稱文獻(xiàn)3)也提出一種文件聚類方 法,其通過(guò)比較每對(duì)Web文件的域名、目錄名以及文件名來(lái)分析它們之間 的相似性,從而對(duì)Web文件進(jìn)行聚類。
為了更好地理解本發(fā)明,上述專利和非專利文獻(xiàn)通過(guò)參考被整體上結(jié) 合于此。
但是,上述現(xiàn)有技術(shù)存在尚未解決的缺陷。對(duì)于文獻(xiàn)1的方法,其僅
可以針對(duì)嚴(yán)格的數(shù)據(jù)密集型網(wǎng)站中的頁(yè)面進(jìn)行聚類。對(duì)于其他類型的網(wǎng) 站,它可能不起作用,因?yàn)樵卺槍?duì)非嚴(yán)格數(shù)據(jù)密集型網(wǎng)站的情況下,結(jié)構(gòu) 上的相似性無(wú)法暗示主題或內(nèi)容上的相似性。因此,該文獻(xiàn)1的方法的適 用面較窄,在一般性情況下,該方法可能無(wú)法獲得高準(zhǔn)確性。對(duì)于文獻(xiàn)2 的方案,其使用基于學(xué)習(xí)的聚類算法,因此手工收集和標(biāo)注樣本集的過(guò)程 仍然是限制效率的瓶頸。并且該方法過(guò)于一般化,而無(wú)法確保針對(duì)特定情 況能夠獲得足夠的準(zhǔn)確性。文獻(xiàn)3的方案不能處理常規(guī)情況,因?yàn)榇蠖鄶?shù)
網(wǎng)站的URL (尤其對(duì)于具有基于參數(shù)的URL的動(dòng)態(tài)網(wǎng)站)不是規(guī)范化 的。因此,鑒于以上分析可以看出,在準(zhǔn)確性和效率方面的不足仍舊是現(xiàn) 有的聚類方案的共有缺陷。
另一方面,對(duì)于聚類方案的效率而言,現(xiàn)有技術(shù)還有另一個(gè)尚未解決 的問(wèn)題。由于現(xiàn)有方案都是基于對(duì)等相似性分析的,因此所生成的聚類只 具有平坦結(jié)構(gòu),即除了知道不同聚類中的文件沒(méi)有同一聚類中的文件相似 性高之外,不清楚不同聚類之間的關(guān)系。因此聚類結(jié)果只能反映單個(gè)方面 或單個(gè)級(jí)別上的文件之間的相似性。要想轉(zhuǎn)換相似性判斷的方面或級(jí)別, 需要花費(fèi)很多工作來(lái)修改聚類的特征和模型。例如,對(duì)于一個(gè)公司網(wǎng)站中 的產(chǎn)品頁(yè)面的聚類分析,我們可以根據(jù)不同產(chǎn)品來(lái)組合頁(yè)面,即一個(gè)聚類 代表一種產(chǎn)品,或者我們還可以根據(jù)不同產(chǎn)品類別來(lái)組合頁(yè)面,即一個(gè)聚 類代表一種產(chǎn)品類別。其中第二種聚類目標(biāo)具有比第一種更高的相似性級(jí) 別,并且它們可能以某種分層結(jié)構(gòu)彼此相關(guān)。但是,現(xiàn)有技術(shù)無(wú)法在同一 時(shí)間實(shí)現(xiàn)這兩種聚類結(jié)果。雖然可以成功地獲得聚類結(jié)果,但是無(wú)法使兩 種聚類結(jié)果自動(dòng)關(guān)聯(lián)起來(lái)。因此,從總體上看,現(xiàn)有技術(shù)的聚類方法效率 較低。
發(fā)明內(nèi)容
鑒于上述聚類的方法具有效率以及準(zhǔn)確性較低的問(wèn)題,作出了本發(fā)明。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于網(wǎng)絡(luò)文件聚類的方法,其包 括以下步驟輸入多個(gè)網(wǎng)絡(luò)文件;收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系
和目錄結(jié)構(gòu);根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu),提取出所述多個(gè)網(wǎng)絡(luò)文件的
分層結(jié)構(gòu);以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多
個(gè)聚類。
根據(jù)本發(fā)明的另一方面,提供了一種用于網(wǎng)絡(luò)文件聚類的系統(tǒng),其包
括輸入裝置,用于輸入多個(gè)網(wǎng)絡(luò)文件;收集裝置,用于收集所述多個(gè)網(wǎng) 絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu);提取裝置,用于根據(jù)所述鏈接關(guān)系和 目錄結(jié)構(gòu),提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu);以及輸出裝置,用于基 于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。
在本發(fā)明的實(shí)施例中,與現(xiàn)有技術(shù)類似的是同樣采用網(wǎng)站中網(wǎng)頁(yè)之間 超級(jí)鏈接關(guān)系作為網(wǎng)絡(luò)文件聚類的基本特征。但是,所不同的是,在本發(fā) 明中,超級(jí)鏈接關(guān)系被用來(lái)提取網(wǎng)絡(luò)文件之間的分層(父-子)結(jié)構(gòu),進(jìn)而 實(shí)現(xiàn)聚類。對(duì)于網(wǎng)頁(yè)之間分層的父-子結(jié)構(gòu)的提取,本發(fā)明采用了一種基于 鏈接關(guān)系分析的算法,即通過(guò)比較每對(duì)文件之間的鏈入鏈接集合和鏈出鏈 接集合,來(lái)首先獲得基于鏈接關(guān)系的分層結(jié)構(gòu)。然后,如果這些網(wǎng)絡(luò)文件 具有域目錄結(jié)構(gòu),就將該目錄結(jié)構(gòu)直接合并到提取出的上述基于鏈接關(guān)系 的分析結(jié)果,從而產(chǎn)生最終的分層結(jié)構(gòu)。在一個(gè)實(shí)施例中,產(chǎn)生的分層結(jié) 構(gòu)是一種文件樹(shù),隨后利用該文件樹(shù)執(zhí)行對(duì)文件進(jìn)行聚類。在該文件樹(shù) 上,在任意深度上的一個(gè)文件與其所有子節(jié)點(diǎn)一起構(gòu)成一個(gè)聚類。因此, 不同聚類之間的級(jí)別關(guān)系與整個(gè)文件樹(shù)上的節(jié)點(diǎn)關(guān)系相符。換言之,根據(jù) 本發(fā)明的聚類方法不僅能夠?qū)崿F(xiàn)網(wǎng)絡(luò)文件的聚類,還可以自動(dòng)獲得不同聚 類之間的層次關(guān)系。
另外,由于本發(fā)明的聚類方法利用鏈入鏈接和鏈出鏈接集合之間的包 含關(guān)系作為特征進(jìn)行聚類,因此可以減小隨機(jī)的或無(wú)意義的超級(jí)鏈接信息 的干擾,從而可以大大提高聚類的準(zhǔn)確性。另一方面,特征的使用不是基 于學(xué)習(xí)的而是基于簡(jiǎn)單規(guī)則的,因此可以獲得令人滿意的效率。
另外,如上所述,由于根據(jù)本發(fā)明的聚類結(jié)果不僅包括聚類,還包括 聚類之間的分層關(guān)系,因此本發(fā)明可以同時(shí)獲得不同相似性級(jí)別上的聚類 結(jié)果,并且這些結(jié)果是相關(guān)的。這從整體上進(jìn)一步提高了聚類的效率。
另外,作為附加和可選結(jié)果,根據(jù)本發(fā)明生成的文件集合的分層結(jié)構(gòu)
(即文件樹(shù))還可被用于實(shí)現(xiàn)其他Web信息提取任務(wù)。
從下面結(jié)合附圖的詳細(xì)描述中,可以看出本發(fā)明的其他特征和優(yōu)點(diǎn)。 注意,本發(fā)明并不限于圖中所示的示例或者任何具體的實(shí)施例。
結(jié)合附圖,從下面對(duì)本發(fā)明實(shí)施例的詳細(xì)描述,將更好地理解本發(fā) 明,附圖中類似的參考標(biāo)記指示類似的部分,其中
圖1是示出根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100的結(jié)構(gòu)框
圖2是示出圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例200的流程圖3是示出基于網(wǎng)絡(luò)文件之間的分層結(jié)構(gòu)實(shí)現(xiàn)文件聚類的一個(gè)示例的
示意圖,其中示出網(wǎng)絡(luò)文件分層結(jié)構(gòu)300a以及基于其生成的聚類結(jié)構(gòu)
300b;
圖4是示出根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100a的結(jié)構(gòu)框
圖5是示出圖4所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例500的流程圖; 圖6是示出圖5中的根據(jù)鏈接組修訂分層結(jié)構(gòu)的過(guò)程的一個(gè)示例的示 意圖;以及
圖7示出本發(fā)明的一個(gè)應(yīng)用示例,其被用于實(shí)現(xiàn)某公司網(wǎng)站中的產(chǎn)品 相關(guān)的網(wǎng)頁(yè)聚類。
具體實(shí)施例方式
下面參考附圖描述根據(jù)本發(fā)明的示例性實(shí)施例。應(yīng)當(dāng)意識(shí)到,所描述 的實(shí)施例僅是用于舉例說(shuō)明的目的,本發(fā)明并不限于所描述的具體實(shí)施
圖1是示出根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100的結(jié)構(gòu)框 圖。如圖所示,該系統(tǒng)100包括輸入裝置101、收集裝置102、提取裝置 103、輸出裝置104以及網(wǎng)絡(luò)文件庫(kù)105。該系統(tǒng)100利用輸入裝置101從 網(wǎng)絡(luò)文件庫(kù)105獲取多個(gè)網(wǎng)絡(luò)文件,并經(jīng)過(guò)一系列處理之后,從輸出裝置
104輸出網(wǎng)絡(luò)文件聚類結(jié)果以及各個(gè)聚類之間的分層關(guān)系。網(wǎng)絡(luò)文件庫(kù)
105可以存儲(chǔ)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)&網(wǎng)頁(yè)解析模塊(未示出)從網(wǎng)絡(luò)上獲取的網(wǎng)
絡(luò)文件的集合。
下面將參考圖2來(lái)描述圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)100的工作過(guò)程。 圖2是示出圖1所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例200的流程圖。該過(guò)程 200開(kāi)始于通過(guò)輸入裝置101輸入多個(gè)網(wǎng)絡(luò)文件(步驟201)。然后在步 驟202處,收集裝置102收集輸入的網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu) 信息。收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息將作為直接源數(shù)據(jù)被提供到提取裝 置103,以用于分層結(jié)構(gòu)提取過(guò)程。在收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息被 提供到提取裝置103之后,在步驟203中,提取裝置103提取出整個(gè)網(wǎng)絡(luò) 文件集合的分層結(jié)構(gòu),即分析得出網(wǎng)絡(luò)文件之間的父子關(guān)系。然后在步驟 204中,輸出裝置104使用提取裝置103產(chǎn)生的分層結(jié)構(gòu)對(duì)網(wǎng)絡(luò)文件進(jìn)行 聚類,同時(shí)還可以獲得聚類之間的分層關(guān)系。然后,該過(guò)程結(jié)束。
如上所述,網(wǎng)絡(luò)文件的直接和外在的關(guān)系信息(包括超級(jí)鏈接信息和 目錄結(jié)構(gòu)信息)是提取網(wǎng)絡(luò)文件分層結(jié)構(gòu)所需的直接源數(shù)據(jù),它們被視為 分層結(jié)構(gòu)提取所需的特征,因此從網(wǎng)絡(luò)文件中提取并收集鏈接關(guān)系和目錄 結(jié)構(gòu)信息是本發(fā)明中的一個(gè)很重要的預(yù)處理過(guò)程。下面將對(duì)此進(jìn)行詳細(xì)描 述。
首先考慮網(wǎng)絡(luò)文件的目錄結(jié)構(gòu),其可以通過(guò)檢査和獲取Web服務(wù)器 的分層目錄結(jié)構(gòu)而被提取出。所述分層目錄結(jié)構(gòu)例如可以通過(guò)網(wǎng)絡(luò)文件的 URL來(lái)體現(xiàn)。例如,具有URLhttp:〃www.abc.com/d的文件在目錄結(jié)構(gòu)上 是具有URL http:〃www.abc.com/d/e.html的文件的父。目錄結(jié)構(gòu)信息提取 的實(shí)現(xiàn)方式是對(duì)每對(duì)文件的URL執(zhí)行基于規(guī)則的判斷。已知每個(gè)URL可 以被視為包含兩部分,即目錄路徑和文件名。例如,對(duì)于URL http:〃www.abc.com/d/e.html,目錄路徑為http:〃www.abc.com/d,文件名為 e.html。在一個(gè)示例中,我們首先將不帶文件名的URL視為其相應(yīng)文件是 所述URL的目錄路徑的索引(index)文件。另外,我們還可以將具有特 定指示性文件名(例如index.*、 default.*、 home,等)的那些文件也視為 索引文件。這樣一來(lái),目錄結(jié)構(gòu)中的父子關(guān)系可以被如下定義如果文件
A是索引文件并且文件A和B具有相同的目錄路徑,則認(rèn)為文件A在目 錄結(jié)構(gòu)上是文件B的父。提取出的目錄結(jié)構(gòu)信息被設(shè)置為一個(gè)二元組集合
K父,子)l父與子處于獲取的網(wǎng)絡(luò)文件集合內(nèi),并且在目錄結(jié)構(gòu)上父是子
的父}。應(yīng)該注意,這里所述定義目錄結(jié)構(gòu)上父子關(guān)系的規(guī)則僅僅作為一
個(gè)示例,本領(lǐng)域技術(shù)人員可以設(shè)想其他規(guī)則來(lái)基于Web服務(wù)器上的目錄 結(jié)構(gòu)來(lái)提取網(wǎng)絡(luò)文件之間的父子關(guān)系。
由于目錄結(jié)構(gòu)信息是分層的,因此它已經(jīng)反映出所需網(wǎng)絡(luò)文件集合的 分層結(jié)構(gòu)的部分信息。因此,接下來(lái)的任務(wù)應(yīng)該是針對(duì)那些在目錄結(jié)構(gòu)上 不具有父子關(guān)系的文件對(duì),識(shí)別它們之間的父子關(guān)系,即提取潛在的分層 結(jié)構(gòu)。這可以通過(guò)分析網(wǎng)絡(luò)文件之間的超級(jí)鏈接關(guān)系來(lái)實(shí)現(xiàn)。
超級(jí)鏈接是從一個(gè)文件(即源文件)到另一文件(即目標(biāo)文件)的導(dǎo) 航鏈接。超級(jí)鏈接暗示出源文件和目標(biāo)文件之間的上下文或內(nèi)容連接。超 級(jí)鏈接的提取可以利用任何本領(lǐng)域公知技術(shù),例如通過(guò)解析每個(gè)網(wǎng)絡(luò)文件 的html源代碼,因此這里不再對(duì)此進(jìn)行贅述。提取出的網(wǎng)絡(luò)文件集合的 超級(jí)鏈接信息也被設(shè)置為一個(gè)二元組集合{(源,目標(biāo))l源和目標(biāo)處于獲取 的網(wǎng)絡(luò)文件集合內(nèi),并且從源到目標(biāo)存在至少一個(gè)超級(jí)鏈接}。
通常,如果一組網(wǎng)絡(luò)文件都涉及某個(gè)主題,則從外部指向該群組的鏈 接被鏈接到群組中高層文件的可能性遠(yuǎn)遠(yuǎn)大于被鏈接到低層文件的可能 性,并且指向群組中低層文件的鏈接大多數(shù)情況下都來(lái)自群組中的其他文 件。基于以上知識(shí),基于鏈接關(guān)系的文件之間的父子關(guān)系可以被如下定 義如果文件B的鏈入超級(jí)鏈接集合是文件A的鏈出超級(jí)鏈接集合的子 集,則認(rèn)為文件A是文件B的父。應(yīng)該注意,這里所述基于鏈接關(guān)系定 義分層結(jié)構(gòu)的父子關(guān)系的規(guī)則僅僅作為一個(gè)示例,本領(lǐng)域技術(shù)人員可以設(shè) 想其他規(guī)則來(lái)基于網(wǎng)絡(luò)文件的聯(lián)接關(guān)系提取分層結(jié)構(gòu)。
基于以上描述,通過(guò)合并對(duì)網(wǎng)絡(luò)文件之間的目錄結(jié)構(gòu)和鏈接關(guān)系的分 析結(jié)果,可以得到一種總體上的分層結(jié)構(gòu),該分層結(jié)構(gòu)被用于表征一個(gè)網(wǎng) 絡(luò)文件集合中的網(wǎng)絡(luò)文件之間的父子關(guān)系。例如,假設(shè)S是一個(gè)網(wǎng)絡(luò)文件 集合,H(S)是S的分層結(jié)構(gòu),D是S上的目錄結(jié)構(gòu),Pi、 Pj是S中的兩個(gè) 文件,并且OUTi(S)和INj(S)分別表示Pi的鏈出鏈接集合和Pj的鏈入鏈
接集合,則Pi和Pj之間的父子關(guān)系被如下定義 (《,尸乂) e雄)。((S,尸;)e D) v ((967; (S) 2 /A") (5))
如圖3所示,其示出網(wǎng)絡(luò)文件分層結(jié)構(gòu)的一個(gè)示例300a,以及基于其
生成的聚類結(jié)構(gòu)300b。如圖所示,網(wǎng)絡(luò)文件的分層結(jié)構(gòu)300a被組織成文 件樹(shù)的形式,其中頁(yè)面A是頁(yè)面Al和A2的父,頁(yè)面Al進(jìn)而是頁(yè)面 All、 A12、 A13的父,頁(yè)面A2進(jìn)而是頁(yè)面A21和A22的父。并且,頁(yè) 面All是頁(yè)面Alll和A112的父。
返回圖2,在提取出分層結(jié)構(gòu)之后,該結(jié)果可被直接用于網(wǎng)絡(luò)文件聚 類(步驟204)。通常,每個(gè)文件及其子文件、孫子文件都涉及同一主 題,因此我們可以將它們組成一個(gè)文件聚類,并將所述文件稱為該聚類的 中心文件。例如,如圖3所示,頁(yè)面A11與其子頁(yè)面A111和A112可以 被組成一個(gè)聚類All,并且以頁(yè)面All作為該聚類的中心文件。再進(jìn)一 步,頁(yè)面Al可以與聚類All、頁(yè)面A12和A13組成另一聚類Al,以此 類推。因此,如圖3中的聚類結(jié)構(gòu)300b所示,這些中心文件的分層結(jié)構(gòu) 可以自動(dòng)得到分層的聚類結(jié)果。并且在得到聚類結(jié)果的同時(shí),這些聚類之 間的分層關(guān)系也已經(jīng)清楚地獲得。另外,作為中間結(jié)果的網(wǎng)絡(luò)文件集合的 分層結(jié)構(gòu)還可以被用于其它與信息提取相關(guān)的任務(wù)。
圖4是示出根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)絡(luò)文件聚類系統(tǒng)100a的結(jié)構(gòu) 框圖。與圖l所示的第一實(shí)施例相對(duì)照,圖4所示系統(tǒng)的區(qū)別在于還包括 修訂裝置106和噪聲去除裝置107。修訂裝置106耦合在提取裝置103和 輸出裝置104之間,用于對(duì)提取裝置103生成的分層結(jié)構(gòu)進(jìn)行修訂。噪聲 去除裝置107也耦合到提取裝置103,用于與提取裝置103交互以在提取 分層結(jié)構(gòu)的過(guò)程中去除可能影響提取精確性的鏈接噪聲。聚類系統(tǒng)100a 的其他組件在功能上類似于圖1所示系統(tǒng)100,因此這里不再對(duì)它們進(jìn)行 贅述。
圖5是示出圖4所示網(wǎng)絡(luò)文件聚類系統(tǒng)的操作示例500的流程圖。類 似于圖2所示過(guò)程,該過(guò)程500開(kāi)始于輸入多個(gè)網(wǎng)絡(luò)文件(步驟501)。 在步驟502中,輸入的網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu)被提取并收 集。然后在步驟503中,基于收集的鏈接關(guān)系和目錄結(jié)構(gòu)信息提取出這些
網(wǎng)絡(luò)文件的分層結(jié)構(gòu)。這里,不同于第一實(shí)施例,在提取分層結(jié)構(gòu)的過(guò)程 中,噪聲去除裝置107被用于去除鏈接噪聲。這里所述的鏈接噪聲是在大 多數(shù)實(shí)際網(wǎng)站中,為了便于瀏覽而從低層文件返回高層文件的鏈接。在一 個(gè)示例中,分層結(jié)構(gòu)的提取是個(gè)反復(fù)進(jìn)行的收斂過(guò)程,噪聲去除裝置107 可以通過(guò)在每次分層結(jié)構(gòu)結(jié)束后,從鏈接關(guān)系中刪除分層結(jié)果中從子到父 或者從孫子到父這樣的反向鏈接來(lái)去除鏈接噪聲,并基于改善后的鏈接關(guān) 系進(jìn)行下一次的分層結(jié)構(gòu)提取,直至分層結(jié)構(gòu)的結(jié)果沒(méi)有變化(即收斂) 為止。但是,本發(fā)明并不局限于此,本領(lǐng)域技術(shù)人員可以設(shè)想其他方式來(lái) 去除鏈接關(guān)系中的鏈接噪聲。
雖然已經(jīng)去除了分層結(jié)構(gòu)中可能存在的鏈接噪聲,但是在實(shí)際Web
中,仍然可能存在某些不合理或者錯(cuò)誤的超級(jí)鏈接,因此最終的聚類將或 多或少地存在某些錯(cuò)誤。為了得到更準(zhǔn)確的結(jié)果,已經(jīng)去除了鏈接噪聲的
分層結(jié)構(gòu)被提供到修訂裝置106以進(jìn)一步對(duì)分層結(jié)構(gòu)進(jìn)行修訂(步驟 504)。在該實(shí)施例中,所述修訂是基于鏈接組分析來(lái)進(jìn)行的。但是,分 層結(jié)構(gòu)的修訂并不局限于這里所述的示例,本領(lǐng)域技術(shù)人員容易想到其他 方法來(lái)進(jìn)行分層結(jié)構(gòu)的修訂。
上面已經(jīng)描述,鏈接組是同一頁(yè)面上具有相同布局和呈現(xiàn)屬性的一組 鏈接,它通常代表該頁(yè)面上的一個(gè)語(yǔ)義塊(semantic block)。通常,在同 一鏈接組內(nèi)的鏈接的目的地可能處于同一語(yǔ)義層級(jí)上,即從頁(yè)面作者的角 度看應(yīng)該被聚類在一起。因此,我們可以通過(guò)補(bǔ)充同一鏈接組中未出現(xiàn)在 分層結(jié)構(gòu)上的鏈接來(lái)對(duì)分層結(jié)構(gòu)進(jìn)行自動(dòng)修訂。
例如,如圖6所示,其示出根據(jù)鏈接組修訂分層結(jié)構(gòu)的過(guò)程的一個(gè)示 例。已知提取裝置103提取出分層結(jié)構(gòu)600a,其中頁(yè)面P在分層結(jié)構(gòu)上是 頁(yè)面Pl、 P2、 P3禾B P4的父,頁(yè)面Pl、 P2、 P3禾Q P4構(gòu)成集合Son(P)。 如果頁(yè)面P具有鏈接組LC,并且LC中的大多數(shù)目的地都在集合Son(P) 中,則認(rèn)為L(zhǎng)C的其他目的地也是P的子,并將它們補(bǔ)充到分層結(jié)構(gòu)上。 如圖6所示,頁(yè)面P的鏈接組LC包括頁(yè)面P1、 P2、 P3、 P4、 P5和P6。 由于P1、 P2、 P3、 P4已經(jīng)在分層結(jié)構(gòu)上被識(shí)別為頁(yè)面P的子,因此認(rèn)為 頁(yè)面P5和P5也應(yīng)該是頁(yè)面P的子,并將它們補(bǔ)充到分層結(jié)構(gòu)上,以生成
修訂后的分層結(jié)構(gòu)600b。圖6所示修訂過(guò)程僅僅作為一個(gè)示例,本發(fā)明
并不局限于該具體示例。
返回圖5,在對(duì)分層結(jié)構(gòu)進(jìn)行修訂之后,在步驟505中,經(jīng)修訂的分 層結(jié)構(gòu)被用來(lái)進(jìn)行文件聚類,以獲取最終的聚類結(jié)果和各個(gè)聚類之間的層 次關(guān)系。然后,該過(guò)程結(jié)束。
以上已經(jīng)結(jié)合附圖詳細(xì)描述了本發(fā)明的第一和第二實(shí)施例。下面將參 考圖7來(lái)描述本發(fā)明的一個(gè)應(yīng)用示例。在該示例中,本發(fā)明被用于實(shí)現(xiàn)某 公司網(wǎng)站中的產(chǎn)品相關(guān)的網(wǎng)頁(yè)聚類,以準(zhǔn)確而有效地從該公司網(wǎng)站中提取 出產(chǎn)品及其描述(profile)信息。
該過(guò)程700開(kāi)始于輸入整個(gè)公司網(wǎng)站(步驟701)。然后,在步驟 702中,首先對(duì)該網(wǎng)站上的網(wǎng)頁(yè)進(jìn)行過(guò)濾,以僅保留可能與產(chǎn)品相關(guān)的網(wǎng) 頁(yè),即濾除掉不相關(guān)的網(wǎng)頁(yè),例如公司簡(jiǎn)介、新聞等等。然后在步驟 703,進(jìn)一步執(zhí)行過(guò)濾,以僅保留可能與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè),即濾除掉 那些不帶有描述信息的產(chǎn)品相關(guān)頁(yè),例如產(chǎn)品列表頁(yè)面。這兩個(gè)過(guò)濾過(guò)程 可以利用任何現(xiàn)有技術(shù)來(lái)實(shí)現(xiàn),例如基于關(guān)鍵字的過(guò)濾方法。顯而易見(jiàn),
通過(guò)過(guò)濾可以預(yù)先防止噪聲信息被引入聚類,從而有助于提高聚類的準(zhǔn)確 性和效率。
然后,針對(duì)與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)子集,利用本發(fā)明的方法來(lái)執(zhí)行產(chǎn) 品文件聚類,即步驟710,其中包括的子步驟704-707對(duì)應(yīng)于圖5所示本 發(fā)明第二實(shí)施例的過(guò)程。首先,在步驟704中,該網(wǎng)頁(yè)子集的鏈接關(guān)系和 目錄結(jié)構(gòu)信息被收集。這里,不同于第二實(shí)施例,針對(duì)每個(gè)網(wǎng)頁(yè)的鏈入鏈 接和鏈出鏈接并不局限于該與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)子集,而是可以被擴(kuò)展 到與產(chǎn)品相關(guān)的網(wǎng)頁(yè)集合,即步驟702的輸出。這樣做是為了進(jìn)一步增強(qiáng) 網(wǎng)頁(yè)聚類的準(zhǔn)確性,因?yàn)槌伺c產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)之外的其他產(chǎn)品相關(guān) 網(wǎng)頁(yè)也可能給出關(guān)于產(chǎn)品網(wǎng)頁(yè)聚類的線索。然后在步驟705中,該網(wǎng)頁(yè)子 集中的與產(chǎn)品描述相關(guān)的網(wǎng)頁(yè)之間的分層結(jié)構(gòu)被提取出,該過(guò)程類似于圖 5所示的分層結(jié)構(gòu)提取過(guò)程。然后在步驟706中對(duì)分層結(jié)構(gòu)進(jìn)行修訂。這 里,不同于第二實(shí)施例,由于能夠知道整個(gè)網(wǎng)站中所有網(wǎng)頁(yè)的鏈接關(guān)系, 因此分層結(jié)構(gòu)上頂層的頁(yè)面也可以被修訂。因此,不僅分層結(jié)構(gòu)提取中出
現(xiàn)的錯(cuò)誤,還有網(wǎng)頁(yè)過(guò)濾中出現(xiàn)的錯(cuò)誤都可以被修訂,從而進(jìn)一步提高了 最終網(wǎng)頁(yè)聚類的準(zhǔn)確性。然后,在步驟707,基于經(jīng)修訂的分層結(jié)構(gòu)來(lái)進(jìn) 行產(chǎn)品網(wǎng)頁(yè)識(shí)別(聚類)。由于該網(wǎng)頁(yè)子集只包括與產(chǎn)品描述相關(guān)的網(wǎng) 頁(yè),因此在分層結(jié)構(gòu)的頂層上的每個(gè)網(wǎng)頁(yè)應(yīng)該代表一種產(chǎn)品,并且該網(wǎng)頁(yè) 的所有子構(gòu)成關(guān)于該產(chǎn)品的完整描述。
然后,在完成產(chǎn)品網(wǎng)頁(yè)聚類之后,可以將來(lái)自每個(gè)產(chǎn)品的所有描述網(wǎng)
頁(yè)組合在一起以獲得關(guān)于該產(chǎn)品的完整描述(步驟708)。在步驟709, 所有產(chǎn)品及其完整描述被輸出。然后,該過(guò)程700結(jié)束。以上描述了本發(fā) 明的一個(gè)應(yīng)用示例。但是,容易理解,本發(fā)明并不局限于該具體應(yīng)用。本 領(lǐng)域技術(shù)人員容易設(shè)想,本發(fā)明也可以被應(yīng)用于其它網(wǎng)絡(luò)信息識(shí)別、聚 類、分析的應(yīng)用。
以上分別描述了根據(jù)本發(fā)明第一實(shí)施例和第二實(shí)施例的網(wǎng)絡(luò)文件聚類 系統(tǒng)和方法。通過(guò)提取網(wǎng)絡(luò)文件之間的分層結(jié)構(gòu),根據(jù)本發(fā)明的聚類方法 不僅能夠?qū)崿F(xiàn)網(wǎng)絡(luò)文件的聚類,還可以自動(dòng)獲得不同聚類之間的層次關(guān) 系。
另外,由于本發(fā)明的聚類方法利用鏈入鏈接和鏈出鏈接集合之間的包 括關(guān)系作為特征進(jìn)行聚類,因此可以減小隨機(jī)的或無(wú)意義的超級(jí)鏈接信息 的干擾,從而可以大大提高聚類的準(zhǔn)確性。另一方面,特征的使用不是基 于學(xué)習(xí)的而是基于簡(jiǎn)單規(guī)則的,因此可以獲得令人滿意的效率。
另外,如上所述,由于根據(jù)本發(fā)明的聚類結(jié)果不僅包括聚類,還包括 各個(gè)聚類之間的分層關(guān)系,因此本發(fā)明可以同時(shí)獲得不同相似性級(jí)別上的 聚類結(jié)果,并且這些結(jié)果是相關(guān)的。這從整體上進(jìn)一步提高了聚類的效 率。
上面己經(jīng)參考附圖描述了根據(jù)本發(fā)明的具體實(shí)施例。但是,本發(fā)明并 不限于圖中示出的特定配置和處理。另外,為了簡(jiǎn)明起見(jiàn),這里省略對(duì)已 知方法技術(shù)的詳細(xì)描述。在上述實(shí)施例中,描述和示出了若干具體的步驟 作為示例。但是,本發(fā)明的方法過(guò)程并不限于所描述和示出的具體步驟, 本領(lǐng)域的技術(shù)人員可以在領(lǐng)會(huì)本發(fā)明的精神之后,作出各種改變、修改和 添加,或者改變步驟之間的順序。本發(fā)明的元素可以實(shí)現(xiàn)為硬件、軟件、固件或者它們的組合,并且可 以用在它們的系統(tǒng)、子系統(tǒng)、部件或者子部件中。當(dāng)以軟件方式實(shí)現(xiàn)時(shí), 本發(fā)明的元素是被用于執(zhí)行所需任務(wù)的程序或者代碼段。程序或者代碼段 可以存儲(chǔ)在機(jī)器可讀介質(zhì)中,或者通過(guò)載波中攜帶的數(shù)據(jù)信號(hào)在傳輸介質(zhì) 或者通信鏈路上傳送。"機(jī)器可讀介質(zhì)"可以包括能夠存儲(chǔ)或傳輸信息的 任何介質(zhì)。機(jī)器可讀介質(zhì)的例子包括電子電路、半導(dǎo)體存儲(chǔ)器設(shè)備、
ROM、閃存、可擦除ROM (EROM)、軟盤、CD-ROM、光盤、硬盤、 光纖介質(zhì)、射頻(RF)鏈路,等等。代碼段可以經(jīng)由諸如因特網(wǎng)、內(nèi)聯(lián) 網(wǎng)等的計(jì)算機(jī)網(wǎng)絡(luò)被下載。
本發(fā)明可以以其他的具體形式實(shí)現(xiàn),而不脫離其精神和本質(zhì)特征。例 如,特定實(shí)施例中所描述的算法可以被修改,而系統(tǒng)體系結(jié)構(gòu)并不脫離本 發(fā)明的基本精神。因此,當(dāng)前的實(shí)施例在所有方面都被看作是示例性的而 非限定性的,本發(fā)明的范圍由所附權(quán)利要求而非上述描述定義,并且,落 入權(quán)利要求的含義和等同物的范圍內(nèi)的全部改變從而都被包括在本發(fā)明的 范圍之中。
權(quán)利要求
1. 一種用于網(wǎng)絡(luò)文件聚類的方法,包括以下步驟輸入多個(gè)網(wǎng)絡(luò)文件;收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu);根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu),提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu);以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。
2. 如權(quán)利要求1所述的方法,還包括 輸出所述聚類之間的層次關(guān)系。
3. 如權(quán)利要求1所述的方法,還包括在提取出所述分層結(jié)構(gòu)之后,根據(jù)各個(gè)網(wǎng)絡(luò)文件的鏈接組對(duì)所述提取 出的分層結(jié)構(gòu)進(jìn)行修訂。
4. 如權(quán)利要求1所述的方法,其中所述提取分層結(jié)構(gòu)的步驟包括 根據(jù)所述目錄結(jié)構(gòu)確定第一分層結(jié)構(gòu);針對(duì)所述輸入的多個(gè)網(wǎng)絡(luò)文件中在所述第一分層結(jié)構(gòu)中沒(méi)有涉及的網(wǎng) 絡(luò)文件,根據(jù)它們的所述鏈接關(guān)系確定第二分層結(jié)構(gòu);并且合并所述第一分層結(jié)構(gòu)和第二分層結(jié)構(gòu)以確定最終的分層結(jié)構(gòu)。
5. 如權(quán)利要求4所述的方法,其中 所述第一分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件A是索引文件并且網(wǎng)絡(luò)文件A和網(wǎng)絡(luò)文件B具有相同 的目錄路徑,則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父,所述第二分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件B的鏈入鏈接集合是網(wǎng)絡(luò)文件A的鏈出鏈接集合的子 集,則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父。
6. 如權(quán)利要求1所述的方法,還包括在提取所述分層結(jié)構(gòu)的過(guò)程中去 除所述收集的鏈接關(guān)系中的鏈接噪聲。
7. 如權(quán)利要求1所述的方法,其中所述聚類包括中心網(wǎng)絡(luò)文件以及在 所述分層結(jié)構(gòu)上與其直接或間接耦合的所有子節(jié)點(diǎn)和孫子節(jié)點(diǎn)處的網(wǎng)絡(luò)文件。
8. —種用于網(wǎng)絡(luò)文件聚類的系統(tǒng),包括 輸入裝置,用于輸入多個(gè)網(wǎng)絡(luò)文件;收集裝置,用于收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu);提取裝置,用于根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu),提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu);以及輸出裝置,用于基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè) 或多個(gè)聚類。
9. 如權(quán)利要求8所述的系統(tǒng),其中所述輸出裝置還輸出所述聚類之間 的層次關(guān)系。
10. 如權(quán)利要求8所述的系統(tǒng),還包括耦合在所述提取裝置和所述輸出裝置之間的修訂裝置,用于在提取出 所述分層結(jié)構(gòu)之后,根據(jù)各個(gè)網(wǎng)絡(luò)文件的鏈接組對(duì)所述提取出的分層結(jié)構(gòu)進(jìn)行修訂。
11. 如權(quán)利要求8所述的系統(tǒng),其中所述提取裝置被配置為根據(jù)所述目錄結(jié)構(gòu)確定第一分層結(jié)構(gòu); 針對(duì)所述輸入的多個(gè)網(wǎng)絡(luò)文件中在所述第一分層結(jié)構(gòu)中沒(méi)有涉及的網(wǎng)絡(luò)文件,根據(jù)它們的所述鏈接關(guān)系確定第二分層結(jié)構(gòu);并且合并所述第一分層結(jié)構(gòu)和第二分層結(jié)構(gòu)以確定最終的分層結(jié)構(gòu)。
12. 如權(quán)利要求11所述的系統(tǒng),其中所述第一分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件A是索引文件并且網(wǎng)絡(luò)文件A和網(wǎng)絡(luò)文件B具有相同 的目錄路徑,則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父, 所述第二分層結(jié)構(gòu)中的父子關(guān)系是這樣確定的如果網(wǎng)絡(luò)文件B的鏈入鏈接集合是網(wǎng)絡(luò)文件A的鏈出鏈接集合的子 集,則確定所述網(wǎng)絡(luò)文件A是所述網(wǎng)絡(luò)文件B的父。
13. 如權(quán)利要求8所述的系統(tǒng),還包括耦合到所述提取裝置的噪聲去除裝置,用于在提取所述分層結(jié)構(gòu)的過(guò) 程中去除所述收集的鏈接關(guān)系中的鏈接噪聲。
14.如權(quán)利要求8所述的系統(tǒng),其中所述聚類包括中心網(wǎng)絡(luò)文件以及 在所述分層結(jié)構(gòu)上與其直接或間接耦合的所有子節(jié)點(diǎn)和孫子節(jié)點(diǎn)處的網(wǎng)絡(luò) 文件。
全文摘要
本發(fā)明提供了用于網(wǎng)絡(luò)文件聚類的方法和系統(tǒng)。該網(wǎng)絡(luò)文件聚類方法包括輸入多個(gè)網(wǎng)絡(luò)文件;收集所述多個(gè)網(wǎng)絡(luò)文件之間的鏈接關(guān)系和目錄結(jié)構(gòu);根據(jù)所述鏈接關(guān)系和目錄結(jié)構(gòu),提取出所述多個(gè)網(wǎng)絡(luò)文件的分層結(jié)構(gòu);以及基于所述分層結(jié)構(gòu)輸出針對(duì)所述多個(gè)網(wǎng)絡(luò)文件的一個(gè)或多個(gè)聚類。在一些實(shí)施例中,還可以同時(shí)輸出聚類之間的層次關(guān)系。相比現(xiàn)有技術(shù),本發(fā)明所采用的網(wǎng)絡(luò)文件聚類方法可以大大提高網(wǎng)絡(luò)文件聚類的準(zhǔn)確性和效率。
文檔編號(hào)G06F17/30GK101388013SQ20071014956
公開(kāi)日2009年3月18日 申請(qǐng)日期2007年9月12日 優(yōu)先權(quán)日2007年9月12日
發(fā)明者李建強(qiáng), 彧 趙 申請(qǐng)人:日電(中國(guó))有限公司