專利名稱::一種基于公共子串的中文Web文檔在線聚類方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息處理
技術(shù)領(lǐng)域:
,是一種數(shù)據(jù)挖掘方法,具體涉及一種Web文檔在線聚類方法。
背景技術(shù):
:聚類過(guò)程實(shí)質(zhì)上是一個(gè)映射過(guò)程。若給定對(duì)象集0={0l,o2,...,on},類集為={Cl,c2,...,cm},則聚類是如下映射且滿足(1)c,.;0(/=l,2,...,/)(2)|Jc,=0隨著互聯(lián)網(wǎng)的日益推廣和普及,網(wǎng)絡(luò)信息的迅速增加,傳統(tǒng)的搜索引擎往往會(huì)返回大量的搜索結(jié)果而使用戶很難找到自己真正需要的信息。Web文檔聚類能夠較好地解決這一問(wèn)題,它將搜索引擎的返回結(jié)果按內(nèi)容分類。這樣,用戶就可以縮小挑選范圍從而快速找到感興趣的信息。Web文檔聚類是一種無(wú)指導(dǎo)的文檔分類,它將一個(gè)文檔集分成若干個(gè)簇(子集),同一簇內(nèi)文檔內(nèi)容的相似性盡可能的大,而不同簇之間文檔內(nèi)容的相似性盡可能的小。相比一般的聚類,Web文檔在線聚類有兩個(gè)特點(diǎn)一是聚類對(duì)象是Web文檔,具有非數(shù)值型和非結(jié)構(gòu)化的特點(diǎn);二是聚類時(shí)間要滿足用戶在線檢索的要求,因而算法應(yīng)具有實(shí)時(shí)性和交互性的特點(diǎn)。Web文檔聚類的研究主要有三種方法基于鏈接的聚類、基于文本相似度的聚類及基于用戶反饋的聚類。目前,比較常見(jiàn)的搜索引擎結(jié)果聚類方法主要是基于文檔相似度的聚類算法。基于文檔相似度的聚類思想是將文檔抽象表示為向量,并采用向量夾角余弦來(lái)表示文檔與文檔之間的相似度,然后按照一定的聚類算法(如K-means、STC)對(duì)文檔進(jìn)行聚類。以上提到的方法適用于英文信息檢索系統(tǒng),而中文的詞語(yǔ)之間沒(méi)有間隔,必須依賴于分詞系統(tǒng),所以以上方法對(duì)于中文信息檢索的效果并不好。本發(fā)明提出一種在線式的、無(wú)需中文分詞的中文Web文檔聚類算法。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問(wèn)題1、目前一般的Web文檔聚類方法適用于英文信息檢索系統(tǒng),而中文的詞語(yǔ)之間沒(méi)有間隔,必須依賴于分詞系統(tǒng),而詞庫(kù)的質(zhì)量對(duì)聚類效果會(huì)有至關(guān)重要的影響。本發(fā)明采用無(wú)分詞技術(shù),可以避免詞庫(kù)的影響,同時(shí)提高聚類性能;2、Web文檔在線聚類的執(zhí)行時(shí)間要滿足用戶在線檢索的要求,因而要求算法應(yīng)具有較強(qiáng)的實(shí)時(shí)性和交互性。本發(fā)明采用的技術(shù)方案系統(tǒng)處理流程分以下幾個(gè)步驟l)Web文檔預(yù)處理,實(shí)現(xiàn)對(duì)搜索引擎返回結(jié)果中非中文字符的刪除以及替換處理操作;2)利用GSA實(shí)現(xiàn)Web文檔中公共字串的提取,然后將公共字串作為文檔的特征;3)計(jì)算待聚類文檔兩兩之間的相似度,形成文檔相似度矩陣;4)利用相似度矩陣,并使用聚類算法對(duì)文檔進(jìn)行聚類;5)聚類描述和標(biāo)簽的提取,即對(duì)每個(gè)類別賦予一個(gè)能夠描述該類的類標(biāo)簽,這個(gè)標(biāo)簽既能概括本類的內(nèi)容,又能將本類與其他類區(qū)別開(kāi)來(lái)。本發(fā)明取得的有益效果在線聚類方法在性能、聚類標(biāo)簽生成和聚類時(shí)間效果方面具有較明顯優(yōu)勢(shì)1、與和傳統(tǒng)的文本聚類系統(tǒng)相比,本文所提出的中文Web文檔在線聚類方法不需要分詞,而是采用GSA算法來(lái)提取Web文檔之間公共子串的方法確定文檔的特征,進(jìn)而作為聚類方法中的特征向量進(jìn)行聚類計(jì)算。解決了Web文本作為聚類對(duì)象非數(shù)值型和非結(jié)構(gòu)化的問(wèn)題。2、本發(fā)明求解字符串之間公共子串采用的是后綴樹(shù)(SuffixTree)算法的一個(gè)變種——GSA算法,其時(shí)間復(fù)雜度為O(n),且空間復(fù)雜度是S(n)。其在空間復(fù)雜性上要優(yōu)于后綴樹(shù)算法。3、傳統(tǒng)的層次聚類方法(無(wú)論是凝聚層次聚類還是分裂層次聚類),復(fù)雜度都很高,而可擴(kuò)展性較差,因而不適合大量文檔的聚類。為此,本發(fā)明對(duì)傳統(tǒng)的凝聚層次聚類進(jìn)行了優(yōu)化,取得了較好的聚類效果。4、本發(fā)明使用權(quán)重最大的公共子串作為聚類的標(biāo)簽,不僅能夠保留語(yǔ)義成分,而且使得聚類標(biāo)簽的可讀性強(qiáng)。下面,將通過(guò)實(shí)驗(yàn)驗(yàn)證本發(fā)明取得的效果聚類算法的主要指標(biāo)包括CH值、聚類標(biāo)簽有效性及聚類效果。CH函數(shù)的定義如下CH=-^;^-^-^/r"ce5—S"乂|w7_w乂=i""ce『=ZZ卄x,.—w乂乂=1Z=1其中,nj是第j個(gè)聚類中的文本數(shù)量;Uj是第j個(gè)聚類的質(zhì)心;u是所有參與聚類文本的質(zhì)心;Xi是相應(yīng)某個(gè)聚類里的第i個(gè)文本;k是聚類的總數(shù)目;n是文本的總數(shù)目。CH函數(shù)是聚類結(jié)果中類內(nèi)距離與類間距離的綜合體現(xiàn),CH值越大,代表聚類效果越好。實(shí)驗(yàn)中使用五個(gè)關(guān)鍵字來(lái)進(jìn)行檢索,下表是本文提出的模型與中文分詞+t,idf模型的CH值比較<table>tableseeoriginaldocumentpage6</column></row><table>通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)基于公共子串的模型獲得的CH值比分詞+t,idf模型要大,其中"姚明"和"數(shù)據(jù)挖掘"的CH值分別提高了5.8、5.4,因此,新的方法在聚類效果上要好于傳統(tǒng)方法。聚類標(biāo)簽的有效性即可讀性對(duì)于用戶而言非常重要,只有具有實(shí)際含義的短語(yǔ)才能作為聚類的標(biāo)簽。標(biāo)簽有效性的計(jì)算公式是P=M/N,其中,M代表可讀性好的標(biāo)簽數(shù)目,N代表所有標(biāo)簽的數(shù)目。實(shí)驗(yàn)結(jié)果見(jiàn)附圖l,由附圖1可知,新方法的短語(yǔ)有效性在0.8-0.95之間,而傳統(tǒng)的方法大部分在0.8以下。因此,新方法得到的聚類標(biāo)簽可讀性要優(yōu)于傳統(tǒng)模型。最后,發(fā)明對(duì)關(guān)鍵詞"蘋(píng)果"在百度查詢的前100條結(jié)果作為聚類的Web文檔,最終的效果見(jiàn)附圖2。從附圖2可看出,本發(fā)明提出的方法能夠獲得較好的聚類效果。通過(guò)實(shí)驗(yàn)結(jié)果分析和比較,本發(fā)明提出的基于公共子串的中文Web文檔在線聚類方法在聚類效果、聚類性能以及在聚類標(biāo)簽可讀性等方面相比基于分詞的中文聚類算法具有較明顯的優(yōu)勢(shì)。圖1為標(biāo)簽的有效性比較;圖2為輸入關(guān)鍵字"蘋(píng)果"所得的聚類效果;圖3為三個(gè)查詢?cè)~的測(cè)試結(jié)果(蘋(píng)果、姚明、數(shù)據(jù)挖掘);圖4為基于公共子串的中文Web文檔在線聚類方法的流程圖。具體實(shí)施例方式1.Web文檔預(yù)處理在中文搜索引擎(如百度等)的返回結(jié)果中,常常含有一些非中文字符,如英文字符、空格、標(biāo)點(diǎn)符號(hào)或者亂碼等。由于本發(fā)明研究的重點(diǎn)是中文Web文檔聚類,所以在聚類之前,需要對(duì)搜索結(jié)果中的非中文內(nèi)容進(jìn)行替換處理。預(yù)處理階段主要將這些非中文字符替換成系統(tǒng)預(yù)先定義的分隔符。需要替換的非中文字符主要包括空格、數(shù)字、英文大小寫(xiě)字母、中英文標(biāo)點(diǎn)符號(hào)(包括全角和半角)及中文停頓字(例如"啊"、"的"、"了"等)。預(yù)處理后將得到只包含中文字符的搜索引擎結(jié)果項(xiàng),將其作為公共子串提取的輸入。2.基于GSA的公共子串提取參公共子串(CommonSubstring,CS):字符串u如果既是字符串S的子串又是字符串T的子串,則字符串u是字符串S和T的一個(gè)公共子串。若用Sub(S,u)表示字符串u是字符串S的子串,則字符串S、T的公共子串集Com(S,T)可定義為Com(&"=IVw,5W6(S,w)a5W6(r,w)}.參最長(zhǎng)公共子串(LongestCommonSubstring,LCS):字符串S和T的最長(zhǎng)公共子串是指字符串S和T的所有公共子串中長(zhǎng)度最大的子串。若字符串u滿足uGCom(S,T)且WeGK5;7),則稱u為字符串S,T的最長(zhǎng)公共子串。例如給定2個(gè)長(zhǎng)度均為4的字符串"abac"、"caba"。它們的公共子串有""、"a"、"b"、"ab"、"ba"、"aba"和"c",其中最長(zhǎng)公共子串即為"aba"。公共子串問(wèn)題的求解,常用的經(jīng)典算法有動(dòng)態(tài)規(guī)劃算法和后綴樹(shù)算法。前者的特點(diǎn)是易于實(shí)現(xiàn)但時(shí)間復(fù)雜度很高;而后者的特點(diǎn)是時(shí)間復(fù)雜度僅為線性,但實(shí)現(xiàn)起來(lái)相對(duì)困難。本方法采用后綴樹(shù)(SuffixTree)算法的一個(gè)變種——廣義后綴數(shù)組GSA算法,實(shí)現(xiàn)文本之間的公共子串提取。采用GSA算法求解字符串之間公共子串的時(shí)間復(fù)雜度是0(n)。且GSA算法的空間復(fù)雜度是S(n),其在空間復(fù)雜性上要優(yōu)于后綴樹(shù)算法。定義參后綴(Suffix):—個(gè)字符串S的后綴,是指從某個(gè)特定位置i(i《S.len(S))開(kāi)始,直到S最后一個(gè)字符的一個(gè)串,它是S的一個(gè)子串。這個(gè)子串可表示為suffix(S,i),即Suffix(S,i)=substring(S,i,len(S)).參后綴數(shù)組(SuffixArray,SA):后綴數(shù)組SA與字符串S—一對(duì)應(yīng)。它的每一個(gè)元素是S的一個(gè)下標(biāo)。即len(SA)=len(S)且SA[i]G{1,2,,len(S)}(1《i《len(S)),SA[i]#SA[j](i#j)。同時(shí),這個(gè)數(shù)組還滿足Suffix(S,SA[i])<Suffix(S,SA[i+l]),(1《i<len(S))參廣義后綴數(shù)組(GeneralizedSuffixArray,GSA):若干個(gè)字符串SnS2,...,Sn的廣義后綴數(shù)組是指使用特殊結(jié)束符連接字符串S2,...,Sn后形成新字符串的后綴數(shù)組。舉例說(shuō)明,比如對(duì)于兩個(gè)字符串SI="abac"和S2="caba"。用特殊字符@將其連接起來(lái)而得到的字符串為abacOcaba。對(duì)于字符串a(chǎn)bac0caba,共有8個(gè)非空后綴,原來(lái)的序列和按照字典序進(jìn)行排序后的序列如下表所示非空后綴排序前和排序后<table>tableseeoriginaldocumentpage8</column></row><table>則一維數(shù)組SA=[8,6,1,3,7,2,5,4]即為字符串S丄和S2的廣義后綴數(shù)組。得到兩個(gè)字符串連接的廣義后綴數(shù)組之后,依次兩兩比較相鄰子串的最長(zhǎng)公共前綴,所有長(zhǎng)度大于等于1的最長(zhǎng)公共前綴,就是所求的兩個(gè)字符串的公共子串。以上求解兩個(gè)字符串的公共子串算法擴(kuò)展成N(N〉1)個(gè)字符串的公共子串求解算法對(duì)于N(N〉1)個(gè)字符串31,52,...3,,將其用N-l個(gè)特殊字符(不必兩兩相異)拼接起來(lái)后得到字符串SE=SiaiS2a2...SN—a—A,其中,ai(l《i《(n-l))即為插入的特殊字符,且對(duì)所有的ai,Sj,(1《i《N-l,1《j《N),有",.g&。構(gòu)造se的后綴數(shù)組,然后兩兩比較相鄰子串的最長(zhǎng)公共前綴,即可得到N個(gè)字符串SpS2,...SN的全部公共子串。3.文本特征向量模型的建立在基于文本的信息檢索過(guò)程,一個(gè)文本的特征向量模型是一個(gè)由文本中的若干特征所組成的集合。在這個(gè)基于公共子串的文本特征向量模型中,每一個(gè)文檔D可以表示成M個(gè)公共子串及其對(duì)應(yīng)權(quán)重所組成的特征向量。這里假設(shè)參待聚類的文本為(D1,D2,…,DN);參經(jīng)過(guò)過(guò)濾處理的公共子串序列為(SpS2,...Sn—pSn);參函數(shù)len(Sk)(k=1,2,,n)表示字符串Sk的長(zhǎng)度;參函數(shù)tf(Sk,Dj)表示公共子串Sk在文本Dj中出現(xiàn)的頻率。tf也就是信息檢索過(guò)程中常常用到的詞頻(Termfrequency);參函數(shù)idf(Sk)表示公共子串Sk的逆文檔頻率(Inverseddocumentfrequency)5參常數(shù)N表示搜索引擎返回的結(jié)果數(shù)目,也就是我們要聚類的文本數(shù)目;參函數(shù)df(Sk)表示包含公共子串Sk的文本的數(shù)目?;谝陨霞僭O(shè),文檔Dj可以表示為向量如下形式Dj=(w(S丄,Dj),w(S2,D」),,w(Sn,D」)},(j=1,2,…,N)其中w(Sk,Dj)(k=1,2,...,n)是公共子串Sk相對(duì)于文本Dj的權(quán)重。參考TF*IDF提出權(quán)重計(jì)算方公式如下w(Sk,Dj)=log(1+tf(Sk,Dj))*idf(Sk)*(len(Sk))a其中,在一個(gè)文檔中,公共子串權(quán)重與其長(zhǎng)度呈正相關(guān)關(guān)系,即長(zhǎng)度越長(zhǎng)其權(quán)重越大。在以上公式中,我們對(duì)公共子串Sk的長(zhǎng)度len(Sk)取a次方,以放大較長(zhǎng)公共子串對(duì)其權(quán)重的影響,具體a的值需要通過(guò)實(shí)驗(yàn)來(lái)確定。利用上式,計(jì)算出全部公共子串的權(quán)重后,就可以使用傳統(tǒng)的相似度算法,例如cosine相似度算法來(lái)計(jì)算文本之間的相似度。兩個(gè)文本相似度的計(jì)算公式如下《《',^4.聚類方法及實(shí)現(xiàn)根據(jù)上述提出的文本特征向量模型可以得到文本間的相似度矩陣,如下表所示相似度矩陣<table>tableseeoriginaldocumentpage9</column></row><table>上表中,Di(1《i《N)為N個(gè)結(jié)果項(xiàng)(需要聚類的文檔),Sim(i,j)(1《i,j《N)表示結(jié)果項(xiàng)Di和Dj之間的相似度。得到相似度矩陣后,下一步可采用層次聚類對(duì)結(jié)果項(xiàng)進(jìn)行聚類。使用層次聚類可以使總的分類數(shù)目較少,便于用戶迅速定位所需信息。同時(shí),每一類還可以再細(xì)分。傳統(tǒng)的層次聚類方法(無(wú)論是凝聚層次聚類還是分裂層次聚類),復(fù)雜度都很高,而可擴(kuò)展性較差,因而不適合大量文檔的聚類。為此,本發(fā)明對(duì)傳統(tǒng)的凝聚層次聚類進(jìn)行了優(yōu)化。假設(shè)要聚類的文檔總數(shù)為N,N>0,Ni表示第i+1步未被歸類的文檔數(shù),i=0,1,…;集合Ti表示第i個(gè)聚類,Ti中的元素為第i+l步被歸類的文檔編號(hào),i二0,1,。為方便用戶的瀏覽,我們?cè)O(shè)定聚類后的類別總數(shù)不超過(guò)20。則聚類方法可以描述如下(請(qǐng)參見(jiàn)權(quán)利要求書(shū)4)。在本方法中,相似度的計(jì)算是影響聚類效果的一個(gè)關(guān)鍵因素。本發(fā)明考慮了公共子串權(quán)重與該子串長(zhǎng)度成a次方的關(guān)系,如果a太大,則較長(zhǎng)公共子串的作用會(huì)被過(guò)分放大,從而影響到聚類效果,所以,a的具體值需要通過(guò)實(shí)驗(yàn)來(lái)獲得。a取值從O開(kāi)始以步長(zhǎng)0.1遞增到2,分別對(duì)不同關(guān)鍵字返回的100個(gè)搜索結(jié)果進(jìn)行聚類,關(guān)鍵字包括"蘋(píng)果","姚明","數(shù)據(jù)挖掘"。采用評(píng)價(jià)參數(shù)是類內(nèi)類間距離比。由類內(nèi)類間距離比的定義可知,當(dāng)一個(gè)聚類的類內(nèi)距離越小、類間距離越大時(shí)聚類效果最好,所以當(dāng)類內(nèi)類間距離比越小時(shí),聚類的結(jié)果效果就越好,相應(yīng)的a值也就越科學(xué)。實(shí)驗(yàn)結(jié)果見(jiàn)附圖3。通過(guò)上面三個(gè)關(guān)鍵字的測(cè)試結(jié)果可以看出當(dāng)a取值區(qū)間在[1.2,1.4]的時(shí)候,聚類結(jié)果的類內(nèi)類間距離比最小。經(jīng)過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),類內(nèi)類間距離比最小時(shí)對(duì)應(yīng)的a值的平均值是1.3。所以,a取值為1.3。權(quán)利要求一種基于公共子串的中文Web文檔在線聚類方法,其特征在于步驟如下(1)利用廣義后綴數(shù)組(GeneralizedSuffixArray,GSA)算法提取Web文檔中的公共子串;(2)利用提取的公共子串,建立文檔特征向量模型,并基于該模型計(jì)算Web文檔的兩兩相似度,得到相似度矩陣;(3)基于該相似度矩陣,采用改進(jìn)的層次聚類算法實(shí)現(xiàn)Web文檔聚類;(4)在聚類過(guò)程中,將同一個(gè)聚類集合中權(quán)重最大的公共子串作為該聚類的標(biāo)簽。2.根據(jù)權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法,其特征在于所述的步驟(1)中利用GSA算法的提取過(guò)程為假設(shè)共有N篇文檔,每篇文檔可看做一個(gè)字符串,則共有N個(gè)字符串S2,...S,,其中N大于l,將這些字符串用N-l個(gè)特殊字符拼接起來(lái)后得到字符串SE=SiaiS2a2...SN—1%—^w,其中ai即為插入的特殊字符,i的取值范圍為1《i《(N-l);且對(duì)所有的ai,Sj有",,其中i,j的取值范圍為1《i《N-l,1《j《N;構(gòu)造SE的后綴數(shù)組,然后兩兩比較相鄰子串的最長(zhǎng)公共前綴,這兩個(gè)相鄰子串的所有長(zhǎng)度大于等于1的最長(zhǎng)公共前綴,就是所求的兩個(gè)字符串的公共子串,以此類推即可得到S2,...SN的全部公共子串。3.根據(jù)權(quán)利要求l所述的一種基于公共子串的中文Web文檔在線聚類方法,其特征在于所述的步驟(2)中的建立的文檔特征向量模型為首先假設(shè)待聚類的文本為{Dl,D2,,DN};經(jīng)過(guò)過(guò)濾處理的公共子串序列為S2,...Sn—pSn;函數(shù)len(Sk)表示字符串Sk的長(zhǎng)度,其中k二1,2,…,n;函數(shù)tf(Sk,Dj)表示公共子串Sk在文本Dj中出現(xiàn)的頻率;函數(shù)idf(Sk)表示公共子串Sk的逆文檔頻率;常數(shù)N表示搜索引擎返回的結(jié)果數(shù)目,也就是要聚類的文本數(shù)目;函數(shù)df(Sk)表示包含公共子串Sk的文本數(shù)目;建立文檔Dj的特征向量模型Dj=(w(SpDj),w(S2,Dj),...,w(Sn,D》},(j=1,2,...N),即公共子串及其對(duì)應(yīng)權(quán)重所組成的特征向量;其中,w(Sk,Dj)為串Sk相對(duì)于文本Dj的權(quán)重,其中k二l,2,...,n;iVw(Sk,Dj)=l0g(l+tf(Sk,Dj))*idf(Sk)*(len(Sk))a其中,=log(l十^^);a的值通過(guò)實(shí)驗(yàn)確定為1.3。4.權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法,其特征在于所述的步驟(3)中的改進(jìn)的層次聚類算法過(guò)程為,假設(shè)要聚類的文檔總數(shù)為N,其中NX),Ni表示第i+l步未被歸類的文檔數(shù),i為整數(shù)且i>O,集合1\表示第i個(gè)聚類,1\中的元素為第i+l步被歸類的文檔編號(hào),i為整數(shù)且i>0;聚類方法如下第一步聚類包括四步i.此時(shí)未歸類的初始文檔數(shù)N。=N,取初始閾值為相似度矩陣中最大相似度的一半,即《=丄max(5Vot(",.,",));2'.J=1,2,...WJii.對(duì)任意兩個(gè)文檔DpDj,若Sim(Di,D》>e。,則將D」放入集合T。,即T。=TOU{Di,Dj};iii.如果T。中存在相互之間相似度小于閾值9。的文檔,即對(duì)所有的Di,DjGT。,i<j,若存在Sim(Di,Dj)<e。,則從T。中取出DpDj中下標(biāo)較大者,即T。=T。-{Dj},直至T。中不存在這樣的Di,Dj;iv.此時(shí)將T。中的所有元素歸為一類,并取這些元素的公共子串中出現(xiàn)次數(shù)最多者,作為該類的標(biāo)簽,至此,本步聚類完成;從第二步聚類開(kāi)始,推廣到第n步,可表示如下n)第n步,n為整數(shù)且n^2,此時(shí)未歸類的文檔數(shù)iV,iV-l5l7;i,其中|Ti|為T(mén)i中w-2元素的數(shù)目,若乂^!,則取《=丄(版(A,D,)),其中,^(仇"2w-yT';對(duì)任意的Di,DjGT,重復(fù)第一步聚類中的ii,iii,iv步,可以得到i;—"并完成第n步聚類,接著進(jìn)入第n+l步的聚類(同n步聚類的過(guò)程);直至iV"—,<^,則將尚未被歸類的文檔歸為一類,標(biāo)簽為"其他",完成聚類。5.權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法,其特征在于為方便用戶的瀏覽,設(shè)定所述的步驟(3)中的聚類類別的總數(shù)不超過(guò)20。全文摘要隨著互聯(lián)網(wǎng)上的信息激增,搜索引擎在搜索和定位信息的應(yīng)用中變得日益重要。Web文檔聚類可自動(dòng)將搜索引擎的返回結(jié)果按不同主題進(jìn)行分類,幫助用戶縮小查詢范圍并快速定位所需信息。Web文檔在線聚類的特點(diǎn)是一方面要滿足Web文檔非數(shù)值型和非結(jié)構(gòu)化的特點(diǎn),另一方面聚類時(shí)間要滿足用戶在線檢索的要求。根據(jù)這兩個(gè)特點(diǎn),提出一種基于公共子串的中文Web文檔在線聚類方法,該方法步驟如下(1)首先對(duì)搜索引擎返回的前N項(xiàng)查詢結(jié)果進(jìn)行預(yù)處理,實(shí)現(xiàn)對(duì)搜索引擎返回結(jié)果中非中文字符的刪除及替換操作;(2)利用GSA實(shí)現(xiàn)Web文檔中公共子串的提取;(3)利用提取的公共子串,參考TF*IDF提出權(quán)重計(jì)算方公式,建立文檔特征向量模型;(4)基于該模型計(jì)算Web文檔的兩兩相似度,得到相似度矩陣;(5)基于該矩陣,采用改進(jìn)的層次聚類算法實(shí)現(xiàn)Web文檔聚類。(6)聚類描述和標(biāo)簽的提取。該方法在性能、聚類標(biāo)簽生成和聚類時(shí)間效果方面具有較明顯優(yōu)勢(shì)。文檔編號(hào)G06F17/30GK101694670SQ200910236138公開(kāi)日2010年4月14日申請(qǐng)日期2009年10月20日優(yōu)先權(quán)日2009年10月20日發(fā)明者張輝,楊高,王德慶,王晗申請(qǐng)人:北京航空航天大學(xué);