一種基于公共子串的中文Web文檔在線聚類方法

文檔序號(hào)：6584485閱讀：152來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種基于公共子串的中文Web文檔在線聚類方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于信息處理
技術(shù)領(lǐng)域：
，是一種數(shù)據(jù)挖掘方法，具體涉及一種Web文檔在線聚類方法。
背景技術(shù)：
：聚類過(guò)程實(shí)質(zhì)上是一個(gè)映射過(guò)程。若給定對(duì)象集0={0l，o2，...，on}，類集為={Cl，c2，...，cm}，則聚類是如下映射且滿足(1)c,.;0(/=l,2，...,/)(2)|Jc,=0隨著互聯(lián)網(wǎng)的日益推廣和普及，網(wǎng)絡(luò)信息的迅速增加，傳統(tǒng)的搜索引擎往往會(huì)返回大量的搜索結(jié)果而使用戶很難找到自己真正需要的信息。Web文檔聚類能夠較好地解決這一問(wèn)題，它將搜索引擎的返回結(jié)果按內(nèi)容分類。這樣，用戶就可以縮小挑選范圍從而快速找到感興趣的信息。Web文檔聚類是一種無(wú)指導(dǎo)的文檔分類，它將一個(gè)文檔集分成若干個(gè)簇(子集)，同一簇內(nèi)文檔內(nèi)容的相似性盡可能的大，而不同簇之間文檔內(nèi)容的相似性盡可能的小。相比一般的聚類，Web文檔在線聚類有兩個(gè)特點(diǎn)一是聚類對(duì)象是Web文檔，具有非數(shù)值型和非結(jié)構(gòu)化的特點(diǎn)；二是聚類時(shí)間要滿足用戶在線檢索的要求，因而算法應(yīng)具有實(shí)時(shí)性和交互性的特點(diǎn)。Web文檔聚類的研究主要有三種方法基于鏈接的聚類、基于文本相似度的聚類及基于用戶反饋的聚類。目前，比較常見(jiàn)的搜索引擎結(jié)果聚類方法主要是基于文檔相似度的聚類算法。基于文檔相似度的聚類思想是將文檔抽象表示為向量，并采用向量夾角余弦來(lái)表示文檔與文檔之間的相似度，然后按照一定的聚類算法(如K-means、STC)對(duì)文檔進(jìn)行聚類。以上提到的方法適用于英文信息檢索系統(tǒng)，而中文的詞語(yǔ)之間沒(méi)有間隔，必須依賴于分詞系統(tǒng)，所以以上方法對(duì)于中文信息檢索的效果并不好。本發(fā)明提出一種在線式的、無(wú)需中文分詞的中文Web文檔聚類算法。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問(wèn)題1、目前一般的Web文檔聚類方法適用于英文信息檢索系統(tǒng)，而中文的詞語(yǔ)之間沒(méi)有間隔，必須依賴于分詞系統(tǒng)，而詞庫(kù)的質(zhì)量對(duì)聚類效果會(huì)有至關(guān)重要的影響。本發(fā)明采用無(wú)分詞技術(shù)，可以避免詞庫(kù)的影響，同時(shí)提高聚類性能；2、Web文檔在線聚類的執(zhí)行時(shí)間要滿足用戶在線檢索的要求，因而要求算法應(yīng)具有較強(qiáng)的實(shí)時(shí)性和交互性。本發(fā)明采用的技術(shù)方案系統(tǒng)處理流程分以下幾個(gè)步驟l)Web文檔預(yù)處理，實(shí)現(xiàn)對(duì)搜索引擎返回結(jié)果中非中文字符的刪除以及替換處理操作；2)利用GSA實(shí)現(xiàn)Web文檔中公共字串的提取，然后將公共字串作為文檔的特征；3)計(jì)算待聚類文檔兩兩之間的相似度，形成文檔相似度矩陣；4)利用相似度矩陣，并使用聚類算法對(duì)文檔進(jìn)行聚類；5)聚類描述和標(biāo)簽的提取，即對(duì)每個(gè)類別賦予一個(gè)能夠描述該類的類標(biāo)簽，這個(gè)標(biāo)簽既能概括本類的內(nèi)容，又能將本類與其他類區(qū)別開(kāi)來(lái)。本發(fā)明取得的有益效果在線聚類方法在性能、聚類標(biāo)簽生成和聚類時(shí)間效果方面具有較明顯優(yōu)勢(shì)1、與和傳統(tǒng)的文本聚類系統(tǒng)相比，本文所提出的中文Web文檔在線聚類方法不需要分詞，而是采用GSA算法來(lái)提取Web文檔之間公共子串的方法確定文檔的特征，進(jìn)而作為聚類方法中的特征向量進(jìn)行聚類計(jì)算。解決了Web文本作為聚類對(duì)象非數(shù)值型和非結(jié)構(gòu)化的問(wèn)題。2、本發(fā)明求解字符串之間公共子串采用的是后綴樹(shù)(SuffixTree)算法的一個(gè)變種——GSA算法，其時(shí)間復(fù)雜度為O(n)，且空間復(fù)雜度是S(n)。其在空間復(fù)雜性上要優(yōu)于后綴樹(shù)算法。3、傳統(tǒng)的層次聚類方法(無(wú)論是凝聚層次聚類還是分裂層次聚類)，復(fù)雜度都很高，而可擴(kuò)展性較差，因而不適合大量文檔的聚類。為此，本發(fā)明對(duì)傳統(tǒng)的凝聚層次聚類進(jìn)行了優(yōu)化，取得了較好的聚類效果。4、本發(fā)明使用權(quán)重最大的公共子串作為聚類的標(biāo)簽，不僅能夠保留語(yǔ)義成分，而且使得聚類標(biāo)簽的可讀性強(qiáng)。下面，將通過(guò)實(shí)驗(yàn)驗(yàn)證本發(fā)明取得的效果聚類算法的主要指標(biāo)包括CH值、聚類標(biāo)簽有效性及聚類效果。CH函數(shù)的定義如下CH=-^;^-^-^/r"ce5—S"乂|w7_w乂=i""ce『=ZZ卄x,.—w乂乂=1Z=1其中，nj是第j個(gè)聚類中的文本數(shù)量；Uj是第j個(gè)聚類的質(zhì)心；u是所有參與聚類文本的質(zhì)心；Xi是相應(yīng)某個(gè)聚類里的第i個(gè)文本；k是聚類的總數(shù)目；n是文本的總數(shù)目。CH函數(shù)是聚類結(jié)果中類內(nèi)距離與類間距離的綜合體現(xiàn)，CH值越大，代表聚類效果越好。實(shí)驗(yàn)中使用五個(gè)關(guān)鍵字來(lái)進(jìn)行檢索，下表是本文提出的模型與中文分詞+t，idf模型的CH值比較<table>tableseeoriginaldocumentpage6</column></row><table>通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)基于公共子串的模型獲得的CH值比分詞+t，idf模型要大，其中"姚明"和"數(shù)據(jù)挖掘"的CH值分別提高了5.8、5.4，因此，新的方法在聚類效果上要好于傳統(tǒng)方法。聚類標(biāo)簽的有效性即可讀性對(duì)于用戶而言非常重要，只有具有實(shí)際含義的短語(yǔ)才能作為聚類的標(biāo)簽。標(biāo)簽有效性的計(jì)算公式是P=M/N，其中，M代表可讀性好的標(biāo)簽數(shù)目，N代表所有標(biāo)簽的數(shù)目。實(shí)驗(yàn)結(jié)果見(jiàn)附圖l，由附圖1可知，新方法的短語(yǔ)有效性在0.8-0.95之間，而傳統(tǒng)的方法大部分在0.8以下。因此，新方法得到的聚類標(biāo)簽可讀性要優(yōu)于傳統(tǒng)模型。最后，發(fā)明對(duì)關(guān)鍵詞"蘋(píng)果"在百度查詢的前100條結(jié)果作為聚類的Web文檔，最終的效果見(jiàn)附圖2。從附圖2可看出，本發(fā)明提出的方法能夠獲得較好的聚類效果。通過(guò)實(shí)驗(yàn)結(jié)果分析和比較，本發(fā)明提出的基于公共子串的中文Web文檔在線聚類方法在聚類效果、聚類性能以及在聚類標(biāo)簽可讀性等方面相比基于分詞的中文聚類算法具有較明顯的優(yōu)勢(shì)。圖1為標(biāo)簽的有效性比較；圖2為輸入關(guān)鍵字"蘋(píng)果"所得的聚類效果；圖3為三個(gè)查詢?cè)~的測(cè)試結(jié)果(蘋(píng)果、姚明、數(shù)據(jù)挖掘)；圖4為基于公共子串的中文Web文檔在線聚類方法的流程圖。具體實(shí)施例方式1.Web文檔預(yù)處理在中文搜索引擎(如百度等)的返回結(jié)果中，常常含有一些非中文字符，如英文字符、空格、標(biāo)點(diǎn)符號(hào)或者亂碼等。由于本發(fā)明研究的重點(diǎn)是中文Web文檔聚類，所以在聚類之前，需要對(duì)搜索結(jié)果中的非中文內(nèi)容進(jìn)行替換處理。預(yù)處理階段主要將這些非中文字符替換成系統(tǒng)預(yù)先定義的分隔符。需要替換的非中文字符主要包括空格、數(shù)字、英文大小寫(xiě)字母、中英文標(biāo)點(diǎn)符號(hào)(包括全角和半角)及中文停頓字(例如"啊"、"的"、"了"等)。預(yù)處理后將得到只包含中文字符的搜索引擎結(jié)果項(xiàng)，將其作為公共子串提取的輸入。2.基于GSA的公共子串提取參公共子串(CommonSubstring,CS):字符串u如果既是字符串S的子串又是字符串T的子串，則字符串u是字符串S和T的一個(gè)公共子串。若用Sub(S，u)表示字符串u是字符串S的子串，則字符串S、T的公共子串集Com(S，T)可定義為Com(&"=IVw,5W6(S，w)a5W6(r,w)}.參最長(zhǎng)公共子串(LongestCommonSubstring,LCS):字符串S和T的最長(zhǎng)公共子串是指字符串S和T的所有公共子串中長(zhǎng)度最大的子串。若字符串u滿足uGCom(S，T)且WeGK5;7)，則稱u為字符串S，T的最長(zhǎng)公共子串。例如給定2個(gè)長(zhǎng)度均為4的字符串"abac"、"caba"。它們的公共子串有""、"a"、"b"、"ab"、"ba"、"aba"和"c"，其中最長(zhǎng)公共子串即為"aba"。公共子串問(wèn)題的求解，常用的經(jīng)典算法有動(dòng)態(tài)規(guī)劃算法和后綴樹(shù)算法。前者的特點(diǎn)是易于實(shí)現(xiàn)但時(shí)間復(fù)雜度很高；而后者的特點(diǎn)是時(shí)間復(fù)雜度僅為線性，但實(shí)現(xiàn)起來(lái)相對(duì)困難。本方法采用后綴樹(shù)(SuffixTree)算法的一個(gè)變種——廣義后綴數(shù)組GSA算法，實(shí)現(xiàn)文本之間的公共子串提取。采用GSA算法求解字符串之間公共子串的時(shí)間復(fù)雜度是0(n)。且GSA算法的空間復(fù)雜度是S(n)，其在空間復(fù)雜性上要優(yōu)于后綴樹(shù)算法。定義參后綴(Suffix):—個(gè)字符串S的后綴，是指從某個(gè)特定位置i(i《S.len(S))開(kāi)始，直到S最后一個(gè)字符的一個(gè)串，它是S的一個(gè)子串。這個(gè)子串可表示為suffix(S，i)，即Suffix(S，i)=substring(S，i，len(S)).參后綴數(shù)組(SuffixArray,SA):后綴數(shù)組SA與字符串S—一對(duì)應(yīng)。它的每一個(gè)元素是S的一個(gè)下標(biāo)。即len(SA)=len(S)且SA[i]G{1，2，，len(S)}(1《i《len(S))，SA[i]#SA[j](i#j)。同時(shí)，這個(gè)數(shù)組還滿足Suffix(S，SA[i])<Suffix(S，SA[i+l])，(1《i<len(S))參廣義后綴數(shù)組(GeneralizedSuffixArray,GSA):若干個(gè)字符串SnS2，...，Sn的廣義后綴數(shù)組是指使用特殊結(jié)束符連接字符串S2，...，Sn后形成新字符串的后綴數(shù)組。舉例說(shuō)明，比如對(duì)于兩個(gè)字符串SI="abac"和S2="caba"。用特殊字符@將其連接起來(lái)而得到的字符串為abacOcaba。對(duì)于字符串a(chǎn)bac0caba，共有8個(gè)非空后綴，原來(lái)的序列和按照字典序進(jìn)行排序后的序列如下表所示非空后綴排序前和排序后<table>tableseeoriginaldocumentpage8</column></row><table>則一維數(shù)組SA=[8，6，1，3，7，2，5，4]即為字符串S丄和S2的廣義后綴數(shù)組。得到兩個(gè)字符串連接的廣義后綴數(shù)組之后，依次兩兩比較相鄰子串的最長(zhǎng)公共前綴，所有長(zhǎng)度大于等于1的最長(zhǎng)公共前綴，就是所求的兩個(gè)字符串的公共子串。以上求解兩個(gè)字符串的公共子串算法擴(kuò)展成N(N〉1)個(gè)字符串的公共子串求解算法對(duì)于N(N〉1)個(gè)字符串31，52，...3,，將其用N-l個(gè)特殊字符(不必兩兩相異)拼接起來(lái)后得到字符串SE=SiaiS2a2...SN—a—A，其中，ai(l《i《(n-l))即為插入的特殊字符，且對(duì)所有的ai，Sj，(1《i《N-l，1《j《N)，有",.g&。構(gòu)造se的后綴數(shù)組，然后兩兩比較相鄰子串的最長(zhǎng)公共前綴，即可得到N個(gè)字符串SpS2，...SN的全部公共子串。3.文本特征向量模型的建立在基于文本的信息檢索過(guò)程，一個(gè)文本的特征向量模型是一個(gè)由文本中的若干特征所組成的集合。在這個(gè)基于公共子串的文本特征向量模型中，每一個(gè)文檔D可以表示成M個(gè)公共子串及其對(duì)應(yīng)權(quán)重所組成的特征向量。這里假設(shè)參待聚類的文本為(D1，D2，…，DN);參經(jīng)過(guò)過(guò)濾處理的公共子串序列為(SpS2，...Sn—pSn);參函數(shù)len(Sk)(k=1，2，，n)表示字符串Sk的長(zhǎng)度；參函數(shù)tf(Sk，Dj)表示公共子串Sk在文本Dj中出現(xiàn)的頻率。tf也就是信息檢索過(guò)程中常常用到的詞頻(Termfrequency);參函數(shù)idf(Sk)表示公共子串Sk的逆文檔頻率(Inverseddocumentfrequency)5參常數(shù)N表示搜索引擎返回的結(jié)果數(shù)目，也就是我們要聚類的文本數(shù)目；參函數(shù)df(Sk)表示包含公共子串Sk的文本的數(shù)目?；谝陨霞僭O(shè)，文檔Dj可以表示為向量如下形式Dj=(w(S丄，Dj)，w(S2，D」)，，w(Sn，D」)}，(j=1，2，…，N)其中w(Sk，Dj)(k=1，2，...，n)是公共子串Sk相對(duì)于文本Dj的權(quán)重。參考TF*IDF提出權(quán)重計(jì)算方公式如下w(Sk，Dj)=log(1+tf(Sk，Dj))*idf(Sk)*(len(Sk))a其中，在一個(gè)文檔中，公共子串權(quán)重與其長(zhǎng)度呈正相關(guān)關(guān)系，即長(zhǎng)度越長(zhǎng)其權(quán)重越大。在以上公式中，我們對(duì)公共子串Sk的長(zhǎng)度len(Sk)取a次方，以放大較長(zhǎng)公共子串對(duì)其權(quán)重的影響，具體a的值需要通過(guò)實(shí)驗(yàn)來(lái)確定。利用上式，計(jì)算出全部公共子串的權(quán)重后，就可以使用傳統(tǒng)的相似度算法，例如cosine相似度算法來(lái)計(jì)算文本之間的相似度。兩個(gè)文本相似度的計(jì)算公式如下《《'，^4.聚類方法及實(shí)現(xiàn)根據(jù)上述提出的文本特征向量模型可以得到文本間的相似度矩陣，如下表所示相似度矩陣<table>tableseeoriginaldocumentpage9</column></row><table>上表中，Di(1《i《N)為N個(gè)結(jié)果項(xiàng)(需要聚類的文檔)，Sim(i，j)(1《i，j《N)表示結(jié)果項(xiàng)Di和Dj之間的相似度。得到相似度矩陣后，下一步可采用層次聚類對(duì)結(jié)果項(xiàng)進(jìn)行聚類。使用層次聚類可以使總的分類數(shù)目較少，便于用戶迅速定位所需信息。同時(shí)，每一類還可以再細(xì)分。傳統(tǒng)的層次聚類方法(無(wú)論是凝聚層次聚類還是分裂層次聚類)，復(fù)雜度都很高，而可擴(kuò)展性較差，因而不適合大量文檔的聚類。為此，本發(fā)明對(duì)傳統(tǒng)的凝聚層次聚類進(jìn)行了優(yōu)化。假設(shè)要聚類的文檔總數(shù)為N，N>0，Ni表示第i+1步未被歸類的文檔數(shù)，i=0，1，…；集合Ti表示第i個(gè)聚類，Ti中的元素為第i+l步被歸類的文檔編號(hào)，i二0，1，。為方便用戶的瀏覽，我們?cè)O(shè)定聚類后的類別總數(shù)不超過(guò)20。則聚類方法可以描述如下(請(qǐng)參見(jiàn)權(quán)利要求書(shū)4)。在本方法中，相似度的計(jì)算是影響聚類效果的一個(gè)關(guān)鍵因素。本發(fā)明考慮了公共子串權(quán)重與該子串長(zhǎng)度成a次方的關(guān)系，如果a太大，則較長(zhǎng)公共子串的作用會(huì)被過(guò)分放大，從而影響到聚類效果，所以，a的具體值需要通過(guò)實(shí)驗(yàn)來(lái)獲得。a取值從O開(kāi)始以步長(zhǎng)0.1遞增到2，分別對(duì)不同關(guān)鍵字返回的100個(gè)搜索結(jié)果進(jìn)行聚類，關(guān)鍵字包括"蘋(píng)果"，"姚明"，"數(shù)據(jù)挖掘"。采用評(píng)價(jià)參數(shù)是類內(nèi)類間距離比。由類內(nèi)類間距離比的定義可知，當(dāng)一個(gè)聚類的類內(nèi)距離越小、類間距離越大時(shí)聚類效果最好，所以當(dāng)類內(nèi)類間距離比越小時(shí)，聚類的結(jié)果效果就越好，相應(yīng)的a值也就越科學(xué)。實(shí)驗(yàn)結(jié)果見(jiàn)附圖3。通過(guò)上面三個(gè)關(guān)鍵字的測(cè)試結(jié)果可以看出當(dāng)a取值區(qū)間在[1.2，1.4]的時(shí)候，聚類結(jié)果的類內(nèi)類間距離比最小。經(jīng)過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn)，類內(nèi)類間距離比最小時(shí)對(duì)應(yīng)的a值的平均值是1.3。所以，a取值為1.3。權(quán)利要求一種基于公共子串的中文Web文檔在線聚類方法，其特征在于步驟如下(1)利用廣義后綴數(shù)組(GeneralizedSuffixArray，GSA)算法提取Web文檔中的公共子串；(2)利用提取的公共子串，建立文檔特征向量模型，并基于該模型計(jì)算Web文檔的兩兩相似度，得到相似度矩陣；(3)基于該相似度矩陣，采用改進(jìn)的層次聚類算法實(shí)現(xiàn)Web文檔聚類；(4)在聚類過(guò)程中，將同一個(gè)聚類集合中權(quán)重最大的公共子串作為該聚類的標(biāo)簽。2.根據(jù)權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法，其特征在于所述的步驟(1)中利用GSA算法的提取過(guò)程為假設(shè)共有N篇文檔，每篇文檔可看做一個(gè)字符串，則共有N個(gè)字符串S2，...S,，其中N大于l，將這些字符串用N-l個(gè)特殊字符拼接起來(lái)后得到字符串SE=SiaiS2a2...SN—1%—^w，其中ai即為插入的特殊字符，i的取值范圍為1《i《(N-l);且對(duì)所有的ai，Sj有",，其中i，j的取值范圍為1《i《N-l，1《j《N;構(gòu)造SE的后綴數(shù)組，然后兩兩比較相鄰子串的最長(zhǎng)公共前綴，這兩個(gè)相鄰子串的所有長(zhǎng)度大于等于1的最長(zhǎng)公共前綴，就是所求的兩個(gè)字符串的公共子串，以此類推即可得到S2，...SN的全部公共子串。3.根據(jù)權(quán)利要求l所述的一種基于公共子串的中文Web文檔在線聚類方法，其特征在于所述的步驟(2)中的建立的文檔特征向量模型為首先假設(shè)待聚類的文本為{Dl，D2，，DN};經(jīng)過(guò)過(guò)濾處理的公共子串序列為S2，...Sn—pSn;函數(shù)len(Sk)表示字符串Sk的長(zhǎng)度，其中k二1，2，…，n;函數(shù)tf(Sk，Dj)表示公共子串Sk在文本Dj中出現(xiàn)的頻率；函數(shù)idf(Sk)表示公共子串Sk的逆文檔頻率；常數(shù)N表示搜索引擎返回的結(jié)果數(shù)目，也就是要聚類的文本數(shù)目；函數(shù)df(Sk)表示包含公共子串Sk的文本數(shù)目；建立文檔Dj的特征向量模型Dj=(w(SpDj)，w(S2，Dj)，...，w(Sn，D》}，(j=1，2，...N)，即公共子串及其對(duì)應(yīng)權(quán)重所組成的特征向量；其中，w(Sk，Dj)為串Sk相對(duì)于文本Dj的權(quán)重，其中k二l，2，...，n;iVw(Sk，Dj)=l0g(l+tf(Sk，Dj))*idf(Sk)*(len(Sk))a其中，=log(l十^^);a的值通過(guò)實(shí)驗(yàn)確定為1.3。4.權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法，其特征在于所述的步驟(3)中的改進(jìn)的層次聚類算法過(guò)程為，假設(shè)要聚類的文檔總數(shù)為N，其中NX)，Ni表示第i+l步未被歸類的文檔數(shù)，i為整數(shù)且i>O，集合1\表示第i個(gè)聚類，1\中的元素為第i+l步被歸類的文檔編號(hào)，i為整數(shù)且i>0;聚類方法如下第一步聚類包括四步i.此時(shí)未歸類的初始文檔數(shù)N。=N，取初始閾值為相似度矩陣中最大相似度的一半，即《=丄max(5Vot(",.,",));2'.J=1,2,...WJii.對(duì)任意兩個(gè)文檔DpDj，若Sim(Di，D》>e。，則將D」放入集合T。，即T。=TOU{Di，Dj};iii.如果T。中存在相互之間相似度小于閾值9。的文檔，即對(duì)所有的Di，DjGT。，i<j，若存在Sim(Di，Dj)<e。，則從T。中取出DpDj中下標(biāo)較大者，即T。=T。-{Dj}，直至T。中不存在這樣的Di，Dj;iv.此時(shí)將T。中的所有元素歸為一類，并取這些元素的公共子串中出現(xiàn)次數(shù)最多者，作為該類的標(biāo)簽，至此，本步聚類完成；從第二步聚類開(kāi)始，推廣到第n步，可表示如下n)第n步，n為整數(shù)且n^2，此時(shí)未歸類的文檔數(shù)iV,iV-l5l7;i，其中|Ti|為T(mén)i中w-2元素的數(shù)目，若乂^!，則取《=丄(版(A，D,))，其中，^(仇"2w-yT';對(duì)任意的Di，DjGT，重復(fù)第一步聚類中的ii，iii，iv步，可以得到i;—"并完成第n步聚類，接著進(jìn)入第n+l步的聚類(同n步聚類的過(guò)程)；直至iV"—,<^，則將尚未被歸類的文檔歸為一類，標(biāo)簽為"其他"，完成聚類。5.權(quán)利要求1所述的一種基于公共子串的中文Web文檔在線聚類方法，其特征在于為方便用戶的瀏覽，設(shè)定所述的步驟(3)中的聚類類別的總數(shù)不超過(guò)20。全文摘要隨著互聯(lián)網(wǎng)上的信息激增，搜索引擎在搜索和定位信息的應(yīng)用中變得日益重要。Web文檔聚類可自動(dòng)將搜索引擎的返回結(jié)果按不同主題進(jìn)行分類，幫助用戶縮小查詢范圍并快速定位所需信息。Web文檔在線聚類的特點(diǎn)是一方面要滿足Web文檔非數(shù)值型和非結(jié)構(gòu)化的特點(diǎn)，另一方面聚類時(shí)間要滿足用戶在線檢索的要求。根據(jù)這兩個(gè)特點(diǎn)，提出一種基于公共子串的中文Web文檔在線聚類方法，該方法步驟如下(1)首先對(duì)搜索引擎返回的前N項(xiàng)查詢結(jié)果進(jìn)行預(yù)處理，實(shí)現(xiàn)對(duì)搜索引擎返回結(jié)果中非中文字符的刪除及替換操作；(2)利用GSA實(shí)現(xiàn)Web文檔中公共子串的提取；(3)利用提取的公共子串，參考TF*IDF提出權(quán)重計(jì)算方公式，建立文檔特征向量模型；(4)基于該模型計(jì)算Web文檔的兩兩相似度，得到相似度矩陣；(5)基于該矩陣，采用改進(jìn)的層次聚類算法實(shí)現(xiàn)Web文檔聚類。(6)聚類描述和標(biāo)簽的提取。該方法在性能、聚類標(biāo)簽生成和聚類時(shí)間效果方面具有較明顯優(yōu)勢(shì)。文檔編號(hào)G06F17/30GK101694670SQ200910236138公開(kāi)日2010年4月14日申請(qǐng)日期2009年10月20日優(yōu)先權(quán)日2009年10月20日發(fā)明者張輝,楊高,王德慶,王晗申請(qǐng)人:北京航空航天大學(xué);

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張輝;王德慶;王晗;楊高
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于公共子串的中文Web文檔在線聚類方法