專利名稱:一種搜索引擎的反饋信息處理方法及搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別是指ー種搜索引擎的反饋信息處理方法及搜索引擎。
背景技術(shù):
現(xiàn)有技術(shù)中,搜索引擎包括如Google(谷歌),Slor等;在這些搜索引擎中輸入關(guān)鍵字進(jìn)行檢索時(shí),如輸入關(guān)鍵詞“時(shí)間”,Google返回的檢索結(jié)果如圖I所示,其中“顯示更多來自time. ac. cn的搜索結(jié)果”,僅在檢索結(jié)果的第I頁中出現(xiàn),“顯示更多來自time. ac. cn的捜索結(jié)果”根據(jù)相同URL網(wǎng)址合并了來自同一個(gè)網(wǎng)站“time. ac. cn”的網(wǎng)頁結(jié)果。
Solr的搜索內(nèi)容使用Carrot2實(shí)時(shí)文檔聚類引擎對檢索結(jié)果進(jìn)行聚類,以文檔的標(biāo)題,內(nèi)容和url字段的內(nèi)容作為參數(shù)值,使用短語(單詞的序列)生成聚具有意義的類標(biāo)簽。為取得較好的結(jié)果,title字段必須是簡潔的,包含沒有噪聲的內(nèi)容;輸入關(guān)鍵詞“時(shí)間”,Solr的搜索結(jié)果如圖2所示。從圖I和圖2中可以看出,上述搜索引擎返回的結(jié)果存在如下的問題(I)僅對固定數(shù)目的捜索結(jié)果進(jìn)行聚類,對第I個(gè)頁面以外的其余頁面的搜索結(jié)果不進(jìn)行聚類,對聚類的類別數(shù)目不能控制。(2)容錯(cuò)性較差,受到噪聲的干擾聚類結(jié)果不正確,例如“國內(nèi)成品油調(diào)價(jià)窗ロ逼近調(diào)價(jià)時(shí)間可能押后”和“國內(nèi)成品油調(diào)價(jià)窗ロ逼近調(diào)價(jià)時(shí)間有可能押后”,聚類結(jié)果分別為兩個(gè)類別,但是實(shí)際上應(yīng)該同屬于ー個(gè)類別。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供ー種搜索引擎的反饋信息處理方法及搜索引擎,使得搜索引擎能夠?qū)λ械膾人鹘Y(jié)果進(jìn)行聚類,支持所有頁面的搜索結(jié)果聚類,對聚類的類別數(shù)目能進(jìn)行控制,對噪聲干擾有很好的容錯(cuò)性。為解決上述技術(shù)問題,本發(fā)明的實(shí)施例提供ー種搜索引擎的反饋信息處理方法,包括抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁;根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中。其中,所述根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算的步驟包括在所有網(wǎng)頁中,根據(jù)所有網(wǎng)頁的關(guān)鍵詞,針對任意兩個(gè)網(wǎng)頁進(jìn)行相似度計(jì)算。其中,相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第二反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,所述相同關(guān)鍵詞個(gè)數(shù)為所述第一反饋網(wǎng)頁與所述第二反饋網(wǎng)頁的相同的關(guān)鍵詞個(gè)數(shù)。其中,將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括若所述相似度大于第一閾值,則將當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;或者若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題相同,則當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題不相同,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于或者等于所述第二閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反 饋網(wǎng)頁。其中,基于詞的網(wǎng)頁相似度通過以下步驟得到對兩個(gè)網(wǎng)頁串R和T的三個(gè)歸ー化最長的非連續(xù)的公共子串的值SI,S2和S3進(jìn)行加權(quán)求和,得到兩個(gè)反饋網(wǎng)頁的相似度S 其中,S=S1*W_S1+S2*W_S2+S3*W_S3;SI :綜合考慮了網(wǎng)頁串R和網(wǎng)頁串T的長度,對兩個(gè)串的最長的非連續(xù)的公共子串進(jìn)行了歸ー化;si=|R和τ的最長的非連續(xù)的公共子串|/|r||t|,Ir和τ的最長的非連續(xù)的公共子串I表示R和τ的最長的非連續(xù)的公共子串的長度,r|和|τ|分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度;S2:從兩個(gè)串的第一個(gè)字符開始計(jì)算最長的非連續(xù)的公共子串,用兩個(gè)串的長度進(jìn)行歸一化;S2=| R和T從第一個(gè)字符開始匹配的最長的非連續(xù)公共子串|_/|R| Tl, I R和T從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串I表示R和T從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|T|分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度;S3:與長串非連續(xù)匹配的短串或者短串的最長的非連續(xù)部分,用兩個(gè)串的長度進(jìn)行歸ー化;S3=|R和τ從任意字符開始匹配的最長的非連續(xù)公共子串|/|R||T|,IR和τ從任意字符開始匹配的最長的非連續(xù)的公共子串I表示R和τ從任意字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|τ|分別表示網(wǎng)頁串R的長度和網(wǎng)頁串τ的長度;ff_Sl, ff_S2 和 W_S3 的取值范圍為(Tl ;將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。其中,基于共同詞序的網(wǎng)頁相似度通過以下步驟得到兩個(gè)反饋網(wǎng)頁的相似度S 兩個(gè)網(wǎng)頁串R和T,統(tǒng)計(jì)它們的公共字符集合C ;從網(wǎng)頁串R和T中分別提取出公共字符集合C的字符,按照其在原網(wǎng)頁串中的順序構(gòu)成兩個(gè)新網(wǎng)頁串向量R和T ;將網(wǎng)頁串向量R'和T'的每個(gè)字符用ー個(gè)唯一的數(shù)字表示;
計(jì)算網(wǎng)頁串R和T的相似度如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),并且為1,則網(wǎng)頁串R和T的相似度為I ;如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),不為1,則網(wǎng)頁串R和T的相似度為1-2* (網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/(ICl*IC|-1),Icl為公共字符集合C中元素的個(gè)數(shù);如果公共字符集合C中元素的個(gè)數(shù)是偶數(shù),則網(wǎng)頁串R和T的相似度為1-2* (網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/1 Cl* I Cl),Icl為公共字符集合c中元素的個(gè)數(shù);將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括 若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。其中,所述抓取網(wǎng)頁的過程包括根據(jù)所要抓取的web網(wǎng)頁的html標(biāo)簽定制模式集;根據(jù)所述模式集提取出網(wǎng)頁上的標(biāo)題鏈接;根據(jù)標(biāo)題鏈接獲得網(wǎng)頁內(nèi)容;根據(jù)所述模式集對所述網(wǎng)頁內(nèi)容中的新聞標(biāo)題和/或正文進(jìn)行關(guān)鍵詞抽取,獲得所述網(wǎng)頁的關(guān)鍵詞。其中,根據(jù)所述模式集對所述網(wǎng)頁內(nèi)容中的新聞標(biāo)題和/或正文進(jìn)行關(guān)鍵詞抽取,獲得所述網(wǎng)頁的關(guān)鍵詞的步驟包括對所述新聞標(biāo)題和/或正文進(jìn)行分詞和詞性標(biāo)注,去除部分詞性的詞語;計(jì)算剩余詞語的權(quán)重;根據(jù)所述剩余詞語的權(quán)重,選出權(quán)重最大的前預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞,作為所述網(wǎng)頁的關(guān)鍵詞。其中,所述相似網(wǎng)頁以“相似網(wǎng)頁”鏈接的方式控制展現(xiàn)全部的相似網(wǎng)頁,從第二個(gè)結(jié)果開始與第一個(gè)結(jié)果相比前面有縮進(jìn);或者所述相似網(wǎng)頁以“相似網(wǎng)頁”鏈接的方式控制展現(xiàn)相似網(wǎng)頁的第一個(gè)結(jié)果。本發(fā)明的實(shí)施例還提供ー種搜索引擎,包括抓取単元,用于抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;生成単元,用于使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;獲得單元,用于根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁;計(jì)算單元,用于根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;合并單元,用于將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中。
本發(fā)明的上述技術(shù)方案的有益效果如下上述方案中,通過將搜索引擎反饋的所有網(wǎng)頁中,包括相同或者相似關(guān)鍵字的相似網(wǎng)頁進(jìn)行歸并到一個(gè)聚類(或者一組)中,從而使搜索引擎能夠?qū)Ψ答伒乃芯W(wǎng)頁進(jìn)行聚類,支持所有頁面的捜索結(jié)果的聚類,從而能夠?qū)垲惖念悇e數(shù)目進(jìn)行控制,對噪聲干擾具有很好的容錯(cuò)性。
圖I為現(xiàn)有的Google搜索結(jié)果示意圖; 圖2為現(xiàn)有的Slor捜索結(jié)果示意圖;圖3為本發(fā)明的搜索引擎的反饋信息處理方法的流程示意圖;圖4為圖3所示方法的一具體實(shí)現(xiàn)流程示意圖;圖5為基于圖3所示方法的搜索引擎的相似網(wǎng)頁歸為ー類的示意圖;圖6為基于圖5所示的反饋網(wǎng)頁中的相似網(wǎng)頁展開示意圖;圖7為基于圖3所示方法的搜索引擎的相似網(wǎng)頁歸為ー類的另ー示意圖;圖8查詢詞為“こ醇”的反饋信息處理結(jié)果示意圖;圖9為基于圖3所示方法的搜索引擎的反饋網(wǎng)頁的第10頁的相似網(wǎng)頁也歸為ー類的示意圖;圖10為本發(fā)明的實(shí)施例搜索引擎的ー結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。如圖3所示,本發(fā)明的實(shí)施例提供ー種搜索引擎的反饋信息處理方法,包括步驟31,抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;步驟32,使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;步驟33,根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁;步驟34,根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;步驟35,將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中。本發(fā)明的該實(shí)施例通過將搜索引擎反饋的所有網(wǎng)頁中,包括相同或者相似關(guān)鍵字的相似網(wǎng)頁進(jìn)行歸并到一個(gè)聚類(或者一組)中,從而使搜索引擎能夠?qū)Ψ答伒乃芯W(wǎng)頁進(jìn)行聚類,支持所有頁面的捜索結(jié)果的聚類,從而能夠?qū)垲惖念悇e數(shù)目進(jìn)行控制,對噪聲干擾具有很好的容錯(cuò)性。其中,上述方法中,步驟34包括在反饋的所有網(wǎng)頁中,根據(jù)所有網(wǎng)頁的關(guān)鍵詞,針對任意兩個(gè)網(wǎng)頁進(jìn)行相似度計(jì)算。其中,相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第二反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,相同關(guān)鍵詞個(gè)數(shù)為第一反饋網(wǎng)頁與所述第二反饋網(wǎng)頁的相同的關(guān)鍵詞個(gè)數(shù)。
其中,上述方法中,步驟35包括若所述相似度大于第一閾值,則將當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;或者若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題相同,則當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題不相同,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于或者等于所述第二閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。其中,所述第一閾值的取值范圍為0 1 ;所述第二閾值的取值范圍為(Tl。在本發(fā)明的另ー實(shí)施例中,上述方法中,步驟34還可以包括 基于詞的網(wǎng)頁相似度通過以下步驟得到對兩個(gè)網(wǎng)頁串R和T的三個(gè)歸ー化最長的非連續(xù)的公共子串的值S 1,S2和S3進(jìn)行加權(quán)求和,得到兩個(gè)反饋網(wǎng)頁的相似度S 其中,S=S1*W_S1+S2*W_S2+S3*W_S3SI :綜合考慮了網(wǎng)頁串R和網(wǎng)頁串T的長度,對兩個(gè)串的最長的非連續(xù)的公共子串進(jìn)行了歸ー化;si=|R和τ的最長的非連續(xù)的公共子串|/|r||t|,Ir和τ的最長的非連續(xù)的公共子串I表示R和τ的最長的非連續(xù)的公共子串的長度,r|和|τ|分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度;S2:從兩個(gè)串的第一個(gè)字符開始計(jì)算最長的非連續(xù)的公共子串,用兩個(gè)串的長度進(jìn)行歸一化;S2=| R和T從第一個(gè)字符開始匹配的最長的非連續(xù)公共子串|_/|R| Tl, I R和T從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串I表示R和T從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|T|分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度;S3:與長串非連續(xù)匹配的短串或者短串的最長的非連續(xù)部分,用兩個(gè)串的長度進(jìn)行歸ー化;S3=|R和τ從任意字符開始匹配的最長的非連續(xù)公共子串|/|R||T|,IR和τ從任意字符開始匹配的最長的非連續(xù)的公共子串I表示R和τ從任意字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|τ|分別表示網(wǎng)頁串R的長度和網(wǎng)頁串τ的長度;ff_Sl, ff_S2 和 W_S3 的取值范圍為(Tl ;將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。在本發(fā)明的另ー實(shí)施例中,上述方法中,步驟34還可以包括基于共同詞序的網(wǎng)頁相似度通過以下步驟得到兩個(gè)反饋網(wǎng)頁的相似度S 兩個(gè)網(wǎng)頁串R和T,統(tǒng)計(jì)它們的公共字符集合C ;從網(wǎng)頁串R和T中分別提取出公共字符集合C的字符,按照其在原網(wǎng)頁串中的順序構(gòu)成兩個(gè)新網(wǎng)頁串向量R和T ;
將網(wǎng)頁串向量R'和T'的每個(gè)字符用ー個(gè)唯一的數(shù)字表示;計(jì)算網(wǎng)頁串R和T的相似度如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),并且為1,則網(wǎng)頁串R和T的相似度為I;如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),不為1,則網(wǎng)頁串R和T的相似度為1-2* (網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/( ICl*IC|-1),Icl為公共字符集合C中元素的個(gè)數(shù);如果公共字符集合C中元素的個(gè)數(shù)是偶數(shù),則網(wǎng)頁串R和T的相似度為1-2* (網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/1 Cl* I Cl),Icl為公共字符集合c中元素的個(gè)數(shù);將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。其中,所述數(shù)據(jù)庫使用關(guān)系型數(shù)據(jù)庫管理系統(tǒng)mysql存儲所述網(wǎng)頁的站點(diǎn)信息、標(biāo)題和網(wǎng)頁正文的關(guān)鍵詞。關(guān)系型數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在ー個(gè)大倉庫內(nèi),這樣就増加了速度并提高了靈活性。其中,所述索引文件與所述數(shù)據(jù)庫具有相同的內(nèi)容且具有不同的存儲結(jié)構(gòu),所述索引文件為倒排索引的結(jié)構(gòu)。該索引文件是使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄作索引生成的,包括對標(biāo)題、正文、關(guān)鍵詞作索引,該索引文件用于返回捜索結(jié)果。其中,所述步驟11中,抓取網(wǎng)頁的過程包括111,根據(jù)所要抓取的web網(wǎng)頁的html標(biāo)簽定制模式集;112,根據(jù)所述模式集提取出網(wǎng)頁上的標(biāo)題鏈接;113,根據(jù)標(biāo)題鏈接獲得網(wǎng)頁內(nèi)容;114,根據(jù)所述模式集對所述網(wǎng)頁內(nèi)容中的新聞標(biāo)題和/或正文進(jìn)行關(guān)鍵詞抽取,獲得所述網(wǎng)頁的關(guān)鍵詞。這種網(wǎng)頁抓取和信息抽取的方法是基于模式匹配的(正則表達(dá)式的),優(yōu)點(diǎn)是精確
度很高。進(jìn)一步地,步驟114包括對所述新聞標(biāo)題和/或正文進(jìn)行分詞和詞性標(biāo)注,去除部分詞性的詞語;計(jì)算剩余詞語的權(quán)重;根據(jù)所述剩余詞語的權(quán)重,選出權(quán)重最大的前預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞,作為所述網(wǎng)頁的關(guān)鍵詞。具體地,如一篇新聞的關(guān)鍵詞是根據(jù)新聞標(biāo)題和正文內(nèi)容抽取獲得,首先對標(biāo)題和正文進(jìn)行分詞和詞性標(biāo)注,去除部分詞性的詞語(包括副詞、介詞、連詞、助詞、量詞、代詞、數(shù)詞等),經(jīng)過上述處理后計(jì)算剩余詞語的權(quán)重,權(quán)重是根據(jù)詞語的tf-idf的值乘以相應(yīng)的系數(shù)r計(jì)算得到,系數(shù)r默認(rèn)為I。在計(jì)算權(quán)重時(shí),為提高某些詞語的權(quán)重,方法如下第一是名詞等詞性的詞語,將其系數(shù)設(shè)為I. 2 ;第二是標(biāo)題中的詞語,因?yàn)檫@些詞語一般具有概括性,所以在計(jì)算標(biāo)題中詞語的權(quán)重時(shí),提高其tf-idf值,規(guī)則是標(biāo)題詞的tf-idf值等于其出現(xiàn)的次數(shù)乘以3,以此達(dá)到提高權(quán)重的目的。最后根據(jù)詞語的權(quán)重,選出權(quán)重最大的前32個(gè)。如圖4所示,為上述圖3所示方法的一具體應(yīng)用實(shí)例,包括I)在搜索引擎中輸入查詢關(guān)鍵詞,如輸入的查詢關(guān)鍵詞為“時(shí)間”,則搜索引擎根據(jù)輸入的“時(shí)間”反饋多個(gè)網(wǎng)頁,如圖5所示,反饋的多個(gè)網(wǎng)頁中都包括有“時(shí)間” 二字;2)在反饋的多個(gè)網(wǎng)頁序列中,以第I個(gè)反饋網(wǎng)頁為標(biāo)準(zhǔn),計(jì)算網(wǎng)頁之間的相似度;在反饋的多個(gè)網(wǎng)頁序列中,從反饋網(wǎng)頁的第2個(gè)反饋網(wǎng)頁開始,逐個(gè)與第I個(gè)反饋網(wǎng)頁進(jìn)行基于關(guān)鍵詞的相似度計(jì)算,使用公式如下相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第I個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第i個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第I個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,i為正整數(shù),如1,2,3,……;其中,相同關(guān)鍵詞個(gè)數(shù)是第I個(gè)反饋網(wǎng)頁與當(dāng)前第i個(gè)反饋網(wǎng)頁的相同的關(guān)鍵詞的個(gè)數(shù);如果相似度>第一閾值,則當(dāng)前第i個(gè)反饋網(wǎng)頁與第I個(gè)反饋網(wǎng)頁合并為ー類,如圖5中的“化肥關(guān)稅未統(tǒng)一明年旺季出ロ關(guān)稅時(shí)間延長”下方的鏈接“相似網(wǎng)頁(2)”,以將當(dāng)前第5個(gè)反饋網(wǎng)頁與第4個(gè)反饋網(wǎng)頁合并為ー類;如果第二閾值<相似度<=第一閾值,并且標(biāo)題不相同,則不合并;如果相似度<=第二閾值,則把當(dāng)前第i個(gè)反饋網(wǎng)頁作為第2個(gè)搜索結(jié)果,即不合并。 從第3個(gè)反饋網(wǎng)頁開始,使用關(guān)鍵詞逐個(gè)與第2個(gè)反饋網(wǎng)頁計(jì)算相似度,其中,這里的第2個(gè)反饋網(wǎng)頁可能是歸類后的第2個(gè)反饋網(wǎng)頁,也就是說,如果在上述第I個(gè)反饋網(wǎng)頁的歸類中,若有第2個(gè)反饋網(wǎng)頁與第I個(gè)反饋相似,并歸為ー類后,那第2個(gè)反饋網(wǎng)頁和第I個(gè)反饋網(wǎng)頁歸類后作為新的第I個(gè)反饋網(wǎng)頁,原始反饋網(wǎng)頁序列中的第3個(gè)反饋網(wǎng)頁作為該第2個(gè)反饋網(wǎng)頁;計(jì)算公式相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第2個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第i個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第2反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);如果相似度>第一閾值,則當(dāng)前第i個(gè)反饋網(wǎng)頁與第2個(gè)反饋網(wǎng)頁合并為I類;如果第二閾值<相似度<=第一閾值,并且標(biāo)題不相同,則不合并;如果相似度<=第二閾值,則把當(dāng)前第i個(gè)反饋網(wǎng)頁作為第3個(gè)反饋網(wǎng)頁,即不合并;以此類推......;當(dāng)搜索引擎反饋的所有網(wǎng)頁都進(jìn)行相似度計(jì)算,并歸類后,也就是所有反饋網(wǎng)頁進(jìn)行兩兩相似度計(jì)算后,進(jìn)行歸類。3)歸類時(shí),將相似度計(jì)算結(jié)果大于某ー閾值的網(wǎng)頁合并在一起。優(yōu)選的,如上述的閾值的設(shè)定范圍可以是I之間,其中,第一閾值的設(shè)定范圍可以是(Ti;第二閾值的設(shè)定范圍可以是(Ti ;1表示相似度最高,小于或者等于O表示不相似。在利用本發(fā)明的上述實(shí)施例所述方法后,在搜索引擎的反饋網(wǎng)頁,如圖5所示,當(dāng)反饋網(wǎng)頁之間的相似度大于某個(gè)閾值,就將這些網(wǎng)頁聚到同一個(gè)類別,作為一條捜索結(jié)果返回,并用“相似網(wǎng)頁(η)”(其中η為聚到這個(gè)類別的網(wǎng)頁個(gè)數(shù))標(biāo)識出來。即所述“相似網(wǎng)頁”以按鈕的方式控制展現(xiàn)全部的相似網(wǎng)頁,從第二個(gè)結(jié)果開始與第一個(gè)結(jié)果相比前面有縮進(jìn);或者所述“相似網(wǎng)頁”以按鈕的方式控制展現(xiàn)相似網(wǎng)頁的第一個(gè)結(jié)果。當(dāng)然還可以包括其它的展現(xiàn)方式。其中,如圖6所示,為點(diǎn)擊“相似網(wǎng)頁”鏈接得到所有的相似網(wǎng)頁;如圖7所示,把“時(shí)間有可能”和“時(shí)間可能”聚到同一個(gè)類別,而現(xiàn)有技術(shù)中,這兩個(gè)網(wǎng)頁不會在一個(gè)歸類中,甚至包括這兩個(gè)關(guān)鍵詞的反饋網(wǎng)頁標(biāo)題在反饋網(wǎng)頁序列中,相隔的比較遠(yuǎn)。如圖8所示,查詢詞為“こ醇”的反饋信息處理結(jié)果示意圖;利用本發(fā)明的上述實(shí)施例的方法,在搜索引擎的反饋網(wǎng)頁的第10屏也進(jìn)行了相似網(wǎng)頁的聚類,如圖9所示,當(dāng)然其它屏的網(wǎng)頁也會進(jìn)行相似網(wǎng)頁的聚類。本發(fā)明的上述實(shí)施例所述的方法,使得捜索系統(tǒng)能夠?qū)λ械膾人鹘Y(jié)果進(jìn)行聚類,支持所有頁面的搜索結(jié)果聚類,對聚類的類別數(shù)目能進(jìn)行控制,對噪聲干擾有很好的容 錯(cuò)性。如圖10所示,本發(fā)明的實(shí)施例還提供ー種搜索引擎,包括抓取単元91,用于抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;生成単元92,用于使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;獲得單元93,用于根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁;計(jì)算單元94,用于根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;合并單元95,用于將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合井一個(gè)聚類中。其中,相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第二反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,相同關(guān)鍵詞個(gè)數(shù)為第一反饋網(wǎng)頁與所述第二反饋網(wǎng)頁相同的關(guān)鍵詞個(gè)數(shù)。其中,合并單元95包括第一合并子單元,用于判斷若所述相似度大于第一閾值,則將當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;或者第二合并子單元,用于判斷若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題不相同,或者所述相似度小于或者等于所述第二閾值,則不合井。其中,所述第一閾值的取值范圍為0 1 ;所述第二閾值的取值范圍為(Tl。上述搜索引擎的ー具體應(yīng)用實(shí)例,包括I)在搜索引擎中輸入查詢關(guān)鍵詞,如輸入的查詢關(guān)鍵詞為“時(shí)間”,獲得搜索引擎根據(jù)輸入的“時(shí)間”反饋的多個(gè)網(wǎng)頁,如圖5所示,反饋的多個(gè)網(wǎng)頁中都包括有“時(shí)間”二字;2)計(jì)算單元94在反饋的多個(gè)網(wǎng)頁序列中,以第I個(gè)反饋網(wǎng)頁為標(biāo)準(zhǔn),計(jì)算網(wǎng)頁之間的相似度;在反饋的多個(gè)網(wǎng)頁序列中,從反饋網(wǎng)頁的第2個(gè)反饋網(wǎng)頁開始,逐個(gè)與第I個(gè)反饋網(wǎng)頁進(jìn)行基于關(guān)鍵詞的相似度計(jì)算,使用公式如下
相似度=(相同關(guān)鍵詞個(gè)數(shù)-1第I個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第i個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第I個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,i為1,2,3,……;其中,相同關(guān)鍵詞個(gè)數(shù)是第I個(gè)反饋網(wǎng)頁與當(dāng)前第i個(gè)反饋網(wǎng)頁的相同的關(guān)鍵詞的個(gè)數(shù);如果相似度>第一閾值,則當(dāng)前第i個(gè)反饋網(wǎng)頁與第I個(gè)反饋網(wǎng)頁合并為ー類,如圖5中的“化肥關(guān)稅未統(tǒng)一明年旺季出ロ關(guān)稅時(shí)間延長”下方的鏈接“相似網(wǎng)頁(2)”,以將當(dāng)前第5個(gè)反饋網(wǎng)頁與第4個(gè)反饋網(wǎng)頁合并為ー類;如果第二閾值<相似度<=第一閾值,并且標(biāo)題不相同,則不合并;如果相似度<=第二閾值,則把當(dāng)前第i個(gè)反饋網(wǎng)頁作為第2個(gè)搜索結(jié)果,即不合并。從第3個(gè)反饋網(wǎng)頁開始,使用關(guān)鍵詞逐個(gè)與第2個(gè)反饋網(wǎng)頁計(jì)算相似度,其中,這里的第2個(gè)反饋網(wǎng)頁可能是歸類后的第2個(gè)反饋網(wǎng)頁,也就是說,如果在上述第I個(gè)反饋網(wǎng)頁的歸類中,若有第2個(gè)反饋網(wǎng)頁與第I個(gè)反饋相似,并歸為ー類后,那第2個(gè)反饋網(wǎng)頁和 第I個(gè)反饋網(wǎng)頁歸類后作為新的第I個(gè)反饋網(wǎng)頁,原始反饋網(wǎng)頁序列中的第3個(gè)反饋網(wǎng)頁作為該第2個(gè)反饋網(wǎng)頁;計(jì)算公式相似度=(相同關(guān)鍵詞個(gè)數(shù)-I第2個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第i個(gè)反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第2反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);如果相似度>第一閾值,則當(dāng)前第i個(gè)反饋網(wǎng)頁與第2個(gè)反饋網(wǎng)頁合并為I類;如果第二閾值<相似度<=第一閾值,并且標(biāo)題不相同,則不合并;如果相似度<=第二閾值,則把當(dāng)前第i個(gè)反饋網(wǎng)頁作為第3個(gè)反饋網(wǎng)頁,即不合并;以此類推......;當(dāng)搜索引擎反饋的所有網(wǎng)頁都進(jìn)行相似度計(jì)算,并歸類后,也就是所有反饋網(wǎng)頁進(jìn)行兩兩相似度計(jì)算后,進(jìn)行歸類。3)合并單元95歸類時(shí),將相似度計(jì)算結(jié)果大于某ー閾值的網(wǎng)頁合并在一起。優(yōu)選的,如上述的閾值的設(shè)定范圍可以是I之間,其中,第一閾值的設(shè)定范圍可以是(Ti;第二閾值的設(shè)定范圍可以是(Ti ;1表示相似度最高,小于或者等于O表示不相似。在利用本發(fā)明的上述實(shí)施例所述搜索引擎后,使得搜索系統(tǒng)能夠?qū)λ械乃阉鹘Y(jié)果進(jìn)行聚類,支持所有頁面的捜索結(jié)果聚類,對聚類的類別數(shù)目能進(jìn)行控制,對噪聲干擾有很好的容錯(cuò)性。以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.ー種搜索引擎的反饋信息處理方法,其特征在于,包括 抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫; 使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件; 根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁; 根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算; 將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中。
2.根據(jù)權(quán)利要求I所述的搜索引擎的反饋信息處理方法,其特征在于,所述根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算的步驟包括 在所有網(wǎng)頁中,根據(jù)所有網(wǎng)頁的關(guān)鍵詞,針對任意兩個(gè)網(wǎng)頁進(jìn)行相似度計(jì)算。
3.根據(jù)權(quán)利要求2所述的搜索引擎的反饋信息處理方法,其特征在干, 相似度=(相同關(guān)鍵詞個(gè)數(shù)-1第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)-當(dāng)前第二反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù)I) +第一反饋網(wǎng)頁的關(guān)鍵詞個(gè)數(shù);其中,所述相同關(guān)鍵詞個(gè)數(shù)為所述第一反饋網(wǎng)頁與所述第二反饋網(wǎng)頁的相同的關(guān)鍵詞個(gè)數(shù)。
4.根據(jù)權(quán)利要求3所述的搜索引擎的反饋信息處理方法,其特征在于,將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括 若所述相似度大于第一閾值,則將當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中;或者 若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題相同,則當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁合并在ー類中; 若所述相似度大于第二閾值且小于或者等于所述第一閾值,并且所述第二反饋網(wǎng)頁與所述第一反饋網(wǎng)頁的標(biāo)題不相同,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者 若所述相似度小于或者等于所述第二閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。
5.根據(jù)權(quán)利要求2所述的搜索引擎的反饋信息處理方法,其特征在干, 基于詞的網(wǎng)頁相似度通過以下步驟得到 對兩個(gè)網(wǎng)頁串R和T的三個(gè)歸ー化最長的非連續(xù)的公共子串的值S 1,S2和S3進(jìn)行加權(quán)求和,得到兩個(gè)反饋網(wǎng)頁的相似度S 其中,S=S1*W_S1+S2*W_S2+S3*W_S3 ; S I :綜合考慮了網(wǎng)頁串R和網(wǎng)頁串T的長度,對兩個(gè)串的最長的非連續(xù)的公共子串進(jìn)行了歸ー化;si=|R和τ的最長的非連續(xù)的公共子串|/|r| τ|, Ir和τ的最長的非連續(xù)的公共子串I表示R和T的最長的非連續(xù)的公共子串的長度,Rl和ItI分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度; S2 :從兩個(gè)串的第一個(gè)字符開始計(jì)算最長的非連續(xù)的公共子串,用兩個(gè)串的長度進(jìn)行歸ー化;S2=|R和τ從第一個(gè)字符開始匹配的最長的非連續(xù)公共子串|_/|r| Tl, IR和τ從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串I表示R和T從第一個(gè)字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|τ|分別表示網(wǎng)頁串R的長度和網(wǎng)頁串τ的長度;S3:與長串非連續(xù)匹配的短串或者短串的最長的非連續(xù)部分,用兩個(gè)串的長度進(jìn)行歸一化;S3=|R和τ從任意字符開始匹配的最長的非連續(xù)公共子串|/|R||T|,IR和τ從任意字符開始匹配的最長的非連續(xù)的公共子串I表示R和T從任意字符開始匹配的最長的非連續(xù)的公共子串的長度,IrI和|τ|分別表示網(wǎng)頁串r的長度和網(wǎng)頁串τ的長度; W_S1, ff_S2和W_S3的取值范圍為(Tl ; 將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括 若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者 若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。
6.權(quán)利要求2所述的搜索引擎的反饋信息處理方法,其特征在干, 基于共同詞序的網(wǎng)頁相似度通過以下步驟得到兩個(gè)反饋網(wǎng)頁的相似度S 兩個(gè)網(wǎng)頁串R和T,統(tǒng)計(jì)它們的公共字符集合C ; 從網(wǎng)頁串R和T中分別提取出公共字符集合C的字符,按照其在原網(wǎng)頁串中的順序構(gòu)成兩個(gè)新網(wǎng)頁串向量R'和T' ; 將網(wǎng)頁串向量R'和T'的每個(gè)字符用ー個(gè)唯一的數(shù)字表示; 計(jì)算網(wǎng)頁串R和T的相似度 如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),并且為1,則網(wǎng)頁串R和T的相似度為I ;如果公共字符集合C中元素的個(gè)數(shù)是奇數(shù),不為1,則網(wǎng)頁串R和T的相似度為1-2*(網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/(ICl*IC|-1),Icl為公共字符集合C中元素的個(gè)數(shù); 如果公共字符集合C中元素的個(gè)數(shù)是偶數(shù),則網(wǎng)頁串R和T的相似度為1-2* (網(wǎng)頁串向量R'和T'的對應(yīng)分量之差的絕對值之和)/1 c I * I c I),I c I為公共字符集合c中元素的個(gè)數(shù); 將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中的步驟包括 若所述相似度S大于或者等于某ー閾值,則合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁;或者 若所述相似度小于某ー閾值,則不合并當(dāng)前第二反饋網(wǎng)頁與第一反饋網(wǎng)頁。
7.根據(jù)權(quán)利要求I所述的搜索引擎的反饋信息處理方法,其特征在于,所述抓取網(wǎng)頁的過程包括 根據(jù)所要抓取的web網(wǎng)頁的html標(biāo)簽定制模式集; 根據(jù)所述模式集提取出網(wǎng)頁上的標(biāo)題鏈接; 根據(jù)標(biāo)題鏈接獲得網(wǎng)頁內(nèi)容; 根據(jù)所述模式集對所述網(wǎng)頁內(nèi)容中的新聞標(biāo)題和/或正文進(jìn)行關(guān)鍵詞抽取,獲得所述網(wǎng)頁的關(guān)鍵詞。
8.根據(jù)權(quán)利要求7所述的搜索引擎的反饋信息處理方法,其特征在于,根據(jù)所述模式集對所述網(wǎng)頁內(nèi)容中的新聞標(biāo)題和/或正文進(jìn)行關(guān)鍵詞抽取,獲得所述網(wǎng)頁的關(guān)鍵詞的步驟包括 對所述新聞標(biāo)題和/或正文進(jìn)行分詞和詞性標(biāo)注,去除部分詞性的詞語; 計(jì)算剩余詞語的權(quán)重; 根據(jù)所述剩余詞語的權(quán)重,選出權(quán)重最大的前預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞,作為所述網(wǎng)頁的關(guān)鍵詞。
9.根據(jù)權(quán)利要求I所述的搜索引擎的反饋信息處理方法,其特征在于,所述相似網(wǎng)頁以“相似網(wǎng)頁”鏈接的方式控制展現(xiàn)全部的相似網(wǎng)頁,從第二個(gè)結(jié)果開始與第一個(gè)結(jié)果相比前面有縮進(jìn);或者 所述相似網(wǎng)頁以“相似網(wǎng)頁”鏈接的方式控制展現(xiàn)相似網(wǎng)頁的第一個(gè)結(jié)果。
10.ー種搜索引擎,其特征在于,包括 抓取単元,用于抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;生成単元,用于使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;獲得單元,用于根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁; 計(jì)算單元,用于根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;合并單元,用于將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到ー個(gè)聚類中。
全文摘要
本發(fā)明提供一種搜索引擎的反饋信息處理方法及搜索引擎,其中方法包括抓取網(wǎng)頁,將所述網(wǎng)頁和從所述網(wǎng)頁中提取的關(guān)鍵詞保存到數(shù)據(jù)庫;使用搜索引擎對所述數(shù)據(jù)庫中的網(wǎng)頁記錄做索引,生成一索引文件;根據(jù)輸入的查詢關(guān)鍵詞,從所述索引文件中獲得搜索引擎反饋的包括所述查詢關(guān)鍵詞的所有網(wǎng)頁;根據(jù)所有網(wǎng)頁的關(guān)鍵詞,對網(wǎng)頁進(jìn)行相似度計(jì)算;將相似度計(jì)算結(jié)果符合一預(yù)設(shè)閾值范圍的相似網(wǎng)頁合并到一個(gè)聚類中。本發(fā)明的方案可以使搜索引擎能夠?qū)λ械乃阉鹘Y(jié)果進(jìn)行聚類。
文檔編號G06F17/30GK102693304SQ20121016073
公開日2012年9月26日 申請日期2012年5月22日 優(yōu)先權(quán)日2012年5月22日
發(fā)明者李超, 譚詠梅 申請人:北京郵電大學(xué)