專利名稱:在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),特別涉及一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法和系統(tǒng)。
背景技術(shù):
隨著因特網(wǎng)的迅猛發(fā)展,搜索引擎提供的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù)。搜索引擎為用戶提供信息“檢索”服務(wù),它使用搜索程序把因特網(wǎng)上的所有信息歸類以幫助用戶在海量的互聯(lián)網(wǎng)信息中搜尋其所需要的信息。搜索引擎的原理主要包括三步1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)(crawler階段,爬取階段),2)建立索引數(shù)據(jù)庫(kù),3)在索引數(shù)據(jù)庫(kù)中搜索排序。
其中,對(duì)搜索結(jié)果的排序要用到網(wǎng)頁(yè)等級(jí)值(pagerank),Pagerank用于指示對(duì)應(yīng)網(wǎng)頁(yè)的鏈接廣泛度(Link Popularity),與用戶的搜索要求相匹配的網(wǎng)頁(yè)的pagerank越大,其在搜索結(jié)果頁(yè)面的排序往往越靠前。PageRank依賴于唯一的網(wǎng)絡(luò)法則,就是用大量的鏈接結(jié)構(gòu)為依據(jù)為網(wǎng)頁(yè)計(jì)算得分。從本質(zhì)上來(lái)說,一個(gè)從A頁(yè)到B頁(yè)的鏈接a,算A投B一票。高質(zhì)量的網(wǎng)站會(huì)得到較高PageRank。
但是,目前網(wǎng)絡(luò)中存在大量的懸空網(wǎng)頁(yè)節(jié)點(diǎn)(Dangling節(jié)點(diǎn)),這樣的節(jié)點(diǎn)約占整個(gè)網(wǎng)頁(yè)數(shù)目的6%左右,Dangling節(jié)點(diǎn)的存在會(huì)影響pagerank的有效計(jì)算。Dangling節(jié)點(diǎn)指那些只有入鏈、沒有出鏈(向外鏈接)的網(wǎng)頁(yè)(節(jié)點(diǎn)),例如一些非常有價(jià)值的doc文檔、pdf文檔等都是Dangling節(jié)點(diǎn)。Dangling節(jié)點(diǎn)的存在使得搜索引擎中pagerank的計(jì)算出現(xiàn)了偏差。如果不處理Dangling節(jié)點(diǎn),一方面導(dǎo)致pagerank的計(jì)算不能有效地進(jìn)行,另一方面,可能導(dǎo)致具有Dangling節(jié)點(diǎn)的有價(jià)值的網(wǎng)頁(yè)的pagerank降低,影響網(wǎng)頁(yè)搜索排名,進(jìn)而影響搜索結(jié)果的質(zhì)量。
目前對(duì)于dangling節(jié)點(diǎn)的處理方法是在網(wǎng)絡(luò)中增加一個(gè)虛擬節(jié)點(diǎn),所有的dangling節(jié)點(diǎn)都有一個(gè)到該虛擬節(jié)點(diǎn)的虛擬出鏈,該虛擬節(jié)點(diǎn)有到每個(gè)非dangling節(jié)點(diǎn)的虛擬出鏈,這樣,整個(gè)網(wǎng)頁(yè)就不存在dangling節(jié)點(diǎn)。其缺陷是①對(duì)dangling節(jié)點(diǎn)pagerank的分配不合理,從而影響了網(wǎng)頁(yè)搜索排序;②增加了過多的虛擬鏈接,影響pagerank的計(jì)算速度。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法和系統(tǒng),可以克服現(xiàn)有技術(shù)的缺陷。
本發(fā)明的技術(shù)方案是在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法,包括以下步驟A1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)的同時(shí)獲取所述網(wǎng)頁(yè)的從屬網(wǎng)站信息;A2,判斷所述網(wǎng)頁(yè)是否為懸空網(wǎng)頁(yè),如果是則在計(jì)算所述網(wǎng)頁(yè)的等級(jí)時(shí)執(zhí)行步驟B1;B1,為所述懸空網(wǎng)頁(yè)增加到至少一個(gè)非懸空網(wǎng)頁(yè)的虛擬出鏈;所述非懸空網(wǎng)頁(yè)與所述懸空網(wǎng)頁(yè)從屬于同一個(gè)網(wǎng)站。
作為優(yōu)選,步驟A2中,判斷所述網(wǎng)頁(yè)為懸空網(wǎng)頁(yè)時(shí),為所述網(wǎng)頁(yè)做懸空網(wǎng)頁(yè)標(biāo)記。
作為優(yōu)選,步驟A2中,判斷所述網(wǎng)頁(yè)為非懸空網(wǎng)頁(yè)時(shí),為所述網(wǎng)頁(yè)做非懸空網(wǎng)頁(yè)標(biāo)記。
本發(fā)明還提供了一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng),包括網(wǎng)頁(yè)抓取模塊,用于從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè),同時(shí)獲得所述網(wǎng)頁(yè)的來(lái)源網(wǎng)站信息;分類模塊,用于將所述網(wǎng)頁(yè)分類為懸空網(wǎng)頁(yè)或非懸空網(wǎng)頁(yè);虛擬鏈接建立模塊,用于為所述懸空網(wǎng)頁(yè)建立到至少一個(gè)非懸空網(wǎng)頁(yè)的虛擬出鏈;且所述非懸空網(wǎng)頁(yè)與所述懸空網(wǎng)頁(yè)從屬于一個(gè)網(wǎng)站。
作為優(yōu)選,所述系統(tǒng)還包括存儲(chǔ)模塊,用于存儲(chǔ)所述網(wǎng)頁(yè)抓取模塊獲得的網(wǎng)頁(yè)和其來(lái)源網(wǎng)站信息。
作為優(yōu)選,所述分類模塊還用于將分類為懸空網(wǎng)頁(yè)的網(wǎng)頁(yè)做懸空網(wǎng)頁(yè)標(biāo)記,并保存。
作為優(yōu)選,所述分類模塊在判斷所述網(wǎng)頁(yè)不是懸空網(wǎng)頁(yè)時(shí),也為所述網(wǎng)頁(yè)做標(biāo)記。
本發(fā)明的有益效果在于(1)通過為每個(gè)懸空網(wǎng)頁(yè)節(jié)點(diǎn)增加到其同屬站點(diǎn)的虛擬出鏈(站內(nèi)虛擬鏈接),使得在pagerank計(jì)算中不存在dangling節(jié)點(diǎn),有利于pagerank的計(jì)算;(2)增加站內(nèi)虛擬鏈接符合pagerank的思想,使得dangling節(jié)點(diǎn)的pagerank計(jì)算合理化,使網(wǎng)頁(yè)搜索排序更加理想,提高搜索引擎搜索結(jié)果的質(zhì)量。
圖1是本發(fā)明在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng)的結(jié)構(gòu)圖;圖2是本發(fā)明較佳實(shí)施例中在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法的流程圖;圖3是本發(fā)明另一實(shí)施例中在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法的流程圖。
具體實(shí)施例方式
下面根據(jù)附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步闡述。
如圖1所示,一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)(Dangling節(jié)點(diǎn))的系統(tǒng)10包括網(wǎng)頁(yè)抓取模塊100、分類模塊101、存儲(chǔ)模塊102和虛擬鏈接建立模塊103。
其中,網(wǎng)頁(yè)抓取模塊100負(fù)責(zé)自動(dòng)從互聯(lián)網(wǎng)獲取網(wǎng)頁(yè)和對(duì)應(yīng)網(wǎng)頁(yè)的從屬網(wǎng)站信息,并將獲取到的信息發(fā)送到分類模塊101(或同時(shí)保存在存儲(chǔ)模塊102中)。一般的做法是網(wǎng)頁(yè)抓取模塊100通過能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的網(wǎng)絡(luò)蜘蛛程序,自動(dòng)訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL(統(tǒng)一資源定位器)爬到其它網(wǎng)頁(yè),重復(fù)這過程,并把爬過的所有網(wǎng)頁(yè)收集到存儲(chǔ)模塊102中。可通過網(wǎng)頁(yè)的URL和內(nèi)部結(jié)構(gòu)信息知道該網(wǎng)頁(yè)屬于哪個(gè)站點(diǎn),從而得知哪些網(wǎng)頁(yè)屬于同一個(gè)站點(diǎn)。一般搜索引擎中的自動(dòng)信息搜集功能分兩種,一種是定期搜索,即每隔一段時(shí)間(比如28天),網(wǎng)頁(yè)抓取模塊100主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,“蜘蛛”程序會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入存儲(chǔ)模塊102;另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,搜索引擎的網(wǎng)頁(yè)抓取模塊100會(huì)在一定時(shí)間內(nèi)(2天到數(shù)月不等)定期對(duì)應(yīng)網(wǎng)站派出“蜘蛛”程序,掃描網(wǎng)站并將有關(guān)信息存入存儲(chǔ)模塊102。
分類模塊101負(fù)責(zé)將網(wǎng)頁(yè)抓取模塊100獲得的網(wǎng)頁(yè)分為Dangling網(wǎng)頁(yè)和非Dangling網(wǎng)頁(yè),并分別標(biāo)以不同的標(biāo)記,最后將做了標(biāo)記的網(wǎng)頁(yè)及其來(lái)源網(wǎng)站信息保存到存儲(chǔ)模塊102中。分類模塊101可通過對(duì)網(wǎng)頁(yè)的源代碼進(jìn)行分析以判斷對(duì)應(yīng)網(wǎng)頁(yè)是否有向外鏈接來(lái)進(jìn)行區(qū)分。本發(fā)明的其它實(shí)施例中,可只對(duì)Dangling網(wǎng)頁(yè)作標(biāo)記,不對(duì)非Dangling網(wǎng)頁(yè)作標(biāo)記。
虛擬鏈接建立模塊103負(fù)責(zé)在接收到計(jì)算Dangling網(wǎng)頁(yè)pagerank的命令后,為對(duì)應(yīng)Dangling網(wǎng)頁(yè)建立到一個(gè)到非Dangling網(wǎng)頁(yè)的虛擬出鏈,且該非Dangling網(wǎng)頁(yè)與該Dangling網(wǎng)頁(yè)從屬于一個(gè)網(wǎng)站。虛擬鏈接建立模塊103可通過查詢存儲(chǔ)模塊102以獲得上述非Dangling網(wǎng)頁(yè)。本發(fā)明的其它實(shí)施例中,可為對(duì)應(yīng)Dangling網(wǎng)頁(yè)建立到其同屬站點(diǎn)的兩個(gè)或兩個(gè)以上的非Dangling網(wǎng)頁(yè)的虛擬出鏈。這樣,在進(jìn)行pagerank計(jì)算時(shí)就不存在Dangling網(wǎng)頁(yè)節(jié)點(diǎn)了。
由于從網(wǎng)頁(yè)A導(dǎo)向網(wǎng)頁(yè)B的鏈接被看作是頁(yè)面A對(duì)頁(yè)面B的支持投票,搜索引擎根據(jù)這個(gè)投票數(shù)來(lái)判斷頁(yè)面的重要性。如果一個(gè)網(wǎng)頁(yè)A是dangling節(jié)點(diǎn),而網(wǎng)頁(yè)B,C,D與網(wǎng)頁(yè)A是同屬一個(gè)站點(diǎn)的三個(gè)網(wǎng)頁(yè),那么增加網(wǎng)頁(yè)A到網(wǎng)頁(yè)B,網(wǎng)頁(yè)A到網(wǎng)頁(yè)C,網(wǎng)頁(yè)A到網(wǎng)頁(yè)D的三個(gè)虛擬鏈接并不影響pagerank的計(jì)算——因?yàn)榫W(wǎng)頁(yè)A,B,C,D屬于同一個(gè)站點(diǎn),A給B,C,D的“投票”是理所當(dāng)然的。正如為www.sky.com的某個(gè)網(wǎng)頁(yè)A增加虛擬鏈接鏈向www.sky.com的某個(gè)網(wǎng)頁(yè)B,是非常符合現(xiàn)有搜索引擎的思想的。且,增加的虛擬鏈接的數(shù)量非常有限,有效地利用了Web所擁有的龐大鏈接構(gòu)造的特性。
綜上所述,如圖2所示,本發(fā)明一個(gè)實(shí)施例中,在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法包括以下步驟步驟S1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)的同時(shí)獲取對(duì)應(yīng)網(wǎng)頁(yè)的從屬網(wǎng)站信息。
步驟S2,判斷獲得的網(wǎng)頁(yè)是否為Dangling網(wǎng)頁(yè),對(duì)Dangling網(wǎng)頁(yè)和非Dangling網(wǎng)頁(yè)分別標(biāo)以不同的標(biāo)記,并保存。
步驟S3,在計(jì)算Dangling網(wǎng)頁(yè)的等級(jí)(pagerank)前在存儲(chǔ)模塊中搜索,獲得與該Dangling網(wǎng)頁(yè)從屬于同一個(gè)網(wǎng)站的至少一個(gè)非Dangling網(wǎng)頁(yè),并為該Dangling網(wǎng)頁(yè)增加到上述非Dangling網(wǎng)頁(yè)的虛擬出鏈。
如圖3所示,本發(fā)明另一個(gè)實(shí)施例中,在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法包括以下步驟步驟S21,從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)的同時(shí)獲取對(duì)應(yīng)網(wǎng)頁(yè)的從屬網(wǎng)站信息,并保存。
步驟S22,在計(jì)算網(wǎng)頁(yè)的等級(jí)(pagerank)時(shí),判斷該網(wǎng)頁(yè)是否為Dangling網(wǎng)頁(yè),如果是執(zhí)行步驟S23,否則執(zhí)行步驟S25。
步驟S23,從存儲(chǔ)模塊中搜索,獲得與該Dangling網(wǎng)頁(yè)從屬于同一個(gè)網(wǎng)站的至少一個(gè)非Dangling網(wǎng)頁(yè)。
步驟S24,為該Dangling網(wǎng)頁(yè)增加到上述非Dangling網(wǎng)頁(yè)的虛擬出鏈。
步驟S25,計(jì)算該網(wǎng)頁(yè)的等級(jí)。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法,其特征在于,包括以下步驟A1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)的同時(shí)獲取所述網(wǎng)頁(yè)的從屬網(wǎng)站信息;A2,判斷所述網(wǎng)頁(yè)是否為懸空網(wǎng)頁(yè),如果是則在計(jì)算所述網(wǎng)頁(yè)的等級(jí)時(shí)執(zhí)行步驟B1;B1,為所述懸空網(wǎng)頁(yè)增加到至少一個(gè)非懸空網(wǎng)頁(yè)的虛擬出鏈;所述非懸空網(wǎng)頁(yè)與所述懸空網(wǎng)頁(yè)從屬于同一個(gè)網(wǎng)站。
2.根據(jù)權(quán)利要求1所述的在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法,其特征在于步驟A2中,判斷所述網(wǎng)頁(yè)為懸空網(wǎng)頁(yè)時(shí),為所述網(wǎng)頁(yè)做懸空網(wǎng)頁(yè)標(biāo)記。
3.根據(jù)權(quán)利要求1或2所述的在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法,其特征在于步驟A2中,判斷所述網(wǎng)頁(yè)為非懸空網(wǎng)頁(yè)時(shí),為所述網(wǎng)頁(yè)做非懸空網(wǎng)頁(yè)標(biāo)記。
4.在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng),其特征在于,包括網(wǎng)頁(yè)抓取模塊,用于從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè),同時(shí)獲得所述網(wǎng)頁(yè)的來(lái)源網(wǎng)站信息;分類模塊,用于將所述網(wǎng)頁(yè)分類為懸空網(wǎng)頁(yè)或非懸空網(wǎng)頁(yè);虛擬鏈接建立模塊,用于為所述懸空網(wǎng)頁(yè)建立到至少一個(gè)非懸空網(wǎng)頁(yè)的虛擬出鏈;且所述非懸空網(wǎng)頁(yè)與所述懸空網(wǎng)頁(yè)從屬于一個(gè)網(wǎng)站。
5.根據(jù)權(quán)利要求4所述的在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng),其特征在于所述系統(tǒng)還包括存儲(chǔ)模塊,用于存儲(chǔ)所述網(wǎng)頁(yè)抓取模塊獲得的網(wǎng)頁(yè)和其來(lái)源網(wǎng)站信息。
6.根據(jù)權(quán)利要求4或5所述的在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng),其特征在于所述分類模塊還用于將分類為懸空網(wǎng)頁(yè)的網(wǎng)頁(yè)做懸空網(wǎng)頁(yè)標(biāo)記,并保存。
7.根據(jù)權(quán)利要求6所述的在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng),其特征在于所述分類模塊在判斷所述網(wǎng)頁(yè)不是懸空網(wǎng)頁(yè)時(shí),也為所述網(wǎng)頁(yè)做標(biāo)記。
全文摘要
本發(fā)明公開了一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的方法,包括步驟從互聯(lián)網(wǎng)上獲取網(wǎng)頁(yè)的同時(shí)獲取所述網(wǎng)頁(yè)的從屬網(wǎng)站信息;判斷所述網(wǎng)頁(yè)是否為懸空網(wǎng)頁(yè),如果是則在計(jì)算所述網(wǎng)頁(yè)的等級(jí)時(shí)執(zhí)行步驟為所述懸空網(wǎng)頁(yè)增加到至少一個(gè)非懸空網(wǎng)頁(yè)的虛擬出鏈;該非懸空網(wǎng)頁(yè)與所述懸空網(wǎng)頁(yè)從屬于同一個(gè)網(wǎng)站。本發(fā)明還公開了一種在搜索引擎中處理懸空網(wǎng)頁(yè)節(jié)點(diǎn)的系統(tǒng)。本發(fā)明通過為每個(gè)懸空網(wǎng)頁(yè)節(jié)點(diǎn)增加其站內(nèi)虛擬鏈接,有利于pagerank的計(jì)算,使懸空節(jié)點(diǎn)的pagerank計(jì)算合理化,提高搜索引擎搜索結(jié)果的質(zhì)量。
文檔編號(hào)G06F17/30GK101079058SQ20071007359
公開日2007年11月28日 申請(qǐng)日期2007年3月21日 優(yōu)先權(quán)日2007年3月21日
發(fā)明者文勖 申請(qǐng)人:騰訊科技(深圳)有限公司