亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種確定網(wǎng)站目錄頁(yè)的方法及裝置制造方法

文檔序號(hào):6489619閱讀:185來(lái)源:國(guó)知局
一種確定網(wǎng)站目錄頁(yè)的方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種確定網(wǎng)站目錄頁(yè)的方法及裝置,其中確定網(wǎng)站目錄頁(yè)的方法包括:A.獲取目錄頁(yè)的錨文本詞集合以及非目錄頁(yè)的錨文本詞集合;B.利用所述目錄頁(yè)的錨文本詞集合以及所述非目錄頁(yè)的錨文本詞集合,確定當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性,并在所述可能性超過(guò)設(shè)定閾值時(shí)將當(dāng)前頁(yè)面確定為目錄頁(yè)。通過(guò)上述方式,本發(fā)明能夠提高在網(wǎng)站中挖掘目錄頁(yè)時(shí)的召回率和準(zhǔn)確率。
【專利說(shuō)明】一種確定網(wǎng)站目錄頁(yè)的方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),特別涉及一種確定網(wǎng)站目錄頁(yè)的方法及裝置。
【【背景技術(shù)】】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)站的規(guī)模越來(lái)越大,網(wǎng)站內(nèi)包含了大量網(wǎng)頁(yè)。一個(gè)結(jié)構(gòu)良好的網(wǎng)站,其內(nèi)部的網(wǎng)頁(yè)通常以樹(shù)型結(jié)構(gòu)分布,樹(shù)中的父節(jié)點(diǎn)頁(yè)面,可以稱之為目錄頁(yè)。
[0003]目錄頁(yè)是能夠體現(xiàn)網(wǎng)站結(jié)構(gòu)層次的網(wǎng)頁(yè),確定網(wǎng)站的目錄頁(yè),不僅有利于對(duì)網(wǎng)站中的網(wǎng)頁(yè)進(jìn)行分類(lèi),從而提高網(wǎng)站管理的效率或者改進(jìn)搜索引擎收錄網(wǎng)頁(yè)的質(zhì)量,并且由于目錄頁(yè)一般具有導(dǎo)航作用,是網(wǎng)站包含的大量網(wǎng)頁(yè)中重要性較高的網(wǎng)頁(yè),因此在搜索引擎計(jì)算互聯(lián)網(wǎng)上的網(wǎng)頁(yè)的權(quán)威性時(shí),提取網(wǎng)站的目錄頁(yè)參與計(jì)算,可以使得互聯(lián)網(wǎng)上的各網(wǎng)頁(yè)得到更合理的權(quán)威性值。
[0004]現(xiàn)有技術(shù)在確定網(wǎng)站中的目錄頁(yè)時(shí),通常僅通過(guò)頁(yè)面的URL形式進(jìn)行判斷。例如一個(gè)URL以“/”結(jié)束,或者以“index, html”結(jié)束,就將該URL對(duì)應(yīng)的頁(yè)面作為目錄頁(yè)。采用這種方法在網(wǎng)站中挖掘目錄頁(yè)時(shí)召回率和準(zhǔn)確率均比較低。

【發(fā)明內(nèi)容】

[0005]本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種確定網(wǎng)站目錄頁(yè)的方法及裝置,以提高在網(wǎng)站中挖掘目錄頁(yè)時(shí)的召回率和準(zhǔn)確率。
[0006]本發(fā)明為解決技術(shù)問(wèn)·題而采用的技術(shù)方案是提供一種確定網(wǎng)站目錄頁(yè)的方法,其特征在于,所述方法包括:A.獲取目錄頁(yè)的錨文本詞集合以及非目錄頁(yè)的錨文本詞集合;B.利用所述目錄頁(yè)的錨文本詞集合以及所述非目錄頁(yè)的錨文本詞集合,確定當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性,并在所述可能性超過(guò)設(shè)定閾值時(shí)將當(dāng)前頁(yè)面確定為目錄頁(yè)。
[0007]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A包括:獲取標(biāo)注好的目錄頁(yè)樣本及非目錄頁(yè)樣本;從網(wǎng)站中提取所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到目錄頁(yè)的錨文本詞集合,以及,從網(wǎng)站中提取所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到非目錄頁(yè)的錨文本詞集合;統(tǒng)計(jì)目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻,以及,統(tǒng)計(jì)非目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻。
[0008]根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B包括:從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本;對(duì)提取的當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本進(jìn)行分詞;采用下列公式計(jì)算當(dāng)前頁(yè)面屬于目錄頁(yè)
的可能性
【權(quán)利要求】
1.一種確定網(wǎng)站目錄頁(yè)的方法,其特征在于,所述方法包括: A.獲取目錄頁(yè)的錨文本詞集合以及非目錄頁(yè)的錨文本詞集合; B.利用所述目錄頁(yè)的錨文本詞集合以及所述非目錄頁(yè)的錨文本詞集合,確定當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性,并在所述可能性超過(guò)設(shè)定閾值時(shí)將當(dāng)前頁(yè)面確定為目錄頁(yè)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟A包括: 獲取標(biāo)注好的目錄頁(yè)樣本及非目錄頁(yè)樣本; 從網(wǎng)站中提取所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到目錄頁(yè)的錨文本詞集合,以及,從網(wǎng)站中提取所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到非目錄頁(yè)的錨文本詞集合; 統(tǒng)計(jì)目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻,以及,統(tǒng)計(jì)非目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟B包括: 從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本; 對(duì)提取的當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本進(jìn)行分詞; 采用下列公式計(jì)算當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本的步驟包括: 從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的所有錨文本。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本的步驟包括: 從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本中出現(xiàn)次數(shù)最多的錨文本。
6.一種確定網(wǎng)站目錄頁(yè)的裝置,其特征在于,所述裝置包括: 獲取單元,用于獲取目錄頁(yè)的錨文本詞集合以及非目錄頁(yè)的錨文本詞集合; 確定單元,用于利用所述目錄頁(yè)的錨文本詞集合以及所述非目錄頁(yè)的錨文本詞集合,確定當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性; 輸出單元,用于在所述可能性超過(guò)設(shè)定閾值時(shí)將當(dāng)前頁(yè)面確定為目錄頁(yè)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取單元包括: 樣本獲取單元,用于獲取標(biāo)注好的目錄頁(yè)樣本及非目錄頁(yè)樣本; 集合獲取單元,用于從網(wǎng)站中提取所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到目錄頁(yè)的錨文本詞集合,以及,從網(wǎng)站中提取所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本,并對(duì)所述非目錄頁(yè)樣本對(duì)應(yīng)的錨文本進(jìn)行分詞,得到非目錄頁(yè)的錨文本詞集合; 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻,以及,統(tǒng)計(jì)非目錄頁(yè)的錨文本詞集合中每個(gè)詞的詞頻。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述確定單元包括: 提取單元,用于從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本; 分詞單元,用于對(duì)提取的當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本進(jìn)行分詞; 計(jì)算單元,用于采用下列公式計(jì)算當(dāng)前頁(yè)面屬于目錄頁(yè)的可能性:
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取單元從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本的方式包括: 從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的所有錨文本。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取單元從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本的方式包括: 從網(wǎng)站中提取當(dāng)前頁(yè)面對(duì)應(yīng)的錨文本中出現(xiàn)次數(shù)最多的錨文本。
【文檔編號(hào)】G06F17/30GK103714075SQ201210376070
【公開(kāi)日】2014年4月9日 申請(qǐng)日期:2012年9月29日 優(yōu)先權(quán)日:2012年9月29日
【發(fā)明者】張沖 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1