亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁(yè)內(nèi)容抓取方法及裝置的制作方法

文檔序號(hào):6398760閱讀:174來(lái)源:國(guó)知局
專利名稱:一種網(wǎng)頁(yè)內(nèi)容抓取方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,特別是涉及一種網(wǎng)頁(yè)內(nèi)容抓取方法及裝置。
背景技術(shù)
互聯(lián)網(wǎng)網(wǎng)頁(yè)信息每天都在快速地增長(zhǎng),為了能夠讓搜索引擎快速、全面地索引網(wǎng)頁(yè)信息,網(wǎng)絡(luò)爬蟲需要每天抓取大量的網(wǎng)頁(yè)。但是,出于對(duì)網(wǎng)站目錄方便管理等目的,很多情況下會(huì)對(duì)網(wǎng)頁(yè)參數(shù)進(jìn)行優(yōu)化。對(duì)網(wǎng)頁(yè)參數(shù)進(jìn)行優(yōu)化后,會(huì)造成參數(shù)不同的統(tǒng)一資源定位符(Universal Resource Locator,URL)對(duì)應(yīng)相同的頁(yè)面。例如:為了統(tǒng)計(jì)訪問(wèn)news, baidu.com的用戶的來(lái)源信息,通常會(huì)在原本的URL基礎(chǔ)上增加一個(gè)參數(shù)“fr”。具體的,當(dāng)原本的URL為http://news.baidu.com/時(shí),可以將原本的URL修改為http://news.baidu.com/ fr=baiduer。上面的兩個(gè)URL,雖然包含的參數(shù)不同,但是對(duì)應(yīng)的頁(yè)面是相同的。其中,分隔符fr=baiduer這部分參數(shù)對(duì)于網(wǎng)絡(luò)爬蟲來(lái)說(shuō),由于并不影響網(wǎng)絡(luò)爬蟲抓取到的網(wǎng)頁(yè)內(nèi)容,所以可以稱為無(wú)效參數(shù)。現(xiàn)有技術(shù)中,在抓取網(wǎng)頁(yè)內(nèi)容時(shí),對(duì)于參數(shù)不同的URL,都會(huì)進(jìn)行一次抓取。由于無(wú)效參數(shù)的存在,所以會(huì)導(dǎo)致對(duì)于參數(shù)不同的URL指向的相同的頁(yè)面內(nèi)容進(jìn)行多次重復(fù)抓取。這會(huì)造成帶寬資源和存儲(chǔ)資源的浪費(fèi),進(jìn)而影響到搜索引擎的覆蓋率和時(shí)效性。

發(fā)明內(nèi)容
本發(fā)明的目的是 提供一種網(wǎng)頁(yè)內(nèi)容抓取方法及裝置,可以識(shí)別URL中的有效參數(shù),只對(duì)包含有效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取,對(duì)于不包含有效參數(shù)的URL,不再重復(fù)進(jìn)行網(wǎng)頁(yè)抓取,減少帶寬資源和存儲(chǔ)資源的浪費(fèi)。為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:一種網(wǎng)頁(yè)內(nèi)容抓取方法,包括:獲取網(wǎng)頁(yè)的URL信息;識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。可選的,還包括:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取??蛇x的,確定無(wú)效參數(shù)的過(guò)程,還包括:獲取所述URL信息集中的第一 URL信息和第二 URL信息;所述第一 URL信息和第二 URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二 URL信息中具有不同的參數(shù)值;獲取所述第一 URL信息對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容;判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同; 如果相同,則將所述第一參數(shù)確定為無(wú)效參數(shù)??蛇x的,還包括在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例;如果出現(xiàn)反例,則將所述無(wú)效參數(shù)確定為有效參數(shù)??蛇x的,所述對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例,包括獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容;刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息;獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容;判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同;如果不相同,則確定出現(xiàn)反例。一種網(wǎng)頁(yè)內(nèi)容抓取裝置,包括信息獲取模塊,用于獲取網(wǎng)頁(yè)的URL信息;信息識(shí)別模塊,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;聚類模塊,用于對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;有效參數(shù)確定模塊,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);網(wǎng)頁(yè)內(nèi)容抓取模塊,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)??蛇x的,還包括無(wú)效參數(shù)確定模塊,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);無(wú)效參數(shù)過(guò)濾模塊,用于對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取??蛇x的,所述聚類模塊,包括第一 URL信息獲取單元,用于獲取所述URL信息集中的第一 URL信息和第二 URL信息;所述第一URL信息和第二URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二 URL信息中具有不同的參數(shù)值;第一及第二網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取所述第一 URL信息對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容;第一判斷單元,用于判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同;無(wú)效參數(shù)確定單元,用于當(dāng)所述第一判斷單元的判斷結(jié)果為是時(shí),將所述第一參數(shù)確定為無(wú)效參數(shù)。
可選的,還包括驗(yàn)證模塊,用于在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例;無(wú)效參數(shù)變更模塊,用于當(dāng)所述驗(yàn)證模塊的判斷結(jié)果為是時(shí),將所述無(wú)效參數(shù)確定為有效參數(shù)??蛇x的,所述驗(yàn)證模塊包括第三網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容;無(wú)效參數(shù)刪除單元,用于刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息;第四網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容;第二判斷單元,用于判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同;反例確定單元,用于當(dāng)所述第二判斷單元的判斷結(jié)果為否時(shí),確定出現(xiàn)反例。根據(jù)本發(fā)明提供的具體實(shí)施例,本發(fā)明公開了以下技術(shù)效果本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法及裝置,通過(guò)識(shí)別URL信息中包含的路徑信息和參數(shù)信息,對(duì)于路徑信息相同的URL信息,將在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);只抓取包含有效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,從而可以對(duì)于不包含有效參數(shù)的URL,不再重復(fù)進(jìn)行網(wǎng)頁(yè)抓取,減少帶寬資源和存儲(chǔ)資源的浪費(fèi)。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例1的流程圖;圖2為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例2的流程圖;圖3為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例3的流程圖;圖4為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例4的流程圖;圖5為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例1的結(jié)構(gòu)圖;圖6為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例2的結(jié)構(gòu)圖;圖7為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例3的結(jié)構(gòu)圖;圖8為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例4的結(jié)構(gòu)圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。圖1為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例1的流程圖。如圖1所示,所述方法可以包括:步驟101:獲取網(wǎng)頁(yè)的URL信息;通常,每個(gè)網(wǎng)頁(yè)都可以具有與之對(duì)應(yīng)的URL信息。不同的網(wǎng)頁(yè)可以對(duì)應(yīng)不同的URL信息。所述URL信息中至少包括路徑信息和參數(shù)信息。例如:“http://news.baidu.com/ fr=baiduer” 這個(gè) URL 信息中,“http://news.baidu.com/”這一部分就是路徑信息,“fr=baiduer”這一部分就是參數(shù)信息。其中,fr為參數(shù)名稱,baiduer為參數(shù)值。步驟102:識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;—般來(lái)說(shuō),問(wèn)號(hào)之后為URL信息的參數(shù)信息,問(wèn)號(hào)之前為URL信息的路徑信息。因此,識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息的具體方式可以包括:識(shí)別所述URL信息中的信息分隔符(例如問(wèn)號(hào));信息分隔符還可以包括“&”。當(dāng)同一個(gè)URL信息中具有多個(gè)參數(shù)時(shí),多個(gè)參數(shù)之間可以使用“&”進(jìn)行分隔。將所述信息分隔符之前的信息確定為路徑信息;將所述信息分隔符之后的信息確定為參數(shù)信息。步驟103:對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL
信息集; 通常,路徑信息相同的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容也是相同的。因此,步驟103中,歸入同一個(gè)URL信息集的URL信息,在去掉參數(shù)信息之后,所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容是相同的。步驟104:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);URL信息中的一部分參數(shù)信息,也是可以影響到該URL信息所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的。例如,下面這兩個(gè)URL信息:http://forum, book.sina.com.cn/forumdisplay.php fid=14http://forum, book.sina.com.cn/forumdisplay.php fid=51上面兩個(gè)URL信息的路徑信息是相同的,均為http://forum.book.sina.com.cn/forumdisplay.php,但是兩者對(duì)應(yīng)的頁(yè)面內(nèi)容是不同的。這種情況下,fid這個(gè)參數(shù)是有效
參數(shù),需要保留。也就是說(shuō),對(duì)于包含有效參數(shù)的URL信息,在抓取對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容時(shí),需要采用包含所述有效參數(shù)的完整的URL信息進(jìn)行網(wǎng)頁(yè)抓取。步驟105:抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。綜上所述,本實(shí)施例中,通過(guò)識(shí)別URL信息中包含的路徑信息和參數(shù)信息,對(duì)于路徑信息相同的URL信息,將在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);只抓取包含有效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,從而可以對(duì)于不包含有效參數(shù)的URL,不再重復(fù)進(jìn)行網(wǎng)頁(yè)抓取,減少帶寬資源和存儲(chǔ)資源的浪費(fèi)。需要說(shuō)明的是,有些URL信息中,可能只包含路徑信息,不包含參數(shù)信息,采用本申請(qǐng)的方案,對(duì)于只包含路徑信息的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,也是可以進(jìn)行抓取的。抓取過(guò)程與現(xiàn)有技術(shù)中相似,此處不再贅述。圖2為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例2的流程圖。如圖2所示,所述方法可以包括:步驟201:獲取網(wǎng)頁(yè)的URL信息;步驟202:識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;步驟203:對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL
信息集;步驟204:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);
·
例如,對(duì)于以下兩個(gè)URL 信息:http://news.baidu.com/ fr = baiduer 和http://news, baidu.com/,其中,“fr=baiduer”這部分參數(shù)就是沒(méi)有在全部URL信息中均出現(xiàn)的參數(shù),因此,可以將“fr”這個(gè)參數(shù)確定為無(wú)效參數(shù)。又例如,對(duì)于以下兩個(gè)URL 信息:http://news.baidu.com/ fr=baiduer 和http://news, baidu.com/ fr=mopper,假設(shè)上述兩個(gè)URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容相同,則也可以確定“fr”這個(gè)參數(shù)屬于在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),即無(wú)效參數(shù)。步驟205:對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取;由于包含無(wú)效參數(shù)的URL信息,與同一 URL信息集中,不包含無(wú)效參數(shù)的URL信息,對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容是相同的,因此,可以不再對(duì)包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取。具體的,不再對(duì)包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取的一種具體實(shí)現(xiàn)方式可以是:對(duì)于包含無(wú)效參數(shù)的URL信息,去掉其中的無(wú)效參數(shù),得到不包含無(wú)效參數(shù)的URL信息;對(duì)所述不包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取。步驟206:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);步驟207:抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。圖3為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例3的流程圖。如圖3所示,所述方法可以包括:步驟301:獲取網(wǎng)頁(yè)的URL信息;步驟302:識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;步驟303:對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL
信息集;可以通過(guò)網(wǎng)絡(luò)爬蟲抓取所述URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。步驟304:獲取所述URL信息集中的第一 URL信息和第二 URL信息;所述第一 URL信息和第二 URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二URL信息中具有不同的參數(shù)值;
步驟305:獲取所述第一 URL信息對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容;步驟306:判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同;例如,http://forum, book.sina.com.cn/forumdisplay.php fid=14 和 http://forum, book.sina.com.cn/forumdisplay.php fid=51。上面兩個(gè) URL 信息的路徑信息是相同的,均為 http://forum, book.sina.com.cn/forumdisplay.php,但是兩者對(duì)應(yīng)的同一參數(shù)信息的參數(shù)值是不同的。如果上面兩個(gè)URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容相同,則表示fid這個(gè)參數(shù)是無(wú)效參數(shù),如果對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容不相同,則表示f id這個(gè)參數(shù)是有效參數(shù)。具體的,可以通過(guò)對(duì)路徑信息相同的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容的哈希(hash)值進(jìn)行比較,從而判斷路徑信息相同的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容是否相同。關(guān)于hash值的計(jì)算方法在現(xiàn)有技術(shù)中已經(jīng)很成熟,在此不再贅述。步驟307:如果所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容相同,則將所述第一參數(shù)確定為無(wú)效參數(shù)。步驟308:所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容不相同,則將所述第一參數(shù)確定為有效參數(shù);步驟309:抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。圖4為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法實(shí)施例4的流程圖。如圖4所示,所述方法可以包括:步驟 401:獲取網(wǎng)頁(yè)的URL信息;步驟402:識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息; 步驟403:對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;步驟404:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);步驟405:在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例;所述預(yù)設(shè)時(shí)間可以是24小時(shí),也可以根據(jù)實(shí)際需要自行設(shè)定。因?yàn)榫W(wǎng)絡(luò)中的URL信息數(shù)量龐大,更新時(shí)間短,所以有一部分無(wú)效參數(shù)雖然被確定為無(wú)效參數(shù),但是可能在后續(xù)的時(shí)間內(nèi),會(huì)成為有效參數(shù)。這就需要對(duì)無(wú)效參數(shù)進(jìn)行驗(yàn)證。具體的,對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例,可以包括以下步驟:獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容;刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息;獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容;判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同;如果不相同,則確定出現(xiàn)反例。步驟406:如果出現(xiàn)反例,則將所述無(wú)效參數(shù)確定為有效參數(shù)。步驟407:對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓?。徊襟E408:將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);步驟409 :抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。本實(shí)施例中,通過(guò)在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例,如果出現(xiàn)反例,則將所述無(wú)效參數(shù)確定為有效參數(shù),可以進(jìn)一步提高本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取方法的準(zhǔn)確率。需要說(shuō)明的是,本發(fā)明實(shí)施例中的網(wǎng)頁(yè)內(nèi)容抓取方法,不只是可以用在對(duì)網(wǎng)頁(yè)內(nèi)容第一次進(jìn)行抓取的過(guò)程中,在后續(xù)的抓取過(guò)程中,也可以一直使用。具體的,可以將生成的有效參數(shù),無(wú)效參數(shù)進(jìn)行存儲(chǔ),在后續(xù)的抓取過(guò)程中,如果發(fā)現(xiàn)新的包含無(wú)效參數(shù)的URL信息,可以驗(yàn)證其是否與不包含該無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容相同,如果相同,則該無(wú)效參數(shù)保留,如果不相同,則可以將該無(wú)效參數(shù)確定為有效參數(shù)。本發(fā)明還公開了 一種網(wǎng)頁(yè)內(nèi)容抓取裝置。圖5為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例1的結(jié)構(gòu)圖。如圖5所示,所述裝置可以包括信息獲取模塊501,用于獲取網(wǎng)頁(yè)的URL信息;信息識(shí)別模塊502,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;聚類模塊503,用于對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;有效參數(shù)確定模塊504,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);網(wǎng)頁(yè)內(nèi)容抓取模塊505,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。綜上所述,本實(shí)施例中,通過(guò)識(shí)別URL信息中包含的路徑信息和參數(shù)信息,對(duì)于路徑信息相同的URL信息,將在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);只抓取包含有效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,從而可以對(duì)于不包含有效參數(shù)的URL,不再重復(fù)進(jìn)行網(wǎng)頁(yè)抓取,減少帶寬資源和存儲(chǔ)資源的浪費(fèi)。圖6為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例2的結(jié)構(gòu)圖。如圖6所示,所述裝置可以包括信息獲取模塊501,用于獲取網(wǎng)頁(yè)的URL信息;信息識(shí)別模塊502,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;聚類模塊503,用于對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;無(wú)效參數(shù)確定模塊601,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);無(wú)效參數(shù)過(guò)濾模塊602,用于對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取。有效參數(shù)確定模塊504,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);網(wǎng)頁(yè)內(nèi)容抓取模塊505,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;
其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。圖7為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例3的結(jié)構(gòu)圖。如圖7所示,所述裝置可以包括信息獲取模塊501,用于獲取網(wǎng)頁(yè)的URL信息;信息識(shí)別模塊502,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;第一 URL信息獲取單元701,用于獲取所述URL信息集中的第一 URL信息和第二URL信息;所述第一 URL信息和第二 URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二 URL信息中具有不同的參數(shù)值;第一及第二網(wǎng)頁(yè)內(nèi)容獲取單元702,用于獲取所述第一 URL信息對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容;第一判斷單元703,用于判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同;無(wú)效參數(shù)確定單元704,用于當(dāng)所述第一判斷單元的判斷結(jié)果為是時(shí),將所述第一參數(shù)確定為無(wú)效參數(shù)。其中,第一 URL信息獲取單元701,第一及第二網(wǎng)頁(yè)內(nèi)容獲取單元702,第一判斷單元703和無(wú)效參數(shù)確定單元704可以包含于所述聚類模塊503。有效參數(shù)確定模塊504,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);網(wǎng)頁(yè)內(nèi)容抓取模塊505,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。圖8為本發(fā)明的網(wǎng)頁(yè)內(nèi)容抓取裝置實(shí)施例4的結(jié)構(gòu)圖。如圖8所示,所述裝置可以包括信息獲取模塊501,用于獲取網(wǎng)頁(yè)的URL信息;信息識(shí)別模塊502,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;聚類模塊503,用于對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;無(wú)效參數(shù)確定模塊601,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù);無(wú)效參數(shù)過(guò)濾模塊602,用于對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取。驗(yàn)證模塊801,用于在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例;無(wú)效參數(shù)變更模塊802,用于當(dāng)所述驗(yàn)證模塊的判斷結(jié)果為是時(shí),將所述無(wú)效參數(shù)確定為有效參數(shù)。有效參數(shù)確定模塊504,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);網(wǎng)頁(yè)內(nèi)容抓取模塊505,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。所述驗(yàn)證模塊801可以包括第三網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容;
無(wú)效參數(shù)刪除單元,用于刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息;第四網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容;第二判斷單元,用于判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同;反例確定單元,用于當(dāng)所述第二判斷單元的判斷結(jié)果為否時(shí),確定出現(xiàn)反例。最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以全部通過(guò)硬件來(lái)實(shí)施,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案對(duì)背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說(shuō)明即可。本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具 體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種網(wǎng)頁(yè)內(nèi)容抓取方法,其特征在于,包括: 獲取網(wǎng)頁(yè)的URL信息; 識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息; 對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集; 將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù); 抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容; 其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù); 對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定無(wú)效參數(shù)的過(guò)程,還包括: 獲取所述URL信息集中的第一 URL信息和第二 URL信息;所述第一 URL信息和第二 URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二 URL信息中具有不同的參數(shù)值; 獲取所述第一 URL信息 對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容; 判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同; 如果相同,則將所述第一參數(shù)確定為無(wú)效參數(shù)。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括: 在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例; 如果出現(xiàn)反例,則將所述無(wú)效參數(shù)確定為有效參數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例,包括: 獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容; 刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息; 獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容; 判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同; 如果不相同,則確定出現(xiàn)反例。
6.一種網(wǎng)頁(yè)內(nèi)容抓取裝置,其特征在于,包括: 信息獲取模塊,用于獲取網(wǎng)頁(yè)的URL信息; 信息識(shí)別模塊,用于識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息; 聚類模塊,用于對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集; 有效參數(shù)確定模塊,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù); 網(wǎng)頁(yè)內(nèi)容抓取模塊,用于抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 無(wú)效參數(shù)確定模塊,用于將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)但是參數(shù)值變化的參數(shù),或者未在全部URL信息中均出現(xiàn)的參數(shù),確定為無(wú)效參數(shù); 無(wú)效參數(shù)過(guò)濾模塊,用于對(duì)于包含無(wú)效參數(shù)的URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,不再進(jìn)行抓取。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述聚類模塊,包括: 第一 URL信息獲取單元,用于獲取所述URL信息集中的第一 URL信息和第二 URL信息;所述第一 URL信息和第二 URL信息中包含相同的第一參數(shù),且所述第一參數(shù)在所述第一 URL信息和第二 URL信息中具有不同的參數(shù)值; 第一及第二網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取所述第一 URL信息對(duì)應(yīng)的第一網(wǎng)頁(yè)內(nèi)容以及所述第二 URL信息對(duì)應(yīng)的第二網(wǎng)頁(yè)內(nèi)容; 第一判斷單元,用于判斷所述第一網(wǎng)頁(yè)內(nèi)容與所述第二網(wǎng)頁(yè)內(nèi)容是否相同; 無(wú)效參數(shù)確定單元,用于當(dāng)所述第一判斷單元的判斷結(jié)果為是時(shí),將所述第一參數(shù)確定為無(wú)效參數(shù)。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 驗(yàn)證模塊,用于在確定出所述無(wú)效參數(shù)后,在預(yù)設(shè)時(shí)間內(nèi)對(duì)所述無(wú)效參數(shù)進(jìn)行驗(yàn)證,判斷是否出現(xiàn)反例; 無(wú)效參數(shù)變更模塊,用于當(dāng)所述驗(yàn)證模塊的判斷結(jié)果為是時(shí),將所述無(wú)效參數(shù)確定為有效參數(shù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述驗(yàn)證模塊包括: 第三網(wǎng)頁(yè)內(nèi)容獲取單元,用于獲取包含無(wú)效參數(shù)的第三URL信息對(duì)應(yīng)的第三網(wǎng)頁(yè)內(nèi)容; 無(wú)效參數(shù)刪除單元,用于刪除所述第三URL信息中的無(wú)效參數(shù),得到第四URL信息; 第四網(wǎng)頁(yè)內(nèi)容獲取單元, 用于獲取所述第四URL信息對(duì)應(yīng)的第四網(wǎng)頁(yè)內(nèi)容; 第二判斷單元,用于判斷所述第三網(wǎng)頁(yè)內(nèi)容與所述第四網(wǎng)頁(yè)內(nèi)容是否相同; 反例確定單元,用于當(dāng)所述第二判斷單元的判斷結(jié)果為否時(shí),確定出現(xiàn)反例。
全文摘要
本發(fā)明公開一種網(wǎng)頁(yè)內(nèi)容抓取方法及裝置。所述方法包括獲取網(wǎng)頁(yè)的URL信息;識(shí)別所述URL信息中包含的路徑信息和參數(shù)信息;對(duì)于路徑信息相同的URL信息進(jìn)行聚類,得到包含多個(gè)URL信息的URL信息集;將所述URL信息集中,在每個(gè)URL信息中均出現(xiàn)并且參數(shù)值不變的參數(shù),確定為有效參數(shù);抓取有效URL信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;其中,所述有效URL信息中的參數(shù)均為有效參數(shù)。采用本發(fā)明的方法或裝置,可以對(duì)于不包含有效參數(shù)的URL,不再重復(fù)進(jìn)行網(wǎng)頁(yè)抓取,減少帶寬資源和存儲(chǔ)資源的浪費(fèi)。
文檔編號(hào)G06F17/30GK103077250SQ201310033159
公開日2013年5月1日 申請(qǐng)日期2013年1月28日 優(yōu)先權(quán)日2013年1月28日
發(fā)明者張宗宇, 崔世起, 楊青 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1