亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

檢測重復(fù)url的方法及裝置的制造方法

文檔序號:8457263閱讀:211來源:國知局
檢測重復(fù)url的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)應(yīng)用技術(shù)領(lǐng)域,更具體地說,涉及一種檢測重復(fù)URL的方法及裝置。
【背景技術(shù)】
[0002]近年來,電商類網(wǎng)站蓬勃發(fā)展,已成為人們線上購物消費(fèi)的主要入口。在這些網(wǎng)站網(wǎng)頁中,包含了大量的商品相關(guān)介紹信息和用戶評論信息。收集這些數(shù)據(jù)是展開個(gè)性化推薦、商品營銷分析、情感分析等電子商務(wù)應(yīng)用的基礎(chǔ)。
網(wǎng)絡(luò)爬蟲是一種自動提取網(wǎng)頁的程序,其通過遍歷的方式下載網(wǎng)絡(luò)資源,也是收集制定網(wǎng)站網(wǎng)頁的一種常用手段。其工作原理是:網(wǎng)絡(luò)爬蟲從初始設(shè)定的一個(gè)或多個(gè)URL開始,獲取其對應(yīng)的網(wǎng)頁,在抓取網(wǎng)頁的過程中,再不斷從當(dāng)前網(wǎng)頁上抽取新的URL,分析其是否與用戶感興趣的主題相關(guān),將不相關(guān)的URL濾除而將相關(guān)的URL放入訪問隊(duì)列中,依次下載,進(jìn)而重復(fù)上述過程。
[0003]然而,對于互聯(lián)網(wǎng)而言,在其上數(shù)據(jù)資源的重復(fù)現(xiàn)象司空見慣。很多網(wǎng)站中存在大量如下情況:多個(gè)不同URL地址指向內(nèi)容相同或接近相同的網(wǎng)頁(以下我們把這些URL稱為重復(fù)URL)。這不僅會導(dǎo)致網(wǎng)頁的重復(fù)下載,增加了網(wǎng)絡(luò)爬蟲的工作量,而且提高了后續(xù)處理數(shù)據(jù)工作(如索引、檢索、排名)的復(fù)雜度。因此,檢測重復(fù)URL已成為網(wǎng)絡(luò)爬蟲處理URL時(shí)的一個(gè)必要過程。
[0004]現(xiàn)有的一種檢測重復(fù)URL的方法,由網(wǎng)絡(luò)爬蟲將已下載的URL地址全部放置一存儲區(qū)中,在提取到新的URL時(shí),查找存儲區(qū)中是否已有該URL地址,若有,則將其判定為重復(fù)URL。而在已下載的URL數(shù)量越來越龐大之后,存儲單元的空間不可能無限累加,以及在巨量URL地址數(shù)據(jù)中進(jìn)行查找的耗時(shí)也將變得難以忍受。
[0005]因此,上述檢測重復(fù)URL的方法已受到諸多限制,研究人員期望獲得一種更加高效可靠地檢測重復(fù)URL的方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的一個(gè)目的在于提供一種檢測重復(fù)URL的方法。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供一技術(shù)方案如下:
一種檢測重復(fù)URL的方法,用于檢測一網(wǎng)絡(luò)爬蟲獲得的一 URL地址對應(yīng)的網(wǎng)頁是否與網(wǎng)絡(luò)爬蟲已下載過的網(wǎng)頁內(nèi)容重復(fù)或接近,該方法包括如下步驟:a)、分組步驟:對第一URL地址集合中的各URL地址進(jìn)行分組,以使同一組別中各URL地址對應(yīng)的網(wǎng)頁間的差異度小于第一設(shè)定閾值;b)、URL模式抽取步驟:針對每一組別,分別對其中每個(gè)URL地址的第一特性部分進(jìn)行泛化表示,并以泛化后的各URL地址共同作為第二 URL地址集合中的一個(gè)元素,以形成為第二 URL地址集合;其中,第一特性部分使得同一組別中每一 URL地址相異于其他URL地址;c)、URL模式生成步驟:針對第二 URL地址集合,分別對其每個(gè)元素包含的各URL地址的第二特性部分進(jìn)行泛化表示,并以泛化后的各URL地址共同作為第三URL地址集合中的一個(gè)元素,以形成為第三URL地址集合;其中,第二特性部分使得第二 URL地址集合中的每個(gè)元素所包含的各URL地址相異于其他元素所包含的各URL地址;d)、主URL模式構(gòu)建步驟:針對第三URL地址集合的每個(gè)元素,分別提取其包含的各URL地址的共性部分,并以共性部分作為第四URL地址集合中的一個(gè)元素,以形成為第四URL地址集合;e)、重復(fù)URL檢測步驟:對于網(wǎng)絡(luò)爬蟲獲得的一待下載URL地址,若該待下載URL地址與第四URL地址集合中任一元素匹配,則判定該待下載URL地址對應(yīng)的網(wǎng)頁已被下載;否則,則判定該待下載URL地址對應(yīng)的網(wǎng)頁未被下載。
[0008]優(yōu)選地,在步驟a)之前還包括一 URL地址規(guī)范化步驟,以使第一 URL地址集合中的各URL地址符合萬維網(wǎng)聯(lián)盟制定的RFC3986文檔。
[0009]優(yōu)選地,將第一 URL地址集合中的每一 URL地址所包含的大寫字母替換為對應(yīng)的小寫字母;將第一 URL地址集合中的每一 URL地址所包含的百分比編碼中的小寫字母替換為對應(yīng)的大寫字母;去除第一 URL地址集合中的每一 URL地址所包含的默認(rèn)端口號。
[0010]優(yōu)選地,任兩個(gè)網(wǎng)頁間的差異度由該兩個(gè)網(wǎng)頁對應(yīng)的SimHash編碼的差異位數(shù)衡量。
[0011]優(yōu)選地,在步驟c)之后、步驟d)之前,還包括一 URL地址集合中元素合并步驟:遍歷第三URL地址集合,對其中第一、第二元素進(jìn)行特性化表示,分別形成第一、第二 URL地址實(shí)例,比較該第一、第二 URL地址實(shí)例對應(yīng)的網(wǎng)頁間的差異度,若差異度小于第二設(shè)定閾值,則合并該第一、第二元素;其中,第一、第二元素為第三URL地址集合中的任兩個(gè)不同元素。
[0012]本發(fā)明的另一目的在于提供一種檢測重復(fù)URL的裝置。
[0013]為實(shí)現(xiàn)上述目的,本發(fā)明提供又一技術(shù)方案如下:
一種檢測重復(fù)URL的裝置,與一網(wǎng)絡(luò)爬蟲配合使用,包括:分組單元,其對第一 URL地址集合中的各URL地址進(jìn)行分組,以使同一組別中各URL地址對應(yīng)的網(wǎng)頁間的差異度小于第一設(shè)定閾值;URL抽取單元,其接收分組單元的輸出,針對每一組別,分別對其中每個(gè)URL地址的第一特性部分進(jìn)行泛化表示,并以泛化后的各URL地址共同作為第二 URL地址集合中的一個(gè)元素,以形成為第二 URL地址集合并輸出;其中,第一特性部分使得同一組別中每一URL地址相異于其他URL地址;URL模式生成單元,其接收URL抽取單元的輸出,針對第二URL地址集合,分別對其每個(gè)元素包含的各URL地址的第二特性部分進(jìn)行泛化表示,并以泛化后的各URL地址共同作為第三URL地址集合中的一個(gè)元素,以形成為第三URL地址集合;其中,第二特性部分使得第二 URL地址集合中的每個(gè)元素所包含的各URL地址相異于其他元素所包含的各URL地址;主URL模式構(gòu)建單元,其接收URL模式生成單元的輸出,針對第三URL地址集合的每個(gè)元素,分別提取其包含的各URL地址的共性部分,并以共性部分作為第四URL地址集合中的一個(gè)元素,以形成為第四URL地址集合;重復(fù)URL檢測單元,其接收主URL模式構(gòu)建單元的輸出以及網(wǎng)絡(luò)爬蟲獲得的一待下載URL地址,若該待下載URL地址與第四URL地址集合中任一元素匹配,則判定該待下載URL地址對應(yīng)的網(wǎng)頁已被下載;否貝U,則判定該待下載URL地址對應(yīng)的網(wǎng)頁未被下載。
[0014]本發(fā)明提供的檢測重復(fù)URL的方法,分析URL地址之間的相似性并對這些URL地址進(jìn)行數(shù)據(jù)挖掘,將巨量的URL地址先按對應(yīng)網(wǎng)頁間的相似度進(jìn)行分組,再經(jīng)泛化表示特性、提取共性等處理步驟,合并成若干個(gè)主URL模式,而每個(gè)主URL模式都可能對應(yīng)于大量的重復(fù)URL,它們具有相同或近似的網(wǎng)頁,從而,只需存儲這些主URL模式以及將這些主URL模式分別與網(wǎng)絡(luò)爬蟲新獲得的URL地址作匹配,即可高效并可靠地檢測出重復(fù)URL。該方法不僅可以避免網(wǎng)頁的重復(fù)下載,提高網(wǎng)絡(luò)爬蟲工作效率,而且節(jié)省了后續(xù)數(shù)據(jù)處理步驟(如索引、檢索、排名)中重復(fù)處理的工作;此外,對各URL地址的特性部分采用正則表達(dá)式進(jìn)行泛化,可使主URL模式具備較高的泛化性。本方法使用的訓(xùn)練數(shù)據(jù)集采用SimHash編碼來衡量網(wǎng)頁間相似度,無需人工標(biāo)注,并且,在訓(xùn)練集數(shù)據(jù)不斷擴(kuò)展的情況下,能夠自主增加主URL模式,以提高檢測時(shí)的全面性與準(zhǔn)確性。該方法實(shí)施簡單,適合在行業(yè)內(nèi)進(jìn)行推廣。
【附圖說明】
[0015]圖1示出本發(fā)明第一實(shí)施例提供的檢測重復(fù)URL的方法的流程示意圖;
圖2示出本發(fā)明第二實(shí)施例提供的檢測重復(fù)URL的方法的流程示意圖;
圖3示出本發(fā)明第三實(shí)施例提供的檢測重復(fù)URL的裝置的結(jié)構(gòu)示意圖;
圖4示出本發(fā)明第四實(shí)施例提供的檢測重復(fù)URL的裝置的結(jié)構(gòu)示意圖;
圖5-1示出URL模式抽取步驟的一實(shí)施示意圖;
圖5-2示出URL模式生成步驟的一實(shí)施示意圖;
圖5-3示出主URL模式構(gòu)建步驟的一實(shí)施示意圖。
【具體實(shí)施方式】
[0016]需要指明的是,本發(fā)明各實(shí)施例中,第一 URL地址集合包括多個(gè)URL地址,對其進(jìn)行分組后,每個(gè)分組均包括至少一個(gè)URL地址,第二、第三URL地址集合中的元素與上述分組一一對應(yīng),第二、第三URL地址集合中的每個(gè)元素均為次一級的URL地址集合,分別包括一個(gè)或多個(gè)URL地址,第四URL地址集合中每個(gè)元素均僅包括一個(gè)URL地址。
[0017]在本發(fā)明的各實(shí)施例中,可作出如下定義:
定義1.1 (URL重復(fù)):給定兩條URL地址U1和U2,如果對應(yīng)的網(wǎng)頁內(nèi)容doc (U1)和doc (U2)相同或者接近相同,則稱U1與U2重復(fù)。
[0018]定義1.2(URL模式):URL模式是一類特定URL的泛化。如果一條URL實(shí)例U1符合URL模式Γι,則稱U1滿足η。同時(shí),定義URL模式Γι對應(yīng)的URL實(shí)例集合,S (rI) = { U1, u2, U3
I Ui滿足!T1, 0〈i〈n },其中η表示滿足!T1的URL實(shí)例的個(gè)數(shù);
定義1
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1