據(jù)表中是否包含特征碼,若包含特征碼,則讀取數(shù)據(jù)表中與特征碼對(duì)應(yīng)的網(wǎng)頁正文的字?jǐn)?shù), 并當(dāng)讀取到的和提取出的字?jǐn)?shù)差在預(yù)設(shè)范圍內(nèi)時(shí),丟棄當(dāng)前網(wǎng)頁,該實(shí)施例基于網(wǎng)頁的特 征碼和網(wǎng)頁正文包含的字?jǐn)?shù)對(duì)網(wǎng)頁進(jìn)行去重,相對(duì)于現(xiàn)有的僅基于特征碼對(duì)網(wǎng)頁去重的方 式,可大大提高網(wǎng)頁去重的準(zhǔn)確度,減少網(wǎng)頁去重的誤判率。
[0073] 在本說明書的描述中,參考術(shù)語"一個(gè)實(shí)施例"、"一些實(shí)施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點(diǎn)包含于本申請(qǐng)的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不 必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可W在任 一個(gè)或多個(gè)實(shí)施例或示例中W合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技 術(shù)人員可W將本說明書中描述的不同實(shí)施例或示例W及不同實(shí)施例或示例的特征進(jìn)行結(jié) 合和組合。
[0074] 此外,術(shù)語"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性 或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有"第一"、"第二"的特征可W明示或 者隱含地包括至少一個(gè)該特征。在本申請(qǐng)的描述中,"多個(gè)"的含義是至少兩個(gè),例如兩個(gè), Η個(gè)等,除非另有明確具體的限定。
[0075] 流程圖中或在此W其他方式描述的任何過程或方法描述可W被理解為,表示包括 一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部 分,并且本申請(qǐng)的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可w不按所示出或討論的順 序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,送應(yīng)被本申請(qǐng) 的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
[0076] 在流程圖中表示或在此W其他方式描述的邏輯和/或步驟,例如,可W被認(rèn)為是 用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可W具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,W 供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可W從指 令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合送些指令執(zhí)行系統(tǒng)、裝置 或設(shè)備而使用。就本說明書而言,"計(jì)算機(jī)可讀介質(zhì)"可W是任何可W包含、存儲(chǔ)、通信、傳 播或傳輸程序W供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合送些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使 用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括W下:具有一個(gè)或多個(gè) 布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM),只讀 存儲(chǔ)器(ROM),可擦除可編輯只讀存儲(chǔ)器巧PROM或閃速存儲(chǔ)器),光纖裝置,W及便攜式光 盤只讀存儲(chǔ)器(CDR0M)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可W是可在其上打印所述程序的紙或其 他合適的介質(zhì),因?yàn)榭蒞例如通過對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必 要時(shí)W其他合適方式進(jìn)行處理來W電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器 中。
[0077] 應(yīng)當(dāng)理解,本申請(qǐng)的各部分可W用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述 實(shí)施方式中,多個(gè)步驟或方法可W用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件 或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下 列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯口電路 的離散邏輯電路,具有合適的組合邏輯口電路的專用集成電路,可編程口陣列(PGA),現(xiàn)場(chǎng) 可編程口陣列(FPGA)等。
[0078] 本技術(shù)領(lǐng)域的普通技術(shù)人員可W理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步 驟是可W通過程序來指令相關(guān)的硬件完成,所述的程序可W存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介 質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
[0079] 此外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可W集成在一個(gè)處理模塊中,也可W 是各個(gè)單元單獨(dú)物理存在,也可W兩個(gè)或兩個(gè)W上單元集成在一個(gè)模塊中。上述集成的模 塊既可W采用硬件的形式實(shí)現(xiàn),也可W采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如 果W軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可W存儲(chǔ)在一個(gè)計(jì)算機(jī) 可讀取存儲(chǔ)介質(zhì)中。
[0080] 上述提到的存儲(chǔ)介質(zhì)可W是只讀存儲(chǔ)器,磁盤或光盤等。盡管上面已經(jīng)示出和描 述了本申請(qǐng)的實(shí)施例,可W理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本申請(qǐng)的限 制,本領(lǐng)域的普通技術(shù)人員在本申請(qǐng)的范圍內(nèi)可W對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變 型。
【主權(quán)項(xiàng)】
1. 一種網(wǎng)頁去重方法,其特征在于,包括: 獲取預(yù)定類型的網(wǎng)頁;以及 針對(duì)每個(gè)網(wǎng)頁,提取出當(dāng)前網(wǎng)頁的特征碼和當(dāng)前網(wǎng)頁正文包含的字?jǐn)?shù),并查詢預(yù)設(shè)的 數(shù)據(jù)表中是否包含所述特征碼,若包含所述特征碼,則讀取所述數(shù)據(jù)表中與所述特征碼對(duì) 應(yīng)的網(wǎng)頁正文的字?jǐn)?shù),并當(dāng)讀取到的字?jǐn)?shù)和提取出的字?jǐn)?shù)間的字?jǐn)?shù)差在預(yù)設(shè)范圍內(nèi)時(shí),丟 棄所述當(dāng)前網(wǎng)頁。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述查詢預(yù)設(shè)的數(shù)據(jù)表中是否包含所 述特征碼之后,還包括: 若所述數(shù)據(jù)表中未包含所述特征碼,則將提取出的所述當(dāng)前網(wǎng)頁的特征碼和字?jǐn)?shù)對(duì)應(yīng) 寫入所述數(shù)據(jù)表中。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 當(dāng)讀取到的字?jǐn)?shù)和提取的字?jǐn)?shù)間的字?jǐn)?shù)差未在預(yù)設(shè)范圍內(nèi)時(shí),將提取出的所述當(dāng)前網(wǎng) 頁的特征碼和所述字?jǐn)?shù)對(duì)應(yīng)寫入所述數(shù)據(jù)表中。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述提取當(dāng)前網(wǎng)頁的特征碼,包 括: 獲取當(dāng)前網(wǎng)頁正文包含的段落; 針對(duì)每個(gè)段落,在當(dāng)前段落的預(yù)設(shè)位置選取第一預(yù)設(shè)數(shù)量的字符;以及 將選取的所有段落的字符拼接成字符串,并對(duì)所述字符串進(jìn)行運(yùn)算,以生成所述特征 碼。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在當(dāng)前段落的預(yù)設(shè)位置選取第一預(yù) 設(shè)數(shù)量的字符,包括: 以所述當(dāng)前段落的中間位置為中心,從所述中心的左側(cè)和右側(cè)選取第二預(yù)設(shè)數(shù)量的字 符,其中,所述第二預(yù)設(shè)數(shù)量為所述第一預(yù)設(shè)數(shù)量的二分之一,且所述第二預(yù)設(shè)數(shù)量為3-8 個(gè)。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二預(yù)設(shè)數(shù)量?jī)?yōu)選為5個(gè)。7. -種網(wǎng)頁去重裝置,其特征在于,包括: 獲取模塊,用于獲取預(yù)定類型的網(wǎng)頁;以及 第一處理模塊,用于針對(duì)每個(gè)網(wǎng)頁,提取出當(dāng)前網(wǎng)頁的特征碼和當(dāng)前網(wǎng)頁正文包含的 字?jǐn)?shù),并查詢預(yù)設(shè)的數(shù)據(jù)表中是否包含所述特征碼,若包含所述特征碼,則讀取所述數(shù)據(jù)表 中與所述特征碼對(duì)應(yīng)的網(wǎng)頁正文的字?jǐn)?shù),并當(dāng)讀取到的字?jǐn)?shù)和提取出的字?jǐn)?shù)間的字?jǐn)?shù)差在 預(yù)設(shè)范圍內(nèi)時(shí),丟棄所述當(dāng)前網(wǎng)頁。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 第二處理模塊,用于在所述第一處理模塊查詢預(yù)設(shè)的數(shù)據(jù)表中是否包含所述特征碼之 后,若所述數(shù)據(jù)表中未包含所述特征碼,則將提取出的所述當(dāng)前網(wǎng)頁的特征碼和字?jǐn)?shù)對(duì)應(yīng) 寫入所述數(shù)據(jù)表中。9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 第三處理模塊,用于當(dāng)讀取到的字?jǐn)?shù)和提取的字?jǐn)?shù)間的字?jǐn)?shù)差未在預(yù)設(shè)范圍內(nèi)時(shí),將 提取出的所述當(dāng)前網(wǎng)頁的特征碼和所述字?jǐn)?shù)對(duì)應(yīng)寫入所述數(shù)據(jù)表中。10. 根據(jù)權(quán)利要求7-9任一項(xiàng)所述的裝置,其特征在于,所述第一處理模塊,具體用于: 獲取當(dāng)前網(wǎng)頁正文包含的段落;針對(duì)每個(gè)段落,在當(dāng)前段落的預(yù)設(shè)位置選取第一預(yù)設(shè) 數(shù)量的字符;以及將選取的所有段落的字符拼接成字符串,并對(duì)所述字符串進(jìn)行運(yùn)算,以生 成所述特征碼。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一處理模塊,具體用于: 以所述當(dāng)前段落的中間位置為中心,從所述中心的左側(cè)和右側(cè)選取第二預(yù)設(shè)數(shù)量的字 符,其中,所述第二預(yù)設(shè)數(shù)量為所述第一預(yù)設(shè)數(shù)量的二分之一,且所述第二預(yù)設(shè)數(shù)量為3-8 個(gè)。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二預(yù)設(shè)數(shù)量?jī)?yōu)選為5個(gè)。
【專利摘要】本申請(qǐng)?zhí)岢鲆环N網(wǎng)頁去重方法及裝置。其中,該方法包括:獲取預(yù)定類型的網(wǎng)頁;以及針對(duì)每個(gè)網(wǎng)頁,提取出當(dāng)前網(wǎng)頁的特征碼和當(dāng)前網(wǎng)頁正文包含的字?jǐn)?shù),并查詢預(yù)設(shè)的數(shù)據(jù)表中是否包含特征碼,若包含特征碼,則讀取數(shù)據(jù)表中與特征碼對(duì)應(yīng)的網(wǎng)頁正文的字?jǐn)?shù),并當(dāng)讀取到的和提取出的字?jǐn)?shù)差在預(yù)設(shè)范圍內(nèi)時(shí),丟棄當(dāng)前網(wǎng)頁。本申請(qǐng)實(shí)施例的網(wǎng)頁去重方法及裝置,基于網(wǎng)頁的特征碼和網(wǎng)頁正文包含的字?jǐn)?shù)對(duì)網(wǎng)頁進(jìn)行去重,可大大提高網(wǎng)頁去重的準(zhǔn)確度,減少網(wǎng)頁去重的誤判率。
【IPC分類】G06F17/30
【公開號(hào)】CN105630802
【申請(qǐng)?zhí)枴緾N201410599140
【發(fā)明人】唐小棚
【申請(qǐng)人】阿里巴巴集團(tuán)控股有限公司
【公開日】2016年6月1日
【申請(qǐng)日】2014年10月30日
【公告號(hào)】WO2016066043A1