亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法

文檔序號:6579081閱讀:233來源:國知局
專利名稱:基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種網(wǎng)頁爬蟲的構(gòu)建方法,特別是一種基于新聞去重的網(wǎng)頁爬蟲的構(gòu)
件方法。
背景技術(shù)
在這個信息爆炸的時代,網(wǎng)絡(luò)媒體以其快速的新聞發(fā)布,廣泛的新聞傳播而逐漸 取代電視,報紙等傳統(tǒng)媒體成為現(xiàn)在主流的新聞傳播方式。 當(dāng)前的幾大新聞門戶網(wǎng)站"新浪網(wǎng)"、"新華網(wǎng)"、"網(wǎng)易"都擁有自己強(qiáng)大的新聞采 訪、編輯和發(fā)布團(tuán)隊,每天的新聞發(fā)布數(shù)量達(dá)到數(shù)千條。新聞網(wǎng)站一般涵蓋了各個類別的新 聞國內(nèi)新聞、國際新聞、社會新聞、娛樂新聞、軍事新聞、體育新聞、財經(jīng)新聞、科技新聞等。 同時每個新聞門戶也都有各自的特色,比如"新華網(wǎng)"的時政新聞,"新浪網(wǎng)"的體育新聞, "網(wǎng)易"的社會新聞。因此,整合多個新聞門戶網(wǎng)站的新聞可以讓用戶得到更全面,更豐富, 更具有特色的新聞資訊。 如何有效地提取網(wǎng)絡(luò)中的信息成為一個巨大的挑戰(zhàn)。搜索引擎作為一個輔助人們 檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但通用性搜索引擎存在以下的局限 性 1、通用搜索引擎的目標(biāo)是獲得盡可能大的網(wǎng)絡(luò)覆蓋率,這就進(jìn)一步加深了有限的 搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾。 2、網(wǎng)絡(luò)數(shù)據(jù)的形式豐富、網(wǎng)絡(luò)技術(shù)不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻等不同形 式的數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為 力,不能很好的發(fā)現(xiàn)和獲取。 3、通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查 詢。 4、不同領(lǐng)域、不同北京的用戶具有不同的檢索目的、需求,通用搜索引擎返回的結(jié) 果包含大量的用戶不關(guān)心的信息。 為解決上述缺點(diǎn),一種定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)頁爬蟲應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲是 一個自動提取網(wǎng)頁的程序,它可以自動地從網(wǎng)絡(luò)中抓取網(wǎng)頁,是搜索引擎的重要組成。其工 作原理是網(wǎng)頁爬蟲從初始設(shè)定的一個或者多個初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的 URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前網(wǎng)頁上抽取新的URL,然后根據(jù)網(wǎng)頁分析算法過濾掉 與主題無關(guān)的連接,保留有用的連接并將其放入等待訪問的URL隊列中,直到滿足一定的 停止條件。采用網(wǎng)頁爬蟲可以對多個數(shù)據(jù)源同時進(jìn)行抓取。 以新聞信息為例,說明網(wǎng)絡(luò)爬蟲存在的缺點(diǎn)1、由于每個新聞網(wǎng)站的對新聞的發(fā) 布是,可能是相同的文章的復(fù)制,也可能是關(guān)于同一件事不同的網(wǎng)站發(fā)布了不同的文章,網(wǎng) 頁爬蟲在抓取數(shù)據(jù)時,很可能將這些重復(fù)的信息也抓取進(jìn)來,不僅浪費(fèi)網(wǎng)絡(luò)資源,存儲資 源,而且對今后的數(shù)據(jù)維護(hù)造成極大的麻煩。2、網(wǎng)頁中有大量的URL都是指向與新聞無關(guān) 的無效信息,如廣告、博客、導(dǎo)航網(wǎng)頁等,若爬蟲將這些URL也抓取進(jìn)來,也會造成網(wǎng)絡(luò)資源、存儲資源的浪費(fèi),以后后續(xù)維護(hù)的困難。3、現(xiàn)有的網(wǎng)頁爬蟲是先將網(wǎng)頁抓取、下載后再 進(jìn)行有效性分析,大量的無關(guān)網(wǎng)頁將被下載,浪費(fèi)有限的存儲資源。4、隨著網(wǎng)頁抓取量的增 多,無關(guān)網(wǎng)頁被下載再進(jìn)行分析過濾,造成算法的效率低下。

發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的算法效率低下,容易抓取重復(fù)內(nèi)容的網(wǎng)頁,資源浪費(fèi)大,數(shù)據(jù)維
護(hù)困難的缺點(diǎn),本發(fā)明提供了一種算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁,資源浪費(fèi)小,數(shù)
據(jù)維護(hù)方便的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法。
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,包括以下步驟 1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器,用所述的解析器解 析新聞網(wǎng)頁; 2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng) 頁之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來表征; 3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對,判斷它們之間的相似度是 否高于所述的閾值; 4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁加入新聞集中,若相似度高于所述的 閾值,則舍棄該新聞,抓取下一個網(wǎng)頁; 5)、抓取當(dāng)前網(wǎng)頁的URL,判斷此URL是否指向新聞網(wǎng)頁,若URL不指向新聞網(wǎng)頁, 則舍棄此URL ;若是指向新聞網(wǎng)頁,則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對,判 斷此URL是否被訪問過; 6)、若此URL存在于所述的已訪問隊列中,則舍棄此URL ;若此URL不存在于所述 的已訪問隊列中,則將此URL存入一待訪問隊列中;
7)、從待訪問隊列中依次提取URL進(jìn)行訪問;
8)、重復(fù)執(zhí)行步驟1-9。 進(jìn)一步,所述的解析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,
所述的解析器解析網(wǎng)頁得到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。 進(jìn)一步,所述的步驟(3)由以下步驟組成 (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵 詞的權(quán)重; (3. 2)根據(jù)經(jīng)驗,選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集
合C = {(、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)}, 其中& :第i個關(guān)鍵詞;Wi :第i個關(guān)鍵詞的權(quán)重; (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個子 集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與&之間的相似度的閾 值,所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個數(shù)來表征; (3. 4)將集合C與新聞集中的每個&進(jìn)行比對,判斷它們的相似度是否高于所述 的閾值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù) 新聞; (3. 5)將非重復(fù)新聞加入新聞集中。
進(jìn)一步,若經(jīng)(3.4)判斷集合C為非重復(fù)新聞,則將新聞內(nèi)容文本利用中文分詞技 術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重,再一次順序執(zhí)行(3.2)到(3.4);若此次 判斷仍然為非重復(fù)新聞,再將此新聞加入新聞集中。 進(jìn)一步,所述的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁包括以下步驟 (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集,采用劃分
聚類算法對這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類; (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL 解析器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個類別的正則表達(dá)式;
(5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL,判斷該網(wǎng)頁是否具有新聞網(wǎng) 頁的URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁的URL ;若否,則認(rèn)為此URL指向 新聞以外的其它網(wǎng)頁,將此URL舍棄。 本發(fā)明的技術(shù)構(gòu)思是在網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁之前進(jìn)行重復(fù)數(shù)據(jù)過濾,避免重復(fù)數(shù)
據(jù)的下載,減少了爬蟲需要抓取的數(shù)據(jù)量,節(jié)約了存儲資源;爬蟲在抓取URL時,先判斷URL
是否指向有效信息,將無關(guān)網(wǎng)頁的URL過濾,保證了爬取數(shù)據(jù)的純凈度與準(zhǔn)確性,即下載下
來的均為有效網(wǎng)頁,算法的效率高,網(wǎng)絡(luò)資源的消耗有效降低,存儲資源的浪費(fèi)少;由于只
需存儲有效信息即可,數(shù)據(jù)的存儲量降低,后續(xù)的數(shù)據(jù)維護(hù)的困難度降低。 本發(fā)明的優(yōu)點(diǎn)是算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁,資源浪費(fèi)小,數(shù)據(jù)維護(hù)方便。


圖1為本發(fā)明的總的流程圖 圖2為當(dāng)前抓取的新聞與新聞集中各新聞比對的流程圖
圖3為另一種當(dāng)前抓取的新聞與新聞集中各新聞比對的流程圖
圖4為判斷URL是否被訪問過的流程圖
具體實(shí)施方式

實(shí)施例一
參照附圖1、2、4 基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,包括以下步驟
1、基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,包括以下步驟 1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器,用所述的解析器解 析新聞網(wǎng)頁; 2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng) 頁之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來表征; 3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對,判斷它們之間的相似度是 否高于所述的閾值; (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵 詞的權(quán)重; (3. 2)根據(jù)經(jīng)驗,選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集
6合C = {(、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)}, 其中& :第i個關(guān)鍵詞;Wi :第i個關(guān)鍵詞的權(quán)重; (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個子 集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與&之間的相似度的閾 值,所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個數(shù)來表征;
(3. 4)將集合C與新聞集中的每個&進(jìn)行比對,判斷它們的相似度是否高于所述 的閾值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù) 新聞; (3. 5)將非重復(fù)新聞加入新聞集中。 4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁加入新聞集中,若相似度高于所述的 閾值,則舍棄該新聞,抓取下一個網(wǎng)頁; 5)、抓取當(dāng)前網(wǎng)頁的URL,判斷此URL是否指向新聞網(wǎng)頁,若URL不指向新聞網(wǎng)頁, 則舍棄此URL ;若是指向新聞網(wǎng)頁,則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對,判 斷此URL是否被訪問過; (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集,采用劃分 聚類算法對這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類; (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL 解析器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個類別的正則表達(dá)式;
(53)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL,判斷該網(wǎng)頁是否具有新聞網(wǎng) 頁的URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁的URL;若否,則認(rèn)為此URL指向 新聞以外的其它網(wǎng)頁,將此URL舍棄。 6)、若此URL存在于所述的已訪問隊列中,則舍棄此URL ;若此URL不存在于所述 的已訪問隊列中,則將此URL存入一待訪問隊列中;
7)、從待訪問隊列中依次提取URL進(jìn)行訪問;
8)、重復(fù)執(zhí)行步驟1-9。 所述的解析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,所述的
解析器解析網(wǎng)頁得到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
實(shí)施例二
參照附圖1、3、4 本實(shí)施例與實(shí)施例一的區(qū)別之處在于若經(jīng)(3. 4)判斷集合C為非重復(fù)新聞,則將 新聞?wù)奈谋纠弥形姆衷~技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重,再一次順 序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞,再將此新聞加入新聞集中。其余相 同。 本說明書實(shí)施例所述的內(nèi)容僅僅是對發(fā)明構(gòu)思的實(shí)現(xiàn)形式的列舉,本發(fā)明的保護(hù) 范圍不應(yīng)當(dāng)被視為僅限于實(shí)施例所陳述的具體形式,本發(fā)明的保護(hù)范圍也及于本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明構(gòu)思所能夠想到的等同技術(shù)手段。
權(quán)利要求
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,包括以下步驟1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器,用所述的解析器解析新聞網(wǎng)頁;2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集;設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng)頁之間的相似度的閾值,所述的相似度以內(nèi)容的重復(fù)程度來表征;3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對,判斷它們之間的相似度是否高于所述的閾值;4)、若相似度低于所述的閾值,則將當(dāng)前網(wǎng)頁加入新聞集中,若相似度高于所述的閾值,則舍棄該新聞,抓取下一個網(wǎng)頁;5)、抓取當(dāng)前網(wǎng)頁的URL,判斷此URL是否指向新聞網(wǎng)頁,若URL不指向新聞網(wǎng)頁,則舍棄此URL;若是指向新聞網(wǎng)頁,則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對,判斷此URL是否被訪問過;6)、若此URL存在于所述的已訪問隊列中,則舍棄此URL;若此URL不存在于所述的已訪問隊列中,則將此URL存入一待訪問隊列中;7)、從待訪問隊列中依次提取URL進(jìn)行訪問;8)、重復(fù)執(zhí)行步驟1-9。
2. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,其特征在于所述的解 析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成,所述的解析器解析網(wǎng)頁得 到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
3. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,其特征在于所述的步驟(3)由以下步驟組成(3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的 權(quán)重;(3.2)根據(jù)經(jīng)驗,選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞,權(quán)重)的集合C={ (、, w》,(t2, w2) , (t3, w3) , ......(tN, wN)},其中ti :第i個關(guān)鍵詞;Wi :第i個關(guān)鍵詞的權(quán)重;(3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序;將新聞集中的每個子集& 中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序;設(shè)定C與Q之間的相似度的閾值,所 述的相似度由兩集合的具有相同排序位置的關(guān)鍵詞個數(shù)來表征;(3. 4)將集合C與新聞集中的每個&進(jìn)行比對,判斷它們的相似度是否高于所述的閾 值;若高于所述的閾值,則認(rèn)為C為重復(fù)新聞;若低于所述的閾值,則認(rèn)為C為非重復(fù)新聞;(3. 5)將非重復(fù)新聞加入新聞集中。
4. 如權(quán)利要求3所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,其特征在于若經(jīng)(3. 4) 判斷集合C為非重復(fù)新聞,則將新聞內(nèi)容文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以 及每個關(guān)鍵詞的權(quán)重,再一次順序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞,再 將此新聞加入新聞集中。
5. 如權(quán)利要求3或4所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,其特征在于所述 的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁包括以下步驟(5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集,采用劃分聚類算法對這些URL進(jìn)行聚類,將具有相同URL格式的聚成一類;(5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器,用所述的URL解析 器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí),獲得每個類別的正則表達(dá)式;(5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL,判斷該網(wǎng)頁是否具有新聞網(wǎng)頁的 URL的格式特征;若是,則認(rèn)為此URL為指向新聞網(wǎng)頁的URL;若否,則認(rèn)為此URL指向新聞 以外的其它網(wǎng)頁,將此URL舍棄。
全文摘要
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法,包括以下步驟構(gòu)造解析器解析新聞網(wǎng)頁;構(gòu)建新聞集;設(shè)定網(wǎng)頁之間的相似度的閾值;將當(dāng)前抓取的新聞網(wǎng)頁與新聞集進(jìn)行比對,判斷相似度是否高于閾值;若低于閾值,則將當(dāng)前網(wǎng)頁加入新聞集中;若高于閾值,則舍棄該新聞,抓取下一個網(wǎng)頁;抓取當(dāng)前網(wǎng)頁的URL,判斷此URL是否指向新聞網(wǎng)頁,若是,判斷此URL是否被訪問過;若否,則舍棄;若此URL已被訪問過,則舍棄此URL;若此URL未被訪問過,則存入待訪問隊列;從待訪問隊列中依次提取URL進(jìn)行訪問;重復(fù)執(zhí)行上述步驟。本發(fā)明的優(yōu)點(diǎn)是算法效率高,避免抓取重復(fù)內(nèi)容的網(wǎng)頁,資源浪費(fèi)小,數(shù)據(jù)維護(hù)方便。
文檔編號G06F17/30GK101694658SQ200910153588
公開日2010年4月14日 申請日期2009年10月20日 優(yōu)先權(quán)日2009年10月20日
發(fā)明者卜佳俊, 李輝, 梁雄君, 陳偉, 陳純 申請人:浙江大學(xué);
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1