基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法

文檔序號：6579081閱讀：233來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種網(wǎng)頁爬蟲的構(gòu)建方法，特別是一種基于新聞去重的網(wǎng)頁爬蟲的構(gòu)
件方法。
背景技術(shù)：
在這個信息爆炸的時代，網(wǎng)絡(luò)媒體以其快速的新聞發(fā)布，廣泛的新聞傳播而逐漸取代電視，報紙等傳統(tǒng)媒體成為現(xiàn)在主流的新聞傳播方式。當(dāng)前的幾大新聞門戶網(wǎng)站"新浪網(wǎng)"、"新華網(wǎng)"、"網(wǎng)易"都擁有自己強(qiáng)大的新聞采訪、編輯和發(fā)布團(tuán)隊，每天的新聞發(fā)布數(shù)量達(dá)到數(shù)千條。新聞網(wǎng)站一般涵蓋了各個類別的新聞國內(nèi)新聞、國際新聞、社會新聞、娛樂新聞、軍事新聞、體育新聞、財經(jīng)新聞、科技新聞等。同時每個新聞門戶也都有各自的特色，比如"新華網(wǎng)"的時政新聞，"新浪網(wǎng)"的體育新聞， "網(wǎng)易"的社會新聞。因此，整合多個新聞門戶網(wǎng)站的新聞可以讓用戶得到更全面，更豐富，更具有特色的新聞資訊。如何有效地提取網(wǎng)絡(luò)中的信息成為一個巨大的挑戰(zhàn)。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但通用性搜索引擎存在以下的局限性 1、通用搜索引擎的目標(biāo)是獲得盡可能大的網(wǎng)絡(luò)覆蓋率，這就進(jìn)一步加深了有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾。 2、網(wǎng)絡(luò)數(shù)據(jù)的形式豐富、網(wǎng)絡(luò)技術(shù)不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻/視頻等不同形式的數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好的發(fā)現(xiàn)和獲取。 3、通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。 4、不同領(lǐng)域、不同北京的用戶具有不同的檢索目的、需求，通用搜索引擎返回的結(jié) 果包含大量的用戶不關(guān)心的信息。為解決上述缺點(diǎn)，一種定向抓取相關(guān)網(wǎng)頁資源的網(wǎng)頁爬蟲應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它可以自動地從網(wǎng)絡(luò)中抓取網(wǎng)頁，是搜索引擎的重要組成。其工作原理是網(wǎng)頁爬蟲從初始設(shè)定的一個或者多個初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的 URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前網(wǎng)頁上抽取新的URL，然后根據(jù)網(wǎng)頁分析算法過濾掉與主題無關(guān)的連接，保留有用的連接并將其放入等待訪問的URL隊列中，直到滿足一定的停止條件。采用網(wǎng)頁爬蟲可以對多個數(shù)據(jù)源同時進(jìn)行抓取。以新聞信息為例，說明網(wǎng)絡(luò)爬蟲存在的缺點(diǎn)1、由于每個新聞網(wǎng)站的對新聞的發(fā) 布是，可能是相同的文章的復(fù)制，也可能是關(guān)于同一件事不同的網(wǎng)站發(fā)布了不同的文章，網(wǎng) 頁爬蟲在抓取數(shù)據(jù)時，很可能將這些重復(fù)的信息也抓取進(jìn)來，不僅浪費(fèi)網(wǎng)絡(luò)資源，存儲資源，而且對今后的數(shù)據(jù)維護(hù)造成極大的麻煩。2、網(wǎng)頁中有大量的URL都是指向與新聞無關(guān) 的無效信息，如廣告、博客、導(dǎo)航網(wǎng)頁等，若爬蟲將這些URL也抓取進(jìn)來，也會造成網(wǎng)絡(luò)資源、存儲資源的浪費(fèi)，以后后續(xù)維護(hù)的困難。3、現(xiàn)有的網(wǎng)頁爬蟲是先將網(wǎng)頁抓取、下載后再進(jìn)行有效性分析，大量的無關(guān)網(wǎng)頁將被下載，浪費(fèi)有限的存儲資源。4、隨著網(wǎng)頁抓取量的增多，無關(guān)網(wǎng)頁被下載再進(jìn)行分析過濾，造成算法的效率低下。

發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的算法效率低下，容易抓取重復(fù)內(nèi)容的網(wǎng)頁，資源浪費(fèi)大，數(shù)據(jù)維
護(hù)困難的缺點(diǎn)，本發(fā)明提供了一種算法效率高，避免抓取重復(fù)內(nèi)容的網(wǎng)頁，資源浪費(fèi)小，數(shù)
據(jù)維護(hù)方便的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法。
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，包括以下步驟 1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器，用所述的解析器解析新聞網(wǎng)頁； 2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集；設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng) 頁之間的相似度的閾值，所述的相似度以內(nèi)容的重復(fù)程度來表征； 3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對，判斷它們之間的相似度是否高于所述的閾值； 4)、若相似度低于所述的閾值，則將當(dāng)前網(wǎng)頁加入新聞集中，若相似度高于所述的閾值，則舍棄該新聞，抓取下一個網(wǎng)頁； 5)、抓取當(dāng)前網(wǎng)頁的URL，判斷此URL是否指向新聞網(wǎng)頁，若URL不指向新聞網(wǎng)頁，則舍棄此URL ;若是指向新聞網(wǎng)頁，則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對，判斷此URL是否被訪問過； 6)、若此URL存在于所述的已訪問隊列中，則舍棄此URL ;若此URL不存在于所述的已訪問隊列中，則將此URL存入一待訪問隊列中；
7)、從待訪問隊列中依次提取URL進(jìn)行訪問；
8)、重復(fù)執(zhí)行步驟1-9。進(jìn)一步，所述的解析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成，
所述的解析器解析網(wǎng)頁得到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。進(jìn)一步，所述的步驟(3)由以下步驟組成 (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重； (3. 2)根據(jù)經(jīng)驗，選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞，權(quán)重)的集
合C = {(、， w》，(t2， w2) ， (t3， w3) ， ......(tN， wN)}，其中& :第i個關(guān)鍵詞；Wi :第i個關(guān)鍵詞的權(quán)重； (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序；將新聞集中的每個子集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序；設(shè)定C與&之間的相似度的閾值，所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個數(shù)來表征； (3. 4)將集合C與新聞集中的每個&進(jìn)行比對，判斷它們的相似度是否高于所述的閾值；若高于所述的閾值，則認(rèn)為C為重復(fù)新聞；若低于所述的閾值，則認(rèn)為C為非重復(fù) 新聞； (3. 5)將非重復(fù)新聞加入新聞集中。
進(jìn)一步，若經(jīng)(3.4)判斷集合C為非重復(fù)新聞，則將新聞內(nèi)容文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重，再一次順序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞，再將此新聞加入新聞集中。進(jìn)一步，所述的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁包括以下步驟 (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集，采用劃分
聚類算法對這些URL進(jìn)行聚類，將具有相同URL格式的聚成一類； (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器，用所述的URL 解析器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí)，獲得每個類別的正則表達(dá)式；
(5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL，判斷該網(wǎng)頁是否具有新聞網(wǎng) 頁的URL的格式特征；若是，則認(rèn)為此URL為指向新聞網(wǎng)頁的URL ;若否，則認(rèn)為此URL指向新聞以外的其它網(wǎng)頁，將此URL舍棄。本發(fā)明的技術(shù)構(gòu)思是在網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁之前進(jìn)行重復(fù)數(shù)據(jù)過濾，避免重復(fù)數(shù)
據(jù)的下載，減少了爬蟲需要抓取的數(shù)據(jù)量，節(jié)約了存儲資源；爬蟲在抓取URL時，先判斷URL
是否指向有效信息，將無關(guān)網(wǎng)頁的URL過濾，保證了爬取數(shù)據(jù)的純凈度與準(zhǔn)確性，即下載下
來的均為有效網(wǎng)頁，算法的效率高，網(wǎng)絡(luò)資源的消耗有效降低，存儲資源的浪費(fèi)少；由于只
需存儲有效信息即可，數(shù)據(jù)的存儲量降低，后續(xù)的數(shù)據(jù)維護(hù)的困難度降低。本發(fā)明的優(yōu)點(diǎn)是算法效率高，避免抓取重復(fù)內(nèi)容的網(wǎng)頁，資源浪費(fèi)小，數(shù)據(jù)維護(hù)方便。

圖1為本發(fā)明的總的流程圖圖2為當(dāng)前抓取的新聞與新聞集中各新聞比對的流程圖
圖3為另一種當(dāng)前抓取的新聞與新聞集中各新聞比對的流程圖
圖4為判斷URL是否被訪問過的流程圖
具體實(shí)施方式

實(shí)施例一
參照附圖1、2、4 基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，包括以下步驟
1、基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，包括以下步驟 1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器，用所述的解析器解析新聞網(wǎng)頁； 2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集；設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng) 頁之間的相似度的閾值，所述的相似度以內(nèi)容的重復(fù)程度來表征； 3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對，判斷它們之間的相似度是否高于所述的閾值； (3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重； (3. 2)根據(jù)經(jīng)驗，選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞，權(quán)重)的集
6合C = {(、， w》，(t2， w2) ， (t3， w3) ， ......(tN， wN)}，其中& :第i個關(guān)鍵詞；Wi :第i個關(guān)鍵詞的權(quán)重； (3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序；將新聞集中的每個子集&中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序；設(shè)定C與&之間的相似度的閾值，所述的相似度由兩集合中具有相同排序位置的關(guān)鍵詞個數(shù)來表征；
(3. 4)將集合C與新聞集中的每個&進(jìn)行比對，判斷它們的相似度是否高于所述的閾值；若高于所述的閾值，則認(rèn)為C為重復(fù)新聞；若低于所述的閾值，則認(rèn)為C為非重復(fù) 新聞； (3. 5)將非重復(fù)新聞加入新聞集中。 4)、若相似度低于所述的閾值，則將當(dāng)前網(wǎng)頁加入新聞集中，若相似度高于所述的閾值，則舍棄該新聞，抓取下一個網(wǎng)頁； 5)、抓取當(dāng)前網(wǎng)頁的URL，判斷此URL是否指向新聞網(wǎng)頁，若URL不指向新聞網(wǎng)頁，則舍棄此URL ;若是指向新聞網(wǎng)頁，則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對，判斷此URL是否被訪問過； (5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集，采用劃分聚類算法對這些URL進(jìn)行聚類，將具有相同URL格式的聚成一類； (5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器，用所述的URL 解析器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí)，獲得每個類別的正則表達(dá)式；
(53)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL，判斷該網(wǎng)頁是否具有新聞網(wǎng) 頁的URL的格式特征；若是，則認(rèn)為此URL為指向新聞網(wǎng)頁的URL;若否，則認(rèn)為此URL指向新聞以外的其它網(wǎng)頁，將此URL舍棄。 6)、若此URL存在于所述的已訪問隊列中，則舍棄此URL ;若此URL不存在于所述的已訪問隊列中，則將此URL存入一待訪問隊列中；
7)、從待訪問隊列中依次提取URL進(jìn)行訪問；
8)、重復(fù)執(zhí)行步驟1-9。所述的解析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成，所述的
解析器解析網(wǎng)頁得到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
實(shí)施例二
參照附圖1、3、4 本實(shí)施例與實(shí)施例一的區(qū)別之處在于若經(jīng)(3. 4)判斷集合C為非重復(fù)新聞，則將新聞?wù)奈谋纠弥形姆衷~技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重，再一次順序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞，再將此新聞加入新聞集中。其余相同。本說明書實(shí)施例所述的內(nèi)容僅僅是對發(fā)明構(gòu)思的實(shí)現(xiàn)形式的列舉，本發(fā)明的保護(hù) 范圍不應(yīng)當(dāng)被視為僅限于實(shí)施例所陳述的具體形式，本發(fā)明的保護(hù)范圍也及于本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明構(gòu)思所能夠想到的等同技術(shù)手段。
權(quán)利要求
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，包括以下步驟1)、構(gòu)造能將網(wǎng)頁中的新聞的標(biāo)題和內(nèi)容抽取出來的解析器，用所述的解析器解析新聞網(wǎng)頁；2)、構(gòu)建新聞網(wǎng)頁的集合形成新聞集；設(shè)定當(dāng)前抓取的網(wǎng)頁與新聞集中的新聞網(wǎng)頁之間的相似度的閾值，所述的相似度以內(nèi)容的重復(fù)程度來表征；3)、將當(dāng)前抓取的新聞網(wǎng)頁與所述的新聞集進(jìn)行比對，判斷它們之間的相似度是否高于所述的閾值；4)、若相似度低于所述的閾值，則將當(dāng)前網(wǎng)頁加入新聞集中，若相似度高于所述的閾值，則舍棄該新聞，抓取下一個網(wǎng)頁；5)、抓取當(dāng)前網(wǎng)頁的URL，判斷此URL是否指向新聞網(wǎng)頁，若URL不指向新聞網(wǎng)頁，則舍棄此URL；若是指向新聞網(wǎng)頁，則與存儲有已訪問過的URL的已訪問隊列進(jìn)行比對，判斷此URL是否被訪問過；6)、若此URL存在于所述的已訪問隊列中，則舍棄此URL；若此URL不存在于所述的已訪問隊列中，則將此URL存入一待訪問隊列中；7)、從待訪問隊列中依次提取URL進(jìn)行訪問；8)、重復(fù)執(zhí)行步驟1-9。
2. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，其特征在于所述的解析器是通過學(xué)習(xí)多個新聞網(wǎng)站的HTML源代碼框架后構(gòu)造而成，所述的解析器解析網(wǎng)頁得到的是新聞網(wǎng)頁中的實(shí)際的新聞標(biāo)題和新聞內(nèi)容。
3. 如權(quán)利要求1所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，其特征在于所述的步驟(3)由以下步驟組成(3. 1)將新聞標(biāo)題的文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重；(3.2)根據(jù)經(jīng)驗，選取該文本中N個權(quán)重最高的關(guān)鍵詞構(gòu)成(關(guān)鍵詞，權(quán)重)的集合C={ (、， w》，(t2， w2) ， (t3， w3) ， ......(tN， wN)}，其中ti :第i個關(guān)鍵詞；Wi :第i個關(guān)鍵詞的權(quán)重；(3. 3)將集合C中的元素根據(jù)權(quán)重Wi進(jìn)行從大到小的排序；將新聞集中的每個子集& 中的元素根據(jù)其關(guān)鍵詞的權(quán)重進(jìn)行從大到小的排序；設(shè)定C與Q之間的相似度的閾值，所述的相似度由兩集合的具有相同排序位置的關(guān)鍵詞個數(shù)來表征；(3. 4)將集合C與新聞集中的每個&進(jìn)行比對，判斷它們的相似度是否高于所述的閾值；若高于所述的閾值，則認(rèn)為C為重復(fù)新聞；若低于所述的閾值，則認(rèn)為C為非重復(fù)新聞；(3. 5)將非重復(fù)新聞加入新聞集中。
4. 如權(quán)利要求3所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，其特征在于若經(jīng)(3. 4) 判斷集合C為非重復(fù)新聞，則將新聞內(nèi)容文本利用中文分詞技術(shù)提取出文本中的關(guān)鍵詞以及每個關(guān)鍵詞的權(quán)重，再一次順序執(zhí)行(3.2)到(3.4);若此次判斷仍然為非重復(fù)新聞，再將此新聞加入新聞集中。
5. 如權(quán)利要求3或4所述的基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，其特征在于所述的步驟(5)中的判斷URL是否指向新聞網(wǎng)頁包括以下步驟(5. 1)從作為數(shù)據(jù)源的各大網(wǎng)站批量抓取新聞網(wǎng)頁的URL作為訓(xùn)練集，采用劃分聚類算法對這些URL進(jìn)行聚類，將具有相同URL格式的聚成一類；(5. 2)構(gòu)造能根據(jù)URL的格式特征得出其正則表達(dá)式的URL解析器，用所述的URL解析器對每個類別的URL的格式特征進(jìn)行學(xué)習(xí)，獲得每個類別的正則表達(dá)式；(5. 3)用所述的URL解析器解析當(dāng)前抓取網(wǎng)頁的URL，判斷該網(wǎng)頁是否具有新聞網(wǎng)頁的 URL的格式特征；若是，則認(rèn)為此URL為指向新聞網(wǎng)頁的URL;若否，則認(rèn)為此URL指向新聞以外的其它網(wǎng)頁，將此URL舍棄。
全文摘要
基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法，包括以下步驟構(gòu)造解析器解析新聞網(wǎng)頁；構(gòu)建新聞集；設(shè)定網(wǎng)頁之間的相似度的閾值；將當(dāng)前抓取的新聞網(wǎng)頁與新聞集進(jìn)行比對，判斷相似度是否高于閾值；若低于閾值，則將當(dāng)前網(wǎng)頁加入新聞集中；若高于閾值，則舍棄該新聞，抓取下一個網(wǎng)頁；抓取當(dāng)前網(wǎng)頁的URL，判斷此URL是否指向新聞網(wǎng)頁，若是，判斷此URL是否被訪問過；若否，則舍棄；若此URL已被訪問過，則舍棄此URL；若此URL未被訪問過，則存入待訪問隊列；從待訪問隊列中依次提取URL進(jìn)行訪問；重復(fù)執(zhí)行上述步驟。本發(fā)明的優(yōu)點(diǎn)是算法效率高，避免抓取重復(fù)內(nèi)容的網(wǎng)頁，資源浪費(fèi)小，數(shù)據(jù)維護(hù)方便。
文檔編號G06F17/30GK101694658SQ200910153588
公開日2010年4月14日申請日期2009年10月20日優(yōu)先權(quán)日2009年10月20日
發(fā)明者卜佳俊, 李輝, 梁雄君, 陳偉, 陳純申請人:浙江大學(xué);

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：卜佳俊;李輝;陳偉;陳純;梁雄君
技術(shù)所有人：浙江大學(xué)
我是此專利的發(fā)明人

上一篇：基于多主題追蹤的個性化網(wǎng)絡(luò)新聞推送方法
上一篇：四支鏈并聯(lián)式六自由度力反饋裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

java爬蟲抓取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

網(wǎng)頁爬蟲相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于新聞去重的網(wǎng)頁爬蟲的構(gòu)建方法