本發(fā)明涉及大數(shù)據(jù)云計算技術領域,特別涉及一種大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)。
背景技術:
隨著互聯(lián)網(wǎng)的迅速發(fā)展和日益普及,網(wǎng)絡信息平臺所能提供的內(nèi)容越發(fā)豐富多彩,用戶在搜索所需信息時面臨搜索難度增加及信息篩選所需消耗的大量時間和精力也隨之而來。搜索引擎的出現(xiàn)解決了海量信息檢索的難題。搜索引擎通過爬蟲進行資源的搜集。網(wǎng)絡爬蟲通過網(wǎng)絡連接進行網(wǎng)頁文檔的爬取和收集,即從預先給定的URL入手,利用H1vrP協(xié)議爬取所需的HTML文檔,并分析這些HTML文檔中所包含的超鏈接,再次抓取未訪問的鏈接及其包含的資源。如此反復直至沒有新的URL。
但是由于移動互聯(lián)網(wǎng)的迅猛發(fā)展,現(xiàn)在新的網(wǎng)頁內(nèi)容呈現(xiàn)爆發(fā)式增長,傳統(tǒng)的爬取系統(tǒng)已經(jīng)無法滿足大規(guī)模網(wǎng)絡數(shù)據(jù)爬取的需求。
技術實現(xiàn)要素:
因此,有必要提供一種能夠?qū)崟r爬取大規(guī)模網(wǎng)絡數(shù)據(jù)的的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)。
一種大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng),其包括如下模塊:
初始化種子優(yōu)化模塊,用于錄入網(wǎng)站種子鏈接;通過元搜索的方式,將最優(yōu)的結果反饋給用戶;挖掘鏈接與主題關系度靠前的鏈接;定期將符合條件的網(wǎng)頁鏈接加入到種子集合中,作為初始種子的集合;
整合模塊,用于對HTML的網(wǎng)頁文檔進行獲取,并對文本中的信息進行標注;
網(wǎng)頁超鏈接信息整合模塊,用于對網(wǎng)頁的超鏈接的描述數(shù)據(jù)進行保存的,如果有2個頁面A和B,如果A的超鏈接指向了B,則默認的認為B里的信息內(nèi)容比A的信息內(nèi)容質(zhì)量高,同時如果用戶查詢信息的時候同時指向了A和B2個超鏈接,則默認為A和B的信息質(zhì)量相同;
網(wǎng)頁相關度計算模塊,用于通過具體的數(shù)值來分析主題相關度,用具體的數(shù)值信息來表示相關度的信息;
超鏈接重要度計算模塊,用于將計算出來的數(shù)值信息作為判定相關度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預設數(shù)值表示所包含的主題資源符合了預設要求。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,所述網(wǎng)頁相關度計算模塊包括:
單次遍歷單元,用于輸入網(wǎng)頁頁面文中的字符串,定義為m-scontent;循環(huán)查找,條件是找到相應的標記符,標記符定義為delimiters;搜索函數(shù)截取位置1,搜索函數(shù)定義為Find();搜索函數(shù)截取位置2,使用同一個搜索函數(shù);截取位置1、2并輸出到字符串,字符串定義為dest;遍歷結束,輸出字符串;
重復單元,用于重復執(zhí)行單次遍歷單元,直到把信息的挖掘點挖掘出來,并通過純文本分類匯聚算法提取信息挖掘點挖掘出的特征向量關鍵詞;在挖掘出的信息獲取主題相關度的算法用空間向量模型表示。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,
空間向量模型表示如下:
首先分析網(wǎng)頁頁面的文本信息,這里定義α=(w1,w2,…wn),i=l,2,...n,
對關鍵詞出現(xiàn)的次數(shù)進行統(tǒng)計,把出現(xiàn)頻率最高的關鍵詞定位標準,這里把頻率定義為xi,構建一個向量xiwi,并定義頁面主題的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;則兩個向量的余弦函數(shù)就能夠反應出關鍵詞所出現(xiàn)的頻率,相關度具體公式如下:
其中兩個向量的夾角越大,表示頻率越小,表明與主題的相關度越小;夾角越小表示出現(xiàn)的頻率越大,說明與主題的相關度更高;
設置當前網(wǎng)頁與主題相關度的閾值;大于閾值表示與主題相關,否則與主題不相關,對于與主題相關的網(wǎng)頁進行分類保存,提交到數(shù)據(jù)庫建立索引數(shù)據(jù)。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,設置當前網(wǎng)頁與主題相關度的閾值包括:
定期隨機采樣,獲得預設數(shù)量的原始網(wǎng)頁頁面文檔,并通過人工分析網(wǎng)頁的相關性,并計算準確率;
對準確率進行反復統(tǒng)計,如果預測次數(shù)統(tǒng)計的準確率波動小于預設誤差值,則降低閾值用于提高爬蟲覆蓋率;如果預測次數(shù)統(tǒng)計的準確率波動大于或等于預設誤差值,則提高閾值用于提高爬蟲的準確率;
重復執(zhí)行對準確率進行反復統(tǒng)計直至獲得想要的閾值。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,超鏈接重要度計算模塊包括:
對頁面重要度的計算公式如下:
pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示網(wǎng)頁的鏈接重要度,CL(u)表示搜索到的連接數(shù)定位,其最大值用Cmax表示;頁面相關度的權值用m1表示,頁面鏈接度的權值用m2表示;m1和m2滿足以下條件0<m1,m2<l且m1+m2=l。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,所述整合模塊還包括:
對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,如是,繼續(xù)判斷URL是否屬于可運行爬行域名,不屬于可運行爬行域名直接終止,屬于可運行爬行域名則獲取URL的域名,并獲取與該域名相對應的視頻解析類;判斷視頻解析類是否為空,為空則結束,不為空繼續(xù)判斷是否為視頻HTML的播放地址,不是播放地址則結束,是播放地址則從URL和內(nèi)容中得到視頻真實下載地址列表,在視頻真實下載地址列表不為空時,返回視頻真實下載地址列表并結束;不為視頻HTML時,并對文本中的信息進行標注并挑戰(zhàn)到網(wǎng)頁超鏈接信息整合模塊。
實施本發(fā)明提供的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)與現(xiàn)有技術相比具有以下有益效果:通過設置網(wǎng)頁相關度計算模塊用具體的數(shù)值來分析主題相關度,用具體的數(shù)值信息來表示相關度的信息;通過超鏈接重要度計算模塊將計算出來的數(shù)值信息作為判定相關度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預設數(shù)值表示所包含的主題資源符合了預設要求,能夠在海量的大數(shù)據(jù)中獲得想要的網(wǎng)絡數(shù)據(jù),并通過設置整合模塊對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,能夠區(qū)分普通網(wǎng)頁和視頻網(wǎng)頁,是的爬取的效率更高。
附圖說明
圖1是本發(fā)明實施例的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)結構框圖。
圖2是圖1中網(wǎng)頁相關度計算模塊的結構框圖。
具體實施方式
如圖1、2所示,一種大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng),其包括如下模塊:
初始化種子優(yōu)化模塊,用于錄入網(wǎng)站種子鏈接;通過元搜索的方式,將最優(yōu)的結果反饋給用戶;挖掘鏈接與主題關系度靠前的鏈接;定期將符合條件的網(wǎng)頁鏈接加入到種子集合中,作為初始種子的集合。
可選地,初始化種子優(yōu)化模塊中,設置最大優(yōu)先級隊列,在最大優(yōu)先級隊列所維護的集合set中,集合中每個元素對應一個優(yōu)先級key。通過最大優(yōu)選級隊列支持如下流程:
插入隊列Insert(set,e,key):將優(yōu)選級為key的元素e插入到set中;
最高級隊列Max(set):返回集合set中優(yōu)先級最高的元素;
提取隊列Ext(set):返回集合set中優(yōu)選級最高的元素,并將其從set中刪除;
遞增隊列(set,e,key):將集合set中元素e的優(yōu)選級設置為key。
通過本實施例,可以通過最大堆實現(xiàn),具有很高的效率。
整合模塊,用于對HTML的網(wǎng)頁文檔進行獲取,并對文本中的信息進行標注。
網(wǎng)頁超鏈接信息整合模塊,用于對網(wǎng)頁的超鏈接的描述數(shù)據(jù)進行保存的,如果有2個頁面A和B,如果A的超鏈接指向了B,則默認的認為B里的信息內(nèi)容比A的信息內(nèi)容質(zhì)量高,同時如果用戶查詢信息的時候同時指向了A和B2個超鏈接,則默認為A和B的信息質(zhì)量相同。
網(wǎng)頁相關度計算模塊,用于通過具體的數(shù)值來分析主題相關度,用具體的數(shù)值信息來表示相關度的信息。
超鏈接重要度計算模塊,用于將計算出來的數(shù)值信息作為判定相關度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預設數(shù)值表示所包含的主題資源符合了預設要求。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,所述網(wǎng)頁相關度計算模塊包括:
單次遍歷單元,用于輸入網(wǎng)頁頁面文中的字符串,定義為m-scontent;循環(huán)查找,條件是找到相應的標記符,標記符定義為delimiters;搜索函數(shù)截取位置1,搜索函數(shù)定義為Find();搜索函數(shù)截取位置2,使用同一個搜索函數(shù);截取位置1、2并輸出到字符串,字符串定義為dest;遍歷結束,輸出字符串。
重復單元,用于重復執(zhí)行單次遍歷單元,直到把信息的挖掘點挖掘出來,并通過純文本分類匯聚算法提取信息挖掘點挖掘出的特征向量關鍵詞;在挖掘出的信息獲取主題相關度的算法用空間向量模型表示。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,
空間向量模型表示如下:
首先分析網(wǎng)頁頁面的文本信息,這里定義α=(w1,w2,…wn),i=l,2,...n,
對關鍵詞出現(xiàn)的次數(shù)進行統(tǒng)計,把出現(xiàn)頻率最高的關鍵詞定位標準,這里把頻率定義為xi,構建一個向量xiwi,并定義頁面主題的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;則兩個向量的余弦函數(shù)就能夠反應出關鍵詞所出現(xiàn)的頻率,相關度具體公式如下:
其中兩個向量的夾角越大,表示頻率越小,表明與主題的相關度越?。粖A角越小表示出現(xiàn)的頻率越大,說明與主題的相關度更高。
設置當前網(wǎng)頁與主題相關度的閾值;大于閾值表示與主題相關,否則與主題不相關,對于與主題相關的網(wǎng)頁進行分類保存,提交到數(shù)據(jù)庫建立索引數(shù)據(jù)。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,設置當前網(wǎng)頁與主題相關度的閾值包括:
定期隨機采樣,獲得預設數(shù)量的原始網(wǎng)頁頁面文檔,并通過人工分析網(wǎng)頁的相關性,并計算準確率。
對準確率進行反復統(tǒng)計,如果預測次數(shù)統(tǒng)計的準確率波動小于預設誤差值,則降低閾值用于提高爬蟲覆蓋率;如果預測次數(shù)統(tǒng)計的準確率波動大于或等于預設誤差值,則提高閾值用于提高爬蟲的準確率。
重復執(zhí)行對準確率進行反復統(tǒng)計直至獲得想要的閾值。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,超鏈接重要度計算模塊包括:
對頁面重要度的計算公式如下:
pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示網(wǎng)頁的鏈接重要度,CL(u)表示搜索到的連接數(shù)定位,其最大值用Cmax表示;頁面相關度的權值用m1表示,頁面鏈接度的權值用m2表示;m1和m2滿足以下條件0<m1,m2<l且m1+m2=l。
在本發(fā)明所述的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)中,所述整合模塊還包括:
對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,如是,繼續(xù)判斷URL是否屬于可運行爬行域名,不屬于可運行爬行域名直接終止,屬于可運行爬行域名則獲取URL的域名,并獲取與該域名相對應的視頻解析類;判斷視頻解析類是否為空,為空則結束,不為空繼續(xù)判斷是否為視頻HTML的播放地址,不是播放地址則結束,是播放地址則從URL和內(nèi)容中得到視頻真實下載地址列表,在視頻真實下載地址列表不為空時,返回視頻真實下載地址列表并結束;不為視頻HTML時,并對文本中的信息進行標注并挑戰(zhàn)到網(wǎng)頁超鏈接信息整合模塊。
實施本發(fā)明提供的大規(guī)模網(wǎng)絡數(shù)據(jù)實時爬取系統(tǒng)與現(xiàn)有技術相比具有以下有益效果:通過設置網(wǎng)頁相關度計算模塊用具體的數(shù)值來分析主題相關度,用具體的數(shù)值信息來表示相關度的信息;通過超鏈接重要度計算模塊將計算出來的數(shù)值信息作為判定相關度的一個依據(jù),也是通過具體的數(shù)值來量化分析;如果當前頁面所包含的鏈接數(shù)目達到了一定的數(shù)值,表示這個頁面有若干個鏈接,如果包含的數(shù)目達到了預設數(shù)值表示所包含的主題資源符合了預設要求,能夠在海量的大數(shù)據(jù)中獲得想要的網(wǎng)絡數(shù)據(jù),并通過設置整合模塊對HTML的網(wǎng)頁文檔進行獲取并分析是否為視頻HTML,能夠區(qū)分普通網(wǎng)頁和視頻網(wǎng)頁,是的爬取的效率更高。
可以理解的是,對于本領域的普通技術人員來說,可以根據(jù)本發(fā)明的技術構思做出其它各種相應的改變與變形,而所有這些改變與變形都應屬于本發(fā)明權利要求的保護范圍。