亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法

文檔序號(hào):6490457閱讀:285來源:國知局
基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法
【專利摘要】本發(fā)明公開了一種基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法,該方法包括:S1,采用網(wǎng)頁結(jié)構(gòu)分析方法對(duì)每個(gè)采集后的網(wǎng)頁進(jìn)行量化打分;S2,頁面分?jǐn)?shù)大于一定閾值()判定為Hub頁面,參與更新采集調(diào)度;S3,將Hub頁面分?jǐn)?shù)劃定等級(jí),不同等級(jí)采用不同的調(diào)度周期實(shí)施調(diào)度;S4,每輪采集后,重新調(diào)整Hub頁面調(diào)度等級(jí),在持續(xù)調(diào)整過程中實(shí)現(xiàn)更新采集效果的不斷優(yōu)化。本發(fā)明實(shí)現(xiàn)了海量信息時(shí)代下,信息采集系統(tǒng)準(zhǔn)確、高效的要求。
【專利說明】基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種網(wǎng)絡(luò)信息的處理技術(shù),具體地說,是涉及一種基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)信息通常包含兩部分內(nèi)容,一種是以鏈接為主的索引頁面也稱Hub頁面,另一種是以內(nèi)容為主的內(nèi)容頁面也稱Topic頁面。網(wǎng)頁/[目息米集是指對(duì)網(wǎng)絡(luò)上的/[目息利用網(wǎng)絡(luò)爬蟲技術(shù)自動(dòng)搜集的過程,是搜索引擎系統(tǒng)建設(shè)的重要基礎(chǔ)環(huán)節(jié)。
[0003]在海量互聯(lián)網(wǎng)信息的背景下,增量網(wǎng)頁識(shí)別能力是實(shí)現(xiàn)高效信息收集的必備條件。而目前業(yè)界普遍采用的方法依然是全量采集,即每一輪次信息采集都要把采集范圍內(nèi)的所有網(wǎng)頁全部采集下來,或者采集到一定的網(wǎng)頁數(shù)量即停止采集,這就給采集系統(tǒng)帶來了超強(qiáng)的負(fù)荷。學(xué)術(shù)界也有不少學(xué)者在研究信息動(dòng)態(tài)采集調(diào)度策略問題,集中在對(duì)特定領(lǐng)域及特定類型網(wǎng)頁的信息采集策略,主要采用基于網(wǎng)頁相關(guān)度或熱點(diǎn)查詢的權(quán)重計(jì)算方法、基于網(wǎng)頁信息構(gòu)建采集規(guī)則等的方法。這些方法對(duì)于通用互聯(lián)網(wǎng)信息采集工作顯得蒼白無力,難以適應(yīng)海量信息時(shí)代下,信息采集系統(tǒng)準(zhǔn)確、高效的要求。

【發(fā)明內(nèi)容】

[0004]鑒于以上不足,本發(fā)明實(shí)施例提供了一種基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法,采用基于網(wǎng)頁結(jié)構(gòu)化分析方法自動(dòng)識(shí)別Hub頁面,根據(jù)Hub頁面對(duì)新Topic頁面貢獻(xiàn)度大小動(dòng)態(tài)調(diào)整Hub頁面活躍度,實(shí)現(xiàn)網(wǎng)頁信息動(dòng)態(tài)采集更新,達(dá)到海量互聯(lián)網(wǎng)信息時(shí)代下高效信息采集的目的。
[0005]本發(fā)明實(shí)施例提供一種基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法,包括:
51、采用網(wǎng)頁結(jié)構(gòu)分析方法對(duì)每個(gè)采集后的網(wǎng)頁進(jìn)行量化打分;
52、頁面分?jǐn)?shù)大于一定閾值(Θ)判定為Hub頁面,參與更新采集調(diào)度;
53、將Hub頁面分?jǐn)?shù)劃定等級(jí),不同等級(jí)采用不同的調(diào)度周期實(shí)施調(diào)度;
54、每輪采集后,重新調(diào)整Hub頁面調(diào)度等級(jí),在持續(xù)調(diào)整過程中實(shí)現(xiàn)更新采集效果的不斷優(yōu)化。
[0006]其中,SI中有效網(wǎng)頁結(jié)構(gòu)信息包括:錨文本、有效鏈接、新鏈接、URL特征、非鏈接文字等。從采集后的網(wǎng)頁中抽取這些信息,并計(jì)算其在網(wǎng)頁中所占的對(duì)應(yīng)比例。
[0007]每一項(xiàng)結(jié)構(gòu)信息所占比例作為量化打分的一個(gè)量化因子,所有量化因子定義如下。
[0008]量化因子A:錨文本占比,是頁面中所有錨文本字符長度之和與網(wǎng)頁所有的內(nèi)容字符的長度之比。
[0009]量化因子B:有效鏈接占比,錨文本長度符合一定長度范圍的鏈接作為有效鏈接,長度超過一定大小或者小于一定大小的鏈接作為無效鏈接。頁面中有效鏈接數(shù)與總鏈接數(shù)之比即為有效鏈接占比。[0010]量化因子C:新鏈接占比,在頁面新發(fā)現(xiàn)的鏈接數(shù)與頁面中總鏈接數(shù)之比。
[0011 ] 量化因子D =URL特征,如果網(wǎng)頁的URL名字包含“ index, htm”、“default, htm”等字符串,則對(duì)該網(wǎng)頁的權(quán)值增加D。
[0012]量化因子E:非鏈接文字占比,頁面中非鏈接文字字符長度之和與網(wǎng)頁所有內(nèi)容字符的長度之比。
[0013]量化因子F:調(diào)度獎(jiǎng)罰因子,如果網(wǎng)頁在調(diào)度周期內(nèi)采集成功,權(quán)值加F ;否則權(quán)值減F。
[0014]根據(jù)上述量化因子對(duì)頁面進(jìn)行量化加權(quán),采用的加權(quán)公式如下:
頁面量化分?jǐn)?shù)=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權(quán)系數(shù),量化分?jǐn)?shù)為百分制,當(dāng)量化分?jǐn)?shù)大于100時(shí)記為100,不足O時(shí)記為O。
[0015]S2根據(jù)頁面權(quán)值,選取大于一定閾值(Θ )的頁面作為Hub頁面,參與更新調(diào)度。
[0016]S3根據(jù)頁面權(quán)值,將Hub頁面劃分到不同權(quán)值范圍,每一個(gè)權(quán)值范圍作為一個(gè)等級(jí),賦予不同的調(diào)度周期,根據(jù)采集規(guī)模的不同,確定周期范圍。
[0017]S4每次更新采集后要對(duì)頁面進(jìn)行重新量化打分,劃分為不同等級(jí)后的Hub頁面如果在調(diào)度周期內(nèi)再次采集時(shí)遇到網(wǎng)絡(luò)錯(cuò)誤、頁面被刪除等,會(huì)降低一定權(quán)值,根據(jù)調(diào)整后的權(quán)值,重新確定等級(jí),判定頁面的調(diào)度周期。如果采集時(shí)更新采集成功則相應(yīng)增加一定權(quán)值,同樣根據(jù)調(diào)整后的 權(quán)值,重新確定范圍,判定該頁面的調(diào)度周期以實(shí)現(xiàn)動(dòng)態(tài)調(diào)整。
[0018]目前大型網(wǎng)頁采集系統(tǒng)很難實(shí)現(xiàn)增量式實(shí)時(shí)采集,本發(fā)明借助網(wǎng)頁結(jié)構(gòu)信息,設(shè)計(jì)一種量化打分算法,識(shí)別Hub頁面,并對(duì)Hub頁面進(jìn)行動(dòng)態(tài)登記調(diào)整,使得高等級(jí)的Hub頁面得到優(yōu)先調(diào)度,實(shí)現(xiàn)機(jī)器和網(wǎng)絡(luò)資源的優(yōu)化和高效使用,達(dá)到海量信息增量式采集準(zhǔn)確、高校的目的。
【專利附圖】

【附圖說明】
[0019]圖1為本發(fā)明實(shí)施例提供的基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法的流程圖。
[0020]圖2為本發(fā)明實(shí)施例提供的基于網(wǎng)頁結(jié)構(gòu)分析方法的頁面量化打分算法的流程圖。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明方法作進(jìn)一步詳細(xì)說明。
[0022]如圖1所示為基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法的流程圖,采集系統(tǒng)對(duì)每一個(gè)采集后的網(wǎng)頁進(jìn)行分析,實(shí)現(xiàn)動(dòng)態(tài)采集更新調(diào)度。調(diào)度策略包括:采用頁面量化打分算法對(duì)采集網(wǎng)頁進(jìn)行量化打分(SI)、選定大于一定閾值的頁面作為Hub頁面(S2)、按Hub頁面得分劃定等級(jí),賦予不同的采集周期,進(jìn)行更新調(diào)度采集(S3)、每輪采集后重新對(duì)頁面量化打分,調(diào)整頁面等級(jí)及采集周期(S4)。
[0023]SI中采集系統(tǒng)對(duì)每個(gè)采集后的網(wǎng)頁進(jìn)行分析,獲取網(wǎng)頁結(jié)構(gòu)信息,并對(duì)每一項(xiàng)結(jié)構(gòu)信息所占比例進(jìn)行量化打分,量化打分因子包括:錨文本占比A、有效鏈接占比B、新鏈接占比C、URL特征因子D、非鏈接文字占比E、調(diào)度獎(jiǎng)罰因子F。
[0024]采用如下加權(quán)公式,根據(jù)上述量化因子對(duì)頁面進(jìn)行量化加權(quán):頁面量化分?jǐn)?shù)=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權(quán)系數(shù),量化分?jǐn)?shù)為百分制,當(dāng)量化分?jǐn)?shù)大于100時(shí)記為100,不足O時(shí)記為O。
[0025]量化因子的加權(quán)系數(shù)會(huì)根據(jù)目標(biāo)網(wǎng)站集合的不同而有所差別,其取值范圍通常依據(jù)經(jīng)驗(yàn)來確定,例如新聞?lì)惥W(wǎng)站α的經(jīng)驗(yàn)值為0.45、β的經(jīng)驗(yàn)值為0.15、Y的經(jīng)驗(yàn)值為
0.15、δ的經(jīng)驗(yàn)值為0.25,政府類網(wǎng)站α的經(jīng)驗(yàn)值為0.2、β的經(jīng)驗(yàn)值為0.4、Y的經(jīng)驗(yàn)值為0.2、δ的經(jīng)驗(yàn)值為0.2。
[0026]調(diào)度獎(jiǎng)罰因子在初始打分時(shí)不存在,每輪采集后對(duì)頁面進(jìn)行分?jǐn)?shù)調(diào)整時(shí),調(diào)度獎(jiǎng)罰因子是一個(gè)重要調(diào)整因子。
[0027]S2根據(jù)頁面量化分?jǐn)?shù),選取大于一定閾值(Θ )的頁面作為Hub頁面,參與下一期更新調(diào)度。例如,頁面量化分制為百分制,閾值Θ可取值為60。
[0028]S3根據(jù)頁面量化分?jǐn)?shù),將Hub頁面劃分到不同權(quán)值范圍,每一個(gè)權(quán)值范圍作為一個(gè)等級(jí),賦予不同的調(diào)度周期,根據(jù)采集規(guī)模的不同,確定周期范圍。如下表為一種調(diào)度周期計(jì)劃:
【權(quán)利要求】
1.基于網(wǎng)頁結(jié)構(gòu)的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,包括: SI,采用網(wǎng)頁結(jié)構(gòu)分析方法對(duì)每個(gè)采集后的網(wǎng)頁進(jìn)行量化打分; S2,頁面分?jǐn)?shù)大于一定閾值(Θ )判定為Hub頁面,參與更新采集調(diào)度; S3 JfHub頁面分?jǐn)?shù)劃定等級(jí),不同等級(jí)采用不同的調(diào)度周期實(shí)施調(diào)度; S4,每輪采集后,重新調(diào)整Hub頁面調(diào)度等級(jí),在持續(xù)調(diào)整過程中實(shí)現(xiàn)更新采集效果的不斷優(yōu)化。
2.如權(quán)利要求1所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,更新調(diào)度策略需在對(duì)待采集網(wǎng)頁進(jìn)行初始采集后進(jìn)行。
3.如權(quán)利要求1所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,SI中有效網(wǎng)頁結(jié)構(gòu)信息包括:錨文本、有效鏈接、新鏈接、URL特征、非鏈接文字等。
4.如權(quán)利要求1和權(quán)利要求3所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,每一項(xiàng)結(jié)構(gòu)信息所占比例作為量化打分的一個(gè)量化因子,所有量化因子定義如下: 量化因子A:錨文本占比,是頁面中所有錨文本字符長度之和與網(wǎng)頁所有的內(nèi)容字符的長度之比; 量化因子B:有效鏈接占比,錨文本長度符合一定長度范圍的鏈接作為有效鏈接,長度超過一定大小或者小于一定大小的鏈接作為無效鏈接;頁面中有效鏈接數(shù)與總鏈接數(shù)之比即為有效鏈接占比; 量化因子C:新鏈接占比,在頁面新發(fā)現(xiàn)的鏈接數(shù)與頁面中總鏈接數(shù)之比; 量化因子D =URL特征,如果網(wǎng)頁的URL名字包含“index.htm”、“default.htm”等字符串,則對(duì)該網(wǎng)頁的權(quán)值增加D ; 量化因子E:非鏈接文字占比,頁面中非鏈接文字字符長度之和與網(wǎng)頁所有內(nèi)容字符的長度之比; 量化因子F:調(diào)度獎(jiǎng)罰因子,如果網(wǎng)頁在調(diào)度周期內(nèi)采集成功,權(quán)值加F ;否則權(quán)值減F。
5.如權(quán)利要求1和權(quán)利要求4所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,頁面量化加權(quán)打分,按如下公式計(jì)算: 頁面量化分?jǐn)?shù)=α *Α+β *B+Y *C+D_ δ *E +/- F,其中α、β、Y、δ為各量化因子的加權(quán)系數(shù)。
6.如權(quán)利要求5所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,量化分?jǐn)?shù)為百分制,當(dāng)量化分?jǐn)?shù)大于100時(shí)記為100,不足O時(shí)記為O。
7.如權(quán)利要求5和權(quán)利要求6所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,量化分?jǐn)?shù)大于一定閾值(Θ )的頁面作為Hub頁面,參與更新調(diào)度,否則不進(jìn)行更新調(diào)度。
8.如權(quán)利要求1和權(quán)利要求5所述的信息動(dòng)態(tài)采集更新調(diào)度方法,其特征在于,將Hub頁面的量化分?jǐn)?shù)劃分到不同權(quán)值范圍,每一個(gè)權(quán)值范圍作為一個(gè)等級(jí),賦予不同的調(diào)度周期,根據(jù)采集規(guī)模的不同,確定周期范圍。
9.如權(quán)利要求1所述的信息動(dòng)態(tài)更新采集調(diào)度方法,其特征在于,每次更新采集后需要對(duì)頁面進(jìn)行重新量化打分,劃分為不同等級(jí)后的Hub頁面,如果在調(diào)度周期內(nèi)采集失敗,則降低一定權(quán)值;如果采集成功則相應(yīng)增加一定權(quán)值,根據(jù)調(diào)整后的權(quán)值,重新確定范圍,判斷該頁面的調(diào)度周期,實(shí)施動(dòng)態(tài)調(diào)度。
【文檔編號(hào)】G06F17/30GK103793421SQ201210428272
【公開日】2014年5月14日 申請(qǐng)日期:2012年10月31日 優(yōu)先權(quán)日:2012年10月31日
【發(fā)明者】都云程 申請(qǐng)人:北京拓爾思信息技術(shù)股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1